背景:mindie部署qwen3-4b
问题:模型输出时输出内容被截断

显示结束原因是因为长度限制,即"finish_reason":“length”
原因:mindie的配置文件中限制了输出token长度
解决:修改mindie配置文件中的参数
"maxSeqLen" : 8192,
"maxInputTokenLen" : 2048,
"maxPrefillBatchSize" : 8,
"maxBatchSize" : 16,
"maxIterTimes" : 4096,
maxInputTokenLen(输入tokens) + maxIterTimes(输出tokens) <= maxSeqLen(总tokens)
mindie中在实际执行中,maxIterTimes的优先级通常最高。系统会先检查是否达到了生成次数限制。因此,即使 maxInputTokenLen + maxIterTimes的值小于 maxSeqLen,只要生成步数达到 maxIterTimes,也会触发 finish_reason: "length"而停止。这也就是模型输出被截断的原因,因为配置文件中maxIterTimes的默认值是512。


4714

被折叠的 条评论
为什么被折叠?



