【模型评测】SWE-bench Verified数据集-2-修复精度偏离

最新推荐文章于 2026-06-26 20:40:47 发布

原创最新推荐文章于 2026-06-26 20:40:47 发布 · 254 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

#gpu算力 #人工智能 #语言模型

20 篇文章

订阅专栏

15 篇文章

订阅专栏

如果评测分数低于模型发布的精度，该怎么办？

可以直接修改 swebench.yaml 中的 system_template 和 instance_template。项目里已经提供了不同风格的配置供参考：

配置文件	特点
`swebench.yaml`	简短提示词，无 step/cost 限制
`swebench_backticks.yaml`	详细的工作流指引，有明确的 patch 创建/提交指引，`cwd: /testbed`
`swebench_xml.yaml`	XML 格式输出，适合对 XML 标签更好的模型

如果当前用的是默认的 swebench.yaml，强烈建议试试 swebench_backticks.yaml——它的提示词更详细，包含了分析问题→复现→修复→验证→提交的完整工作流指引，以及如何用 git diff 生成 patch 的具体说明。

参数	默认值	影响
`step_limit`	`swebench.yaml` 为 0（无限），`backticks/xml` 为 250	太低会导致 agent 还没修完就被截断
`cost_limit`	`swebench.yaml` 为 0，`backticks/xml` 为 3.0	太低会中途因预算不足退出
`environment.timeout`	60s	单条命令超时，长测试可能被截断

observation_template 控制命令输出如何返回给模型——超过 10000 字符会被截断，只显示前后 5000 字符。如果模型需要看到完整输出来做判断，可以调大阈值。

backticks 和 xml 变体都设置了 temperature: 0.0（确定性输出），如果你当前没设置，加上可能有帮助。

先看失败实例的 trajectory：检查是 LimitsExceeded 退出（step/cost 不够）、格式解析失败、还是修复逻辑本身有问题
对比模型擅长的输出格式：如果模型更擅长 XML 标签输出，用 swebench_xml.yaml；如果更擅长 markdown 代码块，用 swebench_backticks.yaml
逐步调大 step_limit 和 cost_limit，排除资源不足的干扰
针对特定模型微调提示词：可以在 -c 参数中叠加覆盖，例如：

mini-extra swebench -m your-model \
  -c swebench_backticks \
  -c agent.step_limit=500 \
  -c agent.cost_limit=10.0

提示词是可以改的，但需要注意：