Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning

原创于 2026-06-26 08:30:00 发布 · 3 阅读

·

0

·

标签

#语言模型 #人工智能 #自然语言处理

LLM Daily 专栏收录该内容

2868 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

一、文章主要内容总结

本文聚焦大型语言模型（LLMs）推理任务的评估问题，核心围绕答案提取方法对模型性能评估的关键影响展开研究，并提出解决方案。

核心问题：传统LLM评估中，推理模型需输出思维链（CoT），但现有基于规则的答案提取方法（如字符串匹配、正则表达式）无法覆盖所有答案格式（如括号标注、自由文本、LaTeX格式等），导致模型性能评估结果受提取规则高度影响，出现性能波动、模型排名失真、可重复性差等问题。
解决方案：提出Answer Regeneration（答案再生）框架——在模型完成推理输出后，增加一次额外推理调用，向模型输入原始prompt、推理过程及前缀“Answer:”，促使模型生成简洁明确的最终答案，从而摆脱对复杂提取规则的依赖。
实验验证：在MMLU、MMLU-Pro（复杂多选题）、GSM8K（数学推理）、TriviaQA（开放式问答）等多个基准测试中验证框架有效性，涉及Qwen3系列、DeepSeek-R1等开源模型。
关键发现：
- 规则提取方法会导致模型性能波动达10%以上，甚至反转模型排名；
- 答案再生框架在所有任务中均优于规则提取方法，且使模型排名与“模型规模越大性能越好”的直觉一致；
- 框架对不完整推理、答案格式不一致、“找错误选项”等场景具有更强鲁棒性；
- 框架对再生器模型依赖度低，小型模型即可实现接近原模型

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。