
文章核心总结与翻译
一、主要内容
文章针对大型语言模型(LLMs)在多轮推理中存在的逻辑不一致、事实错误等问题,提出了一种基于博弈论的贝叶斯解码游戏(BDG)框架。该框架将解码过程建模为生成器(负责生成候选输出)与验证器(负责评估输出正确性)之间的多阶段信号博弈,通过马尔可夫策略更新和σ分离均衡约束,在无需人类反馈或额外训练的情况下,实现输出一致性与正确性的平衡。实验表明,BDG能让小型模型(如LLaMA-13B)在多个基准任务上超越大型模型(如PaLM-540B),并显著提升各类模型的性能(如DeepSeek-7B在MMLU上提升12.4%)。
二、创新点
- 提出贝叶斯解码游戏(BDG) :将LLM解码建模为信号博弈,通过生成器与验证器的战略互动实现自校验,解决单智能体反思的一致性问题和多智能体辩论的合谋问题。
- 设计σ分离均衡:通过约束生成器和验证器的策略差异,避免基于统计模式而非事实正确性的合谋均衡,确保正确与错误输出的明确区分。
- 优化马尔可夫策略更新:相比传统无 regret 优化,收敛速度提升30倍,且计算复杂度更低(O(n log n) vs O(n²))。
- 模型无关性与泛化性:可适配各类LLM,在推理、医疗、伦理等

订阅专栏 解锁全文

217

被折叠的 条评论
为什么被折叠?



