2025_NIPS_From Self-Check to Consensus: Bayesian Strategic Decoding in Large Language Models

在这里插入图片描述

文章核心总结与翻译

一、主要内容

文章针对大型语言模型(LLMs)在多轮推理中存在的逻辑不一致、事实错误等问题,提出了一种基于博弈论的贝叶斯解码游戏(BDG)框架。该框架将解码过程建模为生成器(负责生成候选输出)与验证器(负责评估输出正确性)之间的多阶段信号博弈,通过马尔可夫策略更新和σ分离均衡约束,在无需人类反馈或额外训练的情况下,实现输出一致性与正确性的平衡。实验表明,BDG能让小型模型(如LLaMA-13B)在多个基准任务上超越大型模型(如PaLM-540B),并显著提升各类模型的性能(如DeepSeek-7B在MMLU上提升12.4%)。

二、创新点

  1. 提出贝叶斯解码游戏(BDG) :将LLM解码建模为信号博弈,通过生成器与验证器的战略互动实现自校验,解决单智能体反思的一致性问题和多智能体辩论的合谋问题。
  2. 设计σ分离均衡:通过约束生成器和验证器的策略差异,避免基于统计模式而非事实正确性的合谋均衡,确保正确与错误输出的明确区分。
  3. 优化马尔可夫策略更新:相比传统无 regret 优化,收敛速度提升30倍,且计算复杂度更低(O(n log n) vs O(n²))。
  4. 模型无关性与泛化性:可适配各类LLM,在推理、医疗、伦理等
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值