Transformer——Q91 温度缩放(Temperature Scaling)对概率分布熵的影响证明

该问题归类到Transformer架构问题集——解码策略——采样与可控性。请参考LLM数学推导——Transformer架构问题集

1. 引言

在大语言模型(LLM)的文本生成领域,温度缩放(Temperature Scaling)是一项看似简单却蕴含深刻数学原理的核心技术。它通过一个名为 温度 T 的参数,像调节水龙头一样控制着模型输出的 “确定性” 与 “多样性”—— 低温让生成如精密钟表般严谨,高温则让创意如喷泉般迸发。而这一切的本质,在于温度对概率分布 ** 熵(Entropy)** 的精准调控。本文将从技术本质、数学推导、实战应用到优化策略,逐层揭开温度缩放的神秘面纱,帮助读者深入理解这一技术如何重塑 LLM 的生成逻辑。

2. 技术原理:温度如何重塑概率分布的 “灵魂”

2.1 从 logits 到概率:一场关于 “选择” 的数学魔法

LLM 在生成每个词时,会输出一个名为 logits 的向量 \mathbf{z} = [z_1, z_2, \dots, z_n],其中 z_i 表示模型对第 i 个词的 “偏好得分”。原始 logits 通过 softmax 函数 转化为概率分布:p_i = \frac{\exp(z_i)}{\sum_{j=1}^n \exp(z_j)}

但直接使用原始 logits 会导致分布 “两极分化”:高得分词的概率趋近于 1,低得分词被边缘化。温度缩放的介入,相当于给 logits 加上一个 “放大镜” 或 “缩小镜”:将 logits 除以温度 T 后再输入 softmax:p_i(T) = \frac{\exp(z_i / T)}{\sum_{j=1}^n \exp(z_j / T)}

温度的三种 “魔法形态”:
  1. 低温(T \to 0^+,如 T=0.5):聚焦确定性

    • 数学表现z_i / T 的差异被放大。例如,若 z_1=5z_2=3,T=0.1,缩放后变为 50 和 30,\exp(50) 远大于 \exp(30),概率集中在第一个词(p_1 \approx 1)。
    • 分布形态:如 “激光束” 般锐利,熵值 H \to 0,模型生成高度确定,适合法律文书、技术文档等需要精准性的场景。
  2. 常温(T=1):平衡的中点

    • 数学表现:直接使用原始 logits,概率分布反映模型的 “原生偏好”。
    • 分布形态:介于确定与随机之间,适合大多数常规生成任务(如对话回复、新闻摘要)。
  3. 高温(T \to +\infty,如 T=2):拥抱多样性

    • 数学表现z_i / T \to 0,所有词的指数值趋近于 1,概率分布趋于均匀(p_i \approx 1/n)。
    • 分布形态:如 “平铺的水彩” 般均匀,熵值 H \to \log n,模型生成充满随机性,适合故事创作、诗歌生成等创意任务。

2.2 熵:衡量分布 “不确定性” 的数学标尺

熵的计算公式为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

墨顿

唵嘛呢叭咪吽

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值