Transformer——Q91 温度缩放（Temperature Scaling）对概率分布熵的影响证明

最新推荐文章于 2026-06-23 12:28:29 发布

原创

最新推荐文章于 2026-06-23 12:28:29 发布 · 1.3k 阅读

标签

#transformer #深度学习 #人工智能 #解码策略 #采样与可控性

该问题归类到Transformer架构问题集——解码策略——采样与可控性。请参考LLM数学推导——Transformer架构问题集。

1. 引言

在大语言模型（LLM）的文本生成领域，温度缩放（Temperature Scaling）是一项看似简单却蕴含深刻数学原理的核心技术。它通过一个名为 温度 T 的参数，像调节水龙头一样控制着模型输出的 “确定性” 与 “多样性”—— 低温让生成如精密钟表般严谨，高温则让创意如喷泉般迸发。而这一切的本质，在于温度对概率分布 ** 熵（Entropy）** 的精准调控。本文将从技术本质、数学推导、实战应用到优化策略，逐层揭开温度缩放的神秘面纱，帮助读者深入理解这一技术如何重塑 LLM 的生成逻辑。

2. 技术原理：温度如何重塑概率分布的 “灵魂”

2.1 从 logits 到概率：一场关于 “选择” 的数学魔法

LLM 在生成每个词时，会输出一个名为 logits 的向量 $\mathbf{z} = [z_1, z_2, \dots, z_n]$ ，其中 $z_i$ 表示模型对第 i 个词的 “偏好得分”。原始 logits 通过 softmax 函数 转化为概率分布： $p_i = \frac{\exp(z_i)}{\sum_{j=1}^n \exp(z_j)}$

但直接使用原始 logits 会导致分布 “两极分化”：高得分词的概率趋近于 1，低得分词被边缘化。温度缩放的介入，相当于给 logits 加上一个 “放大镜” 或 “缩小镜”：将 logits 除以温度 T 后再输入 softmax： $p_i(T) = \frac{\exp(z_i / T)}{\sum_{j=1}^n \exp(z_j / T)}$

温度的三种 “魔法形态”：

低温（ $T \to 0^+$ ，如 T=0.5）：聚焦确定性
- 数学表现： $z_i / T$ 的差异被放大。例如，若 $z_1=5$ ， $z_2=3$ ，T=0.1，缩放后变为 50 和 30， $\exp(50)$ 远大于 $\exp(30)$ ，概率集中在第一个词（ $p_1 \approx 1$ ）。
- 分布形态：如 “激光束” 般锐利，熵值 $H \to 0$ ，模型生成高度确定，适合法律文书、技术文档等需要精准性的场景。
常温（T=1）：平衡的中点
- 数学表现：直接使用原始 logits，概率分布反映模型的 “原生偏好”。
- 分布形态：介于确定与随机之间，适合大多数常规生成任务（如对话回复、新闻摘要）。
高温（ $T \to +\infty$ ，如 T=2）：拥抱多样性
- 数学表现： $z_i / T \to 0$ ，所有词的指数值趋近于 1，概率分布趋于均匀（ $p_i \approx 1/n$ ）。
- 分布形态：如 “平铺的水彩” 般均匀，熵值 $H \to \log n$ ，模型生成充满随机性，适合故事创作、诗歌生成等创意任务。