什么是蒸馏优化（Distillation）

最新推荐文章于 2026-05-15 12:40:54 发布

原创最新推荐文章于 2026-05-15 12:40:54 发布 · 847 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习 #深度学习 #人工智能

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

蒸馏（Distillation）是一种 模型压缩和优化 技术，通常用于让 小模型 学习 大模型 的知识，使其在推理时更高效，同时仍然保留较强的能力。

蒸馏过程的核心：

教师模型（Teacher Model）： 一个 大模型，通常性能更强，但计算开销大。
学生模型（Student Model）： 一个 较小的模型，通过学习教师模型的知识，尝试在较低计算成本下达到类似的效果。
学习方式：
- 传统训练是用数据和标签让模型学习，而蒸馏是让学生模型模仿教师模型的输出（软标签 Soft Labels）。
- 除了标准的交叉熵损失，蒸馏可能会引入 KL 散度 或 匹配中间层的表示 作为额外的训练目标，使得小模型更接近大模型的行为。

简单理解：

DeepSeek 团队并不是不能训练自己的模型，而是 基于现实考虑选择蒸馏 Qwen，可能有以下几个原因：

训练一个大语言模型（LLM） 从头开始（Pretrain） 需要极大的计算资源，比如 数万张 GPU、数百万美元。
但如果 基于一个已有的高质量模型（如 Qwen）进行蒸馏，可以 节省大量算力，同时仍然获得不错的效果。
例如：
- 训练一个 100B+ 参数 的模型需要 数千万美元。
- 但蒸馏一个 10B 以内的模型 可能只需要 百万级美元 甚至更少。

训练一个新模型的目标可能是提高整体能力，但 DeepSeek 的目标可能更偏向 优化推理速度 和 减少计算资源。
通过蒸馏，他们可以：
- 减少参数量，提高推理速度。
- 调整微调数据，让模型在特定领域（比如代码、对话）表现更好。
- 适配自己的基础设施，比如在特定 GPU/TPU 上优化性能。

方式	优点	缺点
直接训练新模型	适合从头构建，能完全定制	成本高、时间长，需要海量数据
基于开源模型蒸馏	快速优化已有模型，降低计算成本	受限于原始模型的质量

DeepSeek 选择 蒸馏 Qwen，而不是从头训练自己的模型，主要是 节省算力、降低训练成本，并快速优化模型推理能力。如果未来他们积累了足够的资源，也可能会推出自己的完整预训练模型，而不仅仅是蒸馏优化版本。

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅