训练一个会思维链(CoT)的模型,很多人的第一反应是:
收集几十万条
<think>数据直接训练。
实际上效果往往不好。
因为模型首先需要学会的不是推理能力,而是:
什么情况下应该输出<think>
<think>格式长什么样
<think>和最终答案如何区分
因此训练 CoT 模型通常采用:
从简单到复杂(Curriculum Learning,课程学习)
第一阶段:让模型学会 <think> 格式
刚开始不要给特别复杂的推理。
例如:
Input:
1+1=?
Output:
<think>
1+1=2
</think>
2
再例如:
Input:
中国首都是哪里?
Output:
<think>
这是一个事实性问题
中国首都是北京
</think>
北京
这里的重点不是推理。
而是:
学会输出格式
为什么不要一开始给长CoT
例如:
<think>
第一步...
第二步...
第三步...
...
1000字推理
</think>
此时模型可能连:
<think>
</think>
都还没学明白。
训练会变得不稳定。
推荐训练流程
DeepSeek-R1 实际采用的方法
很多人误以为:
DeepSeek-R1
=
直接RL
实际上并不是。
R1经历了多个阶段。
DeepSeek-R1训练总览
可以简化为:

的模型&spm=1001.2101.3001.5002&articleId=161547600&d=1&t=3&u=0ee6f08420f94d12879f540d15aad36a)
4565

被折叠的 条评论
为什么被折叠?



