18. 如何训练一个会思维链(CoT)的模型

训练一个会思维链(CoT)的模型,很多人的第一反应是:

收集几十万条 <think> 数据直接训练。

实际上效果往往不好。

因为模型首先需要学会的不是推理能力,而是:

什么情况下应该输出<think>
<think>格式长什么样
<think>和最终答案如何区分

因此训练 CoT 模型通常采用:

从简单到复杂(Curriculum Learning,课程学习)


第一阶段:让模型学会 <think> 格式

刚开始不要给特别复杂的推理。

例如:

Input:
1+1=?
Output:
<think>
1+1=2
</think>

2

再例如:

Input:
中国首都是哪里?
Output:
<think>
这是一个事实性问题
中国首都是北京
</think>

北京

这里的重点不是推理。

而是:

学会输出格式

为什么不要一开始给长CoT

例如:

<think>
第一步...
第二步...
第三步...
...
1000字推理
</think>

此时模型可能连:

<think>
</think>

都还没学明白。

训练会变得不稳定。


推荐训练流程

Base Model

少量简单Think数据

学习Think格式

检查输出

是否正确输出Think?

加入复杂推理数据

学习长CoT

RL优化推理


DeepSeek-R1 实际采用的方法

很多人误以为:

DeepSeek-R1

=

直接RL

实际上并不是。

R1经历了多个阶段。


DeepSeek-R1训练总览

可以简化为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值