在微调(Fine-tuning)中,最重要的是:
Input → Output
模型学习模仿正确答案。
而在强化学习(RL)中:
模型不仅需要答案,
还需要知道:
这个答案好不好?
因此 RL 的数据结构比 SFT 更复杂。
强化学习需要什么?
回顾前面介绍过的 RL 公式:
RL = Model + Environment + Reward
对应的数据组成:
因此 RL 的核心数据实际上有两类:
- 轨迹数据(Trajectory Data)
- 偏好数据(Preference Data)
第一类:轨迹数据(Trajectory)
轨迹(Trajectory)是:
模型与环境交互产生的完整过程
例如:
Question:
23 ÷ 13 等于多少?
模型:
<think>
23除13
约等于1.769
</think>
1.769
验证器:
正确
奖励:
+1
完整轨迹:
Prompt
↓
Generation
↓
Environment
↓
Reward
Trajectory 数据结构
{
"prompt": "23÷13等于多少?",
"response": "<think>...</think>1.769",
"reward": 1.0
}


1193

被折叠的 条评论
为什么被折叠?



