17. 强化学习需要什么数据？

最新推荐文章于 2026-06-25 14:21:12 发布

原创

最新推荐文章于 2026-06-25 14:21:12 发布 · 145 阅读

标签

#深度学习 #人工智能 #机器学习

收录于

在微调（Fine-tuning）中，最重要的是：

Input → Output

模型学习模仿正确答案。

而在强化学习（RL）中：

模型不仅需要答案，

还需要知道：

这个答案好不好？

因此 RL 的数据结构比 SFT 更复杂。

强化学习需要什么？

回顾前面介绍过的 RL 公式：

RL = Model + Environment + Reward

对应的数据组成：

因此 RL 的核心数据实际上有两类：

轨迹数据（Trajectory Data）
偏好数据（Preference Data）

第一类：轨迹数据（Trajectory）

轨迹（Trajectory）是：

模型与环境交互产生的完整过程

例如：

Question:
23 ÷ 13 等于多少？

模型：

<think>
23除13

约等于1.769
</think>

1.769

验证器：

正确

奖励：

+1

完整轨迹：

Prompt

↓

Generation

↓

Environment

↓

Reward

Trajectory 数据结构

{
   
   
  "prompt": "23÷13等于多少？",
  "response": "<think>...</think>1.769",
  "reward": 1.0
}

RL轨迹流程

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

voidmort

关注关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

（17-4）:基于强化学习的自动驾驶系统：准备数据文件

码农三叔

04-20

1193

（9）定义函数main，这是主要的执行函数，用于创建CARLA客户端、加载CARLA世界、生成车辆和传感器、模拟车辆运行、收集传感器数据以及保存数据。这个文件通常是在数据收集和数据预处理后使用的，它可以处理多个文件夹中的数据，包括相机图像、深度图像、语义分割图像以及附加信息，并将它们保存到一个统一的数据集文件中。编写文件data/utils.py，功能是提供了处理CARLA模拟器中的图像和数据的方法，例如将图像从CARLA原始格式转换为numpy数组，执行语义分割标签的映射，计算车辆距离车道中心的距离等。

参与评论您还未登录，请先登录后发表或查看评论

（17-7-01）基于强化学习的自动驾驶系统：生成训练数据+训练模型

码农三叔

05-10

1431

这个文件包含了自编码器模型的训练逻辑，以及数据集的准备和处理。编写文件collect_data_autoencoder.py，功能是收集与自动编码器训练相关的数据，在模拟环境中生成并记录与自动编码器训练相关的各种数据，以便后续用于深度学习模型的训练和研究。（2）数据多样性：通过设置不同的路线（route）和通行次数（passes），以及在不同天气条件下模拟数据，从而收集多样性的数据。（3）数据格式：根据命令行参数-np的设置，数据可以以图像或NumPy数组的形式保存，这取决于用户的选择。

DAPO-Math-17K：一个包含17,000个数学问题及其整数答案的数据集，专为大规模LLM强化学习设计，经过精心转换以确保准确的奖励信号。

u011559552的博客

03-20

1114

2025-03-17, 由字节跳动、清华大学人工智能产业研究院、香港大学和清华大学AIR-SIA实验室联合创建了DAPO系统及其配套的DAPO-Math-17K数据集。该数据集通过精心设计和转换，为大规模LLM强化学习提供了高质量的数学问题和答案，助力模型在复杂推理任务上取得显著提升，推动了LLM在数学领域的应用和发展。

DAPO：一个开源的大规模大型语言模型LLM强化学习系统

AI人工智能的学习之路

03-20

2832

DAPO为大规模LLM强化学习提供了开源解决方案，其技术细节（尤其是四大核心策略）对复现SOTA结果具有重要参考价值。算法工程师可基于此框架探索更复杂的RL应用场景，如多模态交互与自主决策。

（17-7-02）基于强化学习的自动驾驶系统：收集CARLA环境中的专家驾驶数据

码农三叔

05-15

826

总之，上述代码用于在 CARLA 仿真环境中运行多个仿真 episode，用于记录车辆的观察数据和驾驶行为，然后将这些数据保存到指定的输出文件夹中，以便用于后续的自动驾驶代理训练和评估工作。（1）解析命令行参数：使用 ArgumentParser 解析命令行参数，这些参数包括世界端口、主机地址、天气条件、摄像头参数、仿真参数、输出文件夹、模型类型等。（2）加载预训练的自编码器模型：根据命令行参数指定的模型类型（Autoencoder、AutoencoderSEM 或 VAE），加载对应的自编码器模型。

#从零到一搭建微博情感分类系统：基于BiLSTM的PyTorch完整实战教程【3W字保姆级详解】

2401_88566519的博客

06-24

388

项目使用的是0 → 喜悦1 → 愤怒2 → 厌恶3 → 低落每条数据由两部分组成：第一列为标签（0-3的数字），第二列为微博文本内容。数据集为字符级处理，无需分词，直接按汉字拆分即可。为什么使用字符级而非词语级？对于中文短文本（如微博），字符级处理可以规避分词错误带来的误差，且词表规模更小，模型训练更快，非常适合入门级情感分类任务。函数定义与文档字符串函数接收三个参数：语料文件路径、词表最大尺寸、最低词频。文档字符串清晰说明了函数功能和参数含义，这是工程化代码的好习惯。

深度学习知识点

06-23

301

但一个“全连接网络”如果不包含隐藏层（比如只有输入直接映射到输出的单层感知机），或者结构上不满足多层非线性变换的条件，那它。这 m 个数据必须要有 m 个输入神经元来“接住”它们，然后分别通过 m 条独立的连接线（权重），传递给下一层（第一个隐藏层）的每一个神经元。假设你的数据集是一个表格，有 m 列（比如：年龄、工资、身高），那么你的输入特征维度就是 m。这种层与层之间的“两两相连”就是“全连接”名称的由来。3.多层感知机的第一层的神经元的数目等于输入特征向量的维度。1.全连接网络是指神经网络中的。

LSTM预判+速度门控双保险自愈

2301_77211362的博客

06-21

305

模块功能LSTM 预判预警分析历史通量/应力序列，预测未来失稳风险（如裂纹萌生）Speed-Gated 自愈实时监测通量变化率（速度），当超过阈值时自动增强修复强度双重触发机制满足任一条件（预判高风险或实际失稳）即启动自愈动态调节自愈强度随风险等级与速度同步变化。

Intelligent Tomato Ripeness Detection System Based on YOLOv8 Deep Learning

ZSW1218的博客

06-21

239

Abstract: With the intelligent development of modern agriculture, traditional manual tomato ripeness detection methods suffer from low efficiency, strong subjectivity, and high labor costs. To improve the accuracy and efficiency of tomato ripeness detectio

深度学习稀疏编码与 PCA 的流形解释 —— 线性因子模型收官（八十一）

hello.reader

06-21

238

本文总结了线性因子模型的两个重要主题：稀疏编码和PCA的流形解释。稀疏编码通过L1范数约束实现因子稀疏性，其编码器是非参数的优化过程，虽能获得更优重构但计算效率较低。PCA可视为学习数据所在的低维线性流形（"薄饼"几何），通过保留方差最大的主成分实现降维，并可从线性自编码器角度理解其编码-解码过程。这些线性模型为后续自编码器等深度表示学习模型奠定了基础，同时也揭示了线性方法的局限性，如稀疏编码生成样本质量不佳的问题。文章通过几何动画和对比表格直观展示了关键概念的技术原理与优劣。

深度学习自编码器基础与欠完备自编码器 —— 复制的艺术（八十二）

hello.reader

06-21

668

自编码器不需要标签（用数据自身作监督信号，目标是重构 x），产出有用表示 h，能利用无标注的海量数据。非线性自编码器能找弯曲的流形（曲面），是 PCA 的强大推广，能捕捉更复杂的数据结构。上图展示自编码器的两个组件：编码器 f（x→h）和解码器 g（h→r），目标是 r 近似 x。上图展示欠完备自编码器的沙漏结构：编码维度（瓶颈，如 2 维）小于输入维度（如 8 维）。也有更具生物学意义的**再循环（recirculation）**算法（比较原始输入与重构输入的激活），但很少用于实际。

吴恩达《深度学习》之看懂注意力机制的“精准一瞥”

m0_74435839的博客

06-24

286

多头注意力机制。语言是极其复杂的。当我们看到一句话里的某个词时，我们往往需要同时关注很多不同的维度。比如看这句话：“那只巨大的猫懒洋洋地躺在垫子上，它刚刚吃了鱼。当我们盯着“猫”我们的左眼可能需要关注它的修饰语（什么猫？——巨大的猫）；我们的右眼可能需要追踪它的代词指代（谁吃了鱼？——“它”指的是猫）。如果我们只有“一双眼睛”（单头注意力机制），网络在同一时间只能计算出一组α\alphaα。它如果去看了“巨大的”，就没办法同时去死死盯着“它”。

理解RNN：Learning long-term dependencies with gradient descent is difficult

weixin_45209433的博客

06-24

265

为什么说记住了h1，因为即使到后面100个时刻，a100仍然大于0，说明输入h1>0，a100>0，当然h1<0，a100<0，这个可以自行计算，这就是过去的信息仍然存在于当前状态。之后如果没有输入，RNN持续输出0.957左右，根据上的计算可可以知道，隐藏值a一直在1.9左右，处于tanh的饱和区，所以输出经过tanh后，输出在0.957左右。这是只有1个神经元的RNN，我们通过举例子，来说明下RNN的内部具体是怎么操作的，以及其特点，假设w =2, a0 = 0，给予的输入是正值。

深度学习自编码器的概率视角与流形学习 —— 编码器即分布（八十四）

hello.reader

06-21

157

上图总结自编码器的概率视角三层次：确定函数（h=f(x), r=g(h)，传统自编码器）→ 概率分布（p(h|x), p(x|h)，随机自编码器）→ 生成模型（近似后验+似然+先验，VAE）。上图展示流形的经典例子：把一张 MNIST 图像垂直平移，所有平移版本在 784 维空间中构成一条 1 维流形（弯曲路径），平移量就是沿流形的坐标。把编码器/解码器从函数推广为分布，再加上对隐变量先验的建模和变分下界，就得到了 VAE——一个真正的深度生成模型。前两篇讲了自编码器的结构（82）和正则化（83）。

深度学习迁移学习与域适应 —— 知识的搬运术（八十七）

hello.reader

06-24

139

迁移学习和域适应指的是利用一个情景（如分布P1P_1P1）中已经学到的内容，去改善另一个情景（如分布P2P_2P2）中的泛化情况。在迁移学习中，学习器必须执行两个或更多个不同的任务，但我们假设能够解释P1P_1P1变化的许多因素和学习P2P_2P2需要抓住的变化相关。在域适应的相关情况下，每个情景之间任务（和最优的输入到输出映射）都是相同的，但输入分布稍有不同。迁移学习：任务不同域适应：任务相同，输入分布不同。

【训练与微调篇07】训练监控与模型评估：从实验管理到Benchmark实战

weixin_54908067的博客

06-22

454

本文系统介绍了2026年大模型评估体系的最新发展与实践方法，主要内容包括：系统化评估的必要性指出仅监控训练Loss的局限性提出三层评估架构：实时训练监控、定期基准测试、最终全面评估训练监控系统搭建详细演示Weights & Biases(W&B)的实战应用提供完整的Python实现代码介绍MLflow自托管方案作为替代选择评估体系创新强调多维度标准化评估的重要性涵盖16+核心Benchmark指标提出Multi-Score综合评分框架文章通过具体代码示例和系统架构图，展示了如何构建完

通用表格识别技术通过深度学习与计算机视觉，实现了复杂表格的高精度数字化解析

智能图像识别

06-22

409

摘要：通用表格识别技术通过深度学习与计算机视觉，实现了复杂表格的高精度数字化解析。该技术采用CNN+Transformer融合架构，支持有线/无线表格检测、结构还原与文字识别同步处理，具备多级表头识别、跨页续接等能力，在金融、政务、医疗等领域广泛应用。相比传统OCR，其突破性在于保留表格行列关系与合并单元格结构，将静态图像转化为可计算数据，解决了低质量文档识别难题，显著提升了企业数据自动化处理效率，成为数字化转型的关键基础设施。

LeNet-5 详解：从一只猫的图片看懂卷积神经网络的经典架构