18. 如何训练一个会思维链（CoT）的模型

最新推荐文章于 2026-06-25 20:29:15 发布

原创

最新推荐文章于 2026-06-25 20:29:15 发布 · 89 阅读

标签

#人工智能

收录于

训练一个会思维链（CoT）的模型，很多人的第一反应是：

收集几十万条 <think> 数据直接训练。

实际上效果往往不好。

因为模型首先需要学会的不是推理能力，而是：

什么情况下应该输出<think>
<think>格式长什么样
<think>和最终答案如何区分

因此训练 CoT 模型通常采用：

从简单到复杂（Curriculum Learning，课程学习）

第一阶段：让模型学会 `<think>` 格式

刚开始不要给特别复杂的推理。

例如：

Input:
1+1=？

Output:
<think>
1+1=2
</think>

2

再例如：

Input:
中国首都是哪里？

Output:
<think>
这是一个事实性问题
中国首都是北京
</think>

北京

这里的重点不是推理。

而是：

学会输出格式

为什么不要一开始给长CoT

例如：

<think>
第一步...
第二步...
第三步...
...
1000字推理
</think>

此时模型可能连：

<think>
</think>

都还没学明白。

训练会变得不稳定。

DeepSeek-R1 实际采用的方法

很多人误以为：

DeepSeek-R1

=

直接RL

实际上并不是。

R1经历了多个阶段。

DeepSeek-R1训练总览

可以简化为：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

voidmort

关注关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

OpenAI开发系列（八）：基于思维链(CoT)的进阶提示工程

无敌小怪兽_Zz的博客

07-19

4565

本篇文章首先引入了四个经典推理问题，然后详细讲解了One-shot与Few-shot提示学习法。核心部分是思维链提示法，包括Zero-shot-CoT提示方法、Few-shot-CoT提示方法，以及CoT的改良方法LEAST-TO-MOST PROMPTING（LtM提示法）。这些深度的内容旨在帮助理解和掌握更加进阶的提示工程技巧，以便在大模型开发中实现更高效的应用和优化。

参与评论您还未登录，请先登录后发表或查看评论

【AI论文】SIM-CoT：监督式隐式思维链

m0_66899341的博客

09-29

1295

摘要：本研究针对隐式思维链(CoT)方法在扩展计算预算时出现的训练不稳定问题，提出SIM-CoT训练模块。通过引入辅助解码器实现步级监督，将隐式标记与显式推理步骤对齐，有效防止潜在表征同质化。实验表明，SIM-CoT显著提升模型性能(GPT-2准确率提高8.2%，LLaMA-3.18B提高3.0%)，同时保持计算效率。该方法还赋予隐式推理可解释性，支持步骤语义可视化。研究为提升大语言模型推理能力提供了新思路，但对其他任务类型的适用性仍需验证。

什么是CoT（Chain of Thought，思维链）？

i_zyh的博客

10-09

1699

CoT原文提出的思维链(CoT)提示方法，通过在输入示例中加入中间推理步骤，显著提升大语言模型在复杂推理任务中的表现。CoT通过"输入-思维链-输出"的三元组示例，引导模型分步思考，模拟人类推理过程。实验证明，CoT在算术、常识和符号推理三类任务上效果显著，尤其适合100B以上参数的大模型。但该方法存在局限性：推理链可能出错、依赖大模型、需要人工标注示例、无法验证模型是否真正理解推理逻辑。相比传统方法，CoT无需微调，在保持低成本的同时提高了通用性。

干货分享 | 什么是大模型思维链？

Appen_China的博客

12-30

1329

这种方法非常适合对模型进行推理能力训练，因为三元对数据（问题，推理链，答案）构成的多组数据可以为模型复现推理链提供更多参考，更高效地提高模型的推理能力。最近的一项研究表明，Google Research 团队发现，思维链数据集训练后的模型，对小学数学的解决准确率达到了57%，远远高于用基础问题&答案数据集训练出来的模型（18%）。澳鹏为您的思维链训练提供全面的数据支持，包括微调数据集（即三元对数据，包含问题，推理链，答案），创建思维链提示，以及内容评分等，为您的模型推理能力提升进行闭环支持。

思维链（CoT）技术全景：原理、实现与前沿应用深度解析

拒绝AI玄学，只聊真技术▲

07-19

1594

CoT 不仅是性能增强工具，更是。

详解AI-Agent中的MCP（Model Context Protocol），与function call的区别与联系

m0_60827485的博客

06-24

451

摘要： MCP（Model Context Protocol）与Function Call在工业级AI-Agent架构中存在本质差异。Function Call是模型调用工具的具体动作（如结构化指令执行），而MCP是管理工具调用与上下文的协议层，相当于AI Agent的“操作系统”。核心区别：抽象层级：Function Call关注单次工具调用（动作层），MCP管理多轮调度、状态、权限等（协议层）。能力范围：MCP涵盖上下文治理、工具路由、记忆管理等，Function Call仅解决“调用哪个函数”。

破局异构算力与多协议接入：基于 Docker 与 GB28181/RTSP 的边缘计算 AI 视频管理平台架构解析

m0_65443681的博客

06-25

318

该平台针对行业痛点提出三大创新解决方案：1）异构算力解耦，通过容器化技术实现X86/ARM架构及GPU/NPU芯片的跨平台适配，硬件抽象层设计使算法迁移效率提升95%；2）多协议流媒体融合引擎，支持GB28181/RTSP等主流协议及H.265/4K视频解析，实现品牌设备统一接入；3）闭环AI生态，集成算法商城、数据标注、可视化大屏及全渠道告警系统，提供从标注到推理的完整工作流。平台采用微服务架构，支持源码交付和OEM定制，显著降低二次开发成本，适用于智慧城市、工业视觉等场景的私有化部署需求。

Rethinking Cross-Layer Information Routing in Diffusion Transformers

liguandong

06-21

718

论文：本文是我的精读笔记，梳理它的诊断、方法与实验，并谈谈个人看法。

每日 AI 研究简报 · 2026-06-22

:: Dotnet Fantasy ::

06-22

303

本周 AI 领域迎来历史性转折——Claude Fable 5 短暂登顶后被叫停，智谱 GLM-5.2 开源破局逼近闭源前沿，全球大模型竞争进入"能力天花板"与"监管天花板"双轨博弈新阶段。

酒店技术创新报告：AI 趋势与战术（2026 年 Q2）

2509_93962717的博客

06-22

589

酒店 AI 已从“提供建议”进化到“自主执行”。核心变化是：AI 不再只是辅助决策，而是直接完成端到端任务（如调价、回复问询、处理会计流程），人类只介入例外和风险判断。

2025-TMM《Tensor-Based Late Fusion Incomplete Multiview Clustering》

Christo的博客

06-24

275

2025年（收稿日期 2024-05-20；录用日期 2025-01-04；正式发表日期 2025-05-07；当前版本日期 2025-09-24）：Xiaoxing Guo, Ming Yang, Gui-Fu Lu（通讯作者：Gui-Fu Lu）：安徽工程大学计算机与信息学院；哈尔滨工程大学数学科学学院。

最新量化工具怎么选，先看自己的能力短板

最新发布

2601_95631988的博客

06-25

292

读者应理解，工具选择不是越复杂越好，而是要贴合当前能力和任务阶段；同时，回测、模拟和实盘验证的问题不同，工具也应服务于这些不同判断。

关于高维数据下的最近邻搜索算法性能分析的技术7

平头的博客

06-24

363

格式说明：

2024-TIP《Spectral Embedding Fusion for Incomplete Multiview Clustering》

Christo的博客

06-24

262

2024年（Manuscript received 24 October 2022；：Jie Chen, Yingke Chen, Zhu Wang, Haixian Zhang, Xi Peng（四川大学计算机学院；英国 Northumbria University 计算机与信息科学系；四川大学法学院）

深度学习自编码器基础与欠完备自编码器 —— 复制的艺术（八十二）

hello.reader

06-21

662

自编码器不需要标签（用数据自身作监督信号，目标是重构 x），产出有用表示 h，能利用无标注的海量数据。非线性自编码器能找弯曲的流形（曲面），是 PCA 的强大推广，能捕捉更复杂的数据结构。上图展示自编码器的两个组件：编码器 f（x→h）和解码器 g（h→r），目标是 r 近似 x。上图展示欠完备自编码器的沙漏结构：编码维度（瓶颈，如 2 维）小于输入维度（如 8 维）。也有更具生物学意义的**再循环（recirculation）**算法（比较原始输入与重构输入的激活），但很少用于实际。

20 Embedding 与向量检索：语义为什么能变成距离

老于的笔记的专栏

06-22

960

Embedding 是 RAG 语义检索的数学基础。本文用工程视角讲清文本如何变成向量，为什么语义相近会表现为距离相近，Top-K 检索如何工作，以及在模型选择、同模型约束、精确匹配和召回评估上的常见坑。

淘宝商品SKU图自动分类技术深度解析：从DOM容器定位到智能属性识别的完整实现

huangdong_的博客

06-21

216

SKU图是商品规格对应的细节图片，是电商运营中最重要的素材类型之一。类型说明淘宝示例颜色图不同颜色的商品展示红色款、蓝色款、黑色款尺码图不同尺码的细节展示S码、M码、L码型号图不同型号的配置展示标准版、Pro版、Max版平台测试商品数识别成功识别率平均耗时淘宝20019296.0%1.2秒京东20018492.0%1.1秒拼多多20018291.0%1.3秒168820019095.0%1.2秒容器定位：多选择器策略兼容不同平台属性提取。

GitHub - mukul975/Anthropic-Cybersecurity-Skills: 817个结构化网络安全技能，适用于AI代理

06-23

484

⚠️— 本项目为独立社区创建，与 Anthropic PBC 无任何关联。

显存爆炸解决方法之梯度累积：是什么、为什么、怎么做？从数学原理到代码落地的全流程指南

qq_62634342的博客

06-23

510

显存爆炸（OOM）是深度学习训练中的高频痛点，而梯度累积（Gradient Accumulation）作为最核心的显存优化手段之一，却常被误用或理解不深。本文按照“是什么-为什么-怎么做”的结构化逻辑，系统梳理梯度累积技术的完整知识体系：从数学本质出发，推导reduction='sum'/'mean'对梯度的影响及Loss缩放的必要性；深入剖析PyTorch标准实现范式、BatchNorm层在累积步数下的行为陷阱，以及TensorFlow/PyTorch混合训练中Loss对齐的工程细节；最后结合大模型训练场

2021-TPAMI《Incomplete Multiple Kernel Alignment Maximization for Clustering》

Christo的博客

06-23

179

时间：2021 发表场所：IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)作者：Xinwang Liu（国防科技大学，计算机学院）DOI：10.1109/TPAMI.2021.3116948现有的多核对齐（MKA, Multiple Kernel Alignment）最大化聚类算法（如 SimpleMKKM）均假设预先计算好的多个基础核矩阵 KpK_pKp 都是完整的。然而在阿尔茨海默病预测、心脏病鉴别、癌症生物学

18. 如何训练一个会思维链（CoT）的模型

第一阶段：让模型学会 <think> 格式

为什么不要一开始给长CoT

推荐训练流程

DeepSeek-R1 实际采用的方法

DeepSeek-R1训练总览

第一阶段：让模型学会 `<think>` 格式