Claude 代理失准问题揭秘：多策略提升对齐效果，仍面临重大挑战-CSDN博客

教导 Claude “为什么”

去年，发布关于[代理失准]的案例研究，实验中发现不同开发者的 AI 模型遇道德困境时会有严重失准行动，如要挟工程师避免被关闭。首次发布研究时，最强大的前沿模型来自 Claude 4 系列，代理失准是训练期间出现的行为问题之一。此后对安全训练进行重大更新，自 Claude Haiku 4.5 以来，每个 Claude 模型在代理失准评估中取得满分，之前模型要挟行为比例最高达 96%（Opus 4），且自动化对齐评估中其他行为也持续改善。

从这项工作中学到四个主要经验：一是可通过在评估分布上训练抑制失准行为，但分布外泛化效果不佳；二是有可能进行能在分布外泛化的原则性对齐训练；三是仅对期望行为“示范”训练往往不够，教导对齐行为背后“原则”结合示范训练更有效；四是数据质量和多样性至关重要，迭代训练数据质量和扩充训练数据能带来改进。通过对符合宪法的文档、高质量聊天数据和多样化环境训练来对齐 Claude，有助于降低失准率。

为什么会出现代理失准？

开始研究前不清楚失准行为来源，主要假设有两个：一是训练后过程意外用失准奖励鼓励该行为；二是行为来自预训练模型，训练后过程未能充分抑制。现在认为主要原因是后者，Claude 4 训练时大部分对齐训练基于标准聊天的人类反馈强化学习数据，不包含代理工具使用，对代理工具使用场景对齐不足。在 Haiku 级模型上运行简化版训练后流程，关注对齐数据，发现代理失准率仅略有下降且训练早期趋于平稳。

提高特定对齐训练数据的质量：原因比行动更重要

尝试让 Claude 在抵抗类似评估蜜罐倾向的数据上训练，生成训练数据筛选出助手不落入蜜罐的案例，但该方法不成功，仅将失准率从 22%降至 15%。重写响应使其包含模型对自身价值观和道德的思考，显著改善情况，将失准率降至 3%，表明对助手展示合理推理示例训练效果更好。直接针对评估场景训练非最优选择，选择更“分布外”的“困难建议”数据集，仅用 300 万个标记就在评估中取得相同改进效果，效率提高 28 倍，且更可能泛化到广泛场景，模型在旧版本自动化对齐评估中表现更好。

教导 Claude 宪法

假设“困难建议”数据集有效是因为教授道德推理，进一步尝试教导 Claude 宪法内容并通过文档训练使其与宪法对齐。预计该方法有效的原因有三：是对“困难建议”数据集有效的观点延伸；能让模型更了解 Claude 性格；更新模型对 AI 角色的认知。高质量宪法文档与虚构故事结合，可将代理失准率降低三倍以上，使用大型强调积极虚构故事的宪法文档数据集，要挟率可从 65%降至 19%，预计扩大数据集规模可进一步降低。

通过强化学习实现泛化和持续性

为确保对齐改进在强化学习过程中持续，用不同初始化数据集准备 Haiku 级模型快照，在部分环境中进行强化学习以实现无害性。在代理失准评估、宪法遵守评估和自动化对齐评估中，对齐程度更高的快照表现更优，宪法文档和高质量对话记录训练在评估中提高性能，且改进在强化学习过程中持续。

多样化训练对泛化很重要

在广泛安全相关环境中训练可提高对齐泛化能力，标准 RLHF 数据集泛化能力不如以往。在不同多样性水平的强化学习组合上训练 Claude Sonnet 4 基础模型，扩充环境与简单聊天环境混合后，模型在蜜罐评估中表现有小幅但显著提升，证明安全训练中包含多样化环境的重要性。

讨论

代理失准是模型首批重大对齐失败问题，已建立缓解流程成为标准做法。虽进展鼓舞，但使高度智能 AI 模型完全对齐仍是未解决问题，模型能力未达使对齐失败带来灾难性风险的程度，方法能否继续扩展待观察，审计方法也不足以排除 Claude 采取灾难性自主行动的情况。对发现当前模型对齐失败问题持乐观态度，期待深入探究方法为何有效及如何改进训练。