原文链接:(arxiv.org/abs/2606.14249) arXiv | 2026-06-15
HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry
HarnessX:一个可组合、自适应和可进化的代理工具库
Abstract 摘要
AI 代理的性能严重依赖于运行时框架,该框架包括提示、工具、内存和控制流,这些因素调解着模型如何观察、推理和行动。然而,当今的框架仍然很大程度上是手工制作和静态的:每个新的模型或任务仍然需要定制的脚手架,并且在执行过程中产生的丰富轨迹很少能提炼回系统性的改进。我们介绍了 HarnessX,一个用于可组合、自适应和可进化代理框架的铸造厂。HarnessX 通过替换代数组装类型化的框架原始元素,通过 AEGIS(一个基于符号适应和强化学习之间操作镜像的轨迹驱动多代理进化引擎)来适应它们,并通过将轨迹转换为框架更新和模型训练信号来关闭框架-模型循环。在五个基准测试(ALFWorld、GAIA、WebShop、 τ3 -Bench 和 SWE-bench Verified)中,HarnessX 平均提升了+14.5%(最高可达+44.0%),收益最大出现在基准最低的地方。这些结果表明,代理的进步并不一定完全依赖于模型扩展:从执行反馈中组合和演化运行时接口是一种可行的补充手段。完整的代码库将在未来的版本中开源。
![[Uncaptioned image]](/https://i-blog.csdnimg.cn/img_convert/577bbc339812143dddaaec5d5e0f3b2f.png)
Figure 1:HarnessX overview.
图 1:HarnessX 概述。
1Introduction 1 引言
现代智能体的能力不仅取决于底层模型 [deepseekai2026deepseekv4, glm5team2026glm5vibecodingagentic, yang2025qwen3, team2023gemini],还取决于周围框架施加的中介 [lu2026openclaw, liagent, claudecode]。该框架通过确定任务如何表示、如何访问外部服务以及如何在执行过程中沟通中间决策,将原始模型输出转换为结构化的智能体行为。随着智能体在更丰富的环境中处理更长时程的任务,框架设计成为智能体开发的核心要素。
尽管如此重要,线束开发仍远非成熟的工程学科。首先,线束是手工设计和静态的:任何模型版本、工具或问题域的变化都需要定制修改,而没有经验驱动的改进机制。其次,线束在架构上纠缠不清:它们通常将提示模板、工具包装器、重试策略和内存组合在相同的代码路径中,因此对其中一个组件的更改会无声地破坏其他组件,跨域的重用简化为复制而非组合。第三,线束工程和模型训练独立运作:在改进线束时收集的轨迹数据被丢弃而不是纳入模型训练,而模型改进并未转化为线束改进。
我们通过将 harness 视为一阶对象来弥补这些差距,该对象可以与模型一起组合、适配和演进。HarnessX 以此原则为基础,作为一个统一的 harness 工厂。它从一个模块化基础开始:涵盖上下文、工具 [feng2025retool]、技能、控制和内存的 harness 基本构件通过类型接口描述,并通过替换代数组合。这分离了现有系统通常混淆的关注点。在这个基础之上,我们引入了 AEGIS,这是一个以可观察性驱动和可审计的 harness 适配引擎。将 harness 适配不是作为临时的编辑,而是作为对符号化工件(提示 [zhou2025proposer]、工具、内存和控制策略)的学习问题来阐述,揭示标准 RL 病态(奖励攻击、灾难性遗忘 [kirkpatrick2017overcoming]、探索不足 [ladosz2022exploration])成为具体的设计风险。为了应对这些风险,AEGIS 结合了完整的跟踪可观察性与一个四阶段管道(解析器、规划器、进化器和评论家),该管道压缩跟踪、规划适应、生成候选并评估变更。最后,我们通过 harness-model 共进化关闭 harness 适应与模型训练之间的闭环。harness 适应过程中产生的跟踪作为模型训练的强化学习信号,使得模型改进能够反馈到后续的 harness 进化中。
我们通过五个基准测试(GAIA、ALFWorld、WebShop、 τ3 -Bench、SWE-bench Verified)、三个任务代理系列(Claude Sonnet 4.6、GPT-5.4、Qwen3.5-9B)以及最多 15 轮进化验证了 HarnessX。Harness 进化在 15 个模型-基准配置中平均绝对增益为+14.5%,在改进配置(15 个中的 14 个)中个体增益范围为 0.0%至+44.0%(从+1.1%( τ3 -Bench,接近上限的基线)到+44.0%(ALFWorld,最弱的代理)。增益表现出逆缩放模式:在 ALFWorld 和 GAIA 上,最弱的任务代理受益最大(Qwen3.5-9B 在 ALFWorld 上为+44.0%,而 Sonnet 4.6 为+11.2%),这表明进化后的 Harness 解决了较弱的模型无法自我纠正的行为差距。在异构任务集(GAIA)上,单一 Harness 进化停滞;一个变体隔离消融实验恢复了稳定改进(+13.6%,在 15 轮中未退化)。
In summary, our contributions are four-fold:
总而言之,我们的贡献有四个方面:
- 控制组合(第 3 节)。我们将控制正式化为一个由连接到生命周期钩子的处理器组成的一流、类型化的对象。一个九维分类法涵盖了完整的行为空间,并且一个替换代数能够以类型安全的插入和删除来配置每个任务。这种组合结构使每个行为更改的预期范围明确——这是稳定演化的变体隔离的前提条件
- Harness Adaptation (Section 4)。我们介绍了 AEGIS,一个基于跟踪的多智能体 harness 进化引擎。一个运行时镜像将 harness 适应映射到标准的 RL 结构上,将熟悉的 RL 问题(奖励攻击、灾难性遗忘、探索不足)转换为通过四阶段管道(消化器、规划器、进化器、评论家)并具有确定性门控的具体设计风险。一个可选的变体隔离策略防止在异构基准测试上出现跨任务干扰。
- 桥接模型协同进化(第 5 节)。我们通过在共享回放缓冲区中交错进化桥接和模型强化学习来关闭优化循环。跨桥接 GRPO 使模型能够内化来自连续桥接版本的策略,打破仅限于桥接适应的脚手架天花板和仅限于模型强化学习的训练信号天花板。
- 经验验证(第 6 节)。在五个基准测试、三个任务代理家族以及最多 15 轮进化中,HarnessX 平均提升了+14.5%(最高可达+44.0%),其中在基线最低的情况下提升最大。一个变体隔离消融实验解决了异构任务集上的停滞问题,而协同进化比单独的 Harness 进化再提升了+4.7%(第 6.5 节)。
2Related Work 2. 相关工作
2.1Harness Engineering 2.1Harness 工程
现有的代理基础设施占据了一个日益主观的 harness 抽象光谱。在原始层,LangChain [langchain]、LlamaIndex [Liu_LlamaIndex_2022] 和 Smolagents [smolagents] 等库提供了用于提示、工具、检索和内存的 typed 建筑块。这些原始组件可以在隔离状态下进行测试,但它们不支持 harness 级别的组合:由相同原始组件构建的两个 harness 可能仍然在结构上存在差异。
下一层抽象将这些原始操作组合成可重用的模式。LangGraph [langgraph] 使用有状态图模型化代理的行为;AutoGen [wu2024autogen] 将多代理交互建模为结构化对话;CrewAI [moura2025crewai] 为代理分配基于角色的身份;而 Letta [packer2023memgpt] 将自主循环与持久内存相结合。尽管这些框架使利用编写更加容易,但它们引入了特定的控制循环,因此组合模式、替换组件以及跨任务移植增强大多仍需手动操作。
最后,还有一些针对特定领域的成品化工具,例如 Claude Code [claudecode]、Cursor [cursor]、Manus [shen2025mind]和 DeerFlow [deerflow]。这些系统展示了工具设计的 影响,但在架构上保持静态,只能通过手动迭代来进化。
在所有三个层次中,仍然存在两个结构性差距。首先,没有层次将工具暴露为一个由类型元素组成的可替换实体,因此为每个任务构建工具总是需要重写。其次,没有机制存在用于循环改进:一旦定义,工具只能在发布之间的手动迭代中进化。
2.2Self-Evolving Agents
对自进化智能体的研究探讨了智能体系统如何在无需重新训练基础模型的情况下进行改进。早期工作主要集中在最容易编辑的方面:提示。APE [zhou2022large]、OPRO [yang2024large]、EvoPrompt [guo2024connecting]、Promptbreeder [fernando2024promptbreeder] 等方法将指令制定视为一个黑盒优化问题,而 ProTeGi [pryzant2023automatic] 和 TextGrad [yuksekgonul2024textgrad] 引入基于梯度的文本反馈,使优化过程更加明确。DSPy [khattab2023dspy] 和 MIPRO [opsahl2024optimizing] 通过编译声明式 LM 程序来扩展这一方法,其提示针对标记数据进行优化。这些方法将指令建立为可学习组件,但工具、内存、控制流等组件仍处于优化范围之外。
另一项工作通过在内存中积累和重用先前的执行经验来改进智能体:Memento [zhou2025memento] 通过基于案例的内存改进智能体,而无需微调模型,而 MIA [qiao2026memory] 在单个 Manager-Planner-Executor 框架内统一了非参数和参数内存:一个压缩轨迹的非参数存储和一个在测试时动态演化的参数规划器,通过一个双向循环不断在两者之间转换经验,在十一项基准测试中展示了优越性。
后续工作将优化扩展到代理工作流中。GPTSwarm [zhuge2024gptswarm]、ADAS [hu2025automated]、AFlow [zhang2025aflow]、A 2 Flow[zhao2026a2flow]、AgentSwift [li2026agentswift]、ResMAS [zhou2026resmas] 和 EvoAgentX [wang2025evoagentx] 在协作策略、代理排序和聚合机制上进行搜索。这些工作表明工作流结构是可学习的,并且比仅提示优化能带来更大的收益。然而,组件级工件(工具实现、内存策略、节点内部提示)仍然是静态的:优化范围涵盖了组件间关系,但并未涵盖完整的利用。
一个最终组明确处理 harness 进化。SICA [robeyns2025self] 直接优化 SWE-bench 代理的源代码,而 Darwin Gödel Machine [lange2025darwin] 提出在代理变体数据库上进行开放式优化。HyperAgents [zhang2026hyperagents] 使优化过程本身具有适应性;Meta-Harness [lee2026meta] 通过基于文件系统的接口提高采样效率。AHE [lin2026agentic] 和 Life-Harness [xu2026adapting] 强调可观察性、可解释性和源代码重写。这些工作共同将 harness 建立为进化目标,并证明可观察性对于稳定的自我改进至关重要。然而,它们的设计缺乏一个统一的理论框架,将观察到的故障模式与原则性防御联系起来。
启发式学习理论[weng2026learning_beyond_gradients]通过将强化学习(RL)概念映射到符号自我优化更新来部分解决这一差距。在这个框架中,可观察的轨迹对应于正确的信用分配,可证伪的变化表现对应于奖励塑形,而提议-批评周期提供结构化的探索。HarnessX 实例化了这一范例,将对应关系形式化为强化学习和符号 harness 进化之间的操作镜像(第 4.1 节)。
3Harness Composition 3 组合使用
在 2.1 节中识别的差距是缺少一个将 Harness 作为类型化、可替换实体的基础设施层。原始库将组合留给应用代码,编排器暴露一组固定的模式,产品 Harness 是端到端的黑盒。没有组合基础,每个行为变化或跨团队交接都需要重新实现。HarnessX 通过统一的设计原则来解决这一问题:Harness 是一等值,处理器是类型化的原子组件,组合通过在类型化的钩点插入处理器进行。我们在 3.1 节中形式化定义了 Harness,3.2 节中定义了它的构建块——处理器,以及 3.3 节中定义的九维处理器分类法。定义故意保持简洁:它们的作用是建立词汇表并暴露 Harness 进化(4 节)操作的编辑界面。
| Hook 钩子 | Event type 事件类型 | Permitted modifications 允许的修改 |
|---|---|---|
| task_start 任务开始 | TaskStartEvent | system prompt 系统提示 |
| step_start 步骤开始 | StepStartEvent | structural history edits 结构历史编辑 |
| before_model | BeforeModelEvent 模型事件发生前 | last user content; one user-message append 最后用户内容;一个用户消息追加 |
| after_model 模型生成后/模型完成之后 | ModelResponseEvent | response content, tool calls 响应内容,工具调用 |
| before_tool | ToolCallEvent | tool input, approval flag 工具输入,审批标志 |
| after_tool | ToolResultEvent | tool result 工具结果 |
| step_end | StepEndEvent | read-only 只读 |
| task_end 任务结束 | TaskEndEvent 任务结束事件 | read-only 只读 |
Table 1:Hook points and their permitted modifications.
表 1:钩点及其允许的修改。
3.1The Harness as a First-Class Object
3.1 悬架作为一级对象
在 HarnessX 中,一个悬架是 ℋ=(ℳ,𝒞) 的对,其中 ℳ 是一个模型配置, 𝒞 是一个悬架配置。这两个地址了不同的关注点: ℳ 记录哪个模型服务于哪个角色(主要、法官、评估者)以及每个角色的回退策略; 𝒞 记录代理如何独立于模型身份的行为。它们通过 agent = model_config.agentic(harness_config) 结合成一个可执行的代理:在 HarnessX 中,一个代理是一个绑定到模型的处理器管道,两者都可以独立替换。
3.2The Processor Abstraction
HarnessX中的每一步行为均通过处理器实现,该对象需满足协议async def process(self, event: Event) -> AsyncIterator[Event]。处理器消费一个事件并产生零个或多个事件,严格产生五种结果之一:透传(原样生成)、转换(生成修改后事件)、拆分(生成多个同类型事件由下游独立处理)、拦截(不生成事件以阻断传播)或中断(抛出异常终止循环)。这种受限接口确保了可组合性——特定钩子处的所有处理器消费和生成的事件类型相同,因此可通过顺序应用组合处理器,且增删处理器不会破坏管道类型正确性。
如表1所示,处理器会挂载到运行循环发出的八个钩子点之一。运行循环在每次调用后验证钩子契约:若违反(如修改只读字段)将立即抛出异常而非静默传播错误状态。每个处理器携带三个类级元数据字段控制组合:_singleton_group声明互斥组确保每组至多一个处理器;_order指定钩子内排序(含PRE、NORMAL、POST常量);_after列出对其他单例组的软依赖。
该设计使工具演化成为一等操作:AEGIS可在特定钩子插入新处理器、通过匹配单例组替换现有处理器或完全移除处理器,均无需修改同钩或异钩的其他处理器。由于类型契约(输入事件类型=输出事件类型)在钩子级强制实施,任何此类替换都保持整个管道类型正确。元数据字段进一步约束组合:_singleton_group防止冲突重复,_order确保新插入处理器与现有处理器交互可预测。这些保证正是变体隔离(第4.5节)的运作机制——各变体仅通过处理器占据的钩子位置区分,类型系统确保演化过程中没有变体会静默违反管道契约。
3.3The Nine-Dimensional Taxonomy
我们将行为空间组织为九个维度:模型选择(D1)决定哪个模型承担何种角色;上下文组装(D2)确定每个步骤向模型呈现的内容;记忆管理(D3)管理跨步骤和会话的信息传递;工具生态系统(D4)控制代理可调用的工具;执行环境(D5)决定工具引发副作用的发生场所;评估与奖励(D6)规定结果评判标准;控制与安全(D7)实施规则防止代理陷入循环、过度消耗或偏离意图;可观测性(D8)记录每个事件、模型调用和工具调用;训练桥梁(D9)将执行轨迹转化为强化学习记录。图2展示了完整分类体系及典型处理器组件在标准配置中的挂接点。
实际运行中,AEGIS的演化过程会涉及所有九个维度的调整:D2(上下文组装)和D4(工具生态系统)是最常修改的维度(见第6.2节),而D8(可观测性)为AEGIS的推理提供追踪基础,D9(训练桥梁)为协同演化提供轨迹记录(见第5节),从而完成优化闭环。
| RL concept | Symbolic-space dual | AEGIS realization |
|---|---|---|
| Policy π 政策 π | Harness-update procedure πevo | Four-stage pipeline (Section 4.3) |
| State st | (ℋt,𝒯t) | Harness configuration + trace store |
| Action at | Typed harness edit | Builder operation + change manifest |
| Feedback | Trace τ + verifier score r | Observability layer 可观察性层 |
| Update | ℋt+1←U(ℋ~t,𝒯t,rt) | Deterministic acceptance gate |
Table 2:Operational mirror: RL concepts and their symbolic-space duals in AEGIS.
4Harness Adaptation
组合层(第3节)提供了一个类型化、可替代的测试框架;如图2所示,AEGIS是推动该框架演进的系统。其核心洞见在于:测试框架的演进在结构上映射了符号空间中的强化学习——框架配置对应状态,类型化编辑对应动作,执行轨迹与验证器评分共同构成反馈。这种映射关系具有预测性:它识别出三类与已知强化学习病症(奖励破解、灾难性遗忘、探索不足)类似的故障模式,这些模式既推动了AEGIS的防御架构设计,也在第6.6节得到了实验验证。
我们形式化描述了这种对应关系(第4.1节),分析了其预测的病症(第4.2节),推导出作为防御架构的四阶段流程(第4.3节),提出适应循环机制(第4.4节),并引入多变量隔离技术以实现稳定的多版本协同演进(第4.5节)。

图 2:AEGIS 进化循环。单个元代理 ℳ 驱动所有四个阶段(消化器、规划器、进化器、评论家),根据是否存在足够的信号来选择性地调用每个阶段。一个确定性门控要么发送要么拒绝候选编辑。
4.1The Operational Mirror
我们将利用演进形式化为符号构件上的马尔可夫决策过程(MDP)。表2总结了映射关系;首先给出三个定义作为对应基础:
定义1(利用配置)
利用配置是一个元组ℋ=(c₁,c₂,…,c₉),其中每个cᵢ∈𝒞ᵢ实例化九大行为维度之一(第3.3节):模型选择(c₁)、上下文组装(c₂)、内存管理(c₃)、工具生态系统(c₄)、执行环境(c₅)、评估与奖励(c₆)、控制与安全(c₇)、可观测性(c₈)和训练桥梁(c₉)。每个𝒞ᵢ是维度i的有效处理器配置集合,受钩子类型契约和单例组排除约束(第3.2节)。
定义2(利用编辑)
利用编辑是函数e:ℋ→ℋ,其在保持类型契约的前提下修改一个或多个维度。动作空间ℰ是离散但开放式的:每个编辑都是由元智能体LLM生成的代码级构件(新处理器源码、修改后的提示模板、重构的工具注册表或控制流重写),而非从预设集合中选择。通过LLM的生成能力(规划器基于轨迹假设提出编辑)和类型约束(在生成时修剪无效组合)来管理组合爆炸,而非穷举搜索。
定义3(操作镜像)
操作镜像是元组(ℋ,ℰ,ℛ,𝒯),其中ℋ为利用配置空间(状态),ℰ为代码级编辑空间(动作),ℛ:ℋ×ℰ→ℝ将配置-编辑对映射到标量奖励(适应批次上的验证器分数聚合),𝒯是提供超越标量信号的结构化反馈的轨迹存储。该元组在利用层面构成MDP:利用配置即状态,类型化编辑即动作,执行轨迹加验证器分数构成反馈,确定性接受门控制状态转移。
MDP实例化
设ℋₜ表示迭代t时的利用配置(模型ℳ在整个演进过程中固定),𝒯ₜ表示累积的历史轨迹存储。定义符号状态sₜ=(ℋₜ,𝒯ₜ)。利用更新策略πₑᵥₒ选择动作aₜ∼πₑᵥₒ(⋅|sₜ),其中aₜ∈ℰ是从构建代数中提取的代码级编辑。应用该编辑产生候选利用ℋ̃ₜ=aₜ(ℋₜ)。在适应批次上运行候选配置(使用固定模型ℳ)生成新轨迹Δ𝒯ₜ和每任务验证器分数rₜ。确定性接受算子U(ℋ̃ₜ,𝒯ₜ,rₜ)随后提交(ℋₜ₊₁=ℋ̃ₜ)或拒绝(ℋₜ₊₁=ℋₜ)候选,强制执行跷跷板约束:候选不得使𝒯ₜ中记录的任何已解决任务出现退化。两种情况下轨迹存储都会增长:𝒯ₜ₊₁=𝒯ₜ∪Δ𝒯ₜ。
该MDP在利用层面运作:单个任务中ℋₜ(与固定ℳ共同)决定智能体行为;跨迭代时,利用更新策略πₑᵥₒ修改利用配置。AEGIS将πₑᵥₒ实现为四阶段管道(消化器、规划器、演进器、评判器),通过轨迹压缩、适应规划、编辑生成和候选评估将sₜ映射到候选编辑。
4.2Pathologies in Symbolic Space
4.2 符号空间中的病理现象
镜子不仅仅是一个类比;它将强化学习概念转化为设计要求。我们参考了强化学习中三种有充分记载的失败模式,即奖励攻击 [guo2025deepseek]、灾难性遗忘 [kirkpatrick2017overcoming] 和欠探索 [ladosz2022exploration],统称为强化学习病理。一旦将适应性调整视为符号化实物的马尔可夫决策过程,这些病理会以放大形式重新出现,并由符号化环境的两个特性塑造:(1) 语言模型进化者可以构建结构化利用,而数值参数扰动无法表达,(2) 对共享组件的编辑通过适配器非局部地传播。下文中的每种病理都在第 4.3 节中激发了一种相应的架构防御。
Reward hacking. 奖励黑客攻击。
在标准强化学习中,奖励黑客攻击 [guo2025deepseek] 利用奖励信号中的漏洞,而无需真正完成任务。符号利用进化会放大这种风险,因为进化者可以直接针对验证协议:将基准答案嵌入提示中,利用验证器的格式规律性,或引入一个处理器来重写输出以匹配验证器预期。
Catastrophic forgetting.
灾难性遗忘。
灾难性遗忘 [kirkpatrick2017overcoming] 发生在提高任务分布某个区域的表现会损害另一个区域时。在符号利用进化中,一个修复失败模式 A 的修改可能会无声地使模式 B 退化,因为效果通过共享上下文、工具、内存策略和控制规则传播。如果没有显式的回归检查,一个仅基于失败任务轨迹进行条件化的进化器无法区分局部增益和全局退化。
Under-exploration. 探索不足。
欠探索 [ladosz2022exploration] 表现为对低风险本地编辑的偏好:提示重述、工具描述调整或微小的控制流修改。这些编辑生成成本低,并且经常在不回归已解决任务的条件下通过门控,导致后续规划器假设偏向相同的编辑邻域。结构变化(将一个代理分解成几个、替换控制策略或采用新的内存架构)需要刻意形成假设,并且很少从跟踪条件下的本地修复中产生。如果没有机制来提议超出立即失败邻域的编辑,系统在本地编辑用尽后就会停滞。
Summary. 摘要。
符号束演化继承了强化学习(RL)的结构风险(奖励攻击、灾难性遗忘和探索不足),而 AEGIS 通过专门的机制针对每个问题进行解决:Critic(奖励攻击)、确定性门控层(灾难性遗忘)和 Planner(探索不足)。
Algorithm 1 AEGIS Harness Evolution Loop (selective invocation)
4.3AEGIS Architecture
AEGIS是HarnessX的线束进化引擎。它包含按预定义工作流排列的四个阶段——消化器(Digester)、规划器(Planner)、进化器(Evolver)和评审器(Critic),均由同一元智能体大语言模型驱动并选择性调用:外部路由器不决定阶段执行,而是由元智能体自行判断每个阶段是否存在足够信号继续推进。消化器、规划器和进化器各自评估继续条件,可能直接终止本轮(低于阈值的可操作性、空白适应场景或零可行候选方案),而评审器与确定性门控层对所有到达该阶段的候选方案都是强制流程。任何修改必须通过评审器和门控层才能发布。各阶段分工解决了第4.2节所述的病理问题:消化器将原始追踪数据压缩为结构化任务级证据;规划器构建包含渐进式与结构性变更的适应场景;进化器生成带有明确变更清单的类型化构建器修改;评审器与门控层共同拒绝那些缺乏追踪支持的所谓改进,或会导致已解决任务退化的修改。
所有阶段共享单一信息基底——追踪存储库(trace store),这是包含执行事件、验证器评分结果、回归信号以及已发布/已拒绝修改的结构化记录。除追踪存储库和当前线束ℋt外,各阶段不消耗其他输入。数据通过选择性门控在流水线中向前流动:消化器可能判定不存在可操作故障(所有任务通过或信号过于稀疏),立即终止本轮;规划器可能根据当前证据和修改历史找不到可行适应场景;进化器可能无法产生类型安全的候选方案。这些情况下系统都会以无操作结果干净退出。唯有评审器和确定性门控是无条件的:任何通过上游阶段的候选方案都必须经过这两关才能发布。评审器在给出最终裁决前,还可向进化器发起单次修订请求。
消化器: 单次GAIA迭代(103个任务,pass@2)产生约1000万标记的原始追踪数据,包括模型推理步骤、工具调用及其输出、时间元数据。直接将此体量传递至下游阶段会超出上下文限制,而简单截断会丢失诊断信号。消化器将每个任务的追踪数据压缩为结构化任务摘要:二元结果、故障类别(如有)、涉及组件标识符及佐证节选。它还提供跨迭代连续性:每个任务摘要链接到其历史结果和已发布修改,使规划器能区分持续性故障与瞬时噪声。
规划器: 规划器接收消化器输出(带有跨迭代历史的任务级摘要),构建适应场景:哪些任务失败、尝试过哪些修改、涉及哪些组件、哪些修改类型(提示词、工具、处理器、配置)尚未尝试。该阶段是防止探索不足的主要防线:通过在生成修改前构建场景,避免流水线收敛于追踪条件限定的局部修复,确保结构性变更(工具添加、处理器重写、内存策略重构)能与渐进式提示词修改同步考虑。
进化器(Evolver)。
根据规划器的适应场景,进化器会生成一个或多个候选工具集{ℋ~tk}k=1Kt,每个候选集均表示为对当前工具集ℋt的带类型构建操作。每个候选集附带一份变更清单:被修改的组件、预期行为效果,以及预计改进或退化的任务。当引入新的处理器代码时,进化器还需提供冒烟测试,确保处理器能实例化并在合成输入上运行而不引发异常。构建代数保证类型安全(每个候选集满足钩子类型契约和处理器组合规则),但不保证行为安全——通过类型检查的修改仍可能产生非局部行为效应,这些效应仅能通过评审器和门控层检测。
评审器与门控层(Critic and gating)。
评审器防御奖励破解行为;确定性门控层防御灾难性遗忘。评审器通过比对变更清单与追踪证据来评估每个候选集,并判断修改是否可能通过共享状态或控制流引发非局部效应。当检测到差异时,它会向进化器发出单次修订请求。最多经过一次修订周期后,评审器将返回no_op或有序的ship_ranking。确定性门控层随后依次执行验收检查:清单完整性、配置规范化(确保候选集符合标准形式)、构建或冒烟测试(若适用),以及跷跷板约束(对先前通过任务的回归检查;见第4.1节)。首次检查失败即终止流程;通过的候选集被提交,失败的则连同拒绝原因存档。此举将LLM判断与验收解耦:无论评审器如何推荐,只有确定性检查决定最终发布。
设计原则。
语言模型子代理负责探索、假设与提案;带类型结构和确定性门控决定发布内容。这种分离确保了安全性(无回归、无未审核修改)不受LLM子代理故障模式影响。
4.4 适应循环
算法1形式化了适应循环(每次迭代对应第6节中的一轮)。从初始工具集ℋ0开始,每轮在当前工具集上执行适应批次,并选择性调用四个阶段:消化器(Digester)、规划器(Planner)和进化器各自设有继续条件(分别为足够可操作性、非空场景和至少一个类型安全候选集),而评审器与确定性门控对所有抵达的候选集强制执行。仅当候选集通过全部验收检查时,该轮次才会提交新工具集。
4.5 通过集成路由实现变体隔离
适应循环(第4.4节)维护单一工具集ℋt。当任务需求冲突时,改进某子集的修改可能导致其他子集退化;跷跷板约束会拒绝此类修改以保障稳定性,但会牺牲局部有益变更。变体隔离通过维护最多K个工具集变体{ℋt(1),…,ℋt(Vt)}(Vt≤K)并将任务路由至历史轮次中其所属集群成功率最高的变体来突破此限制,该机制称为集成路由(Ensemble routing)。
门控层对每个候选集区分两种结果:(1) 修改改进部分任务且未造成任何退化,则应用于目标变体;(2) 改进某子集但引致其他退化,则系统会创建新变体而非直接拒绝(若变体池已满则淘汰性能最低者)。存在多个变体后,跷跷板约束按变体限定:针对变体k的候选集仅测试路由至k的任务,使得对某集群的改进不会影响其他集群。该设计预测了第6.3节验证的三个特性:(1) 非递减的聚合轨迹(峰值=最终值),(2) 更持续的跨轮次探索,(3) 更低的总体token消耗。
5 工具-模型协同进化
第3和第4节表明,仅进化工具部分(基础模型保持不变)就能带来显著收益,且这些收益对于能力较弱的小型任务代理最为明显——更好的工具能最直接地弥补它们的行为缺陷。协同进化并非取代这条路径,而是沿着第二条轴线延伸它。对于能力受限的小模型,工具进化最终会触及脚手架天花板:当工具已提供合适的工具、上下文和控制流后,核心制约因素就变成冻结的模型能否真正利用这些要素,任何工具修改都无法弥补模型自身缺失的推理能力。
对称地,在固定工具下训练模型会遭遇训练信号天花板:当脚手架从未提供能激发新能力的上下文、工具或控制流时,新获得的能力将无从施展。模型是代理的认知核心,负责推理与规划;而工具是其执行机构,决定模型的感知范围、可调用资源及执行约束。更精密的机构无法补偿脆弱的核心,更强的核心也无法突破从不调用它的机构桎梏。协同进化正瞄准这一瓶颈:通过在进化工具的同一循环中训练模型,代理得以沿双轴同步提升,突破单一改进固有的天花板。这种协同进化互补能力组件的原则也见于其他场景:K2代理[wu2026k]通过共同进化"知什么"(陈述性知识)与"知如何"(程序性技能)来实现分层移动设备控制。
图3展示了协同进化机制。HarnessX并非在独立的工具进化与模型训练阶段间交替,而是在共享回放缓冲区的单次迭代中同步运行两者。我们形式化该迭代过程(第5.1节),描述两个优化基础(第5.2节),通过跨工具GRPO明确模型训练目标(第5.3节),并刻画基于共享缓冲区的离线训练特性——该特性使得模型强化学习无需额外环境交互成本(第5.4节)。

图3:约束-模型协同进化循环。智能体(ℳt,ℋt)在固定验证器和可观测层下运行任务批次Bt;产生的轨迹和奖励(τ,r)存入共享回放缓冲区ℬ,其中跨约束分组会池化不同约束版本下的同任务轨迹,并计算组间相对优势A^。该缓冲区驱动两个并行更新:AEGIS约束进化(消化器→规划器→进化器→批判器,生成进化后的约束ℋt+1)和跨约束GRPO(分组采样与裁剪GRPO目标函数,生成更新后的模型ℳt+1),二者共同推进下一轮迭代。
5.1 协同进化迭代 协同进化作用于(ℳt,ℋt)二元组,其中ℳt表示可训练模型参数(放宽了第4章的冻结模型假设),ℋt表示第t轮迭代的约束配置。系统维护固定容量的先进先出回放缓冲区ℬ,每轮迭代流程如下:
-
轨迹生成。在适应批次Bt上运行(ℳt,ℋt);可观测层将每个回合记录为完整轨迹τi,包含所有模型决策、工具调用及返回结果。
-
验证。固定验证器将每条轨迹转换为标量奖励ri。保持验证器不变确保奖励在约束版本间可比,这是跨约束优势计算(公式3)的前提。
-
缓冲存储。将带约束版本标记的评分轨迹追加到共享缓冲区ℬ,实现增量累积而非覆盖存储;先进先出淘汰机制保持缓冲区仅含近期数据。
-
约束进化(ℋt+1←AEGIS(ℋt,ℬ),非参数化,见第4章)。元智能体读取缓冲轨迹作为支架缺陷证据,提出离散结构修改方案,经批判器和门控层验证后采纳。
-
行为对数概率。对本轮新增轨迹,用生成模型ℳt前向计算词元级对数概率πθold(τi)并缓存,供GRPO损失函数使用;历史轨迹复用其入库时的缓存值(见5.4节)。
-
GRPO更新(ℳt+1←GRPO(ℳt,ℬ),参数化,见5.3节)。按任务标识跨约束版本分组轨迹,分配组间相对优势,采用带KL锚点的裁剪策略梯度步进更新。
-
迭代推进。携带进化后的(ℳt+1,ℋt+1)返回步骤1。
所有轨迹同时作为AEGIS诊断证据和GRPO训练信号。约束进化(步骤4)与模型更新(步骤5-6)读取相同缓冲区,但在同轮迭代内互不依赖;二者必须同步完成才能启动新一轮轨迹生成。
5.2 优化基底 约束侧(非参数化优化): 如第4章所述进行约束进化,从回放缓冲区ℬ提取轨迹证据。与独立AEGIS的主要区别在于ℬ包含来自ℳ0,ℳ1,...,ℳt多个模型检查点的轨迹,使消化器能感知模型更新和约束修改共同引发的行为变异。
模型侧(基于GRPO的参数化优化): 关键设计是跨约束分组准则(5.3节形式化):相同任务标识的轨迹归入同一GRPO组,无视产生它们的约束或模型版本,确保组内变异反映策略差异而非采样噪声。
互补性: 约束更新实现离散结构变更(添加工具、替换控制处理器、重构提示词),这些无法通过参数更新表达;模型更新则进行细粒度行为调整(工具调用时机、查询措辞、终止判断),这些依赖高维上下文状态且无法用符号规范捕获。约束定义粗粒度策略架构,模型学习如何充分利用。
5.3 通过交叉利用GRPO进行模型训练
我们采用组相对策略优化(GRPO)[shao2024deepseekmath]。形式上,缓冲区中的每条轨迹生成方式如下:
| τi∼Agent(ℳk,ℋk,xi),k∈{0,1,…,t}, | (1) |
其中,i是缓冲区ℬ中的(x,τ)索引,ℳk和ℋk分别是用于将任务xi展开为轨迹τi的模型检查点和工具链。由于先进先出(FIFO)淘汰机制将缓冲区限制在最近迭代范围内,缓冲的轨迹来源于与当前策略相近的模型版本。但这些轨迹在策略上(工具选择、提示结构、控制流逻辑)存在显著差异,这种多样性源于连续迭代的工具链版本ℋ0,…,ℋt。与单策略强化学习(组内差异仅来自随机采样)不同,此处工具链身份主导了这种差异,这使得跨工具链分组标准(公式2)对有效优势估计至关重要。
形式上,对于任务x,轨迹组会收集该任务的所有轨迹记录,无论它们由哪个(ℳk,ℋk)组合生成:
| 𝒢x={τi∈ℬ∣task(τi)=x}=⋃k{τ∼Agent(ℳk,ℋk,x)}. | (2) |
因此,该模型通过策略间奖励对比(而非仅依赖固定策略内的随机变异)接收梯度信号,从而内化在多个测试框架版本中成功的策略。
任务级对齐,非动作级对齐。
跨框架GRPO实现了任务级对齐:不同测试框架版本生成的轨迹按任务标识分组,仅依据验证器奖励进行对比。由于无需动作级对齐,即使测试框架版本存在动作空间不兼容(如工具模式不同、提示结构差异、控制流处理器各异),它们仍能在同一组内共存而无冲突。计算策略梯度时,每条轨迹τi会在其原测试框架版本ℋk下重放:模型的对数概率πθ(τi|x)根据ℋk在每一步构建的提示、工具模式和观察上下文进行评估。GRPO梯度完全作用于模型在框架特定上下文条件下生成的输出标记,而非框架结构动作或环境状态转移。该设计将框架演化(允许跨版本自由修改动作空间)与模型训练(仅需基于各轨迹自身框架上下文的标记级对数概率)解耦。
组间相对优势为:
| A^(τi)=ri−μ(𝒢x)σ(𝒢x)+ϵ, | (3) |
其中,ri是轨迹τi的奖励,μ(𝒢x)和σ(𝒢x)分别是组内奖励的均值和标准差。演化约束机制充当了模型强化学习的结构化探索算子:每个新版本都会向任务的采样分布中注入一种独特的行为模式,而公式3中的优势项则促使模型朝着验证器评分最高的模式发展。因此,单策略采样无法提供的探索广度,就由演化支架本身来提供。
需最大化的策略目标为:
| 𝒥GRPO(θ)=𝔼x,τi∼ℬ[min(ρi(θ)A^(τi),clip(ρi(θ), 1−ϵc, 1+ϵc)A^(τi))]−βDKL(πθ∥πref), | (4) |
where
| ρi(θ)=πθ(τi∣x)πθold(τi∣x),πθold=ℳd, | (5) |
当前策略 ℳk 与生成轨迹 τi 的检查点 ℳd 之间的重要性采样比率(公式1),ϵc 是裁剪阈值,βDKL(πθ∥πref) 惩罚与固定参考模型 πref 的偏离。比率中的行为策略 πθold 和KL项中的参考策略 πref 是不同的:πref=ℳ0 在整个训练过程中固定不变,而 πθold 随轨迹变化且必须从缓冲区恢复(第5.4节)。
5.4 基于混合策略缓冲区的离策略训练
回放缓冲区本质上是离策略的:在迭代 t 时,它包含由检查点 ℳ0,ℳ1,…,ℳt 在约束条件 ℋ0,ℋ1,…,ℋt 下生成的轨迹(公式1),因此缓冲区分布与正在更新的策略 πθ 不匹配。为每个缓冲轨迹恢复 πθold 是核心的离策略挑战。
行为策略 πθold
重要性比率(公式5)修正了 πθ 与生成 τi 的检查点 ℳk 之间的差距。由于 ℳk 在缓冲区中变化,πθold(τi) 不能从任何单一模型恢复:我们在插入缓冲区时通过 ℳk 的一次前向传播实现它,将词元级对数概率缓存到磁盘,并在每个梯度步中复用。这将缓存的行为对数概率与每步重新计算的当前对数概率 πθ(τi) 解耦。
有界的离策略偏差
FIFO淘汰机制将缓冲区限制为 C 条轨迹;每轮采样 s 个样本时,最大模型版本滞后为 ⌊C/s⌋ 轮,因此每个缓存的 πθold 都来自 πθ 的有界窗口,生成轨迹的策略与正在更新的策略差异始终有限。相同窗口也约束了约束条件的过时性,因此跨约束组(公式2)仅混合最近的支架版本,模型不会被主要针对过时约束进行训练。
无额外 rollout 成本的复用
智能体RL的主要成本是 rollout(在环境中执行智能体:模型解码、工具调用和验证),而非梯度更新。在协同进化中,单轮探索产生的一组轨迹同时服务于两种更新:相同轨迹既驱动AEGIS约束更新(第4节),又通过共享缓冲区(第5.1节)驱动跨约束GRPO模型更新。GRPO通过回放消费这些轨迹而不自行发起rollout。因此添加模型更新的边际成本仅限于:(i) 每条轨迹一次缓存前向传播以记录 πθold;(ii) 梯度步本身,两者均无需rollout。没有轨迹是专为训练模型生成的。因此联合优化是经济的:仅以离线训练计算为代价获得模型改进,无需任何超出约束进化已有rollout的额外成本。
6Experiments 6 实验
6实验
我们通过五个方面评估HarnessX:跨基准测试和模型系列的整体有效性(第6.2节)、变体管理策略对稳定性的影响(第6.3节)、进化架构与基础设施的相对贡献(第6.4节)、模型与测试工具联合协同进化的收益(第6.5节),以及预测失效模式的实证验证(第6.6节)。
6.1 实验设置
基准测试。
如表3所示,我们评估了涵盖多步检索、具身规划、网络交互、多轮对话和软件工程的五个基准测试。除非另有说明,每个实验最多运行T=15轮进化,若连续P=3轮未提交有效修改则提前停止。每轮均评估完整任务集(无子采样)。元智能体的令牌预算因基准而异(总计1亿至1.75亿),但在同一基准的任务智能体中保持恒定。
Table 3:Benchmark characteristics.
表3:基准测试特性
| Benchmark 基准 | Domain 领域 | Sampled Tasks | Verifier |
|---|---|---|---|
| GAIA (Level 1–3) GAIA(等级 1-3) | Multi-step retrieval | 103 | Exact match |
| ALFWorld | Embodied planning | 134 | Goal completion |
| WebShop | Web interaction | 100 | Attribute match |
| τ3-Bench | Multi-turn dialogue | 3 domains | Rule compliance 规则合规 |
| SWE-bench Verified | Software engineering | 55 | Patch resolution |
Models. 模型。
我们区分两种角色:元智能体(默认为Claude Opus 4.6版本)驱动AEGIS进化循环;任务智能体在进化后的约束框架下运行以完成基准测试任务。任务智能体涵盖三大模型家族(Claude Sonnet 4.6、GPT-5.4和Qwen3.5-9B),用于测试单个元智能体能否跨模型家族进化出有效的约束框架。
基线方法: (1) 静态约束框架:基于已发布的基准测试专用提示词和工具定义构建的HarnessX配置,在所有轮次中保持固定。(2) Claude代码SDK(CC SDK)11采用Claude代码SDK v0.0.25版本,模型="opus"(Claude Opus 4.6),最大轮次=200。实验于2026年5月进行。:单智能体进化器(每轮次使用单个LLM会话),在保持相同基础设施和轮次预算的前提下替代四阶段流程,从而将AEGIS的多阶段架构与共享基础设施隔离开来(见第6.4节)。该基线方法也可作为SICA[robeyns2025self]等单体式进化器的参照标准。
Metrics.
基准特定验证器下的任务成功率(%)。每项任务每轮获得两次独立尝试(pass@2:任一成功即视为解决),减少采样噪声,同时保留用于跷跷板约束的二进制每任务信号(以掩盖亚阈值成功率漂移为代价;第 6.3 节)。
Scope. 范围。
所有报告的增益均在用于进化的同一任务集上测量;未评估对未见任务的外部泛化。

Figure 4:Evolution trajectories (pass@2 success rate vs. round). Dashed lines: static-harness baselines.
图 4:进化轨迹(pass@2 成功率与轮次)。虚线:static-harness 基线。
6.2Main Results 6.2 主要成果
表 4 和图 4 报告了在 harness 进化前后 pass@2 成功率。AEGIS 改善了 15 个模型-基准配置中的 14 个,平均增益为 +14.5%(最高可达 +44.0%)。唯一停滞的配置(GAIA, GPT-5.4, Δ=0.0 )反映了单 harness 进化在异构任务集上的一个基本局限性;第 6.3 节表明,变种隔离可以解决这个问题。一个配置在运行中途退化( τ3 -Bench Telecom, − 14.0% 在 R7),由于累积的同类型编辑,在 R9 时恢复(第 6.6 节)。
表 4:主要结果(2 次通过成功率,%)。进化 = 达到的峰值精度。 “–”表示领域平均结果,其中没有单个峰值轮次适用。
| Benchmark 基准 | Task agent 任务代理 | Initial 初始 | Evolved 进化 | Δ | Best round 最佳圆形 |
|---|---|---|---|---|---|
| ALFWorld | Claude Sonnet 4.6 克劳德·索内特 4.6 | 83.6 | 94.8 | +11.2 | 7 |
| GPT-5.4 | 76.9 | 97.8 | +20.9 | 4 | |
| Qwen3.5-9B | 53.0 | 97.0 | +44.0 | 9 | |
| WebShop 网上商店/电商网站 | Claude Sonnet 4.6 克劳德·索内特 4.6 | 60.0 | 76.0 | +16.0 | 7 |
| GPT-5.4 | 55.0 | 73.0 | +18.0 | 8 | |
| Qwen3.5-9B | 36.0 | 49.0 | +13.0 | 7 | |
| GAIA | Claude Sonnet 4.6 克劳德·索内特 4.6 | 73.8 | 83.5 | +9.7 | 11 |
| GPT-5.4 | 73.8 | 73.8 | 0.0 | 4 | |
| Qwen3.5-9B | 20.3 | 37.4 | +17.1 | 4 | |
| SWE-bench Verified | Claude Sonnet 4.6 克劳德·索内特 4.6 | 76.4 | 87.3 | +10.9 | 3 |
| GPT-5.4 | 45.5 | 63.6 | +18.2 | 3 | |
| Qwen3.5-9B | 23.6 | 41.8 | +18.2 | 2 | |
| τ3-Bench (Avg.) | Claude Sonnet 4.6 克劳德·索内特 4.6 | 89.6 | 95.0 | +5.4 | – |
| GPT-5.4 | 76.2 | 90.7 | +14.5 | – | |
| Qwen3.5-9B | 93.5 | 94.6 | +1.1 | – |
整体表现。进化策略在15种配置中改进了14种。ALFWorld上的提升幅度从+11.2%到+44.0%,WebShop上为+13.0%到+18.0%,SWE-bench Verified上为+10.9%到+18.2%。在GAIA基准测试中,Sonnet 4.6(+9.7%)和Qwen3.5-9B(+17.1%)有所提升,而GPT-5.4停滞不前(Δ=0.0;解决其故障需要相互冲突的修改,单一控制策略无法兼顾)。在τ3-Bench测试中,GPT-5.4提升最大(+14.5%),而Qwen3.5-9B因接近天花板水平的93.5%基线表现仅获得+1.1%提升。
与基线表现的逆向关联。所有基准测试中,最弱的任务代理(Qwen3.5-9B)始终获得最大提升:ALFWorld +44.0%(基线53.0%)、GAIA +17.1%(基线20.3%)、SWE-bench Verified +18.2%(基线23.6%)。更强模型(Sonnet 4.6、GPT-5.4)在ALFWorld(+11.2%、+20.9%)和SWE-bench(+10.9%、+18.2%)上提升较小。例外是GAIA中的GPT-5.4(Δ=0.0),任务异质性使得单一控制策略无法提升整体准确率——这一现象促使我们在6.3节设计了变体隔离消融实验。整体模式表明:弱模型存在更多可通过控制层修改解决的行为缺陷;当基线表现足够高时,剩余故障往往需要任务特定适配而非全局改进。
跨模型泛化能力。元代理(Opus 4.6)无需特定家族适配就能为不同模型族的任务代理进化控制策略。在ALFWorld中,跨族代理(GPT-5.4: +20.9%,Qwen3.5-9B: +44.0%)比同族代理(Sonnet 4.6: +11.2%)提升更大,表明提升幅度与基线表现而非元代理族属相关性更高。
收敛速度与故障模式集中度相关。ALFWorld(GPT-5.4)在第4轮达到峰值,SWE-bench Verified(所有代理)在2-3轮达到峰值——这两种情况下故障集中在一两种组件类型,可实现快速收敛。GAIA(Sonnet 4.6)需要11轮迭代,因为故障涉及四种组件类型(提示词、工具、处理器、配置),迫使系统依次探索多个修改邻域。
τ3-Bench的领域间差异。τ3-Bench的平均增益掩盖了显著的领域间波动。GPT-5.4在电信领域提升+25.4%(第2轮67.5%→93.0%),零售领域+9.7%(第6轮84.2%→93.9%)。但Sonnet 4.6在电信领域单轮(第7轮)出现-14.0%倒退(由同类修改累积导致),至第9轮恢复(见6.6节)。这揭示了逐修改门控的结构性局限:连续同类修改产生的亚阈值耦合会不断积累,直至触发明显倒退。
SWE-bench的峰后衰退现象。
在 SWE-bench 验证(GPT-5.4)中,进化在 R3 时达到峰值 63.6%(+18.2%),但在 R5 时下降到 50.9%(从峰值下降 − 12.7%);最终准确率仍然超过静态基线+5.4%。有两个因素加速了该基准上的退化:(1) 只有 55 个任务,每个任务的翻转移动使总准确率变化 ∼ 1.8%(与 n=103 ∼ 1.0%相比),因此较少的退化就足以产生可见的下降;(2) 结构代码编辑比提示编辑具有更广泛的爆炸半径。这与 GAIA GPT-5.4 停滞的情况类似:这两种情况都促使评估第 6.3 节中的变体隔离策略。
6.3Evolution Strategy Comparison
6.3 进化策略比较
主要实验(表 4)使用全局策略:一个单一的 harness 在所有任务中进化。表 5 将此默认设置与 GAIA 上的变异隔离策略进行了比较(103 个任务,GPT-5.4,15 轮,AEGIS 进化器)。
表 5:进化策略比较(GAIA,GPT-5.4,AEGIS 进化器,15 轮)。最终 − 峰值表示稳定性;负值表示灾难性遗忘。
| Strategy 策略 | Final (%) 最终 (%) | Peak (%) 峰值 (%) | Final−Peak 最终 − 峰值 | Tokens 令牌 |
|---|---|---|---|---|
| Ensemble (up to K variants) 合奏(最多 K 个变体) | 87.4 | 87.4 | 0.0 | 107.8M |
| Global (single harness) 全局(单套索) | 49.5 | 73.8 | −24.3 | 143.7M |
全局的失效机制。全局策略为所有 103 个任务维护一个单一的挂钩。它在 R4 时达到峰值(73.8%),然后稳步下降:后续的编辑引入了阈值以下的回归,这些回归在 pass@2 的二进制信号下单独无法检测到,但会累积成整体下降。峰值与最终值的差距( − 24.3%)远超过每轮二项式 95%置信区间( ± 在 n=103 时为 p≈0.74 ),排除了评估噪声,并证实了灾难性遗忘(第 4.2 节)。这解释了 GAIA GPT-5.4 在表 4 中的 Δ=0.0 停滞:全局无法在这个异构任务集上持续改进。
为什么集成学习防止跨变体遗忘。集成路由维护高达 K 个 harness 变体,并将每个任务路由到具有最高先验成功率的变体。每个变体都会提出和评估编辑,因此一个改进一个簇的编辑不会导致另一个簇退化。比较证实了三个预测属性:(1) 非退化的聚合轨迹(峰值=最终),(2) 更晚的峰值(R14 vs. R4),表明持续的生产性探索,以及 (3) 更低的 token 消耗(107.8M vs. 143.7M),因为每个编辑只针对其目标簇进行评估,而不是针对整个任务集,并且编辑只针对其分配的簇,避免了当退化的单个 harness 被评估针对所有任务时积累的浪费提案。
概述。变体隔离解决了全局下的停滞现象,将 GAIA GPT-5.4 从 Δ=0.0 提升至+13.6%(87.4%,非退化)。探索了更细粒度的策略(领域感知聚类、任务级锦标赛),在试点规模(30-40 个任务, ≤ 8 轮)下进行了研究,但由于轮次和任务数量不足,无法进行具有统计学意义的比较。
6.4Meta-Agent Effectiveness
6.4 元代理效果
为了将进化器架构与基础设施分离,我们用单个代理的 CC SDK 进化器替换了四阶段的 AEGIS 流程,该进化器共享相同的模型(Opus 4.6)、回合预算和基础设施。两个进化器都在变体隔离下运行(在 6.3 节中介绍),以确保非退化轨迹。表 6 报告了在 GAIA(103 个任务,GPT-5.4,15 回合)上的比较结果。
表 6:元代理架构比较(GAIA、GPT-5.4、变体隔离、15 轮)。两个进化器都使用 Opus 4.6。
| Evolver 进化器 | Accuracy (%) 准确率(%) | Best round 最佳轮次 | Tokens 令牌 |
|---|---|---|---|
| AEGIS | 87.4 | R14 | 107.8M |
| CC SDK | 86.4 | R12 | 123.1M |
精度相当;效率有所不同。1.0%的精度差距在一个标准误差范围内( ∼ 3.3% at n=103 ),表明在当前元智能体能力水平上,四阶段分解并未提高最终精度。然而,单智能体变体消耗了 ∼ 14%更多的 token(123.1M vs. 107.8M)。我们归因于 Digester 的压缩:它将 ∼ 10M 原始追踪 token 压缩为 ∼ 10K 结构化摘要,然后再供下游阶段使用。如果没有这个阶段,单智能体进化器必须截断追踪以适应其上下文窗口,产生信息较少的编辑,这些编辑更频繁地被门控拒绝,浪费了在失败提案上的 token。
含义。在变体隔离下,一个强大的元代理中,准确性的提升主要来自 HarnessX 的基础设施(支持隔离的 typed 组件,支持诊断的结构化追踪),而不是进化者的内部架构。四阶段分解提高了效率( ∼ 减少 12% 的 token)和可解释性(可审计的中间产物),但在这个规模上没有可衡量的准确性提升。
6.5Co-Evolution 6.5 协同进化
本实验测试了是否将悬挂进化与模型 RL(第 5 节)交替进行能带来超越仅悬挂进化的收益。如图 5 所示,我们使用 Qwen3.5-9B 任务代理在 GAIA 和 WebShop 上比较这两种模式。两种条件都共享一个固定容量的 FIFO 回放缓冲区:每一轮将当前代理在适应批次上运行,一个固定验证器对生成的轨迹进行评分,悬挂进化(AEGIS)和模型训练(跨悬挂 GRPO)都在同一缓冲区上进行更新(第 5.1 节)。第 5 节预测每个单一优化路线会在其自身的极限处停滞:仅悬挂进化在脚手架极限处停滞,仅模型 RL 在训练信号极限处停滞。协同进化通过使模型能够内化连续悬挂版本引入的策略来解决这两个极限。
实验设置。我们在 GAIA 纯文本子集(103 个任务)和一个 WebShop 子集(100 个任务)上运行这两种模式,使用 Qwen3.5-9B 任务代理。GAIA 练习使用实时网络工具,其延迟和可用性波动,因此每个回合评估两次并取平均值。这两个子集都很小,所以我们设置优化器批处理为整个重放缓冲区,并将缓冲区大小设置为四回合滑动窗口:每个任务两个展开,GAIA 上有 824 个跟踪( 103×2×4 ),WebShop 上有 400 个( 100×1×4 ),这为 GRPO 提供了足够的组内样本以稳定估计优势。训练使用学习率 1×10−6 ,GRPO 裁剪 ϵ=0.2 ,无 KL 惩罚(系数 0 ),每回合 5 个训练步骤。GAIA 代理配备了网络搜索(百度 API)、网络获取、bash 和文件读取;WebShop 使用其环境内置的动作工具。奖励包括 GAIA 上的 0.9× 正确性加 0.1× 格式,以及 WebShop 的原生属性匹配奖励(任务只有在奖励 =1.0 时才通过)。

Figure 5:Co-evolution vs. harness-only evolution (AEGIS, model frozen) on GAIA and WebShop. Stars mark each method’s peak; the shaded band is the co-evolution gain.
图 5:协同进化与仅利用进化(AEGIS,模型冻结)在 GAIA 和 WebShop 上的表现。星号标记每种方法的峰值;阴影带表示协同进化收益。
协同进化超越单纯工具进化。如图5所示,在共享经验回放池中交叉进行跨工具GRPO与工具进化训练,使两项基准测试的峰值成功率均得到提升:GAIA从37.4%升至41.7%(+4.3%),WebShop从49.0%升至54.0%(+5.0%),相较模型冻结基线平均提升4.7%。两条训练曲线在联合训练生效前(R4阶段)基本重合,此后开始分化——协同进化效果始终优于或持平单纯工具进化。这种优势持续到最终训练轮次(GAIA 36.4%→39.8%,WebShop 46.0%→50.0%),且在WebShop上表现更显著,因其模型层面仍有突破工具进化瓶颈的改进空间。协同进化不仅提升了峰值性能,更持续改善了最终精度。
协同进化突破工具天花板。单纯工具进化在GAIA和WebShop上分别停滞于37%和49%左右。协同进化通过跨工具GRPO使模型内化迭代工具版本的策略,后续修改得以基于习得行为而非修补固定模型的固有缺陷,从而突破了这些瓶颈。
6.6 失效分析 我们展示操作镜像(第4.2节)预测的三种典型故障案例:奖励破解、灾难性遗忘和探索不足。每个案例均记录首次显现的检测信号、通过轨迹分析确定的根本原因,以及最终结果——系统是否自主修复或需人工干预。图6按故障类型汇总了所有已确认和待处理案例。

图6:按病理类型分类的失败案例(行:奖励破解、灾难性遗忘、探索不足)。
奖励破解(GAIA项目,Sonnet 4.6版本,第10轮迭代)
在第10轮迭代中,流水线提交了一个复合修改(工具+提示+配置),其清单预测将提升检索效果。该修改通过了"跷跷板约束"并将准确率从74.8%提升至79.6%。第11轮迭代的追踪分析显示,该工具确实改善了多数新增通过任务的检索效果,但部分任务是通过利用验证器的格式规律而非实际检索来通过的。规划器在第12轮标记了该路径,后续修改引入了防护机制,将该工具限制在可通过第二条检索路径交叉验证输出的任务上。
灾难性遗忘(τ3-Bench项目,Sonnet 4.6版本,Telecom领域,第7轮迭代)
Telecom领域的演进在连续五轮迭代(第2-6轮)中提交了同类提示/处理器修改,每轮都追加"提醒"规则。合规率在第4轮从89.5%升至100%,到第6轮因规则冲突回落到94.7%。第7轮评审器标记了集中风险("前5次提交均属同一类别:[提示,处理器]"),但仍批准提交,因为提交预测准确率保持高位(第2-6轮:23/24,5/6,4/5,7/7,2/3)且未记录衰退。第六条提醒规则使合规率从94.7%降至80.7%(-14.0%),这是跨规则冲突破坏了原有通过任务的稳定性所致。该衰退规避了"跷跷板约束",因为pass@2仅记录每任务的二元翻转,不检测阈值下耦合。流水线在第9轮完成自修正,规划器诊断出集中模式并提出用结构性修改替代冲突的提醒规则栈。
探索不足(ALFWorld项目,Sonnet 4.6版本,第4-7轮迭代)
第4-7轮迭代期间,流水线主要提交提示级修改,每轮增益<1%。提交预测准确率(清单预测的任务翻转实际发生的比例)从80%(第3轮)降至0%(第7轮),表明提示空间已耗尽。此期间唯一的结构性修改(第6轮的处理器级变更)仅实现14%的提交预测准确率(7个预测翻转中实现1个),说明规划器缺乏足够的结构性修改历史来校准提示邻域之外的假设。
总结
操作镜像预测的三种病理现象均在实践中出现。流水线在两轮迭代内(第10-12轮)检测并缓解了奖励破解。衰减的提交预测准确率诊断出探索不足(第4-7轮)。灾难性遗忘案例暴露出单次修改门控的结构性局限:阈值下耦合会持续累积直至超过单任务检测阈值(Telecom第7轮)。在τ3-Bench Telecom项目中,流水线实现自修正(第8-9轮),因为故障局限在单一领域;而在GAIA(GPT-5.4)项目中,相同机制导致持续停滞(Δ=0.0),因为冲突修改阻碍净增益。第6.3节表明,变体隔离通过将修改限制在任务特定集群可解决该问题。
7 讨论
7.1 组合结构对演进的重要性
如表5所示,全局策略(所有主实验采用)在GAIA项目上早期达到峰值73.8%(第4轮),后崩跌至49.5%(峰值-终值差:-24.3%)。全局策略使用HarnessX的类型化组件但未用于隔离——每个修改都针对所有任务联合评估。在pass@2机制下,成功概率下降的任务仍可记为"已解决",因此阈值下衰退能规避"跷跷板约束"。防止这种崩跌需要变体隔离,而组合性使之成为可能:HarnessX的组合结构显式定义每个修改的预期范围,这是变体隔离将修改评估限制在目标集群而非全任务集的前提条件(第6.3节)。
这种关系类似于类型系统:类型不能生成正确程序,但能使错误程序可检测。类似地,类型化组件不能阻止不良修改,但能显式界定其范围,实现独立变体。策略比较表明变体隔离是稳定演进的必要条件(缺失该机制的全局策略在峰值后衰退);没有组合结构,修改的预期范围未定义,导致变体隔离不适定。但组合结构不能保证行为效应有界——τ3-Bench Telecom故障证明,同类修改的累积会引发阈值下耦合,同时破坏多个对话模式。
7.2追踪丰富性的作用
HarnessX 的完整执行跟踪 τ 提供了超出标量奖励的诊断信息。案例研究(第 6.6 节)证实了这一点:检测 GAIA(R10 发布,R11 检测到)上的奖励攻击需要检查改进是如何发生的(格式利用与真实检索),而检测 ALFWorld(R4–R7)上的探索不足需要跟踪编辑类型分布和飞船预测准确性。这两个信号都无法仅从每个任务的二进制结果中恢复。
这些观察结果启发了一个设计原则:反馈信号的丰富程度决定了能够安全进行的进化复杂性上限。仅凭标量奖励,这三种异常情况都无法被检测到:得分变化无法区分奖励作弊与真正改进、探索不足与收敛、灾难性遗忘与评估噪声。只要存在前几轮跟踪记录用于比较,跟踪结构就能诊断出每种异常情况。τ3-Bench电信故障案例说明了这个边界:尽管有前五轮跟踪记录(R2–R6),累积的回归仍然逃过了跷跷板约束,因为没有单个编辑超过检测阈值。因此,结构化跟踪记录对于检测异常是必要的,但不足以预防异常:当耦合效应在单任务检测阈值下累积时,跟踪记录只能在损害发生后记录症状。
7.3 操作镜的适用范围和限制
RL符号空间镜像是一种设计启发式方法,而非正式框架。经典RL收敛性保证需充分探索状态-动作空间,但当状态为符号化装备配置、动作为开放式代码编辑时,此条件无法满足。全局策略下,GAIA(GPT-5.4)完全停滞(15轮Δ=0.0);变体隔离消融实验(第6.3节)恢复了稳定改进(最终=峰值87.4%),但无法保证该优势能延伸至更长周期(变体可能过度特化)或存在任务间依赖关系的任务分布(导致变体无法清晰分离)。该镜像亦无法预测何种病理现象将占主导:在τ3-Bench Telecom中,灾难性遗忘出现于第7轮;ALFWorld中探索不足主导第4-7轮;GAIA中奖励破解仅在第10轮浮现。
因此我们将其视为设计检查清单而非预测理论:它识别需防范的失效模式,但不预测其出现顺序、时机或相对严重性。这三种病理现象具有代表性而非穷尽性;其他RL现象(如适配批次与部署任务偏离时的分布偏移、困难基准上的奖励稀疏性)可能在符号空间表现为类似失效模式。
7.4 跨模型家族的泛化性 在ALFWorld中,Opus 4.6元代理为三个模型族的任务代理演化装备: • Sonnet 4.6(同家族):83.6%→94.8%(+11.2%) • GPT-5.4(异家族):76.9%→97.8%(+20.9%) • Qwen3.5-9B(异家族/较弱):53.0%→97.0%(+44.0%)
逆向缩放效应(第6.2节)解释了增幅排序:收益与基线表现呈反比(Qwen>GPT>Sonnet),而非与元代理模型家族的亲缘性相关。所有配置均固定元代理(Opus 4.6)而变更任务代理,未评估较弱元代理能否达成可比增益。
补充消融实验(第6.4节)发现:当采用相同元代理模型与基础设施时,单代理演化器与四阶段AEGIS流程精度相当(86.4% vs 87.4%,n=103抽样误差范围内)。这表明在当前元代理能力水平下,四阶段分解主要提供效率增益(~12%令牌节省)和可审计性,而非可测量的精度提升。
7.5 成本-性能权衡 如表7详述,演化会产生前期计算成本,该成本会在后续任务调用中分摊。 表7:演化成本概要。所有主实验采用全局(单装备)策略;变体隔离行来自策略消融实验(第6.3节)。
| Experiment | Rounds | Total Tokens 总 token 数 | Gain |
|---|---|---|---|
| GAIA, GPT-5.4 (Global) | 15 | 143.7M | 0.0% (peak = initial) |
| GAIA, GPT-5.4 (Variant isolation, ablation) | 15 | 107.8M | +13.6% |
| ALFWorld, Sonnet 4.6 (Global) | 7 | 43.4M | +11.2% |
策略消融实验(第6.3节)表明,在GAIA基准测试中,变体隔离策略相比全局策略既更有效(最终成功率87.4% vs 49.5%)又更高效(消耗107.8M vs 143.7M tokens)。token节省来自两方面:(1) 结构上,变体隔离策略下每个编辑只需针对目标集群而非完整任务集评估,降低了单轮评估成本;(2) 全局策略中持续退化的基线会导致更多候选方案无法通过门控,浪费token在永远不会部署的候选方案上。在进化快速收敛的基准测试中(ALFWorld R4-R7、SWE-bench R2-R3),全局策略已足够且不会在运行周期内出现明显退化。
进化后的控制框架还会影响单任务推理成本。在GAIA上,单任务token消耗降低约25%(定向工具选择缩短执行路径);在ALFWorld上则增加约60%(任务分解提示延长了执行过程)。
部署时,进化后的控制框架是静态产物,无需元智能体推理;进化集之外的任务会被路由至在进化集上总体成功率最高的变体。在GAIA上,前期107.8M tokens的投入约经过1,300次调用即可摊薄(每次调用节省约83K tokens)。在ALFWorld上单任务成本增加,但回报是准确率提升(+11.2%)而非成本降低。
7.6 伦理考量 自我进化智能体系统需要明确监管。HarnessX提供三重机制:
- 可审计性:每个部署的编辑都附带清单和回滚目标;被拒候选会存档并注明原因
- 确定性门控:跷跷板约束会拒绝任何导致pass@2指标下已解决任务回退的编辑
- 人在环路:门控层支持对超出可配置风险阈值的编辑进行人工审核(自动化实验中未启用)
τ3-Bench的失败案例(第6.6节)揭示了其局限:连续五个同类型编辑(R2-R6)累积了未达阈值的耦合效应(未被跷跷板约束检测),第六个编辑(R7)引发显著回退(-14.0%),但单个编辑均未违反约束。这是单编辑门控的结构性局限:无论前期在相同约束下表现出多少轮稳定,未达阈值的回退都会持续累积。
7.7 局限性 除上述限制外,还有五个因素制约结果的普适性: • 无保留评估:所有报告增益均基于进化使用的同一任务集测量。由于报告峰值准确率并在适应集本身评估,数据存在选择偏差和潜在过拟合 • 仅限离散动作空间:所有实验均使用基于文本的离散动作空间智能体,未测试框架是否适用于连续动作空间(如机器人控制) • 闭源元智能体:AEGIS需要具备多文件代码生成、结构化轨迹分析和多步规划能力的元智能体,尚未测试达到此能力水平的开源模型(如Qwen3.5-72B、Llama-4-Maverick) • 联合控制假设:协同进化要求同时控制框架进化与模型训练,实践中这两者常分属不同团队,缺乏跨团队协调时共享回放缓冲区(第5.1节)难以实现 • 基准覆盖范围:SWE-bench Verified仅使用55任务子集,τ3-Bench仅评估三个领域(零售/航空/电信),结论(特别是逆缩放效应)可能不适用于不同任务异质性领域或更大评估集
8
结论
我们提出了HarnessX——一个可组合的运行时铸造厂,它将工具接口视为模型与环境之间的一流交互媒介。该接口可通过类型化原语组合构建,根据执行轨迹动态演化,并与模型训练在统一优化循环中协同演进。在五个基准测试和三类模型家族的实验中,基于组合基底的轨迹驱动演化使HarnessX最高获得+44.0%的性能提升(15种配置平均+14.5%),其中两项基准测试显示协同演化比纯工具演化额外带来+4.7%增益。这些结果表明:智能体进步不必仅依赖模型扩展——通过执行反馈来组合优化运行时接口是具备可操作性的互补路径,尤其对能力受限的智能体而言,工具层优化能产生最显著收益。
参考文献
贡献与致谢
\xiaomievblue
核心贡献者
•
Tingyang Chen*
• 陈挺阳*
•
Shuo Lu*
•
Kang Zhao*
• 康兆*
•
Weicheng Meng
• 魏成孟
•
Kun Shao†
• 昆少 †
•
Jian Luan†
• 简乱 †
\xiaomievblue
贡献者
•
Hanlin Teng
• 谭汉林
•
Tianhao Li
• 李天浩
•
Chao Li
• 李超
•
Xule Liu
• 刘旭
•
Jian Liang
•
Zhizhong Zhang
•
Yuan Xie
•
Heng Qu
• 邱恒
††* 同等贡献 † 通讯作者
\beginappendix
9实验设置:完整细节
本附录扩展第6.1节的简略设置,完整说明基准测试描述、指标定义、演化协议超参数及运行时基础设施。
9.1基准测试
我们选用五个基准测试,覆盖工具设计最易影响的故障模式——从短周期具身规划到长周期软件工程。
GAIA。
GAIA基准[mialon2024gaia]提出对人类概念简单但需智能体组合多动作(网络搜索、文件提取、多模态解析、算术)的现实问题,通过与参考答案精确匹配来评估。该基准考验开放式工具推理能力,其工具链决定证据收集与综合方式。
ALFWorld。
ALFWorld基准[shridhar2020alfworld]涉及具身指令跟随,文本智能体在家庭环境中操控模拟机器人。给定自然语言目标(如"把冷却的苹果放进微波炉"),智能体需导航房间、识别物体并执行文本动作,以目标达成率为指标。该基准考验严格步数限制下的多步规划与具身搜索。我们使用valid-unseen集的134项任务,涵盖六类:取放、取二放一、光照查看及三种变形后放置(加热、冷却、清洁)。
WebShop
WebShop [yao2022webshop] 是一个网页交互基准测试,其中智能体扮演模拟在线商店中的顾客角色。给定文本化的商品描述后,智能体需完成搜索、浏览商品页面、选择最佳匹配商品并购买等操作;评分反映所选商品与需求的匹配程度。我们在固定随机种子下采样100个实例进行评估,每次运行视为独立购物会话。
τ3-Bench
τ3-Bench [yao2024tau] 是一个多轮对话基准测试,智能体需扮演遵循明确领域政策的客服助手来满足用户请求。性能通过完整对话中的规则合规性衡量。该基准测试强调对话政策遵守:评估框架必须防止智能体在多轮对话中同意被禁止的操作。评估时我们选取该基准中的三个领域:零售、航空和电信。
SWE-bench Verified
SWE-bench Verified [jimenez2024swe] 是SWE-bench经人工验证的子集,每个任务要求智能体通过编辑对应代码库解决真实的GitHub问题,使项目的隐藏测试套件通过。该基准测试强调仓库级代码编辑:需导航大型代码库、定位相关错误、实施补丁并避免现有测试回归。评估时我们从SWE-bench Verified采样55个任务子集,以补丁解决率为衡量标准。
9.2 评估集设计
表3中的采样任务数表示每轮进化评分时使用的固定评估集。GAIA采用跨三个难度级别(39/52/12)的固定103任务集。ALFWorld使用valid-unseen分割下的全部134个任务。WebShop采用固定随机种子从数据集中随机采样的100个任务,每个任务作为独立购物会话运行。对于τ3-Bench,我们选择三个领域(零售、航空和电信)并评估每个选定领域内的完整任务列表。软件工程领域采用从SWE-bench Verified采样的55任务子集。每个基准的相同评估集在每轮重新评分,因此附录12中的曲线衡量的是固定任务集上轮次间的变化而非动态样本。
9.3 指标定义
Pass@k
对于在任务集D上评估的配置(每个任务进行n次 rollout),令ri,j∈{0,1}表示任务i第j次rollout的二元结果。设ci=∑j=1n ri,j为任务i的成功rollout次数。我们采用标准无偏估计量报告pass@k,即k次采样rollout中至少有一次解决任务的概率:
| Pass@k=1|D|∑i=1|D|(1−(n−cik)(nk)). | (6) |
所有进化曲线均以pass@2作为主要指标:每个任务进行两次独立运行,只要其中一次成功即视为完成。这样既降低了对单次运行随机波动的敏感性,又保持了严格的任务完成标准。因基础设施故障(沙盒崩溃、API超时)而终止的运行计为失败而非排除,确保结果与官方排行榜标准可比。
9.4 进化协议与超参数 进化算法使用的超参数详见表8。在第0轮中,基线是配备基准测试专用工具注册表的成熟组合工具链,而非最小默认配置。因此图表显示的是相对于成熟初始工具链的增益。所有实验中元智能体均为Opus 4.6版本,任务智能体则采用不同配置:Sonnet 4.6、GPT-5.4和Qwen3.5-9B。由于不同任务的交互长度差异较大,单任务步数限制由对应基准测试决定。
表8:进化协议超参数
| Symbol 符号 | Meaning | Value |
|---|---|---|
| Kt | candidates proposed per round | 4 |
| seeds | random seeds per cell | 3 |
| noise threshold | ignored single-round pass-count delta | ±5% |
| ℋ0 | round-0 harness | Handcrafted base harness |
| meta-agent | drives Digester / Planner / Evolver / Critic | Opus 4.6 |
| task agent | model executing benchmark tasks | Sonnet 4.6; GPT-5.4; Qwen3.5-9B |
| concurrency | parallel task rollouts 并行任务发布 | 10 |
| max-steps | GAIA | 20 |
| WebShop 网上商店/电商网站 | 20 | |
| ALFWorld | 15 | |
| τ3-Bench τ3 -测试平台/基准测试工具 | 200 | |
| SWE-bench Verified SWE-bench 已验证 | 200 |
9.5运行时基础设施
每个任务运行在一个全新的环境实例中,任务间环境会重新挂载,以防止副作用(如电商购物车、ALFWorld世界状态、Shell工作目录)在不同任务间泄露。运行时层会记录每次任务运行的完整轨迹(包括每次模型调用、工具调用和环境观察)到可观测层,随后由Digester进行压缩;跨轮次的账本数据即从该日志中聚合生成。任务运行并发数为10。元代理的并发数为4,每个角色最多执行200步。共进化模型训练使用8张H100 GPU,批量大小为256,学习率为1×10⁻⁶。
10提示词与框架默认设置
本附录复现了驱动AEGIS外层循环的提示词及第0轮任务代理的默认配置。以下代码块对应实验章节(第6节)所用代码库提交版本中的实际文件内容。
10.1元代理提示词
planner/system_prompt.md evolver/system_prompt.md critic/system_prompt.md
10.2第0轮任务代理提示词
组合层默认配置(ℋ₀)会为每个基准测试加载一个系统提示词。下文以ALFWorld默认提示词作为示例,其余基准测试的默认提示词结构相同,详见代码库。
alfworld_evolver/systemprompt.md
10.3变更清单模式
每个进化器候选方案都附有一份结构化变更清单,该审计记录将提议的修改与相关证据、机制、预期效果和归因信号相关联。清单使所有框架修改均可被验证:评判员会检查下一轮运行轨迹特征是否符合清单预测的机制与影响。表9定义了清单字段,下方模式规定了其表示形式。
表9:变更清单字段。该清单作为循环的证据账本:所有已实施的修改都可通过下一轮的轨迹特征增量进行证伪。
| |
|---|---|
| |
| |
| |
| |
| |
| |
change_manifest.yaml(模式文件)
11 演化步骤剖析
为具体说明AEGIS循环机制,我们将完整演示一个周期流程:从Digester压缩分析、Planner规划合成、Evolver编辑调整到Critic评估判断,最终生成追踪增量。我们选取GAIA/Sonnet 4.6运行的第10轮作为案例——这是一次包含新增工具、提示语补充和配置调整的复合编辑。该多组件干预措施在该次运行中创造了单轮最大增益,其阐释价值远超单一杠杆的调整。
11.1 操作实例:GAIA/Sonnet 4.6第10轮
失败证据
第10轮前成功率已从峰值77.7%降至74.8%,这是第9轮出现倒退所致。Digester的追踪分析暴露出系统性故障模式:该轮所有维基百科抓取操作返回字符数均为零。WebFetch工具本应在网站需要JavaScript支持时启用浏览器,但维基百科新版前端未能正确加载,导致超时或返回空内容。追踪记录明确显示:在任务db4fd70a(铁路线路站点统计)中,db4fd70a_r0.jsonl#step_0与#step_1均报告维基百科抓取返回0字符;类似地,在f0f46385(东盟成员国状态)任务中连续三次WebFetch调用均返回0字符;该轮共计十次独立尝试均获空响应。
规划合成
Digester将23项失败任务按故障模式分类,突显出工具层面的关键问题(第9轮Critic已标记):尽管自第1轮就出现源访问故障,但tools组件已连续九轮未推送修复。Planner收到两个目标:(1)解决持续存在的工具级源访问故障,(2)撤销导致第9轮倒退的提示语与预算处理器变更。
演化编辑
Evolver提出C-R10-02方案,涵盖三方面:(i)工具:新增WikiTextFetch工具,通过MediaWiki API端点直接获取内容(规避浏览器),返回文章全文(铁路线路案例返回10,529字符,东盟案例返回80,028字符);(ii)提示语:在工具使用章节添加单句指引,要求代理在查询维基百科前优先使用新工具;(iii)配置:恢复第8轮基准配置,注册新工具并移除有问题的预算处理器。清单的能力证据包含二级往返校验(提供方序列化的10,529字符内容);归因签名要求至少一次新工具调用。
R10/candidates/C-R10-02.md
评审裁决
Critic仅批准C-R10-02,否决了单纯回退方案的C-R10-01。裁决依据包含三点:(i)交互性:C-R10-02完全包含C-R10-01功能,两者均恢复第8轮基准配置,预算处理器移除属有意为之而非意外重叠;(ii)往返证据:Critic在接受任何工具类方案前均验证二级证据(工具输出为完整字符串而非截断标记);(iii)组合考量:这是十轮来首次工具组件更新,持续零字符返回的追踪证据支持第9轮标记的干预必要性。
增量实现
部署后GAIA通过率从第9轮的74.8%提升至第10轮的79.6%(+4.9个百分点,5项任务转为通过),创下全程最大涨幅;该工具预计影响的7项任务中有5项转为通过(命中率0.71,全部19次运行中最高)。改进主要集中在二级(+4任务)和三级(+2任务)。由于工具成功触发目标任务,归因条件得以满足。
图7以清单卡片形式总结本次编辑:上方原始YAML为循环日志记录,卡片则是面向人工的可读版本。
C-R10-02 | GAIA/Sonnet 4.6 | 第10轮 | 分类:工具+提示语+配置
失败证据 本轮所有维基百科抓取轨迹均返回0字符(涉及db4fd70a、f0f46385、42d4198c等任务的10+次调用);无头浏览器回退方案在维基百科前端超时。
编辑 新增WikiTextFetch工具调用MediaWiki API获取纯文本内容(工具);单行提示语优先引导至该工具(提示语);恢复第8轮基准配置并移除引发倒退的预算处理器(配置)。
预期修复 解锁db4fd70a、f0f46385、983bba7c、08f3a05f、5e2a91b0任务;稳定4b6bb5f7、42d4198c任务。
归因签名 需出现WikiTextFetch工具调用且≥1次;通过下轮追踪验证。
图7:C-R10-02的变更清单卡片(对应上方YAML日志的人工可读版本)
12其他结果
本附录的其余部分按基准测试组织。每个小节围绕一个三部分图表展开:(a) 适配循环需要处理的故障集群分类,(b) 各模型演化过程中采用的工具杠杆分布,(c) 每个杠杆有效性的逐模型热力图(以任务预测翻转为通过标准)。我们按顺序解读这三部分:故障类型及原因、各模型的演化路径、以及演化是否解决了故障。
12.1 GAIA
GAIA侧重工具使用下的通用推理能力,是我们测试套件中工具杠杆多样性最高的基准。图8展示了本附录统一采用的三视角分析框架。
故障集群及其成因
(a)部分汇总了GAIA运行中积累的故障集群。主导集群是源阻塞(39%),即代理因页面返回空内容、需JavaScript渲染但超时或信息不完整而无法获取证据。其次是推理故障(33%),涉及多跳推理、相似实体消歧、数值计算或模糊查询的精确解读。图表/视觉故障(11%)发生在答案依赖图像、地图或图表等纯文本提取无法捕获的信息时。文档/表格解析故障(11%)源于PDF、结构化表格或半结构化格式中的证据被错误解析或遗漏。范围模糊(6%)指存在多种合理解读时代理选择了错误解释。这些集群表明GAIA故障主要集中在证据检索、多步推理、视觉锚定、结构化文档提取和查询消歧。
各模型的演化逻辑
(b)部分显示GAIA是唯一一个四大杠杆均被频繁使用的基准——仅Sonnet模型就进行了11次提示词调整、7次处理器修改、6次配置更新和6次工具编辑,因其故障集同时涉及工具、提示词和配置问题。三个模型的演化路径差异与其初始能力相关:迭代最多的Sonnet全面调整所有杠杆;GPT-5.4主要依赖提示词调整(占其修改的45%),几乎未改动配置,因其推理能力已足够强,剩余优化空间多在指令跟随;Qwen3.5的短暂迭代集中在少数修改,值得注意的是其唯一的工具编辑实现了全表最高收益率。共同逻辑是:行为类故障优先调整提示词,而机械类故障才会动用稀缺的工具杠杆。
演化是否解决了故障?
(c)部分展示了各故障集群的改善情况。最大进步来自源阻塞集群:引入WikiTextFetch的工具编辑用MediaWiki API调用替代了不可靠的浏览器维基百科抓取,减少了因页面空内容或不完整导致的故障。提示词编辑主要针对推理集群,通过强化显式验证带来持续改进。相比之下,图表/视觉和文档/表格解析故障较难消除,因其需要从图像、PDF或结构化表格中提取信息。总体而言,GAIA通过修复检索故障的工具编辑和减少推理错误的提示词调整实现提升,而剩余误差主要集中在视觉化和文档密集型的任务中。

图8:GAIA进化分析(103项任务,精确匹配)。(a)未解决任务中的失败聚类分布,"阻断源"与"推理错误"占主导,而"图表/视觉"与"解析错误"构成残余模型缺陷。(b)各任务模型按干预类型划分的编辑部署比例。(c)以命中率(翻转任务数/预测数)衡量的干预效能,Qwen3.5工具调用单次部署成为最高效单元(0.67)。
12.2 ALF世界 ALF世界是具身规划基准测试,也是我们测试组中提示词主导性最强的项目。图9展示其故障聚类、模型专用逻辑及干预效能。
故障聚类及成因 图表(a)汇总了ALF世界的主要故障聚类。主导类型是搜索/步数耗尽(89%),包含智能体低效遍历房间/容器,或在完成深层搜索、先转换后放置等长交互链前触达步数限制的情况。提示规则副作用故障(7%)指启发式改进部分任务时意外限制其他任务行为,导致智能体跳过有效动作或过早终止搜索。物件类型混淆(4%)指智能体混淆语义相似物件。这些聚类表明ALF世界故障主要源于搜索效率不足、过度约束的提示策略及物件相关基础认知错误。
模型进化逻辑 图表(b)显示提示词主导性与基础模型强度呈反比:仅当模型能稳定遵循时,提示规则才产生增益。作为最强基础模型,Sonnet几乎完全依赖提示词编辑获得改进——系统提示中的搜索顺序启发式规则已足够,因其始终能遵守。GPT-5.4通过第三轮引入的处理器管理转换任务步数预算来补充提示词。Qwen3.5需要最多样化的组合(提示词、配置与处理器),包括拦截推理文本并在必要时重新发起工具调用的处理器,这是提示级引导无法解决的机械性故障修正。共性模式是提示优先,仅当提示不足时才启用结构级干预。基础模型越弱,进化过程就越快从提示引导回退到配置或处理器强制,这体现为从Sonnet到Qwen非提示干预段的增长。
进化是否消除了故障聚类? 图表(c)显示进化显著减少了ALF世界主要故障聚类,不同任务智能体需不同干预手段。对Qwen3.5,处理器与配置编辑效果最显著,命中率分别达0.84和0.71。这些编辑通过重发遗漏工具调用和调整执行预算直接解决机械故障,使Qwen3.5提升44.0个百分点并接近闭源模型表现。Sonnet的残余故障结构性较低,提示词编辑即获得0.49命中率,处理器编辑仅边际改善(0.14)。两个聚类仅部分消除:某些进化启发式规则引发的提示副作用(后续轮次修补),以及部分场景仍超出可用交互预算的长路径故障。总体而言,ALF世界呈现清晰的模型依赖模式:强模型主要受益于提示级引导,而弱模型需更多处理器和配置的结构化支持。

图9:ALFWorld演化分析(134项任务,目标达成率)。(a)各轮次累计的失败聚类;搜索效率低下和硬性步骤瓶颈占主导地位,另有两个小聚类由演化自身引入(提示规则副作用)或短暂触发(物品类型混淆)。(b)模型间的杠杆使用差异:强基础模型(Sonnet)几乎仅靠提示调整攀升,而较弱基础模型则借助更多样化的杠杆。(c)杠杆有效性:结构类杠杆(处理器、配置)在较弱模型上使用更频繁且效果更显著。
12.3 WebShop
WebShop作为网页交互基准测试,是本套件中噪声最大的实验。图10展示其失败聚类、各模型演化逻辑及干预措施有效性。
失败聚类及成因
图(a)汇总了实验过程中积累的WebShop失败聚类。早期失败主要源于搜索和分页循环——智能体不断重写查询或在结果页间跳转却不执行购买。随着演化逐步减少这类控制流错误,剩余失败转向商品选择判断。最大聚类"错误商品"(46%)发生在智能体选择错误品类商品,或在未对比替代品前选定勉强匹配项时。分页循环失败(21%)涵盖所有无进展的重复翻页情况。颜色匹配失败(17%)源于智能体错误处理色阶等效性或网站特定颜色标签(如将"酒红"与"红色"视为不兼容)。属性检查失败(17%)则出现在选定商品接近需求但未达标时(如尺寸、袖长等未验证属性)。整体聚类演变表明,演化首先解决导航循环问题,之后主要错误集中在商品匹配和属性验证环节。
各模型演化逻辑
图(b)显示提示修改推动三个模型的大部分改进,处理器调整作为稳定的次要杠杆。此模式与WebShop主要控制流失败相匹配:提示规则帮助智能体更高效搜索并更快决策,而建议处理器通过重复搜索/分页时发出警告来强化这些规则。针对商品选择失败,演化引入定向支持:配色工具解决色阶等效问题,配置调整帮助较弱模型在长购物流程中保持上下文。总体而言,WebShop需要混合应对策略:提示改进高层购物策略,处理器减少导航循环,工具支持属性匹配,配置调整稳定长会话行为。
演化是否消除聚类?
图(c)表明演化部分减少了WebShop失败聚类。提示修改是所有模型中最稳定的有效杠杆(命中率0.37-0.50),配置修改则帮助两个较弱模型维持长会话上下文。这些改动使早期搜索和分页循环减少,性能从60%提升至峰值76%。其余聚类更难消除:建议处理器仅带来有限改进(0.20-0.25),部分分页失败持续存在;配色工具本轮未提升性能(命中率0.0),颜色匹配聚类基本未变。总体来看,WebShop最大受益于提示和配置修改,而残留的导航循环与商品判断错误仍是主要不稳定因素。

图10:WebShop演化分析(100次会话)。(a)运行过程中的失败聚类,在演化过程消除第0轮搜索/分页循环后;残留问题主要是产品选择判断(错误产品、颜色匹配、属性检查)。(b)各模型杠杆组合:提示词主导改进,处理器是稳定的第二杠杆。(c)杠杆效用;提示词和配置是高效杠杆,单独部署的色彩匹配工具效果为0.0。
12.4 τ3基准测试 τ3基准测试强调明确领域政策下的多轮对话。图11汇总了航空、零售和电信领域的AEGIS运行数据。
失败聚类及其成因。 排除测试框架中断记录后,失败主要源于判断问题:前两大聚类——过早/未验证操作(28%;在前提条件未满足时提交预订、退款或设备修复)和错误选项/计数(24%)合计过半,涉及何时提交及选择什么而非机械执行。其余为流程性(未完成多步修复16%,遗漏步骤/子任务14%)或政策相关(误解13%)。最小聚类能力边界混淆(5%)是τ3特有的:部分电信故障存在于用户终端,而代理无设备端工具,其错误在于将该边界视为能力缺失。
各模型演化逻辑。 所有模型的演化均由提示词和处理器驱动,工具集零修改:工具集固定且无聚类能通过新工具解决。Sonnet 4.6分配提示词/处理器(23/18),GPT-5.4采用最均衡组合(19/20),Qwen3.5-9B总体较少(14/9)。由于τ3失败属于控制流和判断错误,有效杠杆是编码政策顺序约束的提示规则及对话中执行这些约束的处理器。
演化是否解决了聚类问题? 配置是最高效杠杆(Qwen3.5命中率0.67,GPT-5.4 0.33)但极少部署;高频使用的提示词和处理器杠杆效果中等(0.27-0.35),与主导聚类的控制流特性相符。提升幅度反映基础模型潜力:GPT-5.4起点最低(76.2%)提升最大(+14.5个百分点),Sonnet 4.6提升+5.4个百分点,接近上限的Qwen3.5-9B仅+1.1个百分点。优化非单调:Sonnet电信测试R4轮达100%,连续六轮同类型编辑后R7回落至80.7%,R9轮恢复至99.1%(见6.6节)。总体而言,强化顺序约束的杠杆最有效解决过早操作和遗漏步骤问题,而错误选择和政策判断错误是更难消除的残留问题。

图11:τ3-Bench演进分析(航空、零售、电信领域汇总数据)。(a)日志摘要中的故障聚类(不含测试框架中断轨迹),判断错误(过早操作与错误选择)占主导。(b)模型间杠杆使用分布:提示词与处理器编辑推动进展,工具编辑为零(工具集固定)。(c)杠杆效能:配置编辑在Qwen3.5上单次效能最高(0.67)但使用稀少,提示词与处理器是持续高频杠杆。
12.5 SWE-bench验证集
该数据集专注仓库级代码编辑。图12展示其故障聚类、模型逻辑与杠杆效能。
故障聚类归因
(a)面板汇总三轮测试中三大模型的故障聚类。不完全修复(62%)是主要类型:智能体定位正确区域并生成有效补丁,但仅覆盖单分支/调用点,而标准补丁需多位置修改。错误诊断(19%)次之,表现为误判根因后对错误文件或抽象层级进行修改。其余属机械性失误:未尝试编辑(6%)、编辑锚点失配(5%)、预算耗尽(4%)。值得注意的是,这与奖励破解模式相反——故障多为修复不足而非评估操纵,因测试框架会先应用标准测试补丁并锁定测试文件写入。
模型演进逻辑
(b)面板显示所有模型均以提示词为首要杠杆,次要杠杆与基座模型强度相关。由于故障集中不存在工具可解决的机械检索类问题(与GAIA不同),三轮测试均未产生工具编辑。Sonnet均衡使用提示词与处理器编辑(各7次),通过工作流微调优化本已合格的代码能力;GPT-5.4最依赖提示词(8次),并用配置编辑(4次)撤销有害微调并重构策略阶段;Qwen3.5将少量有效编辑分散于提示词、处理器与配置(6/3/3次)。共性逻辑是提示词优先,当基座模型较弱时引入结构型杠杆。
演进是否解决故障?
(c)面板揭示显著能力阈值。强模型的杠杆真实有效:GPT-5.4配置编辑效能0.48,提示词0.39;Sonnet双杠杆均达0.40。Qwen3.5-9B所有杠杆效能趋近于零(提示词0.05/配置0.05/处理器0.06),因其9B基座模型无法执行预测的修复方案。同一演进循环使GPT-5.4从45%提升至64%峰值,Sonnet稳定在87%附近,但对Qwen3.5仅产生噪声(峰值42%且无持续增益)。整体而言,SWE-bench通过拓展修复范围的提示词编辑与恢复工作流速率的配置编辑实现改进——但仅对具备执行能力的模型有效。

Figure 12:SWE-bench Verified evolution analysis (55 tasks, resolved-rate). (a) Failure clusters pooled across all rounds and all three task models; incomplete fix and wrong diagnosis dominate, while the mechanical tail (no-edit, anchor mismatch, budget) is residual; failures are under-fixes, not gamed evaluations. (b) Lever mix by model: every run is prompt-first and ships zero tools edits, with the secondary lever shifting from processor (Sonnet) to config (GPT-5.4) to a varied mix (Qwen3.5). (c) Lever effectiveness as hit-rate (tasks flipped / predicted); strong models reach 0.39–0.48 on their productive levers, whereas every Qwen3.5-9B lever collapses to ≈0.05, a capability floor below which evolution cannot compound.
13Reproducibility and Artifacts
13Reproducibility and Artifacts13.1Per-Run Directory Layout
13.1Per-Run Directory LayoutEach evolution run writes a self-describing directory. The layout below lets a reader reconstruct any decision in this paper from the logged artifacts.
runs/<run_name>/ (per-run artifact layout)
实验支持,请查看构建日志以获取错误信息。由 L A T E xml
报告错误的说明
我们正在持续改进论文的 HTML 版本,您的反馈有助于提升可访问性和移动支持。若要报告 HTML 中的错误以帮助我们改进转换和渲染,请选择下方列出的任何一种方法:
点击页面顶部的“报告问题”按钮。
提示:您可以先选择相关文本,以便将其包含在报告中。
我们的团队已经识别出以下问题。感谢您花费时间审查和报告我们可能尚未发现的可渲染错误。您的努力将帮助我们改进所有读者的 HTML 版本,因为残疾不应成为获取研究的障碍。感谢您继续支持为所有人推动开放获取。
有免费的开发周期吗?帮助支持 arXiv 的可访问性!我们的合作伙伴 LaTeXML 维护一个需要转换的软件包列表,并欢迎开发者的贡献。

735

被折叠的 条评论
为什么被折叠?



