o3原生Agentic能力会重塑Agent技术范式吗？

最新推荐文章于 2026-06-24 22:34:17 发布

原创最新推荐文章于 2026-06-24 22:34:17 发布 · 1.2k 阅读

22 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#javascript #开发语言 #ecmascript

上周OpenAI发布了o3和o4-mini，o3在编程，数学，科学，视觉感知等复杂推理任务上表现尤为有色，在Codeforces, SWE-bench (without building a custom model-specific scaffold), and MMMU数据集获得了新的SOTA(最优性能)，OpenAI官方将o3称为迄今为止最强的推理模型。

除了o3本身实现的推理性能提升外，o3还实现了一个新的模型特性 - 原生agentic能力，即模型不依赖外部(agent)框架驱动，本身就具备agent能力，由模型主动实现多次规划和工具调用，在一次推理过程中就可以完成多步骤的思考和行动。这种能力的显现，既是大模型agentic能力的延伸，也是agent技术范式变化的迹象，甚至可能带来agent技术的重塑，本文将就此问题做一下初步探讨(注意本文只讨论单agent的技术范式变化,multi-agent相关的多Agent协作暂不进行对比讨论)。

传统 Agent 的技术范式

传统范式：外部驱动的智能

在 o3 这类模型出现之前，构建能够执行复杂任务的智能体（Agent）系统，通常依赖于外部编排框架来驱动和管理大语言模型（LLM）的行为。LLM 作为核心的“大脑”或控制器，负责理解、推理和规划，但其行动的执行、状态的维持以及与外部世界的交互，则由外部代码逻辑精心安排。基于LLM为决策核心的agent设计也先后提出了多种不同的方法和框架：

ReAct 范式与启发

ReAct (Reason+Act) 是一个重要的llm based agent设计思路，它提出让模型在响应中交替输出“思考”（Thought）和“行动”（Action）。通过这种显式的“思考-行动-观察”迭代循环，LLM 能够展示其推理过程并指导后续操作，有效地将规划与执行结合起来。ReAct本身不是一个特定的agent框架，但对后续许多 Agent框架的设计产生了影响，很多agent框架都是依据这个思路进行设计和开发或者集成ReAct作为其中的一种使用模式，例如复现Menus的OpenMenus项目，就是以ReAct作为agent的基础类来构建工具调用agent。

其它的一类框架，主要基于agent的核心模块组件-规划、记忆、行动（利用 LLM 进行规划）独立发展或融合多种思路而构建。

模块化与流水线式框架 (如 LangChain)

这类框架（如 LangChain）提供了一套模块化的构建块，包括提示模板、工具接口、记忆模块和 Agent 执行器。开发者可以将 LLM 调用、数据检索、API 请求等步骤灵活地串联或组合成“链”或更复杂的图结构（如 LangGraph ），以构建定制化的 Agent 工作流，优点在于其灵活性和庞大的生态系统集成。然而，也有开发者认为其抽象层次有时过高，可能引入不必要的复杂性、依赖膨胀,使得项目维护困难。

自主 Agent 探索 (如 AutoGPT)

自主探索类的Agent项目是早期引起广泛关注的开源项目，旨在探索 LLM 完全自主执行任务的潜力。在给定一个用户目标的情况下，这类 Agent 会尝试自主进行任务分解、规划、执行（通常涉及工具使用，如网络搜索）、结果评估，并利用内部(上下文窗口)或外部记忆(向量数据库)来维持长期运行，直到目标完成。虽然展示了LLM Agent 的应用潜力，但也暴露了在给agent更多自主性之后，其在可靠性、可控性（有时被称为“失控的 Agent” ）、错误处理和资源消耗（计算和 Token）方面的局限性，通常很难直接用于生产环境。

尽管具体实现各异，这些传统的 Agent 范式基本共享一个核心架构：LLM 作为决策核心，其行为由外部逻辑（框架代码）显式地控制和编排。在这个迭代过程中，LLM 扮演着智能决策者的角色，让其运行在结构化的链路上(Langraph)，或者输出更为可控的中间思考链路(ReAct)，或者给与更多自主规划能力(AutoGPT)，但每一步的具体执行、工具的调用、状态的管理以及循环的推进，都依赖于外部框架代码的明确协调。开发者需要负责设计提示策略、解析模型输出、实现工具逻辑、管理错误处理和维护 Agent 状态等繁琐细节。

痛点与局限：复杂性与可靠性的挑战

虽然传统 Agent 范式提供了集成LLM 执行复杂任务的机制，在一些现实场景也逐步实现了落地，但在实际使用时会发现，在现实场景使用时，目前的agent框架落地仍然存在不小的局限性和痛点。

工具调用的可靠性与安全

LLM 生成的工具调用请求需要被外部框架精确解析和执行。模型输出格式的不稳定、对工具参数的错误推断、或外部工具本身的执行失败都可能中断整个流程，错误处理逻辑复杂。此外，由于工具在外部执行，必须实施严格的安全措施（如环境隔离、权限控制、用户确认）来防止潜在风险。

推理过程的不确定性与可控性

LLM 的生成具有一定的随机性，多步骤的长程连接设计的agent框架，在迭代过程中需要在框架内部进行中间结果传递和使用，这会进一步放大这个问题，Agent 可能陷入无效循环、偏离目标，从而产生低质量结果。而为了保证中间结果的稳定性和可靠性，开发者常常需要引入复杂的控制逻辑、启发式规则，甚至人工干预，这在一定程度上牺牲了 Agent 的自主性。

开发与维护成本

构建和维护支持完成复杂Agent任务的系统框架本身就是一项挑战。虽然框架提供了帮助，但它们也可能引入自身的学习曲线、复杂的抽象层和大量的样板代码，使得调试和迭代变得困难。而一旦agent陷入循环，LLM token在消耗的同时却产生无意义的结果，这在成本控制上也是一个不小的隐患。

延迟

上文提到，agent框架需要进行长程任务执行，可能会包括多个子任务的串行执行，这就涉及多次 LLM API 和多工具的调用，而如果某个子任务如果未正确执行，出现错误结果，如果设置了ReAct或reflexion机制，框架还会再继续执行一次，或者agent框架卡在某个子任务的循环上，都会导致出现比较高的延迟。

传统Agent通过模块化、思考行动循环的设计，提供了让LLM执行复杂任务的不同机制，但基本可以认为是将人类完成一个任务的启发式的思维应用在agent上，这在一定程度上可以认为是'pipeline'的设计,这需要在子可靠性和整体目标之间权衡，既要降低中间步骤犯错的概率，又要限制Agent自主性以保证可控。这暴露出现有范式的一个瓶颈：模型本身缺乏原生的规划与操作进行自然衔接的能力，需要大量外部支撑来串联整体任务的完成。

o3的Agentic能力：核心突破与设计理念

o3 引入了原生的 Agentic 能力，在模型层面实现了以往靠外部流程才具备的规划与工具使用本领，虽然不能完全解决传统agent面临的各项问题，但在技术范式上已经与传统agent框架呈现明显的不同。

端到端工具使用能力 (RL 强化学习增强)

按照OpenAI的官方介绍，o3是首个“能够独立使用全部ChatGPT工具”的大型模型。OpenAI通过在训练中加入工具使用环节，并采用强化学习（RL）微调，让模型学会何时、如何调用外部工具，并利用工具结果改进后续决策。通过监督微调(SFT) + 强化学习（如根据工具使用正确性为目标设置奖励），使得模型掌握了调用API的技能和解析工具输出的能力。与纯粹靠提示相比，端到端训练使模型对工具使用有更深的理解和更高的成功率，可谓将传统由Agent框架管理的“手脚”直接长在了模型身上。从o3的实际体验来看，最显著的特点是o3在需要长期推理、多步操作的任务中，模型表现出更强的长链决策能力。例如让o3整理几个LLM api的token定价，o3不仅仅只是去做各个模型的手机汇总，它还会对结果进行思考分析，比如'第三方网站提供的openai官网的定价有冲突'，它会选择相信官网，验证" GPT-4o mini and o4-mini"是不是同一个模型，它在一次长推理过程中实行了多次的思考和工具调用。看上去o3已经学会了自主平衡“思考”和“行动”，实现了两者的无缝衔接。

函数式接口 (Function Calling) 的智能运用

函数调用（Function Calling）接口作为一种确保工具精确调用的机制，已在agent的实际使用中得到广泛应用，它通过结构化的 JSON 请求保证了调用的准确性。o3 的关键不同并非引入了 function calling，而在于其运用这一接口的方式发生了改变。得益于其内置的多步推理能力和经强化学习优化的端到端工具使用训练，o3 在面对复杂任务时，不再像以往模型那样主要依赖外部的精细提示或流程框架来引导其决策何时调用工具。相反，o3 能够更自主地在其内部规划和推理链中判断何时需要借助外部函数来获取信息或执行操作，并主动生成相应的函数调用请求，请求调用的结果继续作为该次推理的中间结果继续往下推理和执行。这种将工具使用的“决策智能”深度内化的能力，使得 Function Calling 的应用对 o3 来说实现更为自然的集成使用，减少了由框架来将结果来回传递给LLM的步骤。它不再仅仅是一个被动的接口，而更像是 o3 自主解决问题过程中自然延伸的一部分。

多工具配合调度

得益于上述能力，o3可以组合使用多种工具来完成任务。OpenAI官方文章介绍o3已能使用 ChatGPT 平台上全部可用工具，包括网络搜索、Python执行、代码解释器、图像生成、文件读取等。例如，模型可在一次对话中先调用浏览器搜索资料，再调用代码解释器分析数据，最后综合信息回答用户。在内部策略上，o3懂得根据需求动态调整：什么时候该自己思考，什么时候借助外部工具，何时汇总结果。这种调度策略也是通过大量实例学习和RL奖励训练出来的，使模型具备类似人类选择最优解法的意识。当工具调用具有一定延迟或成本时，模型还能权衡是否调用。例如简单数学它可能直接心算（利用内化知识），复杂算术则果断调用计算器。这种工具使用决策能力正是此前Agent框架试图通过提示工程实现的，而o3将其转变为模型固有技能。

多模态原生融合：

o3首次实现了将图像等非文字信息直接纳入推理过程。模型可以在链式思考中像处理文本一样处理图像，将视觉信息融入中间推理步骤。这意味着o3的思维链不再局限于文本，还可以包含对图片的分析。例如用户给出一张图让Agent解决问题，传统框架可能需要单独的视觉模型提取信息再交给LLM，而o3可以自主调用内部的视觉解析能力，将图像“看”一下然后继续后续推理。这种多模态融合是原生的，不依赖外部专用模型，消除了模态转换的繁琐。跨模态能力的加入，使Agent能够在统一的策略下处理文字、图像等不同形式的数据，真正做到“眼到、手到、心到”。例如将一张翻转图片输入给o3,o3会经过思考调用图片工具对图片进行翻转，然后通过模型本身的多模态能力，将翻转正确的图片的中文字识别出来。这种跨模态统一的认知与行动范式，不但降低了集成多模态模型的难度，而且拓展了更多Agent可应用的场景。

o3的设计体现出明确的理念转变 - 从依赖外部编排到模型内生决策。通过在模型训练阶段赋予规划和行动能力，运行时Agent可以更多地自主权。这属于典型的解释型 Agent范式(与前文提到的传统范式更偏向于编译型agent范式相对)，即将模型的智能更多的应用在实际应用过程，而不是提前进行编排。在运行过程总由模型自有决策调用工具，使模型成为主导，框架退居辅助。从OpenAI发布的o3在PR任务(复现OpenAI仓库的代码PR的通过率)上的性能测试数据，就可以明显看出，o3这种具备自动调用工具的模型在现实任务上提升的增益远超过了上一代的推理模型(o1)。模型具备更强大的自主能力，意味着需要显式编排的细节更少，错误传递的环节变少了，错误率自然也就会降低。

o3对Agent技术范式的影响

o3展现了原生agentic能力，减少了对外部agent框架对agent能力施展框架的依赖，从技术实现的角度来分析，o3通过强化学习增强了模型的工具决策和使用能力，这更像是从'pipeline'到'end to end'的变化，对agent的技术范式会有哪些影响呢？

从框架主导到模型主导

传统Agent开发中，框架承担了大部分的"智能"职责：定义工作流、管理状态、控制工具调用、循环处理上下文等。LLM更像是一个顾问，为每个决策点提供建议，但主导权仍在框架手中。o3的出现正在颠覆这种范式。现在，模型本身成为了真正的"智能体"，能够进行长程自主规划和交错的任务执行。框架的作用正在从"智能的提供者"转变为"能力的扩展者"，主要负责提供工具接口和安全边界，而将更多的决策权交给模型。这种转变意味着未来的Agent开发将更加关注如何向模型提供适当的工具和环境，而非如何精确控制其行为。

从复杂控制到赋能模型

传统Agent开发往往涉及复杂的工程化工程，编写大量代码来实现agent各模块功能和控制逻辑，开发者需要深入理解LLM的行为模式和限制，才能构建稳定可靠的Agent。o3的原生agentic能力正在简化这一过程，将一些复杂的判断逻辑转交给模型来执行，例如中间子任务执行失败的重试和重规划这种逻辑，就可以不需要框架来实现，而交给模型内部来进行处理。这样开发者只需提供必要的工具接口和资源访问权限，就能构建功能强大的智能体。开发者的主要工作不再是"如何控制模型"，而是"如何赋能模型"——为模型提供合适的工具和环境，设计合理的任务目标和评估标准，以便模型能够充分发挥其内在能力。这种范式转变要求开发者更多地思考Agent的目标和价值，而非实现细节。

从特定场景到通用能力

传统Agent通常针对特定任务或领域设计，往往需要为不同场景开发不同的Agent。这种"专用化"虽然能提高效率，但也限制了Agent的应用广度和自适应能力。o3带来的新范式是构建通用智能体，它能够根据任务类型和复杂度自动调整其行为模式。同一个o3 Agent可以处理文档摘要、代码生成、数据分析、创意写作等多种任务，而无需为每种任务类型定制专门的工作流程。这种通用性大大降低了开发成本，同时提高了Agent的适应性和价值。

结语

o3的原生agentic能力代表了Agent技术发展的一个重要里程碑。通过将规划、推理和工具使用能力内化到模型本身，o3开创了一种新的Agent开发范式，从外部编排转向内生决策，使得agent的核心能力进一步向模型"靠拢",具备更强的agent端到端处理能力。然而目前的o3仍然不是agent的终极解决方案，存在'工具虚假调度'（这可能是强化学习的奖励劫持导致的），幻觉率升高，成本高昂等问题，而且模型的可靠性和能力范围是否可以扩展到multi-agent，均需要在现实场景中进行更多验证。

o3这种原生agent能力范式虽然不会立即取代所有传统Agent框架，但已经预示了未来Agent技术的发展方向。o3带来的技术范式变化，可能会让Agent开发者的重点将从"如何控制LLM"转向"如何赋能LLM"，更多地关注为模型提供合适的工具和环境，而非精确控制其行为。我们可以期待，随着模型能力的进一步提升和工具生态的不断丰富，基于o3及其后继者的Agent将变得更加智能、灵活和易用，为各行各业带来更大的价值。这种范式转变不仅简化了技术实现，也开启了更广阔的应用可能性，是AI走向真正自主智能的重要一步。