2.1 一张贯穿 4 年的演进图
我们先把整章要讲的内容浓缩到一张图:
┌─────────────────┬──────────────────┬──────────────────┬──────────────────┐
│ 第一级 │ 第二级 │ 第三级 │ 第四级 │
│ Prompt Eng. │ Context Eng. │ Harness Eng. │ Loop Eng. │
│ 2022 - 2023 │ 2023 - 2024 │ 2025 - 2026.05 │ 2026.06 - 至今 │
├─────────────────┼──────────────────┼──────────────────┼──────────────────┤
│ 优化对象: │ 优化对象: │ 优化对象: │ 优化对象: │
│ "话术" │ "信息" │ "环境" │ "系统" │
├─────────────────┼──────────────────┼──────────────────┼──────────────────┤
│ 人是: │ 人是: │ 人是: │ 人是: │
│ "对话者" │ "信息整理秘书" │ "环境搭建包工头" │ "循环系统设计师" │
├─────────────────┼──────────────────┼──────────────────┼──────────────────┤
│ 杠杆: │ 杠杆: │ 杠杆: │ 杠杆: │
│ 1x │ 10x │ 100x │ 1000x │
├─────────────────┼──────────────────┼──────────────────┼──────────────────┤
│ 代表工具: │ 代表工具: │ 代表工具: │ 代表工具: │
│ ChatGPT 基础版 │ LangChain │ AutoGPT │ Claude Code │
│ │ LlamaIndex │ Claude Code │ Loop Routines │
│ │ │ Codex CLI │ /goal │
├─────────────────┼──────────────────┼──────────────────┼──────────────────┤
│ 关键问题: │ 关键问题: │ 关键问题: │ 关键问题: │
│ "怎么问" │ "喂什么" │ "在哪跑" │ "怎么转" │
└─────────────────┴──────────────────┴──────────────────┴──────────────────┘
四级跳的本质规律是:
优化对象从"模型的输入"(话术/信息)→"模型的工作环境"(环境/系统)→"模型的协作方式"(循环);人的角色从"对话者"→"信息整理者"→"环境设计师"→"循环架构师"。每一级跳都是上一级跳的"答案",但同时是下一级跳的"问题"。
下面我们逐级展开。
2.2 第一级:Prompt Engineering(2022-2023)
2.2.1 起源
Prompt Engineering 不是 2023 年 ChatGPT 爆火之后才出现的——它的"祖先"是 2020 年 GPT-3 发布时社区总结的 “prompt 设计技巧”。
但真正把 Prompt Engineering 变成"显学"的是 2022 年 11 月 ChatGPT 发布后:
- 2022.12:公众号、Medium、X 上开始流传"100 个有用的 prompt"
- 2023.01:Reddit r/PromptEngineering 突破 10 万订阅
- 2023.03:OpenAI 推出 “Prompt Engineering Guide” 官方文档
- 2023.06:DAIR.AI 发布 “Prompt Engineering Guide” 仓库
- 2023.09:吴恩达联合 OpenAI 发布 “ChatGPT Prompt Engineering for Developers” 课程
2.2.2 核心思想
Prompt Engineering 的核心假设是:模型本身已经足够强,问题只在于"你怎么问它"。
因此这一阶段的所有方法论都在解决一个事:怎么把单次输入写得更"对"。
经典技巧包括:
- Zero-shot / Few-shot:直接问 vs 给几个例子
- Chain-of-Thought(CoT):让模型"一步一步想"
- ReAct:让模型交替"思考"和"行动"
- Self-Consistency:多次采样后投票
- Tree of Thought(ToT):让模型探索多条推理路径
2.2.3 带来的新问题
Prompt Engineering 在原型阶段极强,但在生产环境暴露了三组问题:
问题 1:模型对 prompt 的微小变化极度敏感
Prompt A: "列出这五个城市的天气。"
Prompt B: "请告诉我这五个城市的天气情况。"
这两个 prompt 在 GPT-3.5 上的输出差异极小,但在 GPT-4 上的输出顺序、详细程度、风格可能有显著差异。同一个问题换一种说法就需要重新调 prompt。
问题 2:长 prompt 的边际收益急剧下降
2023 年的研究(Liu et al., “Lost in the Middle”)发现:随着 prompt 长度的增加,模型对 prompt 中部内容的注意力会显著下降。这意味着把 2000 token 的上下文塞进 prompt,模型可能只会认真对待前 500 和后 500 token。
问题 3:跨任务迁移几乎为零
为"代码生成"优化的 prompt,在"代码审查"任务上几乎用不上;为"客户服务"优化的 prompt,在"技术支持"任务上也无法复用。每次面对新任务,都要重新调 prompt。
2.2.4 关键判断
Prompt Engineering 解决了"AI 怎么用"的第一个问题——怎么让单次交互得到好结果。但它把"人"放在了"对话者"的位置上:人要不断地写 prompt、调 prompt、维护 prompt。
Prompt Engineering 时代的人,是"翻译官"——把业务需求翻译成模型能听懂的咒语。
2.3 第二级:Context Engineering(2023-2024)
2.3.1 起源
Context Engineering 作为一个独立概念被正式提出,是在 2024 年。它的标志性事件是:
- 2024.03:Anthropic 在 “Building Effective Agents” 文章中明确区分"prompt"和"context"
- 2024.06:LangChain 团队在 “The Rise of Context Engineering” 博文中正式命名
- 2024.09:Andrej Karpathy 推文:“English is the new programming language. Context is the new codebase.”
- 2024.12:Anthropic 发布《Effective Context Engineering for AI Agents》长文
Context Engineering 关注的核心问题从"怎么问"转向了**“喂什么”**——模型应该看到哪些信息、这些信息如何组织、什么时候更新。
2.3.2 核心思想
Context Engineering 把 prompt 分为多个层次:
System Prompt(系统提示) —— 稳定不变,定义模型角色
Domain Context(领域上下文) —— 业务规则、API 文档、架构图
Task Context(任务上下文) —— 当前任务、用户需求、历史对话
Working Memory(工作记忆) —— 短期状态、中间结果
Long-term Memory(长期记忆) —— 跨 session 持久化的知识
Context Engineering 解决的核心问题不是"话术写得多漂亮",而是"模型看到的信息是否足够、是否相关、是否最新"。
经典方法包括:
- RAG(Retrieval-Augmented Generation):在生成前从外部知识库检索相关内容
- Memory Systems:让模型有跨 session 的记忆(短期 + 长期)
- Tool Use:让模型通过工具主动获取信息
- Context Compression:用摘要、向量检索等方式压缩上下文
2.3.3 框架爆发
2023-2024 是"Context Engineering 框架"爆发的两年:
| 框架 | 发布时间 | 核心思想 |
|---|---|---|
| LangChain | 2022.10 | LLM 与外部数据/工具的链式调用 |
| LlamaIndex | 2022.11 | LLM 与私有数据的连接 |
| Semantic Kernel | 2023.05 | 微软的 LLM 编排框架 |
| Haystack | 2023.08 | deepset 的 production-ready RAG |
| DSPy | 2023.10 | 斯坦福的"prompt 即程序" |
| Letta (MemGPT) | 2024.04 | 分层记忆系统 |
| Mirix | 2024.06 | 多模态记忆 |
| Mem0 | 2024.10 | 通用持久化记忆 |
这些框架的共同点是:人在"信息整理秘书"的位置上——负责把外部信息整理成模型可消费的格式。
2.3.4 带来的新问题
Context Engineering 解决了"喂什么"的问题,但又引入了新问题:
问题 1:上下文窗口的"无限幻觉"
模型支持 1M token 上下文,不意味着能"用好" 1M token。Chroma 的研究显示,当上下文超过 ~32K token 后,模型在复杂推理任务上的表现开始持续下降——这就是 “Context Rot”。
问题 2:信息过载
把所有相关信息都塞进上下文,反而会让模型"挑花眼"。检索出了 20 篇相关文档,但只有 3 篇是关键信息——模型会"被无关信息误导"。
问题 3:跨任务的"上下文漂移"
为任务 A 精心组织的上下文,在任务 B 上可能完全不适用。Context Engineering 让"上下文"变成了一项需要持续维护的工程资产。
2.3.5 关键判断
Context Engineering 解决了"信息怎么喂"的问题,让人从"翻译官"升级为"信息整理秘书"。但它把人困在了"信息管理"的工作里——整理信息本身不会让 AI 跑得更好,它只是让 AI 不那么糊涂。
Context Engineering 时代的人,是"图书管理员"——负责把信息整理好,让 AI 能找到它。
2.4 第三级:Harness Engineering(2025-2026.05)
2.4.1 起源
Harness Engineering 的正式命名有两条线索:
- Anthropic 线索(概念源头):2025.11《Effective Harnesses for Long-Running Agents》、2026.03《Harness Design for Long-Running Apps》——Harness 概念的雏形
- OpenAI 线索(命名推广):2026.02 OpenAI 发布《Harness engineering: leveraging Codex in an agent-first world》,把 Harness Engineering 升格为完整工程方法论
中间还发生了关键事件:
- 2026.02.05:Mitchell Hashimoto(HashiCorp 联合创始人)在个人博客发布博文,正式使用 “Harness Engineering” 这一术语
- 2026.02 中旬:Hacker News 上 Harness Engineering 讨论帖冲到 286 赞、~200 评论
- 2026.05:Harness Engineering 被 Gartner 2026Q2 报告列入"主流工程实践"
2.4.2 核心思想
Harness Engineering 把优化对象从"信息"升级为"环境"——Agent 不再在"裸模型 + 信息"上工作,而是在一个为它设计好的运行环境中工作。
Harness 的核心理念:
不要让 AI 在野生环境里工作,要给它一个设计好的"工作场"。
Harness 的五大组成(来自 Anthropic/OpenAI 共识):
- Context Manager:管理 AI 可见的信息(CLAUDE.md、AGENTS.md 等)
- Constraint Layer:约束 AI 的行为(架构约束、代码约束、安全约束)
- Orchestration Layer:组织 AI 的执行(Sub-agent、Skill、Loop)
- Verification Layer:验证 AI 的输出(测试、Lint、形式化验证)
- Observability Layer:观测 AI 的行为(Trace、Token 成本、行为画像)
2.4.3 关键证据
OpenAI 在 2026.02 公开的实验数据:
| 维度 | Vibe Coding | Harness Engineering |
|---|---|---|
| 团队规模 | 3 人 | 3 人起步 → 7 人 |
| 周期 | 5 个月 | 5 个月 |
| 代码量 | 35 万行 | ~100 万行 |
| 返工率 | 60% | ~0 |
| PR 数 | ~400 | ~1500 |
| 人均 PR/天 | 0.9 | 3.5 |
| 工具 | Codex 裸跑 | Codex + Harness |
| 关键差异 | 无 Spec/无边界/无验证 | 88 个 AGENTS.md + 完整验证层 |
LangChain 团队的内部实验(2026.04):
- 仅改 Harness(不换模型),deepagents-cli 在 Terminal Bench 上的得分从 52.8 提升到 66.5(+13.7 分)
- 提升来源:上下文管理 + 约束层 + 验证层
- 启示:好的 Harness 能让中等模型表现得像高级模型
2.4.4 带来的新问题
Harness Engineering 解决了"在哪跑"的问题,但带来了新问题:
问题 1:Harness 本身需要设计
Harness 不是"装上就管用"的工具——它需要根据项目特点定制。Harness 的设计本身就需要专业能力。
问题 2:Harness 会"老化"
项目演进过程中,Harness 也要持续更新——Spec 会过时、Lint 规则会失效、测试会覆盖不全。
问题 3:Harness 的复杂度爆炸
当 Harness 组件超过 5 个,组件之间的相互依赖会急剧上升。Anthropic 内部多次反思"Harness 本身已经变成了一个软件系统,需要专门的工程师维护"。
2.4.5 关键判断
Harness Engineering 解决了"在哪跑"的问题,让人从"图书管理员"升级为"环境搭建包工头"。但它有一个根本限制:它假设"人 + Harness + Agent"是一个稳定三角,没有考虑"Agent 自主优化 Harness"的可能性。
Harness Engineering 时代的人,是"包工头"——负责把 AI 工作场搭好。
2.5 第四级:Loop Engineering(2026.06 - 至今)
2.5.1 起源
Loop Engineering 作为一个正式命名的概念,是在 2026 年 6 月由 Google Chrome 工程负责人 Addy Osmani 推广的。它不是从零开始的发明,而是对 2025-2026 年一系列实践的概念化命名:
- 2025.05:Boris Cherny 在 Anthropic 内部使用 “loop” 概念
- 2026.04:Anthropic Claude Code 发布
/loop命令 - 2026.05:Sequoia AI Ascent 2026,Boris Cherny 公开演讲 “I have loops that are running. They’re the ones that are prompting Claude.”
- 2026.06:OpenClaw 创始人 Peter Steinberger 公开呼应 “你应该设计一套循环机制”
- 2026.06.08:Addy Osmani 在 X、Substack、GitHub repo 上系统化"Loop Engineering"概念
- 2026.06.16:Loop Engineering 概念被 CSDN 等中文社区广泛传播
2.5.2 核心思想
Loop Engineering 把优化对象从"环境"升级为"系统"——不再有"人 + Harness + Agent"三角,而是 Agent 自己组成的"循环系统"。
Loop 的核心理念(来自 Addy Osmani + Boris Cherny + Peter Steinberger 共识):
不要给 Agent 写 prompt,要写"让 Agent 自主提示自己"的循环。
Loop 的五大组件:
┌─────────────────────────────────────────────┐
│ Loop (循环) │
│ │
│ 1. Trigger ──→ 2. Goal │
│ │ │ │
│ │ ▼ │
│ │ 3. Actions │
│ │ │ │
│ │ ▼ │
│ │ 4. Verification │
│ │ │ │
│ │ ▼ │
│ │ 5. Memory ──→ 回到 Trigger │
│ │ │
│ └──── (失败时熔断 / 成功时升级) │
└─────────────────────────────────────────────┘
2.5.3 关键实践
实践 1:/goal 命令(Anthropic Claude Code)
/goal "修复所有 ESLint 错误" or stop after 20 turns
/goal 命令会:
- 启动一个独立 session 跑循环
- 派生出独立的 Haiku 模型作为 supervisor 验证结果
- 设置熔断保护:最多 20 turns
- 状态可查:
/goal无参数时显示运行统计
实践 2:/loop 命令(Anthropic Claude Code)
/loop 30m "检查 CI 失败的 PR,自动修复并 rebase"
/loop 是 cron 式调度,让 agent 每 30 分钟执行一次任务。
Boris Cherny 公开表示他跑了"几十个"持久循环:
- PR 看护:自动修复 CI 失败
- CI 维护:识别并修复 flaky test
- 反馈聚合:每 30 分钟抓 X 平台聚类用户反馈
- 代码搜索:扫代码库找可优化点
实践 3:Routines(例程)
Routines 是"watch 任务队列的 agent"——Boris 团队的核心实践:
# 伪代码:Routine 的本质
routine:
trigger: "queue 里有新任务"
action: "派 agent 处理任务"
verification: "agent 报告完成 + 独立验证"
memory: "任务状态写入数据库"
2.5.4 Boris Cherny 的工作流(Sequoia AI Ascent 2026)
Boris Cherny 在 2026 年 5 月 Sequoia AI Ascent 2026 上公开了自己的工作流:
- 5-10 个活跃 root session
- 每个 session 下面挂数百个 sub-agent
- 一夜之间执行数千个 agent
- 工作站:手机(!)
- 真实数据:150 PR/天(个人纪录)
Boris 说:“我不再提示 Claude 了。我有循环在运行,它们自己在提示 Claude,自己决定下一步怎么做。我的工作是写循环。”
2.5.5 关键判断
Loop Engineering 解决了"怎么转"的问题,让人从"包工头"升级为"循环系统设计师"。
但 Loop Engineering 也带来了全新的挑战:
- Loop 的可观测性:循环里跑了成百上千个 agent,怎么知道哪个在干什么?
- Loop 的可调试性:循环失败时,怎么定位是哪个环节出问题?
- Loop 的可治理性:循环是"自主"的,但人类的责任如何划分?
这些问题是 2026 年下半年的研究热点,也是本课程第 11 章要重点讨论的内容。
Loop Engineering 时代的人,是"循环系统设计师"——负责设计让 Agent 自主运转的闭环。
2.6 四级跳的本质规律
2.6.1 规律一:优化对象递进
话术 → 信息 → 环境 → 系统
每一级跳的优化对象都比上一级更"重"。这是物理意义上的"基础设施升级"——不是模型变强了,是模型的工作条件变好了。
2.6.2 规律二:人的角色降级
对话者 → 整理者 → 包工头 → 设计师
每一级跳中,人类的"直接工作量"都减少,但"间接责任"都增大——从"我必须每句 prompt 都写对"到"我必须设计一个让 Agent 自主运转的系统"。
2.6.3 规律三:杠杆指数级提升
1x → 10x → 100x → 1000x
每一级跳带来的"产能提升"是指数级的:
- Prompt Engineering:单次交互的产出
- Context Engineering:单次任务的产出(带信息的 RAG)
- Harness Engineering:跨任务的产出(带环境的 agent)
- Loop Engineering:跨时间的产出(带循环的系统)
2.6.4 规律四:每级都是上级的"答案"和下级的"问题"
| 上级的问题 | 下一级的答案 | 下一级带来的新问题 |
|---|---|---|
| “AI 听不懂” | 用 prompt 技巧 | 跨任务迁移困难 |
| “AI 缺信息” | 用 Context Engineering | 信息过载 |
| “AI 在野生环境出错” | 用 Harness Engineering | Harness 老化 |
| “Harness 不够灵活” | 用 Loop Engineering | 循环可观测性 |
这意味着:不存在"银弹"——每一级跳都解决了上一级跳的痛点,但又引入了新的痛点。
2.6.5 规律五:模型本身的"分值"在下降
| 范式 | 对模型能力的要求 | 主要矛盾 |
|---|---|---|
| Prompt | 高(强推理) | 模型对 prompt 敏感 |
| Context | 中(强理解) | 上下文管理难 |
| Harness | 中(强遵循) | Harness 设计难 |
| Loop | 低(可遵循) | 循环治理难 |
越到高级范式,对模型"内功"的要求越低——Harness/Loop 时代,模型可以不是最强的,但 Harness/Loop 必须是设计得最精妙的。
2.7 2026 年我们站在哪一级?
我们来看几个代表性案例:
| 公司/产品 | 2026.06 所在层级 | 表现 |
|---|---|---|
| 普通 Vibe Coder | 第一级(Prompt) | 写 prompt,不读 diff |
| LangChain 早期用户 | 第二级(Context) | 整理知识库,用 RAG |
| OpenAI 内部团队 | 第三级(Harness) | 88 个 AGENTS.md 散布 |
| Anthropic Claude Code 团队 | 第四级(Loop) | /loop + routines + 150 PR/天 |
| Cursor 用户(普通) | 第二级(Context) | 用上下文,不读 diff |
| Cursor 用户(高级) | 第三级(Harness) | 写 .cursorrules |
大多数开发者目前停留在第一级(Prompt)——他们有 AI 工具,但还没建立 Harness,更不用说 Loop。
本课程的目标是:带你从第一级跃迁到第四级,重点是第三级(Harness)和第四级(Loop)。
2.8 常见误区
2.8.1 误区一:“我用 Cursor,已经在 Harness 阶段了”
不一定。
判断标准是:你的项目里是否有显式的、可维护的、跨 session 持久化的"运行环境定义"。
- ❌ 写过一次 prompt 模板,不是 Harness
- ❌ 在 Cursor 里设过几条规则,不一定是 Harness
- ✅ 维护一个
AGENTS.md/CLAUDE.md体系,才是 Harness 的起点
2.8.2 误区二:“Loop 就是 Agent 自主决策”
不完全。
Loop 的核心是**“系统自主提示 Agent”**——包括 trigger、goal、verification、memory 四个闭环组件。单纯的"Agent 自主决策"是 AutoGPT 式的无目标探索,那不是 Loop,是死循环。
2.8.3 误区三:“越高级越好”
不是。
每一级跳都有其适用场景:
- 第一级适合:原型、概念验证
- 第二级适合:单任务、多文档处理
- 第三级适合:多任务、生产环境
- 第四级适合:跨时间、跨任务的自动化运营
没有最好的范式,只有最合适的范式。
2.9 本章小结
四级跳是 AI 编程范式的完整演进图。每一级跳都解决了上一级跳的痛点,但又引入了新的痛点。关键不是"我现在在哪一级",而是"我下一步要升到哪一级"。
下一章(第 3 章)我们将聚焦在第二级和第三级之间的"中间地带"——In-the-loop 模式——并解释为什么这种"折中方案"注定失败。
2.10 思考题
- 你的项目目前停留在哪一级?列出 3 个具体证据。
- 你所在团队有没有人已经在尝试 Harness 或 Loop?他们的实践遇到了什么困难?
- 如果要你给团队做一次范式跃迁培训,你会按什么顺序讲这四级跳?为什么?
2.11 参考资料
- Anthropic, “Building Effective Agents”, 2024.03
- LangChain, “The Rise of Context Engineering”, 2024.06
- Andrej Karpathy X 推文, 2024.09
- OpenAI, “Harness engineering: leveraging Codex in an agent-first world”, 2026.02
- Mitchell Hashimoto, “Harness Engineering”, 2026.02.05
- Addy Osmani, “What Is Loop Engineering?”, 2026.06
- Boris Cherny, Sequoia AI Ascent 2026 演讲, 2026.05
- Anthropic Claude Code
/goal/loop文档, 2026.04 - The Neuron, “Claude Code Creators Explain How to Use Agent Loops”, 2026.06.09
- CSDN, “Claude Code Loop Engineering:从手动提示到自主循环”, 2026.06.16

381

被折叠的 条评论
为什么被折叠?



