收藏这篇！一文详解AI大模型从LLM到平台落地的9大核心概念，小白程序员必看指南

最新推荐文章于 2026-06-18 14:16:48 发布

原创最新推荐文章于 2026-06-18 14:16:48 发布 · 324 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #大语言模型 #AI #程序员 #大模型

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

认知链路为什么成立

今天行业里很多“AI 应用进化路线”，其实都是在给 LLM 补齐三类短板：缺知识（不知道最新事实）、缺行动能力（不能操作外部系统）、缺工程化复用（不能长期稳定跑、不能沉淀流程）。

那么：

RAG 把“外部知识库”接进来，让回答更可追溯、更能更新。
Agent 通过“工具调用 + 循环执行”，把聊天变成“能把事做完”的系统。
MCP把“外部工具/数据”接入方式标准化，降低碎片化集成成本。
Skills把“做事的方法”沉淀为可复用模块，避免每次都从零提示、从零试错。
Claude Code / OpenClaw则是两种典型“落地形态”：一个把 Agent 放进开发者终端/IDE 工作流，一个把 Agent 做成“多聊天渠道网关**+ 长生命周期运行**”。

地基：LLM 与 Token

01 LLM

LLM（Large Language Model）可以理解为“把文本映射到文本的函数”：给定输入文本，它预测接下来最可能出现的文本序列，因此擅长对话、总结、翻译、写代码等语言任务。

解决啥：解决“用自然语言做泛化推理与生成”的问题——你不必为每个细分写作/分析任务都写一套规则引擎。

怎么用：对普通用户最稳的姿势，是把它当“写作/思考/总结引擎”，把目标、上下文、限制条件交代清楚，让它输出结构化结果（后面 Prompt 会讲）。

边界在哪：LLM 默认仍然是“文字世界里的大脑”。想让它查资料、调工具、执行流程、长期稳定跑，就需要后面的 RAG、Agent、MCP、Skills 与平台化运行环境。

02 Token

Token 是模型处理文本的基本单位。它可能是一个字符、一个词、半个词，空格/标点也会计入。不同语言的 token/字符比例差异很大。

解决啥：Token 是“成本 + 记忆窗口”的共同语言：

很多 API（包含工具调用场景）按 token 计费；
模型有上下文上限（输入 + 输出 token 总和），超了就必须截断/压缩，导致“记不住”“丢细节”。

怎么用：工程上常用 tokenizer 来估算 token 数量，比如 OpenAI 的 tiktoken 示例明确指出：数 token 可以帮助判断文本是否过长，以及一次调用大概多少钱（因为按 token 计费）。

边界在哪：token ≠ 字数/词数。英文有经验值（例如 1 token≈4 个字符）但只是粗略估计；换成中文、代码、混合符号时，token 比例会明显变化，因此“按字数估成本/上下文”很容易误判。

沟通：Prompt

03 Prompt

Prompt 本质是“触发模型响应的输入”。更实用的理解：它是你写给模型的需求说明书。

解决啥：它解决的不是“让模型更聪明”，而是“让模型按你期望的方式工作”：输出结构、语气、边界、格式、禁区、评估标准。

怎么用：官方提示词建议里最稳定的几条，都非常“朴素但管用”：

把指令放最前面，用分隔符把“指令”和“材料”隔开；
具体、可检验地描述你要的输出（长度、结构、风格）；
用示例来约束输出格式；
先零样例（zero-shot），不行再少样例（few-shot），再考虑微调。

边界在哪：Prompt 再好，也不能凭空补齐“你没给、模型也没确切掌握”的事实。换句话说：Prompt 解决“沟通”，不解决“资料来源”——这就是 RAG 出场的原因。

查资料：RAG

04 RAG

RAG（Retrieval-Augmented Generation）来自经典论文：它把“模型参数里存的知识”（parametric memory）与“可检索的外部记忆”（non-parametric memory，比如向量索引）结合起来——先检索相关文本，再基于检索结果生成。

“

标题：《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》

论文地址：https://arxiv.org/abs/2005.11401

解决啥：论文点得很直白：大模型确实存了大量事实，但在知识密集任务上仍会受限；同时，“给出可追溯出处（provenance）”和“更新世界知识”是开放问题。RAG的价值恰恰在于：

更容易“用新资料覆盖旧印象”；
更容易把“引用依据”带给用户；
往往能让生成更具体、更事实化。

怎么用：落地时通常是“三段式管线”：

把资料切分成可检索片段；
用 embedding 把文本向量化并建立索引；
查询时检索 top-k 片段，把它们塞进上下文，让模型带着“参考材料”输出。

你也可以把它理解为：RAG 不是让模型“背更多”，而是让模型“像开卷考试一样”，每次回答前先翻资料。

边界在哪：RAG 不是“百分百正确”的魔法。检索质量（切分、索引、召回）、资料质量、以及生成阶段的提示方式都会影响结果；论文也强调“更新知识与可追溯”是开放问题，而不是一键解决。

动手干活：Agent 与 Multi-Agent

05 Agent

一份来自 OpenAI 的实践指南给了一个非常可执行的定义：Agent 是能“以较高独立性在你名义下完成任务”的系统；它不仅用 LLM 做决策，还能调用工具与外部系统，并在失败时停止或把控制权交还给用户。

解决啥：它解决的是“从给答案”到“把事做完”的跨越：拆任务、选工具、执行、拿回结果、再迭代，形成闭环交付。

怎么用：主流实现都离不开“工具调用（tool calling/function calling）”这套机制：

你把可用工具（含输入 schema）告诉模型；
模型判断需要时会返回 tool call；
你的应用/运行时执行工具，把结果再喂回模型；
模型在多轮中完成任务或继续调用更多工具。

在 Anthropic 的工具文档里，这个“agentic loop”被直接描述为：模型根据用户请求与工具描述决定是否调用工具，并返回结构化调用；工具可能跑在你自己的应用（client tools）或平台侧（server tools），本质都是“调用—观察—再调用”的循环。

边界在哪：Agent 最容易被忽视的真相是：能力与风险是一体两面。一旦允许“写文件、跑命令、发消息”，错误就会从“说错话”升级成“做错事”。因此官方指南强调需要 guardrails（护栏）、权限控制、认证授权与安全工程措施一起上。

Multi-Agent

Multi-Agent 通常指“多个分工不同的 agent”协作完成复杂目标：有人负责检索，有人负责写作，有人专做代码实现，有人做审核/验收。

解决啥：它解决的是单一 agent 在复杂任务里“既要规划又要执行又要检查”的负担：通过“handoff/委派”，把任务切成更可控、可审计的子块。

怎么用：在 Agents SDK 的描述里，agentic 应用常见能力就包括：使用外部上下文和工具、把任务 hand off 给其他专长 agent、流式输出阶段结果、并保留完整 trace 方便复盘。

边界在哪：Multi-Agent 并不天然更安全；它只是把系统拆得更模块化。真正的安全来自“每个角色权限最小化 + 行为可追踪 + 人类可否决”。

接口与流程：MCP 与 Skills

06 MCP

**MCP（Model Context Protocol）**在官方介绍里被定义为：连接 AI 应用与外部系统的开源标准。它让 Claude、ChatGPT 等 AI 应用可以连接数据源、工具与工作流（包括“专用 prompts”），并被形容为“AI 应用的 USB‑C 口”。

解决啥：它解决的核心麻烦是“集成碎片化”：当你要把 LLM 接到文件、数据库、业务系统、内部工具时，如果每个客户端/每个工具都私有对接，会变成 N×M 的维护地狱；MCP 试图用统一协议把这件事标准化。

怎么用：从规范本身看，MCP 用 JSON‑RPC 2.0 在 Host / Client / Server 之间通信；Server 可以向 Client 提供三类核心能力：Resources、Prompts、Tools。

更关键的工程细节是安全元数据：MCP 的 schema 里定义了 ToolAnnotations（readOnlyHint、destructiveHint、idempotentHint、openWorldHint 等），但规范也强调这些只是“提示”，不保证真实行为，客户端不能把来自不可信 server 的 annotations 当作决策依据。

边界在哪：MCP 是“连接标准”，不是“安全保险柜”。规范本身就提醒：应当有 human-in-the-loop 能力，UI 需要明确展示工具暴露与调用，并允许用户否决敏感操作。

07 Skills

在 OpenClaw 的官方语境里，Skills 是“教 agent 如何使用工具”的技能包：每个 skill 是一个目录，核心文件是带 YAML frontmatter 的 SKILL.md，它包含说明、指令、示例等。

解决啥：Skills 解决的是“流程不可复用”：如果你每次都靠临时 Prompt 去教 agent 怎么查日志、怎么开工单、怎么跑脚本，你会不断重复提示、不断踩坑。Skill 相当于把经验沉淀成可复用 SOP（标准作业流程）。

怎么用：OpenClaw 给出了非常工程化的加载规则：技能可以来自 workspace、项目级 agent skills、个人 skills、机器级 managed/local、bundled、以及额外目录，并且有明确覆盖优先级（workspace 最高）。

官方文档同时把“信任边界”写得很明确：第三方 skills 应视为不可信代码，启用前要阅读，必要时在 sandbox 中运行。

边界在哪：Skill 不是工具本身，它依赖工具与权限体系。你可以把“Skills 的指令”写得很漂亮，但如果底下没有可用工具（或被 deny）、或者上下文/权限设计不当，它仍然无法稳定交付。

一句话区分：MCP 更像“接口/协议”，解决“工具与数据怎么接进来”；Skills 更像“SOP”，解决“接进来之后怎么做得更稳、更可复用”。

平台化落地：Claude Code 与 OpenClaw

08 Claude Code

Claude Code 的官方概览把它定义为“agentic coding tool”：能读代码库、改文件、跑命令、集成开发工具；同时覆盖终端、IDE、桌面与浏览器等多种入口。

解决啥：它解决的是“把 agent 装进开发者日常工作流”——让“会动手的编码助手”离代码、终端与项目上下文更近。

怎么用：它对“工具接入”的核心方式之一就是 MCP：官方写明 Claude Code 可通过 MCP 连接大量外部工具/数据源，MCP server 可以给它访问数据库与 API 的能力。

Claude Code 同时把“权限与隔离”当作第一等工程问题：

权限规则支持 allow/ask/deny（并强调某些目录写入仍会提示以避免破坏仓库/配置）；
sandboxes 提供文件系统与网络隔离，目标是减少频繁授权带来的“批准疲劳”，并在边界外访问时触发提醒。
Anthropic 的工程文章甚至给出一个量化佐证：用户会批准大约 93% 的权限弹窗，因此需要更好的机制来平衡效率与安全。

边界在哪：官方在 MCP 文档里直接提醒：使用第三方 MCP servers 风险自担，尤其是会抓取不可信内容的 servers，可能带来 prompt injection 风险；同时还提示某些传输方式（如 SSE）在其文档语境中已被标注 deprecated，需要按最新文档为准。

**这里的风险不是“理论恐吓”。**已有公开测试显示：当模型总结网页时，隐藏文本可能注入指令影响输出（prompt injection），甚至诱导生成恶意内容，这类问题在“模型 + 外部内容/工具”的组合里尤为需要防范。

09 OpenClaw

OpenClaw 官方把自己定位为“自托管 AI assistant gateway”：你在自己的机器/服务器上跑一个长期存在的 Gateway 进程，把多个聊天渠道（例如 WhatsApp、Telegram、Discord、iMessage 等）连接到 agent，并在本地掌握数据与运行边界。

解决啥：它解决的是“平台化与多渠道触达”：同一个 agent/同一套会话与路由规则，可以同时服务多个聊天入口；同时 Gateway 作为控制平面，集中管理 sessions、routing、渠道连接与事件流。

怎么用：从其核心概念页看，Gateway 是一个 WebSocket server（默认本地地址与端口在文档中有明示），负责渠道管理、消息路由、会话上下文维护，并提供控制 UI 与 webhook 等能力。

OpenClaw 也把“工具、skills、sandbox、多 agent 路由”作为原生能力进行组织：它的 agents 概念页把 agent 配置拆成 Model、Workspace、Tools、Skills、Sandbox 等明确组成部分，便于做权限与隔离。

边界在哪：自托管的代价是你要承担更完整的安全责任。OpenClaw 安全文档把核心原则总结为“access control before intelligence”，并给出非常直白的威胁模型：你的助手可能具备执行 shell、读写文件、访问网络、代发消息等能力；因此要先做身份与范围控制，再谈模型能力。

写在最后

LLM提供了强大的语言理解能力，OpenClaw和Claude Code使AI能够直接操作和执行任务，Prompt工程和Token概念帮助我们更好地与AI交互，Skills和Agent则拓展了AI的实用边界，MCP协议和RAG技术则推动了AI的协作能力和知识更新。

看完你至少能复述三句话

“

第一句：LLM 是大脑；Token 决定它“记得住多少、你花多少钱”；Prompt 决定你“交代清不清楚”。

第二句：RAG 是外挂资料室（先检索再生成）；Agent 是会动手的员工；Multi-Agent 是把复杂任务拆给多个角色，并保留 trace 便于复盘。

第三句：MCP 让工具/数据接入标准化；Skills 让经验沉淀成可复用 SOP；Claude Code 与 OpenClaw 则是两种典型落地形态——一个“住在终端/IDE 的编码型 agent”，一个“自托管多渠道网关，把助手装进你常用聊天软件”。