认知链路为什么成立
今天行业里很多“AI 应用进化路线”,其实都是在给 LLM 补齐三类短板:缺知识(不知道最新事实)、缺行动能力(不能操作外部系统)、缺工程化复用(不能长期稳定跑、不能沉淀流程)。
那么:
- RAG 把“外部知识库”接进来,让回答更可追溯、更能更新。
- Agent 通过“工具调用 + 循环执行”,把聊天变成“能把事做完”的系统。
- MCP把“外部工具/数据”接入方式标准化,降低碎片化集成成本。
- Skills把“做事的方法”沉淀为可复用模块,避免每次都从零提示、从零试错。
- Claude Code / OpenClaw则是两种典型“落地形态”:一个把 Agent 放进开发者终端/IDE 工作流,一个把 Agent 做成“多聊天渠道网关**+ 长生命周期运行**”。
地基:LLM 与 Token

01 LLM
LLM(Large Language Model)可以理解为“把文本映射到文本的函数”:给定输入文本,它预测接下来最可能出现的文本序列,因此擅长对话、总结、翻译、写代码等语言任务。
解决啥:解决“用自然语言做泛化推理与生成”的问题——你不必为每个细分写作/分析任务都写一套规则引擎。
怎么用:对普通用户最稳的姿势,是把它当“写作/思考/总结引擎”,把目标、上下文、限制条件交代清楚,让它输出结构化结果(后面 Prompt 会讲)。
边界在哪:LLM 默认仍然是“文字世界里的大脑”。想让它查资料、调工具、执行流程、长期稳定跑,就需要后面的 RAG、Agent、MCP、Skills 与平台化运行环境。
02 Token
Token 是模型处理文本的基本单位。它可能是一个字符、一个词、半个词,空格/标点也会计入。不同语言的 token/字符比例差异很大。
解决啥:Token 是“成本 + 记忆窗口”的共同语言:
- 很多 API(包含工具调用场景)按 token 计费;
- 模型有上下文上限(输入 + 输出 token 总和),超了就必须截断/压缩,导致“记不住”“丢细节”。
怎么用:工程上常用 tokenizer 来估算 token 数量,比如 OpenAI 的 tiktoken 示例明确指出:数 token 可以帮助判断文本是否过长,以及一次调用大概多少钱(因为按 token 计费)。
边界在哪:token ≠ 字数/词数。英文有经验值(例如 1 token≈4 个字符)但只是粗略估计;换成中文、代码、混合符号时,token 比例会明显变化,因此“按字数估成本/上下文”很容易误判。
沟通:Prompt
03 Prompt
Prompt 本质是“触发模型响应的输入”。更实用的理解:它是你写给模型的需求说明书。

解决啥:它解决的不是“让模型更聪明”,而是“让模型按你期望的方式工作”:输出结构、语气、边界、格式、禁区、评估标准。
怎么用:官方提示词建议里最稳定的几条,都非常“朴素但管用”:
- 把指令放最前面,用分隔符把“指令”和“材料”隔开;
- 具体、可检验地描述你要的输出(长度、结构、风格);
- 用示例来约束输出格式;
- 先零样例(zero-shot),不行再少样例(few-shot),再考虑微调。
边界在哪:Prompt 再好,也不能凭空补齐“你没给、模型也没确切掌握”的事实。换句话说:Prompt 解决“沟通”,不解决“资料来源”——这就是 RAG 出场的原因。
查资料:RAG
04 RAG
RAG(Retrieval-Augmented Generation)来自经典论文:它把“模型参数里存的知识”(parametric memory)与“可检索的外部记忆”(non-parametric memory,比如向量索引)结合起来——先检索相关文本,再基于检索结果生成。
“
标题:《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》
论文地址:https://arxiv.org/abs/2005.11401
解决啥:论文点得很直白:大模型确实存了大量事实,但在知识密集任务上仍会受限;同时,“给出可追溯出处(provenance)”和“更新世界知识”是开放问题。RAG的价值恰恰在于:
- 更容易“用新资料覆盖旧印象”;
- 更容易把“引用依据”带给用户;
- 往往能让生成更具体、更事实化。
怎么用:落地时通常是“三段式管线”:
- 把资料切分成可检索片段;
- 用 embedding 把文本向量化并建立索引;
- 查询时检索 top-k 片段,把它们塞进上下文,让模型带着“参考材料”输出。

你也可以把它理解为:RAG 不是让模型“背更多”,而是让模型“像开卷考试一样”,每次回答前先翻资料。
边界在哪:RAG 不是“百分百正确”的魔法。检索质量(切分、索引、召回)、资料质量、以及生成阶段的提示方式都会影响结果;论文也强调“更新知识与可追溯”是开放问题,而不是一键解决。
动手干活:Agent 与 Multi-Agent

05 Agent
一份来自 OpenAI 的实践指南给了一个非常可执行的定义:Agent 是能“以较高独立性在你名义下完成任务”的系统;它不仅用 LLM 做决策,还能调用工具与外部系统,并在失败时停止或把控制权交还给用户。
解决啥:它解决的是“从给答案”到“把事做完”的跨越:拆任务、选工具、执行、拿回结果、再迭代,形成闭环交付。
怎么用:主流实现都离不开“工具调用(tool calling/function calling)”这套机制:
- 你把可用工具(含输入 schema)告诉模型;
- 模型判断需要时会返回 tool call;
- 你的应用/运行时执行工具,把结果再喂回模型;
- 模型在多轮中完成任务或继续调用更多工具。
在 Anthropic 的工具文档里,这个“agentic loop”被直接描述为:模型根据用户请求与工具描述决定是否调用工具,并返回结构化调用;工具可能跑在你自己的应用(client tools)或平台侧(server tools),本质都是“调用—观察—再调用”的循环。
边界在哪:Agent 最容易被忽视的真相是:能力与风险是一体两面。一旦允许“写文件、跑命令、发消息”,错误就会从“说错话”升级成“做错事”。因此官方指南强调需要 guardrails(护栏)、权限控制、认证授权与安全工程措施一起上。
Multi-Agent
Multi-Agent 通常指“多个分工不同的 agent”协作完成复杂目标:有人负责检索,有人负责写作,有人专做代码实现,有人做审核/验收。
解决啥:它解决的是单一 agent 在复杂任务里“既要规划又要执行又要检查”的负担:通过“handoff/委派”,把任务切成更可控、可审计的子块。
怎么用:在 Agents SDK 的描述里,agentic 应用常见能力就包括:使用外部上下文和工具、把任务 hand off 给其他专长 agent、流式输出阶段结果、并保留完整 trace 方便复盘。
边界在哪:Multi-Agent 并不天然更安全;它只是把系统拆得更模块化。真正的安全来自“每个角色权限最小化 + 行为可追踪 + 人类可否决”。
接口与流程:MCP 与 Skills
06 MCP
**MCP(Model Context Protocol)**在官方介绍里被定义为:连接 AI 应用与外部系统的开源标准。它让 Claude、ChatGPT 等 AI 应用可以连接数据源、工具与工作流(包括“专用 prompts”),并被形容为“AI 应用的 USB‑C 口”。

解决啥:它解决的核心麻烦是“集成碎片化”:当你要把 LLM 接到文件、数据库、业务系统、内部工具时,如果每个客户端/每个工具都私有对接,会变成 N×M 的维护地狱;MCP 试图用统一协议把这件事标准化。
怎么用:从规范本身看,MCP 用 JSON‑RPC 2.0 在 Host / Client / Server 之间通信;Server 可以向 Client 提供三类核心能力:Resources、Prompts、Tools。
更关键的工程细节是安全元数据:MCP 的 schema 里定义了 ToolAnnotations(readOnlyHint、destructiveHint、idempotentHint、openWorldHint 等),但规范也强调这些只是“提示”,不保证真实行为,客户端不能把来自不可信 server 的 annotations 当作决策依据。
边界在哪:MCP 是“连接标准”,不是“安全保险柜”。规范本身就提醒:应当有 human-in-the-loop 能力,UI 需要明确展示工具暴露与调用,并允许用户否决敏感操作。
07 Skills
在 OpenClaw 的官方语境里,Skills 是“教 agent 如何使用工具”的技能包:每个 skill 是一个目录,核心文件是带 YAML frontmatter 的 SKILL.md,它包含说明、指令、示例等。

解决啥:Skills 解决的是“流程不可复用”:如果你每次都靠临时 Prompt 去教 agent 怎么查日志、怎么开工单、怎么跑脚本,你会不断重复提示、不断踩坑。Skill 相当于把经验沉淀成可复用 SOP(标准作业流程)。
怎么用:OpenClaw 给出了非常工程化的加载规则:技能可以来自 workspace、项目级 agent skills、个人 skills、机器级 managed/local、bundled、以及额外目录,并且有明确覆盖优先级(workspace 最高)。
官方文档同时把“信任边界”写得很明确:第三方 skills 应视为不可信代码,启用前要阅读,必要时在 sandbox 中运行。
边界在哪:Skill 不是工具本身,它依赖工具与权限体系。你可以把“Skills 的指令”写得很漂亮,但如果底下没有可用工具(或被 deny)、或者上下文/权限设计不当,它仍然无法稳定交付。
一句话区分:MCP 更像“接口/协议”,解决“工具与数据怎么接进来”;Skills 更像“SOP”,解决“接进来之后怎么做得更稳、更可复用”。
平台化落地:Claude Code 与 OpenClaw
08 Claude Code
Claude Code 的官方概览把它定义为“agentic coding tool”:能读代码库、改文件、跑命令、集成开发工具;同时覆盖终端、IDE、桌面与浏览器等多种入口。

解决啥:它解决的是“把 agent 装进开发者日常工作流”——让“会动手的编码助手”离代码、终端与项目上下文更近。
怎么用:它对“工具接入”的核心方式之一就是 MCP:官方写明 Claude Code 可通过 MCP 连接大量外部工具/数据源,MCP server 可以给它访问数据库与 API 的能力。
Claude Code 同时把“权限与隔离”当作第一等工程问题:
- 权限规则支持 allow/ask/deny(并强调某些目录写入仍会提示以避免破坏仓库/配置);
- sandboxes 提供文件系统与网络隔离,目标是减少频繁授权带来的“批准疲劳”,并在边界外访问时触发提醒。
- Anthropic 的工程文章甚至给出一个量化佐证:用户会批准大约 93% 的权限弹窗,因此需要更好的机制来平衡效率与安全。
边界在哪:官方在 MCP 文档里直接提醒:使用第三方 MCP servers 风险自担,尤其是会抓取不可信内容的 servers,可能带来 prompt injection 风险;同时还提示某些传输方式(如 SSE)在其文档语境中已被标注 deprecated,需要按最新文档为准。
**这里的风险不是“理论恐吓”。**已有公开测试显示:当模型总结网页时,隐藏文本可能注入指令影响输出(prompt injection),甚至诱导生成恶意内容,这类问题在“模型 + 外部内容/工具”的组合里尤为需要防范。
09 OpenClaw
OpenClaw 官方把自己定位为“自托管 AI assistant gateway”:你在自己的机器/服务器上跑一个长期存在的 Gateway 进程,把多个聊天渠道(例如 WhatsApp、Telegram、Discord、iMessage 等)连接到 agent,并在本地掌握数据与运行边界。

解决啥:它解决的是“平台化与多渠道触达”:同一个 agent/同一套会话与路由规则,可以同时服务多个聊天入口;同时 Gateway 作为控制平面,集中管理 sessions、routing、渠道连接与事件流。
怎么用:从其核心概念页看,Gateway 是一个 WebSocket server(默认本地地址与端口在文档中有明示),负责渠道管理、消息路由、会话上下文维护,并提供控制 UI 与 webhook 等能力。
OpenClaw 也把“工具、skills、sandbox、多 agent 路由”作为原生能力进行组织:它的 agents 概念页把 agent 配置拆成 Model、Workspace、Tools、Skills、Sandbox 等明确组成部分,便于做权限与隔离。
边界在哪:自托管的代价是你要承担更完整的安全责任。OpenClaw 安全文档把核心原则总结为“access control before intelligence”,并给出非常直白的威胁模型:你的助手可能具备执行 shell、读写文件、访问网络、代发消息等能力;因此要先做身份与范围控制,再谈模型能力。
写在最后
LLM提供了强大的语言理解能力,OpenClaw和Claude Code使AI能够直接操作和执行任务,Prompt工程和Token概念帮助我们更好地与AI交互,Skills和Agent则拓展了AI的实用边界,MCP协议和RAG技术则推动了AI的协作能力和知识更新。
看完你至少能复述三句话
“
第一句:LLM 是大脑;Token 决定它“记得住多少、你花多少钱”;Prompt 决定你“交代清不清楚”。
第二句:RAG 是外挂资料室(先检索再生成);Agent 是会动手的员工;Multi-Agent 是把复杂任务拆给多个角色,并保留 trace 便于复盘。
第三句:MCP 让工具/数据接入标准化;Skills 让经验沉淀成可复用 SOP;Claude Code 与 OpenClaw 则是两种典型落地形态——一个“住在终端/IDE 的编码型 agent”,一个“自托管多渠道网关,把助手装进你常用聊天软件”。
最后唠两句
为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选
很简单,这些岗位缺人且高薪
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。
那0基础普通人如何学习大模型 ?
深耕科技一线十二载,亲历技术浪潮变迁。我见证那些率先拥抱AI的同行,如何建立起效率与薪资的代际优势。如今,我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理,分享于此,为你扫清学习困惑,共赴AI时代新程。
我整理出这套 AI 大模型突围资料包【允许白嫖】:
-
✅从入门到精通的全套视频教程
-
✅AI大模型学习路线图(0基础到项目实战仅需90天)
-
✅大模型书籍与技术文档PDF
-
✅各大厂大模型面试题目详解
-
✅640套AI大模型报告合集
-
✅大模型入门实战训练
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

①从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(0基础到项目实战仅需90天)
全过程AI大模型学习路线

③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓


1021

被折叠的 条评论
为什么被折叠?



