必收藏！一篇吃透RAG到底是什么？（小白&程序员入门必备）

原创于 2026-03-25 09:50:40 发布 · 1.5k 阅读

43 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #产品经理 #ai大模型 #学习 #java

最近深耕AI大模型领域，整理了一份通俗易懂的RAG学习笔记，把复杂概念拆解得明明白白，不管你是刚入门的小白，还是想快速上手RAG的程序员，这篇文章都能帮你理清思路、少走弯路，建议收藏备用，反复学习巩固～

一、认识 RAG 之前，了解目前大模型的短板

想学会RAG，先弄明白它存在的意义——当前主流大模型并非万能，哪怕是GPT、文心一言这类顶尖模型，也有无法回避的短板，这也是RAG技术应运而生的核心原因。

那怎么办呢？

给大模型一本“课外书”，每次回答前先去翻“课外书”，大模型+课外书进行回答的方式就叫做 RAG 技术

二、什么是 RAG

RAG 的全称是「Retrieval-Augmented Generation」，翻译过来就是「检索增强生成」。

听起来有点高大上，我用一句话总结：RAG 不是一款新 AI，而是给现有 AI 装的“外接知识库”——让 AI 在回答问题前，先主动去你指定的“资料库”里查资料，再基于真实、最新的资料生成答案，从根源上杜绝“一本正经地胡说八道”。

通过一个案例让你明白

没有 RAG 的情况：

在客服场景下，一个用户询问，新品功能操作”“售后退款时效”“区域物流政策，要么答非所问，要么给出过时答案，不仅解决不了用户问题，还会消耗用户耐心、损害品牌口碑要么答非所问，要么给出过时答案，不仅解决不了用户问题，还会消耗用户耐心、损害品牌口碑

这个时候 RAG 出现了：

1、前置知识库适配，可实时同步企业最新的产品手册、售后规则、物流政策、活动方案等内容，自动拆解、标引关键信息，哪怕一天更新多次资料，也能快速同步给客服 AI，彻底解决“知识过时”问题；

2、实时精准检索，用户提问后，RAG 会快速抓取问题核心（比如用户问“某型号产品如何保修”，会精准定位该产品的保修期限、流程、例外情况），从知识库中筛选最匹配的内容，避免 AI 凭旧记忆乱回答；

3、是优化回答适配性，结合用户提问语气和需求，将检索到的专业资料，转化为通俗易懂、步骤清晰的回复，还能标注答案来源（如“答案来自 2026 年最新售后手册第 3 条”），同时可联动用户订单信息，给出针对性解答（如“您的订单可在下单后 7 天内申请无理由退款，点击链接即可操作”）。据统计，接入 RAG 的客服 AI，回答准确率可提升 30%以上，用户咨询解决率提升 40%，同时减少人工客服 80%的重复性咨询，大幅降低企业客服成本，还能提升用户咨询体验。

这就是 RAG 在客服全流程中的核心作用，也是帮用户去精准解决痛点

三、RAG 全流程拆解，让你更加明白底层逻辑

核心的两个阶段

第一阶段：数据索引（Data Indexing）

第二阶段：检索与生成（Retrieval & Generation）

接下来我将详细拆解 2 个阶段

第一阶段：数据索引（Data Indexing）

这个阶段是 RAG 的基础。其目的是准备好外部知识，以便在需要时进行高效检索。这是一个离线（提前）进行的过程。

1、数据收集（Data Collection）:

从各种来源（如公司文档、数据库、网站、PDF、知识库等）收集原始数据。这些数据包含了 LLM 尚未学习过的、最新的、甚至是私有的信息。

我还是以智能客服举例，把公司的手册、公司产品使用的 PDF、word 等文件，这样你的 AI 回答的内容就会更加符合你们公司产品的特点

2、数据清洗与分块（Clean & Chunk）:

一、如何清洗

清洗：去除数据中的噪声（清洗的目的：让数据干净、规整，减少后续检索时的干扰。) .

纯文本（TXT， Markdown， CSV）: 这是最简单的。直接读取文件内容，通常不需要特殊的解析器。Markdown 需要注意处理标题、列表等标记，CSV 则是结构化数据。

富文本/文档（PDF， Word）:

PDF: 这是最复杂也最常见的情况。

基于文本的 PDF: 使用工具如 PyPDF2、pdfminer 或 AI 服务（如 Azure Form Recognizer、AWS Textract）可以直接提取文字。这些工具可以理解页面结构、字体和段落。
扫描件/图像 PDF: 这种 PDF 实际上是图片。必须使用 OCR （光学字符识别）技术。OCR 引擎（如 Tesseract、AI 服务）会分析图片中的形状，将其识别为文字。

Word （DOCX）: 通常使用 python-docx 等库，它们可以解析 Word 文件的 XML 结构并提取文本和样式信息。

网页（HTML）: 使用网页抓取工具（如 BeautifulSoup、Scrapy）解析 HTML 标签（如 <h1、p>、div>），提取核心文本，同时去除导航栏、广告和脚本等噪音。

注意：市面上主要的文档格式其实都比较支持，尽量避免一些加密文件、压缩包、图片等

二、如何分块

分块：将长文档切分成更小的、有意义的文本块（Chunk）。这是因为 LLM 处理长文本的能力有限，而且更小的分块能更精确地定位到相关信息（分块的好坏，直接决定后续检索效果的好坏）

目前主要的分块：

3、文本嵌入（Embedding）:

利用 Embedding 模型（一种预训练的神经网络），将每一个文本块转换成一个高维的数值向量。这个向量能捕捉到该文本块的语义信息。

简单来说，嵌入就是将人类的语言（非结构化文本）转换成计算机能理解的高维向量（一组数字）。

向量，就是一串数字，用来描述一个东西的"特征"。当两个东西的向量值接近时，说明它们的特征相似。

举个例子：

语义相近的文本，在空间中的距离就近（例如“猫”和“小猫”）。

语义相关的文本，也会聚集在一起（例如“苹果”和“香蕉”）。

4、向量存储（Vector Storage）:

将这些生成的向量（Embedding）存储在专门的数据库中，即向量数据库。同时，会将对应的原始文本块（Chunk）存储在关系型或文档数据库中，并与向量建立关联，以便在检索时可以快速找到原文本。

第二阶段：检索与生成（Retrieval & Generation）

那我们数据库准备好之后，用户的问题就来了

RAG 要做的事情就是：从海量的文本块里，找到和用户问题最相关的那几段内容。

这个过程叫检索，主要有两种方式：

关键词检索（Keyword Retrieval）

这是最传统且基础的检索方式，类似于在搜索引擎中进行简单的文字查找。

原理：基于精确匹配。系统会在文档中查找是否包含用户查询中出现的具体词。它通常依赖于倒排索引（Inverted Index），这种索引结构记录了每个关键词出现在哪些文档中。

常用算法： TF-IDF （Term Frequency-Inverse Document Frequency）和它的演进版本 BM25。这些算法不仅检查关键词是否存在，还会根据词在文档中的频率（TF）和词在整个语料库中的稀有程度（IDF）来给文档打分，以衡量其相关性。

优点：简单、高效、计算成本低、对特定术语和专有名词的精确匹配非常有效。

缺点：缺乏语义理解。例如，查询“怎么换货”可能无法找到包含“退货流程”的文档。它无法处理同义词、多义词和语言的复杂性，且极易受措辞差异的影响。

2、密集向量检索（Dense Vector Retrieval）

也被称为语义检索（Semantic Retrieval）或 Embedding 检索。这是现代 RAG 系统的核心基石，它不仅寻找相同的词，更寻找相似的“意思”。

原理：基于语义匹配。它利用文本嵌入模型（Embedding Model）将文本（查询和文档块）转换成高维空间中的数字向量。在这个向量空间中，含义相近的文本会被映射到彼此靠近的位置。
过程：

举个例子：就相当于搜索中的模糊搜索，假设书本是 0.4，苹果是 0.9，水果是 1，那我就可以判断出苹果和水果在向量空间中是靠近的，那我查询的结果也会向水果靠近

预先将知识库中的所有文档块转换为文档向量（Document Embeddings）并存储在向量数据库中。
当用户提出查询时，将用户查询也转换为查询向量（Query Embedding）。
系统通过计算两个向量之间的距离（如余弦相似度）来寻找向量空间中离查询向量最近的文档向量。

优点：具有强大的语义理解能力。即使查询和文档使用的措辞完全不同（如同义词、不同语言、甚至是对同一个概念的不同描述），只要意思相近，就能被检索出来。
缺点：计算成本高于关键词检索；对精确的术语或冷门实体的匹配有时不如关键词检索准确；向量数据库的维护和扩展也更为复杂。

3、混合检索（Hybrid Retrieval）

混合检索并非一种独立的新方法，而是将上述两种方式结合起来，旨在吸取两者的优点，克服各自的缺点。

原理： “两全其美”。系统会同时运行关键词检索和向量检索。

关键词检索可以确保对专有名词、特定代码段或非常具体的措辞进行精确匹配。
向量检索可以捕捉更深层的语义关联，覆盖措辞不同但意思相近的内容。

结果融合（Reranking/Fusion）：两路检索会各自返回一个带有得分的文档列表。关键的一步是使用融合算法（如 RRF - Reciprocal Rank Fusion）将这两个列表合并，并重新对文档进行打分和排序（Reranking）。重排序模型通常是一个比嵌入模型更复杂的模型，它能根据查询和文档的全面内容，更精准地评估两者的相关性，从而选出最相关的文档供 LLM 生成。

通过这种方式，混合检索能够在保持对特定术语敏感性的同时，极大提升检索的覆盖面和语义准确性，是目前高性能 RAG 系统的首选方案。

检索完之后还需要关注召回率？

什么是召回率？

当我们需要衡量一个检索系统（或 RAG 的召回阶段）表现好坏时，“召回率”是一个最核心的度量标准。

举个例子，系统里面 100 本关于产品使用手册的书，但是我发起检索之后系统回收了 60 本书，但是只有 50 本的内容跟产品使用手册有关系，那我们的召回率就是 60/50=83.33，相当于我们只找回来了 83 的知识，还有 17 的内容给遗漏了

召回率越高，说明系统越"完整"——重要的信息不容易被漏掉。

那么如何提升召回率？

1、优化数据分块（Chunking Strategy）

如果分块太碎，语义不完整；如果太长，噪声太多。

增加重叠度（Overlap）：确保相邻块之间有 10%-20% 的重复内容，防止核心上下文在切割处断开。
父子索引（Parent-Document Retrieval）： * 做法：将文档切成很小的子块（Small Chunks）用于向量检索，但在检索到子块后，实际交给 LLM 的是它所属的更大父块（Parent Chunk）。

优势：小块检索精度高，大块提供更丰富的上下文。

2、混合检索（Hybrid Search）

单纯的向量检索（Vector Search）擅长语义，但对专有名词、缩写、产品型号（如 “iPhone 15 Pro Max” 或 “H100”）非常不敏感。

方案：将向量检索与传统的关键词检索（BM25）结合。
倒排索引 + 向量空间：关键词确保“搜得准”，向量确保“搜得广”。通过 RRF（Reciprocal Rank Fusion）算法将两者的结果加权合并。

3、查询转换与扩展（Query Transformation）

用户的提问往往是模糊的，直接转化成向量可能匹配不到好的结果。

查询重写（Query Rewriting）：让 LLM 先把用户的“口语”翻译成“书面语”或更详细的描述。

举个例子：

用户问怎么退货，系统就会自动改写为"退货流程是什么？"

多查询并行（Multi-Query）：让 LLM 针对同一个问题生成 3-5 个意思相近的不同表达，并行检索，取结果的并集。这能极大覆盖不同的词汇空间。

举个例子：

用户问怎么退货，系统就会自动改写为

“退货流程是什么？”

“退款政策有哪些规定？”

“换货和退货有什么区别？”

三个问题分别去检索，找到的内容更全面，召回率自然更高。

检索内容重排序

我们现在已经得到一批文档了，但是这些文档有个问题：排列顺序不太对（其实这步也能提高我们的召回率）

为什么要重新排序？

如果没有重排序，你的 RAG 系统就像是一个记性很好但逻辑一般的学生，他能从图书馆搬回一堆相关的书，但不知道哪一本里才有你最想要的那个细节。

有了重排序，你就有了一个逻辑缜密的助手，他会帮你把这堆书翻一遍，把最精准的那一页呈现在你面前。

如果说初次检索是从图书馆里抱回 50 本相关的书，重排序就是翻开这 50 本书，选出最准确的那 3 页纸递给大模型。

喂入大模型生成答案

将重排后的精华文档片段作为 Context（上下文）喂给大模型，生成最终回答。

对应这个图可以更好的理解

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】