09-Retrieval Augmented Generation (RAG)

超威蓝猫 Dylan KwokMarch 26, 2026About 7 minPrompting TechniquesRAG

版本	内容	时间
V1	新建	2026年03月26日16:42:17

RAG（检索增强生成），本质是解决大语言模型「知识老旧、容易胡编（幻觉）、专业知识不足」的核心技术，也是现在 AI 应用开发中最常用的技术之一。下面从核心定义、解决的问题、工作原理、优势、实际效果五个方面介绍。

RAG 是什么？

RAG 是由 Meta AI 提出的大模型增强技术，核心是把「信息检索」和「大模型生成」结合起来：让大模型回答问题前，先从外部知识库（比如维基百科、企业文档、行业数据库）里搜出和问题相关的真实资料，再结合这些资料生成答案，而不是只靠自己训练时记住的老旧知识瞎编。

简单说：普通大模型是 “凭记忆答题”，RAG 增强的大模型是 “先翻书 / 查资料，再结合资料答题”。

https://ai.meta.com/blog/retrieval-augmented-generation-streamlining-the-creation-of-intelligent-natural-language-processing-models/

RAG 解决的核心问题

RAG 的设计初衷 —— 普通大模型能搞定简单任务（比如情感分析、命名实体识别），但面对复杂、需要专业 / 最新知识的任务时，会暴露 3 个严重问题，RAG 就是专门治这 3 个问题的：

知识静态老旧：大模型的知识都是训练时的 “死知识”，训练完就不会更新（比如 2025 年训练的模型，不知道 2026 年的新事件 / 新数据）；
容易产生幻觉：不懂的问题会瞎编答案，还编得理直气壮，缺乏事实一致性；
专业知识不足：面对法律、医疗、金融等知识密集型领域，仅靠自身训练知识远远不够。

RAG 的核心工作原理

RAG 的执行流程固定且简单，全程分 3 步，不用重新训练大模型，只需要对接外部知识库，这也是它的最大优势：

1）步骤 1：接收问题，检索外部资料

模型拿到用户的问题后，先通过检索组件（类似 AI 版的搜索引擎），从提前准备的外部知识库（比如维基百科、本地文档库）里，搜出和问题高度相关的资料 / 文档；

2）步骤 2：拼接资料，作为提示词上下文

把搜出来的相关资料，和用户的原始问题拼在一起，形成带真实资料的新提示词（相当于给模型加了 “参考资料”）；

3）步骤 3：结合资料，生成最终答案

大模型基于「原始问题 + 相关参考资料」生成答案，全程以外部资料为依据，不再只靠自身记忆。

把大模型的自身训练知识称为参数化记忆（死知识、静态），把外部知识库称为非参数化记忆（活知识、可随时更新），RAG 就是让大模型同时用这两种记忆答题。

论文：https://arxiv.org/pdf/2005.11401 中的图如下：

RAG 技术的底层实现框架，本质是把「检索器」和「生成器」两个预训练模型拼在一起优化，再用固定算法完成「搜资料→用资料生成答案」的核心流程，拆解成5 个关键部分：

核心操作：预训练检索器 + 预训练 seq2seq 模型 → 端到端微调

预训练检索器：专门干「搜资料」的 AI，由查询编码器和文档索引两部分组成（下文会拆），是 RAG 的「搜书工具」；
预训练 seq2seq 模型（生成器）：专门干「写答案」的大模型（比如 GPT、BART 这类），是 RAG 的「答题笔」；
端到端微调：把这两个预训练好的模型拼在一起，用同一批数据一起训练优化，让「搜资料」和「写答案」的动作高度适配（比如检索器知道生成器需要什么类型的资料，生成器能精准利用检索器找到的资料），而不是两个模型各自为战。

检索器的两个核心组件：Query Encoder + Document Index

这是「搜资料」的核心，缺一不可，类比成图书馆的检索系统就懂了：

Query Encoder（查询编码器）：把用户的问题（比如「RAG 的工作原理」）转换成计算机能理解的向量（数字串），相当于把你的问题「翻译成图书馆的检索语言」；
Document Index（文档索引）：提前把外部知识库的所有资料（比如维基百科、专业文档）都转换成向量，再按规则整理好形成向量库，相当于图书馆里「按类别排好、标好检索码的藏书库」。

怎么搜：Maximum Inner Product Search (MIPS) 找 top-K 文档zi

MIPS（最大内积搜索）：最常用的「向量匹配算法」—— 比较「问题的向量」和「所有资料的向量」的内积值，内积值越高，说明二者相关性越强，相当于图书馆检索系统「按相似度排序找书」；
top-K 文档*zi*：只选相似度最高的前K篇资料（K是可设置的数字，比如前 5、前 10 篇），避免找太多资料导致生成答案时信息冗余，相当于「只拿和问题最相关的几本书」。

隐变量（latent variable）：把检索到的文档集合z当成 “看不见的关键变量”

简单说：最终的答案y，完全依赖于检索器找到的资料*z*—— 找的资料不同，答案就不同；但资料z是检索器 “随机” 找出来的（比如不同次搜同一问题，可能找到略有差异的 top-K 资料），属于模型内部看不见、但能影响结果的变量，所以叫「隐变量」。

怎么生成最终答案：对不同文档的预测结果做「边缘化求和」

这是 RAG 保证答案准确性和鲁棒性的关键，不是只拿某一篇资料让生成器写答案，而是让生成器基于每一篇检索到的 top-K 资料，各自生成一个初步答案，再通过「边缘化求和」的算法，把这些初步答案做加权融合（相关性越高的资料，对应的初步答案权重越大），最终得到一个综合所有优质资料的最终答案y。

→ 相当于：找 5 本最相关的书，分别根据每本书写一个答案，再把这 5 个答案按书的相关性高低，整合出一个最全面、最准确的答案。

一句话总结:

用预训练的 “搜资料 AI”+“写答案 AI” 组队，经联合优化后，先通过向量匹配找最相关的前 K 篇资料，再结合所有资料的信息加权生成最终答案—— 这就是 RAG 技术最经典的底层实现逻辑，也是保证 RAG「搜得准、答得真」的核心。

RAG 的核心优势

彻底减少幻觉，答案更真实：答案有外部资料作为依据，不再瞎编，大幅提升事实一致性和可靠性；
知识可实时更新，不用重训模型：想让模型掌握新知识 / 新数据，只需要更新外部知识库就行，不用花巨资重新训练大模型，效率极高、成本极低；
适配知识密集型任务：完美解决法律、医疗、金融、科研等需要专业 / 最新知识的复杂任务；
生成的答案更具体、更多元：相比普通大模型的泛泛而谈，RAG 结合具体资料，答案会更贴合事实、细节更丰富。

RAG 的典型适用场景

只要是需要真实知识、最新知识、专业知识的场景，RAG 都能发挥作用，典型场景包括：

智能问答机器人：企业知识库问答、产品客服问答、行业知识问答（比如医疗科普、法律咨询）；
内容生成：结合专业资料写论文、写行业报告、写产品文案；
事实验证：判断网络信息的真假、验证新闻 / 论文中的数据；
智能检索：结合大模型的理解能力，实现对非结构化文档（比如 PDF、Word）的智能搜索和问答。

总结

RAG 是大模型的 “外置大脑 + 实时知识库”，通过「先检索外部真实资料，再结合资料生成答案」的方式，彻底解决大模型知识老旧、容易胡编的问题，是现在打造高可靠性 AI 应用的必备核心技术。

Contributors

guosongbin