RAG 概述

什么是 RAG

RAG（Retrieval-Augmented Generation，检索增强生成）是一种将信息检索与大语言模型生成相结合的技术架构。其核心思想是：在大语言模型（LLM）生成回答之前，先从外部知识库中检索相关信息，将检索到的内容作为上下文提供给模型，从而生成更准确、更有依据的回答。

RAG 最早由 Facebook AI Research（现 Meta AI）在 2020 年的论文 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" 中正式提出，随后迅速成为大语言模型应用中最重要的架构模式之一。

Loading diagram...

简单来说，RAG 就像是给大语言模型配了一个"开卷考试"的能力——模型不再仅凭记忆回答问题，而是可以翻阅参考资料后再作答。

文档加载：从各种数据源（PDF、网页、数据库、Markdown 等）加载原始文档
文档分块（Chunking）：将长文档切分为较小的文本片段，便于后续检索
文本嵌入（Embedding）：使用嵌入模型将文本片段转换为高维向量表示
向量存储：将向量及其对应的原始文本存入向量数据库

检索阶段（Retrieval）

当用户提出问题时，系统执行以下检索流程：

查询嵌入：将用户的问题文本转换为向量
相似度搜索：在向量数据库中查找与查询向量最相似的文档片段
结果排序：按相似度得分对检索结果进行排序，返回 Top-K 个最相关的片段

生成阶段（Generation）

将检索到的文档片段与用户问题组合成完整的 Prompt，发送给大语言模型生成最终回答：

prompt = f"""基于以下参考信息回答用户的问题。
如果参考信息中没有相关内容，请如实告知。

参考信息：
{retrieved_documents}

用户问题：{user_query}

请给出详细的回答："""

RAG vs 微调（Fine-tuning）

RAG 和微调是增强大语言模型能力的两种主要方式，它们各有优劣：

对比维度	RAG	微调（Fine-tuning）
知识更新	实时更新，只需更新知识库	需要重新训练模型
实现成本	较低，无需 GPU 训练资源	较高，需要大量计算资源
数据需求	无需标注数据，原始文档即可	需要高质量的标注训练数据
可解释性	强，可以追溯信息来源	弱，知识隐含在模型参数中
幻觉控制	较好，回答基于检索文档	一般，仍可能产生幻觉
领域适应	适合知识密集型任务	适合风格/格式/行为调整
部署复杂度	需要维护向量数据库等基础设施	模型部署即可
延迟	检索过程增加一定延迟	无额外延迟

在实际项目中，RAG 和微调并非互斥。很多高级应用会同时使用两者——先微调模型以适应特定领域的语言风格，再通过 RAG 注入最新的领域知识。

查询改写（Query Rewriting）：对用户原始查询进行改写或扩展，提高检索质量
重排序（Reranking）：对初步检索结果使用交叉编码器进行精排
混合检索（Hybrid Search）：结合向量检索与关键词检索的优势
句子窗口检索：检索命中片段的同时扩展返回其上下文窗口

什么是 RAG

为什么需要 RAG

幻觉问题（Hallucination）

知识截止问题（Knowledge Cutoff）

领域知识不足

数据隐私与安全

RAG 架构概览

整体工作流程

索引阶段（Indexing）

检索阶段（Retrieval）

生成阶段（Generation）

RAG vs 微调（Fine-tuning）

典型应用场景

企业知识库问答

智能客服系统

文档问答与分析

代码助手

教育与培训

医疗健康咨询

RAG 的演进方向

Naive RAG（基础 RAG）

Advanced RAG（进阶 RAG）

Modular RAG（模块化 RAG）

Agentic RAG（智能体 RAG）

小结