06. RAG 工程

六、RAG 工程¶

在企业级私有知识库、实时动态政策问答及存在严苛数据权限边界的业务场景下，检索增强生成（RAG, Retrieval-Augmented Generation）的本质并非简单地“将文档喂给大模型”，而是构建一套融合分布式非结构化文档解析、多模态语义检索、排序过滤及动态上下文装配的高可用证据治理系统（Evidence Governance System）。RAG 的核心工程价值在于将模型在特定业务领域内的概率生成逻辑置于确定性的证据底座之上，保障回答的忠实度（Faithfulness）、可追溯度（Traceability）与时效性（Freshness）。

总判断：RAG 是一套证据系统¶

RAG 系统的设计目标是解决大语言模型对于私有域动态数据、精细权限控制及深层专业术语感知缺失的痛点。通过“前置受控检索（Controlled Retrieval）+ 后置约束生成（Constrained Generation）”，系统将不确定性的自由问答转化为在可信证据边界内的归纳与总结。

一个生产级别的 RAG 系统由以下四个相互解耦的工程模块组成： 1. 离线建库管线（Offline Ingestion Pipeline）：负责半结构化文档的深度摄取、版面解析、OCR 消歧、语义切块、元数据染色、多模态 Embedding 向量化及混合索引落盘。 2. 在线检索引擎（Online Search Engine）：负责多租户安全过滤、关键词与稠密向量并行召回、检索重写与扩展、混合分数融合（Rank Fusion）、重排精筛（Reranking）及物理引用构建。 3. 线上治理体系（Online Governance Layer）：负责解决动态索引更新、分布式多级缓存、租户逻辑与物理隔离、权限级级联退避及版本切换的一致性挑战。 4. 评测回归闭环（Continuous Evaluation Loop）：基于检索与生成的黄金数据集，利用自动化度量指标（如 Ragas 体系与排序度量）驱动全管线参数的定量优化。

离线建库：先把原始资料变成可检索资产¶

离线建库是 RAG 证据链的基石。在工业生产中，文档源多以扫描 PDF、图文混排手册、长表格、含有专业术语的制度附录形式存在。如果前置处理缺乏结构保真度，后续所有召回和生成都会严重失真。

1. 文档智能解析（Document Intelligence Parsing）¶

文档智能摄取的核心是对物理版面（Layout）与逻辑结构（Structure）的双重还原： - 物理 OCR（Optical Character Recognition）：仅处理像素级别的图像到文本字符还原，适合票据、纯文本截图等单一结构。 - 版面分析（Layout Analysis）：识别多栏阅读顺序、标题层级树、表格物理边界及脚注/页眉逻辑关系，是多栏学术论文与企业制度解析的基线。 - 结构化抽取（Structure Extraction）：MinerU 等文档智能解析工具的典型机制是将版面智能还原、跨页表格拼接（通过识别跨页表头延续、行高合并及单元格语义聚合）与公式/图表块归一化融为一体，输出高保真的 JSON/Markdown 逻辑结构对象。

2. 语义切块（Semantic Chunking）与重叠度调优¶

切块策略的优劣直接决定了召回片段的上下文完整性： - 固定长度切块（Fixed-Size Chunking）：基于字符长度暴力分块，高吞吐但破坏段落语义、公式及代码块的完整性，为非推荐方案。 - 递归语义切片（Recursive Character Chunking）：作为工程默认基线，优先基于天然段落标识符（\n\n）、单行换行（\n）及句末标点拆分，当且仅当块体积超出限制时才退避到细粒度切割，最大化保留段落结构。 - 差异化切块机制：FAQ 应按问答对（Q-A Pair）独立打包，政策手册按条款标题树的节点层级深度解析，源代码保持抽象树（AST）功能节点完整，表格则必须转化为完整的 Markdown/JSON-Schema 块。 - 重叠因子（Overlap Factor）：用于弥补切块边界处的语义断裂。重叠区过小会导致上下文片段信息孤立（如关键前置条件被切断）；重叠区过大则会导致召回大量高度重复的候选块，推高 Rerank 阶段的计算负担与 Token 成本。

3. 元数据补全与染色（Metadata Enrichment）¶

为了实现高精度过滤与精准溯源，每个分块（Chunk）必须被静态染色并补充如下元数据字段： - 唯一标识：chunk_id、document_id。 - 逻辑定位：parent_section（所属章节路径）、page_number（页码范围）。 - 安全与多租户：tenant_id（租户 ID）、department_acl（可见性控制链）。 - 时效与版本：version_tag（版本标识）、effective_time（生效时间）、is_active（激活状态）。

在线检索：分层缩小证据集¶

在线检索阶段的工程实质是通过分层漏斗架构（Layered Funnel Architecture）将海量数据平滑收拢为最相关的精准证据片段：

\[\text{User Query} \xrightarrow{\text{Query Rewrite}} \text{Metadata Filter} \xrightarrow{\text{Parallel Recall (BM25 + Vector)}} \text{Rank Fusion (RRF)} \xrightarrow{\text{Rerank}} \text{Context Assembler}\]

1. 关键词稀疏检索（BM25）¶

企业级数据（如接口名、错误码、工单号及行业黑话）中存在高密度的强特征词，传统关键词倒排检索在解决精确匹配中依然是不可替代的基石。BM25 公式通过引入词频饱和（Term Frequency Saturation）与文档长度归一化（Document Length Normalization）提升了 TF-IDF 的稳健度：

\[\text{score}(q, D) = \sum_{t \in q} \text{IDF}(t) \cdot \text{TF\_sat}(t, D)\]

\[\text{TF\_sat}(t, D) = \frac{f(t, D) \cdot (k_1 + 1)}{f(t, D) + k_1 \cdot \left(1 - b + b \cdot \frac{|D|}{\text{avgdl}}\right)}\]

\[\text{IDF}(t) = \log \left( \frac{N - n(t) + 0.5}{n(t) + 0.5} + 1 \right)\]

f(t, D)：词 \(t\) 在文档 \(D\) 中的物理频次。
|D| / avgdl：当前文档物理长度与全库平均文档长度之比。
IDF(t)：逆文档频率，反映词的全局稀缺度。
k_1 参数（词频饱和调节度）：决定词频边际效益的上升斜率。取值越大，词频贡献越慢达到饱和上限，适合区分高频词分布；取值越小，词频贡献越快触顶。
b 参数（长度惩罚强度）：取值介于 \([0, 1]\)。b = 0 表示完全免除长度惩罚，b = 1 表示执行最大强度的文档长度惩罚。对于 FAQ 等超短文本，应调小 b 值以规避长度归一化误伤。

倒排检索在工程落地中极其依赖分析器（Analyzer）的分词逻辑。若分词管道将错误码（如 ERR_404_LIMIT）或版本字段拆解为停用词（Stop Words），倒排检索将面临彻底召回失败。此外，应对字段进行多维度加权配置（字段级 BM25）：

\[\text{score}_{\text{total}} = 2.0 \cdot \text{score}_{\text{title}} + 1.5 \cdot \text{score}_{\text{heading}} + 1.0 \cdot \text{score}_{\text{body}}\]

2. 稠密向量检索与内存预算¶

当用户意图表达含糊或存在近义词匹配挑战时，稠密向量检索（Dense Retrieval）能基于向量空间距离提供高水平泛化召回。在部署向量数据库前，必须执行前置物理内存开销计算：

\[\text{Memory Cost} \approx \text{Vector Count} \cdot \text{Dimensions} \cdot 4 \text{ bytes} \cdot \theta\]

Dimensions：大模型 Embedding 向量的维度（如 768 或 1024 维）。
4 bytes：单精度浮点数（float32）所占空间。
\theta：向量索引（如 HNSW）的建图内存开销倍数系数（通常介于 \(1.5\) 到 \(2.5\) 之间）。
依据此公式，1000 万条 1024 维的 float32 向量，在没有进行量化压缩的前提下，其实际物理内存占用将轻松突破 \(60\text{GB} \sim 100\text{GB}\)，这对向量存储节点的物理选型提出了严苛约束。

3. ANN 空间索引对比¶

HNSW（Hierarchical Navigable Small World）：多层跳表近邻图结构。通过 M（每个节点最大连边数）和 efConstruction/efSearch（建图/查询时的探索宽度）来调优召回精度与时延。图边数与向量数呈线性比例，内存开销极大，但召回时延极低且高维语义检索质量高。
IVF（Inverted File Index）：通过 K-Means 对向量空间进行聚类。查询时由 nlist 决定倒排聚类簇数，由 nprobe 控制需要探索的聚类簇数。建图速度快、内存开销小，但在极端长尾分布下可能产生召回遗漏。
PQ（Product Quantization）：乘积量化压缩。将高维向量切分为多个子向量并进行局部聚类，将 32 位浮点压缩为 8 位编码。内存开销锐减（最高可压缩 \(90\%\) 以上），但会带来不可逆的向量距离计算精度损耗。

4. 混合检索（Hybrid Search）与倒数排名融合（RRF）¶

工业级 RAG 架构的黄金标准是采用并行混合检索（Hybrid Retrieval）。由于 BM25 词频匹配分数与稠密向量的余弦/L2 空间距离属于完全不同的物理量纲，无法直接加权求和，因此业界广泛采用倒数排名融合（RRF, Reciprocal Rank Fusion）算法进行分数无偏归一化：

\[\text{RRF}(d \in D) = \sum_{m \in M} \frac{1}{k + r_m(d)}\]

M：并行的检索管道集合（如 [BM25, Dense]）。
r_m(d)：候选文档 \(d\) 在特定检索管道 \(m\) 中的绝对名次排位（1-indexed）。
k：常数调节因子（通常设为 \(60\)），用于平滑高排名文档对整体得分的过度扰动。

RRF 仅关注文档在各检索管道中名次排位的连贯性，有效克服了原始分数的度量漂移，是最稳定的无参分数对齐手段。

5. 标量过滤前置（Pre-Filtering Pushdown）¶

在大规模企业 RAG 部署中，标量权限及状态过滤必须前推为底层查询计划的首要执行动作（Pre-Filtering）。如果在向量/关键词召回后再通过业务代码进行越权过滤（Post-Filtering），高维空间召回的结果可能会被权限网格大面积剔除，导致严重的召回空洞（Recall Vacuum）与时延浪费。

6. Agent 中的检索契约（Retrieval as a Tool）¶

在智能 Agent 系统中，检索不应作为每轮循环的强绑定拦截器，而应封装为具有严格输入输出契约的声明式只读工具： - 输入契约（Input Schema）：

{
  "query": "string",
  "intent": "enum[factual, contextual]",
  "tenant_scope": "string",
  "filters": {
    "version": "string",
    "effective_time_range": "array[datetime]"
  },
  "top_k": "int",
  "rerank_k": "int"
}

- 输出契约（Output Schema）：返回由 chunk_id、document_id、source_title、similarity_score、snippet 和 version_status 构成的强类型结构化数组，便于下游执行节点进行实体消歧与确定性的引用注入。

线上治理：权限、版本、更新、缓存和多模态¶

RAG 系统从 Demo 演化为生产可用系统的核心瓶颈在于对线上数据一致性与访问权限隔离的深层治理。

1. 物理与逻辑隔离选型¶

多 Collection（物理隔离）：Milvus/Pinecone 的独立数据集合。适合数据 Schema 差异巨大、安全级别物理隔离（如 A 租户与 B 租户的绝密知识）的场景。
Partition（逻辑组隔离）：同一 Collection 下的物理索引分片。适合同一 Schema 下，按部门、文档大类或年份进行逻辑分组，能实现查询算力隔离。
Metadata Filter（轻量级逻辑隔离）：对于小规模租户或变化频次高的权限网，直接通过 Key-Value 元数据联合索引过滤。
选型路线：默认场景优先依靠 Pre-Filtering 标量过滤；当安全合规要求强物理隔离且数据集生命周期管理独立时，必须拆分为多 Collection；对单租户大批量稳定数据优先使用 Partition 隔离。

2. 分层缓存架构体系¶

为降低全链路时延与模型费用支出，应设计多层分布式缓存管道： - Query Cache（请求级缓存）：基于 Redis 精确哈希匹配热点提问，秒级返回完全一致的答案。 - Embedding Cache（向量化缓存）：缓存高频关键词的 Embedding 结果，避免重复进行推理计算。 - Result Cache（检索级缓存）：缓存特定 Query 的 Hybrid 检索加重排结果，避免高频对向量库发起并发探针。 - 缓存键设计规律：缓存 Key 必须由 query_hash、tenant_acl_hash、version_snapshot_tag 等多维哈希复合构成，确保一旦文档版本更新或用户权限回收，缓存即时失效。

3. 多模态检索架构管道¶

多模态文档中的图片、图表、流程图无法单纯用文本概括。其推荐的工业级接入拓扑如下： 1. 图像实体提取：版面解析引擎分离图像实体，原件存入对象存储，生成带物理坐标的逻辑锚定键（Logical Anchor）。 2. 多通道表征： - 文本通道：图像所在的上下文正文、页眉、图例（Caption）通过文本 Embedding 向量化。 - 视觉通道：图片实体通过 CLIP 等多模态模型向量化。 - OCR 降维通道：图片中的文本通过前置 OCR 解析为结构化 Key-Value。 3. 分层级融合：在线阶段并行检索，在 Rerank 阶段利用跨模态注意力重新排列，确保图文对齐。

评测闭环：先分问题类型，再看指标，再做优化¶

RAG 系统的优化并非盲目的参数调整，必须依赖指标驱动构建闭环评估管线。

1. 经典度量三元组（以 Ragas 为基准）¶

Faithfulness（忠实度 / 无幻觉率）：衡量模型生成的答案中，能从召回的上下文中找到物理支持的比例。核心是防止模型利用预训练权重编造事实。
Answer Relevance（答案相关性）：度量模型答案与用户 Query 的契合度，评估生成质量。
Context Precision（上下文精准度）：衡量召回的 Chunk 片段中，真正与答案强相关的片段排在最前列的比例。评估检索重排质量。

2. 检索端排序度量指标¶

Recall@K（召回率）：前 \(K\) 个检索结果中包含黄金标准（Ground Truth）文档的物理比例。评估第一轮粗排别漏掉关键证据。
MRR（Mean Reciprocal Rank，平均倒数排名）：首个真正相关文档在检索列表中排位的倒数均值。反映系统让最准确证据排在最前面的效率。
nDCG（Normalized Discounted Cumulative Gain，归一化折损累计增益）：考虑候选相关度级别且进行位置折损衰减的排序指标。综合评估全列表证据排序质量。

3. 体系化调优演进顺序¶

线上服务性能衰退时的标准优化管道如下： 1. 第一防线（数据保真）：优化离线版面理解与 MinerU 重构，解决表格截断与页码污染，确保原材料干净。 2. 第二防线（信息切分）：调优语义切块边界与 Overlap 比例，补充更精细的元数据染色字段。 3. 第三防线（过滤与过滤前置）：确保 ACL 权限过滤百分之百在召回前生效，排查词典停用词列表。 4. 第四防线（排序与融合）：调整 BM25 的 k1 与 b 饱和度，对 RRF 的融合权重与 Rerank 候选集大小进行定量优化调优。 5. 第五防线（生成约束）：优化 prompt 中的证据优先声明，开启 Schema 强校验，实现生成阶段的实体对齐。

坚持指标定量驱动与层级解耦优化，是保障企业级 RAG 服务健康流转的不二法门。