痛点
你用 LLM 做了个内部知识问答系统,Demo 跑得挺好,上线后用户反馈"回答经常胡说八道"。根本原因:LLM 没有你的私有数据,纯靠参数记忆回答,幻觉不可避免。
RAG(Retrieval-Augmented Generation)是当前最务实的解法——先检索相关文档片段,再喂给 LLM 生成答案。但从 Demo 到生产,坑不少:分块策略影响召回率、Embedding 模型选型决定语义精度、检索结果排序直接影响最终回答质量。
本文给出一套 Python 可直接落地的 RAG 管道方案,覆盖文档分块、向量存储、检索增强到 LLM 生成的全流程。
方案概览
技术栈选型:
| 组件 | ...
|---|