人工智能实战:RAG 问答总是“答非所问”?从召回失败到重排优化的完整工程排查与解决方案
一、问题场景:模型不傻,但它拿到的上下文是错的
在做企业知识库问答系统时,很多人第一版架构通常是这样:
用户问题
↓
Embedding 向量化
↓
向量数据库检索 TopK
↓
拼接上下文
↓
大模型回答
这个链路看起来很标准,实际开发时也很容易跑通。
但上线测试后,经常会出现非常尴尬的问题:
1. 用户问 A,系统回答 B
2. 知识库里明明有答案,但模型说不知道
3. 检索出来的文档看起来相关,但真正答案不在里面
4. TopK 设置越大,回答反而越混乱
5. 模型生成很流畅,但事实错误很多
一开始我也以为是大模型能力不够,于是尝试:
换更大的模型
调 temperature
增加 max_tokens
加更长的 system prompt
结果发现效果并不稳定。
后来完整排查链路后才发现:
真正的问题不是“生成失败”,而是“检索失败”。
也就是说:
订阅专栏 解锁全文

439

被折叠的 条评论
为什么被折叠?



