一句话总结:降低 AI 幻觉的核心方法是 让 AI 有据可依、无据拒答——通过 RAG 引用约束、输出校验和置信度评分,可将幻觉率从 30% 降至 5% 以下。
什么是 LLM 幻觉?
AI 生成看似合理但事实错误的内容:
- 编造不存在的政策条款
- 虚构产品参数或价格
- 混淆相似但不同的概念
- 给出过时的信息(训练数据截止)
七种降幻觉方法
1. RAG 引用约束(最有效)
Prompt:「仅基于以下文档片段回答。每个事实陈述后标注 [来源]。
如果文档中没有相关信息,回答『未找到相关内容』。」
2. 拒答机制
- 检索结果 Top-1 相似度 < 阈值(如 0.6)→ 拒答
- LLM 自评置信度 < 阈值 → 拒答
- 拒答话术:「抱歉,我没有找到相关信息,建议联系 XX 部门」
3. 输出事实校验
- 生成答案后,用 LLM 反向验证:「上述回答是否完全基于提供的文档?」
- 不一致 → 重新生成或拒答
4. 结构化输出
- 要求 JSON 格式:
{ "answer": "...", "sources": ["doc1", "doc2"], "confidence": 0.85 } - 结构化输出比自由文本更易校验
5. 温度参数控制
- 知识库问答:
temperature = 0~0.1(确定性输出) - 创意写作:
temperature = 0.7~1.0 - 企业场景默认 低温度
6. 知识库 freshness
- 文档标注更新时间,过期文档降权或排除
- 定期清理过时内容(如 2023 年政策已被 2024 年替代)
7. 人工反馈闭环
- 用户标记「答案有误」→ 进入 Bad Case 库
- 定期分析 Bad Case → 优化 Prompt / 补充文档 / 调整检索
效果对比(泽衍科技客户数据)
| 方法 | 幻觉率 | 拒答率 | 用户满意度 |
|---|---|---|---|
| 纯 LLM(无 RAG) | 35% | 0% | 2.8/5 |
| RAG(无约束) | 18% | 0% | 3.5/5 |
| RAG + 引用 + 拒答 | 4% | 12% | 4.5/5 |
拒答率 12% 意味着 12% 的问题 AI 主动说「不知道」,但剩余 88% 的答案可信度大幅提升。
常见问题
完全消除幻觉可能吗? 不能。目标是 可接受的幻觉率(< 5%)+ 可发现(引用溯源)+ 可纠正(反馈闭环)。
拒答太多用户不满意怎么办? 分析拒答 query → 补充知识库文档 → 拒答率自然下降。初期 10~15% 拒答率是健康的。
怎么检测线上幻觉? 定期抽样人工审核 + 用户「答案有误」反馈 + LLM-as-Judge 自动检测(与源文档一致性)。