一句话总结:Reranker 在向量召回后对候选片段精排,通常可将 RAG 有效命中率提升 15%–30%。企业场景建议「向量召回 Top-20 → Reranker 取 Top-5 → LLM 生成」三段式链路。
为什么需要 Reranker?
向量检索速度快,但语义相似不等于「最能回答这个问题」。例如用户问「年假申请流程」,向量可能召回「病假制度」——主题相近但答案错误。
Reranker(重排序模型)对「问题 + 候选片段」做精细相关性打分,过滤噪声片段,显著降低答非所问。
常见 Reranker 类型
| 类型 | 代表模型 | 特点 |
|---|---|---|
| Cross-Encoder | bge-reranker、Cohere Rerank | 精度高,适合 Top-20 以内精排 |
| ColBERT | 晚期交互 | 速度与精度折中 |
| LLM Rerank | GPT/DeepSeek 打分 | 灵活但成本高,适合小批量 |
推荐链路
用户问题
→ Hybrid Search 召回 Top-20~50
→ Reranker 精排取 Top-3~5
→ LLM 基于片段生成 + 引用
落地建议
- 先调召回再调 Reranker:召回为空时 Reranker 无济于事
- 控制延迟:Reranker 增加 100–300ms,高并发需批处理或 GPU 加速
- 建立评测集:用 50–100 条真实问题对比「有/无 Reranker」的 Hit@K
泽衍科技实践
在多个企业知识库项目中,引入 bge-reranker-v2-m3 后,Top-3 命中率平均提升 22%,用户「答案不对」反馈下降约 35%。