一句话总结:RAG 效果的「第一公里」是文档解析——PDF 乱码、表格拆散、扫描件 OCR 错误,都会在检索阶段放大。选对解析流水线,比调 Prompt 更重要。
常见格式挑战
| 格式 | 难点 | 解决思路 |
|---|---|---|
| 双栏 PDF | 阅读顺序错乱 | 版面分析(Layout Parser) |
| 嵌套表格 | 行列关系丢失 | 表格专用解析 + Markdown 还原 |
| 扫描件 | OCR 错字 | 高质量 OCR + 人工抽检 |
| PPT | 页内逻辑分散 | 按页分块 + 保留标题 |
解析流水线
原始文件 → 格式识别 → 专用解析器
↓
结构化文本(Markdown/JSON)
↓
语义分块(按标题/段落/表格)
↓
向量化入库
选型建议
- 数字版 PDF:优先 Unstructured、MinerU、自建 Layout 模型
- 扫描件占比高:PaddleOCR、Azure Document Intelligence
- Excel 制度表:按 Sheet + 行语义分块,保留表头
质量验收
抽样 50 篇文档,人工对比「解析结果 vs 原文可读性」。解析准确率低于 90% 时,应先治理文档或升级解析,而非急于调检索参数。