一句话总结:AI Agent 评测需覆盖三个维度——任务是否完成、工具是否调对、用户是否满意。没有量化评测的 Agent 项目无法从 Demo 走向生产。
三维评测体系
1. 任务成功率(Task Success Rate)
Agent 是否在合理步数内完成了用户意图?
任务成功率 = 成功完成任务数 / 总测试用例数
- 目标:≥ 85%(生产可用线)
- 测试集:50~200 条真实业务 query(脱敏)
- 评判:人工标注 + LLM-as-Judge 辅助
2. 工具调用准确率(Tool Accuracy)
Agent 是否调对了 API、参数是否正确?
| 指标 | 定义 | 目标 |
|---|---|---|
| 工具选择准确率 | 调用了正确的工具 | ≥ 95% |
| 参数正确率 | 参数值符合业务规则 | ≥ 90% |
| 无效调用率 | 不必要的工具调用 | ≤ 5% |
3. 用户满意度
| 指标 | 采集方式 | 健康值 |
|---|---|---|
| 点赞率 | 对话结束 thumbs up/down | ≥ 70% |
| 转人工率 | 用户主动要求人工 | ≤ 15% |
| 重复提问率 | 同一问题问 2 次以上 | ≤ 10% |
评测流程
1. 构建 Golden Dataset(50~200 条标注用例)
2. 自动化回归测试(每次 Prompt/工具变更后跑一遍)
3. A/B 对比(新旧版本并排评测)
4. 线上 Shadow 模式(AI 输出但不直接给用户,人工评判)
5. 渐进放量(10% → 50% → 100% 用户)
常用评测工具
- LangSmith:LangChain 生态,Trace + 评测一体
- Ragas:RAG 专用评测(Faithfulness、Relevance)
- 自研评测平台:对接业务系统,模拟真实调用
常见问题
多少条测试用例够用? 最少 50 条覆盖主流程,200 条可发现边缘 case。每季度补充新发现的 bad case。
LLM-as-Judge 可靠吗? 与人工标注一致性约 80~85%,适合大规模初筛,关键 case 仍需人工复核。
评测成本多高? 200 条用例 × 每次 3 轮工具调用 ≈ $5~20(API 费用),远低于线上故障损失。