如何评测 AI Agent 效果？指标体系与工具

一句话总结：AI Agent 评测需覆盖三个维度——任务是否完成、工具是否调对、用户是否满意。没有量化评测的 Agent 项目无法从 Demo 走向生产。

三维评测体系

Agent 是否在合理步数内完成了用户意图？

任务成功率 = 成功完成任务数 / 总测试用例数

Agent 是否调对了 API、参数是否正确？

1. 构建 Golden Dataset（50~200 条标注用例）
2. 自动化回归测试（每次 Prompt/工具变更后跑一遍）
3. A/B 对比（新旧版本并排评测）
4. 线上 Shadow 模式（AI 输出但不直接给用户，人工评判）
5. 渐进放量（10% → 50% → 100% 用户）

多少条测试用例够用？ 最少 50 条覆盖主流程，200 条可发现边缘 case。每季度补充新发现的 bad case。

LLM-as-Judge 可靠吗？ 与人工标注一致性约 80~85%，适合大规模初筛，关键 case 仍需人工复核。

评测成本多高？ 200 条用例 × 每次 3 轮工具调用 ≈ $5~20（API 费用），远低于线上故障损失。