泽衍科技 ZEYAN TECH 泽衍科技
← 返回技术洞察

如何评测 AI Agent 效果?指标体系与工具

AI Agent 没有评测就无法优化。泽衍科技建立的任务成功率、工具调用准确率、用户满意度三维评测体系与落地方法。

Agent评测最佳实践

一句话总结:AI Agent 评测需覆盖三个维度——任务是否完成工具是否调对用户是否满意。没有量化评测的 Agent 项目无法从 Demo 走向生产。

三维评测体系

1. 任务成功率(Task Success Rate)

Agent 是否在合理步数内完成了用户意图?

任务成功率 = 成功完成任务数 / 总测试用例数
  • 目标:≥ 85%(生产可用线)
  • 测试集:50~200 条真实业务 query(脱敏)
  • 评判:人工标注 + LLM-as-Judge 辅助

2. 工具调用准确率(Tool Accuracy)

Agent 是否调对了 API、参数是否正确?

指标定义目标
工具选择准确率调用了正确的工具≥ 95%
参数正确率参数值符合业务规则≥ 90%
无效调用率不必要的工具调用≤ 5%

3. 用户满意度

指标采集方式健康值
点赞率对话结束 thumbs up/down≥ 70%
转人工率用户主动要求人工≤ 15%
重复提问率同一问题问 2 次以上≤ 10%

评测流程

1. 构建 Golden Dataset(50~200 条标注用例)
2. 自动化回归测试(每次 Prompt/工具变更后跑一遍)
3. A/B 对比(新旧版本并排评测)
4. 线上 Shadow 模式(AI 输出但不直接给用户,人工评判)
5. 渐进放量(10% → 50% → 100% 用户)

常用评测工具

  • LangSmith:LangChain 生态,Trace + 评测一体
  • Ragas:RAG 专用评测(Faithfulness、Relevance)
  • 自研评测平台:对接业务系统,模拟真实调用

常见问题

多少条测试用例够用? 最少 50 条覆盖主流程,200 条可发现边缘 case。每季度补充新发现的 bad case。

LLM-as-Judge 可靠吗? 与人工标注一致性约 80~85%,适合大规模初筛,关键 case 仍需人工复核。

评测成本多高? 200 条用例 × 每次 3 轮工具调用 ≈ $5~20(API 费用),远低于线上故障损失。

准备好让 AI 为你的业务创造价值了吗?

预约 30 分钟免费咨询,我们将根据你的场景给出可落地的 AI 应用方案。