一句话总结:生产 AI 系统需要比传统应用更强的可观测性:每一次 LLM 调用、每一次检索、每一次工具执行都应可追溯,否则 bad case 无法复现、成本无法管控。
四层监控体系
| 层级 | 监控内容 | 工具示例 |
|---|---|---|
| 基础设施 | GPU 利用率、延迟、QPS | Prometheus、Grafana |
| 应用链路 | 检索→Rerank→LLM 耗时 | LangSmith、Langfuse、自研 |
| 业务效果 | 命中率、转人工率、满意度 | 评测平台、反馈按钮 |
| 成本 | Token 消耗、API 费用 | 按租户/场景分摊 |
必采日志字段
trace_id、user_id、session_id- 用户问题、检索片段 ID、引用文档
- 模型、token 数、latency
- 工具调用名、参数、返回状态
告警规则示例
- P99 延迟 > 5s 持续 5 分钟
- 单日 token 成本超预算 120%
- 转人工率较 7 日均值上升 50%
泽衍科技实践
Agent 项目默认交付运维看板,支持按场景 drill-down 到单次对话,平均故障定位时间从小时级降到 15 分钟内。