一句话总结:Agent 记忆分三层——窗口内对话(短期)、会话摘要(中期)、用户偏好/历史任务(长期)。盲目塞满上下文会超 token、增成本、降质量。
三层记忆模型
| 层级 | 存储 | 用途 |
|---|---|---|
| 短期 | 当前对话 messages | 最近几轮指代、澄清 |
| 中期 | 会话摘要向量库 | 跨多轮任务连贯 |
| 长期 | 用户画像 / 任务历史 | 个性化、重复任务加速 |
上下文窗口管理
- 滑动窗口:保留最近 N 轮,旧消息丢弃
- 摘要压缩:每 10 轮生成摘要替换原始消息
- 检索增强:从历史中检索相关片段注入,而非全量带入
企业注意点
- 记忆与权限:长期记忆不能跨用户泄露
- 合规留存:金融/医疗场景需定义记忆保留周期
- 可清除:用户要求删除历史时,需级联清理向量与日志
实践建议
客服 Agent 通常「短期 + 工单关联」即可;销售 Copilot 可增加「客户互动摘要」作为中期记忆。避免过早做复杂长期记忆,先保证单会话质量。