痛点:AI Agent 上线后成了黑盒
你的 AI Agent 终于部署到生产环境了。用户开始使用,账单开始跑——然后问题来了:
- 某个用户的请求为什么花了 45 秒才返回?是 LLM 慢还是 Tool Call 卡住了?
- 这个月 Token 消耗比上月翻了 3 倍,到底哪个 Agent 在烧钱?
- Agent 的多步推理链路中,哪一步的回答质量最差、用户反馈最多?
传统 APM(Datadog、Prometheus)能监控 HTTP 延迟和错误率,但对 LLM 应用的语义级可观测性完全无能为力。你需要的是能追踪每一次 LLM 调用的 prompt、completion、token 数、...