痛点
你的服务跑在 Kubernetes 上,HPA 配了 CPU 80% 自动扩容——看起来没问题,直到某天流量洪峰来了,CPU 还在 40%,但接口响应已经飙到 5 秒。原因很简单:CPU 利用率并不总是能准确反映业务负载。对于 IO 密集型、依赖外部服务的应用,基于 CPU/Memory 的默认 HPA 策略就是个摆设。
真实场景: 某电商促销活动,网关服务每秒请求量从 500 QPS 飙到 8000 QPS。Pod 的 CPU 只到 50%(因为大量时间在等后端响应),HPA 纹丝不动,用户看到的是一堆超时。运维被迫手动 kubectl scale,错过了黄金 30 秒。
解决方...