告警风暴一来,真正的故障反而被淹没。运维不是不需要告警,而是需要"有效告警"。
痛点:告警太多 = 没有告警
场景很熟悉:Prometheus + Alertmanager 部署完毕,规则写了几十条,结果每天收到上百条通知——CPU 短暂飙高、磁盘波动、网络抖动……真正的故障告警混在噪音里,值班同学看到通知直接划掉,形成"狼来了"效应。
某团队统计过:80% 的告警在 5 分钟内自动恢复,真正需要人工介入的不到 10%。问题不在 Prometheus 不好用,而在告警规则和 Alertmanager 路由没调好。
方案:5 步降噪,只保留有价值的告警
核心思路:抬高触发门槛 + 智...