线上数据库突然变慢,DBA 在几百 GB 日志里翻了两小时才找到根因。这篇文章用 ELK 堆栈把"人肉翻日志"变成"3 秒定位"。
痛点:日志里有答案,但你找不到
一个真实场景:某电商平台大促前夜,MySQL 响应时间从 50ms 飙到 3s。运维看监控只知道"数据库慢了",但具体是哪条 SQL、哪个表、什么时间开始的?答案藏在 slow query log 里——一个 80GB 的纯文本文件。
用 grep 翻? 太慢。用 pt-query-digest 汇总?只有统计没有时间线。真正需要的是:实时采集、结构化解析、秒级检索、可视化趋势。
这就是 ELK(Elasticsearc...