分类目录归档:Linux

用 DuckDB 替代 awk+pandas 做运维数据分析：本地 SQL 查询 10GB 日志只要 3 秒

运维日常绑着两种数据分析路径：

路径一：awk/grep/sort 组合拳 — 处理小文件够用，但一旦面对 GB 级 CSV 导出（比如 CloudWatch 费用报表、CDN 日志聚合、Prometheus 远端存储导出），管道写到崩溃，性能也拉胯。

路径二：Python pandas — 功能强大，但 10GB 的 CSV 直接 pd.read_csv() 内存炸了。要么加 chunksize 分片处理，代码量翻倍；要么上 Spark/Dask，环境搭建比分析本身还耗时。

真正的需求很简单：在本地用 SQL 快速查询大文件（CSV/Parquet/...

运维脚本跑得慢，不是逻辑复杂，而是大量时间花在等待网络 IO 上。for 循环逐台 SSH 巡检 200 台服务器要 10 分钟，用 asyncio 并发执行只要 30 秒。本文给出 3 个可直接落地的 asyncio 运维场景，附完整代码。

每天早上巡检是运维的日常。一个典型场景：

问题不在命令本身，而在 IO 等待。SSH 建连、等待响应的时间占了 ...

你一定遇到过这种场景：业务镜像推到生产环境后，安全团队扫出一堆 CVE，紧急回滚、重新构建、再上线，一来一回半天没了。

问题根源很清楚——安全扫描没有左移到 CI/CD 流水线中。大多数团队的镜像构建流程是 docker build → push → deploy，中间完全没有漏洞检测环节。等到运行时才扫描，成本和风险都是最高的。

Trivy 是 Aqua Security 开源的全能安全扫描器，当前最新版本 v0.69.x。它支持容器镜像、文件系统、Git 仓库、Kubernetes 集群等多种...

Redis 挂了，缓存雪崩、Session 丢失、排行榜空白——这不是假设，是每个用 Redis 的团队迟早会遇到的事。单节点 Redis 是单点故障的代名词。问题是：上高可用该选 Sentinel 还是 Cluster？本文从真实业务场景出发，给你一套可落地的选型方案。

传统 Kubernetes 监控靠 Sidecar 注入、应用埋点、日志采集三板斧。但 Sidecar 吃资源、埋点改代码、日志延迟高——能不能不改一行应用代码，直接从内核层拿到网络延迟、系统调用、DNS 解析全链路数据？eBPF 给出了答案。

Sidecar 资源开销大——Istio Envoy sidecar 每个 Pod 占 50-100MB 内存，千级 Pod 集群光 sidecar 就吃掉几十 GB
应用埋点侵入性强——接入 OpenTelemetry SDK 要改代码、重新构建镜像，老系统改不动
网络层问题难定位——Pod 之间延迟...