饮墨

子安饮墨馀三斗,留与卿儿作赋来

分类目录归档:Linux

用 DuckDB 替代 awk+pandas 做运维数据分析:本地 SQL 查询 10GB 日志只要 3 秒

痛点:运维数据分析工具链太重或太弱

运维日常绑着两种数据分析路径:

路径一:awk/grep/sort 组合拳 — 处理小文件够用,但一旦面对 GB 级 CSV 导出(比如 CloudWatch 费用报表、CDN 日志聚合、Prometheus 远端存储导出),管道写到崩溃,性能也拉胯。

路径二:Python pandas — 功能强大,但 10GB 的 CSV 直接 pd.read_csv() 内存炸了。要么加 chunksize 分片处理,代码量翻倍;要么上 Spark/Dask,环境搭建比分析本身还耗时。

真正的需求很简单:在本地用 SQL 快速查询大文件(CSV/Parquet/...

Read more

用 Python asyncio 加速运维自动化:批量巡检 200 台服务器从 10 分钟压到 30 秒

运维脚本跑得慢,不是逻辑复杂,而是大量时间花在等待网络 IO 上。for 循环逐台 SSH 巡检 200 台服务器要 10 分钟,用 asyncio 并发执行只要 30 秒。本文给出 3 个可直接落地的 asyncio 运维场景,附完整代码。

痛点:串行脚本吃掉运维时间

每天早上巡检是运维的日常。一个典型场景:

  • 200 台服务器,逐台 SSH 执行 df -h + free -h + uptime
  • 每台连接 + 执行约 3 秒(网络延迟 + 命令执行)
  • 串行跑完:200 × 3 = 600 秒 ≈ 10 分钟

问题不在命令本身,而在 IO 等待。SSH 建连、等待响应的时间占了 ...

Read more

4 步用 Trivy 构建容器镜像安全扫描流水线,CI/CD 中拦截 90% 已知漏洞

发表评论 142 views

痛点:镜像上线了才发现有高危漏洞

你一定遇到过这种场景:业务镜像推到生产环境后,安全团队扫出一堆 CVE,紧急回滚、重新构建、再上线,一来一回半天没了。

问题根源很清楚——安全扫描没有左移到 CI/CD 流水线中。大多数团队的镜像构建流程是 docker build → push → deploy,中间完全没有漏洞检测环节。等到运行时才扫描,成本和风险都是最高的。

方案:Trivy + CI/CD = 自动化镜像安全门禁

Trivy 是 Aqua Security 开源的全能安全扫描器,当前最新版本 v0.69.x。它支持容器镜像、文件系统、Git 仓库、Kubernetes 集群等多种...

Read more

Redis 高可用选型实战:Sentinel vs Cluster,3 个场景帮你做决定

发表评论 105 views

Redis 挂了,缓存雪崩、Session 丢失、排行榜空白——这不是假设,是每个用 Redis 的团队迟早会遇到的事。单节点 Redis 是单点故障的代名词。问题是:上高可用该选 Sentinel 还是 Cluster?本文从真实业务场景出发,给你一套可落地的选型方案。


痛点:单节点 Redis 的三大致命风险

  1. 进程崩溃 = 服务不可用:Redis 是单线程模型,一旦 OOM 被 kill 或者主机宕机,所有依赖 Redis 的服务瞬间瘫痪。
  2. 数据丢失:即使开了 RDB/AOF 持久化,故障恢复期间仍有数据窗口丢失,且恢复耗时不可控。
  3. 容量天花板:单节点内存上限受物理机限制,当...

Read more

eBPF 正在重塑 Kubernetes 可观测性:从内核追踪到零侵入监控实战

发表评论 111 views

传统 Kubernetes 监控靠 Sidecar 注入、应用埋点、日志采集三板斧。但 Sidecar 吃资源、埋点改代码、日志延迟高——能不能不改一行应用代码,直接从内核层拿到网络延迟、系统调用、DNS 解析全链路数据?eBPF 给出了答案。


痛点:K8s 可观测性的三个老大难

  1. Sidecar 资源开销大——Istio Envoy sidecar 每个 Pod 占 50-100MB 内存,千级 Pod 集群光 sidecar 就吃掉几十 GB
  2. 应用埋点侵入性强——接入 OpenTelemetry SDK 要改代码、重新构建镜像,老系统改不动
  3. 网络层问题难定位——Pod 之间延迟...

Read more