饮墨 | 子安饮墨馀三斗，留与卿儿作赋来

Zarf：离线/气隙环境下 Kubernetes 部署的终极方案

发表评论 105 views

痛点：气隙环境部署 K8s 应用有多痛？

在金融、军工、政务、医疗等行业，生产环境往往处于完全断网的"气隙"（Air-Gapped）状态——没有外网访问，无法 docker pull，Helm chart 拉不下来，甚至 apt update 都跑不通。

传统做法是手动搬运镜像 tar 包、导出 Chart、逐一 docker load，再用 U 盘或内网传输。流程繁琐且极易出错：

镜像依赖层层嵌套，漏一个就部署失败
Helm values 中硬编码的镜像地址需要逐个改写
多版本升级时，没有可靠的差量更新机制
缺乏签名验证，供应链安全无从保障

Zarf 正是为解决这类问题而生的开源工...

Chainguard Images + Wolfi OS：构建零 CVE 容器镜像实战

发表评论 123 views

痛点：你的容器镜像到底有多少漏洞？

用 Trivy 扫一下你生产环境的基础镜像，结果往往触目惊心：

$ trivy image python:3.12-slim
Total: 287 (UNKNOWN: 0, LOW: 112, MEDIUM: 98, HIGH: 62, CRITICAL: 15)

即使是 -slim 变体，Debian/Ubuntu 基础镜像也天然携带大量系统级包，其中不乏已知 CVE。这些漏洞绝大多数与你的应用毫无关系，但安全审计不管——扫出来就要修，修不动就要写豁免申请。

核心矛盾：传统发行版为通用性设计，塞了太多你用不到的东西；而 scratch/distr...

Dify 自托管部署生产实践：从 Docker Compose 到高可用架构

发表评论 79 views

痛点

团队要快速构建 AI 应用（RAG 知识库、Agent 工作流、对话机器人），选型时面临几个现实问题：

LangChain/LangGraph 门槛高 — 纯代码方案需要后端开发持续投入，产品经理无法参与调试
SaaS 方案数据不可控 — 企业敏感数据不能上传到第三方平台
内部重复造轮子 — 每个项目都写一套 prompt 管理、向量检索、模型路由逻辑

Dify 是开源的 LLM 应用开发平台（GitHub 90k+ stars），提供可视化 Workflow 编排、RAG Pipeline、Agent 框架、模型管理和 Prompt IDE，支持完全自托管。本文聚焦运维视角，...

Argo Rollouts 实战：3 步实现 Kubernetes 金丝雀与蓝绿发布

发表评论 85 views

痛点

Kubernetes 原生 Deployment 只支持 RollingUpdate 和 Recreate 两种策略。对于线上核心业务，RollingUpdate 的问题很明显：

无法控制流量比例 — 新版本 Pod 一起来就接收等比流量，没有渐进式验证的过程
回滚不够快 — 发现问题后 kubectl rollout undo 需要等待新 Pod 重新滚动，P0 故障时每秒都在烧钱
缺乏自动化判定 — 无法基于 Prometheus 指标自动判断新版本是否健康，全靠人眼盯监控

生产环境需要的是：先放 5% 流量到新版本，观察 5 分钟，指标正常再逐步加到 50%、100%；异...

Kubernetes ValidatingAdmissionPolicy：用 CEL 原生策略引擎替代 OPA Gatekeeper

发表评论 134 views

痛点

在 Kubernetes 集群中实施安全策略（禁止特权容器、强制资源限制、镜像来源白名单等），长期以来的标准方案是 OPA Gatekeeper 或 Kyverno。它们功能强大，但也带来了额外的运维负担：

额外组件部署：Gatekeeper 本身是一个 Webhook + Controller，需要独立维护、升级、监控
Rego 学习曲线：OPA 的策略语言 Rego 对大多数运维工程师来说并不直观，排查策略问题时效率低
Webhook 故障影响面大：Admission Webhook 挂掉可能阻塞整个集群的资源创建（failurePolicy=Fail 时）
资源开销：Gat...

Rook-Ceph：Kubernetes 原生分布式存储落地实战

发表评论 91 views

痛点

Kubernetes 集群跑有状态服务（数据库、消息队列、对象存储）时，存储始终是最大的痛点：

云厂商 EBS/EFS 成本高：大规模集群每月存储账单轻松破万美元，且 IOPS 按量计费让预算不可控
hostPath/local PV 无高可用：节点宕机数据丢失，运维半夜被 PagerDuty 叫醒
外置 Ceph 集群运维复杂：独立于 K8s 的 Ceph 集群需要单独的运维团队，升级和扩容都是噩梦

Rook 把 Ceph 变成 Kubernetes 的一等公民——用 Operator 模式管理分布式存储，让存储和计算在同一个控制平面内声明式管理。

方案

Rook 是 CNC...

LiteLLM Proxy — 统一 LLM API 网关的生产部署实践

发表评论 74 views

痛点

当团队同时使用 OpenAI、Claude、Gemini、Azure OpenAI 等多家 LLM 服务时，运维面临几个棘手问题：

多密钥管理混乱 — 每个服务独立 API Key，散落在各业务代码的 .env 里，轮转和审计成本高
成本黑洞 — 无法统一追踪各模型的 Token 消耗和费用，月底账单靠猜
无降级容灾 — 某家供应商出故障时，业务直接挂掉，没有自动 Fallback 机制
限流和配额管控缺失 — 开发者随意调用，容易触发供应商 Rate Limit 或产生意外大额账单

LiteLLM Proxy 正是解决这些问题的开源方案 —— 一个统一的 LLM API 网关...

Velero 实战：3 步搞定 Kubernetes 集群备份与灾难恢复

发表评论 110 views

痛点

生产环境的 Kubernetes 集群一旦出事——误删 Namespace、etcd 损坏、跨区域迁移——没有备份等于裸奔。传统的 etcd snapshot 只覆盖集群状态，不管 PV 数据；手动写 CronJob 导出 YAML 又维护成本高、恢复时还原顺序容易出错。

Velero（前身 Heptio Ark）是 VMware 开源的 Kubernetes 备份/恢复/迁移工具，支持： - 集群资源（Deployment、ConfigMap、CRD 等）的声明式备份 - PersistentVolume 数据快照（通过 CSI 或云厂商插件） - 定时调度、TTL 自动过期、跨...

Podman Quadlet：用 systemd 原生方式管理容器，彻底告别 docker-compose

发表评论 95 views

痛点

在非 Kubernetes 的服务器环境中（边缘节点、单体应用服务器、CI Runner），我们通常用 docker-compose 编排容器。但它带来几个尴尬问题：

compose 是个额外守护进程层 — 服务启停依赖 docker compose up -d，与系统的 init 体系割裂，重启后需要额外 enable
日志管理分裂 — 容器日志走 docker driver，系统日志走 journald，排查故障两头看
依赖管理弱 — compose 的 depends_on 只做启动顺序，不做健康依赖，复杂场景照样翻车
Rootless 场景受限 — docker-comp...

Falco 实战：Kubernetes 运行时安全威胁检测与响应

发表评论 113 views

痛点

容器安全扫描（如 Trivy）解决了镜像构建阶段的漏洞发现，但运行时阶段的异常行为——容器内反弹 Shell、敏感文件读取、异常网络外连——传统工具几乎无能为力。Kubernetes 集群一旦被攻破，从横向移动到数据外泄，整个链路可能在几分钟内完成，而你的告警系统可能毫无感知。

Falco 是 CNCF 毕业项目，基于 eBPF/kernel module 在内核层实时捕获系统调用，用规则引擎检测运行时威胁，填补了从「镜像安全」到「运行时安全」的最后一块拼图。

方案

Falco 的核心架构：

┌────────────────────────────────────────────...