饮墨

子安饮墨馀三斗,留与卿儿作赋来

分类目录归档:aws

4 个 Kubernetes Pod 调度失败的常见原因与排错实战

发表评论 109 views

你的 Pod 一直卡在 Pending?kubectl describe 里满屏 FailedScheduling 事件?别慌——80% 的调度问题集中在这 4 个原因上。本文带你从现象到排查一条龙搞定。

痛点:Pod Pending 半小时,业务干等

某次线上扩容,Deployment 副本数从 3 扩到 10,结果 7 个新 Pod 全部 Pending。kubectl get pods 看到一片黄色,运维群开始 @ 你了。

真实场景:团队在 AWS EKS 上跑 Java 微服务,Node 规格 m5.xlarge(4C/16G),每个 Pod request 2C/4G。扩容前 ...

Read more

用 Python 从零构建 AI Agent:Tool Use 模式实战详解

发表评论 102 views

大模型不只是聊天机器人。通过 Tool Use(工具调用)模式,Python 几十行代码就能让 LLM 变成一个能查天气、读数据库、调 API 的真正 Agent。本文从原理到完整代码,带你搞懂这个 2026 年最重要的 AI 编程范式。


为什么 Tool Use 是 AI Agent 的核心

你可能已经用过 ChatGPT 的联网搜索、代码执行、文件分析——这些功能背后都是同一个模式:Tool Use(也叫 Function Calling)。

原理很简单:

  1. 你告诉 LLM:「这里有一些工具,每个工具的名字、参数、用途如下」
  2. LLM 分析用户请求,决定是否需要调用工具
  3. 如果需要...

Read more

3 层加固 SSH 安全:从暴力破解到零信任,运维人必做的 6 件事

痛点:你的 SSH 端口正在被扫描

打开任何一台云服务器的 /var/log/auth.log,你大概率会看到这样的记录:

Apr 18 03:14:22 web01 sshd[12847]: Failed password for root from 185.234.xx.xx port 44832 ssh2
Apr 18 03:14:25 web01 sshd[12849]: Failed password for admin from 185.234.xx.xx port 44836 ssh2
Apr 18 03:14:28 web01 sshd[12851]: Invalid u...

Read more

PostgreSQL 慢查询诊断与优化实战:从 EXPLAIN 到索引策略

数据库慢了,加索引就行?没那么简单。本文从 EXPLAIN 读图、索引设计、常见反模式三个层面,系统讲解 PostgreSQL 查询优化的核心方法论。


为什么要学慢查询优化?

几乎所有后端服务的性能瓶颈,最终都指向数据库。在 PostgreSQL 生态里,"加个索引"是最常见的处方——但就像吃药一样,不对症的索引不仅治不好病,还可能拖慢写入、浪费存储。

真正的优化,从读懂执行计划开始。


第一步:用 EXPLAIN ANALYZE 读懂查询计划

基本用法

EXPLAIN (ANALYZE, BUFFERS, FORMAT TEXT)
SELECT u.name, o.total
F...

Read more

Amazon Bedrock AgentCore vs OpenClaw:两种 AI Agent 基础设施的设计哲学

发表评论 119 views

同样是让 AI Agent 跑起来,AWS 选择了云端托管,OpenClaw 选择了自托管网关。这篇文章拆解两者的核心差异,帮你做出适合自己场景的选择。

前言

2025 年底,AWS 在 re:Invent 上正式发布了 Amazon Bedrock AgentCore——一套企业级 AI Agent 部署与运维平台。与此同时,开源社区中的 OpenClaw 也在快速迭代,走出了一条完全不同的路线。

两者都在解决同一个核心问题:如何让 AI Agent 在生产环境中可靠运行? 但它们的设计哲学、目标用户和技术路径截然不同。

一、定位对比:云托管 vs 自托管

Amazon Bedro...

Read more

5 招降低 Prometheus 告警噪音,让 Alertmanager 只发有用的通知

发表评论 127 views

告警风暴一来,真正的故障反而被淹没。运维不是不需要告警,而是需要"有效告警"。


痛点:告警太多 = 没有告警

场景很熟悉:Prometheus + Alertmanager 部署完毕,规则写了几十条,结果每天收到上百条通知——CPU 短暂飙高、磁盘波动、网络抖动……真正的故障告警混在噪音里,值班同学看到通知直接划掉,形成"狼来了"效应。

某团队统计过:80% 的告警在 5 分钟内自动恢复,真正需要人工介入的不到 10%。问题不在 Prometheus 不好用,而在告警规则和 Alertmanager 路由没调好。

方案:5 步降噪,只保留有价值的告警

核心思路:抬高触发门槛 + 智...

Read more