知识库

技术文档

聚焦数据中心自动化、Python 探针、DCIM 和 AI 内容流水线。

返回首页
Infrastructure

Cisco IOS-XE 报错修复实战:从踩坑到根治的完整记录

上周五凌晨两点,我们的监控突然炸了。核心汇聚交换机开始疯狂报错,端口一个接一个进入 err-disabled 状态。整个园区网直接瘫痪了半小时。 说实话,这种 IOS-XE 的诡异报错我这些年没少碰。但每次碰到新花样,还是得老老实实翻文档、抓包、一步步排查。今天就把我这些年踩过的 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

Cloud & DevOps

Terraform 迁移到 Pulumi 实战指南:我为什么放弃 HCL 拥抱 Python

先说结论:谁在逼你迁移? 去年我们团队接手了一个烂摊子——300 多个 Terraform 模块,HCL 写得像天书,变量依赖能绕晕人。每次加个新环境,都要改一堆 .tfvars,而且 Terraform 的 count 和 for_each 逻辑,说实话,写多了真头疼。 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

SRE & Observability

Prometheus告警规则别乱写:我踩过的坑和最佳实践总结

兄弟们,今天聊聊Prometheus告警规则。 这东西看着简单,不就是写个PromQL吗?但真到了生产环境,你会发现——告警规则写得烂,比没写还可怕。凌晨三点被无关告警叫醒的感觉,懂的都懂。 我接手过一个系统,光是CPUUsageHigh的告警规则就有7条,互相覆盖、阈值混乱。最 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

Infrastructure

FortiGate 100F vs Palo Alto PA-440:真实吞吐量暴跌对比与年度订阅费大揭秘

兄弟们,今天聊个硬核话题:FortiGate 100F 和 Palo Alto PA-440。 这两款都是中端市场的主力选手,但很多人只看纸面参数就下单,结果一上线就翻车。为啥?因为开启全量安全防护后,吞吐量暴跌是常态,厂商标称的“防火墙吞吐量”基本就是忽悠。 我踩过这个坑。去年 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG