知识库

技术文档

聚焦数据中心自动化、Python 探针、DCIM 和 AI 内容流水线。

返回首页
Infrastructure

Redfish API 报错 400/500?手撕 iLO 和 iDRAC 的诡异错误码修复实录

先说说这破事儿是怎么来的 上个月我们搞了个自动化运维脚本,用 Redfish API 批量给新到的 HPE Gen11 服务器做初始配置。结果翻车了。 两台 Gen11,一台 iLO 6 v1.53,一台 iLO 6 v1.66,配置一模一样。脚本跑过去,老的稳如老狗, …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

AI & ML Infrastructure

LLM时代,新DSL的生存法则:别跟AI抢饭碗,给它造工具

写在前面:DSL已死,DSL万岁? 上周Hacker News上有个帖子炸了,标题就是"How a new DSL may survive in the era of LLMs"。53分,19条评论,不算多,但讨论质量出奇的高。评论区里有个老哥的回复我印象特别 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

Cloud & DevOps

EKS vs AKS 2026 生产对决:我踩过的坑与真实成本对比

别被云厂商的营销话术骗了 今年我们团队做了个痛苦的决定——把主力生产集群从 AWS EKS 迁移到 Azure AKS。不是因为我们喜欢折腾,而是因为账单和运维体验逼的。 先说结论:EKS 和 AKS 在 2026 年都已经非常成熟,但它们的代价结构、网络模型和身份管理差异巨大。 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

SRE & Observability

2026 年 OpenTelemetry Collector 实战:从裸机搭建到生产级 Pipeline

前言:你不需要再被厂商绑架了 2026 年了,还有人在为哪个 APM 厂商的 Agent 兼容性头疼吗? 说实话,过去两年我踩坑踩得够够的。每次换后端,就得重新部署一套采集器,改配置,重启服务。直到我彻底拥抱了 OpenTelemetry Collector——这玩意儿真香。它就 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

Data Center

HPE DL380 Gen11 vs 联想SR650:2026年数据中心维护与机柜冷却实战指南

别被纸面参数骗了,看看真实的上架维护体验 刚过去这个月,我们团队刚把一批新机器上架。两台 HPE ProLiant DL380 Gen11,三台 Lenovo ThinkSystem SR650 V3,全塞进同一排机柜里。 结果呢?我差点因为一把螺丝刀跟同事吵起来。 不是开玩笑。 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG