知识库

技术文档

聚焦数据中心自动化、Python 探针、DCIM 和 AI 内容流水线。

返回首页
Infrastructure

Redfish API 配置实战指南 2026:从入门到生产级部署

别被官方文档忽悠了 说实话,Redfish 的 DMTF 官方文档我看过不下十遍。写得跟法律条文似的——严谨是严谨,但你真要在生产环境配起来,踩的坑能把你心态搞崩。 上周我们团队刚把一套 48 节点的集群从 IPMI 迁移到 Redfish,过程堪称大型翻车现场。这篇文章就是我拿 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

AI & ML Infrastructure

PyTorch 分布式训练多 GPU 配置教程 2026:别再踩那些 DDP 的坑了

这年头搞大模型训练,谁还没被分布式折磨过? 上周我们团队刚把一个 7B 参数的模型从单卡迁移到 8 卡 DDP,本以为照着官方文档走一遍就行——结果跑起来直接 OOM,排查了整整两天才发现是 batch_size 没按总 GPU 数缩放。这破事儿我估计不少人都干过。 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

Infrastructure

Linux 按键映射守护进程 keyd 深度实战:告别 xmodmap,拥抱现代内核级方案

前言:为什么我们还在折腾按键映射? 老实说,Linux 的按键映射一直是个老大难。我见过太多人在 xmodmap 和 setxkbmap 的泥潭里挣扎,换到 Wayland 后这些老古董直接报废。更别提那些需要“长按变修饰键,短按是普通键”的高级玩法——传统方案基本没戏。 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

Networking

2026年五大网络监控工具实测:别被厂商忽悠了,踩坑经验全公开

兄弟们,今天不整虚的。 最近社群和Reddit上吵翻了天,关于2026年到底该用啥监控工具。我翻了几百条帖子,结合自己踩过的坑,把目前最热(也最容易被忽悠)的5个工具扒了个底朝天。 先泼盆冷水:没有银弹。SolarWinds吹得天花乱坠,但去年我们生产环境出事那会儿,它的告警延迟 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG