知识库

技术文档

聚焦数据中心自动化、Python 探针、DCIM 和 AI 内容流水线。

返回首页
SRE & Observability

2026年SRE事故管理工具Top 5:别再被PagerDuty割韭菜了

说实话,每年写这种"Top 5"榜单我都觉得挺扯的。但今年不一样。 刚结束的KubeCon Europe上,我亲眼看着一堆AI SRE初创公司在展台上画大饼,旁边老牌厂商的展位门可罗雀。Reddit上r/sre板块最近有个帖子讨论得热火朝天,说"AI …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

AI & ML Infrastructure

我用手搓了一个复古LLM:从零训练一个只读古书的GPT

前言:为什么要在2026年做一件“蠢事”? 说实话,当我看到 Cr;Lf; 那篇《Making a vintage LLM from scratch》在 Hacker News 上炸了(101分,29条评论),我第一反应是:这人是不是闲得慌? 2026年了,GPT-5 都烂大街 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

Infrastructure

Redfish API 配置实战指南 2026:从入门到生产级部署

别被官方文档忽悠了 说实话,Redfish 的 DMTF 官方文档我看过不下十遍。写得跟法律条文似的——严谨是严谨,但你真要在生产环境配起来,踩的坑能把你心态搞崩。 上周我们团队刚把一套 48 节点的集群从 IPMI 迁移到 Redfish,过程堪称大型翻车现场。这篇文章就是我拿 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

AI & ML Infrastructure

PyTorch 分布式训练多 GPU 配置教程 2026:别再踩那些 DDP 的坑了

这年头搞大模型训练,谁还没被分布式折磨过? 上周我们团队刚把一个 7B 参数的模型从单卡迁移到 8 卡 DDP,本以为照着官方文档走一遍就行——结果跑起来直接 OOM,排查了整整两天才发现是 batch_size 没按总 GPU 数缩放。这破事儿我估计不少人都干过。 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG