知识库

AI & ML Infrastructure

聚焦数据中心自动化、Python 探针、DCIM 和 AI 内容流水线。

Jun 21, 2026 AI & ML Infrastructure

MLflow vs Weights & Biases 2026深度对比：开源霸主与商业巨头的终极抉择

先说结论：这俩货根本不是一个赛道的东西说实话，我过去五年在三个不同的团队用过这两套系统，踩坑无数。2026年的今天，MLflow和Weights & Biases（W&B）的差距已经不是"哪个更好"的问题，而是"你他妈到底想要什 …

Tan Jia Hui

DCIM ENG

↗

Jun 19, 2026 AI & ML Infrastructure

说真的，这年头搞 LLM 部署，绕不开 vLLM。但我也见过太多人上来就 pip install vllm 然后直接 --model meta-llama/Llama-3.1-8B-Instruct 就指望能抗住生产流量——结果呢？监控炸了，P99 延迟飙到 10 秒，OOM 频 …

Tan Jia Hui

DCIM ENG

↗

Jun 16, 2026 AI & ML Infrastructure

写在前面：DSL已死，DSL万岁？上周Hacker News上有个帖子炸了，标题就是"How a new DSL may survive in the era of LLMs"。53分，19条评论，不算多，但讨论质量出奇的高。评论区里有个老哥的回复我印象特别 …

Tan Jia Hui

DCIM ENG

↗

Jun 16, 2026 AI & ML Infrastructure

前言：为什么要在2026年做一件“蠢事”？说实话，当我看到 Cr;Lf; 那篇《Making a vintage LLM from scratch》在 Hacker News 上炸了（101分，29条评论），我第一反应是：这人是不是闲得慌？ 2026年了，GPT-5 都烂大街 …

Tan Jia Hui

DCIM ENG

↗

Jun 15, 2026 AI & ML Infrastructure

这年头搞大模型训练，谁还没被分布式折磨过？上周我们团队刚把一个 7B 参数的模型从单卡迁移到 8 卡 DDP，本以为照着官方文档走一遍就行——结果跑起来直接 OOM，排查了整整两天才发现是 batch_size 没按总 GPU 数缩放。这破事儿我估计不少人都干过。 …

Tan Jia Hui

DCIM ENG

↗

Jun 11, 2026 AI & ML Infrastructure

症状：nvidia-smi 翻车现场上周三凌晨 2 点，我们训练集群的 PagerDuty 炸了——所有 GPU 节点报错： Failed to initialize NVML: Driver/library version mismatch nvidia-smi 直接罢工， …

Tan Jia Hui

DCIM ENG

↗