知识库

AI & ML Infrastructure

聚焦数据中心自动化、Python 探针、DCIM 和 AI 内容流水线。

返回首页
AI & ML Infrastructure

MLflow vs Weights & Biases 2026深度对比:开源霸主与商业巨头的终极抉择

先说结论:这俩货根本不是一个赛道的东西 说实话,我过去五年在三个不同的团队用过这两套系统,踩坑无数。2026年的今天,MLflow和Weights & Biases(W&B)的差距已经不是"哪个更好"的问题,而是"你他妈到底想要什 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

AI & ML Infrastructure

vLLM 生产部署配置指南:从翻车到稳如老狗的实战经验

说真的,这年头搞 LLM 部署,绕不开 vLLM。但我也见过太多人上来就 pip install vllm 然后直接 --model meta-llama/Llama-3.1-8B-Instruct 就指望能抗住生产流量——结果呢?监控炸了,P99 延迟飙到 10 秒,OOM 频 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

AI & ML Infrastructure

LLM时代,新DSL的生存法则:别跟AI抢饭碗,给它造工具

写在前面:DSL已死,DSL万岁? 上周Hacker News上有个帖子炸了,标题就是"How a new DSL may survive in the era of LLMs"。53分,19条评论,不算多,但讨论质量出奇的高。评论区里有个老哥的回复我印象特别 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

AI & ML Infrastructure

我用手搓了一个复古LLM:从零训练一个只读古书的GPT

前言:为什么要在2026年做一件“蠢事”? 说实话,当我看到 Cr;Lf; 那篇《Making a vintage LLM from scratch》在 Hacker News 上炸了(101分,29条评论),我第一反应是:这人是不是闲得慌? 2026年了,GPT-5 都烂大街 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

AI & ML Infrastructure

PyTorch 分布式训练多 GPU 配置教程 2026:别再踩那些 DDP 的坑了

这年头搞大模型训练,谁还没被分布式折磨过? 上周我们团队刚把一个 7B 参数的模型从单卡迁移到 8 卡 DDP,本以为照着官方文档走一遍就行——结果跑起来直接 OOM,排查了整整两天才发现是 batch_size 没按总 GPU 数缩放。这破事儿我估计不少人都干过。 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG