知识库

AI & ML Infrastructure

聚焦数据中心自动化、Python 探针、DCIM 和 AI 内容流水线。

返回首页
AI & ML Infrastructure

LLM时代,新DSL的生存法则:别跟AI抢饭碗,给它造工具

写在前面:DSL已死,DSL万岁? 上周Hacker News上有个帖子炸了,标题就是"How a new DSL may survive in the era of LLMs"。53分,19条评论,不算多,但讨论质量出奇的高。评论区里有个老哥的回复我印象特别 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

AI & ML Infrastructure

我用手搓了一个复古LLM:从零训练一个只读古书的GPT

前言:为什么要在2026年做一件“蠢事”? 说实话,当我看到 Cr;Lf; 那篇《Making a vintage LLM from scratch》在 Hacker News 上炸了(101分,29条评论),我第一反应是:这人是不是闲得慌? 2026年了,GPT-5 都烂大街 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG

AI & ML Infrastructure

PyTorch 分布式训练多 GPU 配置教程 2026:别再踩那些 DDP 的坑了

这年头搞大模型训练,谁还没被分布式折磨过? 上周我们团队刚把一个 7B 参数的模型从单卡迁移到 8 卡 DDP,本以为照着官方文档走一遍就行——结果跑起来直接 OOM,排查了整整两天才发现是 batch_size 没按总 GPU 数缩放。这破事儿我估计不少人都干过。 …

Tan Jia Hui

Tan Jia Hui

DCIM ENG