← 随机比特 / 所有内容

<最终公众号标题>

2026-05-09 · 随机比特

写了 20 年 C 的人,本周给"AI 必须 PyTorch + CUDA"开了一道口子

过去三年,"想跑大模型"这件事在大多数开发者脑子里有一个固定画面:买一张 NVIDIA 卡(最好 80G 显存的)、装 CUDA、装 PyTorch、再装 transformers,然后 pip install 拉下来 1.7GB 依赖树。

这条流水线被默认到什么程度?过去 18 个月里,每当有人在论坛说 “M 系 Mac 的统一内存其实可以跑大模型”,下面立刻有十条回复:“你是不是没用过 CUDA?”

本周 antirez——写 Redis 那个意大利人——把一份代码扔到 GitHub 上。纯 C + Objective-C + 一点 Metal kernel。无 PyTorch,无 CUDA,无 transformers,连 GGML 都没 link。单二进制,git clone 完直接 make。

它叫 ds4,能在一台 128GB 内存的 M3 Max MacBook 上跑通 DeepSeek V4 Flash——一个几百亿参数级的 MoE 模型——生成速度大约每秒 27 个 token;同款代码在 512GB 的 M3 Ultra 上跑到每秒 37 token。

这不是一条性能新闻。

<figure><img src=“images/01-nvidia-vs-apple-silicon.png” alt=“01-nvidia-vs-apple-silicon”></figure>

容易被高估的部分先压回去

M3 Max 内存带宽约 400GB/s,H100 是 3TB/s——同模型在 H100 上的 tokens-per-second 还会碾压 Mac 一个数量级。训练这件事,CUDA 的生态短期内一根毛都不会动。128GB 跑得动的是 2-bit 量化版;想要 4-bit、想跑稠密 70B 跑得舒服,机器要从 256GB 起步。

"Mac 万岁、NVIDIA 完蛋"这句话,从今年到明年都不成立。

但这件事的真正分量,不是 Mac 跑得多快,而是这份代码是 antirez 写的

写过 Redis 的人是什么人?是把"单二进制 + 无依赖 + 几千行 C + 跑 20 年不出问题"这套审美贯彻到底的人。这种工程师对"装一个东西要拉 1.7GB 依赖、还得 conda 一下再 docker 一下"的现代 AI 工具链是什么感受,懂的人秒懂。

过去三年,AI 圈默认的工具栈审美是 Python 的——胶水、依赖树、Notebook。系统派工程师对这套东西的不爽,一直只在 HN 评论区飘着,没人真去做点什么。

直到本周。

路线之争从嘴上,走到了 git clone 上

过去 18 个月,“统一内存能跑大模型"一直停在论坛猜测:有人贴速度截图,下面立刻有人回"数据存疑"或"玩具,非生产”。

口水永远辩不清。git clone 可以。ds4 扔出来之后,这件事第一次有了对所有人公平的检验方式——把仓库拉下来跑一遍,token-per-second 出来多少就是多少。论坛上一万条"我朋友测过",加起来不如一份能编译的 makefile。

更有意思的是 antirez 在 README 第一页写的那句话:这份代码是"由 GPT 5.5 强力辅助、人类主导思路与调试"做出来的。

一个写了 20 年 C 的人,用 LLM 帮自己写了一份脱离 LLM 主流工具链的 LLM 推理引擎——这件事本身就把当下 AI 工具链的某种荒诞感写在 README 第一页上。系统派审美没消失,只是换了杠杆。

同一周,两条路线各自交了样卷

这一周,Anthropic 宣布在 SpaceX 数据中心上线 22 万张 GPU,年度算力预算 50 亿美金,Claude Code 限速翻倍。头部公司把"算力军备"这条路继续往极致推。

同一周,一个意大利人在自己的 MacBook 上把模型跑通,扔到 GitHub。

这两件事不矛盾——大模型的路线从来不是单选。但它们第一次在同一周、用同样清晰的方式,把自己的样卷各放在桌上:一个是 22 万张 H100 撑起的云端军备,一个是一台 MacBook 加一份 makefile。

下次再有人在饭桌上拍板说"大模型这件事就是要 NVIDIA",桌上多了一份反例的存在性证明——不是论坛贴子,不是 benchmark 截图,是一份你能 git clone 的代码。

口子的大小不重要。开口子的是谁,很重要。