写了 20 年 C 的人，本周给"AI 必须 PyTorch + CUDA"开了一道口子

过去三年，"想跑大模型"这件事在大多数开发者脑子里有一个固定画面：买一张 NVIDIA 卡（最好 80G 显存的）、装 CUDA、装 PyTorch、再装 transformers，然后 pip install 拉下来 1.7GB 依赖树。

这条流水线被默认到什么程度？过去 18 个月里，每当有人在论坛说 “M 系 Mac 的统一内存其实可以跑大模型”，下面立刻有十条回复：“你是不是没用过 CUDA？”

本周 antirez——写 Redis 那个意大利人——把一份代码扔到 GitHub 上。纯 C + Objective-C + 一点 Metal kernel。无 PyTorch，无 CUDA，无 transformers，连 GGML 都没 link。单二进制，git clone 完直接 make。

它叫 ds4，能在一台 128GB 内存的 M3 Max MacBook 上跑通 DeepSeek V4 Flash——一个几百亿参数级的 MoE 模型——生成速度大约每秒 27 个 token；同款代码在 512GB 的 M3 Ultra 上跑到每秒 37 token。

这不是一条性能新闻。

容易被高估的部分先压回去

M3 Max 内存带宽约 400GB/s，H100 是 3TB/s——同模型在 H100 上的 tokens-per-second 还会碾压 Mac 一个数量级。训练这件事，CUDA 的生态短期内一根毛都不会动。128GB 跑得动的是 2-bit 量化版；想要 4-bit、想跑稠密 70B 跑得舒服，机器要从 256GB 起步。

"Mac 万岁、NVIDIA 完蛋"这句话，从今年到明年都不成立。

但这件事的真正分量，不是 Mac 跑得多快，而是这份代码是 antirez 写的。

写过 Redis 的人是什么人？是把"单二进制 + 无依赖 + 几千行 C + 跑 20 年不出问题"这套审美贯彻到底的人。这种工程师对"装一个东西要拉 1.7GB 依赖、还得 conda 一下再 docker 一下"的现代 AI 工具链是什么感受，懂的人秒懂。

过去三年，AI 圈默认的工具栈审美是 Python 的——胶水、依赖树、Notebook。系统派工程师对这套东西的不爽，一直只在 HN 评论区飘着，没人真去做点什么。

直到本周。

路线之争从嘴上，走到了 git clone 上

过去 18 个月，“统一内存能跑大模型"一直停在论坛猜测：有人贴速度截图，下面立刻有人回"数据存疑"或"玩具，非生产”。

口水永远辩不清。git clone 可以。ds4 扔出来之后，这件事第一次有了对所有人公平的检验方式——把仓库拉下来跑一遍，token-per-second 出来多少就是多少。论坛上一万条"我朋友测过"，加起来不如一份能编译的 makefile。

更有意思的是 antirez 在 README 第一页写的那句话：这份代码是"由 GPT 5.5 强力辅助、人类主导思路与调试"做出来的。

一个写了 20 年 C 的人，用 LLM 帮自己写了一份脱离 LLM 主流工具链的 LLM 推理引擎——这件事本身就把当下 AI 工具链的某种荒诞感写在 README 第一页上。系统派审美没消失，只是换了杠杆。

同一周，两条路线各自交了样卷

这一周，Anthropic 宣布在 SpaceX 数据中心上线 22 万张 GPU，年度算力预算 50 亿美金，Claude Code 限速翻倍。头部公司把"算力军备"这条路继续往极致推。

同一周，一个意大利人在自己的 MacBook 上把模型跑通，扔到 GitHub。

这两件事不矛盾——大模型的路线从来不是单选。但它们第一次在同一周、用同样清晰的方式，把自己的样卷各放在桌上：一个是 22 万张 H100 撑起的云端军备，一个是一台 MacBook 加一份 makefile。

下次再有人在饭桌上拍板说"大模型这件事就是要 NVIDIA"，桌上多了一份反例的存在性证明——不是论坛贴子，不是 benchmark 截图，是一份你能 git clone 的代码。

口子的大小不重要。开口子的是谁，很重要。

<最终公众号标题>

写了 20 年 C 的人，本周给"AI 必须 PyTorch + CUDA"开了一道口子

容易被高估的部分先压回去

路线之争从嘴上，走到了 git clone 上

同一周，两条路线各自交了样卷