DeepSeek V4 把推理便宜了 53 倍,但你不能换 — 5 个隐藏成本,每个都比账单大
上周看到 V4-Flash 的价目表那一刻,我第一件事是打开我们 LLM 月账单。
$3,800。
心算了一下:同一份 token 量,换 V4-Flash 是 $72。
差 53 倍。
我盯着这两个数字看了 5 分钟,连泡了两杯咖啡。然后关掉账单页面。
到现在,没换。
每次"白菜价新模型"出来,朋友圈和工程群里都会冒一波"建议各位赶紧换 / 不换就是傻"的转发。每次我都点开看看,每次都没换。
不是跟钱过不去。
是因为便宜 53 倍这件事,是给你看的;真要换的成本,账单上没有。
下面我把不在账单上的 5 件事,按它们藏得有多深的顺序排开。
一、牛肉的味道
价目表的 $0.28/M 是个均值。所有任务、所有难度、所有上下文长度,平均下来。
但你用 LLM 不是用均值。是用你具体那 N 类:写代码 / 总结文档 / 生成 SQL / 客服回复 / 数据清洗。
V4-Flash 在某些任务上跟 Claude 持平。在某些任务上差 30%。你不知道你那 N 类是哪一类,直到换了 prod 跑一周。
跑一周之后你也看不到差距——因为用户不会专门跑过来告诉你"这个回答比上周差一点"。
他们只是默默用得更少了一点。
像换了一家便宜的牛肉供应商。 标价确实便宜。 但做出来的牛排你尝一口知道味道差了—— 顾客不一定说,但下次他可能就不来了。
修法:换之前必须有一组你自己的 eval set。你那 N 类任务的真实样本,跑两个模型对比,看哪一类能换。没 eval set 就换 = 闭眼睛挑食材。
二、第二件事,一句话
你的 retry / 错误处理 / 降级逻辑,全是针对 Claude 那种错法调的。换了模型,报错都还在响,但消防员看不懂了。
低于这个一致率,别换:95%。
shadow traffic 跑两周——同一个请求打两份,一份给老模型实跑,一份给新模型 dry-run 比一致率。
低于 95% 的那部分场景,永远不要换。
三、1M context = 1M 实际?
不是。
10K 给的答案。
100K 给的答案。
500K 给的答案。
同一个 prompt,能差出两个段位。
任何模型的"标称上下文"都是最大物理容量,不是最大有效容量。在 200K 之后,注意力衰减、KV cache 压力、关键信息埋藏深度——塞越多,输出越糊。
像号称承重 100 公斤的行李箱。 装到 30 公斤,拉杆开始有点歪。 装到 60 公斤,走起路来"咔咔"响。 装到 100 公斤——是的它没爆,但你拖在地上走了。
测它的"实际有效上下文"很简单:把同一个问题埋在不同深度的上下文里,看找回正确率。
Claude 在 200K 之后开始衰减。新模型也别假设它例外。先测,再信。
四、算笔账给你看
prompt template 不一样。tool schema 格式不一样。output JSON 模式不一样。错误码不一样。stream chunk 大小不一样。timeout 行为不一样。
你以为只是改一行 model = "deepseek-v4-flash"。
实际上:
| 工程项 | 时间 |
|---|---|
| 重写所有 prompt template | 3-5 天 |
| 重训 tool schema + output 解析 | 2-3 天 |
| 重写 retry / error handling / 降级 | 2 天 |
| 重做 observability + 监控 | 2 天 |
| Staging 全套回归 | 2-3 天 |
| 总计 | 11-15 个工作日 |
按一个高级工程师月薪 $8,000 算(中位数水平),$8,000 ÷ 22 × 13 = $4,727。
第一年 token 节省:$3,800 × 12 - $72 × 12 = $44,736。
省 $44,736,花 $4,727 工程时间。看着合算?
那是因为你还没数完。
五、最后一笔账,藏得最深
prod 一般要主备双模型——主模型挂了 / 限流了 / 一时质量崩了,自动切到备模型。否则一家挂你全挂,SLA 直接归零。
你换便宜模型当主,还是要保留一份贵模型当 fallback。否则 V4-Flash 那天集体 outage,你就没退路了。
所以真账单不是 $72 vs $3800,是这道题:
$72 (主)
+ $3800 × 5% (fallback 应急用量)
+ $4,727 (一次性切换工程)
+ $8,000 / 12 × 0.5 (双套维护,半个工程师按月烧)
= 第一年实际成本约 $5,300+/月
vs 不换的成本 $3,800/月。
第一年实际上贵了。
第二年开始才省,但每个月省的也只有大约 1500——实际节省常常只有标价节省的 30%-40%。
像换了一家便宜的电力公司。 合同里有一条小字:客户必须保留旧电力公司账户作为 backup。 「便宜电力」其实是「我用便宜电,你给贵电付月费」。
<figure><img src=“01-iceberg.png” alt=“01-iceberg”></figure>
把这 5 件放一起看,是同一件事的 5 种表现:
LLM 推理价格只是冰山的一角。工程债 + 适配债 + 维护债,是水面下的九份。
你看到的那个"53 倍便宜"是冰山顶尖。下面九份成本不在 invoice 上、不在价目表上、不在新闻标题上——但它们每一份都是你工程师真实在花的时间,按月烧、按周烧、按天烧。
更深一层:AI 时代的 LLM 成本计算正在从「token 单价」转向「系统性总成本」。
按 token 算的人,会被价目表震撼。
按系统性总成本算的人,会先冷静一周,跑 eval、做 shadow、算工程时间——然后再决定换不换。
第一批人追新闻。第二批人赚钱。
这剧本在 cloud migration 早期演过一遍。每次新便宜的 IaaS / SaaS 出来,第一波"全公司迁移过去"的总是吃亏,第二波冷静下来算总账的反而留下来了。LLM 这一轮,几乎一字不改。
「换便宜模型」这个动作,看着像切换供应商。
其实是重写一遍你的 AI stack 合同。
下次再看到"建议各位赶紧换",先问自己一句:我那份 eval set 准备好了吗?
没准备 → 别动。 准备了 → 把上面 5 件账算一遍。 算完还是合算 → 那就换。
但绝大部分时候,算完你会发现:
新模型出来时,省下来的是账单上的钱,花出去的是没出现在账单上的工程时间。
账单 53 倍便宜很显眼。工程时间 53 倍消耗看不见。
而看不见的那部分——最后是你自己一个礼拜一个礼拜花掉的。