← 随机比特 / 所有内容

cheap llm hidden costs

2026-04-26 · 随机比特

DeepSeek V4 把推理便宜了 53 倍,但你不能换 — 5 个隐藏成本,每个都比账单大

上周看到 V4-Flash 的价目表那一刻,我第一件事是打开我们 LLM 月账单。

$3,800

心算了一下:同一份 token 量,换 V4-Flash 是 $72

差 53 倍。

我盯着这两个数字看了 5 分钟,连泡了两杯咖啡。然后关掉账单页面。

到现在,没换。


每次"白菜价新模型"出来,朋友圈和工程群里都会冒一波"建议各位赶紧换 / 不换就是傻"的转发。每次我都点开看看,每次都没换。

不是跟钱过不去。

是因为便宜 53 倍这件事,是给你看的;真要换的成本,账单上没有

下面我把不在账单上的 5 件事,按它们藏得有多深的顺序排开。

一、牛肉的味道

价目表的 $0.28/M 是个均值。所有任务、所有难度、所有上下文长度,平均下来。

但你用 LLM 不是用均值。是用你具体那 N 类:写代码 / 总结文档 / 生成 SQL / 客服回复 / 数据清洗。

V4-Flash 在某些任务上跟 Claude 持平。在某些任务上差 30%。你不知道你那 N 类是哪一类,直到换了 prod 跑一周

跑一周之后你也看不到差距——因为用户不会专门跑过来告诉你"这个回答比上周差一点"。

他们只是默默用得更少了一点

像换了一家便宜的牛肉供应商。 标价确实便宜。 但做出来的牛排你尝一口知道味道差了—— 顾客不一定说,但下次他可能就不来了。

修法:换之前必须有一组你自己的 eval set。你那 N 类任务的真实样本,跑两个模型对比,看哪一类能换。没 eval set 就换 = 闭眼睛挑食材。

二、第二件事,一句话

你的 retry / 错误处理 / 降级逻辑,全是针对 Claude 那种错法调的。换了模型,报错都还在响,但消防员看不懂了

低于这个一致率,别换:95%

shadow traffic 跑两周——同一个请求打两份,一份给老模型实跑,一份给新模型 dry-run 比一致率。

低于 95% 的那部分场景,永远不要换

三、1M context = 1M 实际?

不是。

10K 给的答案。

100K 给的答案。

500K 给的答案。

同一个 prompt,能差出两个段位

任何模型的"标称上下文"都是最大物理容量,不是最大有效容量。在 200K 之后,注意力衰减、KV cache 压力、关键信息埋藏深度——塞越多,输出越糊

像号称承重 100 公斤的行李箱。 装到 30 公斤,拉杆开始有点歪。 装到 60 公斤,走起路来"咔咔"响。 装到 100 公斤——是的它没爆,但你拖在地上走了。

测它的"实际有效上下文"很简单:把同一个问题埋在不同深度的上下文里,看找回正确率。

Claude 在 200K 之后开始衰减。新模型也别假设它例外。先测,再信

四、算笔账给你看

prompt template 不一样。tool schema 格式不一样。output JSON 模式不一样。错误码不一样。stream chunk 大小不一样。timeout 行为不一样。

你以为只是改一行 model = "deepseek-v4-flash"

实际上:

工程项 时间
重写所有 prompt template 3-5 天
重训 tool schema + output 解析 2-3 天
重写 retry / error handling / 降级 2 天
重做 observability + 监控 2 天
Staging 全套回归 2-3 天
总计 11-15 个工作日

按一个高级工程师月薪 $8,000 算(中位数水平),$8,000 ÷ 22 × 13 = $4,727

第一年 token 节省:$3,800 × 12 - $72 × 12 = $44,736

省 $44,736,花 $4,727 工程时间。看着合算?

那是因为你还没数完

五、最后一笔账,藏得最深

prod 一般要主备双模型——主模型挂了 / 限流了 / 一时质量崩了,自动切到备模型。否则一家挂你全挂,SLA 直接归零。

你换便宜模型当主,还是要保留一份贵模型当 fallback。否则 V4-Flash 那天集体 outage,你就没退路了。

所以真账单不是 $72 vs $3800,是这道题:

$72 (主)
+ $3800 × 5% (fallback 应急用量)
+ $4,727 (一次性切换工程)
+ $8,000 / 12 × 0.5 (双套维护,半个工程师按月烧)
= 第一年实际成本约 $5,300+/月

vs 不换的成本 $3,800/月。

第一年实际上贵了

第二年开始才省,但每个月省的也只有大约 1500——实际节省常常只有标价节省的 30%-40%

像换了一家便宜的电力公司。 合同里有一条小字:客户必须保留旧电力公司账户作为 backup。 「便宜电力」其实是「我用便宜电,你给贵电付月费」。

<figure><img src=“01-iceberg.png” alt=“01-iceberg”></figure>


把这 5 件放一起看,是同一件事的 5 种表现:

LLM 推理价格只是冰山的一角。工程债 + 适配债 + 维护债,是水面下的九份。

你看到的那个"53 倍便宜"是冰山顶尖。下面九份成本不在 invoice 上、不在价目表上、不在新闻标题上——但它们每一份都是你工程师真实在花的时间,按月烧、按周烧、按天烧。

更深一层:AI 时代的 LLM 成本计算正在从「token 单价」转向「系统性总成本」

按 token 算的人,会被价目表震撼。

按系统性总成本算的人,会先冷静一周,跑 eval、做 shadow、算工程时间——然后再决定换不换。

第一批人追新闻。第二批人赚钱

这剧本在 cloud migration 早期演过一遍。每次新便宜的 IaaS / SaaS 出来,第一波"全公司迁移过去"的总是吃亏,第二波冷静下来算总账的反而留下来了。LLM 这一轮,几乎一字不改

「换便宜模型」这个动作,看着像切换供应商

其实是重写一遍你的 AI stack 合同


下次再看到"建议各位赶紧换",先问自己一句:我那份 eval set 准备好了吗?

没准备 → 别动。 准备了 → 把上面 5 件账算一遍。 算完还是合算 → 那就换。

但绝大部分时候,算完你会发现:

新模型出来时,省下来的是账单上的钱,花出去的是没出现在账单上的工程时间

账单 53 倍便宜很显眼。工程时间 53 倍消耗看不见。

而看不见的那部分——最后是你自己一个礼拜一个礼拜花掉的