OpenAI 这一仗,根本没在 ChatGPT 里打
5 月 7 号,OpenAI 一口气发了三个新语音模型——一个能边对话边推理,一个能从 70 多种语言实时翻译到 13 种,一个负责实时转写。
但 ChatGPT 用户一个都用不上。官方原话:“Stay tuned, we’re cooking”——你们等等,还在做。
这两天的解读都在围着"语音终于能用了"打转。我看到的是另一件事:过去三个月那波"OpenAI 创新乏力"的判官全踩空了。他们一直数错了战场。
量级差不是修辞,是 3 倍
三个月前 OpenAI 发上一代 Realtime-1.5,Big Bench Audio 比 4o 高 5%。当时 Latent Space 给了一个很冷的评价:drop in the bucket。
这次 Realtime-2 比 1.5 又高 15.2%——3 倍量级。
上下文窗口从 32K 拉到 128K,这是支持一通 20 分钟客服电话、一次复杂 agent 任务的硬门槛。指令保持率从 36.7% 跳到 70.8%,几乎翻倍。
哪一个都不是"小修小补"。
<figure><img src=“images/01-bba-jump.png” alt=“01-bba-jump”></figure>
反常的是,这些都没给 ChatGPT
正常剧本:先在旗舰产品里上、收反馈、再开放 API。OpenAI 反过来——新能力直接落到 Realtime API,ChatGPT 那边明确"还在做"。
随模型一起发布的"产品语言"暴露了真实接收方:
- 5 档 reasoning effort:minimal / low / medium / high / xhigh
- Preambles:agent 干活前先说一句"让我查一下"
- 工具透明:agent 一边说"在帮你查日历"一边真的并行调多个工具
- Stronger recovery:搞不定时说"这个我处理不了",不装死
这不是给在 ChatGPT 里聊天的人用的。这是写给"在生产环境部署 voice agent 的工程师"的语言。接收方变了,发布形态就变了。
早期客户名单更直接——Zillow、Deutsche Telekom、Priceline。三家全是 B 端产品公司。
<figure><img src=“images/02-to-b-shift.png” alt=“02-to-b-shift”></figure>
这条路不是 OpenAI 第一个走
AWS 早年做 S3、EC2 的时候没有 console UI,亚马逊电商首页一个字都没提。当时被骂反人类——等 web console 补上的时候,企业市场已经被吃光了。
Stripe 也一样。早期只有 API 没 dashboard,被嘲"连一个能给老板看的后台都做不出来"。开发者吃透之后,支付市场迁移就完成了。
结构是一样的:**一家公司把"最强能力"先给写代码的人、再给点鼠标的人,它的产品定义就已经换轨道了。**当下没人感知到,因为大众盯的还是那个对话框、那张支付页面。
OpenAI 过去这一年,普通用户感受到的就是 ChatGPT 在挤牙膏。判官们说他们"创新乏力",事实没说错,战场说错了。
Sam Altman 把窗户纸捅得很白:用户用语音的核心诉求是"想 dump 大量上下文"。dump 上下文是工作流的诉求,不是消费聊天的诉求。
尺子要换了
同一周,Anthropic 那边在拼编码、拼 Finance Agents、拼 Microsoft 365 集成。两家最大的 AI 公司都在从 to C 转 to B,分赛道开打。
用"ChatGPT 又出了什么新功能"评估 OpenAI 的尺子已经废了,换成"企业 API 渗透率、新增大客户、Realtime 调用量增速"。
做 voice 产品 / SaaS 客服 / 翻译外包的就更不用说——一小时 1.15 刀输入、4.61 刀输出、benchmark 打到 SOTA 的对手开 API 了,自己业态值多少钱要重新算。
OpenAI 不是创新乏力,是把战场搬到了普通用户看不见的地方。
明白这一点的人,已经在重新调表。