← 随机比特 / 所有内容

GPT-5.4 正式发布:OpenAI 这次把 Thinking 和 Codex 能力合并了,真的有多强?

2026-03-06 · 随机比特

GPT-5.4 发布:从"聊天机器人"到"会操电脑的智能体",这一步迈了多远?

来源:OpenAI 官方公告 | 2026-03-06


昨天 HN 前排挂了一篇文章,321 条评论,讨论度是同期新闻的好几倍。

不是什么新融资、新公司。是 OpenAI 发了个新模型:GPT-5.4。

我点进去,看到一个数字有点没反应过来:

OSWorld 上,GPT-5.4 的操作电脑成功率是 75.0%,人类是 72.4%。

AI 在桌面操控任务上超过了人类平均水平。

这是第一次,在一个通用模型上出现这个结果,不是专用工具,是跑通用任务的大模型。


这次到底升级了什么

先说最重要的三件事。

一、Thinking 可以中途改方向了。

之前用 o1/o3 的 Thinking 模式,你只能等它想完再说话。现在不一样了:GPT-5.4 Thinking 在推理过程中会先给你一个"思路计划",你看到它要往哪走,不对就能马上喊停。

说白了,就是把 AI 的"思考草稿"开放给你看了,变成一个可以打断的过程,而不是等结果揭晓。

二、计算机操作能力原生集成进了模型。

这个是我觉得最值得讲的。

GPT-5.4 是 OpenAI 第一个把 computer-use 能力做进通用模型的版本。不是独立工具,不是插件,是模型本身就能做这件事。

它能干什么?

OSWorld 上 75% 的成功率,WebArena 上 67.3% 的浏览器任务通过率,这些数字说明它不是演示用的,是真的能用的。

三、职业任务上超越人类专业水平的比例到了 83%。

OpenAI 有一个叫 GDPval 的内部测评,覆盖 44 个职业类别,测的是"专业工作产出"。

销售 PPT、财务建模、排班计划、制造业图纸——GPT-5.4 在这 83% 的任务上,输出质量超过或持平人类专业人员。

GPT-5.2 是 70.9%。

<figure><img src=“images/01-compare.png” alt=“01-compare”></figure>


对开发者真正有用的是这几点

跑分看看就好,对开发者来说更重要的是实际能用什么。

computer-use API 可以正式用了。

以前用 Claude 的 computer-use,是 Anthropic 独家功能。现在 GPT-5.4 在 API 侧也开放了原生 computer-use。

怎么用?直接给模型截图,它就知道怎么操作。或者用 Playwright,告诉它目标,让它自己写脚本。

更重要的一点是:开发者可以配置"确认策略",决定哪些操作需要用户二次确认,哪些可以自动执行。这让 computer-use 的风险边界可以控制,不是非黑即白。

<figure><img src=“images/02-workflow.png” alt=“02-workflow”></figure>

1M token 上下文,长任务不再断线。

这个挺实用。给模型扔一份几十页的文档,让它从头到尾读完再生成报告,以前要想办法分段,现在直接扔进去就行。

Agent 场景里更明显:任务执行链很长时,上下文丢失是个头疼的问题。1M token 上下文给了一个缓冲区。

tool search:大型工具生态里自动找对工具。

这个功能名字有点低调,但挺有意思。

当你给模型接了几十上百个工具时,以前模型容易"懵",不知道该用哪个,或者调错了。tool search 让模型能主动搜索并选择合适的工具,而不是从全部工具里挑。

幻觉减少了 33%。

拿真实用户上报的事实错误作为测试集,GPT-5.4 单条陈述出错率比 GPT-5.2 低 33%,完整回复有错误的概率低 18%。

不是零错误,但这个降幅是真实的。


值不值得现在用?

我的看法是,取决于你是什么场景。

如果你只是日常用 ChatGPT: 可以试试 GPT-5.4 Thinking 模式,在复杂问题上(写方案、做分析、研究问题)会有感知。普通聊天差异不大。

如果你是企业用户,常用 Excel: OpenAI 今天同步发了 ChatGPT for Excel 插件,GPT-5.4 专门优化了电子表格任务,财务建模类任务的得分从 68.4% 升到了 87.3%,值得试。

如果你是开发者,在搭 Agent: computer-use API 是今天最值得关注的更新。以前要实现"AI操控浏览器完成任务",你要么用专用工具,要么自己包装。现在有了原生支持,门槛降了一截。

我觉得这次不是"又一个更强的聊天机器人"。

GPT-5.4 在往一个方向走:让 AI 不只是"给你答案",而是"帮你做事"。computer-use、tool search、可中断的 Thinking、更长的上下文——加在一起,是 Agent 开发工具层的一次集中升级。

你现在用什么方式完成工作里那些重复性操作?可能该更新一下答案了。


来源