GPT-5.4 发布：从"聊天机器人"到"会操电脑的智能体"，这一步迈了多远？

来源：OpenAI 官方公告 | 2026-03-06

昨天 HN 前排挂了一篇文章，321 条评论，讨论度是同期新闻的好几倍。

不是什么新融资、新公司。是 OpenAI 发了个新模型：GPT-5.4。

我点进去，看到一个数字有点没反应过来：

OSWorld 上，GPT-5.4 的操作电脑成功率是 75.0%，人类是 72.4%。

AI 在桌面操控任务上超过了人类平均水平。

这是第一次，在一个通用模型上出现这个结果，不是专用工具，是跑通用任务的大模型。

这次到底升级了什么

先说最重要的三件事。

一、Thinking 可以中途改方向了。

之前用 o1/o3 的 Thinking 模式，你只能等它想完再说话。现在不一样了：GPT-5.4 Thinking 在推理过程中会先给你一个"思路计划"，你看到它要往哪走，不对就能马上喊停。

说白了，就是把 AI 的"思考草稿"开放给你看了，变成一个可以打断的过程，而不是等结果揭晓。

二、计算机操作能力原生集成进了模型。

这个是我觉得最值得讲的。

GPT-5.4 是 OpenAI 第一个把 computer-use 能力做进通用模型的版本。不是独立工具，不是插件，是模型本身就能做这件事。

它能干什么？

给截图，看明白屏幕在显示什么，然后决定点哪里
用 Playwright 之类的库写代码操控浏览器
接受鼠标和键盘指令，在桌面环境里完成一系列操作

OSWorld 上 75% 的成功率，WebArena 上 67.3% 的浏览器任务通过率，这些数字说明它不是演示用的，是真的能用的。

三、职业任务上超越人类专业水平的比例到了 83%。

OpenAI 有一个叫 GDPval 的内部测评，覆盖 44 个职业类别，测的是"专业工作产出"。

销售 PPT、财务建模、排班计划、制造业图纸——GPT-5.4 在这 83% 的任务上，输出质量超过或持平人类专业人员。

GPT-5.2 是 70.9%。

对开发者真正有用的是这几点

跑分看看就好，对开发者来说更重要的是实际能用什么。

computer-use API 可以正式用了。

以前用 Claude 的 computer-use，是 Anthropic 独家功能。现在 GPT-5.4 在 API 侧也开放了原生 computer-use。

怎么用？直接给模型截图，它就知道怎么操作。或者用 Playwright，告诉它目标，让它自己写脚本。

更重要的一点是：开发者可以配置"确认策略"，决定哪些操作需要用户二次确认，哪些可以自动执行。这让 computer-use 的风险边界可以控制，不是非黑即白。

1M token 上下文，长任务不再断线。

这个挺实用。给模型扔一份几十页的文档，让它从头到尾读完再生成报告，以前要想办法分段，现在直接扔进去就行。

Agent 场景里更明显：任务执行链很长时，上下文丢失是个头疼的问题。1M token 上下文给了一个缓冲区。

tool search：大型工具生态里自动找对工具。

这个功能名字有点低调，但挺有意思。

当你给模型接了几十上百个工具时，以前模型容易"懵"，不知道该用哪个，或者调错了。tool search 让模型能主动搜索并选择合适的工具，而不是从全部工具里挑。

幻觉减少了 33%。

拿真实用户上报的事实错误作为测试集，GPT-5.4 单条陈述出错率比 GPT-5.2 低 33%，完整回复有错误的概率低 18%。

不是零错误，但这个降幅是真实的。

值不值得现在用？

我的看法是，取决于你是什么场景。

如果你只是日常用 ChatGPT： 可以试试 GPT-5.4 Thinking 模式，在复杂问题上（写方案、做分析、研究问题）会有感知。普通聊天差异不大。

如果你是企业用户，常用 Excel： OpenAI 今天同步发了 ChatGPT for Excel 插件，GPT-5.4 专门优化了电子表格任务，财务建模类任务的得分从 68.4% 升到了 87.3%，值得试。

如果你是开发者，在搭 Agent： computer-use API 是今天最值得关注的更新。以前要实现"AI操控浏览器完成任务"，你要么用专用工具，要么自己包装。现在有了原生支持，门槛降了一截。

我觉得这次不是"又一个更强的聊天机器人"。

GPT-5.4 在往一个方向走：让 AI 不只是"给你答案"，而是"帮你做事"。computer-use、tool search、可中断的 Thinking、更长的上下文——加在一起，是 Agent 开发工具层的一次集中升级。

你现在用什么方式完成工作里那些重复性操作？可能该更新一下答案了。

来源

Introducing GPT-5.4 | OpenAI
GPT-5.4 Thinking System Card | OpenAI
HN 讨论（343pts / 321 comments，2026-03-06）

GPT-5.4 正式发布：OpenAI 这次把 Thinking 和 Codex 能力合并了，真的有多强？

GPT-5.4 发布：从"聊天机器人"到"会操电脑的智能体"，这一步迈了多远？

这次到底升级了什么

对开发者真正有用的是这几点

值不值得现在用？

来源