← 随机比特 / 所有内容

从 prompt 到 pointer:AI 这一代,押的是「让用户少做一步」

2026-05-14 · 随机比特

从 prompt 到 pointer:AI 这一代,押的是「让用户少做一步」

三代命名连起来看,路径其实非常直白:

每一代的产品形态都比上一代少要求用户一件事。DeepMind 5 月 12 日发的那篇文章,把这条曲线又往前推了一格。

<figure><img src=“images/01-chat-vs-pointer.png” alt=“01-chat-vs-pointer”></figure>

DeepMind 这次掉了个头

原文是 DeepMind 的两位研究员 Adrien Baranes 和 Rob Marchant 写的,里面一句话直接把方向挑明:

「一个典型的 AI 工具活在它自己的窗口里,用户得把自己的世界拖进去。我们想要的是反过来。」

方案叫 pointer engineering

落地形态已经有三个具象例子:手写便条变成可勾选的 todo;视频暂停帧自动弹出预订链接;网页选中一段直接对它提问(这一个已经在 Gemini in Chrome 跑通)。即将随 Googlebook 上线的功能名叫 Magic Pointer

这不取代 prompt engineering——复杂任务还得描述清楚。但日常那种"短的、聊一句的"交互,被它整段收走。

真正押的不是技术,是「用户工作量」

过去一年整个 AI 圈把"让 AI 看屏幕"卷成了显学。Anthropic Computer Use、OpenAI Operator、各种 GUI agent——大家都在押同一个赌注:让 AI 像人一样接管整个屏幕

工程视角下,全屏接管的复杂度是天文级别:解析整张画面、定位元素、规划点击路径、容错回滚、错一步全盘崩。任何做过 GUI 自动化的同行都清楚,跑通 5 个真实用户就要重写一次。

DeepMind 这次把方向掉了个头:别看整屏,看光标周围那一小块就够。差出去一个量级。

后者根本不需要 AI 接管,只需要 AI 站在旁边、看用户此刻指哪。工程复杂度低一个数量级,用户接管成本也低一个数量级——因为它压根没接管。

更朴素的事是这一条:人类协作从来就是 pointer-first 的

医生看 CT 指阴影说"这一块";建筑师在图纸上画圈说"这里加根柱子";修车师傅戳一下发动机说"换这个"。两千年的人类协作里,没有任何一段记录说"先把图纸拍照发我、附文字描述形状、再标注尺寸,我们再讨论这根柱子"。

聊天框这种"请把需求、上下文、参考资料统统打字进来"的产品形态,是过去三年 AI 还只懂文字时用户做出的妥协——不是产品形态的终局。

搬世界进它,还是它进到你身边

下次刷到任何 AI 新产品发布——不管它打的旗号是 agent、copilot、workspace 还是 OS——只问一句:

它要用户把世界搬进它?还是它进到用户当下正在看的位置?

前者是过去三年的主流:新开窗口、贴上下文、附截图、写需求。每多一步搬运,用户就少一分留下来的理由。

后者是 DeepMind 正在押的方向——AI 进到用户的位置,而不是要求用户来到 AI 的窗口。

模型 benchmark 还会继续涨——这没什么悬念。但产品形态的真正变量,在于谁能让用户少搬一次东西、少做一步翻译。

prompt → context → pointer——这三代命名其实在说同一件事:AI 产品的进化曲线,不是模型曲线,是用户工作量的递减曲线

谁先把用户的下一个"还得做"砍掉,谁就赢这一仗。