← 随机比特 / 所有内容

只演示一次,AI 就把它变成可重复执行的技能——这不是宏录制,是真正理解意图的 desktop agent。

2026-03-14 · 随机比特

你演示一次,AI 就记住了:桌面 Agent 的「手把手」学习范式

选题: understudy-demo-once-agent-learns | 日期: 2026-03-14 | 字数: ~2100


你有没有想过:每天打开十几个软件、填表格、截图、复制粘贴、发邮件——这些事情,有没有可能让 AI "学会"一次,然后就再也不用亲自干了?

不是用 ChatGPT 帮你写步骤。是真的,帮你动鼠标、点按钮、把整件事从头做到尾。

<figure> <img src=“images/01-workflow.png” alt=“现状 vs Understudy 对比” /> <figcaption>现状 vs Understudy:从重复劳动到演示一次、自动执行</figcaption> </figure>

最近我注意到一个开源项目,叫 Understudy。它的设计思路和我见过的 AI 工具都不一样,用一句话概括:你演示一次,它把你的操作变成一项可重复执行的技能。


AI 助手的"盲区"

先说清楚一个大多数人没意识到的问题。

Cursor 能读你的代码。Claude 能写邮件草稿。Copilot 能建议你下一行怎么写。

但你让它们帮你"把这份表格里的数据导出成 PDF,然后发给张三"——做不到。

不是因为这些模型不够聪明。而是因为它们根本看不到你的屏幕,也没有手

ChatGPT 活在一个对话框里,进不了你的 Finder,打不开你的 Excel,不知道你刚才截的那张图在哪。Zapier 和 Make 能自动化工作流,但它们需要 API——大多数桌面软件根本没有 API。

这个空白地带,才是大多数上班族每天重复劳动的地方。


实习生的成长路径

Understudy 这个名字来自剧院术语。剧院里的 understudy(替角演员)不需要编剧给他专门写剧本,他只需要坐在旁边,看主角把整个角色演几遍,然后在主角缺席的时候顶上来。

这个类比说透了整个产品的设计逻辑。

项目团队把 agent 的成长分成 5 层:

<figure> <img src=“images/02-timeline.png” alt=“Understudy 五层成长路径” /> <figcaption>Understudy 的成长路径:从看你操作到主动预判需求</figcaption> </figure>

Day 1:看你怎么操作
Week 1:跟着模仿,遇到不确定的会问你
Month 1:记住套路,开始独立执行
Month 3:找到更快的执行路径,替换掉你教它的笨方法
Month 6:主动预判需求,在你开口之前就做好

目前 Layer 1(能看、能点、能操作软件)和 Layer 2(从演示中学习)已经可以用。Layer 3 和 4 部分实现,Layer 5 是长期方向。

不承诺它现在是完整产品。但 Layer 1-2 能跑起来,就已经解决了一个真实的痛点。


演示一次,够了吗?

YouTube 上有一条演示视频(链接),演示的任务是:给一张人物照片做抠图处理,把背景去掉。

全程演示了一次完整操作:打开软件、选择前景目标、确认结果、保存文件。

演示结束后,Understudy 生成了一个 SKILL.md 文件——把整个操作路径结构化地记下来了。

关键不在"记住了哪几步",而在记住的方式。

传统 RPA(比如 UI.Vision)录制的是坐标:第 3 步点了屏幕左边大概 230px 的那个按钮。下次界面稍微改一下,坐标变了,整个宏就挂了。

Understudy 提取的是意图:第 3 步的意图是"选中前景目标对象"。它记住的是"你想做什么",而不是"你点了哪里"。

这个区别,说起来简单,工程上的差距是巨大的。


它的底层是什么

Understudy 不只是个 GUI 点击器,它是一个统一的桌面执行环境,把以下几种操作方式接在同一个 agent 循环里:

你演示的一个任务,可能同时用到上面四种路径。agent 自己决定每一步用哪种方式最快。

运行环境目前只有 macOS,模型支持 GPT-5.4(通过 Codex)及其他主流模型。


和 RPA、Zapier 有什么区别

这个问题值得单独说一下,因为很多人第一反应是"这不就是 RPA 换了个壳"。

不完全是。

工具 原理 局限
UI.Vision / Selenium IDE 坐标/DOM 录制 界面变化就挂
Zapier / Make API 触发器 无 API 的软件做不到
Cursor / Claude 代码理解 + 对话框 触不到桌面
Understudy 意图提取 + 统一执行 当前仅 macOS,复杂分支能力有限

说白了:它解决了其他工具都在回避的问题——怎么处理没有 API、只有界面的软件

这正是大多数上班族每天用的那类工具:公司内部系统、传统 ERP、各种只能鼠标点的业务软件。


现在能用,还是等等看?

说实话,现在上手是偏早期的体验。

可以做:

暂时还做不好:

如果你平时用 Mac,有一些固定的重复桌面流程,现在就值得试一试。如果你是 Windows 用户,先 star 关注。


最后

AI 帮人干活这件事,正在从"帮你写字"慢慢变成"帮你点鼠标"。这个方向是对的,但工程难度要大得多。

Understudy 的有趣之处不在于它现在有多完善,而在于它的设计思路:不是让你写 prompt,是让你演示一遍

这对不懂编程、也不想学 prompt 的人来说,是更低的门槛。你会做这件事,就等于教会了 AI 做这件事。


你平时有哪些每天都要重复的桌面操作?如果 AI 学会了,你最想先"解放"哪一个?


来源


本文字数:约 2050 字 | 版本:润色版 | 状态:已过审