你演示一次，AI 就记住了：桌面 Agent 的「手把手」学习范式

选题: understudy-demo-once-agent-learns | 日期: 2026-03-14 | 字数: ~2100

你有没有想过：每天打开十几个软件、填表格、截图、复制粘贴、发邮件——这些事情，有没有可能让 AI "学会"一次，然后就再也不用亲自干了？

不是用 ChatGPT 帮你写步骤。是真的，帮你动鼠标、点按钮、把整件事从头做到尾。

<figure> <img src=“images/01-workflow.png” alt=“现状 vs Understudy 对比” /> <figcaption>现状 vs Understudy：从重复劳动到演示一次、自动执行</figcaption> </figure>

最近我注意到一个开源项目，叫 Understudy。它的设计思路和我见过的 AI 工具都不一样，用一句话概括：你演示一次，它把你的操作变成一项可重复执行的技能。

AI 助手的"盲区"

先说清楚一个大多数人没意识到的问题。

Cursor 能读你的代码。Claude 能写邮件草稿。Copilot 能建议你下一行怎么写。

但你让它们帮你"把这份表格里的数据导出成 PDF，然后发给张三"——做不到。

不是因为这些模型不够聪明。而是因为它们根本看不到你的屏幕，也没有手。

ChatGPT 活在一个对话框里，进不了你的 Finder，打不开你的 Excel，不知道你刚才截的那张图在哪。Zapier 和 Make 能自动化工作流，但它们需要 API——大多数桌面软件根本没有 API。

这个空白地带，才是大多数上班族每天重复劳动的地方。

实习生的成长路径

Understudy 这个名字来自剧院术语。剧院里的 understudy（替角演员）不需要编剧给他专门写剧本，他只需要坐在旁边，看主角把整个角色演几遍，然后在主角缺席的时候顶上来。

这个类比说透了整个产品的设计逻辑。

项目团队把 agent 的成长分成 5 层：

<figure> <img src=“images/02-timeline.png” alt=“Understudy 五层成长路径” /> <figcaption>Understudy 的成长路径：从看你操作到主动预判需求</figcaption> </figure>

Day 1：看你怎么操作
Week 1：跟着模仿，遇到不确定的会问你
Month 1：记住套路，开始独立执行
Month 3：找到更快的执行路径，替换掉你教它的笨方法
Month 6：主动预判需求，在你开口之前就做好

目前 Layer 1（能看、能点、能操作软件）和 Layer 2（从演示中学习）已经可以用。Layer 3 和 4 部分实现，Layer 5 是长期方向。

不承诺它现在是完整产品。但 Layer 1-2 能跑起来，就已经解决了一个真实的痛点。

演示一次，够了吗？

YouTube 上有一条演示视频（链接），演示的任务是：给一张人物照片做抠图处理，把背景去掉。

全程演示了一次完整操作：打开软件、选择前景目标、确认结果、保存文件。

演示结束后，Understudy 生成了一个 SKILL.md 文件——把整个操作路径结构化地记下来了。

关键不在"记住了哪几步"，而在记住的方式。

传统 RPA（比如 UI.Vision）录制的是坐标：第 3 步点了屏幕左边大概 230px 的那个按钮。下次界面稍微改一下，坐标变了，整个宏就挂了。

Understudy 提取的是意图：第 3 步的意图是"选中前景目标对象"。它记住的是"你想做什么"，而不是"你点了哪里"。

这个区别，说起来简单，工程上的差距是巨大的。

它的底层是什么

Understudy 不只是个 GUI 点击器，它是一个统一的桌面执行环境，把以下几种操作方式接在同一个 agent 循环里：

GUI：截图 + 识别界面元素 + 模拟鼠标键盘操作（macOS 原生）
浏览器：Playwright + Chrome 扩展，登录态也能保持
Shell：完整的命令行访问，CLI 工具、脚本、文件系统都行
Web：实时搜索和页面抓取

你演示的一个任务，可能同时用到上面四种路径。agent 自己决定每一步用哪种方式最快。

运行环境目前只有 macOS，模型支持 GPT-5.4（通过 Codex）及其他主流模型。

和 RPA、Zapier 有什么区别

这个问题值得单独说一下，因为很多人第一反应是"这不就是 RPA 换了个壳"。

不完全是。

工具	原理	局限
UI.Vision / Selenium IDE	坐标/DOM 录制	界面变化就挂
Zapier / Make	API 触发器	无 API 的软件做不到
Cursor / Claude	代码理解 + 对话框	触不到桌面
Understudy	意图提取 + 统一执行	当前仅 macOS，复杂分支能力有限

说白了：它解决了其他工具都在回避的问题——怎么处理没有 API、只有界面的软件。

这正是大多数上班族每天用的那类工具：公司内部系统、传统 ERP、各种只能鼠标点的业务软件。

现在能用，还是等等看？

说实话，现在上手是偏早期的体验。

可以做：

macOS 桌面 GUI 操作
浏览器自动化（包括登录态）
演示一次，自动生成可重复的 SKILL

暂时还做不好：

Windows / Linux（不支持）
极度动态变化的 UI（页面结构每次都不一样）
复杂的条件分支（"如果今天是周五，就做 A，否则做 B"这类逻辑）

如果你平时用 Mac，有一些固定的重复桌面流程，现在就值得试一试。如果你是 Windows 用户，先 star 关注。

最后

AI 帮人干活这件事，正在从"帮你写字"慢慢变成"帮你点鼠标"。这个方向是对的，但工程难度要大得多。

Understudy 的有趣之处不在于它现在有多完善，而在于它的设计思路：不是让你写 prompt，是让你演示一遍。

这对不懂编程、也不想学 prompt 的人来说，是更低的门槛。你会做这件事，就等于教会了 AI 做这件事。

你平时有哪些每天都要重复的桌面操作？如果 AI 学会了，你最想先"解放"哪一个？

来源

本文字数：约 2050 字 | 版本：润色版 | 状态：已过审

只演示一次，AI 就把它变成可重复执行的技能——这不是宏录制，是真正理解意图的 desktop agent。