别急着让 AI 接管一切,先给它搭一个可复用的 Agent 工作台
这两个月,很多人第一次感受到 AI Agent 真开始“像个同事”了。
它不只是回答问题,而是会自己开网页、点按钮、跑脚本、整理文件、生成草稿,甚至能把一串步骤连起来做完。
但很多人一上头,马上就踩进了同一个坑:
AI 看起来已经会干活了,结果一到关键一步就翻车。
不是点错按钮,就是读错文件;不是把上下文弄乱,就是在最不该自动执行的地方太主动。最后你会发现,问题往往不在模型本身,而在于——你根本没给它一个能长期工作的“工位”。
我现在越来越倾向于把它理解成:别急着让 AI 接管一切,先给它搭一个可复用的 Agent 工作台。
这不是比喻,而是一套今天就能抄的配置方法。
为什么 Agent 容易从“惊艳”变成“惊吓”?
原因通常不是它不会,而是它工作的环境太随意。
很多人让 Agent 直接在自己的主力环境里干活:同一个浏览器、同一个下载目录、同一个聊天记录、同一个登录态、同一堆历史文件。短期看起来很方便,长期却会越来越乱。
因为一旦 AI 从“回答”变成“操作”,你面对的风险就不是答错一句话,而是:
- 它在什么浏览器里登录了哪些账号
- 它能读到哪些历史文件和临时下载
- 它能不能直接调用危险脚本
- 它失败以后,你有没有办法回放它刚才到底做了什么
Anthropic 在官方的 computer use 文档里一直强调安全边界、人工确认和环境隔离,这其实已经在暗示一件事:Agent 要真正进入生产,不是先追求更强自治,而是先搭好可控的执行环境。
而 Felix 在谈 Anthropic agent 实践时,也不断提到一个核心思路:不是让模型“无边界地更聪明”,而是让它在一个更适合执行的环境里持续工作。
换句话说,Agent 真正缺的不是更多 prompt,而是一个固定工位。
一个可复用的 Agent 工作台,至少要有 5 层
我会把它拆成五层。你不一定一次做满,但最好按这个顺序补齐。
1)独立浏览器会话:把账号和历史记录隔开
如果 Agent 需要开网页、登后台、翻知识库,第一件事不是给它更高权限,而是给它一个独立浏览器会话。
最简单的做法,不是买第二台电脑,而是先做到:
- 单独浏览器 Profile
- 单独 Cookie / 登录态
- 不复用你的主力浏览器标签页
- 敏感站点不要默认常驻登录
这样做的意义很直接:
它碰到的是“给它准备的环境”,不是你整套私人数字生活。
这一步的收益不只是安全,还有稳定。因为浏览器一旦混着用,历史标签、插件、缓存、登录跳转都会让自动化行为越来越不可预测。
2)独立工作目录:让文件读写有边界、可清理、可归档
第二层,是给 Agent 一个固定工作目录。
比如所有它要读取、生成、改写、导出的文件,都只放在一个专门目录下。不要默认让它在你的桌面、下载、文稿、项目仓库里到处游走。
这样你会立刻得到三个好处:
- 边界清晰:它能碰什么、不能碰什么,一眼就知道
- 失败可清理:跑坏了,整个目录可以打包、回滚、重建
- 结果可追踪:所有中间产物、草稿、截图、日志都在固定位置
很多人觉得“让 AI 自己找文件更智能”,但现实往往是:路径越自由,事故越难查。
3)固定工具清单:别让它会一切,先让它只会你要的那几样
第三层,是工具白名单。
真正实用的 Agent,不需要什么都能做。相反,最稳定的那类往往是:
- 只会访问几个固定站点
- 只会跑几条你验证过的脚本
- 只会写特定目录
- 只会生成特定格式的结果
这也是为什么很多团队后来会开始沉淀自己的脚本、模板、Skill、操作卡片。因为你不是在训练一个“万能 AI”,你是在给一个数字同事配工具箱。
工具越明确,复用越强;工具越泛,出错越像开盲盒。
<figure><img src=“images/01-workbench-stack.png” alt=“01-workbench-stack”></figure>
最关键的一层:关键动作必须有“人工闸门”
很多人会在这里走向两个极端:
- 要么每一步都弹确认,结果自动化彻底失去效率
- 要么全部放权,最后在发送、删除、付款、公开发布上踩雷
我现在更认可的,是一个中间方案:
环境级默认允许,行为级关键动作闸门。
这句话很重要,也是我觉得这轮比很多泛泛 Agent 讨论更值得写的一点。
什么意思?
- 在安全的工作台环境里,让 Agent 默认可以做高频、低风险的小动作
- 读指定目录文件
- 在专用浏览器里切标签
- 跑白名单脚本
- 生成草稿、截图、摘要、表格
- 但一遇到关键动作,就必须把闸门交回给人
- 删除原文件
- 发送消息 / 邮件 / 推文
- 付款 / 下单 / 提交表单
- 改正式库、正式环境、生产配置
- 公开发布内容
这比“每一步都批准一次”更高效,也比“彻底自动化”更可控。
本质上,你不是在给它绝对权限,而是在设计一条默认顺畅、关键停手的操作路径。
<figure><img src=“images/02-gate-flow.png” alt=“02-gate-flow”></figure>
这也是很多人把 Agent 真用进日常工作后,迟早会收敛到的架构。
第 5 层:一定要有日志和回放,不要靠记忆补洞
最后一层,经常被忽略,但对长期使用最重要:日志与回放。
如果 Agent 失败了,你至少应该能回答这几个问题:
- 它刚才读了哪些文件?
- 它打开了哪些页面?
- 它在第几步卡住了?
- 它有没有越过不该越过的边界?
- 这次失败是偶发,还是流程设计本身有洞?
没有日志,你每次都只能凭印象修;有日志,你才能把一次失败变成下一次默认更稳。
这也是为什么真正成熟的流程,不会只看“有没有跑通”,而会同时保存:
- 中间文件
- 浏览器截图
- 草稿版本
- 错误信息
- 最终状态
因为 Agent 不是一次性玩具,它是要迭代的。
普通人今天就能怎么搭?
如果你不想搞得太重,可以先从这份轻量版清单开始:
个人版 Agent 工作台
- 建一个专门目录,只放 AI 任务相关文件
- 开一个专用浏览器 Profile,不混用私人标签页
- 把常用动作收敛成 3~5 个固定脚本或固定网页入口
- 把“发送 / 删除 / 发布 / 支付”全部保留人工确认
- 每次运行后保留草稿和日志,不满意就整目录回滚
团队版 Agent 工作台
- 共享一套可复制的目录结构
- 把脚本、模板、环境变量和权限边界写清楚
- 区分测试环境与正式环境
- 让 Agent 默认只碰测试数据、测试账号、测试浏览器
- 所有对外动作统一放到人工审批节点
这套方法不酷,但特别实用。
因为它解决的是 Agent 真进入日常工作后的三个老问题:
- 能不能稳定重复
- 出了错能不能接管
- 权限放出去以后能不能收得回来
真正拉开差距的,不是模型,而是默认配置
我越来越觉得,下一阶段真正拉开差距的团队,不一定是模型用得最猛的团队,而是最早把 Agent 工作台变成默认配置的团队。
当别人还在每次都重新喂 prompt、重新解释流程、重新人工接盘时,你已经有:
- 固定环境
- 固定工具
- 固定审批点
- 固定日志
- 固定回收路径
这时候,Agent 才会从“偶尔惊艳”变成“稳定产能”。
所以如果你最近也在尝试让 AI 多干一点事,我的建议不是继续追“更强自治”,而是先问自己一个更现实的问题:
你有没有给它准备一个能长期工作的工位?
如果没有,先搭这个。通常这一步,比再换一个模型更值。