← 随机比特 / 所有内容

agency agents

2026-03-05 · 随机比特

我给 AI 编码团队加了"工种认知"

今天 GitHub 热榜第一是个叫 agency-agents 的项目,作者把迭代了几个月的 55 个 AI Agent 人格文件全部开源了。

前端工程师、后端架构师、UX 研究员、TikTok 策划、Reddit 运营……一整套虚拟公司的人员配置。

看完我的第一反应是:思路对了,但直接抄不行。

它做对了什么

大多数人用 AI 写代码,prompt 是这样的:

“帮我写一个 React 组件,要求响应式。”

agency-agents 的做法不一样。它给每个 AI 角色定义了四层结构:

比如它的 Frontend Developer 角色,不只是说"你会写 React",而是明确要求 Core Web Vitals 优化、WCAG 无障碍合规,还附了一个带虚拟滚动的 DataTable 组件样板。

说白了,它把"给 AI 一句话指令"升级成了"给 AI 一份岗位说明书"。

<!-- diagram:compare -->

照搬不行

理想很美好,但 55 个角色文件对 solo developer 来说太重了。

我平时用 OpenClaw 编排多个 Coding Agent(Claude Code、Codex、Gemini CLI),通过 tmux 隔离各 Agent 的运行环境。系统已经能自动选任务、派 Agent、跑测试、提交代码。

问题出在哪?Agent 只知道"做什么",不知道"我是谁"。

一个写前端的 Agent 和一个写后端的 Agent,拿到的 prompt 结构完全一样——只是任务描述不同。结果就是:前端 Agent 写出不符合 UI 规范的代码,后端 Agent 忘了加超时重试。每次都要人工 review 补漏。

我实际落地的 5 件事

看完 agency-agents 的结构后,我在自己的系统里改了 5 个地方。不是照搬它的文件,而是借鉴"角色 = 身份 + 规则 + 样板 + 指标"这个模式。

1. 给编码 Agent 建了角色目录

在编排 Coding Agent 的 skill 下面新建了 roles/ 目录:

roles/
├── frontend.md    # Vue 3 + Vite 规范、组件样板
├── backend.md     # Node.js + TS 规范、API 样板
└── e2e-tester.md  # Playwright 测试规范

每个文件包含技术栈、代码规范、质量标准和交付样板。启动 Agent 时,根据任务类型自动拼接对应 role 到 prompt 开头。

拼接很简单:

ROLE=$(cat roles/frontend.md)
bash launch.sh gemini stock-kline ~/code/stock "$ROLE

当前任务:实现 K 线图组件"

这样 Agent 从启动的第一秒就知道:我是前端工程师,代码用 2 空格缩进,颜色走 CSS 变量,改了页面必须跑 E2E。

2. 给内容管线加了角色定义

我有一条自动化内容管线,每天采集全网资讯、自动选题、写稿、审核、发布到公众号和小红书。之前 SKILL.md 只定义了"怎么跑管线",没有定义"你应该用什么标准判断选题好不好"。

现在加了三段:

Identity——你是资深内容编辑,不是搬运工。你能区分"真正重要的变化"和"又一个 API wrapper"。

Decision Framework——四条排序规则:读者价值 > 流量潜力 > 新颖度;可验证 > 有观点 > 有情绪。

Success Metrics——选题命中率 ≥70%、阅读完成率 ≥40%、转发率 ≥5%。有了数字基线,管线才能自己判断"这篇到底写得好不好"。

3. 给项目迭代加了成功指标

项目自动迭代的 skill 以前只看"任务完不完得成",没有量化标准。现在加了:

指标 目标
单轮完成率 ≥80% 任务在 45min 内完成
测试通过率 100% commit 前全部通过
连续失败率 <10% 轮次触发暂停
Agent 首选成功率 ≥70% 无需降级

这些指标记录在 memory 日志里,每周复盘时回顾。

4. 共享内容质量基线

我在跨 Agent 的共享知识层(类似团队 wiki)里加了一张内容质量基线表。所有内容类 Agent 读同一份标准:

这样不管是自动选题还是自动审核,判断标准是统一的。

5. 没有照搬的:按平台拆独立 Agent

agency-agents 把 Twitter 运营和 TikTok 策划拆成两个独立角色。我没这么做——对 solo creator 来说维护成本太高。

我的做法是在同一条管线里加了轻量的"平台适配"步骤。一篇稿子写完后,自动生成两个版本:公众号版(长文、有代码)和小红书版(短句、emoji、话题标签)。同一个 Agent,不同的输出格式。

核心收获

agency-agents 这个项目真正有价值的不是 55 个文件,而是一个认知:

AI Agent 的能力上限,很大程度上取决于你给它的角色定义有多清晰。

一句话 prompt 能完成任务,但完成质量靠运气。给它身份、规则、样板、指标,完成质量就变成了可控的。

这和管理真人团队其实是一个道理——你不能只说"把这个做了",你得说清楚"你的职责是什么、标准是什么、好的产出长什么样"。

如果你也在用 Claude Code 或类似工具做开发,可以试试这个思路:不要只写任务 prompt,写一份角色说明书。效果会好不少。


相关链接