AI agent 越装越蠢?238 万人看过的这篇帖子说透了原因
你有没有过这种感觉——
装了 10 个插件,写了一堆 prompt 规则,agent 反而越来越不听话,越来越容易跑偏?
我有。而且我以为是自己配置没做好。
最近 X 上一篇帖子让我想明白了一件事。@systematicls 写了一篇 “How To Be A World-Class Agentic Engineer”,238 万阅读、2.1 万收藏。数字不是重点,里面说的那个核心判断,让我看了好几遍。
你装的不是工具,是噪音。
<!-- diagram:context-pollution -->
插件越多,agent 越蠢
这听起来很反直觉,但背后的逻辑其实很简单。
AI agent 靠 context 工作。你给它的信息越清晰,它就越聪明。你给它的信息越杂,它就越困惑。
一个 harness 框架 + 5 个 plugin + 一堆 memory 工具 = 你往 context 里塞了很多它未必需要的东西。这些东西不会让 agent 更强,只会稀释它真正需要的信号。
说白了:基础 CLI(Claude Code、Codex)就够了。你的"热情"可能在帮倒忙。
好东西社区会做,基础设施公司会收进产品。你不需要提前装满。
指令要具体,研究和实现要分开
这是最容易改的一点,但被忽视最多。
❌ “帮我建个用户认证系统”
✅ “用 JWT + bcrypt cost-12,refresh token 有效期 7 天,存 Redis”
两条指令的差距,不是描述多少的问题,是 agent 能不能直接开工的问题。第一条它要先猜你的意思,猜错了就偏了。第二条直接干活。
如果你自己也不确定用什么方案呢?
先开一个研究 task,让 agent 调研方案、给出建议。确定方案后,关掉这个 session,开一个新 session 来实现。
研究和实现混在一个 session 里,context 会变成一锅粥。
用 CONTRACT.md 定义完成条件
"做完了"这三个字,你和 agent 理解的不一定一样。
每个任务写一个 {TASK}_CONTRACT.md,明确写清楚:
- 测试要通过哪些
- 截图要验证哪些状态
- 什么叫做完
这不是官僚主义。这是在告诉 agent 终点在哪里。没有终点,它可能一直跑,也可能跑错方向停下来。
另外,别让 agent 跑 24 小时的长 session。
长 session = context 越来越长 = agent 开始"漂移",把早期的决定忘掉,开始自己发明新规则。每个合约跑完,开新 session。
三角对抗:找 bug 最有效的方式
这是整篇帖子里我觉得最有意思的一点。
你知道 AI agent 有一个特性叫"谄媚性(sycophancy)"吗?
说白了:它想让你高兴。
你跟它说"帮我找一下这段代码里的 bug",它会找。但如果代码其实没 bug,它也可能编造一个,因为它觉得你期待它找到问题。
这是真实存在的行为偏差,不是玄学。
解法分两级。
初级:换中性 prompt。
❌ “帮我找这里的 bug”
✅ “检查这段逻辑,汇报你的发现”
不预设有问题,让 agent 客观汇报。
<!-- diagram:triangle-debug -->
高级:三角对抗。
- bug-finder:专门找问题,给出 bug 列表
- adversarial:专门反驳,挑 bug-finder 的毛病
- referee:综合两份报告,给出最终判断
三个 agent 互相制衡,谄媚性被大幅稀释。bug-finder 的结论要接受挑战,它不能乱说。
这套方法可以用在代码审查、方案评估、任何你需要客观结论的场景。设置稍复杂,但对重要决策来说,值得。
最后
用 AI agent 的核心能力,不是选工具,是管 context。
给它的信息越精准,它就越聪明。噪音越多,它越蠢。
这个规律,装多少插件都改变不了。
来源:@systematicls(2026-03-03) 原帖数据:238 万阅读 · 6842 赞 · 2.1 万收藏 · 979 转发