Meta 放出 HyperAgents：AI 开始改自己的“升级器”了

这两个月，大家聊 agent，聊得最多的还是一类问题：

它能不能更稳一点？能不能少跑偏一点？能不能别每次都要我重新教？

大多数 agent 到今天，进步方式其实很朴素：换个模型、补几条 prompt、再接几个工具。

所以我看到 Meta Research 新放出来的 HyperAgents 时，真正让我停下来的一点，不是“它又能做多少任务”，而是它想改的东西更底层。

它不是只让 agent 去完成任务。它还想让 agent 去改写自己的“改进方式”。

这就是论文标题里那句 self-referential self-improving agents 的意思：自指、自我改进。

以前的 agent，更多是在“干活”

今天多数 agent 的逻辑都很像一个熟练但健忘的实习生。

你给它目标，它拆步骤；你给它工具，它调用；做得不好，你回来改 prompt、换工具、补规则。

注意，真正负责“让它变强”的，还是人。

也就是说，agent 会执行，但不真正掌握自己的升级闭环。

这就是 HyperAgents 想往前推的一步。

根据 GitHub README 和论文摘要，它把 agent 系统拆成两层：

一层负责当前任务怎么做
一层负责“这个 agent 下次该怎么做得更好”

关键在于，第二层不是写死的外部脚本，也不是人类手动调参，而是 agent 系统内部可被继续修改的一部分。

如果你平时写代码，可以把它想成两份程序：

task program：这次怎么完成任务
meta program：发现问题后，下一轮怎么改 task program，甚至怎么改自己的优化规则

过去很多系统只优化第一层。HyperAgents 的新意，是想把第二层也拉进来一起优化。

真正新的，不是“会反思”，而是“反思器也能被改”

现在很多 agent 产品也会说自己有 reflection、有 critique、有 retry。

但大多数“反思”，本质上还是固定模板：做完 → 检查 → 重试。

这当然有用，但上限也明显。因为它只是按你预设的方式反思。

HyperAgents 更激进的地方在这里：连“怎么反思、怎么改进、改进规则怎么迁移”都变成可学习对象。

论文里提到的直觉，是把任务求解和元优化做成一个统一系统。你可以把它理解成：

agent 不只在解决题目
它也在改自己的解题方法
甚至会改“如何改解题方法”的方法

这听起来很绕，但它的现实意义其实很直接。

以前我们优化 agent，像在给一个人补操作手册。

现在这条路开始变成：给它一个能重写手册的机制。

这就是为什么我觉得 HyperAgents 值得看。它讨论的不是“下一次输出更好一点”，而是agent 的进化接口终于开始暴露出来了。

这会把 agent 竞争，推到下一层

如果这个方向成立，未来 agent 产品真正拉开差距的地方，可能不再只是：

模型接得多不多
工具链全不全
prompt 写得花不花

而是：

谁更会让 agent 自己变强。

这件事对 AI coding 尤其重要。

因为现在很多 coding agent 的瓶颈，已经不是“不会写第一版”，而是：

第二轮修得不够准
错误经验留不下来
换任务就像重新投胎
同样的坑要一遍遍踩

你会发现，真正贵的不是第一次生成，而是后面的反复试错。

HyperAgents 这类方法如果继续成熟，最直接的价值就是：把“试错”变成可积累资产，而不是一次性上下文消耗品。

论文摘要里还提到，它不只在编程任务上评估，还覆盖了 7 个 benchmark、17 个任务，目标是从 coding 往数学、科学推理等更广任务延伸。这个信号很重要。

因为这说明它想证明的，不是“再做一个 coding benchmark SOTA”，而是自我改进机制本身有跨任务迁移价值。

但别急着把它吹成 AGI

这类研究最容易被讲成一句很刺激的话：AI 开始自我进化了。

我不太认同这种喊法。

原因很简单。

第一，它离稳定、低成本、产品级落地，还有明显距离。

第二，自我改进不等于无限改进。系统能不能真的持续变好，取决于反馈质量、评价函数、约束边界，少一个都可能把它带歪。

第三，能在 benchmark 上成立，不代表马上能进真实复杂工作流。

所以更准确的说法不是“AI 要自己进化成超级智能了”，而是：

agent 研发的重心，开始从“怎么让它完成任务”转向“怎么让它更会改自己”。

这两者差很多。

前者像造一个厉害员工，后者像造一个会训练员工、还会迭代培训体系的组织。

对普通开发者，这意味着什么？

如果你现在就在用 Claude Code、Cursor、Codex 这类工具，我觉得 HyperAgents 至少提醒了三件事。

第一，别再把 agent 提升理解成“堆更多工具”。真正稀缺的是改进闭环。

第二，未来最值钱的，不只是 prompt，而是反馈结构：怎么验收、怎么记录失败、怎么把失败变成下一轮更好的规则。

第三，很多团队接下来该积累的，不只是 agent 使用技巧，而是自己的 meta layer——你们到底怎样复盘、怎样抽象经验、怎样把方法沉淀给下一轮 agent。

这可能比再换一个模型，更影响结果。

最后一句

我觉得 HyperAgents 值得关注，不是因为它已经把答案给出来了。

而是因为它把问题提对了。

下一阶段比的，可能不是谁的 agent 更多、谁接的工具更全，而是谁先把“让 agent 持续进化”这件事做成系统能力。

这才是它最像下一代 agent 的地方。

来源

Meta Research / GitHub: https://github.com/facebookresearch/hyperagents
arXiv 摘要页: https://arxiv.org/abs/2603.19461