← 随机比特 / 所有内容

HyperAgents 真正新的地方,不是“又一个会做任务的 agent”,而是它把“如何改进 agent 本身”也做成了 agent 可重写、可优化的一部分。

2026-03-27 · 随机比特

Meta 放出 HyperAgents:AI 开始改自己的“升级器”了

这两个月,大家聊 agent,聊得最多的还是一类问题:

它能不能更稳一点?能不能少跑偏一点?能不能别每次都要我重新教?

大多数 agent 到今天,进步方式其实很朴素:换个模型、补几条 prompt、再接几个工具。

所以我看到 Meta Research 新放出来的 HyperAgents 时,真正让我停下来的一点,不是“它又能做多少任务”,而是它想改的东西更底层。

它不是只让 agent 去完成任务。它还想让 agent 去改写自己的“改进方式”。

这就是论文标题里那句 self-referential self-improving agents 的意思:自指、自我改进。

以前的 agent,更多是在“干活”

今天多数 agent 的逻辑都很像一个熟练但健忘的实习生。

你给它目标,它拆步骤;你给它工具,它调用;做得不好,你回来改 prompt、换工具、补规则。

注意,真正负责“让它变强”的,还是人。

也就是说,agent 会执行,但不真正掌握自己的升级闭环

这就是 HyperAgents 想往前推的一步。

根据 GitHub README 和论文摘要,它把 agent 系统拆成两层:

关键在于,第二层不是写死的外部脚本,也不是人类手动调参,而是 agent 系统内部可被继续修改的一部分。

如果你平时写代码,可以把它想成两份程序:

  1. task program:这次怎么完成任务
  2. meta program:发现问题后,下一轮怎么改 task program,甚至怎么改自己的优化规则

过去很多系统只优化第一层。HyperAgents 的新意,是想把第二层也拉进来一起优化。

真正新的,不是“会反思”,而是“反思器也能被改”

现在很多 agent 产品也会说自己有 reflection、有 critique、有 retry。

但大多数“反思”,本质上还是固定模板:做完 → 检查 → 重试。

这当然有用,但上限也明显。因为它只是按你预设的方式反思。

HyperAgents 更激进的地方在这里:连“怎么反思、怎么改进、改进规则怎么迁移”都变成可学习对象。

论文里提到的直觉,是把任务求解和元优化做成一个统一系统。你可以把它理解成:

这听起来很绕,但它的现实意义其实很直接。

以前我们优化 agent,像在给一个人补操作手册。

现在这条路开始变成:给它一个能重写手册的机制。

这就是为什么我觉得 HyperAgents 值得看。它讨论的不是“下一次输出更好一点”,而是agent 的进化接口终于开始暴露出来了

这会把 agent 竞争,推到下一层

如果这个方向成立,未来 agent 产品真正拉开差距的地方,可能不再只是:

而是:

谁更会让 agent 自己变强。

这件事对 AI coding 尤其重要。

因为现在很多 coding agent 的瓶颈,已经不是“不会写第一版”,而是:

你会发现,真正贵的不是第一次生成,而是后面的反复试错。

HyperAgents 这类方法如果继续成熟,最直接的价值就是:把“试错”变成可积累资产,而不是一次性上下文消耗品。

论文摘要里还提到,它不只在编程任务上评估,还覆盖了 7 个 benchmark、17 个任务,目标是从 coding 往数学、科学推理等更广任务延伸。这个信号很重要。

因为这说明它想证明的,不是“再做一个 coding benchmark SOTA”,而是自我改进机制本身有跨任务迁移价值

但别急着把它吹成 AGI

这类研究最容易被讲成一句很刺激的话:AI 开始自我进化了。

我不太认同这种喊法。

原因很简单。

第一,它离稳定、低成本、产品级落地,还有明显距离。

第二,自我改进不等于无限改进。系统能不能真的持续变好,取决于反馈质量、评价函数、约束边界,少一个都可能把它带歪。

第三,能在 benchmark 上成立,不代表马上能进真实复杂工作流。

所以更准确的说法不是“AI 要自己进化成超级智能了”,而是:

agent 研发的重心,开始从“怎么让它完成任务”转向“怎么让它更会改自己”。

这两者差很多。

前者像造一个厉害员工,后者像造一个会训练员工、还会迭代培训体系的组织。

对普通开发者,这意味着什么?

如果你现在就在用 Claude Code、Cursor、Codex 这类工具,我觉得 HyperAgents 至少提醒了三件事。

第一,别再把 agent 提升理解成“堆更多工具”。真正稀缺的是改进闭环。

第二,未来最值钱的,不只是 prompt,而是反馈结构:怎么验收、怎么记录失败、怎么把失败变成下一轮更好的规则。

第三,很多团队接下来该积累的,不只是 agent 使用技巧,而是自己的 meta layer——你们到底怎样复盘、怎样抽象经验、怎样把方法沉淀给下一轮 agent。

这可能比再换一个模型,更影响结果。

最后一句

我觉得 HyperAgents 值得关注,不是因为它已经把答案给出来了。

而是因为它把问题提对了。

下一阶段比的,可能不是谁的 agent 更多、谁接的工具更全,而是谁先把“让 agent 持续进化”这件事做成系统能力。

这才是它最像下一代 agent 的地方。


来源