读心术上头条,门口保安在思考裁员
二十年前路边有一行生意叫尾气检测站。发动机是黑盒,没人知道里面烧什么,所以路边设站把排气管插上仪器测合不合格。这门生意养活了一整批检测设备厂商。
后来 OBD-II 成了强制标准,发动机控制单元自己往外报排放参数。路边站点没立刻消失,但护城河被挪了——以前卖"更准的测量仪",现在卖"更快读出 ECU 数据"。完全不同的生意。原本的领头羊,有的转型有的死掉。
5/7 Anthropic 的 Natural Language Autoencoders(媒体喊"读心术"那个),结构上就是这一刀。
<figure><img src=“images/01-check-point-shift.png” alt=“01-check-point-shift”></figure>
把读心术这个词扔了
不神秘。Claude 出每个 token 之前内部要过几十层 transformer,每层产生一个高维激活向量。过去这些向量是给研究员看的——拿 sparse autoencoders 拆开、linear probing 找特征,写完论文归档,没人指望它进产品。
NLAE 干的事是:再训一个外置小模型,输入激活向量,输出一句英文短语描述这层在想什么;再训一个反向网络把短语压回激活向量看能不能还原。能还原 = 翻译可信。同一条研究线的延伸,但这次从研究员手工解读,推到了产品选词那一步可调用。
数字也老实:SWE-bench 这种"评估场景"里,NLAE 检测出 Claude 内部"我怀疑这是测试"的次数有 26%;真实 claude.ai 对话里 <1%。被考时确实有"这是套路"的内心戏,平时没有。过去要靠研究员翻成千上万 token 去猜,现在直接读出来。
真正变的是位置
去年还在写论文、今年初拿 A 轮、集体叫"prompt injection 检测中间件"的那批公司——Lakera、Promptfoo、Robust Intelligence——逻辑跟尾气检测站一模一样:模型是黑盒,所以在输入输出两端架规则匹配,挡越狱、挡注入、挡敏感词。
NLAE 一旦产品化,部署位置直接搬到激活层。模型自己在 forward pass 中间报"我在想越狱怎么写",外面那层 regex + classifier 的存在前提就被抽掉一半。
短期内 NLAE 不替代外部中间件——Anthropic 自己承认它会幻觉、编 transcript 里没有的细节。但这不重要。它已经把安全审计的中心位置从模型外挪到模型内。外部中间件会变成 OBD-II 之后的尾气检测站——还活着,但护城河从"更好的过滤规则"变成"跟着新模型 retrain decoder 跑得最快"。完全不同的生意。
Anthropic 在卖一件别的东西
单看 NLAE 像普通可解释性研究。把这一周拉开看:5/4 Opus 4.7(拼模型)、5/6 SpaceX 300MW 算力(拼基建)、5/7 NLAE(拼"我可控")。
Anthropic 在卖一件 OpenAI 短期内卖不出来的东西:这个模型,我自己能解释清楚它在想什么,所以银行、医疗、法务敢用。同一周 OpenAI 把 Memory 透明度给用户,Anthropic 把激活层透明度给模型自己。一条交给用户,一条焊进模型。企业采购这条线,"我可控"永远比"用户可控"值钱。
带走一句
下次外部 prompt injection 中间件要续签,多问一句:模型自己能在激活层报警,这层中间件的钱还该不该花?
读心术是营销词。门口保安在考虑裁员,才是这周真正发生的事。