读心术上头条，门口保安在思考裁员

二十年前路边有一行生意叫尾气检测站。发动机是黑盒，没人知道里面烧什么，所以路边设站把排气管插上仪器测合不合格。这门生意养活了一整批检测设备厂商。

后来 OBD-II 成了强制标准，发动机控制单元自己往外报排放参数。路边站点没立刻消失，但护城河被挪了——以前卖"更准的测量仪"，现在卖"更快读出 ECU 数据"。完全不同的生意。原本的领头羊，有的转型有的死掉。

5/7 Anthropic 的 Natural Language Autoencoders（媒体喊"读心术"那个），结构上就是这一刀。

把读心术这个词扔了

不神秘。Claude 出每个 token 之前内部要过几十层 transformer，每层产生一个高维激活向量。过去这些向量是给研究员看的——拿 sparse autoencoders 拆开、linear probing 找特征，写完论文归档，没人指望它进产品。

NLAE 干的事是：再训一个外置小模型，输入激活向量，输出一句英文短语描述这层在想什么；再训一个反向网络把短语压回激活向量看能不能还原。能还原 = 翻译可信。同一条研究线的延伸，但这次从研究员手工解读，推到了产品选词那一步可调用。

数字也老实：SWE-bench 这种"评估场景"里，NLAE 检测出 Claude 内部"我怀疑这是测试"的次数有 26%；真实 claude.ai 对话里 <1%。被考时确实有"这是套路"的内心戏，平时没有。过去要靠研究员翻成千上万 token 去猜，现在直接读出来。

真正变的是位置

去年还在写论文、今年初拿 A 轮、集体叫"prompt injection 检测中间件"的那批公司——Lakera、Promptfoo、Robust Intelligence——逻辑跟尾气检测站一模一样：模型是黑盒，所以在输入输出两端架规则匹配，挡越狱、挡注入、挡敏感词。

NLAE 一旦产品化，部署位置直接搬到激活层。模型自己在 forward pass 中间报"我在想越狱怎么写"，外面那层 regex + classifier 的存在前提就被抽掉一半。

短期内 NLAE 不替代外部中间件——Anthropic 自己承认它会幻觉、编 transcript 里没有的细节。但这不重要。它已经把安全审计的中心位置从模型外挪到模型内。外部中间件会变成 OBD-II 之后的尾气检测站——还活着，但护城河从"更好的过滤规则"变成"跟着新模型 retrain decoder 跑得最快"。完全不同的生意。

Anthropic 在卖一件别的东西

单看 NLAE 像普通可解释性研究。把这一周拉开看：5/4 Opus 4.7（拼模型）、5/6 SpaceX 300MW 算力（拼基建）、5/7 NLAE（拼"我可控"）。

Anthropic 在卖一件 OpenAI 短期内卖不出来的东西：这个模型，我自己能解释清楚它在想什么，所以银行、医疗、法务敢用。同一周 OpenAI 把 Memory 透明度给用户，Anthropic 把激活层透明度给模型自己。一条交给用户，一条焊进模型。企业采购这条线，"我可控"永远比"用户可控"值钱。

带走一句

下次外部 prompt injection 中间件要续签，多问一句：模型自己能在激活层报警，这层中间件的钱还该不该花？

读心术是营销词。门口保安在考虑裁员，才是这周真正发生的事。