一个菲尔兹奖得主，在博客里轻轻写了一句"门槛刚刚被抬高了"

2016 年人机围棋第二局，AlphaGo 走出第 37 手"肩冲"。

那一手下出来，全世界职业棋手第一反应是同一句："AI 走错了。"柯洁直播间里说这是 bug。樊麾盯着棋盘看了几秒，从椅子上站起来，走出了演播室。

几小时后复盘的人才意识到：那不是 bug，是两千年棋谱里没人想过、但事后被证明绝佳的一手。

围棋圈花了几个月才接受"AI 走的不是错棋，是人没想到的好棋"——那是评价一手棋的尺子被换掉的"换尺时刻"。

5 月 8 日，数学界刚刚迎来同一种换尺时刻。这次没人开发布会、没人剪视频，是一个英国数学家在自己的博客上不动声色记下来的。

他叫 Tim Gowers，1998 年的菲尔兹奖得主、剑桥大学教授、Polymath 项目发起人——数学界顶峰那一档的人。

他干了什么

Gowers 把 Mel Nathanson 论文里的一个开放问题甩给了 ChatGPT 5.5 Pro：在加性数论里，构造一个集合让它的"和子集"（sumset）大小是 k，集合本身的"直径"（diameter）至少要多大？

Nathanson 自己在论文里给的构造是用 2 的幂次（1, 2, 4, 8, 16…）做一个 Sidon set——加性数论的基本对象——由此推出一个指数级的上界。

模型思考了 16 分 41 秒，给出第一版构造。又花 2 分 23 秒重写成 LaTeX 论文格式。

模型给的构造不是 2 的幂次。它换成了一个已知更高效的 quadratic-diameter Sidon set，再加一个等差数列、一个额外点。

这一换，把 Nathanson 那个隐式的指数上界，直接降成了多项式上界。是组合数学里的"已知最佳"。

中文 AI 圈最容易把这件事翻译成"AI 又解了一道数学题"——但 Gowers 这篇博客的真正刺点不在那里。

刺点是：模型给的解不是 Nathanson 论文里的那个解，是比 Nathanson 论文里的解更好的另一个解。

Nathanson 写论文时，已经穷尽过 Sidon set 这个工具箱。他选 2 的幂次，是在那个工具箱里挑出来认为合适的零件。模型这次干的事情是——在 Nathanson 已经穷尽过的同一个工具箱里，挑了一个更好的零件递过去。

“答对题"和"在原作者穷尽过的工具箱里挑更好的零件递回去”，中间隔着一整个研究级数学家的判断力。

Gowers 在博客里只轻飘飘留下一句：

“the bar has just been raised”——门槛刚刚被抬高了。

后面紧跟一句更狠的：以前数学家圈子看到"LLM 解了某某问题"的新闻还能笑一下，因为很多所谓的"解"不过是模型从 literature 搬出来的；现在，“the laughter has become quieter”——笑声变小了。

同样的话从 OpenAI 嘴里出来叫 “groundbreaking, revolutionary”，从一个菲尔兹奖得主嘴里出来就是这两句。分量不一样。

是整个用 benchmark 给模型打分的圈子。

过去几年评模型靠 HumanEval、MMLU、GPQA 这一类跑分。这些 benchmark 的设计者本身就在想"模型能不能答对"——而题目答案早就在训练集里。

Gowers 这次给的是另一种格式：找一篇论文里的开放问题，原作者写论文时自己都还没解决，让模型试。

这种测试模型连训练集都没见过，也没法刷分——因为没有标准答案，"标准"本身就是原论文的解，而模型干的事情是给一个比原论文更好的解。

AlphaGo 之后，职业围棋圈用了几个月才接受第 37 手不是 bug。这次中文 AI 圈用多久？

下次看到"某模型在某 benchmark 涨了 X%"的新闻，记得追一句：它递的零件，比原作者的更好吗？