一个菲尔兹奖得主,在博客里轻轻写了一句"门槛刚刚被抬高了"
2016 年人机围棋第二局,AlphaGo 走出第 37 手"肩冲"。
那一手下出来,全世界职业棋手第一反应是同一句:"AI 走错了。"柯洁直播间里说这是 bug。樊麾盯着棋盘看了几秒,从椅子上站起来,走出了演播室。
几小时后复盘的人才意识到:那不是 bug,是两千年棋谱里没人想过、但事后被证明绝佳的一手。
围棋圈花了几个月才接受"AI 走的不是错棋,是人没想到的好棋"——那是评价一手棋的尺子被换掉的"换尺时刻"。
5 月 8 日,数学界刚刚迎来同一种换尺时刻。这次没人开发布会、没人剪视频,是一个英国数学家在自己的博客上不动声色记下来的。
他叫 Tim Gowers,1998 年的菲尔兹奖得主、剑桥大学教授、Polymath 项目发起人——数学界顶峰那一档的人。
<figure><img src=“images/01-three-bars.png” alt=“01-three-bars”></figure>
他干了什么
Gowers 把 Mel Nathanson 论文里的一个开放问题甩给了 ChatGPT 5.5 Pro:在加性数论里,构造一个集合让它的"和子集"(sumset)大小是 k,集合本身的"直径"(diameter)至少要多大?
Nathanson 自己在论文里给的构造是用 2 的幂次(1, 2, 4, 8, 16…)做一个 Sidon set——加性数论的基本对象——由此推出一个指数级的上界。
模型思考了 16 分 41 秒,给出第一版构造。又花 2 分 23 秒重写成 LaTeX 论文格式。
模型给的构造不是 2 的幂次。它换成了一个已知更高效的 quadratic-diameter Sidon set,再加一个等差数列、一个额外点。
这一换,把 Nathanson 那个隐式的指数上界,直接降成了多项式上界。是组合数学里的"已知最佳"。
模型不是在答题,是在改论文
中文 AI 圈最容易把这件事翻译成"AI 又解了一道数学题"——但 Gowers 这篇博客的真正刺点不在那里。
刺点是:模型给的解不是 Nathanson 论文里的那个解,是比 Nathanson 论文里的解更好的另一个解。
Nathanson 写论文时,已经穷尽过 Sidon set 这个工具箱。他选 2 的幂次,是在那个工具箱里挑出来认为合适的零件。模型这次干的事情是——在 Nathanson 已经穷尽过的同一个工具箱里,挑了一个更好的零件递过去。
“答对题"和"在原作者穷尽过的工具箱里挑更好的零件递回去”,中间隔着一整个研究级数学家的判断力。
<figure><img src=“images/02-three-lines.png” alt=“02-three-lines”></figure>
菲尔兹奖得主的克制写法
Gowers 在博客里只轻飘飘留下一句:
“the bar has just been raised”——门槛刚刚被抬高了。
后面紧跟一句更狠的:以前数学家圈子看到"LLM 解了某某问题"的新闻还能笑一下,因为很多所谓的"解"不过是模型从 literature 搬出来的;现在,“the laughter has become quieter”——笑声变小了。
同样的话从 OpenAI 嘴里出来叫 “groundbreaking, revolutionary”,从一个菲尔兹奖得主嘴里出来就是这两句。分量不一样。
真正受冲击的不是数学家
是整个用 benchmark 给模型打分的圈子。
过去几年评模型靠 HumanEval、MMLU、GPQA 这一类跑分。这些 benchmark 的设计者本身就在想"模型能不能答对"——而题目答案早就在训练集里。
Gowers 这次给的是另一种格式:找一篇论文里的开放问题,原作者写论文时自己都还没解决,让模型试。
这种测试模型连训练集都没见过,也没法刷分——因为没有标准答案,"标准"本身就是原论文的解,而模型干的事情是给一个比原论文更好的解。
AlphaGo 之后,职业围棋圈用了几个月才接受第 37 手不是 bug。这次中文 AI 圈用多久?
下次看到"某模型在某 benchmark 涨了 X%"的新闻,记得追一句:它递的零件,比原作者的更好吗?