5 min remaining
0%
人工智能与机器学习

当人工智能解决56年前的数学问题而无人关心时:人工智能霸权的“积累”理论

发现人工智能的快速进步如何导致突破疲劳,重塑我们对工作场所生产力和掌握的理解。

5 min read
Progress tracked
5 分钟阅读
AI Generated Cover for: When AI Solves 56-Year-Old Math Problems and Nobody Cares: The "Accumulation" Theory of AI Supremacy

AI Generated Cover for: When AI Solves 56-Year-Old Math Problems and Nobody Cares: The "Accumulation" Theory of AI Supremacy

上周,谷歌DeepMind发布了一项本应让全世界喝咖啡时呛到的东西。

他们的新系统AlphaProof Nexus破解了九个开放的数学问题——真实的、数十年的难题,已经超越了许多职业生涯。其中两个自1970年以来就一直未被触及。五十六年的人类智慧,计算费用不过几百美元。

想想这个。一个比大多数CEO还要古老的谜题,被一个算法以一台廉价笔记本电脑的价格解决。如果这发生在2024年,《纽约时报》肯定会刊登特刊。LinkedIn会崩溃。我们都会在更新我们的末日计划。

但是上周呢?寂静无声。你可能直接滑过去了。我差点也这样做。

我们并不是麻木不仁。我们感到疲惫。突破疲劳是真实存在的。人工智能发展得如此迅速,打破了如此多“不可思议”的障碍,以至于非凡的事情现在感觉就像是星期二。我们对奇迹变得麻木。

测试消亡的那一天

看看过去两年。

在2021年,MMLU是金标准——机器的SAT。今天,每个前沿模型的得分都超过90%。当整个班级都得了A+时,这个测试就不再告诉你任何有用的信息。

然后出现了GPQA Diamond。他们专门设计这个东西,使其无法通过谷歌搜索。为了被视为一个问题,它必须如此具体,以至于只有在该特定子领域拥有博士学位的人才能解决;即使是来自邻近领域、拥有完整互联网访问权限的博士也会失败。

GPT-4的得分是39%。可敬,但仍然是人类水平。

到2026年初,Gemini 3.1 Pro达到了94.1%。人类博士的平均得分约为65%。在两年内,我们从“比研究生还差”变成了“让领域专家感到尴尬”。

编写考试的人再也无法快速编写考试了。

欢迎来到证明丰盈的时代

上个月,特伦斯·陶——在数学界的地位如同莫扎特在音乐界——在斯坦福大学站起来说了一些让我震惊的话。

我们已经离开了 证明稀缺的时代,进入了 证明丰富的时代

过去,一个重大的证明是一个世代的事件。数学家们会倾尽一生,填满袋子,写满草稿纸,只为将一个猜想从“可能”变为“真实”。这曾是神圣的。它是 稀缺的

现在?厄尔德什问题网站上有超过二十个AI生成的证明在等待人类验证,积压得很严重。机器的速度超过了我们阅读它们的能力。

陶承认他已经暂停了。他跟不上进度。他用了一个我将永远铭记的类比:

AI就像一架直升机,把你送到山顶。你立刻就能看到风景。但你错过了攀登。而且关键是——攀登才是价值所在。

企业困境:你如何衡量“AI能力”?

那这和你周一早上的站会有什么关系?

一切。

在数学中,证明是二元的。你要么破解了,要么没有。客观真理。美妙。

但在你的办公室里?如果你让AI起草一个营销计划、制作一个幻灯片或编写一个Python脚本,输出总是……相当不错 . 这从来不尴尬。总是合理的。

所以每个人在LinkedIn上都声称他们的“生产力提高了10倍”。但上周一位CEO把我叫到一旁,问了一个没人想大声问的问题:

“詹姆斯,我的团队到处都在使用AI。我的API账单高得离谱。但我怎么知道谁真的掌握了这个东西,谁只是擅长看起来很忙?”

这是个尖锐的问题。因为没有真正的衡量方法,我们都只是在自己的Slack频道里自以为是的天才。

答案不是一个工具。它是一种心态。

积累。

横向消费与纵向积累

观察你的团队如何使用人工智能,你会看到两种类型的出现。

消费者(水平型)

他们把要点丢进ChatGPT。它输出一份精美的报告。他们发送出去。他们节省了二十分钟。他们“使用”了人工智能。

但问问他们学到了什么。问问他们今天能做什么是上个月做不到的。你会得到一脸茫然。他们建了一个沙堡。潮水涌来。什么都没留下。

积累者(垂直型)

他们也使用人工智能来写那份报告。但随后他们在聊天中多花了十分钟。“看看我这周完成了什么。我刚刚使用的哪个技术技能或战略框架是我90天前没有的工具?”

他们记录下来。他们绘制出图谱。他们掌控了它。

三个月后,消费者仍在将繁琐的工作转移给机器。累积器明显不同。他们可以指出自己所构建的具体能力。他们不仅更快——他们还 更高

所以问问自己: 你是在浇筑混凝土,还是在建造沙堡?

重要的2.5%

回到AlphaProof Nexus。九个解决的问题。听起来令人难以置信。

但DeepMind也告诉我们,它尝试了353个。

它的成功率是 2.5%

在任何其他情况下,这都是一个不及格的成绩。但在数学中,这2.5%是 永久的 。每一个被确认的证明都成为基础。机器在此基础上向更高的目标迈进。它不会忘记。它不会重新开始。它 积累

这就是整个游戏。

你并不是在与人工智能的原始智力竞争。你永远不会。你的优势在于你深厚的人类领域专业知识——那些算法无法触及的东西(至少现在是这样)。在谈判中读取客户的微表情。感知团队即将崩溃的时刻。知道在数据是50/50时该承担哪个风险。

你利用这种判断力给人工智能提供精确而强大的指令。人工智能为你提供杠杆。你利用这个杠杆进一步提升你的判断力。

这就是飞轮。这就是积累。

当你向上构建时,人工智能成为你的引擎。当你横向漂移时,它就成了你的拐杖。

你在构建哪一个?

詹姆斯首席执行官,水星科技解决方案加速数字化。