上週,Google DeepMind 發布了一個應該讓全世界都噎到咖啡的東西。
他們的新系統 AlphaProof Nexus 破解了九個未解的數學問題——真實的、數十年的怪物,這些問題已經超越了許多人的職業生涯。其中兩個自1970年以來就沒有被觸碰過。五十六年的智慧,計算成本卻只花了幾百美元。
想想這一點。一個比大多數執行長還要古老的謎題,卻被一個算法以一臺便宜筆記型電腦的價格解決。如果這在2024年發生,紐約時報會發行特別版。LinkedIn 會崩潰。我們都會更新我們的末日簡報。
但是上週呢?一片寂靜。你可能直接滑過去。我差點也這樣做。
我們並不是厭倦。我們感到疲憊。突破疲勞是真實的。人工智慧發展得如此迅速,打破了許多「不可能」的障礙,以至於非凡的事情現在感覺就像是星期二。我們對奇蹟變得麻木。
測試消亡的那一天
看看過去兩年。
在2021年,MMLU是黃金標準——機器的SAT。今天,每個前沿模型的分數都超過90%。當整個班級都獲得A+時,這個考試就不再告訴你任何有用的資訊了。
然後出現了GPQA Diamond。他們專門設計這個東西,使其無法在Google上找到。要符合問題的資格,它必須具體到如此殘酷的程度,只有在該特定子領域的博士才能解決;來自鄰近領域的博士即使擁有完整的網際網路訪問權限也會失敗。
GPT-4的得分是39%。雖然可敬,但仍然是人類的水平。
到2026年初,Gemini 3.1 Pro的得分達到94.1%。人類博士的平均分數約為65%。在兩年內,我們從「比研究生還差」變成了「讓領域專家感到尷尬」。
出題的人已經無法再快速寫出考題了。
歡迎來到證明豐富的時代
上個月,特倫斯·陶——對數學而言就像莫札特對音樂的地位——在史丹佛大學站起來說了一些讓我震驚的話。
我們已經離開了 證明稀缺的時代,並進入了 證明豐富的時代。
以前,一個重大的證明是一個世代的事件。數學家們會燃燒自己的生命,裝滿袋子裡的草稿紙,只為了將一個猜想從「也許」推進到「真的」。這是神聖的。它是 稀有的。
現在?Erdős 問題網站有超過二十個 AI 生成的證明在那裡積壓,等待人類來驗證。機器的速度超過了我們閱讀它們的能力。
陶(Tao)承認他已經暫停了。他無法跟上。而且他用了個比喻,將永遠留在我心中:
AI 就像一架直升機,把你送到山頂。你立刻就能看到風景。但你錯過了攀登。而重點是——攀登才是價值所在。
企業困境:你如何衡量「AI 熟練度」?
那這和你週一早上的站立會有什麼關係?
一切都有關係。
在數學中,證明是二元的。你要麼破解了,要麼沒有。客觀真理。美麗。
但在你的辦公室裡?如果你請 AI 擬定一個行銷計畫、製作一個簡報,或寫一個 Python 程式,輸出總是……相當不錯 這從來不會讓人感到尷尬。這總是合理的。
所以每個人在 LinkedIn 上都聲稱他們的「生產力提升了十倍」。但上週一位 CEO 把我叫到一旁,問了一個沒有人想大聲問的問題:
「詹姆斯,我的團隊到處都在使用 AI。我的 API 費用高得驚人。但我怎麼知道誰真的掌握了這個東西,誰只是很擅長看起來忙碌?」
這是一個尖銳的問題。因為如果沒有真正的衡量方式,我們都只是自己 Slack 頻道中的天才。
答案不是一個工具,而是一種心態。
累積。
橫向消費 vs. 垂直累積
觀察你的團隊如何使用人工智慧,你會看到兩種不同的物種出現。
消費者(橫向)
他們將重點整理丟進 ChatGPT。它產出一份精緻的報告。他們發送了它。他們節省了二十分鐘。他們「使用」了人工智慧。
但問問他們學到了什麼。問問他們今天能做什麼是上個月做不到的。你會得到一個空洞的凝視。他們建造了一座沙堡。潮水來了。什麼都沒有留下。
累積者(縱向)
他們也使用人工智慧來撰寫那份報告。但接著他們在聊天中多花了十分鐘。 「看看我這週完成了什麼。我剛剛使用的哪一項技術技能或策略框架是我在九十天前的工具箱裡沒有的?」
他們記錄下來。他們繪製出來。他們擁有它。
三個月後,消費者仍然將繁瑣的工作轉交給機器。累積器明顯不同。他們可以指出他們所建立的具體能力。他們不僅更快——他們還是 更高 。
所以問問自己: 你是在澆築混凝土,還是在建造沙堡?
2.5% 的重要性
回到 AlphaProof Nexus。九個解決的問題。聽起來令人難以置信。
但 DeepMind 也告訴我們它嘗試了 353 個。
它的成功率是 2.5% 。
在任何其他情境中,這是一個不及格的成績。但在數學中,那2.5%是 永恆的 。每一個確認的證明都成為基礎。機器在上面站立以達到更高的境界。它不會忘記。它不會重新開始。它 累積 。
這就是整個遊戲。
你並不是在與人工智慧競爭原始智力。你永遠不會。你的優勢在於你深厚的人類專業知識——那些演算法無法觸及的東西(目前是這樣)。在談判中讀取客戶的微表情。感知團隊即將崩潰的時刻。知道在數據是50/50時該冒哪個風險。
你利用這種判斷給人工智慧提供精確而有力的指示。人工智慧給你提供槓桿。你利用這個槓桿進一步提升你的判斷力。
這就是飛輪。這就是累積。
當你垂直發展時,人工智慧成為你的引擎。當你水平漂移時,它成為你的柺杖。
你在建設哪一種?
詹姆斯執行長,水星科技解決方案加速數位化。


