先週、Google DeepMindは世界がコーヒーをむせるべき何かを発表しました。
彼らの新しいシステム、AlphaProof Nexusは、9つの未解決の数学問題を解決しました—実際の、数十年にわたる難問で、キャリアを超えて生き残ってきたものです。そのうちの2つは1970年から手つかずのままでした。56年の人間の天才が、数百ドルのコンピュータ代で解決されたのです。
それについて考えてみてください。ほとんどのCEOよりも古い謎が、安価なノートパソコンの価格でアルゴリズムによって解決されたのです。もしこれが2024年に起こっていたら、ニューヨーク・タイムズは特別版を発行していたでしょう。LinkedInは崩壊していたでしょう。私たちは皆、終末のプレゼンテーションを更新していたでしょう。
でも先週は?何もありませんでした。あなたもおそらく見過ごしたでしょう。私もほとんどそうでした。
私たちは飽きているわけではありません。疲れています。ブレークスルー疲労は現実です。AIは非常に速く進化しています。「不可能」とされていた多くの障壁を打破しているため、今や驚異が火曜日のように感じられます。私たちは奇跡に麻痺してしまいました。
テストが死んだ日
過去2年間を見てみてください。
2021年、MMLUは金標準であり、機械のためのSATでした。今日、すべての最前線モデルは90%以上のスコアを記録しています。クラス全体がA+を取得すると、テストはもはや有用な情報を提供しなくなります。
そして、GPQAダイヤモンドが登場しました。彼らはこれを特にグーグルできないように設計しました。質問として成立するためには、非常に具体的でなければならず、その正確なサブフィールドの博士号を持つ人だけが解決できるものでなければなりませんでした。隣接する分野の博士号を持ち、インターネットに完全にアクセスできる人でも失敗するでしょう。
GPT-4は39%のスコアを記録しました。尊敬に値しますが、人間のレベルです。
2026年初頭までに、Gemini 3.1 Proは94.1%に達しました。人間の博士号取得者の平均は約65%です。2年で、「大学院生よりも劣る」から「専門家を恥ずかしがらせる」まで進化しました。
試験を作成する人々は、もはやそれを十分に早く作成できません。
ようこそ、 証明の豊富な時代へ
先月、数学界のモーツァルトであるテレンス・タオがスタンフォードで立ち上がり、私を揺さぶるようなことを言いました。
私たちは 証明の不足の時代を 終え、 証明の豊富な時代に 入りました。
かつては、大きな証明が世代を超える出来事でした。数学者たちは、1つの仮説を「おそらく」から「真実」へと移すために、人生を燃やし、スクラッチペーパーを袋いっぱいに詰め込んでいました。それは神聖なものでした。それは 希少でした 。
今?エルデシュ問題のウェブサイトには、20以上のAI生成の証明が待機しており、人間が確認するのを待っています。機械は私たちがそれを読む能力を超えています。
タオは一時停止を決めたと認めました。彼はついていけません。そして、彼が使った比喩は私の心に永遠に残るでしょう:
AIは、あなたを山頂に降ろすヘリコプターのようなものです。すぐに景色を楽しめます。しかし、登る過程を逃してしまいます。そして重要なことは、登る過程こそが価値があるのです。
企業のジレンマ:どうやって「AIの熟練度」を測るのか?
それがあなたの月曜日の朝のスタンドアップと何の関係があるのでしょうか?
すべてです。
数学では、証明は二元的です。あなたはそれを解決したか、解決できなかったかのどちらかです。客観的な真実。美しい。
しかし、あなたのオフィスでは?AIにマーケティングプランを作成させたり、スライドデッキを構築させたり、Pythonスクリプトを書かせたりすると、出力は常に…かなり良い決して恥ずかしくありません。常にもっともらしいです。
だから、LinkedInの皆が「生産性を10倍にした」と主張しています。しかし、先週あるCEOが私を呼び寄せて、誰も声に出して聞きたくない質問をしました:
「ジェームズ、私のチームはあらゆるところでAIを使っています。APIの請求書は天井知らずです。しかし、実際にこの技術をマスターしているのは誰で、ただ忙しそうに見せるのが得意なだけの人は誰なのか、どうやって分かるのでしょうか?」
これは鋭い質問です。実際にこれを測る方法がなければ、私たちは皆、自分のSlackチャンネルの中で天才であるだけです。
答えはツールではありません。マインドセットです。
蓄積。
水平的消費 vs. 垂直的蓄積
チームがAIをどのように使っているかを観察すると、二つの種が現れるのがわかります。
消費者(水平)
彼らは箇条書きをChatGPTに投げ込みます。それが洗練されたレポートを出力します。彼らはそれを送ります。20分を節約しました。彼らはAIを「使った」のです。
しかし、彼らに何を学んだのかを尋ねてみてください。先月できなかったことを今日何ができるのかを聞いてみてください。彼らは無表情になります。彼らは砂の城を作りました。潮が満ちてきました。何も残りませんでした。
蓄積者(垂直)
彼らもそのレポートを書くためにAIを使います。しかし、その後、チャットでさらに10分を費やします。「今週私が達成したことを見てください。90日前には私のツールキットに無かった技術的スキルや戦略的フレームワークは何ですか?」
彼らはそれを記録します。彼らはそれをマッピングします。彼らはそれを所有します。
三ヶ月後、消費者はまだ機械に雑務を任せています。アキュムレーターは明らかに異なっています。彼らは自分たちが構築した特定の能力を指摘できます。彼らは単に速いだけではなく—高いです。。
だから自問してみてください:あなたはコンクリートを流し込んでいますか、それとも砂の城を作っていますか?
重要な2.5%
アルファプルーフ・ネクサスに戻ります。解決された問題は九つ。信じられないようです。
しかし、ディープマインドは353の試みを行ったとも教えてくれました。
その成功率は 2.5% です。
他のどんな文脈でも、それは不合格の成績です。しかし数学において、その2.5%は 永続的です。 確認された証明はすべて基盤となります。機械はそれに立って、より高いところに到達します。忘れません。やり直しません。それは 蓄積します。 .
それがゲーム全体です。
あなたはAIと生の知性で競争しているわけではありません。これからもそうなることはありません。あなたの強みは、深い人間の専門知識です—アルゴリズムが触れられないもの(今のところ)。交渉中にクライアントの微表情を読み取ること。チームが崩壊しそうな瞬間を感じ取ること。データが50/50のときにどのリスクを取るべきかを知っていること。
あなたはその判断を使ってAIに正確で強力な指示を与えます。AIはあなたにレバレッジを提供します。あなたはそのレバレッジを使ってさらに判断を鋭くします。
それがフライホイールです。それが蓄積です。
垂直に構築すると、AIはあなたのエンジンになります。水平に漂うと、それはあなたの杖になります。
あなたはどちらを構築していますか?
ジェームズCEO, マーキュリーテクノロジーソリューションズデジタル化を加速させる。


