지난주, Google DeepMind는 세상을 놀라게 할 만한 것을 발표했습니다.
그들의 새로운 시스템인 AlphaProof Nexus는 아홉 개의 미해결 수학 문제를 해결했습니다. 이 문제들은 실제로 수십 년 된 괴물들로, 경력을 초월해 남아 있었습니다. 그 중 두 문제는 1970년 이후로 손대지 않은 채로 있었습니다. 56년의 인류의 지혜가 몇 백 달러의 컴퓨팅 비용으로 해결된 것입니다.
그 점을 생각해 보세요. 대부분의 CEO보다 오래된 미스터리가 저렴한 노트북 가격으로 알고리즘에 의해 해결되었습니다. 만약 이것이 2024년에 일어났다면, 뉴욕 타임스는 특별판을 발행했을 것입니다. LinkedIn은 마비되었을 것입니다. 우리는 모두 우리의 종말 프레젠테이션을 업데이트하고 있었을 것입니다.
하지만 지난주에는? 아무 반응이 없었어요. 아마 당신도 그냥 지나쳤을 거예요. 저도 거의 그랬어요.
우리는 지친 것이지, 식상한 것이 아닙니다.돌파 피로는 실제로 존재합니다.AI는 너무 빠르게 발전하고 있습니다., 수많은 "불가능한" 장벽을 허물면서, 이제는 특별한 일이 화요일처럼 느껴집니다. 우리는 기적에 무감각해졌습니다.
시험이 사라진 날
지난 2년을 보세요.
2021년, MMLU는 금본위 기준이었고, 기계의 SAT와 같았습니다. 오늘날, 모든 최전선 모델은 90% 이상의 점수를 기록합니다. 전체 클래스가 A+를 받으면, 시험은 더 이상 유용한 정보를 제공하지 않습니다.
그러다가 GPQA 다이아몬드가 등장했습니다. 그들은 이 문제를 구글링할 수 없도록 특별히 설계했습니다. 질문으로 인정받기 위해서는 너무나도 구체적이어야 했고, 오직 해당 세부 분야의 박사만이 해결할 수 있었습니다; 인접 분야의 박사라도 인터넷에 완전히 접근할 수 있다면 여전히 실패할 것입니다.
GPT-4는 39%의 점수를 기록했습니다. 괜찮지만, 인간 수준입니다.
2026년 초까지, Gemini 3.1 Pro는 94.1%에 도달했습니다. 인간 박사들의 평균 점수는 약 65%입니다. 우리는 2년 만에 "대학원생보다 못하다"에서 "전문가들을 부끄럽게 만들다"로 발전했습니다.
시험을 출제하는 사람들은 더 이상 시험을 빠르게 출제할 수 없습니다.
환영합니다, 증명 풍요의 시대에
지난달, 수학계의 모차르트인 테렌스 타오가 스탠포드에서 일어섰고, 저를 충격에 빠뜨린 말을 했습니다.
우리는 증명의 희소성 시대를 지나 증명의 풍부함 시대에 들어섰습니다.
예전에는 주요한 증명이 세대의 사건이었습니다. 수학자들은 한 추측을 "아마도"에서 "참"으로 바꾸기 위해 삶을 바치며 메모지 가득 채우곤 했습니다. 그것은 신성한 일이었고, 희귀했습니다. .
지금? 에르되시 문제 웹사이트에는 20개가 넘는 AI 생성 증명이 쌓여있고, 인간이 이를 검증하기를 기다리고 있습니다. 기계는 우리가 그것들을 읽는 능력을 초월하고 있습니다.
타오(Tao)는 일시 중지 상태에 있다고 인정했습니다. 그는 따라잡을 수 없습니다. 그리고 그는 제가 평생 기억할 비유를 사용했습니다:
AI는 당신을 정상에 내려주는 헬리콥터와 같습니다. 당신은 즉시 경치를 볼 수 있습니다. 하지만 당신은 오르막을 놓치게 됩니다. 그리고 중요한 것은—오르막이 가치가 있는 곳입니다.
기업의 딜레마: "AI 능숙도"를 어떻게 측정할 것인가?
이게 당신의 월요일 아침 스탠드업과 무슨 관계가 있나요?
모든 것.
수학에서는 증명이 이진적입니다. 당신은 그것을 해결했거나, 해결하지 못했거나. 객관적 진리. 아름답습니다.
하지만 당신의 사무실에서는? AI에게 마케팅 계획을 작성하거나, 슬라이드 데크를 만들거나, 파이썬 스크립트를 작성해 달라고 요청하면, 출력은 항상...꽤 괜찮아요.절대 부끄럽지 않아요. 항상 그럴듯해요.
그래서 LinkedIn의 모든 사람들이 "생산성을 10배로 늘렸다"고 주장해요. 하지만 지난주에 한 CEO가 저를 따로 불러서 아무도 큰 소리로 묻고 싶어하지 않는 질문을 했어요:
"제임스, 제 팀은 AI를 어디에나 사용하고 있어요. 제 API 비용이 천정부지로 올라가고 있어요. 하지만 누가 이걸 실제로 잘 다루고 있는지, 누가 단지 바쁘게 보이는 데만 능숙한지 어떻게 알 수 있죠?"
정말 날카로운 질문이에요. 이걸 측정할 수 있는 실제 방법이 없으면, 우리는 모두 각자의 Slack 채널에서 천재일 뿐이에요.
답은 도구가 아니에요. 그것은 사고방식이에요.
축적.
수평 소비 대 수직 축적
팀이 AI를 어떻게 사용하는지 지켜보면 두 가지 유형이 나타나는 것을 볼 수 있습니다.
소비자 (수평)
그들은 자신의 핵심 내용을 ChatGPT에 입력합니다. 그러면 다듬어진 보고서가 나옵니다. 그들은 그것을 보냅니다. 20분을 절약했습니다. 그들은 AI를 "사용"했습니다.
하지만 그들에게 무엇을 배웠는지 물어보세요. 지난 달에 할 수 없었던 일을 오늘 무엇을 할 수 있는지 물어보세요. 그러면 그들은 멍한 표정을 지을 것입니다. 그들은 모래성을 쌓았습니다. 파도가 밀려왔습니다. 아무것도 남지 않았습니다.
축적자 (수직)
그들도 AI를 사용하여 그 보고서를 작성합니다. 하지만 그들은 채팅에서 추가로 10분을 더 보냅니다."이번 주에 내가 이룬 것을 보세요. 90일 전에는 내 도구 상자에 없었던 기술적 기술이나 전략적 프레임워크는 무엇인가요?"
그들은 그것을 기록합니다. 그들은 그것을 정리합니다. 그들은 그것을 소유합니다.
3개월 후, 소비자는 여전히 기계에 잡무를 떠넘기고 있습니다. 축적기는 눈에 띄게 달라졌습니다. 그들은 자신들이 구축한 특정 기능을 지적할 수 있습니다. 그들은 단순히 더 빠른 것이 아닙니다—그들은 더 키가 큽니다..
그러니 스스로에게 물어보세요: 당신은 콘크리트를 붓고 있습니까, 아니면 모래성을 쌓고 있습니까?
중요한 2.5%
AlphaProof Nexus로 돌아갑니다. 아홉 개의 문제를 해결했습니다. 믿기지 않네요.
하지만 DeepMind는 또한 353개의 시도를 했다고 말했습니다.
그 성공률은 2.5%였습니다. .
다른 어떤 맥락에서는, 그것은 실패한 성적입니다. 그러나 수학에서는 그 2.5%가 영구적입니다. 모든 확인된 증명은 기초가 됩니다. 기계는 그것 위에 서서 더 높은 곳에 도달합니다. 잊지 않습니다. 다시 시작하지 않습니다. 그것은 축적합니다. .
그게 전체 게임입니다.
당신은 AI와 순수한 지능으로 경쟁하는 것이 아닙니다. 당신은 결코 그렇게 하지 않을 것입니다. 당신의 강점은 깊은 인간의 전문 지식입니다. 알고리즘이 손댈 수 없는 것들입니다(현재로서는). 협상 중 고객의 미세한 표정을 읽는 것. 팀이 무너질 때를 감지하는 것. 데이터가 50/50일 때 어떤 위험을 감수해야 할지를 아는 것.
당신은 그 판단을 사용하여 AI에게 정확하고 강력한 지시를 내립니다. AI는 당신에게 레버리지를 제공합니다. 당신은 그 레버리지를 사용하여 자신의 판단을 더욱 날카롭게 만듭니다.
그게 플라이휠입니다. 그게 축적입니다.
수직으로 구축할 때, AI는 당신의 엔진이 됩니다. 수평으로 표류할 때, 그것은 당신의 지주가 됩니다.
당신은 어떤 것을 구축하고 있습니까?
제임스 CEO, 머큐리 테크놀로지 솔루션즈디지털화를 가속화하세요.


