上週我在一個專業論壇上瀏覽時,發現了一個讓我大笑的自白,然後立刻停止了笑聲。
一位亞馬遜工程師寫道: "每當一位專案經理說出愚蠢的話時,我就啟動十個AI代理來深入研究和分析他。我將我們整個Slack歷史貼到系統中,讓它自由運行。這是對計算資源的極佳利用。"
起初我以為這只是工作場所的毒性偽裝成笑話。但評論揭示了更糟糕的事情:這不是笑話。這是 KPI 的報復。
亞馬遜最近部署了一個名為 MeshClaw 的內部 AI 編碼助手。管理層在他們的智慧下,設定了一個嚴格的目標: 80% 的開發人員必須每週使用它。 但他們並沒有就此止步。他們建立了一個實時排行榜,追蹤每位員工消耗的 AI 代幣數量。你燃燒的代幣越多,你的排名就越高。
結果是立竿見影且完全可預測的。工程師們開始將大量完全無關的文件輸入 AI——舊的會議記錄、隨機的維基百科頁面、他們的購物清單——只是為了看他們的代幣消耗飆升。他們甚至給它取了一個名字: “Tokenmaxxing。”
大多數高管讀到這個故事後責怪員工。"他們很懶惰!他們在利用這個系統!"
他們錯了。員工不是問題。管理系統的架構才是問題。當你為一個過程指標引入排行榜時,你觸發了人類組織中最古老的陷阱之一。在人工智慧時代,這個陷阱轉動得比以往任何時候都快。
古德哈特法則與無用的釘子
這個陷阱有一個正式的名稱,是由一位英國經濟學家所創造的:古德哈特法則。它的內容是:「當一個指標變成目標時,它就不再是一個好的指標。」
如果你想要更直觀的版本,可以看看 蘇聯的釘子工廠 在計劃經濟下,工廠經理根據 釘子產量的 重量被給予配額。因此,工廠生產出少量巨大、沉重的釘子—對建築工人來說毫無用處,但在秤上卻光彩奪目。管理層發現了這個錯誤,並將配額改為 釘子的 數量。工廠立即轉向生產數以百萬計的微小針頭。同樣毫無用處。但嘿,數量卻高得驚人。
當你依據任意的指標來管理時,你會得到你所要求的東西。而在這個過程中,你完全摧毀了實際的產品。
亞馬遜的代幣排行榜只是 蘇聯的釘子工廠 但有更好的使用者介面。
140 萬美元的幻覺
亞馬遜並不是孤單的。Meta 的實施可以說是最荒謬的。
一個內部的、非官方的排行榜叫做 「克勞德經濟學」追蹤了 85,000 名員工的代幣消耗。最高使用者被冠上「代幣傳奇」的稱號。第 1 名員工在 30 天內消耗了 2810 億個代幣—大約相當於 140 萬美元的 API 呼叫。
管理層最初將此視為「人工智慧採用」。但隨後更深入的審計揭示了真相:員工們在執行毫無意義的、循環驅動的人工智慧任務,純粹是為了提高他們的數字。更糟的是,幾次實時生產中斷直接追溯到工程師急於部署低品質的人工智慧生成代碼,只為了達到他們的配額。排行榜被悄悄拆除,但文化上的傷害已經造成。
Salesforce 也做了類似的事情—在員工的螢幕上安裝了一個小工具,每 15 分鐘刷新一次,顯示他們的「人工智慧支出」,並要求他們達到「最低消耗目標」。本可以進行兩分鐘手動搜尋的開發者,卻強迫人工智慧閱讀一份 50 頁的技術手冊,消耗了數千個代幣,只為了滿足儀錶板的要求。
將軍不應該在數人頭。
要理解為什麼這種情況不斷發生,我們需要回到兩千年前。
在中國的秦朝,一位名叫商鞅的改革者創造了一個名為 「斬首獎勵」的軍事獎勵制度。步兵根據他們斬下的敵人頭顱數量獲得土地和頭銜的獎勵。雖然殘酷,但對步兵來說非常有效。這使秦軍成為一支毀滅性的力量。
但商鞅比大多數現代CEO更聰明。他明確表示 斬首的指標僅適用於前線士兵。對將軍來說,絕對禁止根據斬首數量進行評估。
為什麼?因為將軍的工作不是殺死個體,而是協調戰場、管理後勤並贏得戰爭。如果你根據將軍親自斬下多少頭顱來評估他,他將會放棄他的戰略崗位,拿起一把刀,開始在泥土中戰鬥。他會贏得他的個人KPI,但他會輸掉戰爭。
商鞅明白 指標必須符合責任。衡量是一種手段,而不是目的本身。
現代管理已經忘記了這一點。我們用儀錶板崇拜取代了戰略判斷。我們追蹤容易計算的東西—代幣、工時、提示—而不是難以評估的東西:判斷、品質、戰略影響。
為什麼我們在水星公司取消了儀錶板
在水星公司,我們做了一個聽起來激進但實際上只是理智的決定: 我們嚴格禁止將「代幣消耗」、「生成的提示」或「AI節省的工時」作為績效指標。
我最近讀到一份報告,提到一家製藥公司要求每位員工填寫每週的「AI成果表」,詳細說明AI為他們節省了多少工時。
結果令人心碎。工程師們正在處理高度機密的研發資料,這些資料無法合法地上傳到外部的LLM。因此,他們手動完成了這項工作——實際編碼八小時。然後他們又花了額外的三十分鐘生成一個假的、無法運作的AI版本的程式碼,只是為了能在他們的報告上寫下 「AI幫我節省了3小時」 。
一位接受訪問的員工說了一句讓我印象深刻的話: 「在這之前,我其實並不反對使用AI。」
管理系統不僅未能提高生產力。它 積極摧毀了員工對這項技術的真實好奇心和善意。 它將一個潛在有用的工具變成了官僚的繁瑣工作,並將誠實的工程師變成了說謊者。
我們實際上在看什麼
那麼你怎麼知道某人是否有效地使用人工智慧?
你不能只看儀錶板。你必須查看實際的工作。
產品經理是否在三天內發佈了更高品質的競爭分析,而不是五天?程式碼的部署是否有更少的錯誤?我們是否更快地完成交易?客戶是否更滿意?
這些結果無法在15分鐘的代幣排行榜上追蹤。它們需要經理實際參與工作並評估質性結果。這比閱讀數字更困難。這就是為什麼大多數組織不這麼做的原因。
真正的蘇聯釘子
每個時代都有其版本的無用釘子。在工業時代,它是產生笨重鋼材的噸位配額。在知識時代,它是產生點擊誘餌垃圾的頁面瀏覽新聞。在人工智慧時代,它是一堆巨大的、無用的API代幣,純粹是為了滿足一位盲目的高管,他認為消耗等於生產力。
在亞馬遜和Meta進行代幣最大化的工程師們並不愚蠢。他們是在一個不理性的系統中,理性的行為者。他們已經學會了,最少阻力的路徑就是給演算法它想要的——一個大數字——同時安靜地保持他們的理智。
如果你現在正在管理一個團隊,並且你在考慮設置一個「人工智慧採用目標」或追蹤「每位員工的每月代幣支出」或建立一個排行榜來遊戲化使用——停下來。你並沒有在衡量生產力。你是在製造沒有人能使用的釘子。
停止管理代幣。開始管理業務。
— 詹姆斯,水星科技解決方案,香港,2026年5月


