上周我在一个专业论坛上浏览时,发现了一条让我笑出声的忏悔,随后又立刻停止了笑声。
一位亚马逊工程师写道: “每当项目经理说些愚蠢的话时,我就启动十个AI代理深入研究和分析他。我把我们整个Slack历史记录粘贴到系统中,让它自由运行。这是对计算资源的极好利用。”
起初我以为这只是伪装成玩笑的职场毒性。但评论揭示了更糟糕的事情:这不是玩笑。这是 KPI 的报复。
亚马逊最近部署了一款名为 MeshClaw 的内部 AI 编码助手。管理层在他们的智慧下设定了一个硬性目标: 80% 的开发者必须每周使用它。但他们并没有止步于此。他们建立了一个实时排行榜,跟踪每个员工消耗的 AI 令牌数量。你消耗的令牌越多,你的排名就越高。
结果是立竿见影且完全可预测的。工程师们开始将大量完全无关的文档输入 AI——旧的会议记录、随机的维基百科页面、他们的购物清单——只是为了看他们的令牌消耗飙升。他们甚至给它起了个名字: “Tokenmaxxing。”
大多数高管阅读这个故事后指责员工。“他们很懒!他们在利用系统!”
他们错了。员工不是问题。管理系统的架构才是问题。一旦你为一个过程指标引入排行榜,你就触发了人类组织中最古老的陷阱之一。在人工智能时代,这个陷阱转得比以往任何时候都快。
古德哈特法则与无用的钉子
这个陷阱有一个正式的名称,是由一位英国经济学家提出的:古德哈特法则。它的内容是:“当一个指标变成目标时,它就不再是一个好的指标。”
如果你想要更直观的版本,可以看看苏联的钉子工厂。在计划经济下,工厂经理根据钉子生产的重量被分配了一个配额。因此,工厂生产出少量巨大、沉重的钉子——对建筑商毫无用处,但在秤上却显得辉煌。管理层发现了这个错误,并将配额改为钉子的数量。工厂立即转向生产数百万个微小的针。同样毫无用处。但嘿,数量却高得惊人。
当你通过任意指标进行管理时,你得到的正是你所要求的结果。而在这个过程中,你完全摧毁了实际产品。
亚马逊的代币排行榜就像苏联的钉子工厂只是用户界面更好。
140万美元的幻觉
亚马逊并不是孤单的。Meta的实施可以说是最荒谬的。
一个内部的、非官方的排行榜叫做“克劳德经济学”跟踪了85,000名员工的代币消耗。顶尖用户被称为“代币传奇”。排名第一的员工在30天内消耗了 2810亿个代币—大约价值140万美元的API调用。
管理层最初将此视为“ 人工智能采用”的庆祝活动。然而,深入审计揭示了真相:员工们在无意义的循环驱动的人工智能任务中消耗代币,纯粹是为了夸大他们的数字。更糟糕的是,几次实时生产故障直接追溯到工程师们急于部署低质量的人工智能生成代码,以满足他们的配额。排行榜被悄悄拆除,但文化损害已经造成。
Salesforce也做了类似的事情——在员工屏幕上安装一个小部件,每15分钟刷新一次,显示他们的“人工智能支出”,并要求他们达到“最低消费目标”。本可以进行两分钟手动搜索的开发人员,反而强迫人工智能阅读50页的技术手册,消耗数千个代币,仅仅是为了满足仪表板的要求。
将军不应该在数人头。
要理解为什么这种情况不断发生,我们需要追溯到2000年前。
在中国的秦朝,一位名叫商鞅的改革者创建了一种名为“斩首论功”的军事奖励制度。步兵的奖励是根据他们斩杀的敌人头颅数量来分配土地和头衔。这种做法残酷,但对步兵来说极为有效。它将秦军变成了一支毁灭性的力量。
但商鞅比大多数现代CEO更聪明。他明确指出,斩首指标仅适用于前线士兵。将军绝对禁止根据斩首数量进行评估。
为什么?因为将军的工作不是杀死个体,而是指挥战场、管理后勤和赢得战争。如果你根据将军亲自斩杀的头颅数量来评估他,他就会放弃他的战略岗位,抓起剑,开始在泥土中战斗。他会赢得个人的KPI,但他会输掉战争。
商鞅明白 衡量标准必须与责任相匹配。 衡量是一种手段,而不是目的本身。
现代管理已经忘记了这一点。我们用仪表盘崇拜取代了战略判断。我们追踪那些容易计数的东西——代币、小时、提示——而不是那些难以评估的东西:判断、质量、战略影响。
我们为何在水星公司取消了仪表盘
在水星公司,我们做出了一个听起来激进但实际上理智的决定: 我们严格禁止将“代币消耗”、“生成的提示”或“AI节省的小时数”作为绩效指标进行追踪。
我最近读到一份关于一家制药公司的报告,该公司要求每位员工填写一份每周的“AI结果表”,详细说明AI为他们节省了多少小时。
结果令人心碎。工程师们正在处理高度机密的研发数据,这些数据在法律上无法上传到外部大型语言模型。因此,他们手动完成了工作——实际编码八个小时。然后,他们又花了额外的三十分钟生成一个虚假的、不可用的AI版本的代码,仅仅是为了在他们的报告上写下 “AI为我节省了3个小时”。
一位接受采访的员工说了一句话让我印象深刻: “在此之前,我其实并不反对使用AI。”
管理系统不仅未能提高生产力。它 积极摧毁了员工对技术的真正好奇心和善意。它将一个潜在有用的工具变成了官僚主义的繁琐工作,并将诚实的工程师变成了说谎者。
我们实际上关注的是什么
那么你怎么知道某人在有效地使用人工智能呢?
你不能只看仪表板。你必须查看实际的工作。
产品经理是否在三天内而不是五天内交付了更高质量的竞争分析?代码是否以更少的错误部署?我们是否更快地达成交易?客户是否更满意?
这些结果无法在15分钟的代币排行榜上跟踪。它们需要管理者真正参与工作并评估定性结果。这比阅读一个数字要困难得多。这就是为什么大多数组织不这样做的原因。
真实的苏联钉子
每个时代都有其无用钉子的版本。在工业时代,它是生产笨重钢材的吨位配额。在知识时代,它是生产点击诱饵垃圾的页面浏览量新闻。在人工智能时代,它是一堆巨大的无用API代币,纯粹是为了满足一个认为消费等于生产力的盲目高管。
在亚马逊和Meta进行代币最大化的工程师并不傻。他们是在一个非理性的系统中,理性的参与者。他们已经意识到,最小阻力的路径是给算法它想要的——一个大数字——同时默默地保持他们的理智。
如果你现在正在管理一个团队,并且你在考虑设定一个“ 人工智能采纳目标”或跟踪“每位员工的月度代币支出”或建立一个排行榜来游戏化使用——停下。你并没有在衡量生产力。你是在制造没人能用的钉子。
停止管理代币。开始管理业务。
— 詹姆斯,香港水星科技解决方案,2026年5月


