지난주에 전문 포럼을 스크롤하다가 저를 웃게 만든 고백을 발견했는데, 곧바로 웃음을 멈추게 되었습니다.
한 아마존 엔지니어가 이렇게 썼습니다:"프로젝트 관리자가 어리석은 말을 할 때마다, 저는 그를 깊이 연구하고 분석하기 위해 열 개의 AI 에이전트를 시작합니다. 우리의 전체 슬랙 기록을 시스템에 붙여넣고 마음껏 돌아가게 합니다. 이는 컴퓨팅 자원을 훌륭하게 활용하는 방법입니다."
처음에는 이것이 농담으로 포장된 직장 내 독성이라고 생각했습니다. 그러나 댓글들은 더 나쁜 것을 드러냈습니다: 이것은 농담이 아니었습니다. 그것은 KPI에 의한 복수였습니다.
아마존은 최근에 MeshClaw라는 내부 AI 코딩 도우미를 배포했습니다. 경영진은 그들의 지혜로 엄격한 목표를 설정했습니다: 개발자의 80%는 매주 이를 사용해야 합니다.그러나 그들은 거기서 멈추지 않았습니다. 그들은 각 직원이 소비한 AI 토큰의 정확한 수를 추적하는 실시간 리더보드를 만들었습니다. 더 많은 토큰을 소모할수록 순위가 높아졌습니다.
그 결과는 즉각적이고 완전히 예측 가능했습니다. 엔지니어들은 AI에 방대한 양의 완전히 무관한 문서—오래된 회의 기록, 무작위 위키피디아 페이지, 장보기 목록—를 입력하기 시작했습니다. 그저 그들의 토큰 소비가 급증하는 것을 지켜보려고 말입니다. 그들은 심지어 이를 " 토큰맥싱"이라고 부르기도 했습니다.
대부분의 경영진은 이 이야기를 읽고 직원들을 비난합니다."그들은 게으르다! 시스템을 악용하고 있다!"
그들은 잘못 생각하고 있다. 직원들이 문제가 아니다. 관리 시스템의 구조가 문제이다. 프로세스 지표에 대한 리더보드를 도입하는 순간, 인간 조직에서 가장 오래된 함정 중 하나가 발생한다. 그리고 AI 시대에는 그 함정이 그 어느 때보다 빠르게 돌아가고 있다.
굿하르트의 법칙과 쓸모 없는 못들
이 함정에는 공식적인 이름이 있다. 영국 경제학자가 만든 이름이다: 굿하르트의 법칙.그것은 다음과 같이 말한다:"측정이 목표가 되면, 그것은 더 이상 좋은 측정이 아니다."
만약 당신이 생생한 예를 원한다면, 소련의 못 공장을 보세요.계획 경제 하에서, 공장 관리자는 생산된 못의 무게에 따라 할당량을 받았습니다. 그래서 공장은 소규모의 거대한 무거운 못을 대량 생산했습니다. 건축가들에게는 쓸모없지만, 스케일에서는 화려했습니다. 경영진은 오류를 발견하고 할당량을 못의 개수로 변경했습니다. 그러자 공장은 즉시 수백만 개의 작은 미세 핀을 생산하기로 방향을 전환했습니다. 역시 쓸모없었습니다. 하지만, 개수는 하늘을 찔렀습니다.
임의의 지표로 관리하면, 요청한 대로 정확히 결과가 나옵니다. 그리고 그 과정에서 실제 제품을 완전히 망가뜨립니다.
아마존의 토큰 리더보드는 단지 소련의 못 공장과 같습니다.더 나은 사용자 인터페이스를 가진.
140만 달러의 환상
아마존만 그런 것은 아니었습니다. 메타는 아마도 가장 터무니없는 구현을 가지고 있었습니다.
"클로드노믹스"라는 내부 비공식 리더보드가 있었습니다."Claudeonomics"85,000명의 직원들 사이에서 토큰 소비를 추적했습니다. 최고의 사용자들은 "토큰 전설"로 불렸습니다. 1위 직원은 30일 동안 2810억 개의 토큰을 소모했습니다.—대략 140만 달러 상당의 API 호출입니다.
경영진은 처음에 이를 "AI 채택"으로 축하했습니다. 그러나 더 깊은 감사 결과 진실이 드러났습니다: 직원들은 숫자를 부풀리기 위해 의미 없는 루프 기반 AI 작업을 수행하고 있었습니다. 더 나쁜 것은, 여러 차례의 실시간 운영 중단이 엔지니어들이 저품질의 AI 생성 코드를 배포하기 위해 서두르면서 발생한 것으로 확인되었습니다. 리더보드는 조용히 해체되었지만, 문화적 피해는 이미 발생했습니다.
세일즈포스도 비슷한 일을 했습니다—직원 화면에 15분마다 새로 고침되는 위젯을 설치하여 그들의 "AI 소비"를 보여주고 "최소 소비 목표"를 달성할 것을 요구했습니다. 두 분짜리 수동 검색을 할 수 있었던 개발자들은 대신 AI에게 50페이지의 기술 매뉴얼을 읽도록 강요하여 수천 개의 토큰을 소모했습니다, 단지 대시보드를 만족시키기 위해서였습니다.
장군은 머리를 세지 말아야 합니다.
왜 이런 일이 계속 발생하는지를 이해하기 위해서는 2,000년 전으로 돌아가야 합니다.
중국의 진나라 시절, 상앙이라는 개혁가가 "참수에 의한 공적"이라는 군사 보상 시스템을 만들었습니다. "참수에 의한 공적." 보병들은 적의 머리를 베어낸 수에 따라 토지와 작위를 받았습니다. 잔인하지만 보병에게는 매우 효과적이었습니다. 이는 진나라 군대를 파괴적인 힘으로 만들었습니다.
그러나 상앙은 대부분의 현대 CEO들보다 더 똑똑했습니다. 그는 명확히 밝혔습니다. 참수 지표는 오직 전선 병사에게만 적용된다고. 장군들은 머리 수로 평가받는 것이 절대 금지되었습니다.
왜 그럴까요? 장군의 임무는 개인을 죽이는 것이 아닙니다. 전장을 조율하고, 물류를 관리하며, 전쟁에서 승리하는 것입니다. 장군을 개인적으로 베어낸 머리 수로 평가하면, 그는 전략적 위치를 포기하고 칼을 들고 진흙 속에서 싸우기 시작할 것입니다. 그는 개인 KPI를 달성할 수 있지만, 전쟁에서는 패배하게 됩니다.
상앙은 지표가 책임과 일치해야 한다는 것을 이해했습니다.측정은 목적을 위한 수단이지, 목적 그 자체가 아닙니다.
현대 경영은 이를 잊어버렸습니다. 우리는 전략적 판단을 대시보드 숭배로 대체했습니다. 우리는 판단, 품질, 전략적 영향을 평가하기 어려운 대신, 쉽게 계산할 수 있는 것—토큰, 시간, 프롬프트—을 추적합니다.
우리가 머큐리에서 대시보드를 없앤 이유
머큐리에서는 급진적으로 들릴 수 있지만 사실은 합리적인 결정을 내렸습니다: 우리는 "토큰 소비", "생성된 프롬프트" 또는 "AI로 절약한 시간"을 성과 지표로 추적하는 것을 엄격히 금지합니다.
최근에 한 제약 회사에 대한 보고서를 읽었는데, 그 회사는 모든 직원이 매주 "AI 결과 양식"을 작성하여 AI가 얼마나 많은 시간을 절약했는지를 정확히 기재하도록 요구했습니다.
결과는 가슴 아픈 것이었습니다. 엔지니어들은 외부 LLM에 법적으로 업로드할 수 없는 고도로 기밀인 R&D 데이터를 가지고 작업하고 있었습니다. 그래서 그들은 수작업으로 작업을 했습니다—실제 코딩에 여덟 시간을 소요했습니다. 그리고 그들은 보고서에 쓸 수 있도록 가짜의 비기능적 AI 버전을 생성하는 데 추가로 삼십 분을 보냈습니다. "AI가 나를 3시간 절약해 주었다"라고.
인터뷰한 직원이 나에게 깊은 인상을 남긴 말을 했습니다: "사실 이 전에는 AI 사용에 반대하지 않았습니다."
관리 시스템은 생산성을 높이는 데 실패했을 뿐만 아니라, 직원의 진정한 호기심과 기술에 대한 선의까지도 적극적으로 파괴했습니다.그것은 잠재적으로 유용한 도구를 관료적인 일로 바꾸었고, 정직한 엔지니어들을 거짓말쟁이로 만들었습니다.
우리가 실제로 보는 것
그렇다면 누군가가 AI를 효과적으로 사용하고 있는지 어떻게 알 수 있을까요?
대시보드를 보는 것으로는 안 됩니다. 실제 작업을 봐야 합니다.
제품 관리자가 5일이 아닌 3일 만에 더 높은 품질의 경쟁 분석을 제출했나요? 코드가 더 적은 버그로 배포되고 있나요? 거래를 더 빠르게 성사시키고 있나요? 고객이 더 행복한가요?
이러한 결과는 15분 단위의 토큰 리더보드에서 추적할 수 없습니다. 관리자들이 실제로 작업에 참여하고 질적 결과를 평가해야 합니다. 이는 숫자를 읽는 것보다 더 어렵습니다. 그래서 대부분의 조직이 이를 하지 않는 이유입니다.
진짜 소련의 못
모든 시대에는 쓸모없는 못의 버전이 있습니다. 산업 시대에는 다루기 힘든 강철을 생산하는 톤수 할당량이 있었고, 지식 시대에는 클릭베이트 쓰레기를 생산하는 페이지 뷰 저널리즘이 있었습니다. AI 시대에는 소비가 생산성과 같다고 생각하는 맹목적인 경영진을 만족시키기 위해 순전히 소모된 대량의 쓸모없는 API 토큰이 있습니다.
아마존과 메타에서 토큰 최대화를 하고 있는 엔지니어들은 바보가 아닙니다. 그들은비합리적인 시스템에서 합리적인 행위자들.그들은 저항이 가장 적은 길이 알고리즘이 원하는 것, 즉 큰 숫자를 제공하면서 조용히 자신의 정신 건강을 유지하는 것이라는 것을 배웠습니다.
지금 팀을 운영하고 있다면, " AI 도입목표"를 설정하거나 "직원당 월별 토큰 지출"을 추적하거나 사용을 게임화하기 위해 리더보드를 만드는 것을 생각하고 있다면, 멈추세요. 당신은 생산성을 측정하고 있는 것이 아닙니다. 아무도 사용할 수 없는 못을 만들고 있습니다.
토큰 관리를 멈추세요. 비즈니스 관리를 시작하세요.
— 제임스, 머큐리 테크놀로지 솔루션, 홍콩, 2026년 5월


