안녕하세요, 머큐리 기술 솔루션의 CEO 제임스입니다. 홍콩 - 2026년 2월 20일
머큐리에서는 최대한의 레버리지를 활용하는 것을 믿습니다. 최근에 제 API 청구서가 Claude Sonnet 4.5 (OpenClaw와 텔레그램을 통해 실행됨) 에 대해 증가하고 있음을 알게 되었습니다. 백만 토큰당 $3 입력 / $15 출력으로, Sonnet은 "프리미엄" 등급 모델입니다.
저는 간단한 운영 질문을 스스로에게 던졌습니다: 10배 저렴한 모델이 실제로 10배 더 나쁜가요? 아니면 제가 브랜드 이름에 과도한 비용을 지불하고 있는 건가요?
저는 OpenRouter에 접속하여 가격 스프레드시트를 확인하고, 가장 인기 있는 "예산" 및 "초예산" 모델을 테스트하는 데 하룻밤을 보냈습니다. 저의 테스트 기준은 전적으로 실용적이었습니다 (코딩 벤치마크는 없고, 일상적인 경영 업무만 포함됨):
- 지시 사항 따르기: 복잡한 다단계 작업을 손쉽게 수행할 수 있나요?
- 속도: 지연은 마찰입니다. 30초가 걸린다면, 제가 직접 하겠습니다.
- 형식 준수: 제가 "마크다운 표 금지"라고 말하면 (텔레그램에서 깨지기 때문에), 그것을 듣나요?
- "태도" 테스트:문제를 해결하려고 노력하나요, 아니면 즉시 포기하고 "할 수 없어요"라고 말하나요?
예산 AI 환경에 대한 잔인한 진실입니다.
패자들: 저렴함이 무용지물이라는 의미
1. 제미니 2.5 플래시 라이트 ($0.10 / $0.40)
- 약속:매우 저렴함 ("초저예산").
- 현실:지불한 만큼의 가치만 얻습니다. 첫 출근하는 인턴처럼 행동합니다. 주도성이 전혀 없습니다. 요약을 요청하면, 아무것도 아닌 세 가지 핵심 포인트를 제공합니다. 작업이 약간 복잡하면 손을 들고 포기합니다. 필요한 정확한 프롬프트를 작성하는 데 필요한 정신적 에너지는 어떤 재정적 절약도 상쇄합니다.
2. 미니맥스 M2.5 ($0.30 / $1.20)
- 약속:코딩 벤치마크에서 훌륭하게 보입니다.
- 현실:형식 지침을 따를 수 있는 능력이 전혀 없습니다. 세 번이나 말했습니다: "마크다운 표를 사용하지 마세요."매번 마크다운 표를 제공하여 텔레그램 UI를 망쳤습니다. 이는 중요한 점을 증명합니다: 높은 벤치마크 점수(특히 코딩에서)는 일상 업무에서 높은 추론 능력이나 지침 준수로 이어지지 않습니다.
3. 클로드 하이쿠 4.5 ($1.00 / $5.00)
- 약속:앤트로픽의 빠르고 가벼운 모델.
- 현실:이름이 정확합니다—뇌에서 가볍습니다. 지속적인 상호작용 없이 작업을 완료하는 데 어려움을 겪습니다. 이 가격대(중-높음)에서는 진정한 예산 모델이나 소넷으로 업그레이드하는 것과 비교할 때 ROI가 그다지 좋지 않습니다.
하트브레이크: DeepSeek V3.2 ($0.25 / $0.38)
이 모델은 제 마음을 아프게 했습니다.
- 좋은 점: 가격에 비해 지능이 놀랍습니다. 실제로 Sonnet 4.5 수준의 추론에 접근합니다. 사고를 확장하고 깊이 있는 답변을 제공합니다.
- 나쁜 점: 너무 느립니다. 빠른 반복이 필요한 에이전트 작업 흐름에서는 DeepSeek를 기다리는 것이 페인트가 마르는 것을 지켜보는 것과 같습니다. 만약 그들이 추론 속도를 수정한다면, 이 모델은 시장을 지배할 것입니다. 하지만 현재로서는 지연이 유용성을 떨어뜨립니다.
우승자: Grok 4.1 Fast ($0.20 / $0.50)
이번 밤의 가장 큰 놀라움이었습니다.
- 사양: 거대한 2M 토큰 컨텍스트 창, 멀티모달(텍스트+이미지), 그리고 믿을 수 없을 만큼 저렴합니다.
- 현실: "빠름"이라는 이름에 걸맞습니다. 더 중요한 것은, 거의 손을 많이 잡아주지 않아도 된다는 것입니다. 방향을 주면, 그 방향으로 나아갑니다. 벽에 부딪히면, 실제로 이유를 설명하고 우회 방법을 제안합니다(이런 특성은 일반적으로 프리미엄 모델에 해당합니다). 또한 한 번의 수정 후에 포맷 규칙을 학습합니다.
고용량, 중간 복잡도의 작업을 위한 일상적인 도구가 필요하다면, Grok 4.1 Fast는 현재 ROI의 명실상부한 왕입니다.
궁극적인 교훈: 당신의 시간당 요금은 얼마인가요?
이 실험은 단위 경제학에 대한 가혹한 교훈을 주었습니다.
Sonnet 4.5를 사용할 때는 프롬프트를 입력하면 첫 시도에서 95% 완벽한 결과를 얻습니다. 하지만 예산 모델을 사용할 때는 명확히 하고, 다시 프롬프트를 입력하고, 포맷 오류를 수정하고, 봇과 논쟁해야 합니다.
저렴한 AI의 숨겨진 비용은 당신의 시간입니다.API 크레딧에서 $2.00를 절약하지만 모델과 싸우느라 15분을 낭비한다면, 당신은 암묵적으로 자신의 시간을 시간당 $8.00로 평가하고 있는 것입니다. CEO, 개발자 또는 창작자로서 그런 계산을 감당할 수는 없습니다.
내 새로운 "에이전틱 라우팅" 전략
저는 더 이상 단일 모델을 사용하지 않습니다. 우리는 작업 복잡성에 기반한 라우팅 전략을 구현하고 있습니다:
- 1단계 (일상 / 대량 처리): Grok 4.1 패스트.초기 데이터 정렬, 기본 요약 및 빠른 채팅 응답에 사용됩니다.
- 2단계 (심층 추론): Claude Sonnet 4.5.전략적 계획, 복잡한 하위 에이전트 조정 및 클라이언트 대면 초안 작성에 사용됩니다.
- 3단계 (헤비 리프터): 클로드 오퍼스.가장 높은 가치의 분석 작업을 위해 예약되었습니다.
API 비용을 보는 것을 멈추세요. 대신 가치 창출 시간(Time-to-Value)을 보세요. (참고: 다음 테스트 라운드를 위해 Qwen3 Coder Next와 Moonshot의 Kimi K2.5를 대기 중입니다. 다시 보고하겠습니다.)
머큐리 기술 솔루션: 디지털화를 가속화합니다.


