DeepSeek의 비전 있는 AI 메모리: 맥락적 망각 문제 해결

요약:AI의 스케일링 법칙이 수익 감소에 직면하면서, 건축 혁신이 단순한 강제 계산이 아닌 진전을 정의하는 시대가 열리고 있습니다. DeepSeek의 최근 DeepSeek-OCR은 맥락의 '시각적 압축'을 통해 획기적인 변화를 나타냅니다. 긴 텍스트 대화를 '사진' 기억 조각으로 변환함으로써 DeepSeek은 AI의 중요한 긴 맥락 문제를 해결하고, 이론적으로 무한한 대화를 가능하게 하며 컴퓨팅을 최적화합니다. 이 혁신은 글로벌 AI 전략의 근본적인 분기를 강조합니다: 서구 기술이 종종 '자원을 쌓는' 반면, 중국 기업들은 '공학 최적화'에서 뛰어나고 있습니다. 이는 경쟁 환경을 재편하고 고급 AI 능력을 민주화할 수 있는 차이입니다.

저는 Mercury Technology Solutions의 CEO 제임스입니다.

AI 개발의 궤적, 특히 동서 간의 차이는 기술 발전에 대한 두 가지 근본적으로 다른 접근 방식을 드러내고 있습니다. 최근 대화의 많은 부분이 AI 스케일링 법칙의 정체에 관한 것이었고, 특히 GPT-5가 이전 모델들처럼 '마법의 도약'을 제공하지 못했지만, 실제 혁신은 이제 최적화의 복잡한 춤에서 발생하고 있습니다.

어제 DeepSeek은 DeepSeek-OCR을 공개했으며, 이 혁신이 AI 최적화를 위한 중요한 새로운 경계를 열 것이라고 믿습니다. 이는 AI 메모리의 본질에 대해 다르게 생각하는 증거입니다.

방 안의 코끼리: AI의 맥락적 망각

LLM과 상당한 시간을 대화한 누구나 경험했을 것입니다: 대화가 길어질수록 AI는 '더 멍청해진다'는 것을. 응답이 흐트러지고 일관성이 사라지며 결국 AI는 이전 세부 사항을 완전히 잊어버립니다. 우리의 즉각적인 반응은 종종 새로운 대화를 시작하는 것인데, 이는 우리의 안도감을 주며 AI의 '신선함'과 품질을 즉시 회복합니다.

이것은 버그가 아닙니다; 이는 근본적인 도전입니다: AI는 지나치게 긴 맥락에서 어려움을 겪습니다.전체 책의 모든 단어를 세심하게 기억하려고 하면서 동시에 새로운 정보를 처리한다고 상상해 보세요. 당신의 뇌는 빠르게 '충돌'할 것입니다. LLM은 긴 맥락 창을 처리할 때 유사한 계산적 눈사태에 직면합니다; 필요한 컴퓨팅은 기하급수적으로 증가하여 메모리 과부하와 용납할 수 없는 느린 응답 시간을 초래합니다. 이론적으로 가능하지만, 실제로는 지연으로 인해 그러한 시스템은 사용 불가능하게 됩니다.

하지만 DeepSeek 팀은 급진적인 해결책을 제안했습니다: '이전 대화를 사진으로 찍기'.

시각적 압축: AI 메모리에 대한 인간과 유사한 접근

처음에는 이 아이디어가 직관에 반하는 것처럼 들립니다. 텍스트를 이미지로 변환한 다음 AI에게 그 이미지를 '읽어' 대화를 재구성하도록 요청하는 것? 이는 대량의 정보 손실과 증가된 저장 요구를 초래하지 않을까요?

DeepSeek의 결과는 솔직히 놀랍습니다. 그들은 1,000단어의 페이지를 약 100개의 '시각적 토큰'만으로 97% 이상의 정확도로 재구성할 수 있음을 발견했습니다. 이는 100,000단어의 대화를 10,000개의 '사진 조각'으로 압축하는 것과 같으며, AI가 이러한 조각을 보고 당신의 논의의 요점을 기억할 수 있게 합니다. 압축 비율을 20배(1,000단어에 50개의 시각적 토큰)로 높여도 약 60%의 정확도를 유지했습니다. 한 달 전 대화의 세부 사항을 기억하는 것을 생각해 보세요 - 60%의 유지율은 인간에게 인상적이며, AI에게는 더욱 그렇습니다.

(중요한 주의사항: 이러한 테스트는 주로 OCR 시나리오에서 수행되었습니다 - 이미지에서 텍스트 재구성. 복잡한 다중 턴 대화, 코드 논의 또는 복잡한 추론에서의 효과는 여전히 완전한 검증이 필요하며, 논문 자체도 이러한 결과가 초기 결과임을 인정합니다.)

그러나 공학적 관점에서 성능은 놀랍습니다. 단일 A100 GPU는 매일 200,000페이지를 처리할 수 있으며, 20개의 노드를 사용하면 3,300만 페이지로 확장됩니다. 대규모 문서 처리와 같은 사용 사례에서는 대규모 모델 훈련을 준비하거나 기업 지식 기반을 구축하는 데 있어 이 효율성 향상이 혁신적입니다.

DeepSeek는 코드와 모델 가중치를 오픈 소스화하여 진입 장벽을 낮추었습니다. 모델이 대화용으로 미세 조정되지 않았고 특정 프롬프트 형식이 필요하지만, 기본 최적화는 부인할 수 없습니다.

스마트 아키텍처: 적응형 압축과 '인간의 망각' 가설

DeepSeek-OCR은 고정된 일률적인 솔루션이 아닙니다. 그 아키텍처는 유연하여 카메라의 다양한 촬영 모드처럼 여러 모드를 제공합니다. 간단한 슬라이드는 512x512 해상도에서 64개의 시각적 토큰만 필요할 수 있는 반면, 복잡한 신문 레이아웃은 약 800개의 토큰을 사용하여 다중 뷰 '건담' 모드로 처리할 수 있습니다.

이 유연성은 핵심입니다. 이는 인간이 정보를 처리하는 방식과 유사합니다 - 간단한 노트는 복잡한 학술 논문과 다르게 저장됩니다. DeepSeek-OCR은 콘텐츠 복잡성에 따라 압축을 지능적으로 조정하여 가능한 자원을 절약하고 필요할 때 더 많은 힘을 적용합니다. 기본 원리는 심오합니다: 압축의 한계는 복잡성에 따라 달라지며, 이는 인간 기억이 작동하는 방식과 일치합니다.

이것은 논문의 가장 통찰력 있는 개념으로 이어집니다: 'AI가 인간처럼 잊게 하자.'

자신의 기억을 생각해 보세요. 최근의 문장을 정확히 반복할 수 있습니다. 한 시간 전 대화의 요지는 명확합니다. 어제의 사건은 주요 조각입니다. 지난 주의 논의는 흐릿합니다. 지난 달의 것은 대체로 잊혀졌습니다.

DeepSeek는 AI를 위한 유사한 메커니즘을 제안합니다: 최근 상호작용은 원시 텍스트로 유지됩니다. 한 시간 전 콘텐츠는 고해상도 '사진'(800 토큰)이 됩니다. 오늘 아침의 대화는 표준 해상도(256 토큰)로 저하됩니다. 어제의 것은 저해상도(100 토큰)가 되고, 오래된 기억은 크게 압축되거나 버려집니다.

이 설계는 인간 기억의 흐릿한 본질을 닮았으며, AI가 '이론적으로 무한한 대화'를 처리할 수 있는 가능성을 열어줍니다. 오래된 기억이 새로운 기억을 위해 자동으로 '사라지기' 때문입니다.물론, 도전 과제가 남아 있습니다. 어떤 정보가 '중요'하며 고해상도 보존이 필요한지를 어떻게 결정할까요? 사용자가 대화의 50턴에 들어갔을 때, 갑자기 5턴에서의 세부 사항을 언급하면 그 정보가 심하게 압축되었을 경우 어떻게 될까요? 이는 '기억 중요도 점수 매기기' 또는 사용자 지정 중요도 태그가 필요할 수 있습니다.글로벌 AI 격차: 공학 최적화 대 자원 쌓기

이 연구는 중국 AI 기업의 정의적인 특성을 생생하게 보여줍니다: 비용 최적화와 공학 효율성에 대한 극단적인 집중.

DeepSeek의 이전 V3 모델은 GPT-4 수준의 성능을 소량의 컴퓨팅으로 달성하여(2.788M H800 GPU 시간, 추정 $5.57M 훈련 비용) 업계를 놀라게 했습니다. 이 OCR 모델은 그 추세를 이어가며, 최소한의 토큰으로 최고의 결과를 달성하기 위해 끊임없이 노력하고 있습니다.

일부 서구 AI 개발에서 종종 보이는 '작동할 때까지 자원을 쌓는다'는 접근 방식과 대조적으로, 중국 팀은 자원 제약 하에서 깊은 최적화에 뛰어납니다. 이는 GPU 수출 제한의 직접적인 결과일 수 있으며, 강력한 효율성의 공학 문화를 결합하여 강제 혁신을 촉진합니다. OpenAI가 더 큰 모델을 훈련하는 데 막대한 비용을 소모할 수 있는 반면, DeepSeek는 '적은' 것으로 유사한 결과를 달성할 방법을 찾아야 합니다.이러한 분기는 글로벌 AI 경쟁 환경을 적극적으로 재편하고 있습니다. 일부 서구 기업들이 여전히 가장 큰 모델이나 가장 높은 훈련 비용을 두고 경쟁하는 반면, 중국 기업들은 비용의 10%로 90%의 효과를 달성하는 방법을 탐색하고 있습니다. 장기적으로 이 공학 최적화 능력은 단순한 자원 배치보다 더 강력한 경쟁 우위가 될 수 있으며, 특히 비용 통제가 중요한 대규모 상업적 응용 프로그램에서 더욱 그렇습니다.

앞으로의 전망: R2와 그 너머의 약속

DeepSeek가 이러한 혁신적인 기술을 차세대 추론 모델인 R2에 통합한다면, 상당한 변화가 일어날 수 있습니다. R1은 중국 팀이 추론에서 서구와 거의 동등한 능력을 달성할 수 있음을 보여주었지만, 긴 맥락 처리에서는 전통적인 아키텍처에 의해 제한되었습니다. R2가 시각적 압축, MoE 최적화 및 아직 발표되지 않은 다른 기술을 통합한다면, 긴 맥락의 계산 비용을 극적으로 줄이면서 강력한 추론을 유지할 수 있습니다.이는 단순한 성능 향상이 아닙니다; 이는 사용 사례의 확장입니다. 수십 개의 대화 턴을 기억하고, 매우 긴 문서를 처리하며, 수용 가능한 추론 비용을 유지하는 AI를 상상해 보세요. 이는 교육, 의료 상담 또는 법률 분석과 같은 확장된 상호작용이 필요한 응용 프로그램에 혁신적일 것입니다. 그리고 비용이 충분히 낮다면 이러한 능력은 '대기업 전용'에서 '중소 개발자에게 접근 가능'으로 이동할 수 있습니다.DeepSeek의 기술 로드맵은 지속적으로 '더 효율적이고, 더 실용적인' 솔루션을 향해 나아가고 있으며, 단순히 벤치마크 숫자를 추구하지 않습니다. V3, OCR, 그리고 아마도 R2 모두 이 경로를 따릅니다. 이러한 것들은 현재 정보와 추측에 기반하고 있지만, 방향은 명확하고 기술적으로 뒷받침됩니다.

인간의 기억은 전통적인 컴퓨터처럼 작동하지 않으며, 모든 세부 사항을 기록하지 않습니다. 우리는 인상, 주요 정보 및 감정적 연결을 기억하며, 단어 그대로의 전사본이 아닙니다. 우리는 세부 사항을 잊지만 중요한 것은 기억합니다. 우리는 기억을 재인코딩하여 더 효율적으로 저장합니다. DeepSeek-OCR은 AI가 이를 모방할 수 있는 실행 가능한 경로를 제공합니다: 긴 맥락을 처리할 때, 시각적 표현이 순수한 텍스트보다 훨씬 더 효율적일 수 있습니다.

이 아이디어가 더 넓은 맥락에서 유지될지는 두고 봐야 합니다. 그러나 이는 분명히 한 가지를 증명합니다: 자원 제약 하에서도 문제의 본질을 깊이 고민하고, 아키텍처를 영리하게 설계하며, 모든 구성 요소를 세심하게 최적화함으로써 여전히 경쟁력 있는 시스템을 구축할 수 있습니다. 이는 아마도 중국의 AI 개발의 축소판일 것입니다 – 자원 쌓기가 아닌 공학 최적화의 승리입니다.

다음 번에 AI가 이전 대화를 '잊어버린' 것을 발견하면, 아마도 미래의 AI는 이렇게 대답할 것입니다: '나는 잊지 않았습니다; 우리는 대화를 사진으로 찍어 내 기억 속 깊이 저장했습니다. 필요하시면 언제든지 꺼낼 수 있습니다.'

그 순간, AI와 인류 간의 대화는 훨씬 더 자연스럽고 지속적이게 될 것입니다.

DeepSeek's technological roadmap consistently points towards "more efficient, more practical" solutions, rather than simply chasing benchmark numbers. V3, OCR, and likely R2, all follow this path. While these are based on current information and speculation, the direction is clear and technically supported.

Human memory doesn't function like a traditional computer, logging every detail. We remember impressions, key information, and emotional connections, not verbatim transcripts. We forget details but retain the important. We re-encode memories, storing them more efficiently. DeepSeek-OCR offers a viable pathway for AI to mimic this: when handling long contexts, a visual representation might be far more efficient than pure text.

Whether this idea holds up in broader contexts remains to be seen. But it undeniably proves one thing: under resource constraints, by deeply contemplating the nature of the problem, cleverly designing the architecture, and meticulously optimizing every component, it is still possible to build highly competitive systems. This, perhaps, is a microcosm of China's AI development – a victory not of resource stacking, but of engineering optimization.

The next time you find your AI "forgetting" your previous conversation, perhaps a future AI will respond: "I haven't forgotten; I've simply photographed our conversation and stored it deep within my memory. If you need it, I can always retrieve it for you."

At that moment, the dialogue between AI and humanity might become far more natural, and enduring.

머큐리 테크놀로지 솔루션. 디지털 혁신 가속화.

AI 메모리의 미래: DeepSeek의 긴 맥락과 글로벌 혁신 격차에 대한 비전 있는 접근

방 안의 코끼리: AI의 맥락적 망각

시각적 압축: AI 메모리에 대한 인간과 유사한 접근

스마트 아키텍처: 적응형 압축과 '인간의 망각' 가설

태그된 주제

여정 계속

The Old Guard Isn't Wrong—They're Just Playing a Different Game

The Old Guard Isn't Wrong—They're Just Playing a Different Game

관련 읽을거리

The Bottled Water Strategy: Why the "Free" AI Is Poisoning the Well

The Soviet Nail Factory, Now Running on GPUs

계속 읽기

James Huang의 추가 기사

The Old Guard Isn't Wrong—They're Just Playing a Different Game

The Bottled Water Strategy: Why the "Free" AI Is Poisoning the Well