TL;DR :Les lois de mise à l'échelle de l'IA atteignent des rendements décroissants, annonçant une ère où l'innovation architecturale, et non seulement le calcul de force brute, définira le progrès. Le récent DeepSeek-OCR de DeepSeek, avec sa "compression visuelle" du contexte, représente un changement révolutionnaire. En convertissant de longues conversations textuelles en fragments de mémoire "photographique", DeepSeek s'attaque au problème critique du long contexte de l'IA, permettant des conversations théoriquement infinies tout en optimisant le calcul. Cette innovation met en lumière une divergence fondamentale dans la stratégie mondiale de l'IA : alors que la technologie occidentale "empile souvent des ressources", les entreprises chinoises excellent dans "l'optimisation d'ingénierie" – une différence qui pourrait redéfinir le paysage concurrentiel et démocratiser les capacités avancées de l'IA.
Je suis James, PDG de Mercury Technology Solutions.
La trajectoire du développement de l'IA, en particulier entre l'Est et l'Ouest, continue de révéler deux approches fondamentalement différentes du progrès technologique. Alors qu'une grande partie de la conversation récente a tourné autour du plateau perçu des lois de mise à l'échelle de l'IA – surtout après que GPT-5 n'a pas livré le même "saut magique" que ses prédécesseurs – les véritables percées se produisent désormais dans la danse complexe de l'optimisation.
Hier, DeepSeek a dévoilé le DeepSeek-OCR, et je crois que cette innovation ouvre une nouvelle frontière cruciale pour l'optimisation de l'IA. C'est un témoignage d'une réflexion différente sur la nature même de la mémoire IA.
L'éléphant dans la pièce : l'amnésie contextuelle de l'IA
Quiconque a passé un temps significatif à converser avec un LLM l'a expérimenté : plus la conversation est longue, plus l'IA devient "bête". Les réponses s'éloignent, la cohérence s'estompe, et finalement, l'IA oublie complètement les détails antérieurs. Notre réaction instinctive est souvent de simplement redémarrer une nouvelle conversation, ce qui, à notre soulagement, restaure immédiatement la "fraîcheur" et la qualité de l'IA.
Ce n'est pas un bug ; c'est un défi fondamental :L'IA a du mal avec des contextes excessivement longs.Imaginez essayer de vous souvenir méticuleusement de chaque mot d'un livre entier, tout en traitant simultanément de nouvelles informations. Votre cerveau "crasherait" rapidement. Les LLM font face à une avalanche computationnelle similaire lorsqu'ils traitent de longues fenêtres contextuelles ; le calcul requis croît de manière exponentielle, entraînant des surcharges de mémoire et des temps de réponse inacceptablement lents. Bien que théoriquement possible, pratiquement, la latence rend un tel système inutilisable.
L'équipe de DeepSeek, cependant, a proposé une solution radicale :"photographier" de vieilles conversations.
Compression Visuelle : Une Approche Humaine de la Mémoire IA
Au départ, l'idée semble contre-intuitive. Convertir du texte en images, puis demander à une IA de "lire" ces images pour reconstruire la conversation ? Cela ne conduirait-il pas à une perte massive d'informations et à des exigences de stockage accrues ?
Les résultats de DeepSeek sont, franchement, étonnants. Ils ont découvert qu'une page de 1 000 mots pouvait être reconstruite avec plus de 97 % de précision en utilisant seulement environ 100 "tokens visuels". C'est comme compresser une conversation de 100 000 mots en 10 000 "fragments photo", permettant à l'IA de se souvenir de l'essentiel de votre discussion en regardant ces fragments. Même en poussant le ratio de compression à 20x (50 tokens visuels pour 1 000 mots), environ 60 % de précision était encore conservée. Pensez à vous souvenir de détails d'une conversation datant d'un mois – 60 % de rétention est impressionnant pour un humain, sans parler d'une IA.
(Un avertissement crucial : ces tests étaient principalement dans des scénarios OCR – reconstruction de texte à partir d'images. L'efficacité dans des dialogues complexes à plusieurs tours, des discussions de code ou un raisonnement complexe nécessite encore une validation complète, comme le reconnaît le document lui-même, ces résultats étant préliminaires.)
Cependant, d'un point de vue technique, la performance est remarquable. Un seul GPU A100 peut traiter 200 000 pages par jour, s'élevant à 33 millions de pages avec 20 nœuds. Pour des cas d'utilisation impliquant un traitement massif de documents, comme la préparation de grands modèles pour l'entraînement ou la construction de bases de connaissances d'entreprise, ce gain d'efficacité est transformateur.
DeepSeek a même open-sourcé le code et les poids du modèle, abaissant la barrière à l'entrée. Bien que le modèle ne soit pas affiné pour un usage conversationnel et nécessite des formats de prompt spécifiques, l'optimisation sous-jacente est indéniable.
Architecture Intelligente : Compression Adaptative et l'Hypothèse de l'"Oubli Humain"
Le DeepSeek-OCR n'est pas une solution rigide, unique pour tous. Son architecture est flexible, offrant plusieurs modes comme les différents réglages de prise de vue d'un appareil photo. Un simple diaporama pourrait n'avoir besoin que de 64 tokens visuels à une résolution de 512x512 (mode Tiny), tandis qu'une mise en page complexe de journal peut être gérée avec environ 800 tokens en utilisant un mode multi-vue "Gundam".
Cette flexibilité est essentielle. C'est semblable à la façon dont les humains traitent l'information – des notes simples sont stockées différemment que des articles académiques complexes. Le DeepSeek-OCR ajuste intelligemment la compression en fonction de la complexité du contenu, conservant les ressources lorsque cela est possible et appliquant plus de puissance lorsque cela est nécessaire. Le principe sous-jacent est profond : la limite de compression dépend de la complexité, reflétant le fonctionnement de la mémoire humaine.
Cela nous amène au concept le plus perspicace du document :"Laisser l'IA oublier comme un humain."
Considérez votre propre mémoire. Vous pouvez répéter une phrase récente mot à mot. L'essentiel d'une conversation d'une heure est clair. Les événements d'hier sont des fragments clés. La discussion de la semaine dernière est floue. Celle du mois dernier est largement oubliée.
DeepSeek propose un mécanisme similaire pour l'IA : les interactions récentes sont conservées sous forme de texte brut. Le contenu d'une heure devient une "photo" haute résolution (800 tokens). Le dialogue de ce matin se dégrade en définition standard (256 tokens). Celui d'hier devient basse résolution (100 tokens), et les souvenirs plus anciens sont soit fortement compressés, soit jetés.
Ce design ressemble à la nature évanescente de la mémoire humaine, et il ouvre la possibilité pour l'IA de gérer des "conversations théoriquement infinies", car les souvenirs plus anciens s'estompent automatiquement pour faire de la place aux nouveaux.Bien sûr, des défis demeurent. Comment déterminer quelles informations sont "importantes" et méritent une rétention haute résolution ? Que se passe-t-il si un utilisateur, 50 tours dans une conversation, fait soudainement référence à un détail du tour 5 qui a été fortement compressé ? Cela pourrait nécessiter un "scoring d'importance de mémoire" ou des tags d'importance assignés par l'utilisateur.Le fossé mondial de l'IA : optimisation d'ingénierie contre empilement de ressources
Cette recherche illustre de manière vivante une caractéristique déterminante des entreprises d'IA chinoises : un accent extrême sur l'"optimisation des coûts et l'efficacité d'ingénierie."
Le précédent modèle V3 de DeepSeek a atteint des performances de niveau GPT-4 avec une fraction du calcul (2,788M d'heures GPU H800, coût d'entraînement estimé à 5,57 millions de dollars), étonnant l'industrie. Ce modèle OCR poursuit cette tendance, cherchant sans relâche à obtenir les meilleurs résultats avec le moins de tokens.
Contrairement à l'approche "empiler des ressources jusqu'à ce que cela fonctionne" souvent observée dans certains développements d'IA occidentaux, les équipes chinoises excellent dans l'optimisation profonde sous contraintes de ressources. Cela pourrait être le résultat direct des restrictions à l'exportation de GPU, favorisant l'innovation contrainte, combinée à une forte culture d'ingénierie de l'efficacité. Alors qu'OpenAI peut brûler d'énormes sommes pour entraîner des modèles plus grands, DeepSeek "doit" trouver des moyens d'obtenir des résultats comparables avec moins.Cette divergence redéfinit activement le paysage concurrentiel mondial de l'IA. Alors que certaines entreprises occidentales continuent de rivaliser pour savoir qui a le plus grand modèle ou les coûts d'entraînement les plus élevés, les entreprises chinoises explorent comment obtenir 90 % de l'effet avec 10 % du coût. À long terme, cette capacité d'optimisation d'ingénierie pourrait s'avérer être un avantage concurrentiel plus redoutable que le simple déploiement de ressources, en particulier pour les applications commerciales à grande échelle où le contrôle des coûts est primordial.
Regard vers l'avenir : La promesse de R2 et au-delà
Si DeepSeek intègre ces types de techniques innovantes dans son modèle d'inférence de nouvelle génération, R2, cela pourrait entraîner des changements substantiels. R1 a déjà démontré la capacité des équipes chinoises à atteindre une parité presque occidentale en matière d'inférence, mais sa gestion des longs contextes est restée limitée par des architectures traditionnelles. Si R2 intègre la compression visuelle, l'optimisation MoE et d'autres techniques encore non annoncées, cela pourrait réduire de manière spectaculaire le coût computationnel des longs contextes tout en maintenant un raisonnement puissant.Ce n'est pas seulement une augmentation de performance ; c'est une expansion des cas d'utilisation. Imaginez une IA qui se souvient de dizaines de tours de conversation, traite des documents extrêmement longs et maintient un coût d'inférence acceptable. Cela serait transformateur pour des applications nécessitant une interaction prolongée, telles que l'éducation, la consultation médicale ou l'analyse juridique. Et si le coût est suffisamment bas, ces capacités pourraient passer d'être "exclusives aux grandes entreprises" à être "accessibles aux petits et moyens développeurs."La feuille de route technologique de DeepSeek pointe constamment vers des solutions "plus efficaces, plus pratiques", plutôt que de simplement poursuivre des chiffres de référence. V3, OCR et probablement R2, suivent tous ce chemin. Bien que ces informations soient basées sur des données actuelles et des spéculations, la direction est claire et techniquement soutenue.
La mémoire humaine ne fonctionne pas comme un ordinateur traditionnel, enregistrant chaque détail. Nous nous souvenons des impressions, des informations clés et des connexions émotionnelles, pas des transcriptions mot à mot. Nous oublions des détails mais retenons l'important. Nous ré-encodons les souvenirs, les stockant plus efficacement. Le DeepSeek-OCR offre un chemin viable pour que l'IA imite cela : lorsqu'il s'agit de gérer de longs contextes, une représentation visuelle pourrait être bien plus efficace que du texte pur.
Que cette idée tienne dans des contextes plus larges reste à voir. Mais elle prouve indéniablement une chose : sous des contraintes de ressources, en réfléchissant profondément à la nature du problème, en concevant intelligemment l'architecture et en optimisant méticuleusement chaque composant, il est encore possible de construire des systèmes hautement compétitifs. Cela, peut-être, est un microcosme du développement de l'IA en Chine – une victoire non pas de l'empilement de ressources, mais de l'optimisation d'ingénierie.
La prochaine fois que vous trouverez votre IA "oubliant" votre conversation précédente, peut-être qu'une IA future répondra : "Je n'ai pas oublié ; j'ai simplement photographié notre conversation et l'ai stockée profondément dans ma mémoire. Si vous en avez besoin, je peux toujours la récupérer pour vous."
À ce moment-là, le dialogue entre l'IA et l'humanité pourrait devenir beaucoup plus naturel et durable.
DeepSeek's technological roadmap consistently points towards "more efficient, more practical" solutions, rather than simply chasing benchmark numbers. V3, OCR, and likely R2, all follow this path. While these are based on current information and speculation, the direction is clear and technically supported.
Human memory doesn't function like a traditional computer, logging every detail. We remember impressions, key information, and emotional connections, not verbatim transcripts. We forget details but retain the important. We re-encode memories, storing them more efficiently. DeepSeek-OCR offers a viable pathway for AI to mimic this: when handling long contexts, a visual representation might be far more efficient than pure text.
Whether this idea holds up in broader contexts remains to be seen. But it undeniably proves one thing: under resource constraints, by deeply contemplating the nature of the problem, cleverly designing the architecture, and meticulously optimizing every component, it is still possible to build highly competitive systems. This, perhaps, is a microcosm of China's AI development – a victory not of resource stacking, but of engineering optimization.
The next time you find your AI "forgetting" your previous conversation, perhaps a future AI will respond: "I haven't forgotten; I've simply photographed our conversation and stored it deep within my memory. If you need it, I can always retrieve it for you."
At that moment, the dialogue between AI and humanity might become far more natural, and enduring.
Solutions Technologiques Mercury. Accélérez la Digitalité.

