8 min remaining
0%
人工智慧與機器學習

人工智慧記憶的未來:DeepSeek 對長上下文及全球創新差距的前瞻性方法

DeepSeek 的 DeepSeek-OCR 在人工智慧記憶領域中是一個遊戲改變者,將長對話轉換為照片記憶片段,優化計算並解決人工智慧的上下文健忘問題。

8 min read
Progress tracked
8 分鐘閱讀

簡而言之:人工智慧的擴展法則正面臨收益遞減,開啟一個以架構創新而非單純的計算力來定義進步的時代。DeepSeek 最近推出的 DeepSeek-OCR,通過其對上下文的「視覺壓縮」,代表了一次突破性的轉變。通過將長文本對話轉換為「照片」記憶片段,DeepSeek 正在解決人工智慧的關鍵長上下文問題,實現理論上無限的對話,同時優化計算。這項創新突顯了全球人工智慧策略的根本分歧:西方科技往往「堆疊資源」,而中國公司則在「工程優化」方面表現出色——這一差異可能重塑競爭格局並使先進的人工智慧能力民主化。

我是 James,水星科技解決方案的首席執行官。

人工智慧發展的軌跡,特別是在東方與西方之間,持續揭示出兩種根本不同的技術進步方法。儘管最近的討論多圍繞著人工智慧擴展法則的停滯——特別是在 GPT-5 未能交付與其前身相同的「魔法飛躍」之後——真正的突破現在正發生在優化的精細舞蹈中。

昨天,DeepSeek 揭示了 DeepSeek-OCR,我相信這項創新為人工智慧優化開啟了一個關鍵的新前沿。這證明了對人工智慧記憶本質的不同思考方式。

房間裡的大象:人工智慧的上下文健忘

任何與大型語言模型(LLM)進行過長時間對話的人都會體驗到:對話越長,人工智慧變得越「笨」。回應漂移,連貫性減弱,最終,人工智慧完全忘記早期的細節。我們的本能反應往往是簡單地重新開始一個新對話,這讓我們鬆了一口氣,立即恢復了人工智慧的「新鮮感」和質量。

這不是一個錯誤;這是一個根本性的挑戰:人工智慧在處理過長的上下文時面臨困難。想像一下試圖仔細記住整本書的每一個字,同時處理新的信息。你的大腦會迅速「崩潰」。大型語言模型在處理長上下文窗口時面臨類似的計算雪崩;所需的計算量呈指數增長,導致記憶過載和不可接受的響應時間。雖然理論上可能,但實際上,延遲使這樣的系統無法使用。

然而,DeepSeek 的團隊提出了一個激進的解決方案:「拍攝」舊對話。

視覺壓縮:類人方式的人工智慧記憶

最初,這個想法聽起來違反直覺。將文本轉換為圖像,然後要求人工智慧「閱讀」這些圖像以重建對話?這不會導致大量信息損失和增加存儲需求嗎?

DeepSeek 的結果,坦白說,令人驚訝。他們發現一頁 1,000 字的文本可以使用僅約 100 個「視覺標記」以超過 97% 的準確度重建。這就像將一段 100,000 字的對話壓縮成 10,000 個「照片片段」,讓人工智慧通過查看這些片段來回憶你們的討論要點。即使將壓縮比推高到 20 倍(1,000 字需要 50 個視覺標記),仍然保持約 60% 的準確度。想想從一個月前的對話中回憶細節——60% 的保留對於人類來說是令人印象深刻的,更不用說對於人工智慧了。

(一個重要的警告:這些測試主要是在 OCR 場景中進行的——從圖像中重建文本。在複雜的多輪對話、代碼討論或複雜推理中的有效性仍需全面驗證,因為論文本身承認這些是初步結果。)

然而,從工程的角度來看,性能是卓越的。單個 A100 GPU 每天可以處理 200,000 頁,擴展到 33 百萬頁,使用 20 個節點。對於涉及大量文檔處理的用例,例如準備大型模型進行訓練或構建企業知識庫,這種效率提升是變革性的。

DeepSeek 甚至開源了代碼和模型權重,降低了進入門檻。雖然該模型並未針對對話使用進行微調,並且需要特定的提示格式,但其底層優化是不可否認的。

智能架構:自適應壓縮和「人類健忘」假說

DeepSeek-OCR 不是一個僵化的、一刀切的解決方案。它的架構是靈活的,提供多種模式,就像相機的各種拍攝設置。一個簡單的幻燈片可能只需要 64 個視覺標記,分辨率為 512x512(微型模式),而一個複雜的報紙佈局可以使用約 800 個標記,採用多視角的「高達」模式來處理。

這種靈活性是關鍵。這類似於人類處理信息的方式——簡單的筆記與複雜的學術論文的儲存方式不同。DeepSeek-OCR 根據內容的複雜性智能調整壓縮,儘可能節省資源,並在需要時施加更多的計算能力。其底層原則是深刻的:壓縮的極限取決於複雜性,反映了人類記憶的運作方式。

這將我們帶到論文中最具洞察力的概念:「讓人工智慧像人類一樣忘記。」

考慮一下你自己的記憶。你可以逐字重複最近的一句話。一小時前的對話要點很清晰。昨天的事件是關鍵片段。上週的討論則模糊不清。上個月的則幾乎被遺忘。

DeepSeek 提出了類似的機制給人工智慧:最近的互動保留為原始文本。一小時前的內容變成高解析度的「照片」(800 個標記)。今天早上的對話降級為標準清晰度(256 個標記)。昨天的對話變為低解析度(100 個標記),而較舊的記憶則被大量壓縮或丟棄。

這種設計類似於人類記憶的衰退特性,並為人工智慧處理「理論上無限的對話」開啟了可能性,因為較舊的記憶會自動「衰退」,以便為新的記憶騰出空間。當然,挑戰仍然存在。我們如何確定哪些信息是「重要的」並值得高解析度保留?如果用戶在對話進行到第 50 輪時,突然提到第 5 輪的細節,而該細節已被大量壓縮,會發生什麼?這可能需要「記憶重要性評分」或用戶指定的重要性標籤。全球人工智慧差距:工程優化與資源堆疊

這項研究生動地展示了中國人工智慧公司的定義特徵:對「成本優化和工程效率」的極端關注。

DeepSeek 之前的 V3 模型以少量計算(2.788M H800 GPU 小時,估計訓練成本 5.57 萬美元)達到了 GPT-4 的性能,令業界驚訝。這個 OCR 模型延續了這一趨勢,不斷尋求以最少的標記達到最佳結果。

與一些西方人工智慧開發中經常看到的「堆疊資源直到有效」的方法相比,中國團隊在資源限制下的深度優化表現出色。這可能是 GPU 出口限制的直接結果,促進了強迫創新,結合了強大的工程效率文化。雖然 OpenAI 可以燒掉大量資金來訓練更大的模型,但 DeepSeek「必須」找到以更少的資源達到可比結果的方法。這一分歧正在積極重塑全球人工智慧競爭格局。雖然一些西方公司仍在競爭誰擁有最大的模型或最高的訓練成本,但中國公司正在探索如何以 10% 的成本實現 90% 的效果。從長遠來看,這種工程優化能力可能被證明是比單純資源部署更具威脅的競爭優勢,尤其是在成本控制至關重要的大規模商業應用中。

展望未來:R2 及其後的承諾

如果 DeepSeek 將這些創新技術整合到其下一代推理模型 R2 中,可能會導致實質性的變化。R1 已經展示了中國團隊在推理方面達到接近西方的能力,但其長上下文處理仍受限於傳統架構。如果 R2 整合視覺壓縮、MoE 優化及其他尚未公布的技術,則可能在保持強大推理的同時大幅降低長上下文的計算成本。這不僅僅是性能的提升;這是用例的擴展。想像一個人工智慧能夠記住數十輪對話,處理極長的文檔,並保持可接受的推理成本。這將對需要長時間互動的應用,如教育、醫療諮詢或法律分析,帶來變革。如果成本足夠低,這些能力可能會從「大型企業專屬」變為「小型和中型開發者可獲得」。DeepSeek 的技術路線圖始終指向「更高效、更實用」的解決方案,而不僅僅是追求基準數字。V3、OCR 和可能的 R2 都遵循這一方向。雖然這些基於當前的信息和推測,但方向是明確的,並且有技術支持。

人類記憶並不像傳統計算機那樣運作,記錄每一個細節。我們記住的是印象、關鍵信息和情感聯繫,而不是逐字的記錄。我們會忘記細節,但保留重要的。我們會重新編碼記憶,更有效地儲存它們。DeepSeek-OCR 提供了一條可行的途徑,讓人工智慧模仿這一點:在處理長上下文時,視覺表徵可能比純文本更有效。

這個想法在更廣泛的上下文中是否成立仍有待觀察。但它無可否認地證明了一件事:在資源限制下,通過深入思考問題的本質,巧妙設計架構,並仔細優化每個組件,仍然可以構建高度競爭的系統。這或許是中國人工智慧發展的一個縮影——這是一場不是資源堆疊的勝利,而是工程優化的勝利。

下次當你發現你的人工智慧「忘記」了你之前的對話時,也許未來的人工智慧會回答:「我沒有忘記;我只是將我們的對話拍攝下來並深藏在我的記憶中。如果你需要,我可以隨時為你檢索。」

在那一刻,人工智慧與人類之間的對話可能會變得更加自然和持久。

DeepSeek's technological roadmap consistently points towards "more efficient, more practical" solutions, rather than simply chasing benchmark numbers. V3, OCR, and likely R2, all follow this path. While these are based on current information and speculation, the direction is clear and technically supported.

Human memory doesn't function like a traditional computer, logging every detail. We remember impressions, key information, and emotional connections, not verbatim transcripts. We forget details but retain the important. We re-encode memories, storing them more efficiently. DeepSeek-OCR offers a viable pathway for AI to mimic this: when handling long contexts, a visual representation might be far more efficient than pure text.

Whether this idea holds up in broader contexts remains to be seen. But it undeniably proves one thing: under resource constraints, by deeply contemplating the nature of the problem, cleverly designing the architecture, and meticulously optimizing every component, it is still possible to build highly competitive systems. This, perhaps, is a microcosm of China's AI development – a victory not of resource stacking, but of engineering optimization.

The next time you find your AI "forgetting" your previous conversation, perhaps a future AI will respond: "I haven't forgotten; I've simply photographed our conversation and stored it deep within my memory. If you need it, I can always retrieve it for you."

At that moment, the dialogue between AI and humanity might become far more natural, and enduring.

水星科技解決方案。加速數位化。