出品|搜狐科技
作者|鄭松毅
DeepSeek再次“低調”震驚世界!
(資料圖片)
他們新發(fā)布并開源的OCR模型,從根本上改變了AI游戲規(guī)則。Github開源項目DeepSeek-OCR,一夜收獲超4k星。相關論文(《DeepSeek OCR:上下文光學壓縮》)解釋了這一研究成果。
很多人好奇,什么是OCR?
傳統(tǒng)OCR如同“文字掃描儀”,通過光學技術將圖像中的文字提取轉換為計算機和人都能理解的格式。比如,在將大量票據、證件、表單等數據電子化時,OCR發(fā)揮關鍵作用。
但DeepSeek卻反其道而行之——將文本信息“繪制”為視覺圖像,再通過視覺模型實現(xiàn)高效理解。如此創(chuàng)新嘗試就是為了解決大模型的核心痛點——處理長文本時面臨的計算挑戰(zhàn)。
效果有多驚艷?10頁密密麻麻的文本報告,被壓縮成一張圖片,AI能夠一眼讀懂它。這樣的信息處理效率意味著大幅降低了計算復雜度,用最直接的方式節(jié)約成本。
論文發(fā)布后,意料之內的好評如潮,有網友直接將其稱為“硅基生命進化論”。
最近還在銳評AI發(fā)展的OpenAI創(chuàng)始團隊成員、特斯拉前AI總監(jiān)Karpathy,對DeepSeek新成果直言喜愛,并指出“早就該讓視覺成為AI核心,而非依賴爛透了的文本分詞器。”
更有業(yè)內大佬感嘆,“當文本能被轉化為視覺可理解的結構,語言與視覺的統(tǒng)一或許不再是理論。這可能是通往 AGI(通用人工智能)的關鍵一步。”
DeepSeek新研究:把大量文字壓縮到圖片,讓模型直接看圖理解
本質上來說,DeepSeek-OCR是將視覺與語言模態(tài)深度融合,通過“視覺-文本壓縮”建立自然映射關系,為多模態(tài)大模型提供了新的技術路徑。
之前的大模型可以說是“帶著腳銬的舞者”,雖有強大的語言理解能力,卻被低效的信息輸入方式嚴重束縛。
拿模型閱讀長篇文本來說,每頁財報、論文都包含數千個token,傳統(tǒng)方式下只能逐字逐句識別,導致計算量爆炸。這種低效作業(yè)讓大模型在法律、金融等領域的應用舉步維艱。
而DeepSeek這次用到了一個巧妙思維——既然一張圖片能裝下成千上萬的文字,那是不是大量文字信息也能被壓縮到一張圖片里,讓模型直接看圖理解就好了。
為實現(xiàn)這一設想,DeepSeek為OCR模型配備了三件套——圖像編碼器、映射層和文本解碼器。其中,圖像編碼器DeepEncoder(負責把圖片轉成高度壓縮的視覺token)參數為380M,文本解碼器(負責從壓縮的視覺token里重建文字)是一個deepseekv2-3b的模型,參數為3B。
整體訓練數據由4部分組成,包括OCR1.0數據(傳統(tǒng)OCR任務,如圖像OCR和文檔OCR)、OCR2.0數據(復雜圖像解析任務,如幾何、圖表等)、通用視覺數據(用于注入通用圖像理解能力)、及純文本數據(用于確保模型的語言能力)。
別看模型參數不大,但就研究結果發(fā)現(xiàn),當文本壓縮率小于10倍時,模型OCR解碼準確率高達97%,及時壓縮率高達20倍時,準確率依舊能保持在60%。在A100-40G顯卡環(huán)境下,單日可生成超過20萬頁的模型訓練數據。
也就是說,如果普通 OCR 需要 10,000 個 token 才能讀完整篇文檔,這個模型可能只用 1,000 個就能搞定,且能高準確度地理解信息。
受益于訓練數據多樣性,論文提到DeepSeek-OCR不僅能識別文字,還能理解文檔布局、圖表結構。從某種角度說,這已經不是傳統(tǒng)的OCR,而更接近“文檔理解引擎”。
論文中提到的一個基準叫OmniDocBench,就是專門用來測試復雜文檔理解能力的。DeepSeek-OCR 在這個基準上,用更少的視覺 token 數量就超過了 GOT-OCR 2.0 和 MinerU 2.0,這倆都是目前較頂尖的開源 OCR 模型,可謂十分能打。
讓AI記憶模式更像人類
在論文中,DeepSeek還談到了一直困擾業(yè)界的AI“記憶”和“遺忘”機制。
深度學習模型的記憶以分布式參數形式存儲,這種非結構化存儲導致傳統(tǒng)神經網絡在學習新任務時,舊知識的參數空間會被新知識覆蓋,模型無法做到像人類一樣進行連貫推理。
而DeepSeek的想法是,通過視覺-文本壓縮范式和動態(tài)分層遺忘機制,讓AI“記住該記住的,忘記該忘記的”。
其核心思路是將文本信息轉化為視覺token,通過光學壓縮實現(xiàn)高效記憶管理,同時模擬人類遺忘曲線動態(tài)調整信息留存。
在這個過程中,核心組件DeepEncoder發(fā)揮關鍵作用,50-100個視覺tokens即可還原1000字文本,實現(xiàn)近 10 倍的計算量節(jié)省。
這種壓縮并非簡單的信息降維,而是通過“注意力機制+結構化訓練”,優(yōu)先保留對模型推理最關鍵的信息。類似人類閱讀時“先抓標題再看細節(jié)”的認知模式,去除不重要的信息噪聲。
關于如何讓模型的記憶模式更像人類,研究者做了進一步解釋:對于近期記憶,可以將其渲染成高分辨率圖像,用多token數量保留高保真信息。而對于遠期記憶,可以縮放成更小、更模糊的圖像,用少量token來保留信息,從而實現(xiàn)信息的自然遺忘和壓縮。
雖然當前還僅是研究前期探索階段,但DeepSeek的創(chuàng)新思路,確實讓AI越來越像人類了。
三名作者
本篇論文共有3名作者:Haoran Wei、Yaofeng Sun、Yukun Li。
論文一作Haoran Wei曾主導開發(fā)爆火項目GOT-OCR2.0,此次的DeepSeek-OCR也可以說是延續(xù)了此前項目的創(chuàng)新技術路徑。根據此前論文信息顯示,Haoran Wei還曾就職于階躍星辰。
Yaofeng Sun畢業(yè)于北京大學圖靈班計算機科學專業(yè),于2023年加入DeepSeek,先后參與DeepSeek-r1、DeepSeek-v3、DeepSeek-v2等模型的研究。
Yukun Li也參與了包括DeepSeek-v2/v3在內的多款模型研究,谷歌學術論文引用量近萬。










