Hugging Face 試用鏈接:https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
DeepSeek 如今正將其影響力從語言處理,擴展到計算機視覺領域。據隨模型發布的技術論文介紹,Janus Pro 7B 在效率和多功能性方面經過精心設計,能夠在一系列視覺任務中表現出色:從生成逼真的圖像到執行復雜的視覺推理任務。
Janus-Pro 與其前身 Janus 在文本生成圖像方面的對比DeepSeek 還展示了 Janus Pro 7B 的性能指標。(左)Janus Pro 7B 在比其他多模態大模型參數更少的情況下,依然實現了較高的性能。(右)該模型在文本生成圖像基準測試中也取得了最高的準確率,超越了競爭對手(包括 DALL?E 3 和 SD3-Medium)。
Janus-Pro 的多模態理解與視覺生成結果DeepSeek 研究團隊在他們的論文中表示:「Janus Pro 是一個高效的視覺模型系列,旨在實現性能與計算成本之間的平衡,能夠在廣泛的視覺任務中實現最先進的性能。」以下為 Janus Pro 在多模態任務中的優良表現:
圖片描述
文生圖1. Janus Pro 架構對效率的強調是 Janus Pro 7B 區別于其他大規模、高資源需求 AI 模型的關鍵優勢。與一些最大且最耗資源的 AI 模型不同,Janus Pro 7B 通過其 70 億參數設計,能夠提供高水平的性能,同時避免了對龐大計算資源的需求。Janus-Pro 的架構與 Janus 相同。如下圖所示,整體架構的核心設計原則是將多模態理解與生成的視覺編碼解耦。研究者應用獨立的編碼方法將原始輸入轉換為特征,這些特征隨后由一個統一的自回歸 Transformer 處理。
Janus-Pro 架構2. 訓練策略優化Janus 的前一個版本采用了三階段訓練過程:
階段 I:重點訓練適配器和圖像頭。
階段 II:進行統一預訓練。在此過程中,除理解編碼器和生成編碼器外,所有組件的參數都會被更新。
階段 III:進行監督微調。在階段 II 的基礎上,進一步解鎖理解編碼器的參數。
然而,這種訓練策略存在一些問題。通過進一步的實驗,DeepSeek 研究團隊發現這一策略并不最優,并導致了顯著的計算效率低下。為解決此問題,他們在原有基礎上進行了兩項修改:在階段 I 延長訓練時間:研究者增加了階段 I 的訓練步數,以確保在 ImageNet 數據集上得到充分的訓練。他們經過研究發現,即使固定了大語言模型(LLM)的參數,該模型仍能有效地建模像素間的依賴關系,并根據類別名稱生成合理的圖像。在階段 II 進行重點訓練:在階段 II 中,研究者去除了 ImageNet 數據,直接使用標準的文本生成圖像數據來訓練模型,從而使模型能夠基于詳細的描述生成圖像。這種重新設計的方法使得階段 II 能夠更高效地利用文本生成圖像的數據,并顯著提高了訓練效率和整體性能。3. 數據擴展研究團隊在 Janus 的訓練數據上進行了擴展,涵蓋了多模態理解和視覺生成兩個方面:
多模態理解:對于階段 II 的預訓練數據,參考 DeepSeek-VL2 ,并增加了大約 9000 萬條樣本。樣本包括圖像標注數據集,以及表格、圖表和文檔理解的數據。
DeepSeek 兩連擊:提升市場焦慮與競爭壓力Janus Pro 7B 的發布引發了不少討論,比如 VentureBeat 認為:「Janus Pro 7B 的發布時機放大了其影響力。這是緊隨 R1 模型和隨之而來的市場動蕩之后,它強化了這樣的敘事:DeepSeek 是能夠顛覆 AI 既定秩序的創新者。」該媒體還認為:「Janus Pro 7B 的開源性質會加劇這種顛覆。與之前的開源運動一樣,這會讓人們更容易使用高級 AI。大型科技公司以外的企業將受益:無需供應商鎖定或高額費用即可獲得頂級 AI。對于 AI 巨頭來說,DeepSeek 構成了直接威脅:他們的專有高級模型能否在免費、高質量的替代品面前生存下來?當前的股市拋售情況表明投資者對此表示懷疑。」對于 DeepSeek 正在給 AI 社區以及投資市場帶來的影響,你有什么看法,請與我們分享。參考鏈接https://venturebeat.com/ai/deepseek-unleashes-janus-pro-7b-vision-model-amidst-ai-stock-bloodbath-igniting-fresh-fears-of-chinese-tech-dominance/