精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
DeepSeek的Janus-Pro表現如何?

文:王智遠 | ID:Z201440

昨晚,刷新聞時看到:

DeepSeek創始人梁文峰已經回廣州老家過年了。然而,在2025年1月27日凌晨(除夕夜)前夕,他們團隊發布了一款新模型:多模態框架Janus-Pro。
朋友在社群中笑的吐槽到,估計他是想以中國人的方式,和美國AI圈一起慶祝春節。

這款模型一發布,讓本來就爆火的DeepSeek又一次成為了焦點。黃仁勛看了可能都想說:一晚上干掉我幾千億市值,年輕人不講武德,下手沒個輕重,居然還在除夕夜搞事情。

不過,吐槽歸吐槽,模型確實值得關注。我不是技術從業者,但可以把自身理解的匯報給你。

整個報告一共有四點。第一點是:DeepSeek Janus-Pro是什么?

它是一款先進的多模態理解和生成模型,是之前Janus模型的升級版。簡單講,這個模型能夠同時處理文本、圖像,即可以理解圖片內容,也能文生圖。
為什么叫這個名字呢?
在羅馬神話中,Janus(雅努斯)是象征著矛盾和過渡的雙面守護神,他有兩副面孔,一副看著過去,一副看著未來,象征著開始和結束。
這個模型設計理念是雙重的,能理解圖像又能生成圖像,所以,它非常貼切模型的雙重能力,才叫:雅努斯。
問題來了,之前有Janus,為什么還要推出PRO版?
報告中提到,現在多模態模型雖然已經很厲害,但處理復雜的任務時,還有諸多不足,有些模型在理解圖片內容時表現不錯,但生成圖片可能不穩定,要么細節處理不到位、甚至描述和想象的不一樣;為了解決一系列問題,因此,才推出Janus-Pro版。
既然這樣,Janus-Pro版采用什么樣的架構呢?
官方說:整體架構的核心設計原則是,將多模態理解任務和視覺生成任務的視覺編碼進行解耦;我們應用獨立的編碼方法將原始輸入轉換為特征,然后,通過統一的自回歸變換器進行處理。
圖釋:Janus-Pro模型架構示意圖,如何分別處理理解圖像和生成圖像的任務
這段話比較復雜。我舉個例子:
現在有個超級機器人叫Janus-Pro。它的大腦被設計成兩個部分,一個負責理解圖片,另一個負責根據文字描述來畫畫。
當機器人看到一張圖片時,會用一個特別的“眼睛”(叫SigLIP編碼器)來仔細觀察圖片,然后,把看到的內容變成一串數字(高維語義特征)。
這些數字像圖片的“指紋”,能幫助機器人理解圖片里有什么;接下來,數字會被整理成一排,通過一個翻譯器(適配器)轉換成機器理解的語言。
當機器人需要根據文字描述畫面時,它會用另一個工具(叫VQ tokenizer)把圖片變成一串代碼(離散ID)。這些代碼,就像圖片的「密碼」,機器人可以根據密碼重建照片。
緊接著,代碼也會被整理成一排,通過另一個“翻譯器”(生成適配器)轉換成機器人能理解的語言;最后,機器人把兩部分信息(理解圖片的內容和根據文字描述畫畫的信息)和合并在一起,通過大腦(語言模型)來處理,最后,機器就能看到你要的東西了。

簡單講,有四步:理解照片,提煉成語義,轉換成機器人看得懂的東西,合并成你想要的東西。這是第一部分,它是什么?它的架構什么樣。

那么,它是怎么訓練出來的呢?一共有三個階段:

第一階段,專注于訓練適配器和圖像頭部。第二階段處理統一預訓練,第三階段,監督微調。但我認為,這樣理解比較復雜。
打個比方:
你現在正在教一個小孩學畫畫。一開始,你不會直接讓他畫一幅復雜的風景畫,而是先讓他練習畫簡單的形狀,比如圓圈、正方形。等他把基本形狀畫得熟練了,再逐步增加難度,讓他畫更復雜的東西。Janus-Pro的訓練也是這樣的。
第一階段,打基礎。就像讓小孩練習畫“基本形狀”一樣,Janus-Pro會先專注于學習圖像基本特征,比如顏色、線條等。
這個階段的訓練步驟增加了,模型才有更多時間學習基本特征,如此一來,即便在固定的語言模型參數下,模型也能有效模擬像素的規律,根據類別生成合理的框架。
到了第二階段,增強難度。
當小孩能夠熟練畫出基本形狀后,就可以開始畫更復雜的東西了。同樣,Janus-Pro在這個階段。會開始處理更復雜的任務,比如:根據文本描述生成圖像。
這個階段的訓練數據也做了優化,直接使用正常的文本到圖像數據,提高了訓練效率,這樣,模型能夠更高效地利用文本到圖像數據,從而提升了整體性能。
第三階段,檢驗成果。
就像讓孩子參加畫畫比賽,檢驗他的學習成果一樣,Janus-Pro在這個階段會同時處理多模態理解任務和文本到圖像生成任務,進一步優化模型的性能。
比如:將多模態數據、純文本數據和文本到圖像數據的比例從7:3:10調整為5:1:4,進一步提升模態的理解能力。
在數據上,官方提到:
在Janus-Pro中,我們加入了大約7200萬樣本的合成美學數據,使得統一預訓練階段中真實數據與合成數據的比例達到1:1,這些合成數據樣本的提示是公開可用的。
實驗證明,模型在合成數據上訓練時,收斂速度更快,生成的文本到圖像輸出不僅更穩定,而且在審美質量上也有顯著提升。
說白了,我認為,這三個步驟,如果總結歸納的話,用中國話叫:比著葫蘆畫瓢。
問題來了:光畫不夠,因為,小朋友想畫出一幅好畫,必須要學很多東西,去理解世界,看各種各樣的動物、照片才有抽象的能力。
怎么辦?
為了提高Janus-Pro在任務中的表現,團隊增加了大量的圖像字幕數據、表格圖表、以及文檔理解數據;這些數據,能讓模型有機會學習不同的東西。這叫:多模態理解數據的能力。
然后,團隊又增加了大量的合成美學數據。這些數據讓模型,有更多機會學習如何生成高質量的圖像,從而提高模型的生成能力。

因此,“比著葫蘆畫瓢連”加上學習,它才能在日常中更出色。

可是,光有數據和學習能力還不夠,就像小朋友要長大,需要不斷提升認知能力一樣,Janus-Pro也要“長大”。那么,它是怎么“長大”的呢?

官方提到,先前版本使用的是1.5B語言模型,驗證了視覺編碼解耦的有效性;而在Janus-Pro中,團隊將模型擴展到了7B,并對1.5B和7B語言模型的超參數進行了優化。
具體來說,1.5B模型的嵌入大小為2048,上下文窗口為4096,注意力頭數為16,層數為24;而7B模型的嵌入大小為4096,上下文窗口為4096,注意力頭數為32,層數為30。
看到這些數字,你可能會覺得頭大。其實,參數可以抽象地理解為模型“大腦”的升級:
  • 嵌入大小:就像模型“記憶容量”,越大,能記住的信息就越多
  • 上下文窗口:就像模型“視野范圍”,越大,能看到的上下文信息就越豐富?
  • 注意力頭數:就像模型“注意力焦點”,越多,能同時關注的細節就越多?
  • 層數:就像模型的“思考深度”,越多,能進行的思考就越復雜?

通過升級,Janus-Pro的“大腦”從一個小學生變成了一個大學生,能力得到了全面提升。
官方團隊發現,使用更大規模的語言模型時,多模態理解和視覺生成的損失收斂速度,顯著提高,與較小模型相比,性能提升明顯。這一發現,進一步驗證了這種方法的強大可擴展性。

說白了,更大模型就像一支更高級的畫筆,能夠更精細地處理復雜的任務,生成更高質量的圖像和更準確的理解結果。

圖釋:Janus-Pro模型超參數配置概覽
那么,這些升級如何實現呢?來看看訓練過程。
官方提到:
Janus-Pro使用了DeepSeek-LLM作為基礎語言模型,這是一個支持最大序列長度為4096的強大模型。
對于視覺編碼器,Janus-Pro選擇了SigLIP-Large-Patch16-384,這是一個能夠從圖像中提取高維語義特征的編碼器。生成編碼器的碼本大小為16,384,圖像下采樣因子為16。
訓練過程中,Janus-Pro采用了多種優化策略;例如,使用了AdamW優化器,使得學習率在不同階段逐漸調整。整個訓練過程在HAI-LLM框架上進行,強大的硬件支持確保,Janus-Pro能夠在短時間內完成復雜的訓練任務。
這些數據看不懂沒關系,我抽象解釋下:
你家小孩要參加一個畫畫比賽,你需要為他準備一套好用的畫具,還得找一位經驗豐富的老師來指導他,對吧?
DeepSeek-LLM像那套高級畫具,能夠幫助Janus-Pro更好地處理復雜的任務。
AdamW優化器,像經驗豐富的老師,會根據小孩的學習進度,逐漸調整教學難度,讓小孩在每個階段都能穩步進步;HAI-LLM框架就像是一個寬敞明亮的畫室,為小孩提供了專注創作的環境。
?

有了軟硬兼施的整體支持,Janus-Pro才能輕松應對復雜的文本描述,生成高質量的圖像的任務。

理論固然重要,實際表現才是檢驗模型能力的真正標準,有句中國話叫什么:是騾子是馬,拉出來遛遛。那么,Janus-Pro的實際表現如何呢?

來看看它的評估設置和與最新技術的比較。為了驗證Janus-Pro的性能,團隊進行了嚴格的評估,他們選擇了多個基準測試,包括多模態理解任務和視覺生成任務。

  • 多模態理解任務:包括GQA、POPE、MME等。這些測試就像是讓Janus-Pro看一幅畫,然后描述畫里的內容,看看它能不能準確地理解。
  • 視覺生成任務:包括GenEval和DPG-Bench。這些測試則是給Janus-Pro一個文字描述,讓它根據描述畫出一幅畫,看看它能不能畫得像、畫得好。
說白了,就是反復進行“看圖說話”和“說話想象圖片”的雙重測試。
那么,Janus-Pro在這場“考試”中表現如何呢?我們可以拿它和其他的“考生”,也就是其他多模態模型——來做比較。
首先,多模態理解任務上:
Janus-Pro在MMBench基準測試中得分79.2,超過了其他一些知名的模型,比如TokenFlow-XL(68.9)和MetaMorph(75.2)。這像在一場畫畫比賽中,Janus-Pro的畫作得到更高的評價,說明它在理解圖像內容方面確實很厲害。
對了,TokenFlow-XL是ByteFlow-AI團隊開發的一個多模態模型,而MMBench由Meta公司開發;這兩個對比充分說明了Janus-Pro在多模態理解任務中的領先地位。

圖釋:多模態理解基準測試中不同模型性能對比
其次,在視覺生成任務上:
Janus-Pro在GenEval基準測試中得分(0.80),也超過了DALL-E 3(0.67)和Stable Diffusion 3 Medium(0.74)等模型。
這像給Janus-Pro一個文字描述,讓它畫出一幅畫,結果它畫得比其他模型更準確、更細致,說明它在根據文字描述生成圖像方面也很出色。
對了,DALL-E 3是OpenAI開發的文生圖模型,而 Stable Diffusion 3 Medium不用說了,眾所周知,專注于生成高質量圖片,特別在中等分辨率下表現出色。
所以,結論是什么?

一句話總結即:Janus-Pro在這場“考試”中表現優異,吊打部分行業頭部模型。還有一點是:這些測試不是自己測的。是專業機構gemimi和DPG bench權威認證,在hanggenface開源官網更新。

報告參考:

[1].發布地址:https://huggingface.co/deepseek-ai/Janus-Pro-1B

[2].報告地址:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

————
本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
剛剛!DeepSeek 再發新模型Janus-Pro 7B,統一多模態理解與生成
胖·觀察|Deepseek最新發布的多模態模型Janus-Pro究竟強在哪里?
DeepSeek新作Janus:解耦視覺編碼,引領多模態理解與生成統一新范式
MLMs之Janus:《Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling》翻
DeepSeek 再度開源:用 Janus
谷歌“最強”AI誕生!聽、說、看、寫樣樣精通,還能教人做飯…
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 永康市| 太保市| 孟津县| 新绛县| 泾源县| 南阳市| 巴马| 镇原县| 六安市| 德州市| 大余县| 伊通| 同仁县| 赣榆县| 阿坝县| 化德县| 郓城县| 墨竹工卡县| 府谷县| 辽阳县| 辽阳市| 赣榆县| 三明市| 墨竹工卡县| 平阴县| 遂宁市| 聂拉木县| 和林格尔县| 竹北市| 河间市| 绥滨县| 沂水县| 吉首市| 四会市| 息烽县| 聂荣县| 平利县| 天柱县| 远安县| 田东县| 武汉市|