今天是中國農(nóng)歷除夕,胖胖老師首先祝各位讀者朋友金蛇納福,新春快樂,感謝大家過去一年的支持與鼓勵,新的一年也請多多關(guān)照。
言歸正傳,今天凌晨風(fēng)頭正盛的Deepseek再次放出“王炸”——多模態(tài)模型Janus-Pro發(fā)布,并給出了開源部署方法和研究論文,一時間再次抓住了公眾眼球。那么這個Janus-Pro(中文譯名可以是“吉娜婆”,哈哈)究竟給我們帶來哪些驚喜呢?胖胖老師就借助Deepseek和豆包AI文獻閱讀給大家做個分析。
論文地址:
https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
根據(jù)官方提供的研究論文,Janus-pro 大模型在多模態(tài)理解和生成領(lǐng)域展現(xiàn)出顯著特點與獨特價值,它改進了 Janus,在訓(xùn)練策略、數(shù)據(jù)、模型規(guī)模上進行優(yōu)化,提升了性能。
Janus-pro 大模型的特點架構(gòu)設(shè)計解耦優(yōu)勢:采用與 Janus 相同的架構(gòu),解耦多模態(tài)理解和視覺生成的視覺編碼。理解任務(wù)用 SigLIP 編碼器提取圖像語義特征,生成任務(wù)通過 VQ 分詞器轉(zhuǎn)換圖像為離散 ID,經(jīng)適配器處理后輸入 LLM,這種設(shè)計有效緩解兩個任務(wù)間的沖突,提高模型在不同模態(tài)任務(wù)中的表現(xiàn)。
優(yōu)化訓(xùn)練策略:延長訓(xùn)練第一階段,在 ImageNet 數(shù)據(jù)集充分訓(xùn)練,讓模型在固定 LLM 參數(shù)時也能有效建模像素依賴。第二階段舍棄 ImageNet 數(shù)據(jù),直接用普通文生圖數(shù)據(jù)訓(xùn)練,提高訓(xùn)練效率。還調(diào)整第三階段不同類型數(shù)據(jù)集的數(shù)據(jù)比例,提升多模態(tài)理解性能 。
數(shù)據(jù)擴展豐富:多模態(tài)理解方面,增加約 9000 萬樣本,涵蓋圖像字幕、表格、圖表和文檔理解等多種數(shù)據(jù)集。視覺生成方面,引入 7200 萬合成美學(xué)數(shù)據(jù),使真實與合成數(shù)據(jù)比例達 1:1,提升生成圖像的穩(wěn)定性和美學(xué)質(zhì)量。
模型規(guī)模擴大與性能提升:將模型從 15 億參數(shù)擴展到 70 億,實驗發(fā)現(xiàn)大模型在多模態(tài)理解和視覺生成任務(wù)中損失收斂更快,展現(xiàn)出強大的可擴展性,提高了模型的整體性能。
Janus-pro 大模型的獨特價值多模態(tài)理解能力領(lǐng)先:在多個多模態(tài)理解基準(zhǔn)測試中表現(xiàn)出色,Janus-Pro-7B 在 MMBench 上得分達 79.2,超越 Janus、TokenFlow 等眾多先進模型,能更好地處理多模態(tài)信息,理解圖像與文本結(jié)合的復(fù)雜內(nèi)容。
文本 - 圖像生成能力卓越:在 GenEval 和 DPG-Bench 等視覺生成基準(zhǔn)測試中,Janus-Pro-7B 分別取得 0.80 和 84.19 的高分,超越其他統(tǒng)一或僅用于生成的模型,具備優(yōu)秀的指令跟隨能力,能根據(jù)文本指令生成高質(zhì)量、符合語義的圖像。
推動多模態(tài)技術(shù)發(fā)展:其優(yōu)化的訓(xùn)練策略、數(shù)據(jù)擴展和模型擴展方法為多模態(tài)模型的發(fā)展提供了新的思路和經(jīng)驗,開源的代碼和模型方便研究人員進一步探索和改進,促進整個多模態(tài)領(lǐng)域的技術(shù)進步。
簡而言之,其在7B數(shù)據(jù)訓(xùn)練量下,能夠使用較低的算力就能實現(xiàn)主流商用多模態(tài)模型的使用效果,尤其是基于Deepseek底層大模型所提供的強大數(shù)理推理能力,使得其在數(shù)理學(xué)科的解題識別領(lǐng)域有著更好的使用體驗,即便是個人用戶也能利用家用計算機或者筆記本實現(xiàn)自行部署個性化學(xué)習(xí)模型的可能。(盡管這個可能也并不便宜,至少7B大模型需要不低于4090的GPU算力。)
圖像理解與描述圖像內(nèi)容分析:能夠準(zhǔn)確理解圖像中的各種元素,如識別圖片中物體的類別、位置、屬性以及它們之間的關(guān)系。在一張包含山水風(fēng)景的圖片中,它可以識別出山脈、河流、樹木等物體,并描述出河流在山脈腳下流淌,樹木分布在河岸兩側(cè)等場景信息。
圖像描述生成:基于對圖像的深入理解,為圖像生成自然、準(zhǔn)確且詳細的文本描述。對于一幅展示城市街景的圖片,Janus-Pro 可以生成 “在繁華的城市街道上,高樓大廈林立,街道上車水馬龍,人們在人行道上匆匆行走,街邊的商店琳瑯滿目” 這樣的描述,使視障人士等群體也能通過文字感受到圖像內(nèi)容。
文本 - 圖像生成創(chuàng)意設(shè)計輔助:在廣告設(shè)計、游戲開發(fā)、影視制作等創(chuàng)意領(lǐng)域,設(shè)計師可以通過輸入文本描述,讓 Janus-Pro 生成相應(yīng)的圖像,為創(chuàng)意構(gòu)思提供靈感和視覺參考。廣告設(shè)計師想要設(shè)計一款新飲料的宣傳海報,輸入 “一杯冒著冷氣的彩色果汁,周圍有新鮮水果環(huán)繞”,模型就能生成大致符合描述的圖像,幫助設(shè)計師快速確定設(shè)計方向。
個性化圖像定制:滿足用戶個性化的圖像需求。用戶可以根據(jù)自己的喜好和想象,輸入特定的文本指令,如 “一幅以星空為背景,有一只獨角獸在飛翔的夢幻畫面”,模型生成定制化圖像,用于個人創(chuàng)作、社交媒體分享等場景。
視覺問答教育領(lǐng)域:在智能教育系統(tǒng)中,基于圖像的學(xué)習(xí)資料,學(xué)生提出關(guān)于圖像內(nèi)容的問題,Janus-Pro 能夠理解問題并結(jié)合圖像信息給出準(zhǔn)確答案。在地理課上,針對一幅世界地圖的圖像,學(xué)生提問 “澳大利亞在哪個半球”,模型可以快速給出正確回答,輔助教學(xué)和學(xué)生自主學(xué)習(xí)。
信息檢索:在圖像數(shù)據(jù)庫檢索場景中,用戶通過輸入關(guān)于圖像特征的問題進行檢索。在一個包含大量歷史文物圖片的數(shù)據(jù)庫里,用戶詢問 “有沒有唐朝時期,帶有龍紋圖案的陶瓷器具圖片”,Janus-Pro 可理解問題并從數(shù)據(jù)庫中篩選出符合條件的圖片,提高信息檢索的效率和準(zhǔn)確性。
多模態(tài)對話系統(tǒng)智能客服:在電商、旅游等行業(yè)的客服場景中,客戶可能會發(fā)送包含圖片的咨詢信息,Janus-Pro 可以同時理解文本和圖像信息,提供更全面、準(zhǔn)確的回復(fù)。客戶發(fā)送一張手機故障的圖片并描述 “手機屏幕出現(xiàn)條紋,該怎么辦”,模型能夠結(jié)合圖像和文本判斷故障原因并給出解決方案。
虛擬社交助手:在虛擬社交平臺中,作為社交助手與用戶進行多模態(tài)交互。用戶分享一張旅行照片并表達感受,助手可以根據(jù)圖像內(nèi)容和用戶文本,進行富有情感的回應(yīng),如 “這張照片拍得真美!看起來你在海邊玩得很開心,那里的風(fēng)景一定很棒”,提升社交交互體驗。