來源:賽博禪心
今天是除夕,凌晨 1 點,我在北京的公寓里寫算法。白天在中關村(4.520, 0.00, 0.00%)咖啡館的喧囂, AppStore 登頂的狂歡, 仿佛已經是上個世紀的事情。
此刻的屏幕上,不斷翻出來新的消息:DeepSeek Janus-Pro 開源
讓我們一起,來看看這舊年的最后一個驚喜
這是一個多模態模型,名稱來源于古羅馬神話中的雙面神“雅努斯”(Janus):它同時面向過去與未來。當然,你也可以說,這代表了模型的兩種能力——既要進行視覺理解,又要進行圖像生成。
發布的地址在這:
https://github.com/deepseek-ai/Janus
https://huggingface.co/deepseek-ai/Janus-Pro-1B
https://huggingface.co/deepseek-ai/Janus-Pro-7B
同時發布的,還有一份技術文檔,可以回復 Janus 獲取這份文檔。
首先,我得承認,我對圖像處理這塊并不精通,所以如果有解讀錯誤的地方,歡迎評論區指正。
官方給了一些生成的效果圖,明顯強于 Janus 原版。雖比不上 Midjourney 那般藝術,但應為第一梯隊。
如果是對比 OpenAI 的 DALL-E 3,參數會領先不少,并且直接霸榜。
更不同于 OpenAI 的 DALL-E 只能畫圖,Janus 同時包含了多種能力:比如圖像識別、地標識別、文字識別等。
圖像識別能力,也就是所謂的讀圖
地標識別能力,比如讓他猜這張圖片是在哪拍的
圖片通識 - 他知道很多的文化符號,比如 Tom and Jerry
來識別圖片中的文字
當然,自然也能生成圖片
你會發現,這個模型不同于 4o 類型的模型 - 只能看,而是既能看,也能畫。其原因,便是 Deep Seek 的這個模型,使用了解耦視覺編碼技術。
在“理解通路”,它能迅速感知到圖片的核心信息,并給出更準確、更專業的回答;
而在“生成通路”上,它便是一個藝術家,像 MidJourney 一樣,去描繪筆觸和色彩。
至于這個模型是如何做到這些的,按報告說法,基于以下三條:
更優化的訓練策略: DeepSeek 團隊改進了 Janus-Pro 的 “學習方法”,讓模型訓練過程更高效、更穩定。就像給學生制定了更科學的學習計劃,讓 Janus-Pro 能更快更好地掌握知識。
更海量的訓練數據: 為了讓 Janus-Pro 見識更廣闊的世界,DeepSeek 投入了 前代模型三倍以上 的訓練數據!海量的數據就像豐富的教材,讓 Janus-Pro “飽讀詩書”,變得更加博學。
更大規模的模型: Janus-Pro 采用了更大規模的模型,參數量達到 70 億。模型規模的擴大就像大腦容量的增加,讓 Janus-Pro 擁有更強大的 “思考” 和 “處理信息” 的能力。
如果對詳細信息感興趣,可以回復 Janus 獲取這份文檔。
再度看向屏幕,已是剛過四點:不久,就要天亮了
在我們的土地上,正傳頌著一種新的敘事:不搞算力禁運,不搞實體清單,不用算力砌高墻,而以開源筑長階,邀世界共赴星辰。
東方破曉,愿君行早。
責任編輯:李桐