DeepSeek R1 模型,在文字創作,代碼編程、數據推理等多方面都具有不俗的表現,但是R1模型并不支持以文生圖的功能,DeepSeek在多模態方面已早有布局,其實去年,他們就曾發過一個多模態模型就是Janus,2025年的1月27日,又發布了Janus的pro版本即 Janus-Pro。
Janus-Pro 為DeepSeek開源的最新的多模態模型,主要為以文生圖而設計,在同類模型測試中也表現優異,見下測試對比圖。 Pro版本相對Janus有幾大改進:
通過對比可以看出,Janus-Pro已經躋身最優秀的以文生圖的模型之列,同尺寸規模的模型測試中,Janus-Pro-7B的表現最優;右圖,在基準測試中,Janus-Pro在GenEval這個模型生成效果測試中得分最高80%,在執行準確度DPG-Bench測試中,也是得到了最高84.2%分;
Janus和Janus-Pro生成圖的對比效果如下圖,差距還是非常巨大的;
Janus-Pro不光可以以文生圖,還可以反過來分析圖片中的信息,比如你可以上傳圖像,讓它分析圖中的物體,解釋圖中的文本,分析上下文等。
比如下圖的分析效果:
我將官網的測試對比圖發送給它官網的在線圖片分析模型,進行分析,得到如下結果:
同一句提示詞,英文交互給出的分析結果更為詳細些:
英文交互分析結果
在官網中,以文生圖更推薦FLUX而不是Janus-Pro,Janus-Pro和FlUX的對比如下: 以下是將圖片中的英文轉換成中文后的 Markdown 表格:
特性 Janus Pro Flux 主要關注點 多模態任務,文本-圖像交互 高質量圖像生成 性能 擅長指令執行,多模態任務 高質量圖像且生成速度快 訓練成本 相對較低的預算 未明確說明,可能更高 圖像分辨率 輸入:384 x 384 像素,輸出:最高 768 x 768 可生成高達 1024 x 1024 像素 社區支持 開源,在 Hugging Face 上可用 擁有強大的社區支持和優化
總結,Flux更擅長高質量的圖像快速生成,Janus Pro 是一個可以處理文本和圖像的多模態模型。它擅長將數學方程式圖像轉換為 LaTeX 代碼以及根據詳細的文本提示生成圖像等任務。
我測試了下發現網頁版本,兩個生成圖像的速度都比較慢,也許是高峰期比較擁堵的原因。
如果只是簡單的體驗,可以直接去https://janusai.pro 網址來體驗在線以文生圖和分析圖片內容兩個功能,不過可能是因為使用者太多的原因,導致生成圖片的速度特別慢,所以也可以考慮下本地部署Janus-Pro-1B和Janus-Pro-7B這兩個開源版本的模型;
Janus-Pro-1B
Janus-Pro-7B
下載地址
7B模型:https://huggingface.co/deepseek-ai/Janus-Pro-7B1B模型:https://huggingface.co/deepseek-ai/Janus-Pro-1B
Janus-Pro作為DeekSeek開源的多模態模型,不光可以以文生圖,還具備強大的圖像理解能力,無論對個人AI用戶,還是對有需要的企業用戶,都提供了一種多模態模型的解決方案,期待DeepSeek后續給我們帶來更多優秀的模型;
關系圖
Hugging Face Hub:https://huggingface.co 這是世界最大的開源 AI 模型發布平臺,可以看做ML的github;https://ollama.com:開源的LLM服務包括模型和工具,工具提供與OpenAI兼容的API。https://www.modelscope.cn/home: 可以理解成中國版本的Hugging Face Hub