一簡介

DeepSeek R1 模型，在文字創作，代碼編程、數據推理等多方面都具有不俗的表現，但是R1模型并不支持以文生圖的功能，DeepSeek在多模態方面已早有布局，其實去年，他們就曾發過一個多模態模型就是Janus，2025年的1月27日，又發布了Janus的pro版本即 Janus-Pro。

二 Janus-Pro

2.1 以文生圖功能

Janus-Pro 為DeepSeek開源的最新的多模態模型，主要為以文生圖而設計，在同類模型測試中也表現優異，見下測試對比圖。 Pro版本相對Janus有幾大改進：

提供更好的訓練策略；
擴大了訓練的數據集；
提供了1B和7B尺寸模型，1B模型甚至可以在瀏覽器中運行；
提高了生成圖像的穩定性和一致性，這個可以通過下面的生成圖對比看出來；

通過對比可以看出，Janus-Pro已經躋身最優秀的以文生圖的模型之列，同尺寸規模的模型測試中，Janus-Pro-7B的表現最優；右圖，在基準測試中，Janus-Pro在GenEval這個模型生成效果測試中得分最高80%，在執行準確度DPG-Bench測試中，也是得到了最高84.2%分；

Janus和Janus-Pro生成圖的對比效果如下圖，差距還是非常巨大的；

2.2 分析理解圖功能

Janus-Pro不光可以以文生圖，還可以反過來分析圖片中的信息，比如你可以上傳圖像，讓它分析圖中的物體，解釋圖中的文本，分析上下文等。

比如下圖的分析效果：

我將官網的測試對比圖發送給它官網的在線圖片分析模型，進行分析，得到如下結果：

同一句提示詞，英文交互給出的分析結果更為詳細些：

英文交互分析結果

2.3 以文生圖功能對比

在官網中，以文生圖更推薦FLUX而不是Janus-Pro，Janus-Pro和FlUX的對比如下：以下是將圖片中的英文轉換成中文后的 Markdown 表格：

特性 Janus Pro Flux 主要關注點多模態任務，文本-圖像交互高質量圖像生成性能擅長指令執行，多模態任務高質量圖像且生成速度快訓練成本相對較低的預算未明確說明，可能更高圖像分辨率輸入：384 x 384 像素，輸出：最高 768 x 768 可生成高達 1024 x 1024 像素社區支持開源，在 Hugging Face 上可用擁有強大的社區支持和優化

總結，Flux更擅長高質量的圖像快速生成，Janus Pro 是一個可以處理文本和圖像的多模態模型。它擅長將數學方程式圖像轉換為 LaTeX 代碼以及根據詳細的文本提示生成圖像等任務。

我測試了下發現網頁版本，兩個生成圖像的速度都比較慢，也許是高峰期比較擁堵的原因。

2.4 本地運行和體驗

如果只是簡單的體驗，可以直接去https://janusai.pro 網址來體驗在線以文生圖和分析圖片內容兩個功能，不過可能是因為使用者太多的原因，導致生成圖片的速度特別慢，所以也可以考慮下本地部署Janus-Pro-1B和Janus-Pro-7B這兩個開源版本的模型；

Janus-Pro-1B

適用于資源有限的設備，甚至移動設備，適用個人用戶（16GB VRAM的顯卡)
生成的圖像質量有限,可用于個人測試

Janus-Pro-7B

24GB VRAM 以及以上的顯卡（20GB以上也基本可行），比如RTX4090顯卡；
高質量圖像生成，文字和信息識別基本準確，內容理解完整清晰，但是局部細節有所欠缺；
圖像生成速度約15秒/張；
模型支持中文理解和交互；

下載地址

7B模型：https://huggingface.co/deepseek-ai/Janus-Pro-7B1B模型：https://huggingface.co/deepseek-ai/Janus-Pro-1B

三總結

Janus-Pro作為DeekSeek開源的多模態模型，不光可以以文生圖，還具備強大的圖像理解能力，無論對個人AI用戶，還是對有需要的企業用戶，都提供了一種多模態模型的解決方案，期待DeepSeek后續給我們帶來更多優秀的模型；

四 AI名詞解釋和開源語言模型發布平臺

4.1 AI交流中常見的術語

AI（人工智能）：AI即人工智能（Artificial Intelligence），是讓機器（如計算機系統）展現出智能的技術，使機器能像人一樣學習、思考與決策。
LLM（大語言模型）：LLM也就是大語言模型（Large Language Model），它屬于人工神經網絡，是一種憑借強大的通用語言生成及自然語言處理任務（如文本分類）能力而備受矚目的語言模型。
GenAI（生成式人工智能）：GenAI即生成式人工智能（Generative Artificial Intelligence），也簡稱GAI 。它運用生成式模型，能依據提示語生成文本、圖像、視頻等各類數據。
GPT（生成式預訓練變換器）：GPT即Generative Pre-trained Transformer，作為大語言模型的一種，是廣為人知的GenAI技術，在語言處理方面表現卓越。
ChatGPT：這是OpenAI基于GPT技術開發的聊天機器人，專為對話場景優化，能與人自然流暢交流，解答問題、提供建議。
Autonomous Agent（自主型智能體）：自主型智能體可獨立開展工作，具有主動性，不僅能主動和人類溝通，還會給出建設性意見，以高效達成工作目標。
chat模型：指自帶聊天功能的模型，像Qwen/Qwen2.5 - 7B - Instruct、DeepSeek - R1等，能與人進行聊天互動。
Embedding模型：該模型將文本、圖像等數據轉化為低維向量，便于計算機理解分析，向量關系反映數據間相似性。

關系圖

4.2 開源語言模型發布平臺

Hugging Face Hub：https://huggingface.co 這是世界最大的開源 AI 模型發布平臺，可以看做ML的github；https://ollama.com：開源的LLM服務包括模型和工具，工具提供與OpenAI兼容的API。https://www.modelscope.cn/home： 可以理解成中國版本的Hugging Face Hub

本站僅提供存儲服務，所有內容均由用戶發布，如發現有害或侵權內容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

一 簡介