DeepSeek 團(tuán)隊(duì)又發(fā)新模型,28日凌晨推出了創(chuàng)新型多模態(tài)框架 Janus-Pro,這是一個(gè)能同時(shí)處理多模態(tài)理解和生成任務(wù)的統(tǒng)一模型。該模型基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 構(gòu)建,支持 384 x 384 的圖像輸入,并使用特定的 tokenizer 進(jìn)行圖像生成。最大特點(diǎn)是將視覺編碼分為獨(dú)立通道,同時(shí)保持單一 transformer 架構(gòu)進(jìn)行處理。
這種創(chuàng)新設(shè)計(jì)不僅解決了傳統(tǒng)模型在視覺編碼器角色上的沖突問題,還讓整個(gè)系統(tǒng)變得更加靈活。在實(shí)際應(yīng)用中,Janus-Pro 的表現(xiàn)超越了之前的統(tǒng)一模型,在某些任務(wù)上甚至可以媲美專門的任務(wù)型模型。在GenEval 和 DPG-Bench 基準(zhǔn)測(cè)試中擊敗了 OpenAI 的 DALL-E 3 和 Stable Diffusion。
該項(xiàng)目采用 MIT 許可證開源,開發(fā)者可以通過 GitHub 獲取完整代碼。 DeepSeek 團(tuán)隊(duì)表示,Janus-Pro 的簡(jiǎn)潔設(shè)計(jì)和卓越性能,使其有望成為下一代統(tǒng)一多模態(tài)模型的重要選擇。
github:https://github.com/deepseek-ai/Janus
huggingface:https://huggingface.co/deepseek-ai/Janus-Pro-7B
聯(lián)系客服