作者|Li Yuan
編輯|靖宇
AI 時代就這么悄悄降臨了。
大概誰也沒想到,今年春節,打的最熱的不再是傳統互聯網的紅包大戰,誰和春晚合作了,而是 AI 公司。
臨近春節,各家大模型公司都完全沒放松,更新了一波模型和產品,而最受關注的,卻是去年嶄露頭角的「大模型公司」DeepSeek(深度求索)。
1 月 20 日晚,DeepSeek 公司發布推理模型 DeepSeek-R1 正式版,使用低廉的訓練成本直接訓練出了不輸 OpenAI 推理模型 o1 的性能,而且完全免費開源,直接引發了行業地震。
這是第一次國產 AI 大范圍在全球,特別是美國引起了科技圈的震動。開發者紛紛表示,正在考慮用 DeepSeek「重構一切」,在這一浪潮下,經過一周的發酵,甚至一月才剛剛發布的 DeepSeek 移動端應用,迅速登頂美區蘋果應用商店免費 App 排行第一,不但超越了 ChatGPT,也直接超越了美區的其他熱門應用。
DeepSeek 的成功甚至直接影響了美股,沒有使用巨量昂貴 GPU 就訓練出的模型,讓人們重新思考了 AI 的訓練路徑,直接讓 AI 第一股英偉達最大跌幅達到 17%。
而這還沒結束。
1 月 28 日凌晨,除夕夜前一晚,DeepSeek 又開源了其多模態模型 Janus-Pro-7B,宣布在在 GenEval 和 DPG-Bench 基準測試中擊敗了 DALL-E 3(來自 OpenAI)和 Stable Diffusion。
DeepSeek 真的要血洗 AI 圈了嗎?從推理模型到多模態模型,拿 DeepSeek 重構一切,是蛇年開年的第一主題嗎?
Janus Pro,多模態模型創新架構的驗證
DeepSeek 此次深夜一共發布了兩個模型,Janus-Pro-7B 和 Janus-Pro-1B(1.5B 參數量)。
從命名上就能看出,模型本身來自之前 Janus 模型的升級。
2024 年 10 月,DeepSeek 才第一次發布 Janus 模型。和 DeepSeek 的一貫套路一樣,模型采取了一個創新的架構。在不少視覺生成模型中,模型都是采用了統一的 Transformer 架構,能夠同時處理文生圖和圖生文任務。
而 DeepSeek 則是提出了一種新的思路,對理解(圖生文)和生成任務(文生圖)的視覺編碼進行解耦,提升了模型訓練的靈活性,有效緩解了使用單一視覺編碼導致的沖突和性能瓶頸。
這也是 DeepSeek 為什么將模型命名為 Janus (杰納斯)。Janus 是古羅馬門神,被描繪為有分別朝向相反方的兩個面孔。DeepSeek 表示命名為 Janus,指的是模型可以像 Janus 一樣,用不同的眼睛看向視覺數據,分別編碼特征,然后用同一個身體 (Transformer) 去處理這些輸入信號。
在 Janus 系列模型中,這種新思路已經產生了不錯的效果,團隊表示,Janus 模型的指令跟隨能力很強,有多語言能力,且的模型更聰明,能讀懂 meme 圖像。同時還能處理 latex 公式轉換、圖轉代碼等任務。
而在 Janus Pro 系列模型中,團隊對模型的訓練流程進行了部分修改,直接做到了在 GenEval 和 DPG-Bench 基準測試中擊敗了 DALL-E 3 和 Stable Diffusion。
隨著模型本身,DeepSeek 也發布了 Janus Flow 新型多模態 AI 框架,旨在統一圖像理解與生成任務。
Janus Pro 模型能做到使用簡短提示提供更穩定的輸出,具有更好的視覺質量、更豐富的細節以及生成簡單文本的能力。
模型既可以生成圖像,也可以對圖片進行描述,識別地標景點(例如杭州的西湖),識別圖像中的文字,并能對圖片中的知識(如「貓和老鼠」蛋糕)進行介紹。
X 上不少人已經開始試用新模型。
上圖左為圖像識別的測試,右圖則為圖像生成的測試。
可以看到,在高精度讀圖上,Janus Pro 也做的很好。能夠識別數學表達式和文字的混合排版。未來搭配推理模型使用,可能有更大意義。
1B 和 7B 的參數量,或能解鎖新應用場景
在多模態理解任務中,新模型 Janus-Pro 采用 SigLIP-L 作為視覺編碼器,支持 384 x 384 像素的圖像輸入。而在圖像生成任務中,Janus-Pro 使用一個來自特定來源的分詞器,降采樣率為 16。
相對而言,這樣的圖像規模尺寸仍然較小。X 上有用戶分析認為,Janus Pro 模型更多是方向上的驗證,如果驗證靠譜,就會推出可以投入生產的模型了。
不過值得注意的是,此次 Janus 發布的新模型,不但在架構上對多模態模型有創新意義可以參考,在參數量上,也是一個新的探索。
此次 DeepSeek Janus Pro 對比的模型,DALL-E 3,之前公布的參數量為 120 億,而 Janus Pro 的大尺寸模型只有 70 億參數。在這樣緊湊的尺寸下,Janus Pro 能夠做到這樣的效果已經十分不錯。
尤其是 Janus Pro 的 1B 模型,只使用了 15 億參數。外網上已經有用戶將對模型的支持添加到了 transformers.js。這意味著模型現在可以在 WebGPU 上的瀏覽器中 100%運行!
雖然截止發稿,筆者還沒能成功地在網頁版上使用到 Janus Pro 的新模型,但是參數量小到能夠在網頁端直接運行,仍然是一項令人驚嘆的進步。
這意味著圖片生成/圖片理解的成本,正在進一步下降。而我們有機會在更多原本無法使用生圖和圖片理解功能的地方,看到 AI 的使用,改變我們的生活。
2024 年的一大熱點,在于加入了多模態理解的 AI 硬件,能夠如何介入我們的生活。而參數量越來越低的多模態理解模型,或者可以讓我們期待能夠在端側運行的模型,能夠讓 AI 硬件進一步爆發。
DeepSeek 攪動新年,萬事萬物可以用中國 AI 重做一遍?
AI 世界一日千里。
去年春節前后,攪動世界的是 OpenAI 的 Sora 模型,而一年下來,中國公司已經完全在視頻生成方面迎頭趕上,讓年尾 Sora 的發布顯得有些暗淡了。
而今年攪動世界的,變成了中國的 DeepSeek。
DeepSeek 并不算傳統的科技公司,然而用遠低于美國大模型公司 GPU 卡和成本,做出了極其創新的模型,直接讓美國同行感到震動——美國人紛紛感嘆:R1 模型的訓練,僅僅花費 560 萬美元,甚至只相當于 Meta GenAI 團隊任一高管的薪資,這是什么神秘的東方力量?
DeepSeek 創始人梁文峰直接在 X 上發布了一張有趣的圖片:
在法國巴黎奧運會射擊項目混合團體 10 米氣手槍決賽中,51 歲的土耳其射擊男選手迪凱奇,僅佩戴了一副普通的近視眼鏡和一對睡眠耳塞,便以單手插兜的瀟灑姿態,穩穩地將銀牌收入囊中。而在場的全部其他射擊選手都需要兩塊聚焦和遮光的專業鏡片和一副防噪聲耳塞,才能開始比賽。
自從 DeepSeek「破解」了 OpenAI 的推理模型,美國各大科技公司開始背上了巨大的壓力。今天,Sam Altman 也終于扛不住壓力出來回應了一段官方發言。
2025 年,會是中國 AI 沖擊美國認知的一年嗎?
DeepSeek,手里還藏著什么秘密——這注定是個不平凡的春節。
發布于:廣東