robots meditating in a vipassana retreat.
Downtown Istanbul/Austin/Beijing/LA at sunrise. detailed ink wash.
日出時的伊斯坦布爾/奧斯汀/北京/洛杉磯。詳細的水墨畫。
Oil-on-canvas painting of a blue night sky with roiling energy. A fuzzy and bright yellow crescent moon shining at the top. Below the exploding yellow stars and radiating swirls of blue, a distant village sits quietly on the right. Connecting earth and sky is a flame-like cypress tree with curling and swaying branches on the left. A church spire rises as a beacon over rolling blue hills.
油畫作品,描繪了一個藍色夜空中翻滾的能量。頂部有一輪模糊而明亮的黃色新月在閃耀。在爆炸的黃色星星和輻射著藍色渦旋下方,一個遙遠的村莊靜靜地坐落在右側。連接大地和天空的是一棵像火焰般的柏樹,在左側卷曲搖擺著枝干。教堂尖塔高聳于起伏的藍山之上,像一個燈塔。
這些結果來自于國內研究人員的最新研究DreamLLM,全新的多模態生成理解統一大模型。能生成能理解,圖文并茂的內容也可以生成了!
論文地址:https://arxiv.org/abs/2309.11499
項目地址:https://dreamllm.github.io/
GitHub:https://github.com/RunpeiDong/DreamLLM
諸如DALL·E 3、Midjourney此類文生圖模型,是否能對多模態大語言模型的理解起到幫助呢?在這篇論文中,研究人員提出了「協同多模態生成和理解」,即生成能夠幫助理解,理解也能幫助生成。
正如費曼在1988年去世之前寫在他的辦公室黑板上的名言:「What I cannot create, I do not understand」。
這句話的含義是說,如果你不能創造一個東西,那么你就無法真正理解它。
費曼相信,真正的理解源于能夠從頭構建或重建某事物的能力。這是他的科學哲學的一個核心部分,也是他作為一位教師和科學家的教學方法的基礎。
技術介紹
DreamLLM的模型作為一個多模態大語言模型,包含一個大語言模型邏輯核心、多模態輸入編碼器和數據生成解碼器,其設計思想主要遵循兩大原則:
生成一切
與生成中間圖像語義表示(如CLIP嵌入)的現有工作不同,在訓練過程中,DreamLLM不僅將所有模態的原始數據作為輸入,而且以真正端到端的方式將其作為輸出。其中的挑戰在于使多模態大語言模型能夠學習圖像后驗而不損害其理解能力。
為了解決這個問題,作者引入了可學習嵌入集合「dream queries」,這些嵌入封裝了由多模態大語言模型編碼的語義信息。這種方法避免了改變多模態大語言模型的輸出空間。
然后,原始圖像通過基于這些語義作為生成條件的Stable Diffusion擴散圖像生成解碼器進行解碼生成。
通過預訓練Stable Diffusion充當得分函數(「score function」),直接在像素空間中對圖像后驗進行建模,并借助得分蒸餾實現直接采樣。
圖文交錯文檔的生成式預訓練(Interleaved-GPT, I-GPT)
DreamLLM經過訓練,可以使用互聯網上圖文交錯的多模態語料庫進行生成式預訓練,既編碼又解碼交錯的圖文多模態輸入。
與現有方法中將多模態輸入進行編碼不同,解碼交錯的多模態輸出具有挑戰性,因為它涉及復雜的交錯布局結構和對圖像的長期上下文要求。
作者使用一個獨特的<dream>標記來處理交錯布局學習,該標記預測了圖像在文本中的位置。利用DreamLLM大語言模型的因果關系特性,所有內容都是根據任意長度的歷史多模態上下文生成的。
這種交錯生成預訓練(I-GPT)固有地形成了文檔中圖像和文本的所有聯合、邊際和條件分布,并導致了一種學習協同作用,在創造中促進使DreamLLM的理解,反之亦然。
下面這張圖可以直觀的看出DreamLLM和現有圖文多模態大模型的差異:
(a)類似于CLIP的模型一般使用雙塔結構明確對齊圖文語義表示。
(b)類似于Flamingo/多模態大語言模型將圖文表示編碼至統一的流形空間。然而,這些模型缺乏完全自回歸性能力,因為它們只輸出語言。
(c)另一類工作將視覺輸出與CLIP表示進行對齊,但此對齊發生在一個中間語義空間而不是原始數據空間。由于固有的模態差距,CLIP語義主要關注「共享模態知識」,往往忽視了可能增強多模態理解的「特定模態知識」。
另外,根據信息瓶頸理論,CLIP學習的圖文「不變性」(invariance知識)目標會導致大量信息的丟失。
對齊CLIP也會導致像Emu這樣的模型生成原始圖像需要進行第二階段擴散圖像生成模型的微調,這些模型也無法生成原始的圖文并茂的文檔。
(d)相比較而言,DreamLLM以統一自回歸方式生成原始語言和圖像輸入,實現了圖文信號的完全自回歸建模,因此天然支持圖文并茂的文檔生成。
實驗結果
DreamLLM在多項零樣本多模態圖文理解和生成任務上取得先進的效果。
零樣本多模態理解(文+圖-> 文)
零樣本文生圖(文->圖)
零樣本in-context(上下文)圖像編輯
零樣本subject-driven(主體驅動)圖像生成
零樣本物體組合生成(文+圖->圖)
多模態上下文理解是多模態大語言模型的一個關鍵新興能力。
雖然在上下文視覺問答方面已經取得了重大進展,但在上下文圖像生成方面仍相對不足。DreamLLM的多模態上下文條件圖像合成能力如上圖所示,為該領域提供了有希望的見解。
然而,零樣本上下文圖像編輯、主題驅動的圖像生成和組合式生成等任務中仍存在顯著挑戰,特別是沒有像DreamBooth中的下游微調或Prompt2Prompt中的注意力修改技術。
盡管存在這些障礙,DreamLLM根據提供的圖像上下文生成圖像的能力。這種能力表明DreamLLM在保持主題、身份和語義上下文方面具有潛在的前景,從而為解決這些復雜任務鋪平了一條新路。
多模態對話樣例(文+圖->文+圖)
藝術和生活:
動物:
文字:
人文:
對比GPT-4
結論與討論
DreamLLM首次實現了大語言模型LLM的具有協同促進作用的多模態內容創作和理解的學習,充分探索了多模態理解和生成的協同效應。
通過在多模態原始數據空間采樣進行完全的自回歸建模,在大量極易獲取的互聯網圖文混排數據上訓練,激發出諸如圖文交互對話、圖文并茂文檔的自由生成、文生圖、零樣本subject-driven image generation等多模態理解和生成任務。
對比DALL·E 3的ChatGPT和生成的組合系統方案,DreamLLM邁向了更進一步的端到端學習,展現出未來可能超越DALL·E 3的巨大潛力。
當然,我們離人類水平的智能還有很長的距離。對于生成模型存在偏見、安全性和濫用問題也引起了關注,但是像DreamLLM這樣的框架為未來更具能力和合作性的AI助手指明了方向。
該項工作對關鍵點是在圖像和文本中共同訓練生成能力可以帶來更出色的理解力和創造力。
隨著AI不斷跨越多種形式,找到感知、推理和創作之間的協同效應將開辟前進之路。
這種多模態生成模型對我們與人工智能系統的互動方式可能具有革命性的影響。
想象一下,你可以要求個人助理不僅描述一個概念,還可以生成或編輯一張圖片來說明它,或者通過描述而不是關鍵詞在互聯網上搜索媒體內容,實現視覺和語言的流暢共同理解和生成是邁向更自然、直觀的人機交互的基石。