如果把DeepSeek-R1震撼硅谷的深度推理表現(xiàn),運用到多模態(tài)場景,那會怎樣?
此前DeepSeek自家的Janus-Pro-7B沒有結合推理能力,但現(xiàn)在,國內有研究團隊先做到了——
基于自研全模態(tài)框架Align-Anything,北大聯(lián)合港科大團隊推出多模態(tài)版DeepSeek-R1:
Align-DS-V,它在部分視覺理解表現(xiàn)評測集上超越GPT-4o。
當圖文結合地詢問它減肥時更適合喝哪一款飲品時,Align-DS-V精確地指出圖中飲品的款數(shù)、飲品名稱,以及減脂時最適合飲用的是“低糖原味豆奶”。
不僅如此,它還額外指出,圖中的原味豆奶同樣適合減脂期飲用。
更重要的是,在讓DeepSeek-R1“長眼睛”的過程中,研究人員還發(fā)現(xiàn)了模態(tài)穿透對于模型文本模態(tài)推理能力的提升效果。
具體來說,團隊在DeepSeek-R1的全模態(tài)化嘗試中發(fā)現(xiàn),多模態(tài)訓練之后,模型不僅在文本模態(tài)任務上的表現(xiàn)有所提升,在科學任務、復雜推理、數(shù)學代碼等方面的表現(xiàn)亦均有提升。
尤為顯著的是,在ARC-Challenge(5-shot)上,成績從單模態(tài)的21.4提升到了多模態(tài)的40.5。
基于此,團隊認為當下多模態(tài)大模型已具備強大的跨模態(tài)穿透與融合的感知能力,能夠通過結合世界知識與上下文學習能力,實現(xiàn)多種模態(tài)(如圖像、文本、音頻、視頻等)的高效推理與協(xié)同輸出。
通過深度融合世界知識,模型在文本模態(tài)下的推理邊界得以拓展。
人類在日常生活中接收到的信息往往是全模態(tài)的,如何將“強推理慢思考”從單文本模態(tài)進一步推廣到更多模態(tài)甚至是全模態(tài)場景,不可否認是大勢所趨。
在此基礎上,如何將全模態(tài)大模型與人類的意圖相對齊,也是一個極具前瞻性且至關重要的挑戰(zhàn)。
在單一文本模態(tài)場景下,許多復雜推理任務可以通過基于規(guī)則的獎勵提供監(jiān)督信號,作為人類意圖和偏好的載體。
而當從文本模態(tài)擴展到多模態(tài)甚至全模態(tài)場景下時,許多問題會隨之浮現(xiàn):
隨著模態(tài)數(shù)量增加,傳統(tǒng)二元偏好或規(guī)則獎勵是否能夠捕捉人類意圖的多元偏好或層次化偏好?
當多模態(tài)擴展到全模態(tài)空間,模態(tài)交互更加復雜,RL方法需要做哪些改進?
不同模態(tài)下,模態(tài)特有與模態(tài)共有的信息如何統(tǒng)一在獎勵信號建模中?
……
輸入輸出空間的分布更加廣泛,幻覺現(xiàn)象加劇,這都使得全模態(tài)對齊變得更加復雜。
為進一步促進多模態(tài)對齊研究,研究團隊提出了Align-Anything框架,致力于使全模態(tài)大模型與人類意圖和價值觀對齊。
這里的全模態(tài)包括文生文、文生圖、文圖生文、文生視頻等任意到任意的輸入與輸出模態(tài)。
總體而言,框架設計了具備高度的模塊化、擴展性以及易用性的對齊訓練框架,支持由文本、圖片、視頻、音頻四大基本模態(tài)衍生出的任意模態(tài)模型對齊微調,并驗證了框架對齊算法的實現(xiàn)正確性。
該框架具有以下特點:
高度模塊化:對不同算法類型的抽象化和精心設計的API,用戶能夠為不同的任務修改和定制代碼,以及定制化模型與數(shù)據(jù)集注冊等高級擴展用法;
支持跨任意模態(tài)模型的微調:包含對如LLaMA3.2、LLaVA、Chameleon、Qwen2-VL、Qwen2-Audio、Diffusion等跨越多種模態(tài)生成與理解的大模型的微調能力;
支持不同的對齊方法:支持任意模態(tài)上的多種對齊算法,既包括SFT、DPO、PPO等經典算法,也包括ORPO, SimPO和KTO等新算法;
支持多種開、閉源對齊評估:支持了30多個多模態(tài)評測基準,包括如MMBench、VideoMME等多模態(tài)理解評測,以及如FID、HPSv2等多模態(tài)生成評測。
也就是說,Align-Anything團隊從數(shù)據(jù)集、算法、評估以及代碼庫四個維度貢獻了開源力量:
數(shù)據(jù):200k包含人類語言反饋和二元偏好的數(shù)據(jù)集,包含圖、文、視頻、語音全模態(tài)。
算法:從語言反饋中學習的合成數(shù)據(jù)范式,大幅提升RLHF后訓練方法的表現(xiàn)。
評估:面向全模態(tài)模型的模態(tài)聯(lián)動與模態(tài)選擇評估。
代碼庫:支持圖、文、視頻、語音全模態(tài)訓練與評估的代碼框架。
同時,為了促進對全模態(tài)對齊模型的進一步開發(fā),研究團隊發(fā)布首個全模態(tài)人類偏好數(shù)據(jù)集Align-Anything。
與專注于單個模態(tài)且質量參差不齊的現(xiàn)有偏好數(shù)據(jù)集不同,Align-Anything提供了高質量的數(shù)據(jù),包括了輸入和輸出中的任何模態(tài)。
這旨在提供詳細的人類偏好注釋以及用于批評和改進的精細語言反饋,從而實現(xiàn)跨模態(tài)的全面評估和改進。
接下來,團隊開始攻堅多模態(tài)場景加持下的Deepseek-R1會有怎樣的表現(xiàn)。
借鑒LLaVA的訓練思路,通過訓練投影層(Projector),Align-Anything團隊將視覺編碼器(Vision Encoder)輸出映射到語言表征空間,從而擴展了DeepSeek-R1的視覺模態(tài)。
在Align-Anything庫中,團隊開源了訓練的全部流程。
首先,基于Deepseek-R1系列模型,構建“文本 + 圖片-> 文本”架構。例如以下腳本:
在新的多模態(tài)模型中,輸入圖像Xv經過視覺編碼器提取特征,生成中間表示Zv,然后通過投影層進行映射,得到視覺表征Hv。
與此同時,語言指令Xq經過處理,生成語言表征Hq。
這些視覺和語言特征共同輸入到語言模型,語言模型將兩種信息結合進行推理,最終生成文本回復。
在構建好模態(tài)擴展的DeepSeek-R1架構后,具體的訓練分成兩個步驟:
第一步,凍結除投影層Projector外所有模型參數(shù),對投影層Projector進行預訓練,使得投影層Projector能夠將經過視覺編碼器的視覺表征映射到語言表征空間。
第二步,同時微調投影層Projector和大語言模型,激發(fā)語言模型多模態(tài)推理能力。
訓練成功后,研究人員將多模態(tài)版本的DeepSeek-R1系列模型命名為Align-DS-V。
以下是Align-DS-V在不同視覺理解表現(xiàn)評測集上的表現(xiàn)(對比GPT-4o)。
可以看到,Align-DS-V在部分評測集(如llava-bench-coco)上的表現(xiàn)超過了GPT-4o。
除此之外,更重要的是團隊還發(fā)現(xiàn)了模態(tài)穿透對于模型文本模態(tài)推理能力的提升效果。
具體來說,團隊在DeepSeek-R1的全模態(tài)化嘗試中發(fā)現(xiàn),經過多模態(tài)訓練之后,模型在文本模態(tài)任務上的表現(xiàn)有所提升,在科學任務、復雜推理、數(shù)學代碼等方面的表現(xiàn)均有提升。
尤為顯著的是,在ARC-Challenge(5-shot)上,成績從單模態(tài)的21.4提升到了多模態(tài)的40.5。
由此團隊認為,基于“慢思考強推能力”的持續(xù)自我進化,模型能力已經突破了單一模態(tài)的局限性,跨模態(tài)穿透深度顯著提升。
通過深度融合世界知識,模型在文本模態(tài)下的推理邊界得以拓展。
為驗證全模態(tài)推理大模型在垂域應用的能力,研發(fā)團隊對Align-DS-V面向進行香港地區(qū)價值觀的本地化對齊,令Align-DS-V適應粵語/英語/普通話混合語言輸入。
這一過程深度整合港鐵動態(tài)、臺風預警及八達通繳費等香港本土生活場景。
在面對包含繁體字的圖文數(shù)學問題時,Align-DS-V能夠準確聯(lián)動圖文模態(tài)信息。
如圖所示,它逐步使用嚴密的數(shù)學推導展示求解過程,展示了被應用于教育等行業(yè)的可信前景。
Align-Anything和Align-DS-V由北京大學聯(lián)合香港科技大學開發(fā)。
目前,Align-Anything框架,以及DeepSeek-R1的多模態(tài)版本Align-DS-V,均已開源,團隊將攜手對其進行長期維護(文末附地址直通車)。
聯(lián)合研究團隊中的北京大學對齊團隊,專注于人工智能系統(tǒng)的安全交互與價值對齊。
團隊指導老師為北京大學人工智能研究院助理教授楊耀東。
聯(lián)合研究團隊中的香港生成式人工智能研發(fā)中心(HK Generative AI R&D Center,HKGAI)成立于2023年10月,致力于推動香港人工智能生態(tài)系統(tǒng)的發(fā)展。
由香港科技大學首席副校長,郭毅可院士領銜擔任中心主任。
量子位了解到,在Align-DS-V的基礎上,北大-靈初聯(lián)合實驗室已經著手在VLA(Vision Language Action Model,視覺語言動作模型)領域方面做更深度的探索。
靈初正在研發(fā)的VLA模型,在大腦端利用多模態(tài)大模型進行對齊和微調,并向小腦端的控制器輸出action token;而后,小腦端的控制器再根據(jù)輸入的token和其他模態(tài)的信息,輸出具體的機器人控制指令。
這兩個過程都需要運用針對多模態(tài)大模型的后訓練(post-training)和微調(fine-tuning)技術。
北大-靈初聯(lián)合實驗室表示,Align-DS-V的多模態(tài)強推理能力是VLA模型大腦端的核心,接下來的研究訓練計劃,是利用多模態(tài)推理模型的跨模態(tài)穿透能力,實現(xiàn)action穿透,最終實現(xiàn)真正高效的VLA模型。
同樣的后訓練技術也可以應用于小腦端控制器的微調,實現(xiàn)更高的成功率、泛化性和魯棒性。
Align-Anything框架開源地址:
https://github.com/PKU-Alignment/align-anythingAlign-DS-V開源地址:
https://huggingface.co/PKU-Alignment/Align-DS-V