AI:多模態和大模型的一些經驗總結daiding
文章更新中……
多模態機器學習旨在建立能夠處理和關聯來自多種模態信息的模型。
我們對世界的體驗是多模態的(五大感官)——我們看到物體(視覺),聽到聲音(聽覺),感覺到質地(觸覺),聞到氣味(嗅覺),品嘗味道(味覺),其實還包括第六感(心覺)。模態是指事物發生或經歷的方式,當一個研究問題包含多種模態時,它就被稱為多模態。為了讓人工智能在理解我們周圍的世界方面取得進展,它需要能夠同時解讀這些多模態信號。多模態機器學習旨在建立能夠處理和關聯來自多種模式信息的模型。這是一個充滿活力的多學科領域,其重要性和潛力都在不斷增加。本文不關注具體的多模態應用,而是對多模態機器學習本身的最新進展進行了調查,并將它們以一種常見的分類方式呈現出來。我們超越了典型的早期和晚期融合分類,并確定了多模態機器學習面臨的更廣泛的挑戰,即:表示、翻譯、對齊、融合和共同學習。這種新的分類方法將使研究人員更好地了解該領域的現狀,并確定未來的研究方向。
五個挑戰:
1)、表示:第一個基本挑戰是學習如何以一種利用多模態的互補性和冗余性的方式來表示和總結多模態數據。多模態數據的異質性使得構造這樣的表示具有挑戰性。例如,語言通常是符號化的,而視聽形式將被表示為信號。
2)、翻譯:第二個挑戰是如何將數據從一種模態轉換(映射)到另一種模態。不僅數據是異質的,而且模態之間的關系往往是開放的或主觀的。例如,存在許多描述圖像的正確方法,并且可能不存在一種完美的翻譯。
3)、對齊:第三個挑戰是識別來自兩個或更多不同模態的(子)元素之間的直接關系。例如,我們可能想要將菜譜中的步驟與顯示菜肴制作過程的視頻對齊。為了應對這一挑戰,我們需要衡量不同模態之間的相似性,并處理可能的長期依賴和歧義。
4)、融合:第四個挑戰是將來自兩個或更多模態的信息連接起來進行預測。例如,在視聽語音識別中,將嘴唇運動的視覺描述與語音信號融合在一起來預測口語單詞。來自不同模態的信息可能具有不同的預測能力和噪聲拓撲,至少在一種模態中可能丟失數據。
5)、共同學習:第五項挑戰是如何在模態、表示和預測模型之間傳遞知識。這可以通過協同訓練、概念基礎和零樣本學習的算法來例證。共同學習探索了如何從一個模態學習知識可以幫助在不同模態上訓練的計算模型。當其中一種模態的資源有限(例如,注釋數據)時,這個挑戰尤其重要。
作為調查的一部分,我們介紹了多模態機器學習的分類:表示、翻譯、對齊、融合和共同學習。
其中一些如融合已經被研究了很長時間,但最近對表示、翻譯的興趣導致了大量新的多模態算法和令人興奮的多模態應用。
我們相信我們的分類法將有助于對未來的研究論文進行分類,并更好地理解多模態機器學習面臨的剩余未解決問題。
? ?" 模態 "(Modality)是德國理學家赫爾姆霍茨提出的一種生物學概念,即生物憑借感知器官與經驗來接收信息的通道,如人類有視覺、聽覺、觸覺、味覺和嗅覺模態。多模態是指將多種感官進行融合,而多模態交互是指人通過聲音、肢體語言、信息載體(文字、圖片、音頻、視頻)、環境等多個通道與計算機進行交流,充分模擬人與人之間的交互方式。
每一種信息的來源或者形式,都可以稱為一種模態。
不同模態(例如圖像、文本、音頻)中學習的方式存在很大差異。
早期的深度學習算法專注于從一個單一的數據源訓練其模型。而多模態人工智能是計算機視覺和交互式人工智能智能模型的最終融合,為計算器提供更接近于人類感知的場景。
?多模態學習成為當中的重要趨勢,它可以被應用在歸一、表示、轉化、翻譯、對齊、融合及協同學習上(representation/translation/alignment/fusion/co-learning)。按照下游任務則可以劃分為理解式任務(視覺問答、視覺推理、圖文檢索等)和生成式任務(文本生成(對話/故事/詩歌)、圖像生成文本、文字生成圖像等)。
要解決這個問題,需要從端到端打通各個模態之間的關系,形成可以真正多維度交互的智能機器,讓感知智能升級為認知智能。
近年來,BERT和GPT等大型預訓練模型(PTM)取得了巨大的成功,成為人工智能(AI)領域的一個里程碑。由于復雜的訓練前目標和龐大的模型參數,大規模PTMs能夠有效地從大量有標簽和無標簽的數據中捕獲知識。通過將知識存儲到巨大的參數中,并對特定的任務進行微調,隱含在巨大參數中的豐富知識可以使各種下游任務受益,這已通過實驗驗證和經驗分析得到廣泛證明。現在AI社區的共識是采用PTMs作為下游任務的骨干,而不是從零開始學習模型。在本文中,我們深入研究了預訓練的歷史,特別是它與遷移學習和自我監督學習的特殊關系,以揭示PTMs在人工智能發展譜系中的關鍵地位。此外,我們全面回顧了PTMs的最新突破。這些突破是由計算能力的激增和數據可用性的增加所驅動的,朝著四個重要方向發展:設計有效的架構,利用豐富的上下文,提高計算效率,以及進行解釋和理論分析。。最后,我們討論了PTMs的一系列有待解決的問題和研究方向,希望我們的觀點能對PTMs的未來研究有所啟發和推動。
深度神經網絡,與以前主要依賴手工特征和統計方法的非神經模型不同,神經模型可以從數據中自動學習低維連續向量(又稱分布式表示)作為任務特定的特征,從而擺脫復雜的特征工程。