OpenAI在2024年春季發布會上發布了新的旗艦模型GPT-4o,這是一個多模態的大模型,可以對音頻、視頻和文本進行實時的推理。
我們先從其官網來了解一下這個產品,官網提供的信息并不多,只有貢獻值、在ChatGPT中試用、在Playground中試用、觀看現場演示4個板塊。
首先是使用效果的演示,GPT-4o在自然人機交互方面取得了很大的進步,可以同時接受文本、語音和視頻的輸入,并輸出文本、語音和視頻的組合,實時性方面有很大的提升,能做到實時性的交互對話。這方面官網提供了很多媒體人的評測視頻,具體內容大家可以直接去官網查看。
接下來的能力探索模塊,展示了很多有趣的能力,包括文生圖,文生視頻。而且是根據用戶提示詞,一步一步的漸進式的生成,生成內容的和提示詞的契合度非常的高,對生成內容的控制力非常的強。比如先根據提示生成一張機器人使用打字機的圖,然后漸進式的控制打印的內容,最后生成一張機器人用手撕開包含打印內容的紙的圖。
接著我們來回顧下GPT的相關技術,從GPT1到4,模型參數從1.17億增長到1.76萬億,參數量增加了1萬多倍,效果也有了明顯的提升,但和參數的增長倍數相比,模型的效果提升還是很有限的。GPT4沒有公布它的網絡結構,我們根據公開資料和自己的經驗,對模型結構做了一個猜測,這里就不詳細展開了。
我們再回顧下OpenAI在GPT4發布的AI對話、AI助手工具。
要完成一輪語音對話,需要使用GPT4中的三個模型,先使用語音轉文字模型Whisper把用戶語音轉換為文字,再把文本輸入ChatGPT模型生成文本回答,最后通過文字轉語音模型VALL-E以語音的形式完成語音回復。
這里使用了三個模型串聯的方式,它并不是一個端到端的整體流程,由于每個模型的處理都需要時間,模型間還需要調度,所以整個過程非常的慢。
下面介紹下GPT-4o的技術原理,由于OpenAI官網對GPT-4o的技術原理并沒有相關的介紹和披露,也尚未發表相關的論文,這里我根據自己對技術的把握,對其技術理解進行了一個分析。
綜合各種資料和我自己的理解,GPT-4o的整體架構有四部分組成,分別是Data Engining數據工程、SuperAligning超級對齊、Transformer Decoder架構模型和Condition條件輸出。
首先是數據工程部分,對輸入的文本進行Tokenizer、對語音和視頻分別進行Encoder操作。
接著通過超級對齊,對文本、語音和視頻的處理結構進行Token對齊,作為Transformer結構的長序列輸入,因為只有對齊后的Token,才能作為一個多模塊模型的輸入。
然后對齊后的Token輸入到GPT-4o模型,根據OpenAI的技術路線和Scaling Law哲學,我們認為GPT-4o模型是一個純粹的Transformer Decoder架構模型,這樣更方便使用千卡、萬卡規模集群進行并行訓練。
最后是輸出模塊,模型輸出應該是統一的向量,再轉換為文本、語音或者圖片,文本和語音應該會有對齊,以保持同聲傳譯。
最后我們做一個簡單的技術總結,分為3個部分。
第一部分是多模態的數據工程。GPT-4o通過對文本、語音和視頻的Token進行壓縮,減少Token量,讓大模型的輸入序列Token結合多模態統一為長序列。通過詞表增加大和Token減少,進一步增強大模型的編碼率。還有借鑒SOAR經驗,實現視頻的時空序列的極致編碼率。
第二部分是模型訓練。我們認為主要是以弱監督或自監督訓練為主,否者這么多的數據進行人工標注,工作量太大,也很難進行多模態對齊的統一訓練。
第三部分是模型結構與訓練。GPT-4o通過超級對齊對文本、音頻和視頻三種模態進行對齊。模型技術路線還是以大語言模型能力為基礎,加入多模態維度的Token形成一個多模態的統一大模型。