久久综合精品国产二区无码,亚洲午夜无码毛片Av久久京东热,色戒在线免费观看

OpenAI在2024年春季發布會上發布了新的旗艦模型GPT-4o，這是一個多模態的大模型，可以對音頻、視頻和文本進行實時的推理。

我們先從其官網來了解一下這個產品，官網提供的信息并不多，只有貢獻值、在ChatGPT中試用、在Playground中試用、觀看現場演示4個板塊。

首先是使用效果的演示，GPT-4o在自然人機交互方面取得了很大的進步，可以同時接受文本、語音和視頻的輸入，并輸出文本、語音和視頻的組合，實時性方面有很大的提升，能做到實時性的交互對話。這方面官網提供了很多媒體人的評測視頻，具體內容大家可以直接去官網查看。

接下來的能力探索模塊，展示了很多有趣的能力，包括文生圖，文生視頻。而且是根據用戶提示詞，一步一步的漸進式的生成，生成內容的和提示詞的契合度非常的高，對生成內容的控制力非常的強。比如先根據提示生成一張機器人使用打字機的圖，然后漸進式的控制打印的內容，最后生成一張機器人用手撕開包含打印內容的紙的圖。

接著我們來回顧下GPT的相關技術，從GPT1到4，模型參數從1.17億增長到1.76萬億，參數量增加了1萬多倍，效果也有了明顯的提升，但和參數的增長倍數相比，模型的效果提升還是很有限的。GPT4沒有公布它的網絡結構，我們根據公開資料和自己的經驗，對模型結構做了一個猜測，這里就不詳細展開了。

我們再回顧下OpenAI在GPT4發布的AI對話、AI助手工具。

要完成一輪語音對話，需要使用GPT4中的三個模型，先使用語音轉文字模型Whisper把用戶語音轉換為文字，再把文本輸入ChatGPT模型生成文本回答，最后通過文字轉語音模型VALL-E以語音的形式完成語音回復。

這里使用了三個模型串聯的方式，它并不是一個端到端的整體流程，由于每個模型的處理都需要時間，模型間還需要調度，所以整個過程非常的慢。

下面介紹下GPT-4o的技術原理，由于OpenAI官網對GPT-4o的技術原理并沒有相關的介紹和披露，也尚未發表相關的論文，這里我根據自己對技術的把握，對其技術理解進行了一個分析。

綜合各種資料和我自己的理解，GPT-4o的整體架構有四部分組成，分別是Data Engining數據工程、SuperAligning超級對齊、Transformer Decoder架構模型和Condition條件輸出。

首先是數據工程部分，對輸入的文本進行Tokenizer、對語音和視頻分別進行Encoder操作。

接著通過超級對齊，對文本、語音和視頻的處理結構進行Token對齊，作為Transformer結構的長序列輸入，因為只有對齊后的Token，才能作為一個多模塊模型的輸入。

然后對齊后的Token輸入到GPT-4o模型，根據OpenAI的技術路線和Scaling Law哲學，我們認為GPT-4o模型是一個純粹的Transformer Decoder架構模型，這樣更方便使用千卡、萬卡規模集群進行并行訓練。

最后是輸出模塊，模型輸出應該是統一的向量，再轉換為文本、語音或者圖片，文本和語音應該會有對齊，以保持同聲傳譯。

最后我們做一個簡單的技術總結，分為3個部分。

第一部分是多模態的數據工程。GPT-4o通過對文本、語音和視頻的Token進行壓縮，減少Token量，讓大模型的輸入序列Token結合多模態統一為長序列。通過詞表增加大和Token減少，進一步增強大模型的編碼率。還有借鑒SOAR經驗，實現視頻的時空序列的極致編碼率。

第二部分是模型訓練。我們認為主要是以弱監督或自監督訓練為主，否者這么多的數據進行人工標注，工作量太大，也很難進行多模態對齊的統一訓練。

第三部分是模型結構與訓練。GPT-4o通過超級對齊對文本、音頻和視頻三種模態進行對齊。模型技術路線還是以大語言模型能力為基礎，加入多模態維度的Token形成一個多模態的統一大模型。

本站僅提供存儲服務，所有內容均由用戶發布，如發現有害或侵權內容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕