當(dāng)前AI模型從單模態(tài)向多模態(tài)演進(jìn)，有望實現(xiàn)認(rèn)知智能，是AI未來發(fā)展的明確趨勢。

近期 AI 多模態(tài)模型不斷取得突破性進(jìn)展。

OpenAI 于11 月發(fā)布了 GPT-4 Turbo 且開放了 GPTs，GPTs短期上線數(shù)量已超3萬，揭開AIGC應(yīng)用生態(tài)序幕。

海外初創(chuàng)公司 Pika Labs正式推出的AI 視頻生成工具 Pika1.0火爆全球，Pika1.0包括一個能生成和編輯 3D 動畫、動漫、卡通、電影等各種風(fēng)格視頻的全新 AI 模型。

12月，谷歌緊隨其后發(fā)布了其認(rèn)為規(guī)模最大、功能最強大的人工智能模型Gemini，聲稱性能超越GPT-4和人類專家。

作為多模態(tài)大模型，Gemini 可以同時識別和理解文本、圖像、音頻、視頻和代碼五種信息，且對信息的理解非常精準(zhǔn)。有別于傳統(tǒng)大模型對英偉達(dá)硬件及生態(tài)的依賴，Gemini 的訓(xùn)練來自于谷歌的 TPU v4 和 v5e 的硬件支持。

關(guān)注樂晴行業(yè)觀察，洞悉產(chǎn)業(yè)先機！

圖片來源：Google

當(dāng)前以Pika 1.0和Gemini為代表的AI多模態(tài)模型不斷突破，或推動大模型應(yīng)用領(lǐng)域加快落地并打開商業(yè)化空間。

以上兩家也代表著挑戰(zhàn)者對OpenAI和英偉達(dá)的強力反擊，AI領(lǐng)域的高水平競爭正式進(jìn)入了全新的階段。

當(dāng)前海外科技巨頭之間多模態(tài)大模型的競爭日益激烈，同時驅(qū)動著底層多模態(tài)大模型的能力不斷突破，垂域應(yīng)用遍地開花，AI 應(yīng)用有望迎來快速爆發(fā)。

據(jù)市場分析機構(gòu)IDC最新報告顯示，2022年全球AI應(yīng)用軟件市場規(guī)模為640億美元，預(yù)計到2027年將增加到2790億美元，復(fù)合年增長率（CAGR）為31.4%。

多模態(tài)AI行業(yè)概覽

人工智能領(lǐng)域研究一直致力于以技術(shù)實現(xiàn)計算機對于人類認(rèn)知世界方式的高度效仿。

單模態(tài)交互是一個局限的、并不完整的模型，因此“多模態(tài)”研究大勢所趨已十分明朗。

多模態(tài)學(xué)習(xí)（對應(yīng)單模態(tài)）以多模態(tài)大規(guī)模數(shù)據(jù)為基礎(chǔ)，同時利用多種感官進(jìn)行學(xué)習(xí)，提供更豐富信息。

除傳統(tǒng)的語言以及圖像間的交互作用，其結(jié)合聲音、觸覺以及動作等多維度信息進(jìn)行深度學(xué)習(xí)，從而形成更準(zhǔn)確、更具表現(xiàn)力的多模態(tài)表示。

相比于單模態(tài)，多模態(tài)模型處理多種數(shù)據(jù)輸入，結(jié)構(gòu)上更復(fù)雜，可能涉及使用多個子網(wǎng)絡(luò)，然后將其輸出合并。

多模態(tài)模型的核心是處理和整合這些不同類型的數(shù)據(jù)源。這種模型可以捕獲跨模態(tài)的復(fù)雜關(guān)系，使機器能夠更全面地理解和分析信息，從而在各種任務(wù)中表現(xiàn)得更好。

AI模型走向多模態(tài)必然性的三大因素：跨模態(tài)任務(wù)需求+跨模態(tài)數(shù)據(jù)融合+對人類認(rèn)知能力的模擬。

來源：AWS，IBM Research，浙商證券、行行查

多模態(tài)AI以模態(tài)融合為核心技術(shù)環(huán)節(jié)，圍繞“表征-翻譯-對齊-融合-聯(lián)合學(xué)習(xí)”五大技術(shù)環(huán)節(jié)，解決實際場景下復(fù)雜問題的多模態(tài)解任務(wù)。

多模態(tài)應(yīng)用場景按架構(gòu)可分為視頻分類、事件檢測、情緒分析、視覺問答、情感分析、語音識別、跨模態(tài)搜索、圖像標(biāo)注、跨模態(tài)嵌入、轉(zhuǎn)移學(xué)習(xí)、視頻解碼、圖像合成等。

多模態(tài)AI實現(xiàn)跨模態(tài)任務(wù)，應(yīng)用場景豐富。能夠?qū)崿F(xiàn)基于文本、語音、圖片、視頻等多模態(tài)數(shù)據(jù)的綜合處理應(yīng)用，完成跨模態(tài)領(lǐng)域任務(wù)，應(yīng)用于各種場景。

據(jù)布谷實驗室統(tǒng)計，當(dāng)前多模態(tài)內(nèi)容主要應(yīng)用于商業(yè)定制、游戲領(lǐng)域、影視領(lǐng)域、教育領(lǐng)域以及醫(yī)療領(lǐng)域五大行業(yè)。

多模態(tài)AI圖示：

根據(jù)技術(shù)迭代，多模態(tài)模型可以分為三個主要發(fā)展階段。

2010年至今，深度學(xué)習(xí)為多模態(tài)研究帶來了巨大的推動力，多模態(tài)模型已經(jīng)達(dá)到了前所未有的準(zhǔn)確性和復(fù)雜性。

這一階段受益于四個關(guān)鍵因素的推動：1）大規(guī)模的多模態(tài)數(shù)據(jù)集；2）更強大的計算能力；3）研究者也開始掌握更為先進(jìn)的視覺特征提取技術(shù)；4）出現(xiàn)了強大的語言特征抽取模型，包括Transformer架構(gòu)。

多模態(tài)模型主要經(jīng)歷三個時代：

數(shù)據(jù)來源：卡內(nèi)基梅隆大學(xué)

多模態(tài)AI市場格局梳理

在 OpenAI 宣布 ChatGPT 實現(xiàn)聯(lián)網(wǎng)及支持圖片、語音交流及與文字互轉(zhuǎn)等多模態(tài)更新后，1國內(nèi)外大廠持續(xù)布局跨文本、圖像、音視頻等模態(tài)的AI模型，行業(yè)應(yīng)用亦不斷升級。

OpenAI多模態(tài)應(yīng)用：

資料來源：OpenAI

目前，國內(nèi)外各家廠商仍把目光放在多模態(tài)大模型上，對標(biāo)GPT-4開發(fā)競品。

AI初創(chuàng)企業(yè)Anthropic開發(fā)了對標(biāo)的AI聊天機器人Claude。谷歌一方面對Anthropic進(jìn)行投資，一方面也在開發(fā)自己的語言模型PaLM2和聊天機器人Bard。谷歌擁有多個跨模態(tài)AI模型，并提供多項功能服務(wù)模塊。

Meta走上了另一條道路，開源了自己的大模型LLaMA，后來也有越來越多的公司將自己的大模型進(jìn)行開源，包括Vicuna、WizardLM、Guanaco等模型；微軟KOSMOS-1模型擁有16億參數(shù)，解鎖多模態(tài)功能。

海外大模型加速迭代，多模態(tài)是主要方向：

資料來源：IT之家、OSCHINA、ZAKER、開源證券

國內(nèi)大模型百花齊放，版本與性能持續(xù)迭代。

隨著AI大模型的競爭在國外激烈展開，國內(nèi)許多互聯(lián)網(wǎng)企業(yè)和科技企業(yè)也開始自研大模型，比如百度、阿里、科大訊飛、百川等。

相比于國外，國內(nèi)大模型的版本與性能更新迭代更快。

百度發(fā)布文心一言并持續(xù)迭代；騰訊混元大模型迎來全新升級，并正式對外開放“文生圖”功能；盤古基礎(chǔ)大模型提供滿足行業(yè)場景需要的上百種能力，盤古大模型為客戶提供100億、380億、710億和1000億參數(shù)的系列化基礎(chǔ)大模型，能夠匹配客戶不同場景、不同時延、不同響應(yīng)速度的行業(yè)多樣化需求。

盤古大模型3.0架構(gòu)圖：

資料來源：華為云官網(wǎng)

國內(nèi)眾多廠商也在多模態(tài)產(chǎn)業(yè)鏈上下游有所布局，代表廠商包括蘇州科達(dá)、網(wǎng)達(dá)軟件、當(dāng)虹科技、競業(yè)達(dá)、聲迅股份、為億嘉和、因賽集團、博匯科技、數(shù)字政通、大華股份、云從科技、中科創(chuàng)達(dá)、拓爾思、新大陸、恒生電子、易點天下、三六零、佳都科技、捷成股份、昆侖萬維、科大訊飛、萬興科技、湯姆貓、中文在線、數(shù)字政通等。

三六零集團旗下智能硬件及物聯(lián)網(wǎng)事業(yè)群360智慧生活發(fā)布了360智腦-視覺大模型，以及4款A(yù)I硬件設(shè)備，并宣布360智慧生活將進(jìn)軍SMB（中小型企業(yè)）市場。

科大訊飛星火認(rèn)知大模型 V3.0 實現(xiàn)文本生成、語言理解、知識問答、邏輯推理、數(shù)學(xué)、代碼、多模態(tài)七大能力提升。

蘇州科達(dá)推出了KD-GPT大模型，包括多模態(tài)大模型、AIGC圖像大模型和行業(yè)大模型已經(jīng)初具雛形，并開始在實際項目中投入應(yīng)用。

億嘉和發(fā)布的一種基于多模態(tài)超融合技術(shù)的大模型YJH-LM，目前已在公司商用清潔機器人上完成功能測試。

當(dāng)虹科技視覺多模態(tài)分析技術(shù)基于自主研發(fā)視覺多模態(tài)分析技術(shù)，對多媒體進(jìn)行視頻、語音、文本、圖像等內(nèi)容的多維分析，針對視頻中出現(xiàn)的內(nèi)容進(jìn)行多模態(tài)融合的智能理解分析并進(jìn)行結(jié)構(gòu)化標(biāo)簽提取，包含視頻中出現(xiàn)的人物、車、物體、地標(biāo)建筑、文字等內(nèi)容的識別。

多模態(tài)AI應(yīng)用端梳理

AI 應(yīng)用的主要方向包括已推出產(chǎn)品并開啟商業(yè)化的 AI 應(yīng)用領(lǐng) 域：工具、教育、音樂、校對、營銷等；此外還有受益于 AI 視頻生成等 AI 多模態(tài)模型的游戲、影視等 IP 開發(fā)領(lǐng)域。

后續(xù)隨著 AI 大模型進(jìn)一步朝多模態(tài)方向升級，廣泛的數(shù)據(jù)交互方式和豐富的應(yīng)用場景為提升用戶體驗提供了巨大的可能性。

從應(yīng)用趨勢來看，隨著多模態(tài)大模型在語音、圖像和視頻等多種輸入輸出方式中的應(yīng)用，內(nèi)容創(chuàng)作領(lǐng)域可能會經(jīng)歷前所未有的變革。

多模態(tài)模型有望顯著打開下游應(yīng)用場景，破除單純文字交互的局限性。下游應(yīng)用場景在工業(yè)、醫(yī)學(xué)、汽車、機器人等領(lǐng)域應(yīng)用落地帶來的商業(yè)化增量空間有望不斷打開。

2023 年 8 月 31 日，國內(nèi)首批 8 家廠商 AI 大模型通過《生成式人工智能服務(wù)管理暫行辦法》備案，11 月 3 日，又有 11 家 AI 大模型完成備案。

AI視頻生成

多模態(tài)融合大勢所趨，AI 生成視頻技術(shù)的迭代，加速應(yīng)用落地和商業(yè)模式創(chuàng)新。

文生視頻是一個年輕的方向，該領(lǐng)域面臨多方面的挑戰(zhàn)，包括高算力成本、缺乏高質(zhì)量的數(shù)據(jù)集等，但隨著視頻擴散模型技術(shù)的突破，新算法模型不斷涌現(xiàn)。

以國外Runway 為代表的企業(yè)在近半年內(nèi)取得了較大的進(jìn)步，生成視頻的一致性和保真度也有了較大改進(jìn),未來在視頻多模態(tài)領(lǐng)域的應(yīng)用。

AI 視頻生成領(lǐng)域，主要布局廠商包括萬興科技、新國都、虹軟科技、光云科技等。

萬興科技旗下 AI 視頻創(chuàng)作軟件 Wondershare Filmora 13 內(nèi)置創(chuàng)作助手 Copilot，并上線了 AI 文本成片、AI 音樂生成器等 AI 生成功能；萬興“天幕”是國內(nèi)首個專注于以視頻創(chuàng)意應(yīng)用為核心的百億級參數(shù)多媒體大模型。

AI+游戲

游戲作為集合了文字、圖像、聲音、視頻等內(nèi)容形式的商業(yè)化應(yīng)用，有望更好的在研發(fā)端利用多模態(tài)大模型的能力，提升內(nèi)容制作效率，并提高內(nèi)容豐富度，同時一些基于 AI 的 NPC 等設(shè)計或進(jìn)一步提升用戶體驗和付費意愿，打開游戲整體收入增量空間。

版號發(fā)放常態(tài)化帶來供給端改善，新游戲陸續(xù)上線。多模態(tài)大模型有望提高游戲研發(fā)效率及內(nèi)容、玩法豐富度，增強游戲社交屬性，吸引增量用戶，進(jìn)一步打開游戲商業(yè)化空間。

“AI+游戲”相關(guān)布局廠商包括盛天網(wǎng)絡(luò)、神州泰岳、網(wǎng)易、騰訊控股、吉比特、心動公司、創(chuàng)夢天地、姚記科技、完美世界，包括星輝娛樂、愷英網(wǎng)絡(luò)、掌趣科技、湯姆貓、寶通科技、巨人網(wǎng)絡(luò)、三七互娛、吉比特、巨人網(wǎng)絡(luò)、電魂網(wǎng)絡(luò)等。

AI+ 影視 IP/音樂

AI 多模態(tài)技術(shù)有望帶來動畫、影視、互動影視游戲、音樂等內(nèi)容開發(fā)提速，豐富內(nèi)容供給，帶來商業(yè)化增量。

該環(huán)節(jié)參與布局的廠商眾多，代表廠商包括芒果超媒、奧飛娛樂、閱文集團、貓眼娛樂、光線傳媒、中文在線、上海電影、掌閱科技、華策影視、捷成股份、萬興科技、易點天下、盛天網(wǎng)絡(luò)等。

AI+教育/電商/醫(yī)療

AIGC 在海外已實現(xiàn)教育產(chǎn)品功能創(chuàng)新、課程研發(fā)降本增收。語言學(xué)習(xí)應(yīng)用程序多鄰國（Duolingo）基于GPT-4大模型，推出DuolingoMax訂閱服務(wù)。國內(nèi) AI 教育產(chǎn)品繼續(xù)更新迭代，有望逐步帶來增量。

AI 賦能電商“人”、“貨”、“場”全面鋪開，AI 導(dǎo) 購在國內(nèi)外加速落地，實現(xiàn)了商品推薦、服裝試穿等功能創(chuàng)新，有望幫助電商平臺和服務(wù)商提升商品銷售效率，實現(xiàn)降本增效。

AI+醫(yī)療方面，在醫(yī)?？刭M、分級診療的大背景下，AI能夠通過提升人效、精細(xì)化運營、專業(yè)賦能的方式，幫助醫(yī)院實現(xiàn)降本增效，同時幫助基層醫(yī)院提高醫(yī)療能力。因此，AI大模型所嵌入的產(chǎn)品有望實現(xiàn)較好的落地。

未來多模型AI有望在成像技術(shù)、疾病篩查與預(yù)測、手術(shù)與康復(fù)等場景下持續(xù)發(fā)力。

該環(huán)節(jié)相關(guān)布局廠商包括世紀(jì)天鴻、南方傳媒、皖新傳媒、盛通股份、佳發(fā)教育、鷗瑪軟件、光云科技、值得買、壹網(wǎng)壹創(chuàng)、東方甄選、焦點科技、潤達(dá)醫(yī)療、嘉和美康、衛(wèi)寧健康、創(chuàng)業(yè)慧康、迪安診斷等。

醫(yī)療領(lǐng)域大模型支持場景：

資料來源：創(chuàng)業(yè)慧康

AI+辦公

在AI領(lǐng)域，語音輸入和圖像輸入的技術(shù)已達(dá)到可推廣使用的水平。語音輸入和圖像輸入意味著更自然便捷的人機交互方式和更廣泛的應(yīng)用場景，或進(jìn)一步革新辦公產(chǎn)品。

微軟面向企業(yè)客戶全面推出Microsoft365Copilot，產(chǎn)品商業(yè)化步伐再度邁進(jìn)。對于國內(nèi)辦公軟件廠商來說有積極意義。

當(dāng)前國內(nèi)“AI+辦公”類廠商多個產(chǎn)品進(jìn)入測試階段，監(jiān)管落地后相關(guān)產(chǎn)品商業(yè)化有望加速。

金山辦公正式發(fā)布了具備大語言模型能力的生成式人工智能應(yīng)用，名為“WPS AI”，這也是國內(nèi)協(xié)同辦公賽道首個類ChatGPT 式應(yīng)用。AI+辦公環(huán)節(jié)主要布局廠商還包括彩訊股份、致遠(yuǎn)互聯(lián)、科大訊飛等。

AI+元宇宙/虛擬人

蘋果 MR 頭顯體驗領(lǐng)先，或帶動整體 MR 設(shè) 備出貨量提升及 AR/VR 內(nèi)容需求增長。

多模態(tài)大模型有望為內(nèi)容開發(fā)降本提效，從而提高各應(yīng)用場景下的 VR/AR 滲透率。

主要布局廠商包括風(fēng) 語筑、鋒尚文化、恒信東方、藍(lán)色光標(biāo)、因賽集團、元隆雅圖、引力傳媒等。

AI+機器人

AI、大模型深度賦能機器人感知層和規(guī)劃層，助力機器人更貼近具身智能。

以微軟ChatGPT預(yù)訓(xùn)練語言模型、谷歌PaLM-E模型、英偉達(dá)多模態(tài)具身智能系統(tǒng)NVIDIAVIMA為代表的AI技術(shù)突破，進(jìn)一步助力機器人突破產(chǎn)品力上限。

2023年3月谷歌PaLM-E模型推出，融合了ViTVisionTransformer的220億參數(shù)和PaLM的5400億參數(shù)能力，集成了可控制機器人視覺和語言的能力。

2023年5月英偉達(dá)發(fā)布多模態(tài)具身智能系統(tǒng)NVIDIAVIMA，標(biāo)志AI能力的又一顯著進(jìn)步，有望顯著提升機器人的智能化水平、人機交互能力、自編譯能力。

算力：多模態(tài)AI基礎(chǔ)

隨著多模態(tài)時代正式開啟，無論在訓(xùn)練階段還是在推理階段，對于算力的需求都相較于單模態(tài)模型有極大的提升。

應(yīng)用場景多或請求量大會增加對計算資源的需求，導(dǎo)致計算集群規(guī)模的擴大。

OpenAI認(rèn)為自2012年以來，大規(guī)模AI訓(xùn)練所需的算力呈指數(shù)級增長，每3.4個月翻一番。2012-2018期間已增長超過300,000倍。當(dāng)前多模態(tài)大模型仍在不斷迭代，訓(xùn)練階段的算力將保持增長。

算力產(chǎn)業(yè)鏈核心環(huán)節(jié)包括服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲設(shè)備、芯片、IDC建設(shè)、光通信等。#人工智能##讓AI觸手可及##服務(wù)器##算力##芯片##多模態(tài)#

服務(wù)器和算力租賃主要代表廠商包括浪潮信息、中科曙光、工業(yè)富聯(lián)、寒武紀(jì)、神州數(shù)碼、拓維信息、恒潤股份、紫光股份、四川長虹、真視通、中國長城、蓮花健康、鴻博股份、潤建股份、中貝通信、烽火通信、恒為科技等；光通信頭部布局廠商包括中際旭創(chuàng)、新易盛、華工科技、劍橋科技、光迅科技、光庫科技、烽火通信、長飛光纖、亨通光電等。#多模態(tài)##人工智能##讓AI觸手可及##服務(wù)器##光模塊##算力##財經(jīng)新勢力#

算力基礎(chǔ)設(shè)施產(chǎn)業(yè)鏈圖示：

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕