預訓練大模型為生成式AI帶來里程碑式飛躍。
2017年Transformer架構的出現改善了循環神經網絡(RNN)的局限性,標志性特征是采用了self-attention機制,可為輸入數據的各部分分配不同權重,支持GPT-3和LaMDA等大型語言模型(LLM)。
Transformer模型可并行訓練,使GPU性能改善所帶來的模型訓練效果顯著提升,同時可以通過不斷增加模型參數量以及預訓練使用的數據量來提升模型性能。
以Transformer架構為基礎衍生出的典型預訓練語言模型大致可以分為三類:
1)Encoder模型(以BERT為代表):又稱自編碼模型,適用于內容理解任務,例如需要理解輸入語義的任務,例如情感分析;
2)Decoder模型(以GPT為代表):又稱自回歸模型,適用于生成式任務,例如文本生成;
3)Encoder-Decoder模型(以T5為代表):又稱Seq2Seq模型,通常用于需要內容理解和生成的任務,例如翻譯。
Transformer三條路線中,GPT模型進展較快。
AI大模型化是過去兩年內興起的新潮流,自監督學習+預訓練模型微調適配方案逐漸成為主流,AI 模型走向大數據支撐下的泛化成為可能。
以OpenAI、谷歌、微軟、Facebook、NVIDIA 等機構為代表,布局大規模智能模型已成為全球引領性趨勢,并形成了GPT-3、Switch Transformer 等大參數量的基礎模型。
在大模型領域,以百度、騰訊、阿里、華為為代表的國內科技巨頭均已布局多年。=
其中百度早在2019年3月發布預訓練模型ERNIE 1.0,2023年3月推出了文心一言(ERNIE Bot)。
2021年4月,華為發布盤古大模型。
2022年4月,騰訊對外披露混元大模型。
2022年9月,阿里發布通義大模型系列。
百度文心大模型
百度率先在2019年3月發布預訓練模型ERNIE 1.0,持續投入大模型的技術創新與產業應用,布局了NLP、CV、跨模態等大模型,率先提出行業大模型,構建大模型工具與平臺,探索產品與社區,在企業端和用戶端均有不同程度的突破。
阿里通義大模型
2022年9月2日,阿里巴巴資深副總裁、達摩院副院長周靖人發布阿里巴巴最新「通義」大模型系列,其打造了國內首個 AI 統一底座,并構建了通用與專業模型協同的層次化人工智能體系,將為 AI 從感知智能邁向知識驅動的認知智能提供先進基礎設施。
騰訊混元大模型
2022年4月,騰訊對外正式宣布,騰訊“混元”AI大模型在MSR-VTT,MSVD,LSMDC,DiDeMo和ActivityNet五大跨模態視頻檢索數據集榜單中先后取得第一名的成績,實現了該領域的大滿貫。
華為盤古大模型
華為云盤古大模型于2021年4月正式發布,到2022年聚焦行業應用落地,已經發展出包括基礎大模型(L0)、行業大模型(L1)、行業細分場景模型(L2)三大階段的成熟體系。
某機構認為,各大巨頭目前在大模型技術上基本同源,且都具有資金、算力、人才、數據等發展條件,未來有望成為我國大模型的第一梯隊。
各家在應用場景上各有所長:百度具有搜索、小度智能音箱等應用場景;
騰訊具有W信、游戲等應用場景
阿里具有電商、釘釘等應用場景;
華為在2B應用方面獨具優勢。
未來各家將結合自身優勢,發力大模型研發及應用落地,我國的大模型產業將迎來快速發展階段。
除此以外,大模型帶來了大算力的需求,其主要包括:AI芯片、AI服務器,交換器、光通信中CPO、光纖、光芯片以及IDC和冷液等。
(匯總相關企業,非推薦,有些企業還出現了穿插)
百度大模型相關:漢得信息、東軟集團、宇信科技、致遠互聯、軟通動力、銀之杰、風語筑、掌閱科技、藍色光標等。
阿里大模型相關:恒生電子、千方科技、石基信息、眾信旅游、衛寧健康、金橋信息等。
騰訊大模型相關:博思軟件、世紀華通、掌趣科技、常山北明、四維圖新、泛微網絡、長亮科技等。
華為大模型相關:常山北明、拓維信息、特發信息、潤和軟件、神州數碼、寶蘭德、創意信息、科藍軟件、軟通動力、賽意信息等。
重要提示:股市有風險,入市需謹慎!以上內容僅供投資者參考,僅出于傳播財學資訊的目的,不作為投資決策的依據。