精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
AIGC行業報告:ChatGPT-百度文心一言暢想

報告出品/作者:華西計算機團隊、劉澤晶

以下為報告原文節選

------

1.1 ChatGPT為API接口收費,我國需自主可控

ChatGPT,AI的曠世之作,持續引爆市場: 是OpenAI于 2022年11月推出的聊天機器人,由于其功能強大,例如實現文章創作、代碼創作、回答問題等功能,我們認為其具有跨時代的意義,例如實現勒“模糊搜索”到“精準推送”的跨越,因此持續引爆市場。


ChatGPT為AI接口收費,我國需自主可控: OpenAI(ChatGPT母公司)的商業模式為API接口收費,客戶可以通過接入OpenAI的API接口獲取獲取相關圖像、語言、代碼調整服務,我們認為此種商業模式具有“卡脖子”的風險,一旦海外禁止API接口權限,會對我國AIGC生態造成嚴重影響,因此我國需要發展自主可控的“ChatGPT”。

國產生態正在逐步繁榮,百度打響“ChatGPT”領域“第一槍”:百度是少有預訓練模型(大模型)語言訓練能力的公司,其在算法、算力、數據、生態、平臺五方面皆有儲備,根據百度官方公眾號,百度計劃于2023年3月16日在北京總部召開新聞發布會,圍繞國產版ChatGPT文心一言,我們認為此舉正式意味著我國自主可控的“ChatGPT”即將問世。

1.2 ChatGPT的競爭本質即大模型儲備競賽

大模型的是人工智能發展的必然趨勢: 大模型即“大算力+強算法”結合的產物。大模型通常是在大規模無標注數據上進行訓練,學習出一種特征和規則。基于大模型進行應用開發時,將大模型進行微調,如在下游特定任務上的小規模有標注數據進行二次訓練,或者不進行微調,就可以完成多個應用場景的任務。


大模型是輔助式人工智能向通用性人工智能轉變的堅實底座: 大模型增強了人工智能的泛化性、通用性,生產水平得到質的飛躍,過去分散化模型研發下,單一AI應用場景需要多個模型支撐,每個模型需要算法開發、數據處理、模型訓練、參數調優等過程。大模型實現了標準化AI研發范式,即簡單方式規模化生產,具有“預訓練+精調”等功能,顯著降低AI開發門檻,即“低成本”和“高效率”。


數據、平臺、算力是打造大模型生態的必備基礎: 數據是訓練大模型參數的必備,我們認為可以理解成“燃料”;算力是訓練大模型的底層動力源泉,一個優秀的算力底座在大模型(AI算法)的訓練和推理具備效率優勢;平臺是大模型和算力之間的“橋梁”,可針對不同的模型和硬件,實現資源的合理分配,達到軟硬件的最優組合,從而大幅提升訓練模型的效率。

1.3 大模型帶來的AI技術與應用變革潛能被廣泛驗證

大模型帶來的AI技術與應用變革潛能被廣泛驗證,可以分為四類,分別是NLP(自然語言處理)、CV(計算機視覺)、多模態和科學計算。


NLP: 近年來,隨著預訓練技術(大模型)、算力提升以及NLP海量數據和任務特性,大模型預訓練在該領域取得顯著突破,2018年,隨著BERT(谷歌)的誕生,是利用海量無標注文本的監督學習,已經刷新多個AI權威技術榜單,3億參數的BERT模型在權威GLUE的11任務刷新紀錄,基準值推至80.4%,絕對值提升7.6個點。


CV: 目前,主要以卷積神經網絡(CNN)和Transformer為支撐的計算機大模型快速發展,比如,2021年的150億參數的V-MoE推出,在ImageNET準率高達90.35%,此外,國內廠商也逐漸發力,盤古CV大模型可提供OCR文字識別,并在多個場景落地。


多模態: 大模型技術推動多模態模型不斷迭代升級,比如阿里大模型M6,模型參數10萬億級別,持續拓寬大模型應用廣度,覆蓋電商、智能交互等場景,此外,OpenAI的CLIP(文本圖像匹配)以及DALL·E2(文生圖)持續落地。


科學計算: AI+科學計算持續引發大變革,比如生物制藥、氣象預報、地震探查、材料等領域,例如Deep-Mind推出的AlphaFold2能夠覆蓋98.5%的人類蛋白質組,并對20種其他生物蛋白結構進行預測。

1.4 中美科技巨頭廠商開啟大模型儲備“軍備賽”

美國科技巨頭公司開啟AI大模型 “軍備賽” :u 谷歌: 谷歌推出聊天機器人Bard,底層代碼為LaMDA,我們認為LaMDA與ChatGPT算法具備一戰之力。此外,BERT算法具備庫時代的意義。


微軟:目前,根據智東西報道,微軟推移動版Bing,語音接入、AI群聊等功能。此外,微軟本身也有在NLP、CV相關大模型的技術儲備。


其他: 例如FaceBook、亞馬遜、DeepMind、英偉達等廠商已經加入大模型的“軍備賽”,并分別在NLP、CV或多模態方面已有相應的技術儲備,應用在語言生成、推理、代碼生成、跨模態搜索等領域中。


我國需有自主可控AI大模型,生態正逐漸繁榮:ü 百度: 是少有預訓練模型(大模型)語言訓練能力的公司,已經經歷多次迭代,目前已覆蓋眾多方向,目前已有近百萬開發者使用文心大模型,生態正在逐步繁榮,合作廠商覆蓋科技、教育、工業、媒體、金融等諸多產業。


阿里: 根據鈦媒體數據,M6模型是中文多模態模型,參數規模高達萬億,已在超40個場景中應用,可以實現劇本創作等功能。


其他: 例如騰訊、京東、科大訊飛、字節跳動、網易等紛紛加入“軍備賽”,分別擁有獨特技術架構,應用在智慧音效、AI視頻創作、AI語音、AI作文、AI搜索等應用場景中。

資料來源:公開資料整理,騰訊《AIGC發展趨勢報告2023》,華西證券研究所

2.1 百度文心一言開啟國產ChatGPT新征程

百度是少有大模型語言訓練能力的公司: 其文心大模型和Open AI的GPT模型類似,在2019年就已經推出,并且已經迭代了多代,從單一的自然語言理解延伸到多模態,包括視覺、文檔、文圖、語音等多模態多功能,因此“文心一言”所基于的ERNIE系列模型也已經具備較強泛化能力和性能。


我們認為百度作為國產ChatGPT“領軍企業”,符合數據、平臺、算力、大模型、生態多重要素需求: 算力方面,百度擁有自主生態的算力底座,比如百度智算中心;AI芯片方面,坐擁昆侖芯加速器,實現了核心自主可控,且性能優異;平臺方面,百度具備百度百舸 · AI異構計算平臺,具有高性能、高彈性等優勢;大模型儲備方面,百度實現了全生態的布局,其中包括NLP、CV、大模型、生物計算等領域,且在不同場景中已有較多應用。數據方面,根據IDC數據,其擁有5500億條知識,且已經應用于百度搜索、信息流、智能駕駛、百度地圖、小度等產品。

2.2.1 百度文心一言大模型儲備齊全: NLP(自然語言處理)

百度文心一言NLP方向算法儲備齊全: 其中著名的 ERNIE系列,是基于知識增強的千億模型,用于智能創作、摘要生成、問答、語義檢索、情感分析、信息抽取、文本匹配、文本糾錯等各類自然語言理解和生成任務,并且模型已經可應用于醫療、金融、圖語言、編程、跨模態、信息抽取等各個方面。此外,PLATO模型,是全球首個超百億參數規模的中英文對話訓練模型,可以讓機器人像人一樣具有邏輯且自由對話。

百度文心一言NLP功能強大: 例如ERNIE系列,ERNIE3.0基于知識增強的多范式統一預訓練框架,深入融合的千億級知識,具備強大的語言理解能力與小說、摘要、文案創意、歌詞、詩歌等文學創作能力。其中與鵬城實驗室合作發布了知識增強千億大模型 “鵬城-百度·文心“。目前文心ERNIE已經刷新93個中文NLP任務基準,并多次登頂SuperGLUE全球榜,已在機器閱讀理解、文本分類、語義相似度計算等60多項任務中實際應用。

2.2.2 百度文心一言大模型儲備齊全: CV(計算機視覺)

百度文心一言CV具有顛覆性: VIMER-CAE: 為視覺自監督預訓練大模型,創新性地提出 “在隱含的編碼表征空間完成掩碼預測任務”的預訓練框架,在圖像分類、目標檢測、語義分割等經典下游任務上刷新SOTA結果。


VIMER-UFO 2.0: 多任務學習模型,行業最大170億參數視覺多任務模型,覆蓋人臉、人體、車輛、商品、食物細粒度分類等 20+ CV 基礎任,具備支持各類任務、各類硬件的靈活部署等優勢,可以有效解決大模型參數量大,推理性能差等問題。


OCR -VIMER-StrucTexT 2.0: 為表征學習預訓練模型解決了訓練數據匱乏和傳統 OCR + NLP 鏈路過長導致的模型表達能力不足、優化效率偏低等問題,能夠廣泛應用于文檔、卡證、票據等圖像文字識別和結構化理解,例如泛卡證票據信息抽取應用、政務辦公文檔還原應用等場景。


VIMER-UMS: 是行業首個統一視覺單模態與多源圖文模態表征的商品多模態預訓練模型,可實現統一圖文表征預訓練同時覆蓋商品視覺單模態、多模態識別與檢索任務,可以顯著改善商品視覺檢索和商品多模態檢索體驗。

2.2.3 百度文心一言大模型儲備齊全: 跨模態、生物計算

文心跨境大模型優勢顯著: ERNIE-ViLG2.0是知識增強的 AI 作畫大模型,在公開權威評測集MS-COCO上取得了當前該領域的領先效果,在語義可控性、圖像清晰度、中國文化理解等方面均展現出了顯著優勢;跨模態文檔智能大模型ERNIE-Layout,基于布局知識增強技術,融合文本、圖像、布局等信息進行聯合建模,在文檔抽取、布局理解等5類11項任務刷新業界SOTA;ERNIE-VIL是首個只是業界首個融合場景圖知識的多模態預訓練模型。在視覺常識推理、跨模態圖像檢索、跨模態文本檢索等 典型多模態任務中刷新了世界記錄。


文心生物計算大模型在全球具有領先優勢: HelixFold-Single是秒級別的蛋白結構預測大模型,從近3億的無標注蛋白質數據中隱式的學習MSA信息,在90% 的單體蛋白場景上預測效果持平AF2,在抗體結構預測場景下,比AlphaFold2預測結果更優;HelixGEM-2為小分子藥物研發模型,在量子化學屬性預測和虛擬篩選雙場景上達到領先效果,其上個版本是業界首個基于幾何構象增強的化合物表征模型,引入化合物的三維空間信息,在14個藥物屬性預測相關的benchmarks上效果達到業界最優;HelixFold模型可以端到端地學習蛋白質結構,在國產DCU環境下訓練千萬級別蛋白僅需到2.6天,在 GPU 上相同硬件環境配置下,訓練性能和部分場景效果顯著優 AlphaFold2。

2.3.1 百度底層算力技術實力強勁: 百度智算中心

百度智算中心是數字經濟的重要底座: 百度自身具有建設智能算力中心的實力,百度智算中心面向人工智能應用場景,為政府和行業客戶提供普惠算力、算法模型和數據服務的人工智能基礎設施。可面對人工智能應用場景,支持大規模部署的同時,滿足高并發、高彈性、高精度等不同計算需求,可支撐城市大腦、產業金融、自動駕駛等各個垂直化行業。


方案優勢強大,具備多重領先優勢: 1、技術領先,現有千卡并行環境下實現加速比90%,可支持大規模模型訓練場景;2、綠色低碳,數據中PUE可以低至1.08,左到低能耗、高性能運行;3、自主可控,AI芯片、AI框架、開發平臺、大模型層面、可以做到全棧自研自主可控;4、開放生態,飛槳已累計凝聚477萬開發者等。


目前已在江蘇鹽城、湖北宜昌等地落地,建設內容包括智算中心、城市級視頻中臺、數據中臺系統、核心物聯網通信系統、大規模圖譜分析體系,以及超過270類不同人工智能算法模型。

資料來源:百度智能云官網,華西證券研究所

2.3.2 百度底層算力技術實力強勁:百度百舸 · AI異構計算平臺

百度AI異構計算平臺技術積累濃厚:包含AI計算、AI存儲、AI加速、AI容器四大核心套件,具有高性能、高彈性、高速互聯、高性價比等特性,其中平臺已經充分汲取了百度多年技術積累,具備深度融合推薦、無人駕駛、生命科學、NLP等場景的實踐經驗,能為AI場景提供軟硬一體解決方案,加速AI工程化落地。


百度智能計算平臺具備多重優勢: 1、高效率,提供AI超級服務器、RDMA網絡、大吞吐低延時的并行文件系統,可大幅提升訓練速度和推理效率;2、高密度,支持GPU資源共享與隔離、架構感知調度,提升異構資源的容器化部署密度,提升資源利用率;3、良好易用性,支持PaddlePaddle、TensorFlow、Pytorch等多種主流深度學習框架;4、多場景部署,可根據業務需求在不同場景部署落地,公有云、IDC等場景;5、樂高式拼接,AI計算、AI存儲、AI容器三大核心產品均可各自獨立提供服務。


應用場景廣泛: 可用于營銷廣告、無人駕駛、生物科技、語音語義、計算機視覺等場景中的訓練及推理。

2.3.3 百度底層算力技術實力強勁: 昆侖芯云服務器

百度昆侖云服務器服務器專為AI算力而生:昆侖芯云服務器是一種彈性按需、提供高性能通用AI算力的云服務器,應用于AI推理和AI訓練加速。昆侖芯云服務器是搭載昆侖芯的云服務器,支持K100和R200型號。其中昆侖芯為自主研發的 AI 通用處理器芯片。其中R200AI芯片采用7nm制成,廣泛應用于計算機視覺、自然語言處理、大規模語音識別、大規模推薦等場景。


昆侖芯云服務器技術壁壘濃厚: 1、領先的AI計算能力,基于7nm制程,單卡算力達到128TFLOPS,支持推理和訓練;2、生態兼容,支持主流深度學習開發框架,例如Tensorflow、Pytorch、PaddlePaddle等;3、具備硬件虛擬化能力,優化了加速芯片的利用率,在保證延時和吞吐量的情況下支持推理和訓練等混合工作負載;4、易開發,支持多種開發組件工具,編譯引擎支持C和C++編程。


典型案例: 1、互聯網搜索,可支持搜索系統對高并發要求,提高NLP推理的效率;2、超算中心,實現人工智能算力大規模、高密度部署;3、工業質檢,利用深度學習技術替代人工質檢,大大節省了人力成本,提高整廠的智能化水平,幫助企業降低損耗,提升約10%的良品率;4、智慧城市,全方位支撐智慧政務、綜合治理等智慧城市核心板塊。

2.3.4 百度底層算力技術實力強勁: 昆侖芯AI芯片

百度自身AI芯片技術實力濃厚: 昆侖芯AI芯片是百度自主研發的芯片,昆侖芯科技前身是百度智能芯片及架構部昆侖芯科技深耕AI加速領域已十余年,是一家在體系結構、芯片實現、軟件系統和場景應用均有積累的AI芯片企業。昆侖芯1代是百度自妍的第一一代昆侖芯片,2020年底實現量產;昆侖芯2代也已于2021年8月量產;根據百度集團執行副總裁沈抖透露,昆侖芯3代將于2024年初量產。


昆侖芯2代AI芯片可提供龐大算力支撐,具有性能優勢: 采用7nm架構,對比上一代,R200全面提升AI負載的運行效率,巔峰算力可達256 TOPS@INT8,昆侖芯2代具備多重優勢,1、創新架構,通用和專用指令集融合,支持訓練、推理、虛擬化;2、算力支撐強大,通用計算能力明顯增強,可靈活支持AI算法的演進,3、高速互聯,高性能分布式AI系統,加速AI數據和模型并行中的數據交換。此外,昆侖芯在著名算法的功耗比已有顯著優勢。

2.4 百度文心一言生態愈發繁榮

百度模型評估結果屬于第一梯隊,彰顯其強大技術實力: 根據IDC的數據評估先實,百度文心大模型在市場格局中處于第一梯隊,產品能力、生態能力達到L4水平,應用能力達到L3水平。產品能力呈現出較強技術實力和平臺積累, “文心大模型+深度學習平臺”創新了人工智能研發應用范式達到行業前端水平;應用能力方面,百度已在金融、能源、制造、城市、傳媒、互聯網等行業擁有實際落地的標桿案例,截止目前文心已累計發布11個行業大模型;在生態能力方面,百度文心大模型在社區用戶的基礎上,可以實現與開發者、行業用戶、上下游產業的正向互動,在評估廠商中處于行業領先位置。


百度大模型賦能千行百業,已有落地應用:目前百度文心在能源、金融、航天、制造、傳媒、城市、社科以及影視等領域與國網、浦發、吉利、TCL、人民網、哈爾濱、上海辭書出版社等均有案例應用的行業大模型。這些行業大模型作為重要AI底座,在各行業的技術效果突破、產品創新、生產流程變革、降本增效等維度產生價值。

2.4 百度文心一言生態愈發繁榮

百度文心一言場景愈發繁榮,目前已有諸多廠商開展合作,我們認為其商業模式同樣為API接口收費,屬于SAAS商業模式,合作廠商分別覆蓋科技、金融、航天、影視、汽車、電子制造等諸多產業。

2.5 百度文心一言五大要素齊全,開啟全新篇章

我們認為大模型成功必備的五要素,分別是數據、算力、平臺、模型和生態,而百度作為國產ChatGPT的領頭羊,五大要素皆已配備。

海量數據: 即訓練大參數模型的“燃料”,根據IDC數據,其擁有5500億條知識,且已經應用于百度搜索、信息流、智能駕駛、百度地圖、小度等產品。

模型儲備:百度實現了全生態的布局,其中包括NLP、CV、跨境大模型、生物計算等領域。

NLP領域: ERNIE系列,是基于知識增強的千億模型,用于智能創作、摘要生成、問答、語義檢索、情感分析、信息抽取等能力。PLATO模型,是全球首個超百億參數規模的中英文對話訓練模型,可以讓機器人像人一樣具有邏輯且自由對話的功能。

CV領域: VIMER-CAE,應用于圖像分類、目標檢測、語義分割等場景;VIMER-UFO,擁有170億參數,覆蓋人臉、人體、車輛、商品、食物細粒度分類等 20+的視覺多任務模型;OCR -VIMER-StrucTexT廣泛應用于文檔、卡證、票據等圖像文字識別和結構化理解;VIMERUMS業內首發多源圖文模態表征的商品多模態預訓練模型;

跨境大模型:可實現AI作畫、場景融合視覺常識推理、跨模態圖像檢索、跨模態文本檢索等多場景。

生物計算: 應用場景為蛋白結構預測和小分子藥物研發等領域。

平臺方面: 擁有自主生態的百度百舸 · AI異構計算平臺,具備高效率、多密度、高易用性、多場景部署、樂高式拼接等能力。

算力底座:百度自身具有建設智能算力中心的實力,技術領先且自主可控,已有典型落地案例;服務器方面擁有自妍的昆侖芯云服務器,具有AI計算能力領先、生態兼容、兼具硬件虛擬化、易開發等能力;芯片方面,昆侖芯AI芯片是百度自主研發的芯片,2代芯片已量產,具備算力支撐強、高速互聯等多重優勢。

生態: 百度大模型賦能千行百業,已有落地應用,合作廠商分別覆蓋科技、金融、航天、影視、汽車、電子制造等諸多產業。

--------------------------------------------------------------------------

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
國內有哪些對標 ChatGPT 的大語言模型? 主要 5 大競品
同樣是做大模型的科技公司,為啥差距這么大呢?
【風口研報】GPT
能否與ChatGPT一戰?華為AI大模型“盤古”究竟有多強
百度版ChatGPT“文心一言”
***(老文章)谷歌微軟死磕的ChatGPT,門檻沒你想的高
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 化隆| 屏山县| 连州市| 和平县| 屏山县| 门源| 崇明县| 惠安县| 方山县| 墨竹工卡县| 新干县| 六安市| 汝阳县| 连州市| 错那县| 建湖县| 闽清县| 黄骅市| 开鲁县| 当雄县| 凤翔县| 新乡市| 罗源县| 中山市| 成安县| 积石山| 大田县| 周口市| 临汾市| 武穴市| 花莲市| 林州市| 伊金霍洛旗| 四子王旗| 扎赉特旗| 平舆县| 肇庆市| 大宁县| 扎囊县| 剑阁县| 绥中县|