如何實現“數字人自由”,顛覆內容生產行業?一是通過標準化、平臺化,吸引更多用戶、企業、行業擁有數字人;二是基于平臺打造的生態鏈服務,降低數字人高門檻、高投入。
作者|楊 銘
編輯|劉珊珊
1305年,元代畫壇宗師黃公望以富春江山水為背景,創造的曠世名作《富春山居圖》,譽為“中國十大傳世名畫”之一。
此畫在民間流傳甚久,清代順治年間遭火焚,從此斷為長短兩卷。前段現收藏于浙江省博物館,較長后段現藏臺北故宮博物院。一幅名畫,就這樣遺憾斷離失散數百年。
AI技術迭代飛躍,讓曠世名作“合璧”,再現江南意象成為可能——2022百度世界大會現場,百度利用文心大模型的AIGC能力一秒讓《富春山居圖》“重生”后,600年前的富春山水進入全國觀眾眼簾。
與其他習以為常的老照片、老電影、演唱會等AI修復術不同,如果用戶在百度App搜索“富春山居圖”,每個人都可以根據自己想法“虛擬補全”,創作屬于自己的《富春山居圖》。
站在技術發展角度,人人都能補全自己心中的《富春山居圖》,正是下一代互聯網Web3.0最好落地探索——兼具去中心化和交互性理念的Web3.0,能讓用戶共建、共治的同時分享平臺價值。
Web3.0也稱Web3,是最近兩年加密貨幣、元宇宙浪潮下共同推動的熱門詞匯,被公認為互聯網下一個時代。資本、互聯網企業扎堆進入下,Web3何時能現實快速落地,一直備受業界追問。
答案呼之欲出。從本屆百度世界大會來看,除了AI修復曠世名作,一系列AI數字人不同場景落地應用案例,都是基于大眾對Web3、數字人自由的未來生活想象圖景。
無論是Web概念從祛魅到快速落地,還是數字人內容產業迭代升級,都離不開AIGC賦予的強大生產力。“未來十年,AIGC將顛覆現有內容生產模式。”百度創始人、董事長兼首席執行官李彥宏說。
01
數字人進化,關鍵在AIGC
“今天起得太早了,又累又困,我想點杯咖啡呀?”當央視主持人撒貝寧用“十級”粵語點咖啡,度曉曉能秒懂下單嗎?
度曉曉是目前大火的百度AI數字人,此前她與龔俊數字人聯合演唱的《每分 每秒 每天》歌曲MV刷屏全網。后來,她又在各種場合表現出驚人的寫作、繪畫、采訪等等“天賦”。
和演唱、寫作、繪畫相比,度曉曉此次挑戰難度翻倍——粵語本就晦澀難懂,撒貝寧個性化提問又極其刁鉆,她必須“聽到”撒貝寧的話,并快速“理解”字句,實時轉換成手語“動作”,并在App上直接點單。
這意味著相比其他數字人,度曉曉需要有更高強度的“大腦”運轉,接近真人的情感理解,才能完成流程復雜的工作需求。
毋庸置疑,數字人度曉曉能否完成挑戰,取決于她在AI技術上的迭代速度和“學習能力”。
數字人最早可追溯到2007年,以語音合成程序為基礎開發的音源庫“初音未來”。受限于技術,此后數字人多以二次元形象出現,直到2016年人工智能“絆愛”,才讓虛擬主播熱潮席卷全球。2021年元宇宙概念大火后,數字人更是吸引無數企業聚焦、資本追逐。
Web3浪潮涌動,數字人被賦予更多意義,從Web2世界里“工具性賦能”輔助角色,躍升為Web3世界不可或缺的基礎設施——數字“原住民”。
因此,國內外互聯網大廠探索Web3,往往通過數字人“卡位”Web3的試驗場和前哨陣地。數字人的市場價值也隨之被持續抬高,IDC報告顯示,中國AI數字人市場規模呈現高速增長趨勢,預計到2026年將達102.4億元人民幣。
想贏得“卡位戰”勝利并不容易。技術層面看,大多數字人僅能進行簡單決策——大多依靠“2D或3D模型+實時動作捕捉+聲優配音”模式,無法實現智能化交互,在業界屬于2.0階段,難以順利實現撒貝寧的“十級粵語”點咖啡挑戰。
作為一種繼UGC、PGC之后全新的內容生產方式,不斷進化的AIGC——顧名思義,即人工智能自動生成內容,成為業界解題思路。
AIGC并非新概念,近年來很多AI虛擬數字人用到了AIGC能力。2015年,國外曾出現兩撥基于單點技術把產品迅速做火的AIGC案例,但受限于技術和成本,大多未能推廣開來。
行業對AIGC能力的要求,一直在升級之中。最早AIGC僅需要以假亂真,通過既定圖片或語音生成風格一致內容,但在Web3時代,數字人用到AIGC,除了基本的近真人需求,還要具有超強的創造力,像人一樣學習溝通和工作。
為什么數字人對AIGC能力要求越來越高?
“'技術+應用+發展’三位一體,正在持續提升數字人產業'天花板’。”市場調研機構IDC就指出,PGC、UGC這樣的生產模式,已不適應數字人本身的技術驅動和需求牽引。
從產品技術趨勢看,未來數字人將由AI驅動內容生成,多模態AI技術是核心;交互會越來越智能;形象越來越逼真,由擬人到類人到同人,只有AIGC才能實現。
行業應用趨勢看,未來幾年人類與數字人開始并存;從產業落地趨勢看,出行、產業、生活等千行百業正在加速向數字化轉型和智能升級——這意味著,對AIGC能力的需求,并不局限在數字人行業,而是應用于各行各業。
02
效率提升千倍
顛覆現有生產模式
僅就百度世界大會而言,如今百度AIGC能力輸出已經可以達到近真人,甚至超越人類水平。
度曉曉能秒懂完成撒貝寧的“刁鉆提問”,依靠的是不斷進化的AIGC能力——不斷汲取海量數據過程中,度曉曉的“自主能力”呈指數級增長,不僅能準確捕捉并判斷用戶搜索及服務類需求,和用戶互動交流更為生動有趣。甚至,她還會反問用戶意想不到的問題。
這種有邏輯、有個性的交互、反饋,是度曉曉采用AIGC能力后,與其他數字人的最大不同。
《富春山居圖》山水最終“合璧”,背后核心技術也來自AIGC的“自主”修復能力——盡管原畫被焚燒部分后人已無法知曉,但在黃公望紀念館負責人毛傳鑌看來,“與現存真跡風格一致,光線風格統一,山水脈絡和諧,不僅符合原畫審美特點,視覺上還同樣具有觀賞價值”。
真假難辨表現能力輸出外,AIGC更重要的是提升內容生產效率,讓數字人的落地應用領域越來越廣泛、越來越深。
目前,度曉曉已成百度搜索能力重要進化。用戶直接在百度App搜索“你好”,即可召喚度曉曉,通過“問一問”4萬多名答主快速匹配專業回答,連接科技到用戶的最后一公里,進入“人均一個數字人”時代。
另一百度AI數字人希加加,同樣會作畫、寫詩、作曲、說多國語言、還能實時直播。7月21日的大會直播中,她還和撒貝寧搭檔,擔當AI策劃官兼主持人,同時在現場用幾十秒完成繪畫。
生產效率上,AIGC提升明顯。比如,1秒讓國寶級名畫完美合璧,度曉曉1秒寫1篇作文,希加加直播中幾秒畫一幅畫——與人類生產效率相比,這是指數級的提升。
這是李彥宏認為未來十年,AIGC將顛覆現有內容生產模式的重要原因。“可以實現以十分之一的成本,以百倍千倍的生產速度,去生成AI原創內容。”
而AIGC自主學習能力,在李彥宏看來也會創造出有獨特價值和獨立視角的內容。
的確如此,在AI創作、AI作畫、AI作曲、AI剪輯等內容創作領域,外界直觀感受到的數字人的生產能力,早已遠遠超過一般人類。而AI主播、AI創意、AI智能新聞播報等,也在進入應用場景深化之際。
這些都在助推AIGC的進一步進化。根據李彥宏最新判斷,AIGC將走過“助手”(輔助人類內容生產)、“協作”(虛實人形態出現,人機共生)、“原創”(AIGC獨立完成內容創作)三個發展階段。
不斷進化的度曉曉、希加加們,很大程度上已經表明,百度AIGC能力正從“協作”加速跨入“原創”階段,助推數字人進入更多元化應用場景,迎來AIGC浪潮時代。
但從業界看,其實大部分AIGC能力輸出還處于“助手”或“協作”階段。
“數字人要用好AIGC能力,做到真假難辨,技術難度非常大,成本非常高,最終導致數字人制造成本較高,生產效率低下。”一位業界人士表示。
AIGC從業人士陳雨恒在接受媒體采訪時也提到,AIGC分為兩大部分:一是圖像側AI,包括圍繞人物角色展開的骨骼動畫生成、面部表情生成、動作捕捉等技術;二是邏輯側AI,包括圍繞語言對話展開的語義理解、語言模型、對話機器人等技術。“無論哪一側,都面臨技術、成本門檻問題。”
這方面案例并不少。利用到AIGC能力的柳夜熙,去年10月以來憑借“捉妖”題材短視頻爆紅,10個月過去才發布19個作品,遠遠不能滿足用戶高頻需求。英偉達在2021年動用34個3D美術師、15個軟件研究人員,做了21個版本的黃仁勛,才呈現出一個真假難辨的“數字人”。
AIGC能力的差異,成為百度領跑數字人產業重要原因。最新數據顯示,度曉曉在《2022虛擬數字人商業價值潛力》榜單中排名第一;在更多第三方機構發布的榜單中,依托百度 AI 的全棧能力,百度在數字人綜合實力方面排名第一。
03
AI降低創作門檻,
實現“數字人自由”
百度領跑AIGC能力原因何在?
原因看上去很簡單,不管是AI數字人,還是“補全”《富春山居圖》,百度AIGC背后的技術支撐,離不開百度搜索引擎海量數據的先天優勢(數億日活)、產業級深度學習平臺飛槳和產業級“知識增強”大模型文心的AI綜合沉淀能力,并由此帶來的創作門檻、創作成本的大幅降低。
2016年,百度打造了中國第一個自主研發、開源開放的產業級深度學習平臺飛槳。2019年,基于飛槳,百度開始深耕預訓練模型研發,從大規模知識和海量數據中融合學習,打造具備“知識增強”能力的文心大模型。
比如,數字人畫畫能力,使用的是文心大模型——跨模態圖文生成模型ERNIE-ViLG;而人對話能力,使用的是對話生成大模型——文心 PLATO,PLATO有接近真人水平的對話能力,對話效果已經達到世界領先水平。
《富春山居圖》合璧,就是文心大模型能力完整體現:其先是學習大量中國山水畫,實現從“小白”向“大師”的進階,再去學習就可以讓補全出來的畫作與現存真跡風格一致。
這就是“視覺生成大模型+單樣本微調”的技術策略,意味著該模型可以在更多書畫文物修復以及普通人書畫藝術創作中,發揮重要作用。
AIGC方向外,文心大模型還廣泛應用于搜索、信息流、智能音箱等互聯網產品,并通過飛槳開源開放平臺、百度智能云賦能工業、能源、金融、通信、媒體、教育等各行各業,幫助千百行業降本增效以及智能化升級。
這正是百度大腦、飛槳和文心大模型等綜合AI技術的核心價值——降低制作成本,實現大規模應用。
在數字人產業,更是幫助百度解決落地難問題的關鍵——產業鏈割裂、服務場景與演藝場景沒有有效打通、滿足高頻需求成本高,是當前業界公認的數字人落地難題,也是實現“數字人自由”的最大障礙。
這些問題,歸根結底是數字人生產效率、制作成本問題。百度解題思路是,通過AI底層技術支撐和成熟實踐,打造了數字人平臺“百度智能云曦靈”,讓數字人制作成本、生產周期大幅下降。
目前“曦靈”形成了一個“AI數字人家族”,擁有數十萬度曉曉這樣能力的數字人。最重要的是,普通用戶也可以通過“曦靈”快速生成自己的數字人——只需上傳一張照片,就能用分鐘級生成一個可被AI驅動的2D數字人像,以前需要兩三個月時間做出來的3D數字人,現在可以壓縮到一兩周。并且,這些數字人的AIGC能力非常成熟,ASR(聽得清)準確性可達98%以上。
多位業內人士認為,這是實現“數字人自由”的重要方向:一方面通過標準化、平臺化,吸引更多用戶、企業、行業擁有數字人;另一方面基于平臺打造的生態鏈服務,降低數字人的高門檻、高投入。
這讓百度在數字人行業有更大領跑機會。百度“AI數字人家族”原來集中在金融、銀行、供應商客戶,現在增加到廣電、互聯網娛樂、傳統工業等諸多B端客戶,另外C端的需求也越來越多——比如諸多品牌商的虛擬代言人合作需求。
04
叩門Web3.0
百度體現中國力量
“未來每個企業、每個人都有一個、甚至多個專屬的數字人。”2019年4月,李彥宏在百度與浦東銀行的數字人合作會上如此表示。
兩年過去,伴隨B端、C端齊頭快跑,更多數字人各種場景的落地應用,這個愿景逐漸變成現實。
這一切,源于百度對AI領域壓強式、馬拉松式的研發投入。公開數據顯示,研發投入方面,2021年百度核心研發費用221億元,研發投入強度位列中國民營企業500強第一位。
如今,AI早已成為百度引擎之一。飛槳、文心大模型、深度語音系統、百度大腦、度秘、Apollo自動駕駛平臺等多個AI相關的技術,都是百度不計成本投入的注腳。
百度由此打下未來元宇宙、Web3時代牢固的基礎設施——Web3衍生出的三大基礎設施分別是數字人、數字藏品、元宇宙。除了AI數字人,其余兩方面百度均基于AI能力有深入布局。
數字藏品是支撐Web3經濟體系的核心要素。百度2017年成立區塊鏈技術部門,2022年上線超級鏈數字產品平臺。如今,百度超級鏈已推出30多個全場景、全行業、全領域解決方案,打造出諸多標桿案例。
今年6月,中國探月航天以數字藏品形式發行我國第一艘數字載人飛船“夢想號”,招募1萬名“太空數字乘客”上太空,背后依靠的正是百度超級鏈技術。
元宇宙則是開放的Web3數字空間。去年12月,百度在AI開發者大會上發布了元宇宙產品“希壤”。百度智能汽車品牌“集度”的首款汽車機器人概念車,就是在希壤全球首發。
這些都讓百度在大廠扎堆Web3的競賽中,處于行業領跑地位——相比“社交+Web3“、“支付+Web3”、“電商+Web3”等等模糊概念,百度無疑是最早叩開Web3落地大門的那一個。
“相較于布局直接和消費者互動的'前端’,百度正在布局的是能夠支撐起Web3的'后端’,即從底層技術到產品、再到標準化解決方案的基礎設施。”百度集團品牌負責人曹語馨曾如此介紹。
如今在業界,互聯網大廠Web3情緒更為火熱,爭搶下一代互聯網話語權。包括Meta、谷歌、亞馬遜、阿里、騰訊、字節跳動、華為、推特、eBay、奈飛等等,都已爭相入局。但無論如何競爭,都需要讓用戶、行業切實感受到真正改變。
這仍然需要依托AI全棧能力。至少,不能出現直播無人駕駛技術時,因頻頻提及“開車”而被直播系統判斷為違規,從而斷掉直播的“梗”。
從這個角度看,當出行、產業、生活等千行百業正加速向數字化轉型和智能升級——百度在AI數字人等基礎設施上的大規模落地應用,即是對內容生產模式上的顛覆變革,也是Web3中國重要力量的體現。
END
出品人:黃槍槍
(請標注公司、職位)
獨到觀點、獨立態度。
見證中國商業生態進化、重塑與未來。