精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
行業洞察 | 萬字長文講透數字人與生成式AI未來的創造力和機遇
userphoto

2023.05.07 上海

關注
目錄

01. 引言
02. 主流數字人的技術原理和應用

03. 數字人在商業領域的崛起

04. 生成式AI技術讓數字人“活”起來

05. 國內數字人和生成式AI技術的發展現狀和機遇

06. 生成式AI技術何時走向成熟和規模化應用


引言
數字人技術即將普及化的時代正在迅速來臨!

從前年開始,很多品牌主紛紛啟用虛擬人作為品牌代言人。請明星不但要承擔過高的預算,還有隨時可能“塌房”的風險,真人各種不可控的因素讓品牌們苦不堪言,于是他們只好轉投可以由自己百分百掌控的“數字人”。

而虛擬人爆火的同時,數字人的另一種形態——數字分身也在蔚然成風。這兩者的區別簡單來說就是“虛擬人”是完全虛構的,直接由計算機生成的,而“數字分身”則是一個真實人物的數字孿生體。

倒映有聲為知名醫學專家陶勇醫生打造的AI數字分身

生成式AI技術作為一種利用深度學習模型從數據中學習并生成新的內容的技術,可以根據文本、圖像、音頻等輸入,生成各種類型的輸出,如3D模型、視頻、動畫、音樂、詩歌等。生成式AI技術的進步將為數字人提供了強大的支撐,使其能夠適應不同的場景和需求,展現出無限的可能性。這也意味著人們在線交流的形式將徹底發生改變。數字人栩栩如生的外觀,生動的表情,再加上AI技術加持下具備“最強大腦”,會為我們營造出逼真的互動性。

元分身數字人直播產品

每個人可以隨便“生產”數字人,甚至擁有自己的數字孿生(兄弟姐妹)的夢幻景象將成為現實,一切都將只是時間問題,甚至在可見的兩三年內即可實現。
數字人目前最先進的底層技術是什么樣?已經在哪些商業場景和行業內有成熟應用?生成式AI將如何賦能數字人的發展?二者的交融會為元宇宙帶來哪些新的想象?
帶著這些問題,我們采訪和調研了國內6家代表性數字人服務商的創始團隊,他們分別是一知智能、倒映有聲、元境科技、拓元智慧、創想數維、宙予科技。本篇文章即是對訪談內容的全面和體系化呈現。

主流數字人的技術原理和應用

目前國內的數字人技術廠商底層技術主要以NLP(Natural Language Processing自然語言處理)技術多模態融合交互(不同形式的輸入組合(例如,語音、手勢、觸摸、凝視等)被稱為多模態交互模式,其目標是向用戶提供與計算機進行交互的多種選擇方式,以支持自然的用戶選擇。)和大模型(大模型又可以稱為Foundation Model(基石)模型,模型通過億級的語料或者圖像進行知識抽取,學習進而生產了億級參數的大模型。)、XR技術(Extended Reality擴展現實,是指通過計算機將真實與虛擬相結合,打造一個可人機交互的虛擬環境,這也是AR、VR、MR等多種技術的統稱。)這三種技術為底層技術依托打造數字人。

其中NLP技術以創始團隊為浙江大學計算機學院人工智能研究所出身的一知智能、上市公司天娛數科戰略投資的專門做元宇宙虛擬人相關業務的科技營銷公司元境科技兩家為典型代表。

一知智能

一知智能CTO李一夫在采訪中表示,一知智能創始團隊一開始就是研究NLP技術的,目前一知智能的智能客服等產品就是結合一知智能的NLP能力研發的。在持續探索商業化的過程中,一知智能研發團隊也在積極關注和思考前沿技術的發展。

當一知智能研發團隊認為多模態語音交互領域要想繼續往前發展的話,就需要一個語音和文本結合、仿真外觀形象和動態視頻結合的模態,因此便在兩年前便積極布局虛擬數字人,往多模態交互、多模態大模型的方向發展。
△一知智能技術圖譜

一知智能CTO李一夫向非凡產研記者介紹,與同行業產品對比中,尤其是在真人驅動以及口唇同步效果方面,一知智能的數字人在行業中應該是處于遙遙領先的狀態。尤其在技術優勢方面,由于一知智能過去幾年積累了大量的語料,迭代出領先的消費行業語音與語義相關的模型,結合自身在多模塊交互方面的研究沉淀,未來一知智能將會在數字人的基礎上疊加交互的部分,從而擴大技術方面的競爭優勢。

另一方面,一知智能過去在消費領域積累的客戶、業務優勢,將會使一知智能的數字人在幫助客戶找PMF的應用中取得更大的競爭力。

元境科技

元境科技很早之前就開始布局NLP技術和應用,NLP核心的語義理解,預訓練多模態大模型、NLP 算法集、NLP開發套件等已經集成到了元享智能云平臺,具備企業級的落地實力。元境科技創始人王智武表示,元境在做就是通過元境自身的研發實力,降低其他企業在NLP及其他尖端術在應用層的使用門檻。

△元享智能云平臺界面

元境科技的產品體系為1+X,其中“1”指元境科技自主研發的產品平臺“元享”,通過這個平臺元境科技將持續架設很多產品,聚焦垂直賽道和細分領域,同時提供專業產品服務和集成服務,簡化和降低技術的應用門檻。元境科技目前的市場定位、探索主要聚焦在如何把一些最新自主訓練技術、自主研發技術整合投放個一些垂直行業的應用場景。相比通用型產品,元境科技未來聚焦的方向將以垂直應用場景為主。

倒映有聲

倒映有聲成立四年多以來,則一直聚焦在多模態的驅動和生成技術。創始人兼CEO肖朔介紹說,倒映有聲把文本、聲音和圖像,以及數字人相關的動作驅動幾個環節整合到一起,形成“多模態的神經渲染引擎”。目前,倒映有聲主要服務B端客戶場景,提供AI數字人技術解決方案、可視化的操作界面、以及直接調取API技術接口,幫助客戶去做數字人音頻和視頻內容生產,最終實現解放真人勞動力、降本增效的目的。

在倒映有聲創始人兼CEO肖朔看來,目前的技術流派可以分為兩種:第一種是基于傳統的3D建模方式,用海外比較成熟的UE或unity的引擎來進行渲染,這套方案在游戲或者影視當中應用較多,現在也有很多優秀的技術公司把它應用在了數字人或元宇宙場景,也同樣取得了不錯的應用效果。而倒映有聲采用的是另外一套技術方案,不需要做傳統的3D建模,能夠節約大量的人力成本和時間成本,以及不需要再借用海外壟斷性質的渲染引擎,因此倒映有聲可以實現用更低的成本和更標準化的模式,在云端快速地完成與數字人相關的多模態內容生產。


拓元智慧

另一家人工智能公司拓元智慧則致力于運用自研多模態大模型、認知推理、因果模型、心智模型等前沿AI技術,為客戶核心提供內容生成和虛實交互解決方案。目前已經在真人數字分身、AI協同創作、企業數智服務等領域形成標化產品,服務客戶百余家。拓元智慧聯合創始人兼元分身平臺總經理黃偉鵬向非凡產研介紹,在應用落地方面,拓元智慧主要關注以認知AI為核心的AGI領域的幾個主要方向,包括文案和圖像視頻生成、個性化交互及自主規劃型AI大腦等。

拓元智慧多模態認知AI平臺示意圖

基團隊的多模態AIGC與互動技術,元分身平臺可以打造媲美真人的AI數智人,應用于視頻合成、直播、互動等場景,為客戶提供數智人定制、視頻制作服務平臺、直播服務平臺、個性化交互等服務。其中,視頻創作及合成應用適合教育、醫學、科技、金融、企事業等泛內容傳播,直播應用適用于本地生活商家、品牌店鋪、私域24小時直播門店等場景,而交互數字人則適用于售前售后客服和專家型咨詢陪伴等場景。

創想數維

與其他幾家不同的是,創想數維目前正在開發的是XR技術(擴展現實技術)。與傳統技術如綠幕相比,XR技術在畫面效果和操作便利性等方面具有更大的優勢。創想數維CEO吳未的目標是將XR技術小型化并推廣到其他數字內容生產領域,例如企業活動、綜藝、直播和短視頻等,讓更多人受益。
創想數維業務范圍

創想數維的核心技術特點包括:首先,具備優秀的自出研發和生產硬件設備的能力,且成本相對較低;其次,擁有一個核心的、平臺級別的軟件,包括渲染服務器和軟件,這也是創想數維技術的一個核心組成部分。除此之外,創想數維正在開發利用AIGC技術快速生成3D場景和動畫等算法和工具。

宙予科技

宙予科技是生成式AI驅動的空間化電商全案服務商。去年宙予科技開發了618京東元宇宙電商項目。作為全球首個元宇宙電商項目,在轉化率等核心指標,達到傳統電商十倍之多,實現了3D互聯網場景營銷轉化效果的重大突破。目前宙予科技正在進行5000萬人民幣或等值美元的A輪融資。創始人朱峰是北京大學本碩,從物理轉修電影導演/文化產業。宙予合伙人團隊由四位相識20年的發小組成,是北京四中、北京大學的高中/大學/碩博士同年級同學,包括兩位電商老兵和兩位元宇宙渲染引擎專家,是空間化元宇宙電商創業的最優搭配。

宙予科技AI虛擬主播

“AIGC”全稱為“Artificial Inteligence Generated Content 人工智能生成內容”,中國信通院發布的《人工智能生成內容(AIGC)白皮書》認為,目前關于 AIGC 的概念并沒有統一界定,國內產學研界的理解是“繼專業生成內容(Professional Generated Content,PGC)和用戶生成內容(User Generated Content UGC)之后,利用人工智能技術自動生成內容的新型生產方式”。維基百科給出的解釋則是“人工智能合成媒體(AI-generated Media 或 Synthetic Media)”,指“通過人工智能算法對數據或媒體進行生產、操控和修改的統稱”

數字人在商業領域的崛起
隨著數字人技術的不斷成熟,國內數字人廠商也都積極探索商業化應用場景,而且都有不錯表現。本章節我們將為大家介紹數字人的主流應用場景、主要落地行業、C端用戶變現場景。

1、數字人的三種主流應用場景

目前數字人主要有三大應用場景。

第一個是圍繞類流媒體的播報場景。這類場景的人員播講內容和模式通常都比較固定,不需要太復雜的情感演繹,因此這類重復的勞動力很容易用AIGC的方式來代替。倒映有聲創始人兼CEO肖朔介紹,他們已經在融媒體新聞播報、教育培訓、醫療科普、金融、泛娛樂等場景成功應用數字人。

第二類是對時效性要求比較高的,比如過往一些行業的視頻節目內容從完成初稿到節目播出可能需要至少花5-6個小時,期間還要經歷審核校對等多個復雜流程,并且人力在這個過程中也有很多不可為的點,必須一個新聞主播,每天最多可能只能錄10-20條。

△倒映有聲數字人分身內容創作平臺

依托倒映有聲的融媒體AI數字人技術解決方案,只需10分鐘有效音畫數據采集,就可以打造1個主播的AI數字分身。在倒映有聲旗下的數字分身內容創作平臺上,只需要輸入文字,就可以一鍵生成音頻和視頻。AI主播/AI數字人可以24小時不間斷進行內容生產和播報。這也數字人的一個極具代表性的應用場景。

拓元智慧的數字人除了可以還原主播真人的外形、表情、動作和聲音,還支持多語種功能。無論在視覺效果或是語音語調上,拓元智慧數字人已具有超過95%的擬真度,整體表現與真人無異甚至超越真人主播。真正實現一個運營頂一個團隊,孵化并管理多個IP,極大地降低制作成本,10倍以上提高效率。

第三種是短視頻、直播帶貨這樣的娛樂場景。數字人能為小B或者大C類用戶提供低成本的代替他們的人工在長尾的時間段去進行內容的持續化輸出。拓元智慧數字人直播產品,可以隨時代替真人主播出鏡,通過AI自動編排話術模塊,搭載智能對話問答系統,實現7*24小時直播,輕松獲得閑時流量收益。

2、數字人的主要落地行業
元境科技創始人王智武表示數字人在以下幾大賽道有天然優勢。第一個是直播。比如在娛樂直播方面,娛樂直播通常需要主播具備很多的才藝,而生成式AI技術應用到數字人后,數字人相當于自帶才藝了,并且AIGC技術還在不斷迭代,生數據的效果越來越好,在這方面會很有潛力。

另一點就是虛擬人數字人可以24小時不間斷直播、和個性化定制,能夠聚焦更多人群,同時可以通過技術手段進行批量生產,橫向和縱向擴展性很強,現在很多企業和團隊就在應用我們的元享平臺的智播模塊進行直播,效果很不錯,并且虛擬人數字人的直播模式是批量可復制的,因此一旦能成功,便會給企業降本增效帶來很明顯的變化。而且這個賽道的核心競爭優勢不是技術,而是對業務和場景的編排能力。

第二個賽道是AI虛擬人教育。目前很多高校都有在這方面加強投入的意愿。以元境科技目前己上線的“元趣”產品為例,它可以基于真人圖像深度學習然后生成2.5D虛擬人,然后只需要輸入文本或者生成文本,它就能夠按照文本開始說話,而且不需要真人去驅動。這個技術更可以規模化應用在老師教學場景中。
第三個賽道是文旅行業。全國各地的旅游景點圍繞智慧導游、智慧伴游、數字博物館等場景都有很強的需求。元境科技也在加緊這方面的布局。
此外還有律所、保險和To G行業也有大量需求。目前元境科技已經在教育、文旅行業,還有跟一些大的消費品牌、新能源汽車等都有成功落地經驗。
創想數維CEO吳未告訴非凡產研,除了文旅行業,創想數維還跟MCN機構和一些agency共同有很多應用和探索。而且體驗過的客戶都反饋很好,能有效降低他們制作內容的時間和預算成本。
宙予科技將自己定位成“幫助電商平臺和消費品牌邁入元宇宙的基礎服務商”,宙予科技創始人朱峰認為,品牌不一定需要元宇宙,但一定需要流量,而元宇宙能夠為品牌帶來新的流量。而電商平臺里本身就有很多流量。因此宙予科技的打法非常獨特,他們把元宇宙直接放進流量核心,也就是電商APP里面。以此為基點,形成“人”“貨”“場”三方面的服務。
宙予科技打造的24小時AI虛擬主播,一方面可以很好地進行產品的介紹,另一方面可以回答消費者的問題,未來虛擬主播的能量可以在“場”里面得到進一步的釋放。
拓元智慧總經理黃偉鵬則表示,除了新聞資訊類和醫學、教育、財會等泛知識類博主,企業售前售后服務、本地生活等領域也需要AI數字人的加持。拓元智慧從數智人視頻到直播的一站式創作,直擊傳統視頻和直播中效率低、成本高等痛點,讓內容創作者專注腳本創作及營銷策略優化,幫助個人和商家構建全新的數智化運營模式,通過數字人大眾化解放生產力。
3、數字人的C端用戶變現場景
除了服務B端客戶之外,倒映有聲和元境科技還都有面向C端用戶的產品和服務。
對于同樣有制作數字人需求的C端用戶,倒映有聲提供了一個數字分身內容創作平臺,平臺上擁有豐富的通用型服務型數字人來支持C端用戶制作數字人。
元境可以則分別有“元享”和“元趣”兩個C端產品版本,分別是3D和2D產品形態。并且“元享”即是平臺又是產品,將來還會為C端開放免費捏臉系統。“元趣”目前以小程序為主,主要是一款針對方便轉播的2C用戶的免費應用。

創想數維也計劃推出一些針對C端用戶的產品和解決方案。例如快速從2D草圖生成3D場景,全面實現剪輯、調色和燈光等方面的 AI 自動化,從而完全擺脫中之人或人為操作。

生成式AI技術讓數字人“活”起來

數字人雖然已經誕生了很長時間,但其長期以來被吐槽最多的就是大部分數字人都過于呆板,除了表情和姿勢過于僵硬之外,還完全沒法與用戶個性化,甚至實時互動。一項數據表明,人和人之間55%的交流靠肢體語言,38%靠語調,只有7%是靠語言。因此數字人的互動能力對提升用戶體驗非常重要。而隨著生成式AI(Generative AI)技術的爆發,將會很好的賦能數字人,極大提升數字人的生動力。

1、生成式AI技術是提升數字人交互能力的拐點

一知智能CTO李一夫認為生成式AI技術是提示數字人交互能力的一個重要技術拐點。但目前面臨的主要問題在于生成式AI通過大模型形成答案的速度還比較慢,而交互場景對于實時性的速度要求又非常高,所以當前生成式AI還不能直接運用到數字人的交互上,這個也是未來需要大模型去解決的問題之一。目前一知智能在產品上也在研究如何提高接入大模型以及生成式AI的能力,大模型如果能在響應速度上得到飛躍的提升,那數字人的發展將會迎來很大進步。

元境科技創始人王智武認為,目前行業內的一些數字人交互能力還不夠強主要有以下幾個原因,首先因為語料庫特別少,比如在10個人同時提問一個問題的場景中,AI產出的答案永遠只有一個,這樣給人的感覺就是新鮮感特別低,我們也是通過自建語料庫去改善重復度高的這個問題。
其次,在智能問答的應用場景中,數字人的表情、神態、動作都比較僵硬,給人很假的感覺。
第三,在聲音選擇上,虛擬人之前是沒有辦法去模擬情緒的。元境在這塊下了很大的研發力度,請很多的專家和大牛組成技術團隊,攻克數字人交互中的核心難點,通過AIGC和預訓練大模型以及龐大的動作數據庫才實現了近乎真人的交互表現效果。
如果今后其他團隊和公司想要提升數字人交互能力,可以嘗試自建語料庫和在大模型、AIGC這塊下功夫,實現百分之90的相似度是可以做到的,攻堅到百分之百的相似度是行業內所有人的共同目標。
隨著生成式AI技術的進步,尤其有了ChatGPT這樣的語言大模型,就能支撐數字人的回答變得多樣性且具備擬人語氣。另外生成式AI技術也將會讓數字人在聲音訓練、表情模擬以及情緒表達上有很大的飛躍。比如過去以文本驅動虛擬人嘴型的模式會讓發聲顯得僵硬,而現在要驅動虛擬人很好表達情緒的話,則是會用audio2face技術用聲音驅動唇形及面部表情,通過情緒的判斷及傳遞實現虛擬人的情緒表達,虛擬人也因此給人感覺更逼真。

2、生成式AI技術如何賦能數字人

拓元智慧聯合創始人黃偉鵬介紹,目前元分身平臺的數字人已經可以通過AIGC技術在短視頻、直播和一對一服務等場景中直接生成,并且可以與用戶進行智能互動。例如,在直播中,可以解析用戶的彈幕內容并直接回答他們的問題。在短視頻創作中,設有AI文案功能,幫助運營者生成文案或改寫文案,極大減輕視頻工作者的創作壓力。

同時,在互動客服、業務引導等方面,元分身也可以實現實時的一對一驅動,將ASR轉化為NLP,進而生成答案并合成語音,在前端輸出時還可以進行面部表情、手勢等交互操作。通過這些技術優化,可以明顯提示數字人的交互能力。

創想數維CEO吳未表示數字人制作流程一般包括設計、建模制作、驅動和運營環節。在這個流程中,就可以應用大量的人工智能算法和模型,來加快速度。同時,生成式AI也能使數字人的響應更加智能化,更符合人類特性。舉例來說,以前數字人驅動一般需要構建知識圖譜,然后將其制作成語音庫和動作庫,只能回答知識圖譜范圍內的問題。但有了大語言模型,只需要組合其他組件,如文字轉語音、語音轉動作、表情庫和動作庫,就能生成一個可以響應任何問題的智能化AI驅動程序。因此,我們可以像搭樂高積木一樣,將各種人工智能組件拼接起來,以更低的成本獲得更好的數字人驅動效果。

宙予科技創始人朱峰表示數字人的交互一般指的是視覺、聽覺和觸覺三方面。這三個方面目前都有不同的公司在做。而觸覺的提升還屬于超早期的階段,現階段暫時還沒有已經能夠落地的方案出來。在視、聽覺這兩塊,已經有很大進展。尤其在聽覺方面,小冰、科大訊飛,阿里等企業都在努力克服TTS(Text To Speech)生成的語言的連貫性和情緒問題。

目前數字人已經都能很流暢平靜的表達,但在聲音的抑揚頓挫,音量變化方面仍然有很大提升空間。尤其是人類的情緒變化很多變,語言常常很難準確表達,如何精確培訓數字人具備這一敏感度,將會有很大挑戰。

再說圖像領域,目前一個趨勢是傳統計算機圖形學的動搖甚至消亡。原來的計算機圖形圖像學指的是mesh和texture的體系,就是每一個電腦動畫要先建出來模型,模型上面有蒙皮,然后兩個東西加在一起才有了傳統的模型。后來有了神經網絡輻射場(Nerf),然后通過Nerf去做三維空間,從點、云和三角片狀的一些非常零散的呈現面,去表現一個非常真實的立體空間的折射反射現象。它雖然和以往的三維模型加材質工作流不完全兼容,但在UE里面已經實現將Nerf模型直接放入傳統工作流形成的環境中直接渲染的案例了,不做動畫的話,效果甚至不錯

所以最近的一個技術熱點就是把Nerf本身的呈現方式還原成點云,然后再進一步地還原成傳統的mesh和texture去和它兼容,試著做動畫的打通。這還是對于以往的流程的一種改良。但是目前過prompt就能實現文生圖的技術,對于傳統流程非常大的顛覆性,意味著幾毫秒就能實時生成一堆圖。在現在 AGI技術大流行的前提之下,將來整個傳統三維的實時渲染工作流將可能全部被革新,這是未來的虛擬人可以走的三條路。

2、生成式AI將帶來數字人的交互場景創新

一旦數字人的交互能力有很大進步之后,將會為下面幾個場景的用戶體驗帶來很大的提升。

倒映有聲創始人兼CEO肖朔認為,數字人交互能力落地后首先帶來改變的就是,可以解決游戲場景中NPC角色配音問題,以及讓NPC擁有更豐富的互動能力,產生不一樣的文本響應,尤其對于一些養成類游戲的用戶體驗的提高將會帶來很大幫助。

第二類是對短視頻領域的AI直播帶貨場景將會有很大優化。現在的AI數字人直播技術依然有很明顯的缺陷,比如說虛擬主播手上不能拿商品,而且沒有真人主播那么及時的響應速度,所以目前虛擬主播還很難替代真人。但如果虛擬主播的交互能力得到很大提升之后,再加上虛擬主播可以24小時在線,這將會為直播帶貨行業帶來革命性變化。

第三種是對一些功能性場景的體驗和能力優化。比如AI老師,AI券商分析師早期可能只能單純地做內容輸出,后面交互技術提升了就能接入比如實時問答系統,可以及時回答用戶的專業問題。后面他會接上一些。我們其實是叫做問答系統。

但目前整個的渲染技術,包括虛擬人的形象等還需要再去提升,因為客戶端的體驗非常重要。在做交互之前,第一步要先要把畫面呈現達到一定水平,再結合交互,這樣才能夠真正產生商業化的價值。尤其大品牌會要求虛擬人跟自己的品牌形象和品牌調性高度契合,所以對此要求會比較高。

國內數字人和生成式AI技術的發展現狀和機遇

國內外在數字人和生成式AI技術領域內的差異顯而易見,只有正視自身短處,才能找到前進動力和方向。采訪嘉賓們也分別為我們介紹了目前國內在技術、商業化方面的短板在哪里。

1、數字人要克服的挑戰和難點

倒映有聲創始人兼CEO肖朔認為,數字人的技術離天花板尚有很遠的距離,雖然大家要面臨很多挑戰,但也意味著大量的創業公司依然有很多機會窗口。他說,以3D數字人和2D數字人兩種技術解決方案為例, 3D數字人的技術能夠做到很高端精細的效果,但是財務成本、時間成本、人力成本都很高,那么,破局之道就是解決成本問題。而對于同倒映有聲一樣深耕 2D 數字人技術解決方案的公司來說,核心競爭力則是要在人物動作的復雜度上不斷加強,更擬真、更細化、更交互、更有情感,以及模態的更深融合,都是需要進一步投入研發的。

創想數維CEO吳未認為國內數字人技術面臨以下幾大挑戰。首先,國內企業需要跟上研發的節奏,因為現在很多核心組件都需要在國外廠商那里投入資源去研發。國內的替代速度相對較慢,所以行業需要更好、更便宜的組成部件來降低整體解決方案的成本,同時周邊生態也要能跟上。

其次,需要降低流量和算力成本。這對于行業的擴張非常重要。如果有大公司愿意牽頭,建立流量和算力平臺,將有助于其他內容創意者和創意團隊更好地拓展業務。最后,客戶了解和認識新技術的速度和影響力也都需要加強,這些新技術能為因為數字內容創意行業提供有效的生產力。但距離盡快普及還有很長的客戶教育之路要走。

2、國內生成式AI技術的挑戰和難點

1)商業模式層面

一知智能CTO李一夫認為,國內的生成式AI在技術方面很多還是依賴GPT、diffusion等API或開源框架。在商業化方面,整個生成式AI中,大模型可分為“底層”跟“應用層”兩層,其中“底層”又包含大模型的“模型層”等,而目前底層模型仍存在非常大的難點需要去攻克,因此關于商業化的討論我們更多的都是針對應用層的公司。

拓元智慧聯創兼元分身平臺總經理黃偉鵬表示,這兩年處于AI技術發展的拐點,去年11月到現在,全球已經公布總計超過20個大模型產品,讓科技圈都看到了希望,除了前期需要大量的創新實踐,去探索前沿技術的商業可行性,資金支持也是必不可少的。

目前國內應用層的創業者公司主要有下面兩類,一種是自身有一定技術背景,然后依賴國外廠商API的公司,他們在垂直化模型研發的過程中,可能遇到的挑戰是大模型開放API后,固有技術壁壘的競爭優勢會受到影響,同時也會面臨訓練成本高的問題。另外一種企業可能原來是在做SaaS工具且具備業務know-how的公司,他們會在原有的產品上疊加AIGC的能力,但由于缺乏自主研發的基因,因此即便預算足夠聘請算法工程師,但在對生成式AI的理解以及產品的落地方面往往會受限,這類廠商對商業化以及大廠提供生成式AI的依賴度較高,而部分連業務knowhow也缺乏的公司,更是面臨很高的創業成本。

2)技術層面

拓元智慧聯創兼元分身平臺總經理黃偉鵬表示,最大的挑戰是在數據量和算力上。在數據量上,優質的專門數據和資金支持研發,兩者缺一不可。而在算力上,像A100大算力顯卡供應,在國內仍處于卡脖子狀態,所以國內的AIGC技術會和海外研發造成一定的差距。

創想數維CEO吳未認為,首先,發展生成式AI技術的必要條件之一就是要有優質的數據,而不是簡單的數據。然而,國內很缺乏優質的結構化數據,這是我們面臨的首要挑戰之一。其次,發展AI技術需要長期投入研發資金,這可能需要5-10年的時間,而且在此之前很大概率并不賺錢。中國資本、政策以及企業家是否有足夠的定力看到這一點,并認識到其發展的必要性將是很大的考驗。

元境科技創始人王智武強調,國內的整個數據壁壘比較高,而且在國內的整個的大環境下,受開發環境及政策的影響,數據的共享很難實現,高質量的數據也難以獲取。相比之下,國外的開發端口比較豐富,高質量數據的獲取也相對便捷。第三個問題是國外的開源社區很多,國內的開源社區特別少。第四個問題在算力方面,國內算力受限比較嚴重,一方面在硬件比如顯卡,國內外顯卡性能差距較大,另一方面在人才,國外在這方面的人才相對較多,相比之下國內相對匱乏且僅在大廠商內,這些綜合因素都造成了國內目前在AI領域相對落后等一些問題。
3)人才層面
行業人才缺乏甚至斷檔也是目前整個行業面臨的一大難題。雖然這個賽道今年才開始爆火,但其實已經存在了十多年,只不過一直都處于比較邊緣地帶。因此人才梯度有嚴重缺失,會造成短期一兩年內人才斷檔。再加上大企業招人更有優勢,因此這對獨立廠商搭建團隊將會帶來一定影響。

3、國內外行業生態差距對比

對于國內外差距對比,倒映有聲創始人兼CEO肖朔概括了三個值得關注的現象。首先,是否有健全的開源生態。鑒于海內外迥然不同的競爭格局和商業模式,國外開源生態更利于新興企業的技術崛起。其次,是否有付費習慣和付費能力。海外商業環境下,即使一家AI創業公司只做了一個簡單的模塊,依然可以產生盈利,但是國內卻很難,會快速地陷入到“價格戰”的競爭環境中,所以國內AI創業企業的生存難度遠高于國外。
第三,是否實現工具化的應用。從技術角度來說,海外目前是全面開花,工具化應用也落地更顯著。比如,基于GPT的Jasper.ai,NotionAI的營銷軟件、基于語音識別的Descript等,都已經走出了成熟的商業模式。
宙予科技創始人朱峰表示,目前國際上圖形學的生成式AI技術的頂峰是生成3D模型,但目前國內外都還沒有好的解決方案,依然在嘗試通過數據集把生成式3D模型能訓練出來。而且這需要投入大量的金錢和人力成本。目前已經成熟的技術里,StableDiffusion是開源的,而Midjourney是閉源的,并且Midjourney對于圖像的生成已經到了能生成非常精致的圖片的程度,尤其第五代版本是以超寫實的,照片級的合成為主方向發展的。但是國內的技術能力還達不到這個程度,目前頂多在第四代水平。大語言模型體現出了“涌現能力”的特征,這是一種“追趕效應”的體現,領先者進化的速度和加速度都會大于落后者。現實世界里差半年時間,在人工智能的世界里可能意味著差十年,要想跟上對方步伐真的很困難。所以在這個前提之下,國內的AI圖形生成技術相比海外差距還是蠻大的。
在其他領域,比如交互領域商業化有一個非常大的難題,就是廠商對于生成答案的控制和審核的要求,國內外各有側重。漢語比較難的地方在于其本身的高維度語義呈現,可以隱藏在卷曲的語義里面。這就對每一個公司的審核能力要求很高。如果某一家公司的審核能力不夠強,其他公司調用了他們的接口,那么就很難界定責任方。意味著國內做生成式AI的公司在商業化過程中要遇到一個重要挑戰,就是要為自己說的話負責,但這個負責該如何體現,獎懲機制如何平衡等都將是很大的難題。


生成式AI技術何時走向成熟和規模化應用

元境科技創始人王智武認為生成式AI還有很長的路要走。目前的ChatGPT3.5甚至4相對來說仍只處于10%- 20%的一個基礎階段,因為未來的世界不僅僅是文本,一定是多模態,這意味著未來的生成式人工智能需要能夠處理多種數據類型,例如圖像、音頻、視頻等,成為各種各樣的形式互相穿插的技術形態。因此雖然前期會有爆發式的增長,但后面需要落實到技術沉淀中,相對增長也會變得緩慢,但越緩慢代表越來越成熟。

另外,隨著AI技術的不斷發展,雖然一些傳統的崗位可能會被淘汰,但同時又會催生出很多元宇宙中的崗位。在元宇宙的世界里面,比如基礎的程序員會被淘汰,但可能會催生出比如調試員、調優員之類的崗位,除此之外,還會衍生出元宇宙設計師、建筑師、VR/AR工程師等職業,就業種類也許會變得更多。所以我們需要更加積極地適應這種變化,發展和運用技術。另外在基礎的一些文本生成方面,文案策劃、新媒體運營這樣的崗位不一定會被代替,但生產模式可能會隨著AI技術而升級。還有就是中之人、演員行業,也會隨著AI替換技術的成熟發生很大變化,比如在元宇宙世界中進行表演,將會讓藝術變得更加天馬行空,想象力會被徹底釋放。

拓元智慧聯合創始人黃偉鵬表示,中國有數以千萬計的中小型商家,在直播帶貨的投入預算上相對有限,且能帶動直播及營銷效果的主播也比較稀缺,導致供需出現了嚴重的失衡和脫鉤現象。在這種情況下,數字人、AIGC的相關應用在直播行業是非常有前景的。區別于傳統真人直播、3D虛擬人直播方案,元分身平臺打造了具有互動體驗更真實、性價比更高、使用門檻更低、業務搭建更快捷等優勢的數智人直播方案。在團隊自研的多模態AIGC及互動平臺的技術加持下,具備“真人形象和聲音+動作多變靈動+自動問答、智能互動”能力的AI數智人主播,對比真人直播GMV超3倍,有效幫助企業打造可靠的7x24小時的超級直播間。

宙予科技創始人朱峰的觀點是,以ChatGPT為代表的生成式AI技術,大都正在經歷落地化應用前的最后一站,有了每一個行業準確的知識再進行進一步的優化之后,插件就會變得越來越多。Plugin Store也就即將是未來的App Store,隨著這個應用商店的不斷成熟,未來還會涌現出更多的基于AI的APP,這將是下一個時代的真實的落地應用的一個大前提,帶來的變革和影響會是非常劇烈的。

創想數維CEO吳未認為,隨著生成式AI技術的不斷成熟,在3到5年內,單個崗位的工作效率可能會提高5到10倍。這是第四次工業革命的開始,從今年開始就是生成式AI的時代,它將先從以服務類、文娛、內容產業為主的第三產業開始普及。當AIGC真正深入到企業的生產環節中,企業的人均產值會大幅提升。作為企業家,一定要有清醒的認識,未來可能會出現競爭對手,他們的人均產值是你的3倍甚至5倍。如果不能跟上這個趨勢,就會被淘汰。因此,現在就要開始補充這個領域的知識,全員都需要了解如何利用AI來提高公司的生產效率。

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
從“人+RPA”到“人+生成式AI+RPA”,LLM如何影響RPA人機交互?
?新壹科技連續四大重磅發布 實現AIGC業務落地全鏈路打通
從好看皮囊到有趣靈魂,數字人正迎來光榮的進化
ChatGPT研究(三)——AIGC多模態交互功能,奠定多場景商用基礎
AI為方,產業為向:京東云數字人的技術攀爬
AIGC和XR如何賦能廣電發展?
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 会理县| 滨州市| 涪陵区| 慈利县| 黎川县| 贵港市| 孟津县| 宁蒗| 花莲市| 衡山县| 山东| 昌乐县| 白河县| 昆山市| 上思县| 平谷区| 无棣县| 随州市| 武定县| 苏尼特左旗| 黄骅市| 惠安县| 蒲江县| 海原县| 翁牛特旗| 辉县市| 长寿区| 邓州市| 信阳市| 东至县| 灵宝市| 静安区| 周宁县| 鄄城县| 信丰县| 石城县| 临清市| 微山县| 夏津县| 望都县| 搜索|