機器之心報道
機器之心編輯部
1 月 10 日到 11 日,機器之心「AI 科技年會」在線舉行。本次活動中,基于對 2022 年人工智能研究、技術(shù)和應(yīng)用的觀察,機器之心邀請業(yè)內(nèi)知名專家、高管及本年度深度合作企業(yè),共同總結(jié)了過去一年人工智能的重要經(jīng)歷與成果,討論了未來 AI 的發(fā)展方向。
過去幾年,越來越多的數(shù)智人在各行各業(yè)不同場景成功「入職」,也推動更多行業(yè)體驗到數(shù)智人作為數(shù)字經(jīng)濟展現(xiàn)之一,為實體場景服務(wù)帶來的切實改變。11 日,騰訊云智能產(chǎn)品資深專家蘇丹發(fā)表了主題演講《騰訊云智能數(shù)智人》。他在演講中主要介紹了騰訊云智能數(shù)智人的發(fā)展過程、關(guān)鍵技術(shù)支撐以及基于這些關(guān)鍵技術(shù)構(gòu)建的平臺產(chǎn)品。
以下為蘇丹在機器之心 AI 科技年會上的演講內(nèi)容,機器之心進行了不改變原意的編輯、整理。
大家好,我是蘇丹,來自騰訊云智能。今天很高興有機會在這里跟大家做一個分享,題目是騰訊云智能數(shù)智人。內(nèi)容主要包括三個部分:第一部分整體介紹騰訊云智能數(shù)智人的發(fā)展過程,首先介紹市場、政策的發(fā)展背景;第二部分介紹一些支撐數(shù)智人的關(guān)鍵技術(shù);第三部分分享一下我們利用以上技術(shù)構(gòu)建的一些平臺產(chǎn)品。
第一部分數(shù)智人的市場和政策發(fā)展。相信大家在過去一兩年都會有所察覺,整個市場發(fā)展非常火熱。隨著全真互聯(lián)網(wǎng)的發(fā)展,包括外部輸入,數(shù)字人在各行各業(yè)的落地正快速發(fā)展。IDC 在 2022 年做了一個報告分析數(shù)字人市場現(xiàn)狀和機會,里面提到 2026 年整體市場規(guī)模大概能夠達到 100 億左右。從 2021 年到 2026 年,每年增速大概能保持 60% 到 100%,整個市場發(fā)展還是很快的。未來支持達到 100 億規(guī)模的時候,數(shù)字人在各個行業(yè)快速落地會面臨規(guī)模化復(fù)制的瓶頸,因為傳統(tǒng)定制周期都比較長。
2022 年騰訊研究院也做了一個簡單的機會預(yù)測,里面提到 AI 技術(shù)已經(jīng)滲透到數(shù)字人制作全流程。隨著數(shù)字人制作流程管線化和智能化,生產(chǎn)數(shù)字人形象周期、成本和效率都會有一個很大發(fā)展。在應(yīng)用環(huán)節(jié), AI 在感知、決策、理解以及整體交互上都有很強的應(yīng)用(后面我們也會展開介紹)。
另一方面,我們也看到過去一兩年里,數(shù)字人行業(yè)標準也在往一個比較好的方向發(fā)展 —— 很多行業(yè),比如金融、證券、期貨等,包括諸如中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟、通信標準化協(xié)議等國家層面,都在一些環(huán)節(jié)中做了規(guī)范和引導,支撐整個行業(yè)的快速發(fā)展。
現(xiàn)在,整體回顧一下我們自己數(shù)智人發(fā)展過程中的幾個節(jié)點,以及為什么會發(fā)展到當前這樣一個形態(tài)。
其實,我們團隊最早是做對話式 AI,對傳統(tǒng)對話式 AI 比較直觀的理解是從文本對話慢慢演化到語音交互,包括現(xiàn)在智能家居和車載語音助手的形態(tài)。過去兩年(我們)也進一步發(fā)現(xiàn),如果將數(shù)智人與交互過程結(jié)合,可以很大程度提升客戶交互體驗,因為交互的過程更自然。
比如,人跟人的交流分幾個步驟。首選,我們會感知到信息(比如,接收到對方語音、表情和動作);然后進一步對這些信息進行理解。對于數(shù)字人來說,它背后有一些行業(yè)知識圖譜,行業(yè)知識的積累可以給出一些反饋或者回答,并做出決策,通過更自然的表達傳遞給客戶,表情、動作、姿態(tài)、整體驅(qū)動的各個層面都比較逼真。結(jié)合這些,我們將對話式 AI 與這種數(shù)字形象進行深度結(jié)合,打造一個多模態(tài)人際交互界面系統(tǒng),提升整體服務(wù)體驗。
過去四年多,我們一直致力于探索行業(yè)場景方案,希望數(shù)智人不光是外在形象展示,還能在一些實際落地場景里助力整個行業(yè)發(fā)展。過去四年,從 2018 年做的分身技術(shù)在 RICE 大會上首發(fā),再到傳媒、政務(wù)、金融等多個行業(yè)落地首發(fā),以及今年面向公益特殊群體做手語直播,都在向行業(yè)輸出一些技術(shù)價值和社會責任。輸出過程中,(我們)也能看到很多同行一起朝著助力產(chǎn)業(yè)數(shù)字化的方向前進。
總體來說,我們的目標其實是在行業(yè)洞察或者是行業(yè)場景理解基礎(chǔ)上,結(jié)合一些 AI 或者人物智能技術(shù),從技術(shù)維度上助力行業(yè)提升運營效率和服務(wù)質(zhì)量,提升客戶感受。這里面的核心就是人工智能技術(shù)的支撐。
數(shù)智人背后的關(guān)鍵技術(shù)包括哪些呢?首先,數(shù)智本身是一個非常綜合的 AI 類應(yīng)用,每一個環(huán)節(jié)都有 AI 技術(shù)的深度參與。從最開始的數(shù)智人制作,比如形象建模中就會用到很多像視覺生成或者 3D 建模、 3D 重建的一些技術(shù)。數(shù)智人的制作不只是個靜態(tài)過程,外在的包括像貼圖,骨骼綁定以及表情制作,動作生成方面也有一些挑戰(zhàn),我們也在這里應(yīng)用了諸如騰訊在游戲領(lǐng)域的一些積累和技術(shù)。
在驅(qū)動技術(shù)上,包括從文本或者語音進行數(shù)智人的口型、表情以及動作驅(qū)動,也綜合利用了騰訊內(nèi)部多個 AI 實驗室(比如騰訊優(yōu)圖實驗室、騰訊 AI lab 等)能力。在對話能力上,我們沿用了與智能的 AI 對話能力,有行業(yè)知識圖譜、自然語言理解、決策智能等方面。整體而言,它其實是一個 AI 綜合類應(yīng)用,而且對 AI 各維度技術(shù)都有一個比較強的要求。
首先,在數(shù)智人定制環(huán)節(jié),我們重點介紹一下當前的照片建模。大家都知道一些照片建模能力,傳統(tǒng)(方案)一般是 CG 。這種方案一般會分為幾個過程:方便拿到圖片之后制作 3D 模型,再做一些融合不變形,再結(jié)合一些毛發(fā)、衣服等,做完之后再做一些貼圖材質(zhì)制作,再做綁定。生產(chǎn)一個數(shù)智人的周期一般要 2 -3 個月,這個周期還是一個比較理想的狀態(tài)。現(xiàn)在也有比如像相機陣列的掃描方式,這種方式成本或者硬件成本相對比較高。
我們當前做的一個技術(shù)(如下圖左邊)是,通過一個人幾張不同角度照片就能快速建模成一個比較寫實的數(shù)智人。這里面通過一些 AI 手段進行幾何重建、紋理重建,包括融合變形的一些制作技術(shù),再結(jié)合一些人工的后處理,比如在口腔或者肢體里面做一些后處理。基本上 1 - 2 個人力一周時間就能做出比較理想的效果。
另外,在 2D 數(shù)智人定制方面,我們最近也發(fā)現(xiàn)一個趨勢,就是對傳統(tǒng)主播的打造。在制作這種比較精品形象的時候,一般會到專業(yè)錄影棚進行數(shù)據(jù)采集,時間成本會比較高。我們一般會要求主播錄制差不多一天左右的素材,進行整體采集。
但是,目前在企業(yè)里面,尤其像保險或者一些銷售行業(yè),對數(shù)智人定制規(guī)模有非常大的需求。比如,他們基本上會每周發(fā)送若干個視頻給客戶,做一些最新內(nèi)容的講解。為了支撐這樣一個大規(guī)模定義需求,隨著視覺生成技術(shù)的不斷迭代優(yōu)化,我們最新構(gòu)建的方案只要錄制一個兩、三分鐘的視頻,通過我們的一些端到端技術(shù),就可以快速構(gòu)建一個 2D 數(shù)智人形象。在后續(xù)使用過程中,只要輸入一些文本,我們就可以通過 TTS 和同步口型生成,打造一個一模一樣的數(shù)智人分身。這里可以看一下效果。大家能看到,這里的聲音、形象跟真人差異不太大。
右圖數(shù)智人的播報內(nèi)容:「你好,查詢到您在 **** 投保了終身壽險,我們本次來電是做續(xù)保回訪的。是這樣的,您在我司購買的終身壽險馬上就要到期了,本期保費 **** 元,為保障您的保單權(quán)益,請您在銀行尾號為 **** 的銀行卡存入足夠的余額,我司將于 11 月 18 日開始扣款。」
除了前面介紹的形象定制之外,驅(qū)動技術(shù)是讓數(shù)智人能夠真正活起來、動起來的核心技術(shù),目前普遍支持文本或者語音驅(qū)動。在騰訊內(nèi)部,早在 2019 年,騰訊就在端到端的語音合成模型基礎(chǔ)上,提出了一種改進的顯示時長的合成模型,不僅能夠杜絕端到端模型的一些重復(fù)或者漏字問題,我們還在此基礎(chǔ)上進一步構(gòu)建了一個多模態(tài)的數(shù)字驅(qū)動合成框架。
在幾個大的系統(tǒng)里面,輸入一個文本,系統(tǒng)會從文本提取各種各樣信息(包括表情感、重音位置、動作、激動程度等等),通過多模態(tài)生命系統(tǒng)將這些信息合成真人或驅(qū)動 3D 卡通數(shù)字人形象。近幾年, AI 驅(qū)動技術(shù)在多個方面持續(xù)優(yōu)化和迭代。
比如,語音合成已經(jīng)能夠支持多風格、多情感,能夠合成更豐富表現(xiàn)力的語音,能通過 SML 一些標識語言進行靈活、全方位細膩度的控制;在口型驅(qū)動方面,目前口型也更逼真準確,支持主流 ARKit,還有一些新的 metahuman 標準;音頻驅(qū)動可以擴展到更多語種方言,對口語化和噪聲等問題更加魯棒;在動作生成方面,我們構(gòu)建了龐大的動作庫,已實現(xiàn) AI 自動動作預(yù)測。
接下來介紹幾個主要方面的效果提升。首先,針對 ARKit,它一個標準的口型驅(qū)動方案,因為目前 ARKit 仍然是一個比較常見的,使用比較廣泛的主流標準。
metahuman 是近兩年來一個效果非常好的超寫實數(shù)智人方案。它有著很多優(yōu)勢,比如非常高效便捷,制作過程也非常簡單。我們針對 metahuman 控制器實現(xiàn)了一個新的口型驅(qū)動方案,能支持對于骨骼融合變形法線綜合控制,通用性也比較好。
隨著 3D 數(shù)智人廣泛應(yīng)用于用行業(yè)場景,與真人進行交流服務(wù),也需要更忠實、自然地去表達情感。所以,目前驅(qū)動技術(shù)一直朝著更多情感、更豐富表現(xiàn)力的(方向)發(fā)展。實際上,目前數(shù)智人的表達可以支持多種不同情感,不管文本驅(qū)動還是語音驅(qū)動。比如,我們可以從輸入的一段文本自動預(yù)測它的情感,生成帶情感的語音和面部表情。
圖注:(高興)告訴你一個好消息,我搶到我偶像演唱會門票。
進一步,我們現(xiàn)在結(jié)合騰訊一些新 NLP 技術(shù)(比如,這里面的情感分析、情感歸因技術(shù)),能夠在一段或者一句文本中進行更細粒度的表達。之前的情感作用在整段文本范圍。現(xiàn)在,同一句話也有不同程度、更細膩的變化。
動作預(yù)測和生成也是一個讓數(shù)智人變得更生動的重要技術(shù)模塊。首先,我們前期就支持 2D 形象的動作驅(qū)動。近段時間,我們在 3D 數(shù)智人方面,借助騰訊游戲部門多年積累的一些生產(chǎn)管線(比如,自研的綁定動捕動畫工具箱的一些處理工具),能快速制作、遷移一些高質(zhì)量動作動畫,構(gòu)建了大規(guī)模 3D 動作庫。同時,我們建立了基于文本進行智能動作預(yù)測和自動插入的功能。
除了 AI 驅(qū)動之外,真人動捕驅(qū)動也很重要。一般動捕方式包括傳統(tǒng)光學動捕、慣性動捕還有視覺動捕。近些年來,單目視頻動捕(單目攝像頭動捕)也受到比較多關(guān)注,因為它能提供非常輕量的面向 UGC 場景的解決方案,優(yōu)勢是操作簡單,成本也會比較低。我們也在持續(xù)提升單目視頻動捕的準確性、魯棒性、效率等。
在單目視頻動捕方面,我們這里也展示兩個工作。一個是整個三維人體姿態(tài)和形體的估計方法。另外就是適用于多場景的精準 3D 手勢姿態(tài)。
前面介紹了我們在技術(shù)上的一些提升,我們將這些能力綜合起來打造了一些平臺產(chǎn)品。這里介紹數(shù)智人產(chǎn)品云服務(wù)應(yīng)用平臺,整體架構(gòu)可以分為三層。
第一層是生產(chǎn)。生產(chǎn)包括形象、驅(qū)動中樞和多模態(tài)交互。結(jié)合形象維度,我們又拓展了一些空間方面工作,稱之為空間工坊。形象工廠又分為 2D (包括 2D 真人生產(chǎn)管線)和 3D 寫實與 3D 風格化生產(chǎn)管線。生產(chǎn)之后,會把它放到貨架上,貨架里面也會有諸如服裝、發(fā)飾等資產(chǎn)。再結(jié)合一些驅(qū)動中樞、交互能力,進行完整整合。在整合之上,我們有兩個平臺:一個是數(shù)智人內(nèi)容生產(chǎn)平臺,一個是交互數(shù)智人平臺。
剛才介紹,應(yīng)用平臺里有兩個底層平臺:一個高效的內(nèi)容生產(chǎn)平臺,還有一個是交互平臺。什么是內(nèi)容生產(chǎn)平臺?就是我們能夠快速制作數(shù)字人視頻。比如,只需要輸入演播文本,或者輸入音頻,結(jié)合音頻就可以讓數(shù)智人可以編排它的動作、形象、音色,包括服飾、配飾、姿態(tài)等,生成一個完整的數(shù)智人視頻。
交互數(shù)人平臺更多的是模擬面對面交流。我們可以選擇一個數(shù)智人(可以是 2D 真人、2D 卡通、 3D 卡通,包括 3D 超寫實數(shù)智人),選完形象之后,可以去配置衣服、發(fā)飾等。我們可以設(shè)置一個場景,建立一些智能對話 bot,編排它跟客戶的一些對話方案。
最后總結(jié)一下,目前我們騰訊云智能數(shù)智人產(chǎn)品在金融、傳媒、文旅、政務(wù)、教育、公益等幾個主要行業(yè)都已實現(xiàn)一些落地案例。未來,我們將繼續(xù)升級技術(shù),尤其是 AI 技術(shù),不斷擴展數(shù)智人的落地應(yīng)用,讓數(shù)智人的形象和交互更加自然、穩(wěn)定,服務(wù)成本更低、更高效。技術(shù)的演進也能不斷擴大數(shù)智人的應(yīng)用場景。
我今天分享的主要內(nèi)容就是這些,謝謝大家。