免费观看一区二区三区,久久不见久久见www免费视频,国内精品久久久久精品

機器之心報道

機器之心編輯部

1 月 10 日到 11 日，機器之心「AI 科技年會」在線舉行。本次活動中，基于對 2022 年人工智能研究、技術(shù)和應(yīng)用的觀察，機器之心邀請業(yè)內(nèi)知名專家、高管及本年度深度合作企業(yè)，共同總結(jié)了過去一年人工智能的重要經(jīng)歷與成果，討論了未來 AI 的發(fā)展方向。

過去幾年，越來越多的數(shù)智人在各行各業(yè)不同場景成功「入職」，也推動更多行業(yè)體驗到數(shù)智人作為數(shù)字經(jīng)濟展現(xiàn)之一，為實體場景服務(wù)帶來的切實改變。11 日，騰訊云智能產(chǎn)品資深專家蘇丹發(fā)表了主題演講《騰訊云智能數(shù)智人》。他在演講中主要介紹了騰訊云智能數(shù)智人的發(fā)展過程、關(guān)鍵技術(shù)支撐以及基于這些關(guān)鍵技術(shù)構(gòu)建的平臺產(chǎn)品。

以下為蘇丹在機器之心 AI 科技年會上的演講內(nèi)容，機器之心進行了不改變原意的編輯、整理。

大家好，我是蘇丹，來自騰訊云智能。今天很高興有機會在這里跟大家做一個分享，題目是騰訊云智能數(shù)智人。內(nèi)容主要包括三個部分：第一部分整體介紹騰訊云智能數(shù)智人的發(fā)展過程，首先介紹市場、政策的發(fā)展背景；第二部分介紹一些支撐數(shù)智人的關(guān)鍵技術(shù)；第三部分分享一下我們利用以上技術(shù)構(gòu)建的一些平臺產(chǎn)品。

第一部分數(shù)智人的市場和政策發(fā)展。相信大家在過去一兩年都會有所察覺，整個市場發(fā)展非常火熱。隨著全真互聯(lián)網(wǎng)的發(fā)展，包括外部輸入，數(shù)字人在各行各業(yè)的落地正快速發(fā)展。IDC 在 2022 年做了一個報告分析數(shù)字人市場現(xiàn)狀和機會，里面提到 2026 年整體市場規(guī)模大概能夠達到 100 億左右。從 2021 年到 2026 年，每年增速大概能保持 60% 到 100%，整個市場發(fā)展還是很快的。未來支持達到 100 億規(guī)模的時候，數(shù)字人在各個行業(yè)快速落地會面臨規(guī)模化復(fù)制的瓶頸，因為傳統(tǒng)定制周期都比較長。

2022 年騰訊研究院也做了一個簡單的機會預(yù)測，里面提到 AI 技術(shù)已經(jīng)滲透到數(shù)字人制作全流程。隨著數(shù)字人制作流程管線化和智能化，生產(chǎn)數(shù)字人形象周期、成本和效率都會有一個很大發(fā)展。在應(yīng)用環(huán)節(jié)， AI 在感知、決策、理解以及整體交互上都有很強的應(yīng)用（后面我們也會展開介紹）。

另一方面，我們也看到過去一兩年里，數(shù)字人行業(yè)標準也在往一個比較好的方向發(fā)展 —— 很多行業(yè)，比如金融、證券、期貨等，包括諸如中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟、通信標準化協(xié)議等國家層面，都在一些環(huán)節(jié)中做了規(guī)范和引導，支撐整個行業(yè)的快速發(fā)展。

現(xiàn)在，整體回顧一下我們自己數(shù)智人發(fā)展過程中的幾個節(jié)點，以及為什么會發(fā)展到當前這樣一個形態(tài)。

其實，我們團隊最早是做對話式 AI，對傳統(tǒng)對話式 AI 比較直觀的理解是從文本對話慢慢演化到語音交互，包括現(xiàn)在智能家居和車載語音助手的形態(tài)。過去兩年（我們）也進一步發(fā)現(xiàn)，如果將數(shù)智人與交互過程結(jié)合，可以很大程度提升客戶交互體驗，因為交互的過程更自然。

比如，人跟人的交流分幾個步驟。首選，我們會感知到信息（比如，接收到對方語音、表情和動作）；然后進一步對這些信息進行理解。對于數(shù)字人來說，它背后有一些行業(yè)知識圖譜，行業(yè)知識的積累可以給出一些反饋或者回答，并做出決策，通過更自然的表達傳遞給客戶，表情、動作、姿態(tài)、整體驅(qū)動的各個層面都比較逼真。結(jié)合這些，我們將對話式 AI 與這種數(shù)字形象進行深度結(jié)合，打造一個多模態(tài)人際交互界面系統(tǒng)，提升整體服務(wù)體驗。

過去四年多，我們一直致力于探索行業(yè)場景方案，希望數(shù)智人不光是外在形象展示，還能在一些實際落地場景里助力整個行業(yè)發(fā)展。過去四年，從 2018 年做的分身技術(shù)在 RICE 大會上首發(fā)，再到傳媒、政務(wù)、金融等多個行業(yè)落地首發(fā)，以及今年面向公益特殊群體做手語直播，都在向行業(yè)輸出一些技術(shù)價值和社會責任。輸出過程中，（我們）也能看到很多同行一起朝著助力產(chǎn)業(yè)數(shù)字化的方向前進。

總體來說，我們的目標其實是在行業(yè)洞察或者是行業(yè)場景理解基礎(chǔ)上，結(jié)合一些 AI 或者人物智能技術(shù)，從技術(shù)維度上助力行業(yè)提升運營效率和服務(wù)質(zhì)量，提升客戶感受。這里面的核心就是人工智能技術(shù)的支撐。

數(shù)智人背后的關(guān)鍵技術(shù)包括哪些呢？首先，數(shù)智本身是一個非常綜合的 AI 類應(yīng)用，每一個環(huán)節(jié)都有 AI 技術(shù)的深度參與。從最開始的數(shù)智人制作，比如形象建模中就會用到很多像視覺生成或者 3D 建模、 3D 重建的一些技術(shù)。數(shù)智人的制作不只是個靜態(tài)過程，外在的包括像貼圖，骨骼綁定以及表情制作，動作生成方面也有一些挑戰(zhàn)，我們也在這里應(yīng)用了諸如騰訊在游戲領(lǐng)域的一些積累和技術(shù)。

在驅(qū)動技術(shù)上，包括從文本或者語音進行數(shù)智人的口型、表情以及動作驅(qū)動，也綜合利用了騰訊內(nèi)部多個 AI 實驗室（比如騰訊優(yōu)圖實驗室、騰訊 AI lab 等）能力。在對話能力上，我們沿用了與智能的 AI 對話能力，有行業(yè)知識圖譜、自然語言理解、決策智能等方面。整體而言，它其實是一個 AI 綜合類應(yīng)用，而且對 AI 各維度技術(shù)都有一個比較強的要求。

首先，在數(shù)智人定制環(huán)節(jié)，我們重點介紹一下當前的照片建模。大家都知道一些照片建模能力，傳統(tǒng)（方案）一般是 CG 。這種方案一般會分為幾個過程：方便拿到圖片之后制作 3D 模型，再做一些融合不變形，再結(jié)合一些毛發(fā)、衣服等，做完之后再做一些貼圖材質(zhì)制作，再做綁定。生產(chǎn)一個數(shù)智人的周期一般要 2 -3 個月，這個周期還是一個比較理想的狀態(tài)。現(xiàn)在也有比如像相機陣列的掃描方式，這種方式成本或者硬件成本相對比較高。

我們當前做的一個技術(shù)（如下圖左邊）是，通過一個人幾張不同角度照片就能快速建模成一個比較寫實的數(shù)智人。這里面通過一些 AI 手段進行幾何重建、紋理重建，包括融合變形的一些制作技術(shù)，再結(jié)合一些人工的后處理，比如在口腔或者肢體里面做一些后處理。基本上 1 - 2 個人力一周時間就能做出比較理想的效果。

另外，在 2D 數(shù)智人定制方面，我們最近也發(fā)現(xiàn)一個趨勢，就是對傳統(tǒng)主播的打造。在制作這種比較精品形象的時候，一般會到專業(yè)錄影棚進行數(shù)據(jù)采集，時間成本會比較高。我們一般會要求主播錄制差不多一天左右的素材，進行整體采集。

但是，目前在企業(yè)里面，尤其像保險或者一些銷售行業(yè)，對數(shù)智人定制規(guī)模有非常大的需求。比如，他們基本上會每周發(fā)送若干個視頻給客戶，做一些最新內(nèi)容的講解。為了支撐這樣一個大規(guī)模定義需求，隨著視覺生成技術(shù)的不斷迭代優(yōu)化，我們最新構(gòu)建的方案只要錄制一個兩、三分鐘的視頻，通過我們的一些端到端技術(shù)，就可以快速構(gòu)建一個 2D 數(shù)智人形象。在后續(xù)使用過程中，只要輸入一些文本，我們就可以通過 TTS 和同步口型生成，打造一個一模一樣的數(shù)智人分身。這里可以看一下效果。大家能看到，這里的聲音、形象跟真人差異不太大。

右圖數(shù)智人的播報內(nèi)容：「你好，查詢到您在 **** 投保了終身壽險，我們本次來電是做續(xù)保回訪的。是這樣的，您在我司購買的終身壽險馬上就要到期了，本期保費 **** 元，為保障您的保單權(quán)益，請您在銀行尾號為 **** 的銀行卡存入足夠的余額，我司將于 11 月 18 日開始扣款。」

除了前面介紹的形象定制之外，驅(qū)動技術(shù)是讓數(shù)智人能夠真正活起來、動起來的核心技術(shù)，目前普遍支持文本或者語音驅(qū)動。在騰訊內(nèi)部，早在 2019 年，騰訊就在端到端的語音合成模型基礎(chǔ)上，提出了一種改進的顯示時長的合成模型，不僅能夠杜絕端到端模型的一些重復(fù)或者漏字問題，我們還在此基礎(chǔ)上進一步構(gòu)建了一個多模態(tài)的數(shù)字驅(qū)動合成框架。

在幾個大的系統(tǒng)里面，輸入一個文本，系統(tǒng)會從文本提取各種各樣信息（包括表情感、重音位置、動作、激動程度等等），通過多模態(tài)生命系統(tǒng)將這些信息合成真人或驅(qū)動 3D 卡通數(shù)字人形象。近幾年， AI 驅(qū)動技術(shù)在多個方面持續(xù)優(yōu)化和迭代。

比如，語音合成已經(jīng)能夠支持多風格、多情感，能夠合成更豐富表現(xiàn)力的語音，能通過 SML 一些標識語言進行靈活、全方位細膩度的控制；在口型驅(qū)動方面，目前口型也更逼真準確，支持主流 ARKit，還有一些新的 metahuman 標準；音頻驅(qū)動可以擴展到更多語種方言，對口語化和噪聲等問題更加魯棒；在動作生成方面，我們構(gòu)建了龐大的動作庫，已實現(xiàn) AI 自動動作預(yù)測。

接下來介紹幾個主要方面的效果提升。首先，針對 ARKit，它一個標準的口型驅(qū)動方案，因為目前 ARKit 仍然是一個比較常見的，使用比較廣泛的主流標準。

metahuman 是近兩年來一個效果非常好的超寫實數(shù)智人方案。它有著很多優(yōu)勢，比如非常高效便捷，制作過程也非常簡單。我們針對 metahuman 控制器實現(xiàn)了一個新的口型驅(qū)動方案，能支持對于骨骼融合變形法線綜合控制，通用性也比較好。

隨著 3D 數(shù)智人廣泛應(yīng)用于用行業(yè)場景，與真人進行交流服務(wù)，也需要更忠實、自然地去表達情感。所以，目前驅(qū)動技術(shù)一直朝著更多情感、更豐富表現(xiàn)力的（方向）發(fā)展。實際上，目前數(shù)智人的表達可以支持多種不同情感，不管文本驅(qū)動還是語音驅(qū)動。比如，我們可以從輸入的一段文本自動預(yù)測它的情感，生成帶情感的語音和面部表情。

圖注：（高興）告訴你一個好消息，我搶到我偶像演唱會門票。

進一步，我們現(xiàn)在結(jié)合騰訊一些新 NLP 技術(shù)（比如，這里面的情感分析、情感歸因技術(shù)），能夠在一段或者一句文本中進行更細粒度的表達。之前的情感作用在整段文本范圍。現(xiàn)在，同一句話也有不同程度、更細膩的變化。

動作預(yù)測和生成也是一個讓數(shù)智人變得更生動的重要技術(shù)模塊。首先，我們前期就支持 2D 形象的動作驅(qū)動。近段時間，我們在 3D 數(shù)智人方面，借助騰訊游戲部門多年積累的一些生產(chǎn)管線（比如，自研的綁定動捕動畫工具箱的一些處理工具），能快速制作、遷移一些高質(zhì)量動作動畫，構(gòu)建了大規(guī)模 3D 動作庫。同時，我們建立了基于文本進行智能動作預(yù)測和自動插入的功能。

除了 AI 驅(qū)動之外，真人動捕驅(qū)動也很重要。一般動捕方式包括傳統(tǒng)光學動捕、慣性動捕還有視覺動捕。近些年來，單目視頻動捕（單目攝像頭動捕）也受到比較多關(guān)注，因為它能提供非常輕量的面向 UGC 場景的解決方案，優(yōu)勢是操作簡單，成本也會比較低。我們也在持續(xù)提升單目視頻動捕的準確性、魯棒性、效率等。

在單目視頻動捕方面，我們這里也展示兩個工作。一個是整個三維人體姿態(tài)和形體的估計方法。另外就是適用于多場景的精準 3D 手勢姿態(tài)。

前面介紹了我們在技術(shù)上的一些提升，我們將這些能力綜合起來打造了一些平臺產(chǎn)品。這里介紹數(shù)智人產(chǎn)品云服務(wù)應(yīng)用平臺，整體架構(gòu)可以分為三層。

第一層是生產(chǎn)。生產(chǎn)包括形象、驅(qū)動中樞和多模態(tài)交互。結(jié)合形象維度，我們又拓展了一些空間方面工作，稱之為空間工坊。形象工廠又分為 2D （包括 2D 真人生產(chǎn)管線）和 3D 寫實與 3D 風格化生產(chǎn)管線。生產(chǎn)之后，會把它放到貨架上，貨架里面也會有諸如服裝、發(fā)飾等資產(chǎn)。再結(jié)合一些驅(qū)動中樞、交互能力，進行完整整合。在整合之上，我們有兩個平臺：一個是數(shù)智人內(nèi)容生產(chǎn)平臺，一個是交互數(shù)智人平臺。

剛才介紹，應(yīng)用平臺里有兩個底層平臺：一個高效的內(nèi)容生產(chǎn)平臺，還有一個是交互平臺。什么是內(nèi)容生產(chǎn)平臺？就是我們能夠快速制作數(shù)字人視頻。比如，只需要輸入演播文本，或者輸入音頻，結(jié)合音頻就可以讓數(shù)智人可以編排它的動作、形象、音色，包括服飾、配飾、姿態(tài)等，生成一個完整的數(shù)智人視頻。

交互數(shù)人平臺更多的是模擬面對面交流。我們可以選擇一個數(shù)智人（可以是 2D 真人、2D 卡通、 3D 卡通，包括 3D 超寫實數(shù)智人），選完形象之后，可以去配置衣服、發(fā)飾等。我們可以設(shè)置一個場景，建立一些智能對話 bot，編排它跟客戶的一些對話方案。

最后總結(jié)一下，目前我們騰訊云智能數(shù)智人產(chǎn)品在金融、傳媒、文旅、政務(wù)、教育、公益等幾個主要行業(yè)都已實現(xiàn)一些落地案例。未來，我們將繼續(xù)升級技術(shù)，尤其是 AI 技術(shù)，不斷擴展數(shù)智人的落地應(yīng)用，讓數(shù)智人的形象和交互更加自然、穩(wěn)定，服務(wù)成本更低、更高效。技術(shù)的演進也能不斷擴大數(shù)智人的應(yīng)用場景。

我今天分享的主要內(nèi)容就是這些，謝謝大家。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕