4月28日,GMIC(全球移動互聯網大會)2017北京站第二天,科大訊飛消費者BG執行總裁于繼棟在全球未來娛樂峰會專場帶來本次分享的演講主題《語義識別和人工智能挖掘泛娛樂產業金礦》。演講中,他認為人工智能不僅僅是個現象或未來場景呈現,而是已經實實在在落地到不同應用場景的存在。人工智能+泛娛樂產業這樣的結合,將會為娛樂場景提供更好的交互與體驗。以下,是由所長帶來的現場實錄部分。
(以下為實錄全文,AI研究所做了不改變原意的整理)
今天的主題是人工智能+共創新娛樂。人工智能這兩年非常熱。到現在為止,行業對于人工智能的定義已經基本比較明確,我們認為人工智能就是機器一個像人一樣能夠進行感知、認知、決策、執行的人工系統。人工智能經歷了61年的發展,到目前再次站在了第三次浪潮爆發的前夜。
目前科大訊飛的人工智能分三個層面:
第一個層面是運算智能;即能存會算,就是讓計算能夠存和算。典型代表就是去年AlphaGo戰勝圍棋大師的新聞。因為這樣的事件大家對人工智能產生了新的關注。運算智能方面,人類已經完全不是計算機的對手了。
第二個層面是感知智能和運動智能;這幾年非常火的語音合成和自動駕駛技術,這些都屬于感知智能的一個層面。另外一層是運動智能,比如波士頓動力他們做的運動機器。我們今天講的就是感知智能在很多領域得到應用,并且和人類的水平越來越接近,甚至在一些固定的領域比人類還厲害。但是運動智能是低于人類水平很多,所以我們更多是在感知智能方面獲得突破。
第三層面是認知智能;即認知計算和認知學習,包括邏輯知識學習、語言理解這些方面的進步。在通用領域中,計算機處于6歲小孩的水平。但是在受限的領域,比如法律或者醫療行業的計算機已經達到甚至超過專家的水平。
為什么有這樣的進步?背后原因就是深度神經網絡和大數據以及云計算的結合,這樣一個迭代能力讓技術能夠快速的進步。今天主要介紹的是最近科大訊飛在感知智能和認知智能取得的進步和成果,包括在娛樂領域的應用案例。
目前訊飛超腦提供語音交互的交互框架,利用人工智能實現虛擬大腦的作用。也就是我們常說的軟件和硬件的交互框架。語音和娛樂方式的結合目前已經有很多實際案例了,比如在閱讀領域、導航領域等。2014年科大訊飛跟高德導航已經率先上線明星音色的導航技術,在當時達到了比較好的效果。但是現在隨著人工智能的進步,我們已經可以達到真人效果甚至超過真人的效果。
這個視頻是通過語音合成學習了明星的聲音之后制作而成的。現在這個技術通過自動學習實現自動化的語音構建,而且可以達到非常自然的表現效果。
除此之外,也可以通過AI與更多娛樂休閑場景結合:
1、 AI與玩具;孩子可以與玩具之間互動,得到更多信息反饋,比如阿爾法蛋;
2、 AI與音樂;類似叮咚音箱,可以實現交流并操控智能家居;
3、 AI與影視;通過遙控器對網絡上海量視頻進行準確檢索,實現自動化;
4、 AI與游戲人物;比如狗尾草的虛擬偶像“琥珀”,她的呈現是通過3D全息影像實現的,主要是IP和用戶之間語音交流,實現虛擬養成;
5、 AI與游戲手辦;喜歡游戲的玩家很多都會有收集手辦的習慣,現在我們與金山打造智能游戲手辦,通過AI實現交互功能;
6、 AI與機器人;不僅可以實現人機交互,也可以分享音頻和視頻。
這些場景實現的背后是訊飛開放平臺不斷提供新組合和新技術的結果。目前已有很多應用安裝在近11億的終端之上。用戶對語音的接受度非常好,每天活躍用戶已超過5千萬這樣一個可觀的數量。
以上所講都是開放平臺提供的單點技術,這些技術已經落地到很多娛樂領域。我們目前是在更多垂直領域提供整體解決方案,服務更多娛樂化場景。比如現在很火的手游領域,其實有很多痛點存在:
1、 全屏彈出鍵盤——體驗差;
2、 雙手橫屏打字——效率低;
3、 游戲名詞難輸——重復改。
雖然目前有手游可以通過文字、語音來溝通,但依然不方便。比如文字溝通,難以準確表達玩家感情,無法即時傳達交流指令;語音溝通在公開場合缺乏私密性,而且很難知曉歷史消息。
綜合這些情況,我們推出了游戲語音解決方案,在游戲里說話一秒變文字、像微信一樣可以發送即時消息、或是用語音指令控制游戲對象代替手動操作、和游戲玩家語音暢聊,這些情況游戲語音解決方案都能滿足。
我們針對游戲場景優化之后,可以讓語音識別率達到98%,文字顯示達到200毫秒以內的速度。很多游戲中使用了訊飛開放平臺的游戲解決方案,使玩家的交互得到非常明顯的改善。比如西山居的《劍俠情緣手游》,在使用了語音轉文字功能之后,社交屬性得到進一步優化。現在使用語音交互的游戲玩家,有將近1千萬的數量。
會后,西山居CTO成斌在接受AI研究所采訪時也談到,自己對手游行業和人工智能技術結合之后的感受:
“游戲領域AI應用,重點在于提升游戲體驗,以及革新游戲制作工藝這2個環節。核心是體驗的提升,以強化學習代替傳統的行為樹,來打造行為更為豐富的NPC,玩家即便多次重復同一任務,也會有不一樣的新鮮感。而MMORPG還可以提供與人類玩家協同作戰的NPC,同時NLP也構成NPC的一個重要能力,有時直接在游戲內放置類似siri的游戲助手,智能客服或消遣對象將催生更多的有趣元素。制作工藝的革新,主要聚焦在如何減少藝術家做簡單重復事情上,比如圖形自動生成等,現在也可以通過GAN來實現超分辨率。”
其實有更多的暢想,比如智能的東西用在游戲模型的演進,甚至在NPC上制作更好的NPC,甚至做虛擬偶像,很多可想象的空間都是人工智能的施展空間。我們把這些游戲放在AR游戲、VR游戲、電視游戲等更多類型的游戲里面去。
最后,希望人工智能在未來的幾年能夠通過落地化的方案,為游戲、娛樂場景提供更好的交互和更好的體驗,能夠推動新的娛樂發展,我們也會持續為廣大合作伙伴去提供更好的服務。
謝謝大家!
訊飛游戲+語音解決方案
語音輸入
精準高效地將玩家的語音瞬間轉化為可閱讀的文字,免去打字輸入的束縛。方案運用科大訊飛全球領先的核心技術,超過98%的識別率,識別速度180字/分,響應時間<>
即時消息
支持玩家在游戲內發送即時語音消息,告別打字,讓玩家溝通更簡單。方案具備低能耗,小流量,高穩定等特點,IM云服務承載海量并發,速度更快,性能更好,超低延時,條條必達,同時支持消息云端存儲,玩家可以隨時復聽。
實時語音(該技術由聲網提供技術支持)
游戲內支持多人在線實時語音,網絡高可用,暢聊無壓力,高并發架構支撐日活躍千萬級實時語音,端到端超低平均延時僅 76ms,讓玩家的組隊PVP、MOBA Gank 更默契!
命令詞識別
解放雙手,游戲功能語音操控,玩家可以使用語音指令切換裝備、攻擊敵人,語音命令代替手動操作,享受更酣暢的游戲體驗。方案支持個性化定制,超過99.9%的精準識別率,業界領先。語音控制一觸即發,方便快捷!
服務保障
訊飛開放平臺推出這一套游戲解決方案,承諾提供全面的技術保障、服務保障。
1、5S集群VIP穩定性保障(99.99%)。
2、在線自助充值結算服務。
3、日流量精準統計。
4、多對一技術支持、售后服務。
訊飛游戲解決方案的10大亮點
專款游戲模型自演進
游戲接入訊飛開放平臺的語音能力或語音內容后,在游戲的運營生存周期內,訊飛開放平臺會根據這款游戲線上文本的數據,以及語音數據進行優化,保證游戲里的語音識別度越來越高。
海量自定義熱詞
支持不同類型的游戲內的專有名詞自定義。
方言識別
支持全國多達16種方言識別,針對區域進行發布語音引擎,開放識別接口,提高游戲在本地識別率效果, 有方言口音也不必擔心啦!
耳語識別
針對更高私密性交流的需要,基于手機麥克風,目前的解決方案支持嘈雜環境下小于20分貝語音輸入,悄悄話也能放心說!
語音命令操控
語音操控代替手動操作,只要說出一些特定的詞語,就可以控制游戲內對應動作的響應。
NPC發音人、虛擬偶像定制
通過訊飛提供的合成音可以為NPC定制特定的發音人。
垃圾信息質檢
基于大數據,可以對一些垃圾玩家做檢測和封殺等操作。
智能客服
基于訊飛語音系統可以在游戲系統內增加智能客服的功能,可以替代人工客服。
同聲互譯
隨著游戲行業越來越全球化,部分游戲會出現全球玩家同時玩的情況。訊飛的游戲解決方案提供中英同聲互譯的能力,與外國友人一起玩游戲毫無壓力!
海外服務
開放平臺已部署語音云服務海外版,屆時海外游戲也可以接入訊飛的語音能力。