“成精了!”近日,廣大網友對谷歌I/O上所展示的AI語音助手發出了由衷贊嘆。
的確,谷歌再一次讓其他企業的人工智能,看上去像人工智障。昨天,抱著對國內語音技術發展情況的好奇,觀察者網先后聯系了科大訊飛、云知聲、思必馳等語音產業龍頭企業,聽聽看他們怎么評價谷歌AI助手的表現。
先來回顧下谷歌AI助手的表現:
“我們在考慮向谷歌學習”
昨天,云知聲副總裁康恒對觀察者網表示,從谷歌DEMO的效果看,非常驚艷。
云知聲副總裁康恒。資料圖
他特意提到,谷歌應用所選擇的場景十分巧妙——由機器主導,人類來應答和完成任務。而以往大部分是機器滿足人類需求,這在實現上會更加復雜。
據他分析,谷歌出彩之處在于:1、足以亂真的自然語音合成技術,并配合自然的口語插入和節奏控制;2、預定場景下的上下文理解能力,在展示中能實現預約任務。
對于外界關心的“國內外差距”,康恒表示,谷歌在技術創新方面還是領先全球半個身位的,有很多頂尖的科學家專注在原創技術突破方面,加上數據和計算優勢,這是其他公司很難短期內超越的。
但是,國人也無需妄自菲薄。
視頻中,谷歌演示的交互對話涉及語音識別、語音合成、語義理解、自然語言生成等技術。
康恒以云知聲為例,目前這些技術均有積累和儲備。如今,AI行業均面臨著場景落地和優化才能最終實用的挑戰。
觀察者網也注意到,在I/O大會上,谷歌CEO桑達爾·皮查伊(Sundar Pichai)承認,挑戰仍然很大。
隨后,在介紹未來的發展方向時,康恒說,“目前,識別與合成技術已經日趨成熟,最難的還是自然語言理解、認知和自然語言生成,是未來幾年需要重點突破的,整個行業都是”。
事實上,在推進產業化同時,國內企業一直密切關注和跟進國內外最新的技術進展。
據康恒介紹,云知聲在深度學習、遠講識別、深度學習超算平臺等,都是國內最先實現產業化應用的。
雖然還沒有做出像谷歌DEMO中出現的系統,但他透露:“我們在考慮向谷歌學習!”
“作為宣傳者,谷歌教育用戶意義非常大”
谷歌的厲害之處在于,別人也能做到的事,它可以比別人做得更快。
昨天,思必馳對觀察者網解讀稱,谷歌展示的是未來智能語音服務的發展方向。但在特定場景中,經過大量訓練,實現谷歌AI助手的效果并不遙遠。
另一方面,與谷歌相比,由于中英文語言邏輯存在差異,國內外企業側重點也存在不同。
思必馳相關人士坦言,谷歌側重英文市場。實際上,中英文語音交互中,無論是在語法句法,還是思維邏輯都存在很大不同。
“但不同之中卻有相同”,該人士提到,“在自然語言處理等技術中,深度學習、認知計算和大數據等技術都是AI應用的基礎,也是行業共同研究和應用的對象”。
他認為,在國際上,中國的基礎研究水平屬于先進,但是離領先還有較大差距;在應用研究及實際產業應用屬于先進,與第一名沒有太大差距,甚至部分已經領先。
DEMO中,谷歌AI助手完成了預約理發和預約熱門餐廳,這兩種服務的實現都是基于實際應用場景的。
不單是思必馳,國內外語音市場,都會將這種場景下的人性化智能服務作為發展方向。
“因為語音助手的應用,必然是如谷歌那樣,讓人類變懶,讓機器更加智能。因此,谷歌今天所展示的技術并不出人意料”。
但不容忽視的是,上述人士強調,“谷歌作為宣傳者,在教育用戶方面的意義是非常大的”。
譬如,此前,谷歌推出阿爾法狗(AlphaGo),第一次將人工智能普及到普羅大眾。
“這次技術展示,再次讓用戶感受到了在語音助手的重要意義,讓人工智能技術以更為直觀的樣子呈現到大眾面前,也為人工智能消費級產品的推廣做了鋪墊”!
“多場景下,語音交互矛盾越發突出”
作為目前唯一在A股上市的語音企業,科大訊飛對于谷歌AI助手是怎樣看的?
昨天,科大訊飛對觀察者網表示,谷歌的演示視頻很好地展示了未來生活中的語音交互技術,是未來人機交互主要發展趨勢。
“本屆I/O大會上,谷歌AI助手的新功能特性,主要體現在語音交互過程中,系統回復的擬人性”。
與此同時,科大訊飛還提到了“全雙工交互”這一名詞。
據他們介紹,“全雙工交互”是指,在設備揚聲器發聲時,且不關閉麥克風的情況下,用戶可以打斷設備的播放,進行語音識別和語義理解。
為此,對方特地向觀察者網提供了一段訊飛AIUI的演示視頻:
視頻3分30秒處,演示“全雙工交互”
視頻顯示,在連續對話過程中,該語音助手不僅在發聲的同時聽懂了中文指示,而且順利完成了多項任務。
不過,正如訊飛前文所述,在擬人化方面,谷歌仍處于領先。
另據對方透露,早在2015年底,訊飛就發布了AIUI。其中全雙工交互的特性,也是本次I/O大會中谷歌助手的一大亮點。
然而,困難和挑戰總是存在的。目前,在諸多場景下,語音交互仍面臨許多矛盾。
訊飛坦言,在少量受限場景下,AI能夠實現對口語化語言的理解,并且已經實現產品的落地。
“但是隨著支持的場景越來越多,在交互中,語音識別效果和語義理解歧義性等問題越來越突出”。
事實上,對于AI的想象,我們不能僅僅停留在語音助手層面。在醫療領域,AI的腳步聲已經非常近了。
譬如,本屆谷歌I/O大會上,其AI可以在糖尿病視網膜病變和心血管風險方面幫助診斷,還能幫助醫生預測患者再次入院的可能性。
無獨有偶,今年3月,科大訊飛在生物醫學成像領域頂級學術會議ISBI舉辦的IDRiD眼底圖分析競賽中,在病灶分割的四個子項目中均躋身三甲,更是在其中最難的一項中摘得第一。
眼底圖四種病灶示意圖
科大訊飛對觀察者網指出,通過調研,高水平醫生看一份眼底圖、找到一個微動脈瘤需耗時4-5分鐘;而訊飛系統只需要5秒。并且,速度仍有優化空間。
科大訊飛醫學影像輔助診斷系統
文/觀察者網 尹哲