9 位來自阿里巴巴 iDST 數據科學與技術實驗室的頂級專家,為大家奉上精彩的“NLP 快速入門實戰特訓班”。你不信?登陸 www.mooc.ai 看看就知道。
雷鋒網按:在外界看來,阿里 iDST 是一個神秘的部門,大家知道里面聚集了很多技術大牛,但是對這個部門真正在做的事情,以及其在阿里集團內扮演的角色卻不一定清楚。為此,雷鋒網對阿里 iDST 的語音專家鄢志杰博士進行了專訪,帶大家了解有關阿里 iDST 的事情,以及他們是如何看待當下最火的一些 AI 產品的。鄢志杰簡介
鄢志杰,阿里巴巴 iDST (Institute of Data Science and Technologies) 智能語音交互團隊總監。在 2015 年加入阿里巴巴前,就職于微軟亞洲研究院,任語音組主管研究員。畢業于中國科學技術大學訊飛語音實驗室,獲博士學位。
研究領域主要包括語音識別、語音合成、說話人識別驗證、OCR/ 手寫識別、機器學習算法等。在語音及文本識別領域頂級學術期刊及會議發表多篇論文,長期擔任語音領域頂級學術會議及期刊的專家評審,并擁有多項美國及 PCT 專利,目前是 IEEE senior member。
iDST 智能語音交互小組在做哪些事情?
雷鋒網:阿里 iDST 部門智能語音交互小組主要負責什么?
鄢志杰:我們這邊是智能語音交互的,包括幾個部分,通常我們講語音進和語音出。語音進就是語音識別,識別成了文字以后,就進入到我們的對話系統里,做這句話的理解。然后通過對話的形式把想要的東西傳給你,方式就是以語音的方式用機器播報出來。
比如明天天氣怎么樣,它理解了這個話,然后通過對話系統從遠端的天氣服務拿到天氣的數據,然后播報。
我做狹義的語音相關的東西比較多,比如語音識別、合成,還有通過語音做一些說話人識別驗證,包括怎么把語音在設備上落地,等等。現在我們也把語音技術在阿里云上對外輸出,這些都是我自己做得比較多的。
雷鋒網:最近你們在做什么研究工作,有什么進展或者發現?
鄢志杰:有兩個方面:
1、自然語音交互平臺。
我們覺得往后,各種智能設備,電視、機器人等等,在家里或工作場景的智能設備會越來越多,這些設備沒有鍵盤和觸摸屏,所以需要比較便捷的方式跟互聯網連接,它們本身會成為互聯網的入口,這當中語音肯定是一個比較重要的模態,可以跟它們交互。
交互的目的是什么呢?是取得互聯網上的各種服務,包括查天氣之類的信息服務,還有比如點個外賣叫個車,是一種有型社會的服務;還有一種是內容,好比說我在電視上看某一個電視節目,誰跟誰主演的電影,這種就是網絡上的內容,包括音樂、視頻。
要達成這點中間當然會要有我們所做的這套東西,就是使得用戶的意圖通過語音進來,轉化成對網上各種服務的需求,然后系統理解了以后帶給用戶。
這就是我們叫作智能語音交互的一個平臺。總結一下就是,它是連接多端,跟互聯網上廣泛的服務對接,作為中間橋梁作用的這么一個東西。
2、所有這些語音能力都會通過阿里云輸出。
鄢志杰:比如說我們有語音識別的能力,我們的合作伙伴就可以拿著這個能力去做具體的語音識別應用,例如說我們在客服和司法直播等領域,發現有很多語音轉文字(文字轉語音)的需求。
我們最開始做這樣的能力,完全是從阿里內部客服中心的需求來出發的,因為阿里每天淘寶、天貓和支付寶有很多的客服電話。之前在接服務電話時根本不知道服務質量什么樣,說得不好聽的,小二如果今天心情不好,罵了客戶幾句,根本沒辦法知道,原因是抽檢的錄音需要人工去聽,那個比例是很小的。
同時傳統的客服中心其實有很多需求,(他們)希望知道客戶每天在問什么,什么樣的問題是最近遇到的最嚴重的問題,所有這些之前只是沉睡在那個地方,沒有辦法得到挖掘。我們一開始團隊做的就是客服的任務,把語音轉成文字,后續有很多好玩的東西可以來做,像發掘用戶的心聲,還有知道小二的服務質量有沒有保證。
很有意思,像這樣的能力建設出來以后,從阿里的角度講一定是要放到更大的平臺上去幫助別人成功的。我們總是講說阿里主要是個平臺公司,所以說這樣的能力一旦放出去,我們生態里的合作伙伴就可以在別人的客服當中去搭建這樣一個東西。把語音轉成文字,做同樣的事情,甚至有人會開發出客服機器人,放前臺來自動回復用戶問題。在司法領域也是一樣,現在有合作伙伴拿著我們的能力放到法院里,代替書記員的作用。包括像直播,識別主播在說什么違規的東西等等。
總結一下,第二塊事情就是怎么把我們的能力通過阿里云對外輸出,幫助我們的合作伙伴去做具體的業務。
雷鋒網:最近有什么突破性的進展和發現?
鄢志杰:我通常不大愛用突破這個詞,因為這個行業實在是太浮躁了,芝麻小點的事都會被很多人說成是突破。我覺得我們還是比較低調跟務實的。雖然我們各種各樣的技術其實是非常領先的,不過畢竟我也是從學術界來的,所以說比較注意這方面的東西,
進展的話,講一個例子,我們一直以來語音識別有一個重要的模型叫聲學模型,就是來模擬a,o,e,b,p,m,f 是怎么發音的,這個也是提高語音識別準確率的重要手段。我們一直以來是從學術界吸收最新的成果,同時在工業界大規模的問題上把它真正發揚光大去解決真正的問題。
latendy controlled 的 BLSTM 模型
在 15 年的時候,我們第一個上了 latendy controlled 的 BLSTM 模型,叫 LC-BLSTM 模型,這個東西學術界研究比較多,但是工業界第一個上線應用的應該算是我們。
傳統 BLSTM 模型很慢,必須要等到一句話說完了才開始去做解碼,得到結果,就造成說完這句話后要等很久才能拿到結果,這當然是壞處,但為什么大家還是那么著迷呢,因為好處是精度特別高,準確程度高。我們做的工作就是能夠把識別的延遲降下來,使得它能夠在邊說話就邊解碼,而不是像以前一樣,要等到這句話結束后才能夠進行解碼,達到一個既快又好的效果。
BLSTM 進一步提升了 LSTM 類模型的建模能力
Low frame rate latendy controlled 的 BLSTM
后來我也發現一些同行,例如說 16 年底時同樣的模型他們也逐漸在上,在這之后其實我們一直在延續這條路發展,去年有個比較好的工作,是在這個基礎上發展出叫 Low Frame rate latendy controlled 的 BLSTM。
原來語音識別的幀率大約是 100 幀每秒,每秒鐘要計算100個 frame,運算量不容忽視,所以我們去年有一個方法叫 Low frame rate,把 100 幀每秒的速率,降到三分之一,相當于同樣是 1 秒鐘的語音,處理起來只需要原來運算量的三分之一了。同時保證了跟以前一樣甚至更好的精度。
我們很快把它送到我們的線上,取得一個比較好的效果,今天我們一臺服務器,能夠支持比以前更多前發的線數。剛才提到我們把這個能力去輸出,輸出對我們的合作伙伴來說成本是非常需要考慮的因素,以阿里這么大的體量,任何一件事情進來以后,客戶一多起來,機器的成本是一個重要的因素,語音識別本身又是一個比較耗成本的東西,對機器要求很高,有一個三倍的提升的話,直接把它變得更加普惠了,大家使用的門檻就大大降低了。
3月23日,阿里巴巴公布“NASA”計劃
雷鋒網:上次馬云頒布NASA計劃時,我們應邀解讀了一篇,后面我們采訪閩萬里博士的時候,他強調了AI+應用結合的側重點,這是不是后續阿里AI相關的研究部門或者小組,比如iDST 智能語音交互小組會跟應用相關的部門合作會愈加加強的一種趨勢?
鄢志杰:我一直覺得阿里是一家比較講究落地的公司,我們一直跟具體的業務落地結合比較緊密,我覺得 NASA 更多是表明了一種阿里的決心。因為阿里的業務實在是太成功了,某種程度上掩蓋了技術的光芒,因而要去讓大家更多覺得阿里是一家技術驅動的公司。
AI 這個東西,外面很喧囂,但我覺得我們沒有任何的改變,我們從來也不會特別地刻意去講AI,我們把所有跟 AI 相關的技術,從到底能夠對我們的生活,對阿里的合作伙伴,對整個社會,帶來什么樣的有益的幫助這個角度去思考。你可以說(我們是)不太吹牛,更多的務實。
講到業務落地,一個好的AI,到底能給我們的業務帶來什么樣實實在在的幫助,而不是說只是為了提升我們的股價,或者講一個故事。如果說這些 AI 能夠用到客服中心去接我們客戶的電話,直接用機器解答一些 FAQ,那不僅減少用戶排隊的時間,同時能讓我們小二的人力省下來,真正機器答不了的問題,再轉到小二那邊由人工解決,而不是空泛說用機器人全部搞定,這個現在也不現實。
所以有人說什么 AI 取代人,我從來不這么看,我覺得這些東西一定是幫助人的,讓用戶體驗更好,小二這一側工作強度更低,更少的人可以支持更多的客戶。這個是它發揮作用的地方,而不是現在就去談取代人。
“既要、還要、更要”
雷鋒網: iDST 語音部門的的定義是什么?我看知乎上有說,是為業務或者產品形成迭代支撐的技術研發部門;有明確的業務需求推動他的產生;也有通過技術部劇推動業務進展的期望;由于直屬王博士這個天然屬性,會在很大程度上用一種科學的方式推進公司技術驅動化。這些說法成立嗎?
鄢志杰:前幾天我去谷歌搜索iDST,打開前幾個搜索結果看了看。第一我感覺我們蠻低調的,并沒有一些鋪天蓋地的宣傳報道,搜索出來的信息也極為有限,蠻神秘的。二是感覺很多報道其實我在內部看來是完全錯誤的。所以就像您說的,對 iDST 本身會有不同的解讀。
我覺得,這樣挺好的,也沒有什么問題。回到您的問題:iDST 現在到底是干嘛的?阿里有一句土話叫“既要又要還要”,就是說阿里的目標通常是比較多元化的,多元化就意味著你在各個方面都要起很高的目標。
既要
第一個目標就是支持好阿里的業務和阿里生態里的合作伙伴。他們要去做一個業務,一定對我們的智能交互技術有他們的想法和需求,例如說我想要有一個聰明的機器人,說什么都能懂,這些核心技術我們一定要支持好。技術在輸出時,伙伴要求說你的準確率必須是市面上最好,這些需求我們都要去支撐,這是第一個任務。
還要
我們不是簡單地說把這些需求滿足好了就 OK,還要說這些技術是有先進性的,不僅是做到跟市面上最好的一樣好,而且在一些方面有自己的特色跟亮點。
更要
我們現在在支持那么多業務的同時,還在寫 paper,在國際的語音頂級會議、雜志上去露臉,贊助學術界的一些活動,與學術界建立比較好的關系。所以說是不能光商業上做得好,還要技術上要有說道,甚至在將來能夠起到一些引領的作用。
這個組織因為積聚了不少的博士,團隊來自各大公司的專家挺多的。我們從學校雇最好語音應屆博士生,一定是在這兩個方面有好的輸出的,偏廢哪一個都是不行的。好比說光做研究沒有產出,基本上很難講研究有多好;光做產出沒有研究,也許就顧得了當下卻失掉了未來。我們就是一個結合的部門。
發 paper 是一個副產品,是在持續想怎么 push 工業界做大規模任務的邊界,這當中會產生一些副產品分享,現在整個語音產業大家還是比較樂于去分享自己的東西,各大公司都如此。但我們并不是以寫 paper 為目標的。
雷鋒網: iDST 招人方面有什么自己的特殊方式?(外界一致所知甚少)
鄢志杰:首先,語音圈是一個特別小的圈,外人很難說立一塊牌子就說我今天要做一個語音團隊,我投入很多。如果是外人的話,很難去做這樣的招聘,所以我們此前的招聘更多還是從圈子里的口碑,以高手吸引高手的方式來招聘,雖然我們也掛了大廣告,但很少有人是看了廣告直接就來的。
說實在這個圈子實在太小了,大家互相都認識,更多是靠我們自己圈子里的口碑,大家知道你們積聚了一類什么樣的人,就能聞到你這個團隊的風格,跟他想去做的事情以及做事的方式。然后認同這樣的價值觀的人,就會自然聚攏過來,更多是以這種方式。
阿里招人要求很高,同時我們也不 crazy,不會因為你是所謂的 AI 我們就一擲千金來求人才。因為我們還是覺得這樣的人才靠這個東西不可持續。所以說可以看到我們團隊的人都是這種性格的,就是踏實做好工作,不太張揚,雖然有機會的時候也不怕去露臉,但總體來說還是不那么吵吵鬧鬧。
舉個例子,當所有人都在號稱自己的語音識別準確率 95%、97%、99% 的時候,我們是也許不多的一股清流。之前我們陳一寧有一個文章采訪他,他旗幟鮮明地喊出了語音識別的準確率脫離場景去談都是耍流氓。
我們講的 95、97、99,是在非常受控的環境下一個普通話相對比較標準沒有多少口音的人,說一些比較固定的內容。在不好的場景下,像我們在這么一個有混響的房間里,大家在激烈地爭論,有的人還有點口音,那么很容易就做到很糟糕,到文字出來看不懂程度。
雷鋒網:網上有說你們通過舉辦比賽來獲取人才,這也是一種方式嗎?
鄢志杰:對,阿里首先有一個實習生的項目,內部有一些比賽,像我所知道的,像天池大數據競賽,都會有這樣的學生來比參加,拿阿里的一些數據,把一些奇思妙想在這樣的數據上去做驗證。
我們也有像阿里星這樣的應屆畢業生計劃,對于個別好的,我們叫 A+ 的學生,面試完了可以直接到我們 Lab 的 Leader 的 level 去面談,很多人成為阿里星。
比賽的話,我想在語音特別是交互這方面很有可能會有類似的事情去做。
雷鋒網:網上我們只搜到一條阿里云 iDST 人工智能打敗全球速記亞軍的消息,里面有談到阿里云 iDST 智能語音團隊擁有世界一流的專家團隊,此次年會展示的研發成果只是冰山一角。能否介紹一下這個專家團隊的實力?
鄢志杰:怎么談這個實力呢,首先講幾個方面吧。
第一個方面,來源比較廣泛,聚齊了此前幾個組的精英力量,包括咱們有微軟來的不少同事,國際上有一個做得最大的語音技術提供商叫 Nuance,這方面的同事也越來越多了。我們還有來源于百度此前語音部門的同事,有科大訊飛的畢業生,還有高通語音方面的專家,尤其在麥克風、智能電子信號處理這方面,等等。這些就是來源廣泛。
第二個,博士、海歸的比例很高,這個我們算不算是精英團隊的表現(笑),也許吧,反正自己也不大當回事。
還有我們地域分布也是很廣泛的,北京、杭州、西雅圖,都是語音重鎮,所以也更加多元化了。
最后,還有一點就是同學們的背景跟出身也是比較廣泛的,有的人是從學術界,或是工業界的研究院出身的,有的人是從工業界產品部門出身的,工程能力強,不管是做云端的服務還是設備端的落地的東西很強。
整體來說我們做到了把所有這堆人攏到一個團隊里。說起來簡單,但在大公司里做起來很難。大公司有的說我是做算法的, 是工程的,產品部門,整個是有藩籬的,一旦有組織界限以后,這件事情就變得隔了。
跨部門,做算法的做算法,做產品的做產品,很難產生正向跟反向的反饋,我們在建立這個團隊之初就極力在避免這樣的事情。包括我們三個辦公地方,從來沒有因地域而分任何事情,比如西雅圖做什么,北京做什么。而是一個項目立起來后,三地的人都有可能會參與。這樣不會使得整體做著做著就分隔了。所以地方也好出身也好,大家的擅長也好,都融為一體,這樣子能夠把反饋閉環做得比較好。
從技術到產品,要注意的坑和細節
雷鋒網:從你們這個小組產出的成果,要應用到阿里巴巴內部某個場景時,一般會遇到哪些問題,如何解決?
鄢志杰:阿里來說,尤其在阿里云來講,基本上內外客戶是完全不分的。阿里作為一家大公司內部的需求肯定是很旺盛的,當你去滿足內部需求時,會發現這個事情干起來好像很容易,因為內部需求實在太多了。挑挑撿撿總有能夠搞定的,總能夠完成一些 KPI,但外部就不同了,外部是一個真正的市場競爭,真正的好技術一定要得到外部的認可,活下來,并蓬勃生長,才是真正比較健康的輸出。所以說,阿里云始終是不太區分內部外部的,而不是只在內部溫室里活下來。
所以,困難我覺得是說一個技術到一個產品,到一個好的產品,是有巨大的鴻溝的,不見得說有一個好的 paper。好的算法大家也的確認可,但未必能造就一個好的產品,這里面有太多的細節、坑去打磨。同時,客戶一定有不切實際的需求,我今天巴不得有一個像真人一樣的機器人,但技術是有它局限性的。
我們做技術的人,在落地的時候能夠去彌補這方面的東西,我覺得是特別重要的。一個是說技術的局限性到底在哪,哪些是可以突破,哪些是突破不了的,怎么樣去跟合作伙伴達成共識。說這個產品需要這樣那樣的技術,指標是什么,既能夠實現,又是跳著可以夠著,而不是說完全夠不著的東西。
當然,真正做一個產品,是一個全方位的技術,不是一個技術點好了就能一招鮮吃遍所有的東西,這是不太可能的。像我們語音來說不管準確率,響應速度怎么樣,對一些奇怪的Case,奇怪的問題,當你明知道答不出來時,仍然能夠顯得很智能,而不是說只是一個對不起再試一遍吧,等等。最主要的還是跟合伙伴和客戶去定義技術能夠實現的產品的邊界,能夠從產品的細節上來講,真正把一項好的技術落地下去,最終產生一個真正好用的產品,這個是比較大的困難。
雷鋒網:具體比如阿里集團客服,中間遇到的問題,以及怎么解決?
鄢志杰:客服對于我們來說關注的是識別準確率的問題,剛才講的問題都來了,業務方提一個指標,可能是個不可能完成的指標,比如95%的準確率。你知道你的技術上去的時候也許剛剛只有60、70%。
我們怎么通過對他業務的理解,知道他的話題,每天在談論什么。怎么找到好用的數據,能夠迅速地提升我們技術本身在他的場景下的準確率。最后我想我們幾乎已經做到接近他想要程度。所以一直去管理預期,然后不斷通過技術迭代把準確率做上去。
同時具體的業務很多不是一個技術可以解決的問題,譬如說一些在客服業務當中,有一些專業客服術語,這個之前我們都是不知道的。怎么通過技術的方式把這些術語的識別準確率得到提升。這個本身是一個從實際問題中的提出的一個課題。
比如,大家都知道阿里里有花名,所以每個小二都是有各種各樣的花名的,花名是非常奇怪的,今天如果拿一個通用的語音識別系統,這樣的花名是很難識別正確的。就會觸發一條規則,小二沒有正確報出自己的名字,這是不對的,因為是識別錯了。
比如說,接一個電話,“歡迎致電支付寶,我是志杰,請問有什么可以幫你的”,這是符合規范,如果識別錯了,就沒有把志杰識別對,這樣小二就很冤枉,被機器摘出來了。這里,就是怎么樣在具體的產品當中,既把別的文字都識別好,同時還特別把花名識別正確。這些都是有很多技術的東西可以去做的。
雷鋒網:咱們是研究跟產品化并行的,你們是如何判定組內的研究成果是可以轉化到成業務推動力的,有沒有一套明晰的機制來判斷?
鄢志杰:好問題。我覺得,有的公司是研發部門去推,自己先搞出一個好東西,然后去推,再看業務部門用不用這個東西。阿里呢,有點相反,業務跑得很快,更多是他們在拉,他巴不得你有什么好東西,趕緊的,甚至不成熟的東西,趕緊在我這邊去試去用。
我們作為做技術的人要有對技術的一個鑒賞力,跟一個技術的判斷眼光。您說這個怎么來的,就是牛人有這樣的眼光,經驗會幫助,你在這個行業里這么長的時間,基本上要慢慢建立起這種鑒賞力。就好像我們聽歌,有藝術家培養藝術的鑒賞力一樣,這里面有很多其實是偏藝術的成分。一個技術到底能不能真的開花結果,我們撲上這個技術,真的能不能在可見的未來能被業界廣泛的采用。這個就是靠判斷力,靠人本身的素質和經驗,我覺得也有點像藝術。
雷鋒網:你們內部會寫一個明晰的 PPT,來明確一個判斷流程嗎?
鄢志杰:沒有。不管是工業界、學術界,整個這個部門,這條線上創新很多,有的真創新,有的假創新,有的是寫個 paper 出來 claim 一下這個創新。真正哪個是靠譜的,其實各行各業我想都是這樣子的,真正哪些是靠譜的可以活的更長的技術,沒有一套之規說我有一套流程可以來 If...else,有一個流程圖來判斷,不是這樣子的。
智能語音交互,阿里的目標是什么?
雷鋒網:這兩年亞馬遜的 Alexa 很火,國內也有很多公司想做中國版的 Alexa,您覺得國內公司想要做成中國的 Alexa 需要什么樣的條件?
鄢志杰:我們自己其實在這上面也有自己的思考。說實在,這件事情的鏈條比較長,就像剛才講的有端,有自然語音交互的技術,有云端的服務,我想大家去觀察這個的話,就是去觀察:
第一,誰布局了最豐富的互聯網服務,包括電商、支付、O2O、內容,誰能把這些服務早幾年的時候 magically 放到自己的生態體系里來,那就是一種嗷嗷待哺的狀態——怎么能把服務送到客戶那里去。這是第一塊,誰布局了這些服務,而且誰是比較全的。
第二,智能語音交互的技術本身。誰在早幾年的時候 magically 想到說這個以后會是很重要的東西,開始組建團隊,把核心的技術建立起來。使得用戶對語音的訴求轉化為對服務的訴求。這個部分好多人都在做,技術參差不齊,有好的,有一般的,有接入別人的,也有自己投入的,這里就分出好多公司不同的方法來了。
第三,端。大家不要小看這個端,好像山寨音箱都可以做,不那么簡單,是說大家誰在布局一個端上操作系統。然后在這個端上要有一系列的生態合作伙伴,不光是做一個音箱,需要有電視、智能家居,機器人、汽車,等等,哪怕到一個電飯鍋。
另外,怎么樣構建一個能力,甚至是一個商業模式,使得你的這套東西,很多的端可以迅速來接入,來把一個傳統意義上的端變成一個智能的端。因為不可能做一個阿里牌電飯鍋,那怎么要想這樣的方式使得人家可以輕易接入,然后瞬間具備這么好的語音交互能力,接入那么多的互聯網服務。
我覺得從這幾個維度看,基本上就把產業鏈,或者把整個 pipeline 看全了,那無疑我在暗示說阿里在這些方面都有很好的投入。這個故事是非常的圓滿的。
雷鋒網:所以阿里的目標也是做中國版的 Alexa 嗎?
鄢志杰:這個目標是你們起的,我覺得不應該是這樣子講(笑)。阿里的目標是怎么樣方便地把互聯網豐富的服務和內容,以智能語音交互的模式,在多端上提供給我們的客戶。
雷鋒網:最近國外有一個人工智能領域的投資人 Bradfort Cross,寫了一篇文章 ,預測今年的AI創業,其中第一條就是聊天機器人(Chatbots)會遇冷,理由是:
1)人們依然喜歡與真人交流,而聊天機器人則會沿襲非社交媒體平臺那一套,突出個性化但卻缺乏社交屬性,人們依然喜歡與真人交流。
2) 與其他視覺解決方案相比,會面界面在完成任務上效率并不高。在某些情況下,會話界面確實效率挺高,但在大多數應用場景下它還是無法與其他方式相比擬。
不過,他并不認為這是“AI技術還不夠好”的原因,而是因為應用和交互的設計還不夠,不過用人工智能做出了很有趣的應用,用戶用不用又是另一回事了。
您怎么看他提出的問題呢?
鄢志杰:我是這么看的,第一,我部分同意這個觀點,就比如說現在的手機語音助手,其實分人,并不是那么的流行,有的人愛用,但我覺得比例仍然不是特別高,原因就是它本身有一個屏幕,拿手機用手點點畫畫是很方便的,從這點上我是比較贊同這個觀點的。
不同的觀點,他說其實不是技術,我覺得還是技術。今天的語音交互 ,你對他的期待還遠遠達不到說能跟真人一樣的響應水平,所以這還是一個技術問題。就好像人跟人交互時,你總不會期望他臉上有個屏幕劃來劃去,不需要 。
這種更自然的方式,現在仍然還是技術本身,他講到交互的設計,當然是一個技術。怎么把交互設計的更好,使得人愿意用 Chatbots 來對話。本身他的理解程度能怎么樣。語音識別的準確率怎么樣,他講出來的話是不是自然,還是一個像呆萌的機器人。
具體講到視覺這個策略,我倒是覺得會有一些融合的東西出來,應該是一個多模態的東西,不能全憑語音,或者全憑計算機視覺。例如說電視,家里大家都會有一臺電視,假如說有一個設備能夠隔空跟它交互,我沒有遙控器,那要選臺什么的,當然不會拿個手機來做,這是很怪的事情,現在不也有手機上安裝了電視遙控 app,叫它做一件事情,比如換臺,就能出來。
但是你說要用電視屏幕來買 個淘寶的東西,我可能先說“幫我找個吸塵器”,搜一下,再等界面出來后,再用手勢去做翻頁,然后點選。
點擊關鍵詞可查看相關歷史文章
● ● ●
近期熱門
谷歌工程師親述,TPU 為何會比 CPU、GPU 快 30 倍?蘋果對 Imagination 捉放曹,中方企業要不要買買買?小藍單車李剛:滴滴帶給我的絕望已經過去Uber 亂象大揭秘:自動駕駛團隊已陷入 “小型內戰”和平分手?你根本不知道吳恩達在百度經歷了什么重磅 | 撕掉電商標簽,還原阿里 “NASA” 的真實意圖從供應鏈的角度談談,我們真的能抵制韓貨嗎?今日頭條的引擎是怎么樣工作的?暗網買信用卡紀實:親測盜刷無門檻5G 比 4G 強在哪?看完這篇文章你就明白了最新課程