文/手稿2012
4月2日舊金山,Bulid 2014微軟開發者大會,這是微軟新CEO納德拉上臺之后第一次Build大會,會上最引人關注的可能是Windows Phone 8.1和諾基亞的新旗艦Lumia 930。微軟最新的WP 8.1系統集成了智能語音助手Cortana。自此,智能語音助手成為三大移動操作系統的標配。
Cortana,取名自經典游戲Holo中的人工智能,比Siri晚到了兩年半,比Google Now晚了一年半。看起來微軟仍在iOS和Android身后拼命追趕。
微軟:領先的落后者
而實際上,微軟在智能語音交互領域比對手領先不少。上世紀八十年代開始,微軟就在語音識別領域投入重兵,此后一直是這一領域的執牛耳者。2005年從微軟跳槽到谷歌的李開復,被美國地方法院裁決禁止從事語音識別和自然語言處理相關領域的工作。李開復1988年的博士論文發表了第一個基于隱馬爾科夫模型(HMM)的語音識別系統Sphinx,被《商業周刊》評為1988年美國最重要的科技發明。
李開復當年的成果已經被逐漸超越。2012年10月,微軟副總裁拉希德在天津舉行的“21世紀的計算大會”上演示了一個人工同聲傳譯系統,他的英文演講被實時轉換成與他的音色相近、字正腔圓的中文。該系統基于2011年8月發表的一項研究成果,拉希德和微軟雷蒙德研究院的華裔科學家俞棟首次采用了深度學習(DL)模型,極大提升了語音識別的準確率。
深度學習又叫深度神經網絡,是人工神經網絡(ANN)算法的一種改進。它通過大規模的并行計算,模擬人類大腦多層次的認知神經系統,讓計算機得以學習一些目前人類才擁有的認知能力,比如識別圖片中的對象,精確翻譯語言和理解口語化的表達方式。在圖形識別和語音識別方面,深度學習展現出了巨大的優勢,這再度勾起了人們對人工智能的想像。
希望與失望的輪回
2012年,當時還在谷歌工作的李志飛,突然發現隔壁辦公室的門上用透明膠帶松松垮垮地貼上了一張紙,上面寫著“Google Brain”。這是谷歌X實驗室最新的項目,由斯坦福大學人工智能實驗室主任吳恩達(Andrew Ng)發起。該項目利用1000臺計算機進行并行計算,模擬出10億個神經節點,讓計算機得以識別一些本來只有人才能識別的對象。
和李志飛同一天加入谷歌的雷欣,此時在“深度學習之父”Geoffery Hinton一個學生的幫助下,搭建一個用于語音識別的深度學習系統。三個月時間內語音識別的準確率提高了10個百分點,以往這樣的提升通常需要一到兩年。這個結果讓谷歌很滿意,2013年他們干脆5億美元收購了Deep Mind。這家公司只有三名員工,就是Hinton和他的兩個學生,Hinton從此接手了Google Brain。這是人工智能領域的一件大事,《紐約時報》稱“深度學習讓科學家看到了希望”。
過去半個世紀,計算機科學似乎很多次看見了希望,然后又一次次墜入了失望。愛因斯坦所說過的“我學到的越多,便意識到自己不知道的東西越多”,用來形容人工智能領域的進展,是再恰當不過的。
科學家很快意識到這些樂觀都是愚蠢的,甚至連人工智能的定義都模糊起來。此后人工智能一直以來都僅僅存在于科幻電影中。不過偶爾也有喬布斯這樣的銷售天才,用以他女兒命名的電腦播放一段事先錄好的音頻,讓人覺得這和人工智能有那么一點關系,把三千美元的東西賣到一萬美元以上。這套把戲在2012年的WWDC上又被庫克玩兒了一遍,用于調侃對手三星。
大數據與云計算紅利
然而隨著互聯網的普及和計算機運算能力的爆發式提升,事情也發生了一些變化。以深度學習為例,從理論上來看,數據樣本越多效果越好。同時云計算也可以讓深度學習從實驗室里走出來,運用到更多的產品中。
3月16日下午,創新工場在中關村鼎好大廈10樓的大會議室里人聲鼎沸,在這里正在舉辦一場“深度學習與自然語言處理”的講座。臺上有百度深度學習研究院(IDL)的常務副院長余凱,還有來自中科院和清華大學的幾位研究人員。臺下有大約150名聽眾,一半來自互聯網公司,一半來自附近的幾所大學。
主持講座的李志飛沒想到這么火爆,他們三天前在微博上發出通知,結果很快就收到了300多個報名。由于這個會場本來只有100多個位子,所以他們拒絕了一半的報名,但是當天還是有20多沒有成功報名的人來到了會場,他們的簽到記錄填滿了一頁A4紙。
因此,自然語言堪稱是人機交互“皇冠上的明珠”。在圖形和語音識別領域大放異彩的深度學習,恰恰在自然語言處理這里卡了殼。清華大學計算機學院副教授劉洋和南京大學趙迎功博士在講座上提到了多個使用深度學習模型進行自然語言處理的實例,發現相比傳統的算法并沒有太大突破,很多時候甚至會出現倒退。
對這樣的結果,余凱沒有感到灰心,他建議把計算機集群和學習樣本提高一個數量級試試,并透露百度內部的一些項目已經有了不錯的結果。“Geoffery Hinton他們06年開始就在用深度學習做圖形和語音識別,一直到了12年,七年時間才實現了突破”,說到這里,余凱從沙發上站起來:“我相信用深度學習做自然語言處理,也會有這一天的。”
互聯網向左,科學家向右
互聯網行業的很多投資人和創業者都相信這一天會很快到來。正是這種信念支撐了科大訊飛200億元的市值。李志飛也被這樣的前景所鼓舞,他2012年從谷歌離職,兩手空空就拿到了百萬美元的風投,創辦了“出門問問”。他們的語音識別系統首先登陸微信服務號,后來又開發了Android版的獨立應用。今年年初李志飛又把好基友雷欣從谷歌挖來任命為CTO,拿到了千萬美元的B輪融資。他在朋友圈里寫道,“谷歌這些年的布局好像真的是為AI做準備,有點小激動”。
不管谷歌“好像是”還是“真的是”,百度都不能被落下。余凱剛剛帶了一隊人馬去硅谷,和谷歌、Facebook搶人。做過深度學習相關研究的博士生身價被爆炒到30萬美元。百度在國內也推出了“少帥計劃”,向30歲以下青年才俊開出百萬年薪,對一流科學家更是上不封頂。談起這件事情,余凱有些亢奮。他2012年加入百度,之前在NEC實驗室就在做深度學習的相關研究。在硅谷,他遇到了Facebook人工智能實驗室的負責人Yann LeCun。LeCun不無炫耀地告訴他,他在NEC的同事幾乎都被挖到了Facebook。
但是在中科院自動化所資深研究員宗成慶看來,深度學習只能解決人機交互中的一部分問題,人工智能領域還有很多其他的問題,不可能用一種算法解決。“深度學習不是什么新東西。2012年IWSLT上,李開復的師兄,阿萊克斯·韋伯就質問過俞棟為什么不引用自己20年前的文章”,說到這里宗成慶加快了語速,“在我的研究組,我不主張大家都去做深度學習,一窩蜂在人家后面追趕,幾年之后又出現一個什么新的算法,被人家一個急轉彎就甩開了”。
余凱自己也不相信五年后深度學習還會這么火熱。上周克里斯·安德森宣布設立AI XPrize獎項,旨在表彰第一個能在TED發表演講的機器人。前這位《連線》雜志主編創辦了一家機器人公司,他認為這樣的機器人至少要20年后才能到來。5年與20年之間的15年,一定會有很多的事情發生。雷欣覺得谷歌和Facebook的領導層都離開學術界太久,他們對深度學習可能有些樂觀了。
“畢竟扎克伯格本科都沒有讀完”,會場里突然冒出來這樣一句話。