《圣經》中記載著這樣的傳說,遠古人類都講一種語言,他們希望建造一座通往天堂的高塔,這就是通天塔,也叫巴別塔(Tower of Babel)。為了阻止人類的計劃,上帝讓人類說不同的語言,分成不同的民族,在語言上無法自由溝通,巴別塔計劃由此告終。
傳說有點悲涼,卻反映人類一直存在的美好夢想。重建巴別塔,也成了人類語言溝通和共識達成的象征和代名詞。現在,AI讓人類的夢想一步步走向實現。
弗雷德里克·賈里尼克
讓人類拆掉語言的樊籬,實現無障礙溝通,這項偉大的AI工程有三塊重要基石:語音識別、自然語言理解、語音合成。三塊基石是三大類技術,分別解決人類語言交流中三個問題:聽清楚別人說什么、 理解別人說什么、根據聽到和理解的去回答別人。
語音識別,主要解決“聽清楚別人說什么” 這個難題,這是AI中的重要技術領域。近年來,由于深度學習技術的應用,語音識別取得了長足進步。
1952年,貝爾實驗室的K·H·戴維斯(K.H.Davis)等人研制了世界上第一個能識別10個英文數字發音的實驗系統。1960年,英國人彼得·迪恩斯(Peter Denes)等研制了第一個計算機語音識別系統。但從上世紀50年代到70年代,語音識別研究走了彎路,那就是簡單地想電腦模擬人腦,認為必須先讓機器理解自然語言。在當時計算機能力受限的情況下,這樣的研究鮮有進展。
直到1970年后,統計語言學的出現打破了沉寂。領軍人物是IBM沃森實驗室的弗雷德里克·賈里尼克(Frederick Jelinek)。
賈里尼克用兩個隱(含)馬爾可夫模型(Hidden Markov Model)——聲學模型和語言模型來清楚概括語音識別。這個框架至今對語言處理有著深遠影響。
1999年,國際聲學、語音與信號處理國際會議(ICASSP)在鳳凰城召開,早已當選美國工程院院士的賈里尼克在大會上做了一個報告,題目是《從水門事件到莫尼卡·萊溫斯基》。這兩件事和語音都有聯系,而且兩件事的時間跨度和語音識別都同樣很長。隱馬爾可夫模型處理語音也是從1972年開始,一直到賈里尼克作報告時還在進行。隱馬爾可夫模型處理語音,一直持續到賈里尼克作報告時還在進行,而且還將延續下去。
1984年,美國國家標準及技術研究所(NIST)和DARPA決定出資開展語音識別評測標準的研究,希望能科學評估各種語音識別系統的性能。這件事影響了語音識別歷史。
德州儀器公司(TI)、麻省理工學院(MIT)和SRI合作構建了第一個聲學-音素連續語音語料庫,并制定了數據采集標準,成為世界第一個語音評測平臺。這一被稱為TIMIT的數據庫應用至今,語音識別研究者們有了評測算法的標準數據集。NIST舉辦的語音識別評測全球競賽由此開始。
語音識別所研究的數據類型歷經幾次升級,由最早的孤立詞語音發展到自然連續語音。然后,選取朗讀“華爾街雜志”(Wall Street Journal)的語音錄成標準數據庫。這個數據集的詞匯量大約為5000到20 000, “大詞匯連續語音識別”就始于此。上世紀90年代中期以后,廣播新聞這樣自發產生的連續語音、電話對話語音、豐富的語音文本、多語種語音等等也不斷加入評測,NIST大賽越來越具有挑戰性。
大賽1988年開始,1992年擴大到美國之外,成為全球大賽,劍橋大學等非美國機構,在那一年加入。1993年,劍橋大學奪取冠軍。一戰成名,劍橋語音成為全球語音識別界關注的焦點。
從1989年起,劍橋大學工程系機器智能實驗室研究組就在史蒂夫·楊(Steve Young)教授的主持下開發 “隱馬爾可夫模型工具包”(Hidden markov model Tool Kit, HTK)。HTK軟件包不是簡單的語音識別系統,而是完整的研究平臺。在這平臺上,研究者可以方便地試驗各種新式算法,搭建不同的語音識別系統。這樣,HTK很快就成為了語音識別研究事實上的標準。而擁有平臺的劍橋語音研究人員,近水樓臺先得月。
于是,劍橋大學語音識別研究在大賽中連續十年取得優異成績,許多影響深遠的語音識別技術陸續在劍橋產生,并成為后來主流經典算法,這些成就轟動了全世界,被稱為劍橋語音的黃金十年。
語音識別也逐漸開始商業化。1995年,IBM開發出離散詞匯聽寫軟件,也就是后來的語音識別軟件Via Voice的前身。IBM當時將語音識別率從70%提升到90%,同時識別詞庫的規模從幾百單詞上升到幾萬個,語音識別從實驗室走向實際應用。1997年,IBM推出了世界上第一個中文連續語音識別產品——Via Voice 4.0。該軟件成功突破連續語音、大詞匯量、非特定人的難關,據稱解決了漢語同音字多、有聲調、口音復雜等問題,可以幫助人們從鍵盤輸入中解脫出來,IBM認為這是漢字輸入的重要里程碑。
不過,中文版的Via Voice4.0剛推出,我就滿懷希望地試用了這個軟件,但感到很失望,遠沒有達到解放雙手的愿望,使人感到實用的語音識別系統還在路上。當時,我并不知道,語音識別的大師們在此幾年前已經紛紛離開了IBM。
劍橋大學的HTK語音開發平臺也開始商業化,被微軟收購。后來微軟重新把HTK核心技術的使用權送還給劍橋大學。
語音識別專家、數據魔方智慧科技CEO張晴晴博士這樣描述當時的情況:“深度學習之前,做語音識別門檻是很高的。語音識別涉及到信號處理、語音\語言建模、發音字典、解碼、后處理等等,每個模塊都足夠一個博士研究好幾年。”
在這樣的研究環境下,掌握核心算法的公司很容易形成技術壟斷。1992年創立的美國語音巨頭Nuance,2005年在納斯達克上市,一直深耕統計方法的語音技術,擁有大量的核心算法和數千件專利。蘋果Siri采用了他們的語音技術后,Nuance公司在語音識別方面的技術實力也浮出水面。手機、家電、汽車等人機語音交互產品中,大量嵌入他們的語音識別系統,客戶都是蘋果、三星這樣的知名廠商。
Nuance擅長于利用自己在語音處理方面的知識產權打擊競爭對手。用訴訟手段削弱具有創新力的對手,然后低價并購或讓其破產。很長時間內,Nuance擁有絕對話語權,整個語音行業生態是——這棵大樹下寸草不生。
學術界尋求理論突破,產業界希望打破壟斷,這樣期待的氛圍中,深刻影響語音識別的重要角色在2006年后出現了。沒錯,我說的是深度學習,或者說深度神經網絡。
2006 年的一天,西雅圖微軟研究院的研究員鄧力看到欣頓的一篇關于深度學習的論文《關于深度置信網絡的一種快速學習算法》(A fast learning algorithm for deep belief nets),眼前一亮,感到自己絞盡腦汁沒有突破的問題,欣頓輕而易舉就解決了。 2009 年,鄧力邀請欣頓到西雅圖微軟研究院一起討論,從此微軟語音識別研究轉入了深度學習方向。
谷歌稍晚了一點,但追趕得很快。出門問問公司CTO雷欣回憶,當年他在谷歌語音識別組擔任研究科學家時,2011年夏天,欣頓的博士生納瓦迪普·杰特列( (Navdeep Jaitly)來語音識別組實習,建議用深度神經網絡來替代高斯混合模型做聲學模型。短短的實習時間里,納瓦迪普在實驗中獲得了顯著超出谷歌原系統的識別結果。之后,谷歌工程師們很快將實驗工程化產品化,2012年初發布在谷歌Voice Search主產品中。這是業界首次將深度學習用于大詞匯量語音識別產品中。2012年下半年,他將深度神經網絡發布至Android JellyBean版本中,這也是業界首次將深度學習用于嵌入式語音識別產品。
微軟語音識別研究取得驚人突破。2016年10月18日,由微軟首席語音科學家黃學東博士帶領的語音團隊在權威的產業標準 Switchboard 語音識別基準測試中,實現了對話語音識別詞錯率5.9%,首次達到與專業速記員持平。這被認為是AI領域歷史性的突破。
百度也不示弱,首席科學家吳恩達立即發推特祝賀微軟的語音識別突破,同時話中有話地介紹一年前百度在中文語音識別上就達到的成績。百度的Deep Speech2的短語識別的詞錯率已經降到了3.7%,也達到或超過人類水平。
巨頭們高度重視用深度學習解決語音識別問題,帶來了產業格局的變化。美國出現了幾十家應用深度學習的語音識別技術公司。同時,專利和算法作用越來越小,場景應用能力和客戶數據資源在競爭中變得越來越重要。
在語音識別應用場景創新方面,亞馬遜的Alexa語音交互平臺非常成功。用Echo交互式藍牙音箱,語音通過內置接口,進入 Alexa平臺進行語音交互。2014年Echo推出后,兩年多時間內應用場景爆炸性增長,從同步語音數據、播放音樂發展到幾十種家電的智能家居設備控制,再發展到語音購物、語音支付、語音叫外賣、語音打車等多場景應用,亞馬遜的Alexa人機語音交互玩得出神入化。以至于有人驚呼:“這就像是試圖成為語音方面的谷歌或者語音方面的Windows操作系統,亞馬遜是要拿走整個市場。”
亞馬遜Alexa語音交互平臺
場景應用,成為語音識別的新方向,也成為創業者的新機會。張晴晴博士這樣分析語音識別的創業環境:“語音識別的門檻正快速降低。在大數據和云計算的推動下,深度神經網絡開始體現出強大的數據記憶能力,由此大大降低了語音建模難度。深度學習在數學原理上并不復雜并擁有大量開源工具,讓初學者能夠很快上手。語音行業從核心算法的壟斷,轉向對數據的壟斷和對應用場景的理解和把握。語音識別的戰場從科研界轉向企業界,這給新來者提供難得的彎道超車機會。語音識別行業創業的春天已經到來。”
而中文語音處理行業也迎來新機遇。一個很有趣的現象是,在語音領域華人專家眾多。是因為語音識別等領域研究工作十分艱苦,華人勤奮好學。此外,中文語音處理市場非常廣闊。
依托人才優勢和中文市場,伴隨中文語音技術的迅猛發展,云知聲、出門問問等新企業應運而生,一大批中國AI企業崛起。更可喜的是,除了知名中國互聯網科技公司在語音方面的進取外,以語音為特色的AI公司如科大訊飛等,也已經具備挑戰國際巨頭的能力。
在普及層面上,采用云識別的中文語音輸入系統,已經漸漸成為手機和各種應用設備人機交互界面標配,語音技術不但已經解放了雙手,還正在更廣泛進入和改變我們的生活。
重建巴別塔的第一塊基石已經深深埋下。機器已經在聆聽,它聽得越來越清楚。