【AI100 導讀】在最近的六年當中,深度學習技術使得機器在物理世界的認知能力方面取得了巨大的進步。這只是一個開始。在未來幾年,創業公司和一般的大型科技巨頭都會使用深度學習技術,從而來改進他們一系列的現有應用程序,并創造新的產品和服務。本文作者 Aditya Singh 預測深度學習技術將徹底改變人們與技術交互的方式。
盡管溫度與聲音都是能量的表現形式,但年幼的你并不需要知道熱對流的概念。每次你的孩子碰到一個流浪動物時,他們不太可能先在大腦中去執行一個判斷動物屬性的程序,從而來判斷這個流浪動物是一只貓還是一只狗。人類大腦生來就具有認知能力,我們可以很容易地感知事物之間的區別。假如事物之間的差異很明顯,那么感知差異對我們來說是再正常不過的事情了,我們將其稱為常識。相比之下,計算機需要使用確定性地算法來一步一步地處理這些最基本的判斷。盡管幾十年來機器在速度和處理能力方面有了很大的進步,但是機器仍然不能像幼兒一樣,即使在沒有嘗試的情況下也能處理問題。直到現在,都是如此。
在最近的六年當中,深度學習技術使得機器在物理世界的認知能力方面取得了巨大的進步,該技術是受到人類大腦結構啟發,并且也是人工智能的一個分支。在 Facebook 的 AI 實驗室中,科學家們建立了一個深度學習系統,該系統可以回答一些以前從未出現過的簡單問題。Amazon 的 Echo 也使用了深度學習技術。三年前,微軟的首席研究員在中國的演講給參會者留下了深刻的印象,他在會上演示了使用深度學習技術的語音軟件,該軟件將他的英語口語翻譯成中文,然后再模仿他的發音,以一種普通話的口吻將中文說出來,誤差率只有7%。現在,該技術已經被使用在了 Windows 的移動手機和 Bing 的語音搜素上面。
世界上最強大的科技公司一直以來都在悄悄的部署深度學習系統,從而來改善他們的產品和服務,但是沒有一家公司的投資力度可以超過 Google。它將整個公司的命運都壓在 AI 上了,紐約時報如是說,Google 不但投入了海量的資源,并且聚攏了該領域眾多一線研究人員。而它也因此獲得了巨大的收益。幾年前,Google 通過使用來自于 YouTube 的1000萬個未被標記的圖片來訓練深度學習網絡,結果證明該網絡模型對圖像中對象(貓,人臉,花朵,各種魚類和其他數千個類別)的正確識別率提高了近兩倍。當 Google 在 Android 語音搜索上部署深度學習系統之后,一夜之間,語音搜索的錯誤率就下降了25%。在今年年初,另一個 Google 深度學習系統擊敗了世界上最復雜的棋盤游戲的最好的一位選手。
這僅僅是一個開始。我相信在未來幾年,創業公司和一般的大型科技巨頭都會使用深度學習技術,從而來改進他們一系列的現有應用程序,并創造新的產品和服務。完全嶄新的業務線和市場將會興起,這反過來又會帶來更多的創新。深度學習系統將變得更加容易使用并且被更加廣泛的應用。我預測,深度學習技術將改變人們與技術的交互方式,正如操作系統從根本上改變了普通人對計算機的訪問。
深度學習
歷史上,計算機通過使用確定性算法進行編程,從而來執行任務,也就是說,算法詳細的規定程序必須采取的每一個步驟。這在許多情況下,我們的程序都可以很好地執行任務,比如說從執行復雜的計算,到擊敗國際象棋大師。但是在有些情況下,我們無法確定算法,例如面部識別,情緒識別,問答系統等等。
假如我們通過手動編程的方式來處理臉部與音位(這兩個對象都具有無數的屬性)那么我們的工作量將是巨大的。此外,我們的機器也無法處理那些不符合程序要求的參數類型的數據。想想現在的語音助手與自動電話菜單系統的區別。前者,比如說 Siri 與 Alexa,你可以使用自然語言來向他們詢問一些事情;而對于后者,你只能使用具體的、固定的詞語集合(這個集合是程序用來理解用戶輸入的),只有這樣該電話系統才能工作。相比之下,基于深度學習的系統本身對數據就有自己的理解,他們并不需要顯示的算法。這種設計靈感來源于人類的大腦,就真正意義上來講,這些機器是從他們的經驗中進行學習。在一些領域當中,機器現在已經能達到人類水平了,比如說物體識別與語音識別。
那么深度學習的工作原理是什么呢?
深度學習系統模擬的是人類大腦新皮質中的神經網絡,該部位擁有更高級別的認知能力。在大腦中,神經元是能夠傳遞電流或化學信息的細胞。當它與其他神經元鏈接時,這樣就形成了神經網絡。在機器中,神經元是虛擬的——基本上就是運行統計回歸的代碼。足夠多的虛擬神經元連接在一起,你就得到了一個虛擬的神經網絡。將下面網絡中的每個神經元視為一個簡單的統計模型:它接受一些輸入,并且沿著輸出路線進行輸出。
然而,為了使得神經網絡能起作用,我們必須對它進行訓練。為了訓練神經網絡,我們映射出一組虛擬神經元,并為該組神經元分配隨機數字,這些數字我們稱為“權重”,權重確定了神經元如何響應新的數據(數字化物體或聲音)。像任何系統或機器學習一樣,機器最初也是需要知道正確的答案。因此,如果神經網絡沒有準確的識別輸入——例如,沒有識別出圖像中的臉部——則系統調整權重,以便產生正確答案(權重就是每個神經元對于數據的關注程度)。最終,在經過充分的訓練之后,神經網絡將能夠正確地識別語音與圖像。
構建人工神經元的想法已經存在了至少60年。在20世紀50年代,弗蘭克·羅森布拉特創造了一個由電機,撥號盤和檢光器組成的“感知器”。通過訓練,該感知器可以成功地區別基本的形狀。但早期的神經網絡可以模擬的神經元數量是極其有限的,這也意味著,他們不能識別復雜的模式。在過去的十年,三個方面的發展使得深度學習成為了可能。
首先,多倫多大學的 Geofffrey Hinton 和其他研究人員在軟件神經元方面取得了突破性的進展。軟件神經元可以通過分層來訓練自己。(Hinton 現在的精力主要在多倫多大學與 Google)第一層神經元將學習如何區分基本特征,比如說邊緣或者輪廓信息(這些信息有數以百萬計的數據點)。一旦該層學習到如何準確地識別這些東西,它就會把這些信息傳送到下一層,通過訓練自身從而識別更復雜的特征,例如鼻子或耳朵。然后,該層信息被送到另一層,通過繼續訓練自身以識別更高級別的抽象信息等等,一層接著一層,這就是深度學習中“深度”的含義,直到系統可以可靠地識別非常復雜的模式,例如人臉。
第二個對 AI 技術進步起到作用的是大量可用的數據的獲取。快速數字化已經導致了大規模數據的產生,數據就是用于訓練深度學習系統的氧氣。經過幾次演示如何辨別物品之后,孩子們就能夠挑選東西了。然而,AI 機器需要進行無數次的實驗訓練才可以。深度學習本質上是使用蠻力的方式來教會機器如何辨別一個東西,以及東西是什么。我們通過使用1900萬張貓的圖片來訓練我們的深度學習神經網絡,通過訓練我們得到了概率,排除了傾向,最終我們的軟件神經元得到了統計學意義上判斷貓的顯著因素,也就是我們的系統能夠辨別貓了。這就是為什么大數據是如此的重要原因——沒有它,深度學習無法進行工作。
最后一點是,由斯坦福大學吳恩達(現在在百度)領導的團隊在意識到圖像處理單元芯片,也就是 GPU(發明 GPU 的初衷是為了處理視頻游戲的圖像)可以被用于深度學習之后,他們取得了突破性的進展。直到最近,典型的計算機芯片依然是一次只能處理一個事件,但是 GPU 設計初衷就是用于并行計算的。使用這些芯片運行擁有幾百萬個連接的神經網絡,我們可以在幾個數量級上并行的加速深度學習系統的訓練與能力。以前一臺機器需要數周的訓練時間來完成某項任務,現在只需要一天就可以了。
目前最先進的深度學習網絡是由數百萬個模擬神經元組成的,它們之間有數十億個鏈接,并且可以通過無監督學習方式來訓練。這是人工智能的最有效的實際應用,雖然還沒有被設計出來。對于某些任務,最好的深度學習系統是與人類能力相當的模式識別器,該技術正在從研究實驗室走向工業界。
深度學習系統 1.0
早期深度學習已經取得了一些令人印象深刻的成果。如果我把它類比到個人計算機,深度學習系統就是處于綠色和黑色 DOS 界面的演變階段。目前,大量的時間和精力花在深度學習前期過程——例如清洗數據,標記數據和解釋數據,而不是學習深度學習模型。但是在接下來的幾年中,初創企業和成熟的公司將開始發布商業解決方案,用于構建生產環境的深度學習應用程序。通過利用一些像 TensorFlow 等的開源框架,這些解決方案將大大降低創建復雜深度學習系統的工作量、時間以及成本。他們將一起構成深度學習操作系統的基礎。
深度學習操作系統將廣泛采用實際的 AI 系統。Windows 操作系統與 Mac 操作系統已經允許普通用戶使用計算機與 Saas 功能來訪問云端,同樣,在未來幾年,科技公司也將大力推廣深度學習技術。最終,深度學習操作系統將使那些不是計算機科學家或者自然語言處理研究人員的用戶,同樣也可以使用深度學習來解決現實生活中的問題,如檢測疾病而不單單是識別貓。
構建深度學習操作系統的第一批新公司將致力于數據,軟件和硬件方面的解決方案。
數據:獲得高質量的大規模數據是采用深度學習技術所面臨的最大障礙。但是會出現相應的服務商和軟件平臺來處理數據問題。相關公司已經建立了自己內部的智能平臺,該平臺可以幫助人們快速標記數據。未來的數據標記平臺將嵌入到應用程序的設計中,這樣通過使用產品產生的數據,就可以用來訓練我們的系統。而且未來也將會產生新的服務型公司,這些公司將標注任務外包給低成本國家,以及通過合成手段來創建標簽數據。
軟件:我認為在兩個主要領域中會有創新產生。
1)神經網絡的設計和編程。不同的深度學習架構,例如 CNN 和 RNN,支持不同類型的應用(圖像、文本等)。有時候也會使用神經網絡架構的組合。至于訓練,許多應用程序將使用機器學習算法、深度學習、強化學習或無監督學習的組合來解決應用程序的不同子部分。我預測有人將構建一個機器學習引擎來提供解決方案,它將檢查應用程序,訓練數據集,提供基礎架構資源等,并推薦使用正確的架構和算法。
2)可重用的神經網絡模塊的市場。如上所述,神經網絡中的不同層會學習不同的概念,然后彼此之間建立一些聯系。這種架構自然而然地創造了共享和重用已經訓練好的神經網絡的模型的機會。已經訓練好的能夠識別邊緣的虛擬神經元,本來該神經元是被用來識別貓的臉,但是也可以被重用來識別人臉。TensorFlow 已經成為了最流行的深度學習框架,它支持整個子圖組件的重用。很快,機器學習專家社區將會將會貢獻開源模塊,而這一舉動很可能會創造出機器學習版本的 GitHub 與 Stack Overflow。
硬件:為開發人員尋找 GPU,CPU,云資源的最佳組合;確定并行化的級別;以及分析執行成本。這為平臺和服務的公司創造了機會,它們將為訓練任務推薦正確的基礎設施。此外,將會有公司專門在深度學習硬件方面提供基礎設施服務,如協調,橫向擴展,管理和負載均衡。此外,我希望老牌公司和初創公司能夠推出自己的深度學習優化芯片。
這些只是一些可能性。我確信還有更多的創新思想存在于其他創業家的腦海當中,因為這項技術的愿景是無比光明的。我們正在開始建立能夠自我學習的機器,并且這些機器能夠做出一些明智的判斷。
本文作者 Aditya Singh 是 Foundation Capital 的合伙人,專注于基礎設施(網絡規模和企業),安全和服務方面的投資。
本文由 AI100 編譯,轉載需得到本公眾號同意。
編譯:AI100
原文鏈接:https://hbr.org/2017/01/deep-learning-will-radically-change-the-ways-we-interact-with-technology