新智元原創1
來源:Edge
譯者:張巨巖 王婉婷
2015 年發生了機器學習的大事件?這背后折射出什么技術趨勢?Edge 從全球 198 個頂尖專家中梳理了科技和技術大事件,新智元從中選擇了關于人工智能的部分。其中有諾獎得主John C. Mather、MIT名譽機器人學教授Rodney A. Brooks、凱文凱利等。
你可能不愿相信!但是人工智能去年因為《貝葉斯程序學習》(Science,Lake,Salakhutdinov,Tenenbaum)的發展而更進一步。這是重大新聞,因為我已經聽到“很難實現人工智能”有數十年了,而且最成功的方法都使用了暴力解決。基于事物和語言符號與邏輯理解的方法一直很難取得進步。挑戰在于發明代表復雜信息的電腦語言,接著讓機器理解來自示例和證據中的信息。
Lake等人給出了一個數學框架,一個算法和實現該算法的代碼,并且他們的軟件可以像人一樣學習瀏覽50種語言的1623種手寫字體。他們說“概念被表征為簡單的概率程序——即是說,概率生成模型被表征為抽象描述性語言的結構化步驟?!贝送猓拍羁梢酝ㄟ^重復部分其它概念或程序而建立。概率方法可以同時處理定義和實例的不精確性。(貝葉斯定理告訴我們如果我們知道各種組成復雜事情的更小部分的可能性的話,應該如何計算復雜事情的可能性。)他們的系統可以學得很快,有時一次,或從幾個例子就能像人一樣,而且有人一樣的精度地學習。這種能力與其他依據海量數據集和模擬神經網絡等具有競爭力的方法有著戲劇性的差距,這些都是新聞。
所以現在又產生了很多新問題:這個方法有多么通用?人們為了讓其有用要賦予它怎樣的結構?這個算法最終真的會很優越嗎?這是生物智能的工作機制嗎?我們如何分辨?這種電腦系統可以成長的足夠強大來理解人類日常很重要的概念嗎?第一種實際應用會在哪?
這是一個長期項目,沒有任何明顯限制會阻礙其發展。這種方法能否足以有效,以至于它并不需要一個超級厲害的超級計算機來實現,或者這種方法至少代表了人工智能?畢竟,昆蟲用其微小的大腦做的非常好。更一般地,我們何時能實現多人交談的速記、即時機器語言翻譯、場景識別、面部識別、自動駕駛汽車,自動導向的無人機安全遞送包裹、機器理解物理和工程、機器對生物概念的理解還有機器閱讀國會圖書館藏書并在哲學或歷史層面討論其概念?我的數字助理何時能真正明白我想做的事,或告訴我應該怎么做?這是智能火星車尋找火星生命跡象的方式嗎?軍事進攻和防守會怎么樣?這樣的系統怎么實現Asimov的三大機器人定理,以保護人類免受機器人攻擊?你如何知道是否應該相信你的機器人?人們何時會被淘汰?
我確信很多人已經開始致力于這樣的問題的研究。我看到了很多負面影響,但對于這些負面作用的改進工作也推進得很快。我既激動又驚恐。
今年關于人工智能有很多非常不錯的新聞故事。很多故事涉及了來自于非該領域的杰出科學家和工程師的顧慮,這些顧慮幾乎是關于超級人工智能覺醒但沒有人類倫理概念的危害,這樣的危害對于人類是一種災難。一些其他的顧慮是該領域的人們擔憂讓AI做軍事戰術決定會帶來危險,還有一些來自各個汽車廠商,他們看到了實現自主駕駛汽車的緊迫性。還有一些人來自哲學領域(業余和專業的),他們擔心自駕汽車將不得不做出生死選擇。
我自己對這些話題的觀點與普遍說法相反,而且我認為每個人都想的太遠。Arthur C. Clarke的第三定律是,任何足夠先進的技術都與魔法無異。所有這些新聞報道,和那些有此觀點的專家,在我看來,要遠遠超過目前人工智能技術的狀態,他們談論的是一個具有魔力的未來并且這種未來很容易實現人的欲望,或恐懼。
2015年也出現了大量人工智能合乎情理的新聞,它們大部分圍繞深度學習算法的驚艷表現,80年代中期的反向傳播想法,現在通過更好的數學被擴展到遠遠超過三層的網絡中,這些能夠實現,離不開美國西海岸科技巨頭龐大的云計算資源,也離不開在那些云計算中巧妙利用的GPU。
深度學習最實際效果是,語言理解系統比兩三年前明顯好很多,促成了網上、智能手機和家庭設備上新服務的出現。我們現在可以很容易地與它們交談并讓它們理解我們。五年前的語音交互劣勢完全消失了。
我相信,深度學習的成功導致許多人產生錯誤的結論。當一個人展示了自己在某些任務中特定的表現時,例如,翻譯外語,那么我們就能大致了解要如何從這個人的表現中概括出他的能力。例如,我們知道,這個人可以理解語言,并能回答哪些人在聽到一個孩子死于恐怖襲擊的故事后會悲傷,哪些人會哀悼一個月,哪些人認為他們已經得手。但是,翻譯程序很可能無法理解得這么深。人們可以從人的表現中歸納出他的能力,但這不能應用在人工智能程序上。
在今年年底,我們已經開始看到一些新聞在反對人工智能某些狹小領域的成功。我樂于見到這些新聞,因為它們將我帶回現實,去考慮我們未來與AI的關系。而且我們已經開始看到兩類故事。
第一類故事是關于科學,有許多研究人員已經指出,要找到能夠模仿人類和動物廣泛能力的算法,還有很多科學方面的工作要完成。深度學習本身不會解決許多對于通用人工智能來說很重要的學習問題,例如,空間或演繹推理能力。此外,我們看到的所有AI突破是多年的醞釀,而我們并沒有科學依據去期待看到,突然的,持續的AI系列的覺醒,顯然有這種想法的年輕的研究人員沒有經歷過1950年代,1960年代,和1980年的同樣的預測熱潮。
第二類故事是關于自動駕駛汽車和其他汽車的駕駛程序如何進行交互。當大型運動的事物要進入人類生活時,普及速度會明顯變慢,例如網頁瀏覽器中的Java Script。對于自主駕駛汽車不久將出現在公共道路上這一觀點有些人天真地表示支持?,F實情況是,這其中存在致命事故(即使是由非常聰明的人開發的東西,有時也會讓事情變得糟糕),這樣的事件會引起人們極度的謹慎,特別是當得知了全球范圍內由人類引起的汽車致死案件有超過3000例時。但是,最近的新聞報道都記錄到自動駕駛汽車的測試事故率很高。到目前為止,所有的都是非典型事故,而且所有都可歸因于其它司機,即人的錯誤。汽車駕駛得完美,據報道,并汽車沒有像所有人類一樣違反法律,所以這是人類的錯誤。當你爭辯說,是那些討厭的人沒有開發好技術時,你已經失去了論據。在自動駕駛車被放到普通民眾在行駛的車道之前,還有很多工作要做,無論這些技術對于其開發工程師和風險資本家來說多么有價值。
從2014年到15年過度炒作的AI終于得到了一點阻力。這還會讓很多憤怒的忠實信徒尖叫,但最終這個泡沫會逐漸成為過去。同時,我們將在我們的生活中逐漸看到更多AI更有效的利用方式,但是這將是緩慢而穩定的,并非爆發式的,而且也不存在生存危機。
在過去的幾年里,人工智能存在已久的無法解決的很多經典挑戰,在幾乎沒有告知的情況下,用一種AI純粹主義者鄙視的方法(因為其有“統計”的感覺)解決了:這個方法的本質是從海量數據中學習概率分布,而不是研究人類解決問題的能力,接著試圖將這種能力編碼成可執行的形式。該技術解決的高難任務范圍很廣,從物體分類和語音識別,到為圖片生成標題和合成某藝術家風格的圖片——甚至還能指導機器人完成它們從未在代碼中編寫的任務。
這個最新的研究方法,最初的名字是“神經網絡”,現在被命名為“深度學習”來強調其神經網絡數量方面的進步。它最近的成功歸功于大型數據集和更強大的計算系統,或者是大型科技公司突然對該領域產生興趣。這些越來越多的資源確實是這些技術快速進步的關鍵部分,但是大公司一直在向眾多機器學習方法中投入資源,但只在深度學習中看到了如此難以置信的進步;很多其他的方法也有改善,但改進程度遠遠不及深度學習。
所以讓深度學習與其他方法區分的關鍵是什么,為什么它能夠解決人類沒辦法編寫出解決方案的問題?第一個關鍵點是,來源于早期神經網絡,一個久遠的算法,被一次又一次的重新發現,名字為“反向傳播”。它真的只是鏈式規則——一個簡單的微積分技巧——用一種很優雅的方式被應用。它是對連續數學和離散數學的深度整合,從而讓復雜的潛在解決方案集合通過向量微積分被優化。
關鍵是要將潛在解決方案模板作為有向圖來規劃(例如,從一幅圖像中到一個生成的標題,之間有很多節點)。反向遍歷這個圖讓該算法自動計算出一個“成分向量(gradient vector)”,這為搜索越來越好的解決方案提供了方向。你不能不瀏覽大部分現代深度學習技巧來觀察其與傳統神經網絡的相似性,但是在這背后,這種反向傳播算法是古老框架和新框架的重要部分。
但是原始使用反向傳播的神經網絡遠遠不如新深度學習技術,即使讓其使用今天的硬件和數據集。另一個在每個現代框架都存在的關鍵部分是另一個具有迷惑性的簡單想法:網絡的組件可以同時在多個地方使用。網絡被優化后,每個組件的每個拷貝被迫變得相同(這個想法被稱為“權重捆綁(weight tying)”)。這對權重相聯系(weight-tied)的組件提出了新要求:它們必須學著一次在許多地方變得有用,而且不會被特化到某個特定位置。權重聯系(weight tying)促使網絡學習更通用的函數,因為一個詞可能出現在某塊文本的任何區域中,或者一個物理物體有可能出現在任何圖片部分中。
將一個通用的組件放在網絡很多位置中類似于在程序中編寫一個函數,并在多處調出該函數——這是在計算機科學和函數式編程中很多不同領域的本質概念。這實際上不僅僅是個類比:權重相聯系組件實際上在編程中與可復用函數(reusable function)概念相同。而且它可以更深!過去幾年里很多最成功的框架重復使用組件的模式與由函數式編程中常見的“高階函數”生成的模式相同。這暗示了我們可以從函數式編程的其他著名操作函數中汲取好想法。
探索由深度學習訓練出的功能結構(functional program)的最自然的背景是一個可以直接在函數式編程上運行反向傳播的新語言。結果證明,在實現方法的細節中體現出來,函數式編程實際上可以編譯成一個類似于反向傳播所需要的計算圖像。圖像中的個體組件也要被微分,但是Grefenstette等人最近發表了一些簡單數據結構(棧,隊和雙端隊列)的微分的構建,這表明了更多的可微分的實現方法可能只是更高深的數學而已。在這個領域的更多的工作將會打開新的編程形式——可微編程(Differentiable Programming)。用這樣的語言寫一段程序就像畫了一個函數結構的輪廓,把細節留給了優化器;語言將會根據整個程序使用反向傳播自動學習細節——就像在深度學習中優化權重一樣,但是用函數式編程作為表征權重聯系的更通用的形式。
深度學習可能看起來像另一個會過氣的時尚,就像“專家系統”或者“大數據”一樣。但是它是依據兩個久遠的想法(反向傳播和權重聯系),并且雖然可微編程是非常新的概念,它實際是這些永恒想法的擴展,并且技術詞語穿梭于時尚中,這些核心概念會繼續是AI成功的本質。
也許今天最重要的新聞是數據集——而非算法——是對人類級別AI發展的關鍵限制因素。
AI領域黎明階段,1967年,它的兩個創立者預測了解決電腦視覺問題只需要一個夏天?,F在,過了幾乎半個世紀,機器學習軟件終于似乎準備在視覺任務和很多其他挑戰中達到人類界別的表現。什么讓AI革命等待了這么久?
過去30年里AI被發表的進步似乎給出了一點具有諷刺意味的暗示:也許很多主要的AI突破受到了有限高質量訓練集的限制,而非算法方面的進步。例如,在1994年人類級別自動語音識別系統的完成主要依賴于隱馬爾可夫模型的一個變體,而隱馬爾可夫模型則是在此10年之前發表的,但是使用了華爾街日報的語音和其他當時3年之前的文本。1997年,當IBM的深藍打敗Garry Kasparov成為世界頂級國際象棋大師時,它的核心算法(NegaScout規劃算法)已經有14年之久,然而它的核心數據集——70 0000國際象棋特級大師比賽數據集(名字為“The Extended Book”)——只有6年歷史。2005年,谷歌軟件完成的阿拉伯轉英文翻譯和中文轉英文翻譯是基于當時17年前發表的統計機器翻譯算法的一個變體,但是使用了同一年從谷歌網站和新網頁中收集到的超過1.8萬億的符號。2011年,IBM的Watson成為世界Jeopardy!冠軍,它使用了基于當時20年前公布的多專家決策算法的一個變體,但用了來自維基百科、維基詞典、維基語錄和前一年更新的古騰堡計劃中860萬文獻資料。2014年,谷歌的GoogLeNet軟件在物體識別中有接近人類的表現,它使用了25年前提出的卷積神經網絡算法,但卻是在當時4年之前ImageNet語料庫中大約有150萬標記好的圖像和1000個物體分類的數據集上訓練的。最終2015年,谷歌DeepMind宣布它的軟件在29款雅特麗游戲中達到了人類級別的表現,該系統所用的算法是Q學習算法的一個變體,該算法是在23年之前公布的,而這個算法卻是在2年之前出現的——超過50款雅特麗游戲街機學習環境數據集上——訓練的。
看完這些進步后,關鍵算法的提出和相應的進步之間的平均時間間隔大概有18年,然而關鍵數據集的出現和對應的進步之間的時間間隔少于3年,或者說要快6倍,這意味著數據集可能是這些進步的限制因素。特別地,我們可以提出假說:用于AI突破的關鍵算法通常會滯后,只需要從現存的典籍中挖掘出大型高質量數據集,接著在當時現存硬件中優化即可。當然,研究領域中令人悲傷的常見現象是,注意力、資金和學術進步與算法的進步關聯性更高,而非數據集的進步。
如果這個假說正確的話,這會對將來AI的進步有重大暗示。最重要的是,優先挖掘高質量訓練集可能對AI突破有指數級的加速,相比純算法的進步。例如,我們可能已經擁有相應的算法和硬件:這些算法和硬件可以讓機器在幾年內創作出有創造力的長篇作品,完成標準的人類測試,甚至能通過圖靈測試,只要我們用高質量的寫作數據集、測試數據集和語言數據集來測試它們。另外,保證AI的友好這樣的新問題或許也可以通過對數據集的關注而非對算法的關注來解決——一個潛在更簡單的方法。
雖然新算法受到了大量公眾的關注(結束了AI寒冬),真正的新聞也許是:優先挖掘新數據集并培養以數據集為中心的研究團體才是延長AI盛夏的本質方法。
對于我來說在2015年中期聽到的最重要的新聞是在三個科學家Samuel J. Gershman,Eric J. Horvitz和Joshua Tenenbaum在2015年7月17日的Science上發表了文章《Computational rationality: A converging paradigm for intelligence in brains, minds, and machines》的時候。他們宣布他們和他們的同事在進行新研究:識別原理,或者說是智能的定律,就像牛頓宣布發現力學定律一樣。
在此之前,在公園散步、河流的流動、馬車輪子的滾動、炮彈的軌跡和行星軌跡之間的任何共性似乎都是荒誕的。正是牛頓發現了潛在的共性,并從根本上解釋了上述的所有現象(等更多現象)。
現在有了相似的人大膽的試圖總結智能的規律甚至是本質?!罢嫦鄰膩矶际菑暮唵沃袑か@,而非從多樣和混亂的事物中”牛頓說。
對于智能領域的研究而言,我們都是前牛頓。智能的共性被細胞、海豚、植物、鳥類、機器人共享,但人類在此方面,如果不是覺得荒誕的話,至少是遠未有所建樹的。
然而作為起點,人工智能、認知心理學和神經科學之間豐富的交流就將目標鎖定在牛頓的“真相存在于簡單中”,那些潛在的規則(也可能是定律)會將這些分離的實體連接在一起。這種研究的正式名字就是計算理性(computational rationality)。我們會問道,它到底是什么?誰,或者說什么,搭載了它?
這種追尋是受到眾多科學思想共同認可的觀點的啟發:智能不來自那些體現智能的介質——生物形式或者電子形式——但卻來自于被系統安排的元素之間的交互方式。當系統識別出一個目標,學習(從老師那里、訓練集或者一段經歷中),接著自動移動,同時根據復雜多變的環境作出調整。另一個看待這個過程的方式是智能實體是網絡,通常是智能系統的框架,人類當然在這些最復雜的網絡中,而且人類聚集體更是如此。
這三位科學家提出了假設:三個核心想法可以描述智能。第一,智能個體有目標,并形成信仰接著計劃動作來盡可能實現這些目標。第二,計算理想情況下最好的選擇對于實際世界問題可能是不現實的,但是理性算法可以做到足夠接近(以Herbert Simon的術語來講,是“satisfice(滿足目標的最低要求)”),同時包含計算成本。第三,這些算法應該可以根據實體的特定需求進行理性調整,離線情況下通過工程或進化設計,或者在線情況下,通過元推理(meta-reasoning)機制對給定情況選擇最好的策略。
雖然剛剛開始,對計算理性的需求已經很大,而且具有普適性。例如,生物學家現在可以與認知輕松地進行交談,從細胞層面到系統層面。神經生物學家可以識別人類和動物共有的計算策略。樹木學家可以展示樹木之間如何(緩慢地)溝通來警告附近的敵害,如木甲蟲:鄰居,快釋放毒素。
人類自己在家也是這樣,雖然這讓我們大部分人花了很多年才知道這些。當然,到這兒就涉及到人工智能,一個關鍵的說明和啟示。
它現在是新聞了;它也一直會是新聞,因為它如此的基礎;它的演變啟示將幫助我們用全新的方式看待我們的世界和宇宙。至于感受到超級智能威脅的人們,在如此基本的層面上理解智能當然是我們最好的防御方法之一。
這些日子涌現出無數重要的科學新聞,很難說哪一條是其中最重要的。氣候模型表明我們已經邁過了轉折點,不可逆轉地進入了一個全新的、對我們的文明來說相當艱難的時期。Mark Van Raamsdonk拓展了Brian Swingle和Juan Maldacena的成果,展示了在離散張量網絡(discrete tensor network)中我們可以徹底拋棄時空的概念,這打開了一扇統一物理學理論的大門。Bruce Conklin、George Church、以及其他研究者為我們帶來了CRISPR,這種技術或許會讓基因編輯變得簡單易用、無處不在。深度學習開始告訴我們互連特征探測器(interconnected feature detectors)的層級結構如何讓它能自主地搭建起模型、學習解決問題、以及識別語音、圖像、和視頻。
也許同樣重要的是關注一下我們在何處缺乏進展:社會學沒能教我們社會運作的原理,哲學領域看上去已經變得貧瘠荒蕪,經濟學似乎難以提示我們經濟和財務政策,心理學尚未理解我們心靈背后的機制,而神經科學雖然告訴了我們大腦中哪些地方會發生一些事,但大部分時候說不清究竟發生了什么。
我認為,20世紀為理解世界而創造出的最重要的東西,不是實證科學、計算機科學、航天、或者物理學基礎理論——而是計算。計算,在核心層面,是非常簡單的:每一次觀察都會產生一些可分辨的差異。
這些差異,我們稱之為信息。如果是對于會改變狀態的系統所作的觀察,我們就可以描述這些狀態的變化。如果我們在這些狀態變化中發現了規律性,我們在研究的就是一個計算系統了。如果規律性可以得到完全的描述,我們就把這個系統稱為算法。一旦一個系統可以進行特定狀態的轉換、也可以重新訪問之前的狀態,它幾乎就可以完成任何的計算了。在無限的情況下——也就是說,如果我們不限制它狀態轉換的次數,也不限制狀態信息的存儲空間大小——它就成為了一種圖靈機,或是一種λ演算(Lambda Calculus),或是波斯特機(Post Machine),或者其它的什么能夠模擬所有計算的等價存在(mutually equivalent formalisms)。
計算術語重新表述了“因果(causality)”這種哲學家們爭論了幾個世紀的概念。因果就是計算系統中從一個狀態到下一個狀態的轉換。計算術語也更新了機械論哲學或是自然主義哲學中“機械主義(mechanism)”的概念。計算主義是新的機械主義,與它的前輩們不同,它并不充滿了各種帶有誤導性的直覺性知識。
計算與數學是不同的。數學是形式語言的領域,大部分都是不可判定的——這與“不可計算”是同義詞(因為決策和證明都是計算的同義詞),雖然所有我們在數學方面的探索都是可計算的那一些。計算意味著真正地做完所有工作,從一個狀態轉移到下一個狀態。
計算改變了我們對于知識的看法:知識不再是一種“得到辯護的真信念”(justified true belief,譯者注:一直以來,西方哲學界對知識的定義包含了三個要素,即所謂的得到辯護的真信念,英文中常被簡稱為JTB理論。具體來說,某個人A“知道”某個事件B,或說A掌握了關于B的知識,是指:B本身是真的;A相信B是真的;A相信B為真是得到辯護的,或者說有理據、合理的或確證的。這樣的情況下,獲得的知識是真實可靠的。來自維基百科),而是描述了一種在捕捉可觀察對象之間的規律時的局部最小值(local minimum)。知識幾乎從來都不是一個靜止不變的概念,而是在可能的世界觀所組成狀態空間中梯度式地變化。我們將不再企圖把真實傳授給我們的孩子,因為,和我們一樣,他們也不會停下改變想法的步伐。我們將會教他們如何有意義地改變他們的想法,如何探索永無止境的靈感王國。
宇宙不是數學的(mathematical),而是計算的(computational),越來越多的物理學家理解了這一點,而物理學也正在忙于尋找一種算法來再現我們的觀察。離開了不可計算的、數學的概念(比如連續空間),獲得進展成為了可能。氣候科學、分子基因學、以及人工智能都是計算科學。社會學、心理學、以及神經科學都不是:它們似乎仍然被機制(呆板的零碎知識)與研究客體表面上的二元對立所困擾。它們正在探尋社會、行為、化學、神經方面的規律,但是在這些方面它們真正應該探尋的是計算規律。
萬物皆計算。
連線雜志“資深游俠”(Senior Maverick)、聯合創始人,“酷工具”網站作者、編輯;出版了《科技想要什么》、《失控:機器、社會與經濟的新生物學》、《新經濟的新規則》等著作。
今年,DeepMind公司——一家位于倫敦的AI企業——的研究人員報告,他們教會了計算機系統學習如何玩49個簡單的視頻游戲。他們教它的并不是“怎樣玩視頻游戲”,而是怎樣學習玩游戲。這之間有著深遠的區別。玩一款視頻游戲,即使是1970年代經典的“乓(Pong)”那么簡單的游戲,也需要一系列嫻熟的感覺、預測、和認知技巧。十幾年前,沒有算法能做得到這些;但到今天,這些大部分電腦游戲中內嵌了這種自動玩游戲的代碼。當你玩一款2015年的視頻游戲時,你通常都需要與天才人類程序員創作的精良的算法相對抗。DeepMind的團隊沒有編寫一系列在游戲內玩游戲的算法,而是編寫了在游戲外、像人類一樣進行操作玩游戲的算法。這種算法(一種深度神經網絡)一開始在游戲中完全無法獲勝,也沒有任何玩游戲得技巧和策略,隨后通過不斷得到反饋和改進,它自己組建出了玩這個游戲的代碼。
這種學習不能被等價于“人類智能”。它背后的機制與我們學習的方法有極大的不同。這將不會取代人類,也不會稱霸世界。然而,這種合成學習的能力將會逐漸增長。大新聞是,學習——我指真正的、非監督式的學習——是可以被合成的。一旦學習可以被合成,它就能被分布到所有尋??梢姷脑O備和功能中。它就能被用于讓自動駕駛汽車變得更好,或是讓醫療診斷系統隨著人們不斷的使用而得到提高。
學習,就像其他那些我們原以為只有人類才擁有的能力一樣,被證明了是一種機器在得到編程以后也能擁有的東西。學習可以是自動化的。雖然簡單的二級學習(學習怎樣去學習)曾經是罕見而珍惜的,現在它將會變得隨處可見。就像一個世紀以前不眠不休的強大的馬達一樣,學習將會快速在我們建立的世界中成為常態。所有簡單的東西都將會有學習的能力。自動化的合成學習不會讓你的烤箱達到和你一樣的聰明程度,但它可以做出更好的面包。
不用多久,我們就會覺得讓智能物品不夠用了。現在我們知道了怎樣合成學習,我們將期待所有的一切都能隨著不斷被人使用而自動地自我改善,就像DeepMind那個學習玩游戲的系統一樣。我們未來幾年迎來的驚喜將會是在許多我們覺得不可能的領域實現合成學習。
深度學習神經網絡是最近最激動人心的科技進展。從技術上來說,它們在許多領域的比賽上都大大勝過它們的競爭對手,包括語音識別、圖像識別、讀圖、語義分析、翻譯、藥物探索、以及玩視頻游戲。這導致了許多大型科技公司都向它投入巨額資金,而深度學習初創企業也有300逾家,獲得的投資總額超過15億美元。
這種網絡為我們這個時代最重要的科學問題——我們怎樣表征和操作意義(meaning)——帶來了啟迪。已經有了許多針對意義(meaning)的理論,包括用正式的操作規則將語句、聲音、圖像投射到邏輯演算(logical calculi)中。例如,Montague語義學試圖將自然語言短句投射到有類型λ演算(typed lambda calculus)上。
深度學習網絡本身會將輸入的詞語、聲音、圖像投射到神經活動向量上。這些向量表征展示了一種有趣的“意義(meaning)的代數”。比如,在使用大量英語語言材料巽寮以后,Mikolov的Word2Vec顯示出了這種奇怪的關系:“國王 – 男人 + 女人 = 女王”。他的神經網絡試圖從詞語所在的語境中預測詞語是什么(或是相反)。語境從“國王吃了他的午餐”到“女王吃了她的午餐”的變化和從“男人吃了他的午餐”到“女人吃了她的午餐”是相同的。對許多相似句子進行統計以后,向量從“國王”到“女王”的變化就與從“男人”到“女人”的變化一樣了。它也同樣做出了從“王子”到“公主”、“英雄(hero)”到“女英雄(heroine)”等相似的匹配。其他的“意義(meaning)等式”包括“巴黎 – 法國 + 意大利 = 羅馬”,“奧巴馬 – 美國 + 俄羅斯 = 普京”,“結構 – 建筑 + 軟件 = 程序員”。通過這種方式,這些系統僅僅從統計訓練樣例中就發現了重要的關系信息。
這些網絡的成功可以被看作是1950年代提出的“分布式語義(distributional semantics)”的勝利。意義(meaning)、關系、以及有效的推理都來自于對于實驗語境的統計結果。在視覺領域,Radford、Metz、以及Chintala用來生成圖像的深度學習網絡中也發現了相似的現象。微笑的女人、減去中性表情的女人、加上中性表情的男人,產生了微笑的男人。戴著眼鏡的男人、減去不戴眼鏡的男人、加上不戴眼鏡的女人,產生了戴眼鏡的女人。
深度學習神經網絡現在正被應用于數以百計的重要應用中。工業機器人的一項經典挑戰就是使用視覺從一堆雜亂擺放的零件中找出并揀起需要的那一個。最近,一家工業機器人公司表示,他們通過使用深度神經網絡進行8個小時的訓練成功解決了這個問題。一家無人機公司最近也描述了一個深度神經網絡,可以在復雜的真實環境中自動操作無人機。為什么這些進展會在近期發生?為了讓這些網絡能夠高效學習,需要大量的訓練數據集,通常都是數以百萬計的樣例。大量數據與大型網絡的組合,意味著它們也需要非常多的計算力(computational power)。這些系統現在擁有非常大的影響力,因為互聯網能夠提供大量訓練數據,而配有圖像圖處理的現代計算機也有足夠的用來訓練數據的計算力。
這將會發展成什么樣?等著這些神經網絡很快被應用到你見得到的每一種應用上吧。最近的一些關于深度學習的大學課程貼出了學生的課堂作業。在短短幾個月間,就能有數以百計的學生學會運用這種技術來解決各種各樣的問題——這些問題在10年前可能會被認為是一個研究課題。我們正處于深度學習網絡的某種“寒武紀大爆發”中。全球各地的研究團隊正在實驗不同的網絡大小、架構、以及訓練技巧,而其他的一些團隊則在搭建能讓它們運行得更高效的硬件。
所有這些都是非常激動人心的,但是這也意味著人工智能很有可能會馬上對我們的社會產生更巨大的影響。我們必須作出努力,確保這些系統產生的是有益的影響,并創造出有助于整合這些新技術的社會架構。許多在競賽中獲得勝利的網絡從輸入到輸出都是前饋的(feedforward)。它們通常是為輸入做分類或是評估(evaluation),不會創造任何新的東西。更新穎的網絡是“卷積網絡”,可以被“強化學習”所訓練。這類系統更擅長于找到出人意料的獲得結果的方法。下一代的網絡將會為世界創造出模型,并進行詳細的推理來選擇出最佳的行動。這種系統在設計時必須非常謹慎,以免帶來預料不到的惡性結果。我們在選擇向這些系統要求什么結果時必須萬分小心。如果我們能夠獲得讓這些發展保持在有益的方向上的科學理解和社會意志(social will),那么我們的未來會是非常燦爛的!
這個世界正在越來越多地充斥著深度架構——多層人工神經網絡,(通過“深度學習”的方法)用來在圖像和文字之類的大數據集里發現模式(pattern)。但是,這些深度架構的強力性能和流行程度掩蓋了一個主要的問題——知識透明性的問題。這種架構可以學會做出很棒的事情,但是它們沒有提供(在不進行進一步努力了解的情況下)它們在做這些事的時候到底根據的是什么知識。
這既讓人失望(理論上)又十分危險(實際上)。深度學習以及它提取出的模式現在充斥在我們日常生活的方方面面,從在線搜索和推薦系統,到銀行貸款申請、醫療、約會,無所不包。一種對于我們的命運有如此重要影響的系統,應當是盡可能透明的。好消息是,偵測深度學習系統收集并應用了什么知識的新技術正在涌現。
在2015年6月,Alexander Mordvintsev等研究者發布了一篇簡短的論文,名為《開端主義:深入神經網絡內部(Inceptionism: Going Deeper into Neural Networks)》。“開端主義(inceptionism)”的名字來自于一種架構,這個詞很快就出現在幾乎每一個技術博客上。他們選擇了一個訓練完成的網絡,它能夠分辨出給定的圖片里有什么。他們之后又設計了一種自動的方法,讓網絡能將輸入的圖片微調、變得更接近它已經歸類好的圖片類型。這在本質上涉及到了以相反的方向運行網絡(因此在各種博客中會頻繁提到“networks dreaming”和“reverse hallucination”兩個詞)。比如,一開始有隨機噪音和一種目標分類(target classification),并且限制網絡只能參照它之前訓練時的那些圖片的統計結果,最后將會得到模糊的、幾乎是印象派的圖像,這個圖像代表了這個網絡認為這種物體(香蕉,海星,降落傘,或是別的什么東西)應該是什么樣子。
也有意料之外的時候。比如,目標“杠鈴”,的確讓網絡產生了兩端有杠鈴片的東西——但是杠鈴邊上隱隱約約還連著肌肉發達的手臂。這告訴我們,這個網絡還沒有能很好地區分核心含義,雖然它已經非常接近了。其中最有趣的是,你可以輸入一個真實的圖像,在你的多層神經網絡中選擇一層,要求系統加強它能探測到的一切。這意味著,你可以使用inceptionism來偵測每一層處理發生了什么,并將它可視化。所以,inceptionism是一個用來一層一層查看神經網絡中發生了什么的工具。
有許多結果看上去都充滿了迷幻的色彩——在某一層重復強化會導致形狀不規則的美感,如同某些讓人眼花繚亂的藝術圖案。這是因為,重復處理過程會導致反饋循環(feedback loops)。這在效果上相當于要求系統強化它在處理圖片的某個步驟時“看到”的一切。
所以如果它在一朵云中“看到”了鳥的跡象,或是在一個漩渦中“看到”了臉的跡象,它就會加強這些跡象,深化這種特征或是屬性。如果將獲得的加強后的圖像又輸入到網絡中,同樣的技術就會再次應用其上,進一步強化鳥(或者其他什么東西)的跡象。這個過程的重復會快速地導致圖片中某些元素變成我們熟悉的物體的夢幻版本。
如果你還沒有見過這些美妙的圖片,你可以在網上的“inceptionism gallery”找到它們,甚至是使用DeepDream上的代碼自行創作。這類圖像自身非常美麗,并且引人深思,而這種技術可能也因此為探索“創造”提供了一種新的工具——更不用說帶來關于我們人類創造過程的啟示了。但是這并不只是,或者主要是,在玩圖像。這種技術正在幫助我們理解這些不透明的多層系統知道什么樣的東西:展開它們處理過程,一層一層地了解它們在處理時依賴的是什么。
這是人工大腦的神經成像。
神經網絡已經復活了。走過了充滿爭議的60年以后,它只用了短短3年就蔓延到了無數人的日常生活中。
在2015年5月,Sundar Pichai宣布Google將語音識別中的錯誤率降低到了8%,這一數字在兩年前是23%。關鍵是什么?被冠上了新名字“深度學習”的神經網絡。Google表示,在收購了Geoffrey Hinton和他兩個學生創立的DNN Research公司以后,僅僅過了6個月,圖像識別方面就獲得了極大的提升。反向傳播回來了——伴隨著大數據。它現在突然身價百倍。
這個新聞并不在封面報道上。沒有任何科學上的突破,也沒有什么新的應用。
為什么這是一個新聞?它的影響規模讓人震驚,就像它蔓延的速度一樣。從充滿噪音、有無限的不同之處的視覺和聽覺模式(pattern)中獲得意義,一直以來都是人工智能領域被追逐的焦點。原始計算力(raw computing power)已經趕上了數十年前創造出的算法的需求。在短短幾年間,這種技術從在實驗室中對于過度簡單問題(oversimplified problems)的模擬一躍而升,達到了真實世界中作為手機應用程序來識別語音和圖像的程度。
在1970年代的自我組織(self-organization)、1980年代的反向傳播的開拓性工作以后,神經網絡的理論進展大部分時候都十分緩慢。近期達到的轉折點,并不是來自于根本上的全新洞見,而是來自于處理速度的提高——這讓更大型的神經網絡、更大量的數據集、以及更多次的迭代成為可能。
這是神經網絡的第二次復活。第一次是Geoffrey Hinton和Yann LeCun發現多層網絡能夠學習非線性分類的時候。在這個突破之前,Marvin Minsky對于這個領域有了一切的準備,卻在他1969年出版的《感覺器(Perceptrons)》中否定了這一點。他在其中證明了Frank Rosenblatt的感覺器不能學習非線性的分類。
Rosenblatt在1950年代發明了感覺器。他的這一成果建立于1940年McCulloch和Pitts(他們展示了模式(pattern)會如何在神經元的網絡中得到處理)以及Donald Hebb(他假設了當相連神經元活躍時,它們之間的聯系會得到加強)的工作上。感覺器的發明掀起了一股熱浪,紐約時報在1958年7月13日對此進行了題為“電子‘大腦’自我學習(Electronic ‘Brain’ Teaches Itself)”的報道。時代雜志引用了Rosenblatt的話,說感覺器“將會隨著它獲得更多經驗而變得更聰明”,又添油加醋道“海軍表示,他們將會運用這些原理來建造第一臺‘思考的機器’感知器,它將會能夠讀或寫”。
Minsky的批評對于Rosenblatt和神經網絡來說是主要的阻力——搞不好也是最致命的。但是,仍有一些人在沉默地堅持著,包括Stephen Grossberg在內。當時的1950年代,他以達特茅斯學院的一名本科生的身份開始致力于研究這些問題。到1970年代,Grossberg發明了一種非監督式、(自我組織(self-organizing))的學習算法,在已取得的類別的穩定性和學習新東西所需的可塑性(plasticity)之間取得了平衡。
Hinton和LeCun解決了Minsky的挑戰,再次將神經網絡帶回到了公眾的視野。對于反向傳播的興奮之情讓人關注起了Grossberg的模型,還有Fukushima和Kohonen模的型。然而,在1988年,Steven Pinker和Alan Prince對神經網絡做了20年前Minsky做過的事,攻擊了神經網絡在解釋語言獲得(acquisition of language)方面的價值。神經網絡再一次敗退。
在Geoffrey Hinton和他的學生們贏得了2012年ImageNet挑戰、在圖像識別的表現上展現出了極大的提高之后,Google抓住了這個機會,于是神經網絡又一次煥發出生機。
對于深度學習的反對已經開始逐漸出現。所有方法都能從強大計算力中受益,傳統的符號主義方法也不例外。時間會告訴我們哪一種方法在解決哪些問題上能夠盛行。無論如何,2012-2015年將會成為神經網絡把人工智能推到我們指尖的時間。