編譯:Don
“如果我們能夠揭示大腦的某些學習機制或學習方法,那么人工智能將能迎來進一步的發展,”Bengio如是說。
深度學習依賴于精妙設計的算法,一行行精妙絕倫的公式讓冰冷的計算機學習出只有人腦才能執行的任務。深度學習算法雖然啟發自人腦的結構單元和學習機制,但這種簡單的“模擬”其實并不是人腦真正運行的方式。在最新的研究進展中,科學家們正在抽絲剝繭,利用人工神經網絡的算法機制揭示人腦的工作方法。
時間回到14年前,2007年,彼時神經網絡和深度學習還是一個冷門的領域。一群深度學習的先鋒研究人員悄悄的在一次人工智能學術會議后秘密碰頭,舉辦了一場“非法”的學術研討會。之所以說它是“非法”的,是因為主會場沒有允許他們舉辦正式的神經網絡相關的研討會,畢竟當時神經網絡還是個異類小眾群體,支持向量機和隨機森林等傳統機器學習算法才是所謂的“主流正道”。
在這場非正式的研討會的最后,來自多倫多大學的Geoffrey Hinton教授壓軸發言。彼時的Hinton還不像今日一樣名聲大噪享譽全球,當時他的身份還是一位認知心理學家和計算科學家,正在深度學習網絡領域的研究泥淖中苦苦奮戰。在發言之初,他很幽默的說:“大約是一年多以前,有一次我回家吃晚飯的時候說,'我想我終于弄明白大腦是怎么工作的了!',然后我15歲的女兒無奈地撅起嘴回諷我道,'唉老爸,您又來了,咱別這樣了行不’”。
當場在坐的觀眾都笑了,Hinton接著說,“所以,這就是大腦的工作原理”。這個成功的返場包袱讓大家再次忍俊不禁。
在Hinton的這個玩笑背后,是一個神經網絡領域一直都在苦苦求索的話題:用人工智能來理解人腦。時至今日,深度學習網絡統治了人工智能領域,是當之無愧的新時代的弄潮兒,其背后最大的功臣之一,便是大名鼎鼎的反向傳播算法Backpropagation。有時人們也會親昵的將其簡稱為Backprop算法。這個算法能讓深度學習網絡的權重根據學習的目標和喂入的數據學習知識,給算法賦予多種多樣的能力,比如圖像分類、語音識別、自然語言翻譯、自動駕駛中路況的識別,或者其他更玄妙的能力。
Geoffrey Hinton,多倫多大學的認知心理學家和計算科學家,引領了深度學習網絡技術的很多重大突破,包括反向傳播算法。
但是多年來的生物學研究都表明,生物大腦不太可能使用反向傳播機制來進行學習。來自Montreal大學的計算機科學家、魁北克人工智能研究所科學主任、也是2007年那場“非法”的研討會的組織者之一Yoshua Bengio說,“相對于深度學習算法,人腦更加強大,它擁有更好的泛化和學習的能力”。而且各種證據都顯示,在大腦的解剖和生理構造上,特別是在皮質層,人腦是幾乎不可能利用反向傳播機制進行學習的。
Yoshua Bengio,Montreal大學的人工智能研究員和計算科學家,他也是研究具有生物合理性的學習算法的科學家之一,這些算法和反向傳播一樣具有很好的學習能力,但是在生物學的角度上也更加合理和可信。
在深度學習領域,一直以來,Bengio和很多同樣受到Hinton啟發的研究人員都在思考一個更具生物學意義的問題,就是人腦是如何工作和學習的。相對于簡單的深度學習算法來說,人腦是一個更趨于完美的有機主體,如果我們能對它的學習機制有所了解,肯定能夠促進深度學習的發展。
因此,相關的研究人員一直在苦苦求索這個人腦中的與“反向傳播”學習算法相匹配的生物機制。近年來,人們已經取得了一些相關的進展,其中最有前景的三個發現包括——反饋對齊(FeedBack Alignment)、均衡傳播(Equilibrium Propagation)和預測編碼(Predictive Coding)。還有一些研究人員甚至將生物學中某些類型的皮質層神經元的特性和注意力機制等過程具體化到他們的算法之中,力求揭示人腦神經元學習背后的奧秘。研究人員的每一個進步都讓我們對大腦的學習機制有了更深一步的理解。
“大腦是一個巨大的謎團,人們普遍相信,如果我們能夠揭示大腦的某些學習機制或學習方法,那么人工智能將能迎來進一步的發展”,Bengio如是說,“但是揭示人腦的工作機制本身也具有極高的研究價值”。使用反向傳播進行學習
深度學習網絡的基礎之一便是生物學中的神經元模型理論,該理論由加拿大心理學家Donald Hebb提出。數十年來,深度學習網絡算法的研究都是在該理論的指導下完成的。在理論模型可以通常可以被簡單地概括為“一起激活的神經元相互連接”。具體來說,這是指,活動越相關的神經元之間的聯系越強。這句簡單的“真理”啟發了無數后世的研究,源于它的若干規則和算法也成功地落地在一些學習和視覺分類任務中。但是當神經網絡的規模變得十分龐大的時候,由于需要逐步從大量數據中的誤差中學習最優的權重,反向傳播算法的效果就會差很多了。對于那些處于較深層數的深層神經元而言,它們很難通過殘留的梯度發現自身誤差,從而不能很好的更新權重并降低誤差。所以在這種情況下,深層的神經元經常會出現不學習、不收斂和不擬合的問題。這種問題被稱作梯度消失。斯坦福大學的計算神經學家和計算科學家Danniel Yamins說,“Hebb法則是一種反饋利用機制,它非常局限,只在某些很特殊情況下才會起作用,并且對誤差十分敏感”。Daniel Yamins,Stanford大學計算神經學家和計算科學家。他正在研究如何識別生物大腦中到底“運行著”哪些算法。然而,這是目前為止神經學家能夠發現和利用的最佳的模擬人腦學習的機制了。甚至在20世紀50年代那個深度學習算法和思想還未統治人工智能領域的時候,Hebb法則就啟發了第一個神經網絡模型的誕生。在那個上古時代,神經網絡中的每個神經元都僅能接受一個輸入,也只能產生一個輸出,就跟生物神經元一樣。神經元在計算中會將輸入乘以一個所謂的“突觸權重”,該突觸權重表示所連接的輸入重要度,然后將加權的輸入們求和。這個加和便構成了各神經元的輸出。到了20世紀60年代,神經元被組織成了網絡,形成一個具有輸入層和輸出層的全連接網絡。而具有該雛形結構的神經網絡模型可以用來解決一些簡單的分類和回歸問題。在訓練的過程中,神經網絡的目標是最小化輸出和真值之間的誤差,并據此調整各神經元的權重取值。而到了20世紀60年代,神經網絡由于添加了輸入和輸出層,網絡的結構開始從三明治向多層夾心巨無霸進化,也就是網絡層數開始增多。隨之而來的是深層神經元的梯度消失問題。當時沒有人知道如何有效地訓練這些深層神經元,也沒有妥善的方法能夠高效地訓練具有眾多隱藏層的神經網絡。這個困境直到1986年才得到解決,而解決的標志便是那篇由Hinton、已故的David Rumelhart和來自美國Northeastern大學的Ronald Williams共同發表的反向傳播算法論文。反向傳播算法可以分成前向和反向傳播兩個階段。在前向的階段中,當網絡得到一個輸入數據,它會根據當前模型的權重得到一個輸出,而該輸出和理想的目標輸出之間存在著一些誤差。而后在反向的階段中,學習算法將根據誤差值為每個神經元的權重進行有針對性的更新,從而使輸出和目標值之間的誤差變小。為了理解這個學習的過程,我們將網絡的實際輸出和理想輸出之間的誤差用一個“損失函數”來進行表示,它描述了模型前向輸出結果和期望輸出之間的差異。這個損失函數就像是一個二維的“山谷和丘陵”圖像,當一個網絡的實際輸出和期望輸出之間的誤差較大的時候,對應著二維圖形的丘陵部分;當誤差較小時,就對應于圖形中的山谷。當網絡根據指定輸出進行前向推理時,得到的輸出所對應的誤差會對應于二維圖像中的某個確切點,而學習的過程就是使該誤差從“丘陵”位置沿著“山坡”找到“山谷”的過程。在山谷的位置誤差和損失值是很小的。而反向傳播算法就是一種更新神經元權重從而降低損失和誤差的方法。從計算的角度和算法的本質上來說,在反向傳播階段中,算法會計算每個神經元的權重對誤差的貢獻度,然后根據誤差結果對這些權重進行修改和更新,從而提高網絡的性能、降低損失值并得到理想的輸出。這個計算過程是從輸出層向輸入層傳遞的,方向是從后層向前層進行的,因此人們將其稱為反向傳播。反向傳播算法會利用輸入和輸出的期望值所組成的數據集反復調整網絡的權重,從而得到一組可以接受的收斂的權重。
人腦不可能使用反向傳播機制
反向傳播算法在很多神經科學家的眼里是一個十分簡陋和天真的機制,他們認為在大腦中絕對不會基于反向傳播機制進行學習。其中最有名的反對者是Francis Crick,他是諾貝爾獎得主,也是DNA結構的共同發現者。而如今,Fancis則是一位神經科學家。在1989年時,Crick寫道:“就學習過程而言,大腦不太可能使用反向傳播機制來進行學習”。科學家們普遍認為反向傳播算法在生物學上是不可信的,這主要是基于幾個主要的原因。首先,在計算原理上來說,反向傳播算法分成了兩個明確的階段,一個前向、一個反向。但是在生物大腦的神經網絡中,實現這樣的機制是很難的。第二個是計算神經學家稱之為梯度/權重傳遞的問題:反向傳播算法會復制或者傳遞前向中的所有的權重信息,并根據誤差更新這些權重從而使網絡模型的準確度更高、性能更好。但是在生物大腦的神經元網絡中,各個神經元通常只能看到與其連接的神經元的輸出,而看不到形成輸出的權重分量或其內部的計算過程。Yamins說,從神經元的角度來看,“它們可以知道自己的權重,但問題是它們還需要知道其他神經元的權重,從生物學的角度上來看,這有點困難”。從生物神經學的角度來看,任何實際的生物模型和學習機制都要滿足這樣的限制:神經元只能從鄰近的神經元獲取信息。但顯而易見的是,反向傳播算法可能需要很遠處的神經元的權重信息。所以“話說回來,大腦幾乎不可能利用反向傳播進行計算和學習”,Bengio說。盡管探索的困難重重,Hinton和其他的科學家也痛快地接受了挑戰,開始研究生物學中大腦的學習過程,努力地探索生物大腦中的“反向傳播”學習機制。賓夕法尼亞大學的計算神經學科學家Konrad Kording說:“可以預期的是,第一篇提出大腦會執行類似反向傳播學習的論文可能和反向傳播的論文一樣具有跨時代的意義”。慶幸的是,在過去的十余年中,隨著人工神經網絡的爆發,人們也開始發力研究生物大腦中的“反向傳播”學習機制。
更符合生物特性的學習機制
其實在深度學習領域中,除了反向傳播之外還有一些更符合生物特性的學習算法存在。比如2016年,來自Google倫敦DeepMind團隊的Timothy Lillicrap和他的同事提出了反饋對齊(Feedback Alignment)算法。該算法并沒有傳遞權重,從而在生物學中也就更加的“合理”了。這個算法不會依賴于前向傳遞的權重矩陣,而是轉而使用一個隨機初始的反向傳遞矩陣。在算法中,一旦算法為一個神經元分配了一個權重,這些權重將不會像反向傳播算法一樣來來回回微調和改變,因此不需要為反向傳播過程傳遞任何權重。這種算法在算法的角度上來看,雖然不怎么合理,但是很令人驚訝的是,這個家伙很管用,網絡能夠通過這個算法學到比較合理的結果。由于前向推理的前向權重會隨著每次反向傳遞而更新,因此網絡仍舊會降低損失函數的梯度,但是學習和優化的實現方法是有所不同的。在該算法中,前向的權重和隨機選擇的反向權重會緩慢地對齊,并最終得到正確的結果,因此該算法被稱為反饋對齊Feedback Alignment。“事實證明,這種學習算法不是很糟糕,”Yamins說,至少對于簡單的學習任務來說是這樣的。但是對于那些復雜的問題,比如當網絡規模十分大、神經元數量很多、網絡層數很深的情況而言,反饋對齊機制還是不如傳統的反向傳播有效。這是因為相對于從反向傳播得到的誤差反饋信息而言,每次傳遞前向權重的更新都不是那么的準確,所以這樣的學習機制就會需要更多的數據。科學家們同時也在探索另一個領域,就是一種既能達到反向傳播的學習效果,又能滿足Hebb法則的生物合理性要求的學習算法。簡單來說就是如何讓算法只利用其相鄰神經元的信息進行學習和權重的更新。比如Hinton就提出了一個想法:每個神經元同時進行兩組計算。Bengio說,“這基本上就是Geoffs在2007年所說的那件事兒”。在Hinton工作的基礎上,Bengio的團隊在2017年提出了一個學習方法,該方法需要一個具有循環連接的神經網絡,也就是說,如果神經元A激活了神經元B,那么神經元B反過來也會激活神經元A。這個網絡在得到一些輸入的時候,會產生一些“回響”(reverberating),因為每個神經元都會立即對其相鄰的神經元產生反饋。最終,網絡會達到一種相對穩定的狀態,在該狀態下,網絡會在輸入和各神經元之間維持一個平衡狀態,并產生一個輸出,然而這個輸出和理想值之間存在一定的誤差。然后,算法將改變神經元的權重,從而使網絡的實際輸出朝著理想輸出值靠攏。這將使得另一個信號通過網絡反向傳播,從而起到類似的作用。最終,網絡就能找到一個新的平衡點。“算法背后的數學之美在于,如果你比較修改前和修改后的權重,你就能得到改變梯度所需的所有信息,”Bengio說。網絡的訓練只需要在大量帶標簽的訓練數據上重復這個“均衡傳播(Equilibrium Propagation)”的過程就能找到最終的結果。
預測感知
在生物學中,大腦感知過程的新研究也體現了神經元只能對局部環境做出反應的特性。Beren Milidge是Edinburgh大學的博士生,也是Sussex大學的訪問學者,他和他的同事們一直在研究這種大腦神經元的感知機制,也就是我們所謂的預測編碼(Prediction Encoding)和反向傳播之間的關系。Milidge說:“如果在生物大腦中預測編碼機制真實存在的話,那它將為我們提供一個生物學上合理的背景支撐”。預測編碼理論假設大腦不斷地對輸入做出預測,這個過程涉及神經處理的層次結構。為了產生一定的輸出,每一層都必須預測下一層的神經活動。如果某個高層的神經元認為“我需要提取出一張臉的抽象特征”,它會認為它的下一層會利用這個臉的特征進行更高層更抽象的活動。如果下一層利用了該信息,那么就印證了我提取臉的操作是正確的,反之就說明這個特征沒有意義,因為它沒有被利用。概括來說,下面一層會利用上一層所提取出的有用特征,有用的特征就像是落在視網膜上的光子一樣。這樣的話,預測就從高一層流向低一層了。但是話說回來,誤差可能發生在網絡的每一層中,每一層的輸入和輸出之間都會存在或多或少的差異,這些差異的疊加才形成最終的誤差。最底層的網絡根據收到的感知信息調整權重從而最小化誤差。這種調整可能會引起剛剛更新的層和上面層之間產生誤差,因此較高的層必須重新調整權重來最小化預測誤差。這些誤差逐漸累積并同時向上傳遞。網絡產生誤差和權重調整貫徹始終,并前后傳遞,直到每一層的預測誤差達到最小。Millidge已經證明,通過適當的配置,這種學習方法的預測編碼網絡可以收斂到和反向傳播算法十分類似的權重。他說:“你可以將網絡訓練得非常非常接近于反向傳播的權重結果。”但是相對于深度學習網絡的傳統的反向傳播算法來說,預測編碼網絡需要一次又一次地進行的迭代傳播,僅僅傳播一次是不能夠收斂的。網絡的學習過程是一個一個漸進修改的過程,預測編碼網絡通常需要幾十上百甚至千余次的傳播才能收斂。迭代也是需要時間的,因此這種迭代的機制是否具有生物合理性取決于在真實的大腦中每次傳播所需的時長。其中的關鍵點在于,生物大腦的神經網絡必須快到在外部世界的輸入發生變化之前,就收斂到一個穩定的狀態下。Milidge說:“學習的過程肯定很快,比如說,當有一只老虎向我撲來的時候,我肯定不可能讓我的大腦反復計算、反復傳播個幾百次,然后告訴我:跑!那樣的話估計我腿還沒邁開就成了老虎的下午茶了。”盡管如此,他說:“所以在真實的大腦中,一些誤差和不準確是可以接受的,預測編碼應該能夠很快的計算出一個可以接受的、一般來說都很管用的較優結果”。
椎體神經元
除了上述的比較“高級”的研究之外,也有很多科學家致力于基礎研究,比如根據單個神經元的特性建立起具有類似反向傳播能力的模型。在標準的神經元中,存在著一種生理結構叫做樹突,樹突從其他神經元中收集信息,并且將信號傳遞到神經元的細胞體中。所有的輸入在細胞體中被整合。這個輸入到整合的現象可能會導致神經元激活,從而產生軸突到突觸后神經元樹突的動作電位和生物電尖峰,當然在某種情況下也不會產生對應的動作電位。但并不是所有的神經元都有這種結構。特別是對于錐體神經元來說。錐體神經元是大腦皮層中最豐富的神經元類型,它具有樹狀結構,并且具有兩組不同的樹突。樹突的神經干向上伸展并開叉,分成所謂的頂端樹突;而神經元根部向下延伸并形成基部樹突。Kording在2001年就曾獨立提出過相應的神經元模型。無獨有偶,最近來自McGill大學和Quebec人工智能研究所的Blake Richards及其同事也提出了類似的神經元模型。這些模型已經表明神經元可以通過同時進行正向和反向的計算來形成深度學習網絡的基本單元。其模型的關鍵在于從輸入神經元的信號中分離出正向推理和反向誤差的傳播分量,這兩種誤差分量是分別由基底樹突和頂端樹突分別處理的。這兩種信號的信息可以同時在神經元中進行編碼,經過處理后可作為輸出發送到軸突,并轉換為生物電信號。Richards說,在他們團隊的最新研究中,“我們已經驗證了錐體神經元模型的可用性,我們通過算法來模擬錐體神經元的計算,并且驗證錐形神經元網絡能夠完成各種任務的學習 。然后我們將網絡模型進行初步的抽象,并利用這個由錐體神經元所組成的抽象模型進行更加復雜的任務,這些復雜的任務和普通的機器學習算法和神經網絡所做的任務一樣。”
注意力機制
在反向傳播機制中,算法默認需要一個“老師”。具體來說,“老師”就是算法中損失值對各權重的偏導梯度,通過老師的“指導”,算法能夠據此修改權重的大小。也就是說,我們需要一個提供誤差信息的機制。但是來自荷蘭阿姆斯特丹神經學研究所的Pieter Roelfsema說:“大腦中是沒有一個老師的,它也沒有一個器官或者機制來告訴每一個運動皮層的神經元對應的監督信息,每個皮層也無從知曉自己到底是應該激活還是靜息”。Roelfsema認為,雖然沒有老師的信息,但是大腦可以利用注意力機制來實現類似的效果以解決問題。在20世紀90年代末,Roelfsema和他的同事們發現,當一只猴子注視一個物體的時候,大腦皮層中代表該物體的神經元就會表現得更加活躍。猴子大腦中的注意力信息充當了老師的角色,為皮層中的神經元提供反饋監督信息。“這是一個具有高度選擇性的反饋信號,”Roelfsema說,“這不是誤差信號,它只是對所有這些神經元說:嘿伙計,我們要做一件事兒,你得出把力激活一發了。”Roelfsema認為,當基于注意力的這種反饋信號和神經科學領域中某些已有或者還未發現的現象相結合的時候,能夠在生物大腦中實現類似于反向傳播的學習效果。例如,劍橋大學Wolfram Schultz和其它人已經證明,當動物執行的某些動作產生比預期還好的效果的時候,生物大腦中的多巴胺系統就會被激活,從而產生正向的激勵效果。“多巴胺是一種神奇的神經調節劑,能讓動物們產生愉悅和幸福的感覺, 當我們獲得了多巴胺的正向激勵時,它將遍布我們的全身,強化神經元對于這種反應和動作的認可”。Roelfsema說,理論上來說,注意力反饋信號只能激活那些負責一個動作的神經元,通過更新它們的神經元權重來對整體的強化信號做出反應。Roelfsema和他的同事們基于這個想法實現了一個深度神經網絡,并研究了它的數學特性。“結果是,這種機制能夠達到和反向傳播一樣的數學結果。但是從生物學的角度上來看,注意力機制的權重調整方法顯然更加合理”。Roelfsema的團隊已經將該工作發表到了2020年12月的NeuroIPS在線會議上。他表示,“我們可以通過這個方法訓練深度網絡,它只比反向傳播算法慢了2至3倍。”因此,他說,“在所有符合生物合理性的學習算法中,基于注意力的學習機制已經是其中最好的一個了”。但是,我們的大腦真的是利用這些看似很玄學的機制來進行學習的嗎?似乎目前的研究不足以證明這一點。這些機制只是我們的一些經驗假設而已。Bengio說:“我認為我們的研究忽略了一些東西。以我的經驗而言,這可能是一些很小的機制和細節,也許我們只需要對現有的方法稍作修改就能起到奇效。”那我們如何去確定哪種學習算法在生物中是合理的呢?Yamins和他的斯坦福同事提出了一些建議。他們通過分析1056個深度網絡中的學習方法,發現可以通過神經元子集隨時間的活動現象來確定大腦的學習方法。這種信息能夠從猴子大腦的活動記錄中獲取。Yamins說:“事實證明,如果我們能夠收集到正確的觀測數據,那確定生物大腦的學習方式就變得十分簡單了。”每每想到這些好處,計算神經學家們都會暗自欣喜。Kording說:“大腦其實有很多種可以實現學習的方法,就像反向傳播一樣有效。生物的進化十分奇妙,我相信反向傳播是有效的,而進化論會推著我們朝著這個方向演進的!”https://www.quantamagazine.org/artificial-neural-nets-finally-yield-clues-to-how-brains-learn-20210218/未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智能智商評測;開展互聯網(城市)云腦研究計劃,構建互聯網(城市)云腦技術和企業圖譜,為提升企業,行業與城市的智能水平服務。