精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
麻省理工解讀神經網絡歷史,三篇論文剖析基礎理論

選自MIT News

作者:Larry Hardesty

機器之心編譯

參與:吳攀、李亞洲、晏奇


最近幾年來,深度神經網絡已經成為了人工智能技術發展的主要推動力。近日,麻省理工學院官網上刊登了一篇解讀神經網絡的發展過程的文章,梳理介紹了神經網絡在過去 70 年來的起起伏伏。在文章中,作者還簡單介紹了 MIT 的大腦、心智和機器中心(CBMM)在神經網絡基礎理論上的一些研究成果。機器之心對該文章進行了編譯介紹,還摘要性地介紹了 CBMM 已經發布的三項理論研究成果,具體研究詳情請參閱相關論文。


許多深度學習應用使用卷積神經網絡,網絡中每層的節點是聚合在一起的,這些集群(cluster)互相重疊,每個集群為下一層的多個節點(橘黃與綠色)饋送數據。


在過去的 10 年中,人工智能系統的最好表現(比如智能手機上的語音識別系統或谷歌最新的自動翻譯系統)結果來自于一種名為「深度學習」的技術。


深度學習事實上是名為神經網絡的人工智能方法的新名字,神經網絡在流行與過時的起起伏伏間已經存在了 70 年之久。神經網絡由 Warren McCullough 和 Walter Pitts 于 1944 年首次提出,這兩位芝加哥大學的研究人員于 1952 年加入 MIT,并成為了首個認知科學系的創始成員。


直到 1969 年以前,神經網絡都一直是神經科學和計算機科學的主要研究領域。據計算機科學界的一個傳言說,神經網絡研究熱潮是被麻省理工的數學家 Marvin Minsky 和 Seymour Papert 澆滅的,Seymour Papert 在 1970 年成為了新麻省理工人工智能實驗室的聯合負責人。

后來,神經網絡技術在 1980 年代重獲復蘇,但是在 21 世紀的第一個十年里卻再次衰落。在第二個十年里,現在神經網絡勢如破竹般地歸來,這主要歸功于今天圖像芯片強大地處理能力。


「有這么一個觀點認為,科學界中地觀點有點像流行病毒,」Tomaso Poggio 說道,他是麻省理工腦與認知科學學院的 Eugene McDermott 教授(Eugene McDermott Professor of Brain and Cognitive Sciences),麻省理工 McGovern 大腦研究所(McGovern Institute for Brain Research)的研究員,也是麻省理工大腦、心智和機器中心(CBMM:Center for Brains, Minds, and Machines)的主任。「顯然,存在 5 到 6 種基本流感病毒株,而且每一種大約 25 年會爆發一次。人們會被感染,然后發展出免相應的疫防御機制,于是在接下來的 25 年中他們不會再次感染該種流感病毒。然后,同樣的病毒株會變異成新的一代可以感染人類的病毒。在科學領域,當人們非常熱衷于一個觀點時,他們會對這個觀點非常興奮,極力為其辯護,然后他們會對該觀點免疫——即厭倦它。這樣的觀點應該也有和上述流感病毒例子同樣的周期性!」Tomaso Poggio 說。


權重真的很重要


神經網絡是一種機器學習方法,其中計算機通過分析訓練樣本來學習執行某些任務。一般來說,這些樣本都事先被人工標注過了。比如說,一個目標識別系統可能在分析了成千上萬張汽車、房子、咖啡杯的圖像之后能夠找到圖像中與特定標簽持續相關的的視覺模式。


神經網絡是對人腦的簡單建模,其包含了上萬乃至數百萬的簡單處理節點,這些節點之間緊密連接。今天大多數神經網絡的組織形式都是層次化的節點,而且它們是「前饋的(feed-forward)」,也就是說其中的數據僅在一個方向上流動。一個單個節點可能會連接到其下層的多個節點(它們將數據傳輸給下層節點)和其上層的多個節點(它們接收上層節點的數據)。


對于每個接入的連接,節點會分配一個數字:「權重(weight)」。當神經網絡在運行中時,節點會從每個連接上接收到不同的數據——不同的數字——它們會與相關的權重相乘。隨后,這些結果會被疊加在一起,生成一個數字。如果這個數字小于閾值,則節點不會向下一層傳遞數據;反之,如果數字超過了閾值,節點會被「觸發」,在今天的神經網絡中這通常意味著把這個數字(輸入權重的和)傳送到所有與之連接的下游位置。


當一個神經網絡被訓練時,它的所有權重和閾值的初始狀態都是隨機的。訓練數據被遞送到底層——輸入層——從這里開始所有層級的傳遞,以復雜的方式相乘并疊加在一起,直到它們最終經過完全轉換到達輸出層為止。在訓練時,權重和閾值會持續受到訓練數據影響,直到具有相同標簽的數據可以產生相同的輸出。


心智和機器


1944 年 McCullough 和 Pitts 描述的神經網絡有閾值和權重,但并不是按層的方式排列的,而且當時研究人員也沒詳細說明任何訓練機制。McCullough 和 Pitts 展現的是神經網絡能夠在理論上計算任何數字化計算機能夠計算的函數。結果更偏向于神經科學,而非計算機科學:關鍵點是人類大腦可被視為一種計算設備。


神經網絡一直是神經科學研究的有力工具。例如,特別是調整權重和閾值的網絡布局或規則曾產生了人類神經解剖學和認知研究中觀察到的特征,為了解大腦如何處理信息提供了指引。


首個可訓練的神經網絡——感知器(Perceptron),由康奈爾大學的心理學家 Frank Rosenblatt 于 1957 年提。感知器的設計非常類似于現代的神經網絡,只是它僅有一層帶有可調整權重和閾值的層,夾在輸入和輸出層之間。


直到 1959 年,感知器都是心理學和計算機科學新科目的活躍研究領域,當時 Minsky 和 Papert 發表了一本名為「Perceptrons」的書,證明在感知器上執行一定量的常見計算會非常耗時間,不切實際。


Poggio 說:「當然,如果你采用機制稍微復雜一點,比如 2 層,那么所有的這些缺陷也就不存在了。」但在當時,這本書為神經網絡的研究潑了一盆冷水。


「你要把歷史環境考慮在內,」Poggio 說,「他們在爭論編程,爭論 Lisp 這樣的語言。不久之前,人們仍在使用模擬計算機。編程的路不是一直以來都是很清晰的。我覺得他們有點過了,但像往常一樣,這種事不是非黑即白的。如果你把它當成模擬計算和數字化計算之間的競爭,那當時他們就是為正確的一方而戰。」


周期性


但是在 20 世紀 80 年代,研究者已經開發出了用于修改神經網絡的權重和閾值的算法,該算法消除了 Minsky 和 Papert 確定的諸多限制,并對超過一層的網絡而言是足夠有效的。該領域迎來了復興!


但在智能上,神經網絡也有一些讓人不滿意的地方。也許足夠的數據能讓一個神經網絡最后達到足夠有用的數據分類水平,但這些設置意味著什么?一個目標識別器看了什么樣的圖像特征?這些特征又是如何組合在一起成為了汽車、房子或咖啡杯的識別標簽的?觀察網絡的單個連接的權重不能為我們提供答案。


最近幾年,計算機科學家已經開始構想用于推導神經網絡所采用的策略的巧妙方法。但在 20 世紀 80 年代,網絡的策略還是無法解讀的。所以大約在世紀之交的時候,神經網絡被支持向量機取代。支持向量機是另一種機器學習方法,基于非常簡潔和優雅的數學。


神經網絡最近的復蘇——深度學習革命——承蒙計算機游戲產業的發展。今天,復雜圖像和快節奏的視頻游戲需要硬件能跟得上,于是,出現了圖像處理單元(graphics processing unit,GPU)。GPU 可以在單個芯片上集成成千上萬個相對簡單的處理核心。沒過多久研究者就意識到,其實 GPU 的構架非常像一個神經網絡。


現代 GPU 使得 1960 年代的一層網絡和 1980 年代的 2 到 3 層網絡直接飛躍成今天的 10 層、15 層、甚至是 50 層網絡。這也即所謂深度學習中的「深度」之所指——神經網絡層的深度。目前,深度學習幾乎在每一個人工智能研究領域都是表現最為優異的系統。


表面之下的理論


網絡的不透明性仍然是一個懸而未決的理論問題,但在這個方向上也有進展。除了領導大腦、心智和機器中心(CBMM:Center for Brains, Minds, and Machines),Peggio 還領導了該中心的「智能的理論框架(Theoretical Frameworks for Intelligence)」研究項目。最近,該團隊已經發布了三篇有關神經網絡的理論研究成果。


第一篇上個月發表在 International Journal of Automation and Computing 上,其介紹了深度學習網絡所能執行的計算的范圍以及深度學習何時實現了對淺度學習的超越。第 2 和 3 篇是作為 CBMM 技術報告發布的,介紹了全局優化問題(即網絡該如何找到最匹配其訓練數據的設置)以及過擬合問題(即當網絡過于擬合其訓練數據的細節時,其將難以泛化到該類別的其它實例上)。


有待解答的理論問題還有很多很多,但 CBMM 的研究有可能幫助神經網絡打破過去七十年來起起伏伏的循環。


以下是對上述三項 CBMM 理論研究成果的摘要介紹: 


論文一:深度網絡而非淺度網絡可以避開維度詛咒的原因和時間:一個概述(Why and when can deep-but not shallow-networks avoid the curse of dimensionality: A review)




鏈接:https://link.springer.com/article/10.1007/s11633-017-1054-2


本論文概述并擴展了在深度學習上的新興理論成果,其中包括深度學習可以極大地優于淺度學習(shallow learning)的條件基礎。一類深度卷積網絡代表了這些條件的一個重要的特殊類別,盡管權重共享(weight sharing)并不是這種極大的優勢的主要原因。本論文還討論了一些關鍵定理的含義,以及一些新的結果、尚未解決的問題和猜想。


論文二:理論二:深度學習的經驗風險全景(Theory II: Landscape of the Empirical Risk in Deep Learning)



論文地址:http://cbmm.mit.edu/sites/default/files/publications/CBMM-Memo-066.pdf


之前在深度學習和神經網絡優化上的理論成果往往傾向于避開鞍點(saddle point)和局部最小值(local minima)。但是,實際的觀察(至少對于用于視覺處理的最成功的深度卷積神經網絡(DCNN)而言)卻是:實踐者總是可以通過增加網絡的規模來擬合訓練數據([1] 就是一個極端案例)。VGG 和 ResNet 等最成功的 DCNN 最適用于有少量「過參數化(overparametrization)」的情況。在本論文中,我們通過理論和實驗的混合來描繪了過參數化的 DCNN 的經驗風險(empirical risk)整體情況。我們首先證明了存在大量的退化的全局最小化器(degenerate global minimizer),其具有 0 經驗誤差(empirical error)(模不一致方程(modulo inconsistent equations))。這個零最小化器(zero-minimizer)在分類的情況下具有非零的邊際。這同一最小化器是退化的,因此非常有可能通過 SGD 找到,這將有更好的可能性進一步選擇出有更大邊際的零最小化器,如理論 3 中所討論的。我們進一步實驗性地探索并可視化了一個 DCNN 在 CIFAR-10 上的整個訓練過程(尤其是全局最小值)中的經驗風險全景。最后,基于我們的理論和實驗結果,我們提出了一種直觀的 DCNN 經驗損失面(empirical loss surface)全景模型,其可能并不如人們普遍認為的那樣的復雜。


論文三:深度學習理論 3:隨機梯度下降的泛化性質(Theory of Deep Learning III: Generalization Properties of SGD)




論文地址:http://cbmm.mit.edu/sites/default/files/publications/CBMM-Memo-067.pdf


在理論 2 中,我們通過理論和實驗的混合來描繪了過參數化的深度卷積神經網絡中隨機梯度下降(SGD)的泛化性質。我們表明隨機梯度下降更有可能選擇有以下特征的解:


1)有零(或小)的經驗誤差;

2)是退化的,如理論 2 中所示;

3)有最大的泛化。 


原文鏈接:http://news.mit.edu/2017/explained-neural-networks-deep-learning-0414



本文為機器之心編譯,轉載請聯系本公眾號獲得授權

------------------------------------------------

加入機器之心(全職記者/實習生):hr@jiqizhixin.com

投稿或尋求報道:editor@jiqizhixin.com

廣告&商務合作:bd@jiqizhixin.com

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
什么是神經網絡?
深度 | MIT開發新型神經網絡訓練技術,讓模型決策不再黑箱(附論文)
騰訊新聞
神經網絡簡介
一文掌握深度學習、神經網絡和學習過程的歷史
一種基于離散系數的深度神經網絡近似模型分析方法
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 汶上县| 农安县| 佛冈县| 土默特右旗| 庄河市| 柯坪县| 张家界市| 呼和浩特市| 华安县| 连南| 登封市| 阿瓦提县| 赣州市| 朔州市| 洛川县| 红原县| 新余市| 万荣县| 龙里县| 太和县| 红桥区| 邵东县| 闻喜县| 昌乐县| 白河县| 新泰市| 小金县| 紫云| 新密市| 乐至县| 滦南县| 晋江市| 望谟县| 东台市| 连城县| 香河县| 诸暨市| 正阳县| 稻城县| 拉萨市| 祁东县|