精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
神經網絡和深度學習簡史(四)

        “問問機器學習從業者,究竟是什么還在維持著奄奄一息的神經網絡?你可能會聽到以下三個人名中的一個:Geoffrey Hinton,加拿大的Yoshua Bengio,或是Facebook的Yann LeCun。”[1]


一、深度學習計劃


        當你想要發動一場革命,你就要從陰謀開始。隨著支持向量機(SVM)的成功以及反向傳播的失敗,神經網絡的研究在21世紀迎來了黑暗時期。LeCun和Hinton不約而同的提到了他們或他們學生的論文,在那樣一個時期是如何被拒絕出版的,而原因僅僅是他們的主題是有關神經網絡的。最上方的引言可能有一些夸張的成分,還是有一些人在從事機器學習和人工智能的研究,他們也還在使用神經網絡,但是他們自己也清楚神經網絡的研究已經陷入了一個低谷。堅持這一研究的他們找到了一個強大的盟友:加拿大政府。加拿大的高級研究所(CIFAR)出資資助他們從事這種沒有實際應用的基礎科學的研究,而這也在1987年促使Hinton搬到加拿大繼續他的研究。然而,隨著90年代中期社會對神經網絡的態度再一次反轉,資助資金取消了,但Hinton并沒有放棄它的研究,它設法繼續從CIFAR獲得資金,以供自己繼續從事神經網絡的研究。


       “2004年,Hinton要求推動一個新的神經計算,主流機器學習社區不可能對神經網絡一點興趣也沒有。”

       “這可能是最糟糕的時間。”CIFAR的聯合發起者,來自蒙特利爾大學的Bengio如此說道。“從去年開始,大家都在忙著不同的事情,但是不知怎的,Geoff說服了他們”,

        “我們應該給CIFAR一點信心,好讓他們愿意加入這個計劃。”

        CIFAR“對機器學習社區的建立起到了巨大的作用。” CIFAR的另一位聯合發起者LeCun補充到,“我們有點被廣義的機器學習社區拋棄了的意味:我們的論文無法發表。但這給了我們一個可以交流想法的平臺”


        盡管資金不多,但也足夠一小群研究人員繼續工作了。正如Hinton自己所說,他們通過把神經網絡改名為深度學習這樣一種陰謀方式,來繼續對神經網絡進行研究。然后,每一個神經網絡研究者希望看到的事情發生了:Hinton, Simon Osindero, 和Yee-Whye在2006年發表了一篇被認為可以重新燃起社會對神經網絡的興趣點文章:一種可以實現快速學習的深度信念網絡[2]。盡管這些算法已經被新的算法所取代,但是我們已經初步看到了“深度學習”的端倪。比這個名字更重要的是,如果權重可以以更好的方式來代替隨機初始化,多層神經網絡可以被訓練得很好。Hinton曾經這樣表示:


       “這是一個歷史性的時刻,這個時刻我們克服了對神經網絡的成見。這些成見認為神經網絡不好,永遠都不會訓練。前不久我的一個朋友向國際機器學習會議(ICML)投稿,但是評審拒絕了他,僅僅是因為文章的內容是關于神經網絡。可以查ICML近幾年的收錄記錄,沒有任何一篇文章是有關神經網絡的。所以IEEE期刊應該是又一個‘不接受神經網絡’的官方政策。所以這是一個重要的時刻”



圖4.1 限制玻爾茲曼機

        

        那么我們究竟應該怎么聰明的初始化權重?基本思想是逐層的對每一層神經網絡進行無監督訓練,起始權重是一些隨機值,然后想常規神經網絡的完成一次監督學習。每層都會以一個受限玻爾茲曼機作為開始,并把它作為隱含層之間的可見單元的連接點,以無監督的方式來訓練生成模型。事實證明,這種訓練方式可以按照Hinton在2002年的論文“Training Products of Experts by Minimizing Contrastive Divergence”[3]中提及的方式進行,并取得不錯的成果。該算法不僅使單元產生訓練數據的可能性最大化,還被證實訓練結果十分理想。算法如下:

1、在RBM上使用對比-散度的方式訓練數據。這是信念網絡的第一層。

2、對通過RBM的數據生成隱含值,并使用這些隱含值來訓練另外一個RBM。把這些隱含值“堆”在第一層,并保持權重在想用的方向,形成一個信念網。這是第二層。

3、重復第二部,直到達到需求的信念網的層數。

4、如果需要分類,則需要添加對應分類標簽的一組隱藏單元,并對喚醒睡眠的的算法作出微調來調整權重。這種無監督學習和監督學習組合的方式通常被稱為半監督學習。



圖4.2 Hinton介紹的分層預訓練


        該文結尾處表示,深度信念網絡(DBNs)對于標準的MNIST識別字符數據集具有最優性能,明顯優于只有幾層的神經網絡。Yoshua Bengio等人在2007年的論文“Greedy Layer-Wise Training of Deep Networks”[4]中,提出了一個強有力的證明,證明了深層機器學習方法(有許多步的算法,或等價于有很多維的特征的數據),在處理復雜的問題比簡單的算法(有兩層的ANN或是支持想理機之類的算法)更加有效。



圖4.3 另外一個無監督與訓練的觀點,使用自動編碼器來代替RBM


        他們還提出了添加無監督訓練的原因和結果,因為這樣不僅可以以更優化待方式初始化權重,更重要的是還可以對數據進行更有代表性的學習。事實上,使用RBM并不是那么重要,使用反向傳播或普通自動編碼器的正常神經網絡層的無監督的預訓練效果也很好。同樣,稀疏編碼也表明無監督特征學習是一種提高監督學習性能的方式。

        所以,深度網絡的真正關鍵之處在于,多層的計算單元可以更好的訓練高維原始數據。這與傳統的手動設計特征提取方法,再進行特征學習的方式大相徑庭。Hinton和Bengio的工作也證明了這個事實,更重要的是打破了深度神經網絡不能被良好的訓練這樣一個誤解。盡管LeCun已經證明了CNNs,但神經網絡仍然是去了青睞。Bengio與Yann LeCun一同在論文 “Scaling Algorithms Towards AI”[5]重申了這一點:

        

        “直到最近,有很多人都認為深度神經網絡的訓練算法太難優化。然而至少有兩種不同的方法已經被證明了在此種架構下是很有效的:一是基于卷積神經網絡的簡單梯度下降法[LeCun等人在1989年、1998年論證],該算法在(圖像和信號領域)逐層進行無監督學習。二是梯度下降法[2006年Hinton等人,2007年Bengio等人,2006年Ranzato等人]。深度學習架構仍處于起步階段,更好的深度學習算法仍有待發現。從更廣闊的角度來看,我們仍需要一個指引AI未來發展方向的原則。我們希望通過鼓勵他人,大家一起尋找解決通過機器學習方式來解決AI的方法。”


        盡管深度學習還沒有獲得今日一般的科研熱潮,但他們確實在開始并進行一些鼓勵性工作,深度學習的浪潮也因此開始涌動了。但是,論文中這些被證實有效的算法大多數是針對MNIST數據集,這時候MNIST數據集作為一個經典的機器學習任務已經成為了算法的標準基準近十年了。Hinton在2006的論文在測試機上取得了驚人的1.25%的錯誤率,但是SVM也取得了1.4%的錯誤率,簡單的算法也可以得到很低的錯誤率。Yann LeCun在1998年使用CNN證明了錯誤率僅為0.95%。

        所以在MNIST上成績好并不見得是什么大本事。這個時候,是深度學習登上歷史舞臺了。Hinton和他的兩個研究生Abdel-rahman Mohamed和George Dahl,完成了一個更具有挑戰性的AI任務:語音識別[6]。使用DBN,Hinton和這兩個學生在一個標準語音識別數據集改進了一個塵封了10年的記錄。這是一個令人深刻的成就,但今天看起來似乎暗示著什么:越來越堵的記錄逐漸被打破了。


二、硬件的重要性


        上述算法的出現無疑促進了深度學習的發展,但是深度學習的進不來不開另外一個重要組成部分:從上世紀90年代以來就在不斷進步計算能力。根據摩爾定律,90年代以來的計算機的運算速度已經提高了十幾倍,這使得大數據的采集和多層學習變得更加容易。但是這還遠遠不夠,CPU的運算能力開始達到頂點,而計算機也開始通過幾個CPU并行的方式來增加計算機的功率,為了學習深度學習中上百萬的節點的權重,我們必須大幅度克服CPU并行處理的局限性,并采取大規模GPU并行的方式來增強計算能力。為了更好了理解這一點,我們來看看Abdel-rahman Mohamed,George Dahl和Geoff Hinton是如何提升他們的語音識別算法的性能的[7]。

        

        “受到Hinton一篇關于深度神經網絡的演講的啟發,Mohamed開始將這一算法應用到語音識別,但是深度神經網絡需要太多的計算機來提升計算能力,所以Hinton和Mohamed拉上了Dahl。Dahl是Hinton實驗室的學生,他已經開始使用相同規格的高端顯卡來訓練和模擬神經網絡了,而這些高端顯卡是用來提升電腦游戲畫面的。

        他們采用相同的方法來識別短的語音窗口中的音素片段的問題,Hinton表示,該方法可以是結果獲得顯著的提升。

        這種情況很難明確的表示使用GPU比CPU效果具體好多少,同年的“Large-scale Deep Unsupervised Learning using Graphics Processors” [8]大賽給出了明確的數字:75倍!70倍的速度將會把幾周的工作量簡化為幾天,甚至一天就可以完成。包括著名的機器學習研究者Andrew Ng在內的眾多稀疏編碼研究者,開始逐漸意識到大家過多的重視算法的變化,卻忽略了對數據量以及算法速度的利用。這樣的想法在2010年出版的“Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition”[9]里面得到了強烈的支持,該文的作者是LTSM的聯合創始人之一的J. Schmidhuber,該文表示大規模的神經網絡、輸入上的多種變化以及高效的GPU實現,可以在MNIST數據集上實現驚人的0.35%的錯誤率。這樣的算法已經存在了幾十年,雖然不能否認算法也在進步,但是這個結果無疑表明大的數據量和快速并行計算能力同樣重要。

        Dahl和Mohamed使用GPU來打破的紀錄盡管很小,但也足以使他們成為微軟研究院的實習生。在這里,他們接觸到了另外一種計算趨勢:大數據。大數據作為一個很寬泛的概念,卻很容易在機器學習中被理解,大數據代表著大量的訓練數據。大量的訓練數據才似得神經網絡達到了現在的高度,神經網絡過去太過于工作在訓練數據上,卻不推廣到新的測試數據。這背后的數學道理是:大型神經網絡需要大量的數據進行訓練,以避免它們學習到訓練集中某個不重要的方面,這在以前是研究人員面臨的一個重要的考驗。現今,大公司的的數據收集和計算能力證明被是無價的。這兩個學生在三個月的實習期間輕松地證明了深度學習的力量,而微軟研究院自那時起就一直處于深度學習語音識別的前沿。

        微軟不是第一家認識到深度學習能力的大公司,但很有可能是第一個。Hinton的另一名學生Navdeep Jaitly于2011年在Google做了暑期實習。在那里,他致力于Google的語音識別,并表示他們現有的設置可以通過結合深度學習得到很大改進。 改進的方法很快就支持Android的語音識別,取代了Google絕大多數現有的精心制作的解決方案。        

        除了這些謙遜的博士生對這些公司產品做出的巨大改變,還有兩家公司我們不得不提,就是持有開源態度的微軟和谷歌。就像IBM和Hinton的實驗室一樣,這里在2012年誕生了題為“Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups”[10]的論文。這一文章的研究人員分別來自四個研究小組,三個公司。建立一個支持深度學習的包以供大學的科研小組使用,來普及這項技術并推廣到更多的團體,這樣一個想法從那以后似乎在科研界中被逐漸采納。

        但我們也不能因此說各大公司是出于慈善的角度才這樣做的。這只是關于商業化技術的探索,當然大多數都是屬于谷歌的。但是發起人可能不是Hinton,而是Ng博士,正是他提議谷歌成為世界最大的商業化探索者和技術的倡導者。2011年,Ng在訪問該公司時偶然會見了傳奇的Google員工Jeff Dean,并聊了他利用Google的計算資源訓練神經網絡的努力。這成功的引起了Dean的注意,也促成了谷歌大腦的形成——建立一個真正巨大的神經網絡,并探索他們可以做什么。這項工作使得了無人監管的神經網絡學習達到了前所未有的規模 - 16,000個CPU核心可以學習高達10億的權重(為了比較,Hinton2006年點DBN大概突破了100萬權重)。這個神經網絡經過對完全沒有標簽的Youtube視頻進行訓練,最終學會了識別這些視頻中最常見的對象——互聯網中最容易帶來快樂的東西,貓:


 

圖4.4 谷歌著名的神經網絡,就是該網絡學會了小貓。這是對一個神經元的最好輸入


        小貓不但可愛,還用重要意義。正如在定期發表的論文中描述的,該模型所學到的特征可用于在標準計算機視覺上記錄基本的設置性能[11]。 因此,Google內部用于訓練數據大規模的神經網絡工具誕生了,他們仍然繼續發展。 因此2006年開始的深度學習研究浪潮毫無疑問的把谷歌推入了行業之中。


三、機器學習的繁榮期

  

        在工業界依然開始研究深度學習的時候,學術界也很難保持靜止了。在發現對GPU的利用和計算能力大大增強,我們不禁想到那個很早以前的問題:為什么反向傳播效果不好?對于為何舊算法效果不好而不是為何新算法效果好的思考,促成了Xavier Glort 和Yoshua Bengio2010年發表的論文“Understanding the difficulty of training deep feedforward neural networks” [12]。文中他們討論了兩個非常有意義的發現:

        1、為什么在神經網絡中對神經元選擇特定的非線性激活函數會對性能產生巨大的影響,通常情況下默認的非線性激活函數不是一個很好的選擇。

        2、隨機選擇權重并不是那么有問題,就如同不考慮是哪一層來選擇隨機權重。過去的梯度消失問題是因為反向傳播涉及到一系列乘法運算,這會導致前層的導數較小。這就意味著,我們要根據所在層的不同來選擇權重,這將會帶來性能上的顯著改變。



圖4.5 不同的激勵函數,ReLU代表非線性修正單元


        第二點就是為了結局第一點提出的問題:“什么是最好的激勵函數?”三個不同的小組研究了這個問題(LeCun的團隊討論“對象識別領域什么事最好的多級架構?”[13],Hinton的團隊討論“線性修正單元改進玻爾茲曼機”[14],Bengio的團隊討論“深度稀疏編碼神經網絡”[15])他們的研究都指向了一個讓人震驚的答案:非常不可微和非常簡單的函數f(x)= max(0,x)往往是最好的。吃驚之處就在于方程是嚴格不可微的,或者是在0處嚴格不可微,所以該方程的數學表達式往往是十分丑陋的。很明顯零的情況是一種數學詭辯,問題在于,為什么這樣一個在0的兩側連續導數都是0的方程,會有這樣好的效果?答案似乎還不明確,但是我們有一些相關的想法:

        1、修正函數導致稀疏表示,這就意味著只有少部分的神經元對于任何給定的輸入需要輸出一個非零值。在倡導修正函數的幾年中,稀疏性被證明是有益的,因為它不僅可以以更魯棒的方式來表示信息,還可以更顯著大提升計算效率(如果大多數神經元都輸出零,那么我們可以忽略大多數的問題并且更快的計算數據)。順便提一下,計算神經科學的科研人員首先提出了稀疏計算在大腦視覺環境中的重要性,這比其應用于機器學習領域早了10年。

        2、簡單的函數以及其簡單的導數使得該函數的工作速度比指數型的sigmoid 或是 三角型的tanh快很多。就如同對GPU的使用,這不僅可以提升一小部分性能,這甚至可以作為可以在神經網絡擴展方面可以做出挑戰性突破的點。

        3、后來,一篇由Andrew Ng合著的題為“Rectifier Nonlinearities Impro Neural Network Acoustic Models”[16]的論文,也分析了ReLU函數的常為0或1的微分并不會對學習過程造成不利影響。甚至它還有助于避免梯度消失的問題,而這些問題都是反向傳播算法中不可避免的。此外除了可以產生更多稀疏表示之外,它還可以產生分布式的表示——這就意味著可以組合導出多個不同神經元的值,而不是定位到單個神經元。

        在這一點上,我們可以知道,2006年的發現——無監督的預訓練,在深度學習之中不是必要的。雖然毫無疑問,無監督的預訓練是有幫助的,但是在另外一些情況下,監督訓練可以比無監督訓練有更好的結果,因為監督訓練擁有爭取的權值和激勵函數。所以,為什么過去監督模型和反向傳播不能很好的工作? Geoffrey Hinton總結了時至今日的四點發現:


        1、我們的標簽數據比要求的小了上千倍。

        2、我們的電腦比要求的慢了上百萬倍。

        3、我們很愚蠢的初始化了權重。

        4、我們是用了錯誤的非線性激勵函數。


        所以,經過幾十年的刻苦研究,我們知道:

深度學習=大量的訓練數據 并行計算 可擴展的智能算法



        

圖4.6 深度學習中的計算機視覺“配方”


        不是所有的事情都要把其中的細節弄的清楚明白。恰恰相反:人類的直覺往往是錯誤的。特別是毫無疑問的決定和假設往往是值得質疑的。提出并解答簡單的問題,這才是提高最先進的技術的正確方式。正是這種一直發生的行為,才導致機器學習領域更多的想法和方法被探索喝共享。舉個例子:Hinton等人的“Improving neural networks by preventing co-adaptation of feature detectors”[17]這一想法很簡單——在訓練中假設一些神經元離線以防止過度擬合。這種被稱為Dropout的簡單想法,是一種非常有效的進行集成學習的方法,該算法可以對同一個訓練集以不同的方式進行學習。機器學習技術發展到今天,隨機森林也被認為是一種有效的集成學習的方式。盡管訓練多個不同的神經網絡技術上是可行的,但是代價也是十分昂貴的,但是這個簡單的想法卻在本質上實現了相同的目的。

        但是2006年之后,讓這些計算機視覺團體或其他研究人員再次重視神經網絡的并不是這些研究發現。而是另外一種不高尚的方式:對其他非深度學習方法進行了一次碾壓。Geoffrey Hinton招募了他的兩個半途而廢的合作者Alex Krizhevsky和Ilya Sutskever,他們共同參加了ILSVRC-2012計算機視覺競賽。今日理解他們的工作十分簡單,其思想已經在“ImageNet Classification with deep convolutional neural networks”[18]中闡述,組合起一些古老的概念(一個擁有池層和卷基層的CNN,輸入數據有所改變),和幾個創新點(高效的GPU實現,ReLU激勵函數,Dropout),而這些組合起來正式現代深度學習。然后他們碾壓了所有其他參賽者,他們作為第一名的錯誤率僅有15.3%,遠遠高于第二名的26.2%。這是在該比賽歷史上第一次也是唯一一次出現CNN的項目,這一跡象表明,CNN和一般的深度學習不同,算機視覺必須要認真對待。現在,競爭的所有算法幾乎都是CNN——那個由Yann LeCun 1989年提出的神經網絡模型。還記得90年代由Sepp Hochreiter和JürgenSchmidhuber設計的用以解決反向傳播問題的LSTM嗎?這個限制是解決語音處理的首選方案。

        這一事件就是整個學術屆的轉折點。一波遠遠超過其他技術的機器學習的浪潮終于襲來,誰都不能否認深度學習的成就。我們在最開始就把這種浪潮比做海嘯,現在它終于成長到了這一天,在經歷了那么多的寒冬以后,深度學習就這樣屹立在這兒,再無寒冬可見。



圖4.7 一些深度學習關鍵人物的論文索引數量,相信不需要我指出2012年以后的變化趨勢,數據來源于谷歌學術。



四、最先進的技術

      如果這是一部電影,那么無疑2012年的ImageNet大賽可以作為高潮。下面我們要具體介紹一下他們現在還在哪:Yann LeCun - Facebook;Geoffrey Hinton - Google;Andrew Ng - Coursera,Google,百度(譯者注,吳恩達已于2014年5月16日離職google,任百度人工智能首席科學家);Bengio,Schmidhuber和Hochreiter仍然在學術界(譯者注,在實驗室Maluuba被微軟收購后,Yoshua Bengio已于2017年1月14日稱為微軟的科學家),還有一些其他未被提到研究人員/研究生[19]。事實上,正是這些人在機器學習領域深耕幾十年(甚至被學術界所拋棄),才換來深度學習今日的成就。與以往的研究工作相比,這些人的想法仍然是十分開放的,甚至所有公司都是采購他們的深度學習框架,就像一種工業界引導學術界的傳奇故事。

        不會妄自菲薄的認為自己可以在一部分里面總結近幾年的研究成果,因為這幾年機器學習的科研成果層出不窮,我很清楚我們是無法在一部分里面全部列出的。也許有一天我們會通過五個部分把這些成果完成的故事列出來,下面我們來對做一個簡介:



1、LSTM和RNN通過分布式的方式重現“想法”

        

圖4.8 去年的研究成果


2、使用深度學習的強化學習(這一次更好了)


https://youtu.be/V1eYniJ0Rnk(來源于youtube的視頻)


3、添加外部可讀寫存儲器的神經網絡


https://youtu.be/U_Wgc1JOsBk(來源于youtube的視頻)




  1. Kate Allen. How a Toronto professor’s research revolutionized artificial intelligence Science and Technology reporter, Apr 17 2015 http://www.thestar.com/news/world/2015/04/17/how-a-toronto-professors-research-revolutionized-artificial-intelligence.html ? ?2 ?3 ?4 ?5

  2. Hinton, G. E., Osindero, S., & Teh, Y. W. (2006). A fast learning algorithm for deep belief nets. Neural computation, 18(7), 1527-1554. ?

  3. Hinton, G. E. (2002). Training products of experts by minimizing contrastive divergence. Neural computation, 14(8), 1771-1800. ?

  4. Bengio, Y., Lamblin, P., Popovici, D., & Larochelle, H. (2007). Greedy layer-wise training of deep networks. Advances in neural information processing systems, 19, 153. ?

  5. Bengio, Y., & LeCun, Y. (2007). Scaling learning algorithms towards AI. Large-scale kernel machines, 34(5). ?

  6. Mohamed, A. R., Sainath, T. N., Dahl, G., Ramabhadran, B., Hinton, G. E., & Picheny, M. (2011, May). Deep belief networks using discriminative features for phone recognition. In Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on (pp. 5060-5063). IEEE. ?

  7. November 26, 2012. Leading breakthroughs in speech recognition software at Microsoft, Google, IBM Source: http://news.utoronto.ca/leading-breakthroughs-speech-recognition-software-microsoft-google-ibm ?

  8. Raina, R., Madhavan, A., & Ng, A. Y. (2009, June). Large-scale deep unsupervised learning using graphics processors. In Proceedings of the 26th annual international conference on machine learning (pp. 873-880). ACM. ?

  9. Claudiu Ciresan, D., Meier, U., Gambardella, L. M., & Schmidhuber, J. (2010). Deep big simple neural nets excel on handwritten digit recognition. arXiv preprint arXiv:1003.0358. ?

  10. Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., … & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. Signal Processing Magazine, IEEE, 29(6), 82-97. ?

  11. Le, Q. V. (2013, May). Building high-level features using large scale unsupervised learning. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on (pp. 8595-8598). IEEE. ?

  12. Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks. In International conference on artificial intelligence and statistics (pp. 249-256). ?

  13. Jarrett, K., Kavukcuoglu, K., Ranzato, M. A., & LeCun, Y. (2009, September). What is the best multi-stage architecture for object recognition?. In Computer Vision, 2009 IEEE 12th International Conference on (pp. 2146-2153). IEEE. ?

  14. Nair, V., & Hinton, G. E. (2010). Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th International Conference on Machine Learning (ICML-10) (pp. 807-814). ?

  15. Glorot, X., Bordes, A., & Bengio, Y. (2011). Deep sparse rectifier neural networks. In International Conference on Artificial Intelligence and Statistics (pp. 315-323). ?

  16. Maas, A. L., Hannun, A. Y., & Ng, A. Y. (2013, June). Rectifier nonlinearities improve neural network acoustic models. In Proc. ICML (Vol. 30). ?

  17. Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. R. (2012). Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580. ?

  18. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105). ?

  19. http://www.technologyreview.com/news/524026/is-google-cornering-the-market-on-deep-learning/ ?



本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
深度 | 神經網絡和深度學習簡史第四部分:深度學習終迎偉大復興
幾經沉浮,人工智能(AI)前路何方?
深度學習發展簡要筆記
什么是深度學習
應用深度學習時需要思考的問題?
收藏:盤點機器學習的頂級數據資源TOP 8,如何做好深度學習,少些彎路少些坑?
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 广德县| 黎川县| 康定县| 宁强县| 汽车| 博兴县| 兰坪| 德庆县| 吴旗县| 桂林市| 岳池县| 富川| 柳江县| 慈利县| 庆阳市| 门源| 磴口县| 黄梅县| 贺兰县| 华阴市| 恭城| 沙洋县| 平泉县| 从江县| 道孚县| 三台县| 疏勒县| 慈溪市| 北流市| 关岭| 来凤县| 施秉县| 隆尧县| 紫阳县| 东乡县| 南充市| 宜宾县| 建水县| 隆林| 台北县| 梨树县|