摘要: 想要了解人工智能,不知道這十種深度學習方法怎么能行?
在過去十年中,人們對機器學習的興趣激增。幾乎每天,我們都可以在各種各樣的計算機科學課程、行業會議、華爾街日報等等看到有關機器學習的討論。在所有關于機器學習的討論中,許多人把機器學習能做的事情和他們希望機器學習做的事情混為一談。從根本上講,機器學習是使用算法從原始數據中提取信息,并在某種類型的模型中表示這些信息。我們使用這個模型來推斷還沒有建模的其他數據。
神經網絡是機器學習的一種模型,它們至少有50年歷史了。神經網絡的基本單元是節點(node),基本上是受哺乳動物大腦中的生物神經元啟發。神經元之間的連接也以生物的大腦為模型,這些連接隨著時間的推移而發展的方式是為“訓練”。
在20世紀80年代中期和90年代初期,許多重要的模型架構進步都是在神經網絡中進行的。然而,為了獲得良好性能所需的時間和數據越來越多,這極大的降低了研究人員的興趣。在21世紀初期,計算能力呈指數級增長,研究人員看到了計算機技術的“寒武紀爆發”。作為該領域的一個重要競爭者——深度學習,因為計算能力的爆炸式增長,贏得了許多重要的機器學習競賽。截至目前,這種趨勢仍然沒有減退;今天,我們看到機器學習的每個角落都提到了深度學習。
為了讓自己趕上潮流,我參加了Udacity的“深度學習”的課程,這個課程很好的介紹了深度學習的動機以及如何從TensorFlow中學習對大規模數據集學習的智能系統設計介紹。在課堂上,我開發了用于圖像識別的卷積神經網絡、用于自然語言處理的嵌入式神經網絡,以及使用循環神經網絡/長短期記憶網絡的字符級文本生成。你們可以在Jupiter Notebook適用代碼,所有代碼都能在這個GitHub存儲庫中找到。
最近,我又開始閱讀有關該深度學習的學術論文。根據我的研究,以下是一些對該領域的發展產生巨大影響的出版物:
· 紐約大學基于梯度的學習應用于文檔識別(1998),它將卷積神經網絡引入機器學習世界。
· 多倫多大學的Deep Boltzmann Machines(2009),它為Boltzmann機器提供了一種新的學習算法,包含許多隱藏變量層。
· 斯坦福和谷歌使用大規模無監督學習構建高級功能(2012),解決了僅使用未標記數據構建高級,類特定功能檢測器的問題。
· Berkeley的DeCAF-一種用于通用視覺識別的深度卷積激活功能(2013),它發布了DeCAF,這是一種深度卷積激活功能的開源實現,以及所有相關的網絡參數,使視覺研究人員能夠進行深度實驗跨越一系列視覺概念學習范例的表示。
· DeepMind使用Deep Reinforcement Learning(2016)播放Atari,它提供了第一個深度學習模型,可以使用強化學習直接從高維感覺輸入成功學習控制策略。
通過研究和學習論文,我學到了很多關于深度學習的豐富知識。在這里,我想分享AI工程師可以應用于機器學習問題的10種強大的深度學習方法。但首先,讓我們來定義深度學習是什么。深度學習對于許多人來說是一個挑戰,因為它的形式在過去十年中逐漸發生了改變。為了向各位更好的說明深層學習的地位,下圖說明了人工智能,機器學習和深度學習之間關系的概念。
人工智能領域很廣泛,并且已經存在了很長時間。深度學習是機器學習領域的一個子集,而機器學習只是人工智能的一個子領域。將深度學習網絡與之前的前饋多層網絡進行區分:
· 深度學習比以前的網絡更多的神經元;
· 深度學習中有更復雜的連接層的方式;
· “寒武紀爆炸”的提供的計算能力;
· 深度學習可以自動進行特征提取。
當我說到“更多神經元”時,是指近年來神經元的數量不斷增加,深度學習就可以表示更為復雜的模型。層也從多層網絡中每一層的完全連接,進化成卷積神經網絡中神經元片段的局部連接,以及與遞歸神經網絡中的同一神經元的循環連接(與前一層的連接除外)。
深度學習可以被定義為具有大量參數和層數的神經網絡:
· 無人監督的預訓練網絡;
· 卷積神經網絡;
· 循環神經網絡;
· 遞歸神經網絡。
在這篇文章中,我主要對后三種網絡進行講解。卷積神經網絡(CNN)基本上式已經跨越使用共享權重的空間延伸的標準神經網絡。CNN旨在通過在內部的卷積來識別圖像,該卷積看到圖像上識別對象的邊緣。遞歸神經網絡基本上是一個使用時間延伸擴展空間的標準神經網絡,它提取進入下一時間步的邊沿,而不是在同一時間進入下一層。RNN進行序列識別,例如語音或文本信號,因其內部具有循環,意味著在RNN網絡中存在短時記憶。遞歸神經網絡更類似于分層網絡,其中輸入序列實際上與時間無關,但輸入必須以樹狀方式分層處理。下面的10種方法可以應用于所有這些架構。
1-反向傳播Back-prop反向傳播只是一種簡單計算函數的偏導數的方法,它具有函數組合的形式(如神經網絡中)。當你使用基于梯度的方法解決最優化問題(梯度下降只是其中之一)時,你希望在每次迭代時計算函數漸變,這個時候它便可以發揮作用。
對于神經網絡,其目標函數具有組合的形式。你如何計算梯度?有兩種常見的方法可以做到:(i)分析微分法。如果你知道函數的形式,你只需使用鏈式規則(基本微積分)計算導數。(ii)有限差分的近似微分。該方法在計算上是昂貴的,因為評估函數的數量是O(N),其中N是參數的數量。與解析微分相比,這種方法的計算成本是昂貴的。在調試時,通常使用有限差分驗證反向傳播的執行效果。
2-隨機梯度下降想象梯度下降的直觀方式是想象一條源自山頂的河流的路徑。梯度下降的目標正是河流努力實現的目標,即從山頂流到最低點。
現在,如果山的地形形狀使得河流在到達其最終目的地之前不必完全停在任何地方,這是我們想要的理想情況。在機器學習中,這相當于說,我們已經從初始點(山頂)開始找到解決方案的全局最小值(或最優值)。然而,可能由于地形性質,導致河流路徑出現若干的坑洼,會迫使河流困住和停滯。在機器學習方面,這種坑洼被稱為局部最優解,這是我們不想要的情況。當然有很多方法可以解決局部最優解問題,這里我不打算進一步討論。
因此,梯度下降傾向于陷入局部最小值,這取決于地形的性質(或ML術語中的函數)。但是,當你有一種特殊的山地形狀(形狀像一個碗,用ML術語稱為凸函數)時,算法始終能夠找到最優值。你可以想象將這條河流可視化。在機器學習中,這些特殊的地形(也稱為凸函數)總是需要優化的。另外,你從山頂開始(即函數的初始值)的位置不同,最終你到達山底的路徑也完全不同。同樣,根據河流的流淌速度(即梯度下降算法的學習速率或步長),你可能會以不同的方式到達目的地。你是否會陷入或避免一個坑(局部最小),都會被這兩個標準影響。
3-學習速率衰減調整隨機梯度下降優化程序的學習速率可以提高性能并縮短訓練時間。有時這也被稱為學習率退火或自適應學習率。在訓練期間最簡單且最常用的學習率調整是隨時間降低學習率的技術。在訓練初期使用較大的學習速率值,可以對學習速率進行大幅調整;在訓練后期,降低學習速率,使模型以一個較小的速率進行權重的更新。這種技術在早期可以快速學習獲得一些較好的權重,并在后期對權重進行微調。
兩種流行且易于使用的學習率衰減如下:
· 在每個環節逐漸降低學習率。
· 在特定時期使用大幅下降來降低學習速率。
4-Dropout具有大量參數的深度神經網絡是非常強大的機器學習系統。然而,過度擬合是這種網絡中的嚴重問題。大型網絡使用起來也很慢,因此在測試時將許多不同的大型神經網絡的預測結合起來很難處理過度擬合。Dropout就是一種解決此問題的技術。
關鍵思想是在訓練期間從神經網絡中隨機刪除單元及其連接,這可以防止單元間的過度適應。在訓練期間,從指數數量的不同“稀疏”網絡中抽取樣本。在測試時,通過簡單地使用具有較小權重的單解開網絡(untwinednetwork),很容易近似平均所有這些稀疏網絡以達到預測的效果。這顯著減少了過度擬合,并且比其他正則化方法表現的更好。Dropout已被證明可以改善神經網絡在計算機視覺,語音識別,文檔分類和計算生物學等領域的監督學習任務的性能,并在許多基準數據集上獲得最先進的結果。
5-最大池化最大池化是基于樣本的離散化過程。目的是對輸入表示(圖像、隱藏層輸出矩陣等)進行下采樣,通過降低其維數并允許對包含在子區域中的特征進行合并。
通過提供表征的抽象形式,這種方法在某種程度上有助于解決過擬合。同樣,它也通過減少學習參數的數量和提供基本的內部表征的轉換不變性來減少計算量。最大池化是通過將最大過濾器應用于通常不重疊的初始表征子區域來完成的。
以上為譯文。
本文由阿里云云棲社區組織翻譯。
文章原標題《the-10-deep-learning-methods-ai-practitioners-need-to-apply》,