投稿:Intelligent Software Development
團隊介紹:團隊成員來自一線互聯網公司,工作在架構設計與優化、工程方法研究與實踐的最前線,曾參與搜索、互聯網廣告、共有云/私有云等大型產品的設計、開發和技術優化工作。目前主要專注在機器學習、微服務架構設計、虛擬化/容器化、持續交付/DevOps等領域,希望通過先進技術和工程方法最大化提升軟件和服務的競爭力。
無論即將到來的是大數據時代還是人工智能時代,亦或是傳統行業使用人工智能在云上處理大數據的時代,作為一個有理想有追求的程序員,不懂深度學習(Deep Learning)這個超熱的技術,會不會感覺馬上就out了?現在救命稻草來了,《零基礎入門深度學習》系列文章旨在幫助愛編程的你從零基礎達到入門級水平。
零基礎意味著你不需要太多的數學知識,只要會寫程序就行了,沒錯,這是專門為程序員寫的文章。雖然文中會有很多公式你也許看不懂,但同時也會有更多的代碼,程序員的你一定能看懂的(我周圍是一群狂熱的Clean Code程序員,所以我寫的代碼也不會很差)。
1深度學習是啥在人工智能領域,有一個方法叫機器學習。在機器學習這個方法里,有一類算法叫神經網絡。神經網絡如下圖所示:
上圖中每個圓圈都是一個神經元,每條線表示神經元之間的連接。我們可以看到,上面的神經元被分成了多層,層與層之間的神經元有連接,而層內之間的神經元沒有連接。最左邊的層叫做輸入層,這層負責接收輸入數據;最右邊的層叫輸出層,我們可以從這層獲取神經網絡輸出數據。輸入層和輸出層之間的層叫做隱藏層。
隱藏層比較多(大于2)的神經網絡叫做深度神經網絡。而深度學習,就是使用深層架構(比如,深度神經網絡)的機器學習方法。
那么深層網絡和淺層網絡相比有什么優勢呢?簡單來說深層網絡能夠表達力更強。事實上,一個僅有一個隱藏層的神經網絡就能擬合任何一個函數,但是它需要很多很多的神經元。而深層網絡用少得多的神經元就能擬合同樣的函數。也就是為了擬合一個函數,要么使用一個淺而寬的網絡,要么使用一個深而窄的網絡。而后者往往更節約資源。
深層網絡也有劣勢,就是它不太容易訓練。簡單的說,你需要大量的數據,很多的技巧才能訓練好一個深層網絡。這是個手藝活。
2感知器看到這里,如果你還是一頭霧水,那也是很正常的。為了理解神經網絡,我們應該先理解神經網絡的組成單元——神經元。神經元也叫做感知器。感知器算法在上個世紀50-70年代很流行,也成功解決了很多問題。并且,感知器算法也是非常簡單的。
感知器的定義
下圖是一個感知器:
可以看到,一個感知器有如下組成部分:
如果看完上面的公式一下子就暈了,不要緊,我們用一個簡單的例子來幫助理解。
例子:用感知器實現and函數
我們設計一個感知器,讓它來實現and運算。程序員都知道,and是一個二元函數(帶有兩個參數和),下面是它的真值表:
為了計算方便,我們用0表示false,用1表示true。這沒什么難理解的,對于C語言程序員來說,這是天經地義的。
我們令,而激活函數就是前面寫出來的階躍函數,這時,感知器就相當于and函數。不明白?我們驗算一下:
輸入上面真值表的第一行,即,那么根據公式(1),計算輸出:
也就是當X1X2都為0的時候,為0,這就是真值表的第一行。讀者可以自行驗證上述真值表的第二、三、四行。
例子:用感知器實現or函數
同樣,我們也可以用感知器來實現or運算。僅僅需要把偏置項的值設置為-0.3就可以了。我們驗算一下,下面是or運算的真值表:
我們來驗算第二行,這時的輸入是,帶入公式(1):
也就是當時X1=0,X2=為1,即or真值表第二行。讀者可以自行驗證其它行。
感知器還能做什么
事實上,感知器不僅僅能實現簡單的布爾運算。它可以擬合任何的線性函數,任何線性分類或線性回歸問題都可以用感知器來解決。前面的布爾運算可以看作是二分類問題,即給定一個輸入,輸出0(屬于分類0)或1(屬于分類1)。如下面所示,and運算是一個線性分類問題,即可以用一條直線把分類0(false,紅叉表示)和分類1(true,綠點表示)分開。
然而,感知器卻不能實現異或運算,如下圖所示,異或運算不是線性的,你無法用一條直線把分類0和分類1分開。
感知器的訓練
現在,你可能困惑前面的權重項和偏置項的值是如何獲得的呢?這就要用到感知器訓練算法:將權重項和偏置項初始化為0,然后,利用下面的感知器規則迭代的修改和,直到訓練完成。
其中:
Wi是與輸入Xi對應的權重項,b是偏置項。事實上,可以把看作是值永遠為1的輸入Xb所對應的權重。是訓練樣本的實際值,一般稱之為label。而是感知器的輸出值,它是根據公式(1)計算得出。是一個稱為學習速率的常數,其作用是控制每一步調整權的幅度。
每次從訓練數據中取出一個樣本的輸入向量,使用感知器計算其輸出,再根據上面的規則來調整權重。每處理一個樣本就調整一次權重。經過多輪迭代后(即全部的訓練數據被反復處理多輪),就可以訓練出感知器的權重,使之實現目標函數。
編程實戰:實現感知器
對于程序員來說,沒有什么比親自動手實現學得更快了,而且,很多時候一行代碼抵得上千言萬語。接下來我們就將實現一個感知器。
下面是一些說明:
使用python語言。python在機器學習領域用的很廣泛,而且,寫python程序真的很輕松。
面向對象編程。面向對象是特別好的管理復雜度的工具,應對復雜問題時,用面向對象設計方法很容易將復雜問題拆解為多個簡單問題,從而解救我們的大腦。
沒有使用numpy。numpy實現了很多基礎算法,對于實現機器學習算法來說是個必備的工具。但為了降低讀者理解的難度,下面的代碼只用到了基本的python(省去您去學習numpy的時間)。
下面是感知器類的實現,非常簡單。去掉注釋只有27行,而且還包括為了美觀(每行不超過60個字符)而增加的很多換行。
接下來,我們利用這個感知器類去實現and函數。
將上述程序保存為perceptron.py文件,通過命令行執行這個程序,其運行結果為:
神奇吧!感知器竟然完全實現了and函數。讀者可以嘗試一下利用感知器實現其它函數。
從上面部分我們已經學會了編寫一個簡單的感知器,并用它來實現一個線性分類器。大家應該還記得用來訓練感知器的『感知器規則』把。然而,我們并沒有關心這個規則是怎么得到的。下面部門將通過介紹另外一種『感知器』,也就是『線性單元』,來說明關于機器學習一些基本的概念,比如模型、目標函數、優化算法等等。這些概念對于所有的機器學習算法來說都是通用的,掌握了這些概念,就掌握了機器學習的基本套路。
3線性單元是啥感知器有一個問題,當面對的數據集不是線性可分的時候,『感知器規則』可能無法收斂,這意味著我們永遠也無法完成一個感知器的訓練。為了解決這個問題,我們使用一個可導的線性函數來替代感知器的階躍函數,這種感知器就叫做線性單元。線性單元在面對線性不可分的數據集時,會收斂到一個最佳的近似上。
為了簡單起見,我們可以設置線性單元的激活函數f為
這樣的線性單元如下圖所示
對比此前我們講過的感知器
這樣替換了激活函數f之后,線性單元將返回一個實數值而不是0,1分類。因此線性單元用來解決回歸問題而不是分類問題。
線性單元的模型
當我們說模型時,我們實際上在談論根據輸入x預測輸出y的算法。比如,x可以是一個人的工作年限,y可以是他的月薪,我們可以用某種算法來根據一個人的工作年限來預測他的收入。比如:
函數h(x)叫做假設,而w、b是它的參數。我們假設參數w=100,參數y=500,如果一個人的工作年限是5年的話,我們的模型會預測他的月薪為
你也許會說,這個模型太不靠譜了。是這樣的,因為我們考慮的因素太少了,僅僅包含了工作年限。如果考慮更多的因素,比如所處的行業、公司、職級等等,可能預測就會靠譜的多。我們把工作年限、行業、公司、職級這些信息,稱之為特征。對于一個工作了5年,在IT行業,百度工作,職級T6這樣的人,我們可以用這樣的一個特征向量來表示它:x = (5, IT, 百度, T6)。
既然輸入x變成了一個具備四個特征的向量,相對應的,僅僅一個參數就不夠用了,我們應該使用4個參數W1,W2,W3,W4,每個特征對應一個。這樣,我們的模型就變成
其中,X 1對應工作年限,X2對應行業,X3對應公司,X4對應職級。
為了書寫和計算方便,我們可以令W0等于b,同時令W0對應于特征X0。由于X0其實并不存在,我們可以令它的值永遠為1。也就是說
這樣上面的式子就可以寫成
我們還可以把上式寫成向量的形式
長成這種樣子模型就叫做線性模型,因為輸出就是輸入特征的線性組合。
4監督學習和無監督學習接下來,我們需要關心的是這個模型如何訓練,也就是參數取什么值最合適。
機器學習有一類學習方法叫做監督學習,它是說為了訓練一個模型,我們要提供這樣一堆訓練樣本:每個訓練樣本即包括輸入特征X,也包括對應的輸出(也叫做標記,label)。也就是說,我們要找到很多人,我們既知道他們的特征(工作年限,行業...),也知道他們的收入。我們用這樣的樣本去訓練模型,讓模型既看到我們提出的每個問題(輸入特征X),也看到對應問題的答案(標記Y)。當模型看到足夠多的樣本之后,它就能總結出其中的一些規律。然后,就可以預測那些它沒看過的輸入所對應的答案了。
另外一類學習方法叫做無監督學習,這種方法的訓練樣本中只有而沒有。模型可以總結出特征的一些規律,但是無法知道其對應的答案。
很多時候,既有X又有Y的訓練樣本是很少的,大部分樣本都只有。比如在語音到文本(STT)的識別任務中,X是語音,Y是這段語音對應的文本。我們很容易獲取大量的語音錄音,然而把語音一段一段切分好并標注上對應文字則是非常費力氣的事情。這種情況下,為了彌補帶標注樣本的不足,我們可以用無監督學習方法先做一些聚類,讓模型總結出哪些音節是相似的,然后再用少量的帶標注的訓練樣本,告訴模型其中一些音節對應的文字。這樣模型就可以把相似的音節都對應到相應文字上,完成模型的訓練。
線性單元的目標函數
現在,讓我們只考慮監督學習。
在監督學習下,對于一個樣本,我們知道它的特征x,以及標記y。同時,我們還可以根據模型h(x)計算得到輸出y的平均值。注意這里面我們用y表示訓練樣本里面的標記,也就是實際值;用帶上劃線的表示模型計算的出來的預測值。我們當然希望模型計算出來的y的平均值和y越接近約好。
數學上有很多方法來表示的和的接近程度,比如我們可以用和的差的平方的來表示它們的接近程度
我們把叫做單個樣本的誤差。至于為什么前面要乘1/2,是為了后面計算方便。
訓練數據中會有很多樣本,比如N個,我們可以用訓練數據中所有樣本的誤差的和,來表示模型的誤差E,也就是
上式的e(1)表示第一個樣本的誤差,e(2)表示第二個樣本的誤差......。
我們還可以把上面的式子寫成和式的形式。使用和式,不光書寫起來簡單,逼格也跟著暴漲,一舉兩得。所以一定要寫成下面這樣
其中
(式2)中,X(i)表示第i個訓練樣本的特征,Y(i)表示第個樣本的標記,我們也可以用元組(X(i),Y(i))表示第訓練樣本。Y(i)平均值的則是模型對第i個樣本的預測值。
我們當然希望對于一個訓練數據集來說,誤差最小越好,也就是(式2)的值越小越好。對于特定的訓練數據集來說,(X(i),Y(i))的值都是已知的,所以(式2)其實是參數W的函數。
由此可見,模型的訓練,實際上就是求取到合適的w,使(式2)取得最小值。這在數學上稱作優化問題,而E(w)就是我們優化的目標,稱之為目標函數。
5梯度下降優化算法大學時我們學過怎樣求函數的極值。函數y=f(x)的極值點,就是它的導數f’(x)=0的那個點。因此我們可以通過解方程f’(x)=0,求得函數的極值點(x0,y0)。
不過對于計算機來說,它可不會解方程。但是它可以憑借強大的計算能力,一步一步的去把函數的極值點『試』出來。如下圖所示:
首先,我們隨便選擇一個點開始,比如上圖的點。接下來,每次迭代修改x的為x1,x2,x3,經過數次迭代后最終達到函數最小值點。
你可能要問了,為啥每次修改的值,都能往函數最小值那個方向前進呢?這里的奧秘在于,我們每次都是向函數y=f(x)的梯度的相反方向來修改。什么是梯度呢?翻開大學高數課的課本,我們會發現梯度是一個向量,它指向函數值上升最快的方向。顯然,梯度的反方向當然就是函數值下降最快的方向了。我們每次沿著梯度相反方向去修改的值,當然就能走到函數的最小值附近。之所以是最小值附近而不是最小值那個點,是因為我們每次移動的步長不會那么恰到好處,有可能最后一次迭代走遠了越過了最小值那個點。步長的選擇是門手藝,如果選擇小了,那么就會迭代很多輪才能走到最小值附近;如果選擇大了,那可能就會越過最小值很遠,收斂不到一個好的點上。
按照上面的討論,我們就可以寫出梯度下降算法的公式
其中,▽是梯度算子,▽f(x)就是指f(x)的梯度。n是步長,也稱作學習速率。
對于上一節列出的目標函數(式2)
梯度下降算法可以寫成
聰明的你應該能想到,如果要求目標函數的最大值,那么我們就應該用梯度上升算法,它的參數修改規則是
下面,請先做幾次深呼吸,讓你的大腦補充足夠的新鮮的氧氣,我們要來求取▽E(w),然后帶入上式,就能得到線性單元的參數修改規則。
關于▽E(w)的推導過程,我單獨把它們放到一節中。您既可以選擇慢慢看,也可以選擇無視。在這里,您只需要知道,經過一大串推導,目標函數E(w)的梯度是
因此,線性單元的參數修改規則最后是這個樣子
有了上面這個式子,我們就可以根據它來寫出訓練線性單元的代碼了。
需要說明的是,如果樣本有N個特征,則上式中的x,w都是N+1維向量(因為我們加上了一個恒為1的虛擬特征,參考前面的內容),而y是標量。用高逼格的數學符號表示,就是
為了讓您看明白說的是啥,我吐血寫下下面這個解釋(寫這種公式可累可累了)。因為是N+1維列向量,所以(式3)可以寫成
如果您還是沒看明白,建議您也吐血再看一下大學時學過的《線性代數》吧。
▽E(w)的推導
這一節你盡可以跳過它,并不太會影響到全文的理解。當然如果你非要弄明白每個細節,那恭喜你騷年,機器學習的未來一定是屬于你的。
首先,我們先做一個簡單的前戲。我們知道函數的梯度的定義就是它相對于各個變量的偏導數,所以我們寫下下面的式子
可接下來怎么辦呢?我們知道和的導數等于導數的和,所以我們可以先把求和符號里面的導數求出來,然后再把它們加在一起就行了,也就是
現在我們可以不管高大上的了,先專心把里面的導數求出來。
我們知道,y是與w無關的常數,而y的均值=wTx,下面我們根據鏈式求導法則來求導(上大學時好像叫復合函數求導法則)
我們分別計算上式等號右邊的兩個偏導數
代入,我們求得里面的偏導數是
最后代入,求得
至此,大功告成。
隨機梯度下降算法(Stochastic Gradient Descent, SGD)
如果我們根據(式3)來訓練模型,那么我們每次更新的迭代,要遍歷訓練數據中所有的樣本進行計算,我們稱這種算法叫做批梯度下降(Batch Gradient Descent)。如果我們的樣本非常大,比如數百萬到數億,那么計算量異常巨大。因此,實用的算法是SGD算法。在SGD算法中,每次更新w的迭代,只計算一個樣本。這樣對于一個具有數百萬樣本的訓練數據,完成一次遍歷就會對w更新數百萬次,效率大大提升。由于樣本的噪音和隨機性,每次更新并不一定按照減少E的方向。然而,雖然存在一定隨機性,大量的更新總體上沿著減少E的方向前進的,因此最后也能收斂到最小值附近。下圖展示了SGD和BGD的區別
如上圖,橢圓表示的是函數值的等高線,橢圓中心是函數的最小值點。紅色是BGD的逼近曲線,而紫色是SGD的逼近曲線。我們可以看到BGD是一直向著最低點前進的,而SGD明顯躁動了許多,但總體上仍然是向最低點逼近的。
最后需要說明的是,SGD不僅僅效率高,而且隨機性有時候反而是好事。今天的目標函數是一個『凸函數』,沿著梯度反方向就能找到全局唯一的最小值。然而對于非凸函數來說,存在許多局部最小值。隨機性有助于我們逃離某些很糟糕的局部最小值,從而獲得一個更好的模型。
實現線性單元
接下來,讓我們擼一把代碼。
因為我們已經寫了感知器的代碼,因此我們先比較一下感知器模型和線性單元模型,看看哪些代碼能夠復用。
比較的結果令人震驚,原來除了激活函數f不同之外,兩者的模型和訓練規則是一樣的(在上表中,線性單元的優化算法是SGD算法)。那么,我們只需要把感知器的激活函數進行替換即可。對于一個養成良好習慣的程序員來說,重復代碼是不可忍受的。大家應該把代碼保存在一個代碼庫中(比如git)。
通過繼承Perceptron,我們僅用幾行代碼就實現了線性單元。這再次證明了面向對象編程范式的強大。
接下來,我們用簡單的數據進行一下測試。
程序運行結果如下圖
擬合的直線如下圖
6小結事實上,一個機器學習算法其實只有兩部分:
模型:從輸入特征預測輸入的那個函數
目標函數:目標函數取最小(最大)值時所對應的參數值,就是模型的參數的最優值。很多時候我們只能獲得目標函數的局部最小(最大)值,因此也只能得到模型參數的局部最優值。
因此,如果你想最簡潔的介紹一個算法,列出這兩個函數就行了。
接下來,你會用優化算法去求取目標函數的最小(最大)值。[隨機]梯度{下降|上升}算法就是一個優化算法。針對同一個目標函數,不同的優化算法會推導出不同的訓練規則。我們后面還會講其它的優化算法。
其實在機器學習中,算法往往并不是關鍵,真正的關鍵之處在于選取特征。選取特征需要我們人類對問題的深刻理解,經驗、以及思考。而神經網絡算法的一個優勢,就在于它能夠自動學習到應該提取什么特征,從而使算法不再那么依賴人類,而這也是神經網絡之所以吸引人的一個方面。
現在,經過漫長的燒腦,你已經具備了學習神經網絡的必備知識。下一篇文章,我們將介紹本系列文章的主角:神經網絡,以及用來訓練神經網絡的大名鼎鼎的算法:反向傳播算法。
精選專題(點擊藍色標題可閱讀全文)
近期活動:
Gdevops全球敏捷運維峰會廣州站
峰會官網:www.gdevops.com