“全球人工智能”擁有十多萬AI技術用戶,核心用戶來自:北大,清華,中科院,麻省理工,卡內基梅隆,斯坦福,哈佛,牛津,劍橋......以及谷歌,騰訊,百度,臉譜,微軟,阿里,海康威視,英偉達......等全球名校和名企。
為了讓大家更好地了解CNN,今天小編整理了AlexNet/VGG/NIN/GoogLeNet和Resnet這5個經典模型,他們都是基于imagenet上1.2 million數據訓練出來的經典模型,下面對每個模型做了簡單介紹,方便大家快速了解之間的差異。若需要詳細了解建議查看5篇論文。
1、AlexNet
中文翻譯:http://blog.csdn.net/liumaolincycle/article/details/50496499
論文地址:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
2、Network in Network
作者對傳統CNN的兩個改進,利用其進行1000物體分類問題,最后設計了一個:4層的NIN 全局均值池化,網絡如下:
個人感覺這篇文獻很有價值,實現方式也很簡單,一開始我還以為需要caffe的c 源碼來實現NIN網絡,結果發現實現NIN的源碼實現方式其實就是一個1*1的卷積核,實現卷積運算,所以實現起來相當容易,不需要自己寫源碼,只需要簡簡單單的把卷積核的大小變一下,然后最后一層的全連接層直接用avg pooling替換一下就ok了。網絡淺顯易懂,簡單實現,卻可以改進原來的網絡,提高精度,減小模型大小,所以是一篇很值得學習的文獻。
論文地址:https://arxiv.org/pdf/1312.4400v3.pdf
3、VGG
vgg繼承了lenet以及alexnet的一些框架,尤其是跟alexnet框架非常像,vgg也是5個group的卷積、2層fc圖像特征、一層fc分類特征,可以看做和alexnet一樣總共8個part。根據前5個卷積group,每個group中的不同配置,vgg論文中給出了A~E這五種配置,卷積層數從8到16遞增。從論文中可以看到從8到16隨著卷積層的一步步加深,貌似通過加深卷積層數也已經到達準確率提升的瓶頸了。
論文地址:https://arxiv.org/pdf/1409.1556.pdf
4、GoogLeNet
GoogLeNet的計算效率明顯高于VGGNet,大約只有500萬參數,只相當于Alexnet的1/12(GoogLeNet的caffemodel大約50M,VGGNet的caffemodel則要超過600M)。GoogLeNet的表現很好,但是,如果想要通過簡單地放大Inception結構來構建更大的網絡,則會立即提高計算消耗。
論文地址:http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/
Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf
5、Resnet
深度學習網絡的深度對最后的分類和識別的效果有著很大的影響,所以正常想法就是能把網絡設計的越深越好,但是事實上卻不是這樣,常規的網絡的堆疊(plain network)在網絡很深的時候,效果卻越來越差了。
通過在輸出個輸入之間引入一個shortcut connection,而不是簡單的堆疊網絡,這樣可以解決網絡由于很深出現梯度消失的問題,從而可可以把網絡做的很深,ResNet其中一個網絡結構如下圖所示
之前一直在探究殘差網絡提出的由來,作者是基于先前的什么知識才提出殘差網絡的,咋一看感覺殘差網絡提出的很精巧,其實就是很精巧,但是現在感覺非要從殘差的角度進行解讀感覺不太好理解,真正起作用的應該就是shortcut連接了,這才是網絡的關鍵之處。
論文地址:https://arxiv.org/pdf/1512.03385v1.pdf