最近一段時間里,F(xiàn)acebook、Google、Yahoo!、百度等各大公司都在嘗試將深度學(xué)習(xí)(deep learning)算法運用到產(chǎn)品開發(fā)中,以期使產(chǎn)品更智能化,提升用戶體驗。在深度學(xué)習(xí)持續(xù)走紅的當(dāng)下,本文作者對這一概念做了梳理,并分享了他對深度學(xué)習(xí)的實用性及未來發(fā)展的看法。
本周一,加利福尼亞州的Lake Tahoe。Facebook CEO Mark Zuckerburg造訪了神經(jīng)信息處理系統(tǒng)(Neutral Information Processing Systems, 下文簡稱NIPS)舉辦的“深度學(xué)習(xí)研討會”(Deep Learning Workshop)。Zuckerburg在研討會上宣布,紐約大學(xué)數(shù)據(jù)科學(xué)中心的Yann LeCun教授將兼任Facebook人工智能實驗室(Artificial Intelligence Lab, AI Lab)的主管。
Facebook AI Lab于今年下半年正式建成,其網(wǎng)絡(luò)覆蓋紐約、倫敦以及Facebook加州門羅帕克總部三地。AI Lab旨在投入研發(fā)精力,探索人工智能的分支之一:深度學(xué)習(xí)(deep learning)。借此,F(xiàn)acebook希望在未來能給用戶提供更智能化的產(chǎn)品使用體驗。
此消息一出,立刻成為機器學(xué)習(xí)頂級會議NIPS本年度會議上一道引人注目的風(fēng)景,同時也為近兩年大熱的深度學(xué)習(xí)再添火一把。據(jù)悉,Google于近日雇傭了未來學(xué)和人工智能專家Ray Kurzweil擔(dān)任其人工智能計劃的工程總監(jiān),微軟最杰出的工程師之一、Bing Mobile 和 Bing Maps 開發(fā)的關(guān)鍵人物Blaise Agüera y Arcas 也已加盟 Google的機器人學(xué)習(xí)團隊。IBM也在深耕深度學(xué)習(xí),旗下的超級計算機Watson憑借“高智商”已經(jīng)在華爾街花旗集團找到了一份工作,負(fù)責(zé)證券投資組合管理。今年10月,雅虎收購了圖片分析初創(chuàng)公司LookFlow,計劃提升Flickr 的搜索及內(nèi)容發(fā)現(xiàn)體驗。
那么,到底什么是深度學(xué)習(xí)?靠譜嗎?對廣大創(chuàng)業(yè)者來說,其中究竟存在怎樣的機會?在下文,我會嘗試梳理一下關(guān)于深度學(xué)習(xí)的概念,并分享一點個人的思考。
正如Zuckerburg所澄清的那樣,F(xiàn)acebook(及本文所討論)的人工智能是計算機科學(xué)中狹義的人工智能,并沒有人工建造人腦那樣的野心。這種人工智能,是基于數(shù)學(xué)(統(tǒng)計)進行問題求解的機器學(xué)習(xí)算法(machine learning algorism),即我們常常提到的大數(shù)據(jù)時代的算法核心。機器學(xué)習(xí)無處不在:互聯(lián)網(wǎng)廣告投放、網(wǎng)絡(luò)傳播、趨勢預(yù)測、機器人研發(fā)、計算機視覺、搜索、自然語言理解,以及生物信息識別等都離不開機器學(xué)習(xí)。這也是諸多大公司在這個領(lǐng)域頻頻投資的主要原因。
深度學(xué)習(xí)是怎么火的?
什么是深度學(xué)習(xí)(deep learning)?說白了,就是人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,以下簡稱ANN)這個舊瓶裝了新酒。
人工神經(jīng)網(wǎng)絡(luò)包含輸入層、輸出層以及中間的若干隱層(hidden layer),每層都有若干結(jié)點及連接這些點的邊,在訓(xùn)練數(shù)據(jù)集上會學(xué)習(xí)出邊的權(quán)值,從而建立模型。隨著邊所表征的函數(shù)的不同,可以有各種不同的神經(jīng)網(wǎng)絡(luò)。這種源于人工智能中聯(lián)結(jié)主義學(xué)派(connectionism)的方法在上世紀(jì)七八十年代盛極一時。John Hopfield,Geoffrey Hinton和Yann Lecun等多位學(xué)者都對ANN頗有研究。
然而不幸的是,和學(xué)術(shù)論文中鼓吹的不同,在諸多工程領(lǐng)域中,人們發(fā)現(xiàn)ANN并沒有表現(xiàn)出比其他經(jīng)典算法更好的性能。究其原因,由于巨大的計算量和優(yōu)化求解難度,ANN只能包含少許隱層,從而限制了性能。控制領(lǐng)域仍然在使用經(jīng)典的PID調(diào)節(jié),而在機器學(xué)習(xí)領(lǐng)域,隨著以支持向量機和貝葉斯網(wǎng)絡(luò)為代表的統(tǒng)計學(xué)習(xí)在90年代的興起,ANN開始倍受冷落。
Geoffrey Hinton曾感慨自己的學(xué)術(shù)生涯就像ANN一樣起起伏伏。所幸的是,這位Gatsby的創(chuàng)立者一直沒有放棄ANN的研究。從06年開始,他陸續(xù)開始發(fā)表關(guān)于如何改進ANN的文章,主要是通過很多數(shù)學(xué)和工程技巧增加隱層的層數(shù),也就是深度,所以被稱為深度學(xué)習(xí)。雖然Hinton的觀點沒有得到足夠重視,成為主流共識,但大家開始更加關(guān)注這一領(lǐng)域。
08年NIPS基金會沒有批準(zhǔn)Deep Learning的研討會申請,結(jié)果組織者自行開會,包括Michael Jordan,Andrew Blake等一眾機器學(xué)習(xí)及相關(guān)領(lǐng)域最具影響力的資深學(xué)者都出席了會議,會場爆滿。除了一直沒有放棄的LeCun等人,這一領(lǐng)域還吸引來了Stanford機器學(xué)習(xí)的教授、Coursera創(chuàng)始人Andrew Ng。Ng的研究組,率先做出了和現(xiàn)有最高水平相提并論的結(jié)果。后來,大家一步步推進,深度學(xué)習(xí)在很多實際評測中遙遙領(lǐng)先,一下就火了。
深度學(xué)習(xí)主張,如果ANN的隱層足夠多,選擇適當(dāng)?shù)倪B接函數(shù)和架構(gòu),并增加一個非監(jiān)督學(xué)習(xí)的“pre training”網(wǎng)絡(luò)組成,就會具有更強的表述能力,但常用的模型訓(xùn)練算法反向傳播(back propagation)仍然對計算量有很高的要求。近年來,得益于計算機速度的提升、基于MapReduce的大規(guī)模集群技術(shù)的興起、GPU的應(yīng)用以及眾多優(yōu)化算法的出現(xiàn),耗時數(shù)月的訓(xùn)練過程可縮短為數(shù)天甚至數(shù)小時,深度學(xué)習(xí)才在實踐中有了用武之地。
在計算機視覺領(lǐng)域,深度學(xué)習(xí)首先在手寫識別領(lǐng)域表現(xiàn)出眾。2012年,在物體識別(被譽為計算機視覺圣杯)的權(quán)威測試Imagenet Challenge中,深度學(xué)習(xí)遙遙領(lǐng)先于其他經(jīng)典算法(16% VS 26%),吸引了無數(shù)眼球。紐約大學(xué)計算機科學(xué)系副教授Rob Fergus(和Yann LeCun一起加入Facebook AI Lab)的學(xué)生Matthew Zeiler,創(chuàng)立了一家提供圖像搜索服務(wù)的公司——Clarifai。他的深度學(xué)習(xí)算法在本月剛剛結(jié)束的ICCV Imagenet Challnge 2013中,繼續(xù)領(lǐng)先于其他算法。
深度學(xué)習(xí)產(chǎn)品化的浪潮中,科技巨頭機會更大
Google研究員Ilya Sutskever最近表示,如果數(shù)據(jù)足夠多、計算能力足夠強、人工神經(jīng)網(wǎng)絡(luò)足夠深,即便不加“pre training”預(yù)處理,也可以取得目前最好的結(jié)果,這充分證明,目前的深度學(xué)習(xí)對標(biāo)注數(shù)據(jù)量和計算能力都提出了很高的要求。
目前更像是巨頭們的游戲。Google和百度都已在自己的圖像搜索中部署了深度學(xué)習(xí)技術(shù)。Google在內(nèi)部多個項目組推廣深度學(xué)習(xí)平臺,而百度也將深度學(xué)習(xí)算法運用到了語音等多個產(chǎn)品中。今年5月,前Facebook資深科學(xué)家徐偉加盟百度深度學(xué)習(xí)研究院(Institute of Deep Learning, IDL)。在這次NIPS“深度學(xué)習(xí)研討會”上,IDL還設(shè)立了展臺,它在深度學(xué)習(xí)方面的研究成果在學(xué)術(shù)界也越來越有影響力。
最近,F(xiàn)acebook在人工智能領(lǐng)域動作頻頻。Zuckerburg和俄羅斯富豪尤里一起創(chuàng)立了300萬美元獎金的Breakthrough Prize in Mathematics,可謂與AI Lab的設(shè)立一脈相承。擁有海量數(shù)據(jù)的互聯(lián)網(wǎng)巨頭中,Google收購了Geoffrey Hinton的創(chuàng)業(yè)公司DNNResearch(一家專注于語音和圖像識別技術(shù)的研究公司), 百度挖來余凱老師創(chuàng)立了IDL研究院,IBM研究院Watson電腦開始研究深度學(xué)習(xí)相關(guān)技術(shù),微軟研究院鄧力老師率先把深度學(xué)習(xí)應(yīng)用在語音識別中,Yahoo收購了LookFlow來創(chuàng)建深度學(xué)習(xí)小組,Amazon在柏林創(chuàng)立了機器學(xué)習(xí)研究中心……
這一系列行動,無論是出于戰(zhàn)略防御,還是單純被深度學(xué)習(xí)吸引,一個無法否認(rèn)的事實是:深度學(xué)習(xí)產(chǎn)品化的熱潮已經(jīng)撲面而來。
深度學(xué)習(xí)有局限性,初創(chuàng)公司應(yīng)理性選取機器學(xué)習(xí)算法
有些人覺得深度學(xué)習(xí)似乎沒有理論深度,其實不然。查閱一下Geoffrey Hinton的論文,其中用到的理論很深刻,數(shù)學(xué)技巧也很復(fù)雜,深度學(xué)習(xí)的理論門檻較高。但是好消息是,以Hinton、Yoshua Bengio為首的研究組開放了越來越多的源代碼,包括GPU的實現(xiàn),而且多種不同算法的開源實現(xiàn)也被公開,所以算法實現(xiàn)的門檻已經(jīng)降低了很多。
對于創(chuàng)業(yè)者來說,困難在于如何獲取大規(guī)模已標(biāo)注數(shù)據(jù)、集成有GPU的計算集群以及針對自己的項目調(diào)參數(shù)。調(diào)參數(shù)一直是深度學(xué)習(xí)被學(xué)術(shù)界詬病的話題,早期只有幾個圈內(nèi)的小組掌握著調(diào)參數(shù)的秘方和數(shù)據(jù)處理的技巧。目前的深度學(xué)習(xí)參數(shù)調(diào)節(jié)已經(jīng)比之前透明化了許多,但仍是開發(fā)過程中最為耗時的一部分。
目前主打深度學(xué)習(xí)的創(chuàng)業(yè)公司并不是很多,除了被Google收購的DNNResearch,Hinton的另外一個學(xué)生最近在倫敦組建了DeepMind,也在NIPS研討會上進行了展示,他們使用深度學(xué)習(xí)改進了傳統(tǒng)的強化學(xué)習(xí),以尋找優(yōu)秀的策略來打游戲,算法的表現(xiàn)和人的策略很相似。
還有位于舊金山的初創(chuàng)公司Ersatz 主打深度學(xué)習(xí)的云平臺,以進一步降低深度學(xué)習(xí)的門檻,但是除了數(shù)據(jù)問題,其技術(shù)水平有待觀察且商業(yè)策略與眾多大數(shù)據(jù)平臺小公司無二,能否在激烈的商業(yè)拓展中脫穎而出還是問號。還有個別圖像和文字理解的初創(chuàng)公司加入了深度學(xué)習(xí)的模塊作為補充手段,在實際問題尤其是不同數(shù)據(jù)集上的應(yīng)用尚有待觀察。
但是,深度學(xué)習(xí)算法能夠成功運行的前提仍然是,項目能夠采集到充分大的標(biāo)注且數(shù)據(jù)維度足夠高或者你的想法足夠通用。有了大數(shù)據(jù)樣本才能緩解復(fù)雜模型的過度學(xué)習(xí)(overfitting)。從某種意義上說,這也給了其他機器學(xué)習(xí)算法很多機會。比如說,因為隱私原因,服務(wù)企業(yè)的大數(shù)據(jù)平臺就很難應(yīng)用深度學(xué)習(xí),
深度學(xué)習(xí)的另一局限性是可解釋性不強,即便是一流的學(xué)者也很難對效果超群的深度學(xué)習(xí)算法在具體問題上給出具體解釋。這有可能成為產(chǎn)品迭代過程中的阻礙。深度學(xué)習(xí)本身是支持在線學(xué)習(xí)和數(shù)據(jù)流,但是相關(guān)理論尚待完善。如上所述,深度學(xué)習(xí)目前主要集中于監(jiān)督學(xué)習(xí),在非監(jiān)督學(xué)習(xí)領(lǐng)域,除了Google前一段時間公布的用于自然語言處理的word2vec,還沒有很出彩的工作。
從深度學(xué)習(xí)的研究者身上,我們可以看到,一個好的研究者要對自己的研究有足夠強的信念。正如馬云所說,好的創(chuàng)業(yè)者要堅持自己的信念,而不是盲目跟風(fēng)。我前不久遇見了Aria Haghigh,他是Prismatic這個創(chuàng)業(yè)公司的創(chuàng)始人,同時也是一位名校畢業(yè)、成果卓著的機器學(xué)習(xí)研究者,放棄了教職出來創(chuàng)業(yè)。他也懂深度學(xué)習(xí),但是對于他的產(chǎn)品和數(shù)據(jù)來說,他說深度學(xué)習(xí)并不是首選,因為數(shù)據(jù)的特性不同。
Prismatic其實用的是Logistical Regression的算法,這一算法相對成熟,不過依然有很多地方可以優(yōu)化。他們甚至自行創(chuàng)建了分布式系統(tǒng),而不是使用Hadoop。事實上,目前諸多搜索引擎和社交網(wǎng)絡(luò)的廣告系統(tǒng)都是以Logistical Regression的算法為基礎(chǔ)的,相關(guān)產(chǎn)品的體驗和速度都非常棒。樸實的算法,花同樣的時間去調(diào)參數(shù),對產(chǎn)品已經(jīng)足夠了,因為用戶是不會察覺準(zhǔn)確率上百分之零點幾的差別。
此外,每個人對人工智能都有自己的見解。比如,Peter Thiel投資了Machine Intelligence Research Institute——這個研究機構(gòu)對于目前主流的機器學(xué)習(xí)算法不滿,試圖從交叉學(xué)科的角度,創(chuàng)建更接近人、更友好的智能。
歷史不會重演,卻常常驚人得相似。翻開Yann LeCun的簡歷,這并不是他第一次投身工業(yè)界。他曾經(jīng)是AT&T實驗室(Bell實驗室拆分后留在AT&T的部分)圖像處理組的負(fù)責(zé)人,并試圖硬件化人工神經(jīng)網(wǎng)絡(luò),后來由于公司策略調(diào)整,整個研究組被裁,他才挪移到紐約大學(xué)任教,繼續(xù)自己獨樹一幟的研究(曾贏得國防部的合同)。
這次,他終于等到了深度學(xué)習(xí)(deep learning)的復(fù)興,接受了Facebook的工作邀約再次回歸工業(yè)界。之所以會聘請LeCun等高校教授回到業(yè)界,是因為深度學(xué)習(xí)在實踐中確實取得了效果,而公司之前也雇傭過這些教授麾下的學(xué)生,合作下來都很愉快。
誰也不知道深度學(xué)習(xí)是否會像其他算法一樣進入瓶頸期。如何把深度學(xué)習(xí)運用到產(chǎn)品中,將產(chǎn)品智能化,提升用戶體驗——這越來越受到公司的關(guān)注。