在2016年3月份,正當(dāng)李世石與AlphaGo進(jìn)行人機(jī)大戰(zhàn)的時候,我曾經(jīng)寫過一篇“人工智能的里程碑:從深藍(lán)到AlphaGo”(可從底部“閱讀原文”查閱),自從1997年深藍(lán)戰(zhàn)勝卡斯帕羅夫之后,隨著計算機(jī)硬件水平的提高,計算機(jī)象棋(包括國際象棋和中國象棋)水平有了很大的提高,達(dá)到了可以戰(zhàn)勝人類最高棋手的水平。但是,長期以來,在計算機(jī)圍棋上進(jìn)展卻十分緩慢,在2006年引入了蒙特卡洛樹搜索方法之后,也只能達(dá)到業(yè)余5段的水平。所以AlphaGo戰(zhàn)勝韓國棋手李世石,確實(shí)是人工智能發(fā)展歷程上的一個里程碑式的事件。
從人工智能研究的角度來說,計算機(jī)圍棋戰(zhàn)勝人類高水平棋手是一個標(biāo)志,說明在某些方面,現(xiàn)有的人工智能技術(shù)可以達(dá)到怎樣的高度,所以當(dāng)時我曾經(jīng)認(rèn)為人機(jī)再戰(zhàn)的意思已經(jīng)不大,就如同當(dāng)年深藍(lán)戰(zhàn)勝卡斯帕羅夫之后,IBM隨即馬放南山,即便卡斯帕羅夫提出再戰(zhàn)深藍(lán),IBM也不再理會。當(dāng)年的深藍(lán)還是一個專用設(shè)備,IBM甚至為了提高計算速度,而研制了專用的芯片(據(jù)說該芯片只能用于下國際象棋)。但是萬事開頭難,隨著計算機(jī)計算能力的提高,今天即便在普通計算機(jī)上,也可以達(dá)到甚至超過當(dāng)年深藍(lán)的水平。以至于在國際象棋比賽中,出現(xiàn)過棋手借去廁所的機(jī)會,讓計算機(jī)幫忙出招的丑聞,在現(xiàn)在的國際象棋比賽中,已經(jīng)明確禁止利用各種計算設(shè)備,據(jù)說賽場也對網(wǎng)絡(luò)進(jìn)行屏蔽,以防止有人作弊。
就在2016年即將過去的時候,在網(wǎng)絡(luò)上突然出現(xiàn)一個名為Master的計算機(jī)圍棋程序,在網(wǎng)上快棋賽中,連勝包括中日韓三國高手在內(nèi)的人類棋手,取得連勝60場的輝煌戰(zhàn)績。事后得知Master就是AlphaGo的升級版。
為什么AlphaGo會重出江湖呢?我想可以從AlphaGo與深藍(lán)的不同來考慮。深藍(lán)采用的是α-β搜索框架,加上大量的人類知識,在技術(shù)上已經(jīng)沒有什么發(fā)展空間。而AlphaGo采用的是蒙特卡洛樹搜索框架,加上深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)。在這樣一個框架下,深度學(xué)習(xí),尤其是深度強(qiáng)化學(xué)習(xí)在計算機(jī)圍棋上的天花板究竟有多高還是一個未知數(shù),從技術(shù)的角度來說,還有很大的研究空間,我想這是AlphaGo重出江湖的重要原因,圍棋在這里只是作為一個應(yīng)用對象,目的還是研究強(qiáng)化學(xué)習(xí)等方法。
順便在這里說一下,有人認(rèn)為AlphaGo的成功是深度學(xué)習(xí)的勝利,我認(rèn)為這一看法是片面的。具體來說,蒙特卡洛樹搜索引入到計算機(jī)圍棋中,是一個很大的飛躍,深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的引入,是又一次飛躍。因此AlphaGo的成功是蒙特卡洛樹搜索加深度學(xué)習(xí)的勝利。如果再上升一個層次來考慮,則是人工智能中傳統(tǒng)的符號主義加連接主義的成功。如果再進(jìn)一步上升一個層次,則是理性加感性的成功。因此,在今天深度學(xué)習(xí)大熱的情況下,不能忽視傳統(tǒng)方法的作用。傳統(tǒng)方法與深度學(xué)習(xí)具有互補(bǔ)性,應(yīng)該加強(qiáng)這方面的研究,而不是一窩蜂式的涌向深度學(xué)習(xí)。
那么這次的Master與去年3月份的AlphaGo有什么不同呢(為了敘述方便,下文中AlphaGo特指去年3月的版本,Master特指現(xiàn)在的版本)?到目前為止,DeepMind公司還沒有透露出任何信息,只能從表面現(xiàn)象去分析、猜測。我并不懂圍棋,為了了解Master的特點(diǎn),在網(wǎng)上看了不少專業(yè)棋手對Master棋譜的分析,一個突出的感受是,Master常常會走出一些超出職業(yè)棋手想象的驚人之步,很多高手連呼看不懂,但又找不出其破綻。古力在其微博上說,Master的出現(xiàn)“已經(jīng)徹底顛覆了我們棋手對局勢原有的掌控、判斷”,柯潔也評論說Master“給我們棋手帶來的震撼”。雖然AlphaGo也有出乎職業(yè)棋手意外的著法,但是這次Master這樣的走法更多,更出乎意外。鑒于此,我曾經(jīng)給出一個猜測:“AlphaGo訓(xùn)練時用到了16萬人類棋譜,加上自己左右互搏產(chǎn)生的3000萬棋譜,以及人類總結(jié)的幾萬個模式。而這次的Master很可能是從0開始學(xué)習(xí)得到的結(jié)果(指沒有利用任何人類棋譜和知識,依靠基于強(qiáng)化學(xué)習(xí)的左右互搏進(jìn)行學(xué)習(xí)),在蒙特卡洛搜索樹的框架下,加上深度強(qiáng)化學(xué)習(xí)方法,是可以做得到的。這也是為什么Master讓職業(yè)棋手感覺到被顛覆的原因,因?yàn)闆]有任何人類的影響。AlphaGo在去年3月雖然有驚人的走法,但好像沒有這次多,也沒有這次大膽,因?yàn)?月的AlphaGo利用了16萬的人類棋譜和數(shù)萬個人類總結(jié)的模式”。雖然事后DeepMind公司說Master還是用了人類棋譜,但是很可能更加加強(qiáng)了基于強(qiáng)化學(xué)習(xí)的左右互搏的成分,弱化了人類棋譜的作用。事實(shí)上,DeepMind公司也確實(shí)在試探從0學(xué)習(xí)的系統(tǒng),雖然還沒有推出。
在我的“人工智能導(dǎo)論”課上,學(xué)生要完成一個大作業(yè),就是實(shí)現(xiàn)一個簡單的下棋程序,最初幾年,學(xué)生基本是采用α-β剪枝的方法,要自己總結(jié)很多模式出來,后來漸漸的采用蒙特卡洛樹搜索方法的同學(xué)逐年增加,到現(xiàn)在基本沒有同學(xué)用α-β剪枝方法了,也不再需要人為總結(jié)什么模式了,基本都是從0開始,而且水平也是逐年提高,絕大多數(shù)同學(xué)都難于戰(zhàn)勝自己的程序。當(dāng)然,大作業(yè)的棋類比較簡單,遠(yuǎn)遠(yuǎn)無法跟圍棋比,但是越來越不依賴于人類棋譜、知識,應(yīng)該是一個發(fā)展趨勢,圍棋也應(yīng)該可以實(shí)現(xiàn),可能還需要更強(qiáng)大的計算平臺的支持。關(guān)于大作業(yè),我曾在2013年的博客中有過簡單的總結(jié),表明過類似的看法,有興趣的讀者可以參見《由大作業(yè)想到的》這篇博客http://blog.sina.com.cn/s/blog_73040b820101bwrl.html。
深藍(lán)、沃森和AlphaGo都可以算是人工智能發(fā)展史上里程碑式的事件,那么他們之間有哪些相同與不同呢?
關(guān)于相同點(diǎn),我想可以總結(jié)為一句話:在一個特定領(lǐng)域,利用人類提供的數(shù)據(jù)或者知識,采用已有的技術(shù),戰(zhàn)勝該領(lǐng)域最高水平的人類。
深藍(lán)是一個國際象棋程序,采用的是60年代就提出的α-β剪枝算法,IBM公司聘請了若干個國際象棋特級大師總結(jié)下棋的模式和知識,用于對局面的評估。最終于1997年戰(zhàn)勝了連續(xù)10年奪得國際象棋世界冠軍的卡斯帕羅夫。
沃森是IBM為了紀(jì)念公司成立100周年研發(fā)的一個問答系統(tǒng),其名稱是為了紀(jì)念I(lǐng)BM公司的創(chuàng)始人ThomasJ.Watson先生。2011年,在美國最受歡迎的智力競猜電視節(jié)目《危險邊緣》中,沃森擊敗該節(jié)目歷史上兩位最成功的選手肯-詹寧斯和布拉德-魯特,成為《危險邊緣》節(jié)目新的王者。在沃森系統(tǒng)中,共采用了100多項與自然語言處理、知識問答相關(guān)的技術(shù),利用《危險邊緣》節(jié)目創(chuàng)始以來40多年的問題與答案進(jìn)行訓(xùn)練,存儲了大量圖書、新聞和電影劇本資料、辭海、文選和《世界圖書百科全書》等數(shù)百萬份資料,在3秒內(nèi)可以給出一個問題的答案。
圖3. 沃森參加電視節(jié)目《危險邊緣》,中間是沃森,兩邊是肯-詹寧斯和布拉德-魯特
AlphaGo在蒙特卡洛樹搜索的框架下,利用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行訓(xùn)練和評估,其中用到了人類棋手以往的16萬盤棋譜,以及AlphaGo自己左右互搏產(chǎn)生的3000萬盤棋譜,并用到了人類總結(jié)的幾萬個模式,綜合運(yùn)用這些技術(shù),實(shí)現(xiàn)了高水平的圍棋程序,并于2016年3月以4:1的成績戰(zhàn)勝了韓國圍棋職業(yè)高手李世石。這些技術(shù)也并不是新技術(shù),但是DeepMind公司有所創(chuàng)新,主要包括兩個方面,一個是發(fā)展了強(qiáng)化學(xué)習(xí)技術(shù);二是將傳統(tǒng)的搜索技術(shù)與深度學(xué)習(xí)在圍棋這個平臺上,很好地結(jié)合在一起,實(shí)現(xiàn)了理性與感性的良好融合。這可能是AlphaGo成功的關(guān)鍵所在。
這是他們共同的部分,那么這三個系統(tǒng)有哪些不同呢?三個系統(tǒng)完全是三個不同的領(lǐng)域,不同點(diǎn)自然很多,下面只從技術(shù)是否通用,以及通用程度方面展開討論。
深藍(lán)采用的α-β剪枝算法是專門用于雙人博弈問題的算法,雖然也有人將該方法用于其他方面,比如故障診斷的測試點(diǎn)選擇,但應(yīng)用面是非常有限的,是一個非常專用的算法。也曾聽有人介紹說IBM會把相關(guān)方法用于風(fēng)險投資,但事后也沒有聽到相關(guān)消息。這也可能是IBM不再繼續(xù)投入開展研究的原因吧?
AlphaGo則有很大的不同,深度學(xué)習(xí)是個通用方法,已經(jīng)在很多領(lǐng)域得到很好的應(yīng)用,強(qiáng)化學(xué)習(xí)也具有一定的通用性,并且DeepMind對其有所發(fā)展和創(chuàng)新,在圍棋這個平臺上可以繼續(xù)開展研究,也可以推廣到其他領(lǐng)域。但是圍棋這類博弈游戲有一個特點(diǎn),其最終的勝負(fù)可以自動判斷,不需要人類標(biāo)注,這就為系統(tǒng)自身的左右互搏、強(qiáng)化學(xué)習(xí)提供了很大的便利條件,如果在其他領(lǐng)域應(yīng)用,需要定義合適的優(yōu)化條件才可行。
在三個里程碑式的事件中,我認(rèn)為最具通用性的是沃森,它采用了100多項與自然語言處理、知識問答相關(guān)的技術(shù),這些技術(shù)可以在很多應(yīng)用領(lǐng)域發(fā)揮作用,不僅僅是用于問答,IBM公司把相關(guān)技術(shù)稱之為認(rèn)知計算。IBM公司以此為契機(jī),成立了沃森集團(tuán),專注于認(rèn)知計算的研究和應(yīng)用,已經(jīng)在醫(yī)療健康領(lǐng)域取得了很好的成果。
因此,從通用性和商用性的角度來說,三個系統(tǒng)中排名第一的是沃森,其系統(tǒng)只要結(jié)合相關(guān)領(lǐng)域的數(shù)據(jù),可以很快進(jìn)行商用轉(zhuǎn)化,提供服務(wù);其次是AlphaGo,直接轉(zhuǎn)換到其他領(lǐng)域,提供商用服務(wù)的可能性不大,但其技術(shù)可以應(yīng)用于其他領(lǐng)域;排在最后的就是深藍(lán)了,向其他領(lǐng)域轉(zhuǎn)化的可能性很小。
AlphaGo(包括Master)的出現(xiàn),對于圍棋有什么影響呢?有人認(rèn)為這會毀了圍棋,人類根本就戰(zhàn)勝不了機(jī)器,再學(xué)習(xí)圍棋還有什么意義呢?我認(rèn)為這種看法是不正確的。AlphaGo的出現(xiàn),說明人類對圍棋的認(rèn)識遠(yuǎn)遠(yuǎn)不夠,在計算機(jī)的輔助下研究圍棋,必將對圍棋有新的認(rèn)識,就如同當(dāng)年吳清源先生的出現(xiàn)一樣,即將開啟圍棋的新天地。
其實(shí)圍棋界也有類似的認(rèn)識。職業(yè)棋手古力說,“我深深地感受到圍棋的神秘,似乎‘大師’(指Master)給我們打開一道圍棋的神秘之門。不論勝負(fù),人類與人工智能共同探索圍棋世界的大幕即將拉開,新一次的圍棋革命正在進(jìn)行著”。職業(yè)棋手排名第一的柯潔也提到,“人類數(shù)千年的實(shí)戰(zhàn)演練進(jìn)化,計算機(jī)卻告訴我們?nèi)祟惾清e的。我覺得,甚至沒有一個人沾到圍棋真理的邊。但我想說,從現(xiàn)在開始,我們棋手將結(jié)合計算機(jī),邁進(jìn)全新的領(lǐng)域、達(dá)到全新的境界。新的風(fēng)暴即將來襲,我將盡我所有的智慧終極一戰(zhàn)!”
從科學(xué)發(fā)展史上來看,每次危機(jī)的出現(xiàn),都預(yù)示著新的革命即將開始,比如數(shù)學(xué)上的幾次悖論的出現(xiàn),都孕育出新的數(shù)學(xué)方法,極大地推進(jìn)了數(shù)學(xué)的發(fā)展。我們期待著AlphaGo能開放出來,可以讓棋手們自由地與它對弈,甚至可以像圍棋復(fù)盤一樣,和計算機(jī)一起探索可能的走法,勝負(fù)已經(jīng)不是關(guān)鍵,重要的是發(fā)展新的圍棋理論,讓圍棋走向一個新天地。
馬少平
清華大學(xué)計算機(jī)系教授,博士生導(dǎo)師,中國人工智能學(xué)會副理事長,中國中文信息學(xué)會副理事長。主要研究方向?yàn)橹悄苄畔⑻幚恚ㄎ谋拘畔z索、網(wǎng)絡(luò)用戶行為分析、個性化推薦、社交媒體分析等。
來源:中國人工智能學(xué)會
校對:盧苗苗