在20世紀(jì)的大部分時間里,國際象棋博弈都是人工智能研究人員的基準(zhǔn)。約翰·麥卡錫(John McCarthy)在20世紀(jì)50年代早期創(chuàng)造了“人工智能”一詞,曾經(jīng)把國際象棋稱為“人工智能界的果蠅”,可見國際象棋對于人工智能研究的重要性。
在20世紀(jì)90年代后期,IBM的Deep Blue展開與世界冠軍Garry Kasparov的一系列國際象棋比賽。于1997年最終擊敗卡斯帕羅夫,這標(biāo)志著一臺機(jī)器首次在比賽中擊敗了世界冠軍。到了二十一世紀(jì)初,這項技術(shù)已經(jīng)提高到無論在什么樣的游戲環(huán)境中機(jī)器都能夠擊敗國際象棋大師。
自然AI開發(fā)人員開始轉(zhuǎn)向其他更復(fù)雜的游戲來測試他們?nèi)找鎻?fù)雜的算法。在過去的12個月里,AI越過了一系列新的門檻,最終在各種不同的游戲中擊敗人類玩家,從圍棋游戲到動態(tài)交互式紙牌游戲,德州撲克。
Going going gone
在九十年代后期,在一臺機(jī)器終于擊敗一個國際象棋特級大師。
面對挑戰(zhàn),計算機(jī)科學(xué)家把注意力轉(zhuǎn)移到這個圍棋游戲上,這個游戲看起來簡單易玩,但卻非常復(fù)雜。
在過去的十年里,機(jī)器學(xué)習(xí)的發(fā)展才剛剛創(chuàng)造出真正有競爭力的圍棋選手。 2014年,Google開始研究一個名為AlphaGo的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。經(jīng)過幾年的半成功的挑戰(zhàn)之后,開發(fā)團(tuán)隊嘗試了一些不同的東西。
在2016年底,流行的亞洲游戲服務(wù)器Tygem上出現(xiàn)了一個名為“Master”的神秘在線玩家。在接下來的幾天里,這個神秘的玩家在這個系統(tǒng)上與許多世界冠軍的游戲中都占主導(dǎo)地位。到1月4日,官方確認(rèn)“Master”實際上是DeepMind的AI AlphaGo的最新版本。
2017年5月,AlphaGo“Master”贏過了世界排名最高的選手柯潔。在它們的三場比賽中,該機(jī)器全面占據(jù)了主導(dǎo),但最令人吃驚的是,在十月份的時候,Google已經(jīng)產(chǎn)生了比“Master”還要好的AlphaGo更復(fù)雜的迭代。
在《自然》期刊上發(fā)表的“AlphaGo Zero”是一個革命性的算法,目標(biāo)是進(jìn)行完全的自主學(xué)習(xí)。這個系統(tǒng)只是反復(fù)地對抗自己,并且學(xué)習(xí)如何掌握它所編程的任何游戲。經(jīng)過21天的學(xué)習(xí),AlphaGo Zero達(dá)到了“Master”的水平,到了第40天,它已經(jīng)超過了之前版本的技能水平。
到2017年12月,DeepMind發(fā)現(xiàn)了一個更新的系統(tǒng)版本。這個名叫AlphaZero的新AI可以在幾個小時內(nèi)就掌握各種游戲。經(jīng)過八個小時的自主訓(xùn)練,該系統(tǒng)不僅可以擊敗AlphaGo Zero之前的版本,還可以成為國際象棋特級大師和棋將冠軍。
掌握虛張聲勢
經(jīng)過十多年的嘗試,人工智能終于擊敗了大牌撲克專業(yè)人士。來自Alberta大學(xué)的DeepStack公布了一個人工智能系統(tǒng),該系統(tǒng)可以用人工智能的“直覺”形式全面主宰人類的撲克玩家。
經(jīng)過艱苦的20天的馬拉松,機(jī)器全面擊敗所有四名職業(yè)撲克玩家。而卡內(nèi)基梅隆大學(xué)的一個團(tuán)隊在2017年1月舉行了更為公開的比賽,當(dāng)時Libratus AI系統(tǒng)花費了20天時間與4名撲克專業(yè)人士共同玩了12萬無限德州撲克。雖然職業(yè)玩家每天晚上都在討論他們可以利用的人工智能的弱點,但是機(jī)器每天都在不斷提高自身的能力,修補(bǔ)游戲中的漏洞并改進(jìn)策略。
人類大腦趕不上機(jī)器的速度,經(jīng)過近一個月的全天候游戲,Libratus還增加了170萬美元,四名專業(yè)人員中的每一個人都失去了數(shù)千美元的虛構(gòu)美元。
伊隆·馬斯克的AI實驗
幾年前,Google DeepMind在49個Atari 2600游戲中設(shè)置了自己的AI。提供了與其他人類玩家相同的投入,AI想出了許多贏得游戲的方法。雖然有些游戲比其他游戲更難以掌握,尤其是80年代的經(jīng)典電子游戲“Ms Pac-Man”尤其困難。
2017年,一家名為Maluuba的深度學(xué)習(xí)公司被Google收購,并被納入DeepMind集團(tuán)。 Maluuba的新機(jī)器學(xué)習(xí)方法被稱為“混合獎勵架構(gòu)”(HRA)。將這種方法應(yīng)用到Ms Pac-Man身上,該系統(tǒng)創(chuàng)建了150多名個體代理,每個代理都負(fù)責(zé)具體的目標(biāo),例如尋找特定的藥丸或避開鬼魂。
HRA方法產(chǎn)生了一個頂級代理,類似于高級經(jīng)理。這位最優(yōu)秀的經(jīng)紀(jì)人在做出個人行動的最終決定之前,評估下級代理人的所有建議。這個方法被委婉地稱為“分而治之”,這樣,一個復(fù)雜的任務(wù)就被分解成更小的部分。
AI將這一方法應(yīng)用到Ms Pac-Man之后,AI很快就想出了如何取得999,990的高分,這是人類以前沒有想到的。
人工智能很快就會在游戲中稱霸
如果人工智能在幾乎每一場比賽中都能擊敗我們,那么下一步是什么呢?
Falmouth大學(xué)的一位研究人員最近透露了一個機(jī)器學(xué)習(xí)算法,他聲稱這種人工智能可以為我們設(shè)計出自己的游戲。這個被稱為安吉麗娜(Angelina)的人工智能系統(tǒng)每天都在不斷改進(jìn),但是現(xiàn)在可以利用從維基共享網(wǎng)站(Wikimedia Commons)、在線報紙和社交媒體等來源的數(shù)據(jù)進(jìn)行游戲。
那么,這意味著什么?
也許2017年最重要,最可怕的發(fā)展是強(qiáng)化學(xué)習(xí)系統(tǒng)的巨大進(jìn)步。這些程序可以有效地教導(dǎo)自己如何掌握新的技能。例如,最近的AlphaZero迭代可以在幾天的自主學(xué)習(xí)之后在某些游戲中實現(xiàn)超人的技能。
對350多名人工智能研究人員進(jìn)行的一項大型調(diào)查顯示,人工智能幾乎可以把“所有的東西”都打敗,這時間不會太長了。調(diào)查預(yù)測,到2049年,它將能夠?qū)懗鲆槐緯充N小說,到2053年,它在手術(shù)上的表現(xiàn)會比人類更好。事實上,調(diào)查得出的結(jié)論是,到2060年AI有50%的可能性能夠做人類做的每一件事,甚至比我們做的更好。
毫無疑問,2017年是人工智能在日益復(fù)雜的游戲中擊敗人類的一個里程碑,盡管這看起來微不足道,但其影響卻是巨大的。這些發(fā)展中國家的許多公司正迅速將目光投向現(xiàn)實世界的挑戰(zhàn)。谷歌DeepMind已經(jīng)將AlphaGo Zero系統(tǒng)從游戲中移開,開始對蛋白質(zhì)折疊進(jìn)行了全面的研究,希望能對阿爾茨海默癥和帕金森氏癥等疾病進(jìn)行治療。
(
(內(nèi)容來源:譯云綜編/圖片來源:網(wǎng)絡(luò))