作者:姜范波、Aileen、Yawei Xia、龍牧雪、魏子敏
距離阿爾法狗元版本刷屏一個多月時間,阿爾法狗又進化了,這次不光可以玩圍棋,不再是“狗”了。我一點也不驚訝。
在用阿爾法狗(AlphaGo)和阿爾法狗元(AlphaGo Zero)稱霸圍棋世界后,當地時間周二晚,DeepMind的研究組宣布已經開發出一個更為廣泛的阿爾法元(AlphaZero)系統,它可以訓練自己在棋盤,將棋和其他規則化游戲中實現“超人”技能,所有這些都在一天之內完成,并且無需其他干預,戰績斐然:
4個小時成為了世界級的國際象棋冠軍;
2個小時在將棋上達到世界級水平;
8個小時戰勝DeepMind引以為傲的圍棋選手AlphaGo Zero。
這不禁讓文摘菌想到了落入乾坤一氣袋的張無忌瞬間精進的場景:
在各路高手的真力激蕩之下打通數十處玄關,練成了獨步天下的九陽神功,從此化身武林學霸。短短幾個時辰內就練成了第七層乾坤大挪移,無論是太極拳劍還是圣火令武功都手到擒來,成為武林的百科全書。
盡管如此,阿爾法元(AlphaZero)距離一個真正的通用目標,獨立AI,還有一定的距離 。國際象棋和將棋是比較容易的測試,因為它們比圍棋簡單。而像“星際爭霸2”這樣復雜的視頻游戲完全是另一碼事,更不用說散步、藝術或抽象思維等模糊的概念了。
另外還有速度的問題:雖然用來學習棋盤游戲的時間少于24小時,但對于AI需要現場適應的情況,速度太慢。DeepMind報告也說,訓練該軟件使用了5064臺功能強大的定制機器學習處理器(被稱為TPU)。(簡直野蠻暴力)
但仍然不可否認,這是人工智能邁出的重要一步。
在大數據文摘后臺回復“alpha”,下載DeepMind最新論文
論文地址 https://arxiv.org/pdf/1712.01815.pdf (還未經過peer review)
回憶人工智能的歷史,很多人的印象都是一堆“各類技能”冠軍——井字棋、跳棋和國際象棋。幾十年來,研究人員已經研制了一系列超級專業的程序,在越來越高難度的游戲中擊敗人類。近期在圍棋上,Deepmind的阿爾法狗也超越了人類。但是,這些人造冠軍們的共同弱點是——都只能玩某一種精心設計的游戲。而人類即使在某些技能上輸了,在精通多種技藝這一點上,仍然完爆人工智能。
近日,DeepMind官方宣布了第一個多技能的AI棋類游戲冠軍程序。當地時間周二晚,Deepmind發布的一篇論文描述了一款名為AlphaZero的軟件,它可以在三種具有挑戰性的游戲中自學,表現超越人類:國際象棋,圍棋或將棋(亦稱日本象棋)。
DeepMind在文章中描述了AlphaZero的學習過程。人類不再是國際象棋,圍棋和將棋中最好的選手,所以AlphaZero就用最好的專業人工選手(計算機程序Stockfish、Elmo、AlphaGo Zero)進行測試。這個新程序很快就打敗了這三個人工棋手:
只用了4個小時成為了世界級的國際象棋冠軍;用2個小時在將棋上達到世界級水平;只花了8小時戰勝DeepMind引以為傲、也是之前已知最好的圍棋選手AlphaGo Zero。
圖:經過70萬步訓練的AlphaZero。它的對手是國際象棋的2016TCEC世界冠軍程序Stockfish,將棋的2017CSA世界冠軍程序Elmo,和大家都知道的AlphaGo Zero。每一手棋雙方只有1秒的反應時間。
DeepMind也表示,新程序AlphaZero模仿AlphaGo Zero,通過同樣的自我對練機制學習。AlphaZero核心的算法是它的升級版本,能夠搜索更廣泛的可能策略以適應不同的游戲。
AlphaZero可以從頭開始學習三個游戲中的每一個,盡管它需要按照每個游戲的規則進行編程。該程序通過與自己對練提高技能成為專家,嘗試不同的玩法來發現獲勝的途徑。
圖:人類常用的國際象棋的12種開局方式解析
AlphaZero還沒有辦法學會同時參加三場比賽。但是,一個程序學習三種不同的復雜游戲,能達到如此高的水平,還是驚人的,因為AI系統——包括那些可以“學習”的——通常是非常專業的,需要經歷磨練來解決特定的問題。即使是最好的人工智能系統也不能在兩個問題之間進行泛化——因此,許多專家認為機器要取代人還有很長一段路要走。
AlphaZero可能是AI系統走向非專門化的一小步。紐約大學教授Julian Togelius在周二發布的推文中指出,真正泛化的AI還道阻且長,但稱DeepMind的論文“非常出色”。
圖:國際象棋和將棋中,AlphaZero每一手棋的思考時間,和相應的模型表現(Elo)
而DeepMind的這一研究進展對于業界來說也非常重要。更靈活的機器學習軟件可以幫助谷歌加速在業務內部擴展人工智能技術。DeepMind最新發明中的技術也可能幫助團隊挑戰視頻游戲“星際爭霸”(StarCraft),后者已經成為它的下一個目標。一個流行的商業視頻游戲似乎沒有正式而抽象的棋盤游戲那么令人生畏。但“星際爭霸”被認為復雜度更高,因為它各種變量和特征的安排自由度更大,玩家必須預見對手不可見的行為。
相比可以學習三個以上的棋盤游戲,并能解決各種空間,常識,邏輯,藝術和社會難題的人腦,AlphaZero的智力水平仍然有限。
DeepMind論文中顯示,AlphaZero在三種游戲中使用了同樣的算法設置、神經網絡結構和超參數。訓練過程包括70萬步(4096大小的mini-batch),從隨機生成的參數開始,使用了5000臺TPU生成自對抗的棋局,接著使用64臺TPU訓練神經網絡。
一共5064臺TPU!文摘菌不得不感慨“何以解憂,唯有暴富”。
相較于阿爾法狗元(AlphaGo Zero)用到的64臺GPU和19臺CPU,AlphaZero的算力可謂得到了指數級提升。算法的訓練時間也從阿爾法狗元的“幾天”提升到了現在的“8小時”。
回頭看看戰勝了李世石和柯潔的驚天動地的阿爾法狗,已經顯得像原始人了。它用到了1920臺CPU和280臺GPU,需要訓練幾個月。
人工智能的發展,有3個驅動力——數據、算法、算力。神經網絡的“左右互搏”在數據和算法上做出了突破,而谷歌的TPU計算資源支持更是AlphaZero致勝的秘訣之一。
從10月底圍棋超人阿爾法狗元的誕生,到12月進化成三種棋類超人阿爾法元,不過只用了短短一個多月的時間。