今年上半年,AlphaGo成功挑戰職業圍棋九段選手李世乭,讓人工智能大放光彩。但相比起十分需要運算和推測的棋類游戲,人工智能一直在電子游戲中多次吃虧。之前AlphaGo也提出要在《星際爭霸2》中戰勝職業選手,但暴雪CEO表示不太可能。這是因為電子游戲的自由度非常高,取得勝利的方式也有很多種,人工智能往往摸不著頭腦,甚至有時直接發呆。
(圖片來源于:Google)
為了扭轉這個劣勢,DeepMind其實早在前年已經開始著手研究,并且在頂級科研雜志Nature(自然)上發布了有關AI Deep Q-Network(人工智能深度網絡,簡稱DQN)的論文。這個名為DQN的人工智能,可以自主學習游戲規則,在事先沒有給予任何有關游戲的情報下,能夠通過不斷玩游戲來提高自己的成績。
DeepMind在YouTube上發布了相關的視頻介紹,其中也有我們小時候經常玩的接球游戲。在剛開始接觸這款游戲的時候,DQN的成績十分糟糕,接幾次就繼續不下去了。
(圖片來源于:Google)
但是經過600多次的“訓練”后,奇跡發生了,DQN不僅可以流暢操作,而且還充分利用游戲的小技巧,進行更加高級的游戲玩法,可謂進步十分明顯。而這些進步,都是DQN自己總結并加以運用,期間沒有人類干涉過。
(圖片來源于:Google)
據DeepMind的官方說法,能讓DQN學會玩電子游戲的關鍵算法名為“異步評價器算法”(Asynchronous Advantage Actor-Critic)簡稱A3C。簡單點來說,這個算法可以讓DQN自行判斷游戲界面的情況,并通過“大型分布式深度強化學習系統”學習游戲的玩法和規則。最后就是通過不斷訓練和學習來提高運算水平,從而達到“玩好游戲”的地步。
(圖片來源于:Google)