“它最終超越了我們所有預(yù)期”。

DeepMind團隊又放驚天消息。

簡單地說，AlphaGo又有了重大進步。DeepMind把這個新版本的圍棋AI稱為AlphaGo Zero。之所以這樣命名，是因為這個AI完全從零開始，自我學(xué)習(xí)下圍棋，完全脫離人類知識。

以前其他版本的AlphaGo，都經(jīng)過人類知識的訓(xùn)練，它們被告知人類高手如何下棋。而最新發(fā)布的AlphaGo Zero使用了更多原理和算法，從0開始，使用隨機招式，40天后成為圍棋界的絕世高手。真真正正的自學(xué)成才。

新的AlphaGo Zero使用了一種全新的強化學(xué)習(xí)方式，從0基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)開始，與搜索算法結(jié)合，不斷進化調(diào)整、迭代升級。AlphaGo Zero的不同之處在于：

除了黑白棋子，沒有其他人類教給AlphaGo Zero怎么下棋。而之前的AlphaGo包含少量人工設(shè)計的特征。
AlphaGo Zero只用了一個神經(jīng)網(wǎng)絡(luò)，而不是兩個。以前AlphaGo是由“策略網(wǎng)絡(luò)”和“價值網(wǎng)絡(luò)”來共同確定如何落子。
AlphaGo Zero依賴神經(jīng)網(wǎng)絡(luò)來評估落子位置，而不使用rollouts——這是其他圍棋程序使用的快速、隨機游戲，用來預(yù)測哪一方會獲勝。

創(chuàng)新工場AI工程院副院長王詠剛用“大道至簡”四個字評價新版的AlphaGo Zero。

上述種種，讓AlphaGo Zero異常強大。

“人們一般認為機器學(xué)習(xí)就是關(guān)于大數(shù)據(jù)和海量計算，但是DeepMind通過AlphaGo Zero的案例發(fā)現(xiàn)，算法比計算或者數(shù)據(jù)可用性更重要”，AlphaGo團隊負責(zé)人席爾瓦(Dave Silver)介紹說，AlphaGo Zero的計算，比之前的AlphaGo減少了一個數(shù)量級。

如上圖所示，AlphaGo Zero也只用了4個TPU。

AlphaGo Zero到底多厲害，且看官方公布的成績單：

3小時后，AlphaGo Zero成功入門圍棋。
僅僅36小時后，AlphaGo Zero就摸索出所有基本而且重要的圍棋知識，以100:0的戰(zhàn)績，碾壓了當年擊敗李世乭的AlphaGo v18版本。
21天后，AlphaGo Zero達到了Master的水平。這也就是年初在網(wǎng)上60連勝橫掃圍棋界的版本。Master后來擊敗了柯潔。
40天后，AlphaGo Zero對戰(zhàn)Master的勝率達到90%。也就是說，AlphaGo Zero成為寂寞無敵的最強圍棋AI。

DeepMind主要作者之一的黃士杰博士總結(jié)：AlphaGo Zero完全從零開始，初始階段甚至?xí)钫嫜圩詺ⅰlphaGo Zero自學(xué)而成的圍棋知識，例如打劫、征子、棋形、布局先下在角等等，都與人類的圍棋觀念一致。

“間接呼應(yīng)了人類幾千年依賴圍棋研究的價值”，黃士杰寫道。

技術(shù)細節(jié)

DeepMind的最新研究成果，已經(jīng)全文發(fā)布在《自然》雜志上。這也是第二篇在《自然》雜志上發(fā)表的AlphaGo論文。

論文摘要

人工智能的長期目標是創(chuàng)造一個會學(xué)習(xí)的算法，能在特定領(lǐng)域中從一塊白板開始，超越人類。最近，AlphaGo成為第一個在圍棋游戲中打敗世界冠軍的程序。AlphaGo中的樹搜索使用深度神經(jīng)網(wǎng)絡(luò)來評估位置、選擇落子。這些神經(jīng)網(wǎng)絡(luò)用人類專家的棋譜來進行監(jiān)督學(xué)習(xí)的訓(xùn)練，并通過自我對弈來進行強化學(xué)習(xí)。本文介紹了一種僅基于強化學(xué)習(xí)的方法，除了游戲規(guī)則之外，沒有人類的數(shù)據(jù)、指導(dǎo)或者領(lǐng)域知識。AlphaGo成了它自己的老師：一個被訓(xùn)練來預(yù)測AlphaGo自己落子選擇以及對弈結(jié)果的神經(jīng)網(wǎng)絡(luò)。這個神經(jīng)網(wǎng)絡(luò)提高了樹搜索的強度，提高了落子質(zhì)量、增強了自我對弈迭代的能力。從一塊白板開始，我們的新程序AlphaGo Zero的表現(xiàn)超越了人類，并以100-10擊敗了以前曾打敗世界冠軍的AlphaGo版本。

AlphaGo Zero的強化學(xué)習(xí)

上面提到AlphaGo使用了一個神經(jīng)網(wǎng)絡(luò)，這是怎么做到的？

DeepMind使用了一個新的神經(jīng)網(wǎng)絡(luò)f_θ，θ是參數(shù)。這個神經(jīng)網(wǎng)絡(luò)將原始棋盤表征s（落子位置和過程）作為輸入，輸出落子概率(p, v)= fθ(s)。這里的落子概率向量p表示下一步的概率，而v是一個標量估值，衡量當前落子位置s獲勝的概率。

這個神經(jīng)網(wǎng)絡(luò)把之前AlphaGo所使用的策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)，整合成一個單獨的架構(gòu)。其中包含很多基于卷積神經(jīng)網(wǎng)絡(luò)的殘差模塊。

AlphaGo Zero的神經(jīng)網(wǎng)絡(luò)，使用新的強化學(xué)習(xí)算法，自我對弈進行訓(xùn)練。在每個落子位置s，神經(jīng)網(wǎng)絡(luò)f_θ指導(dǎo)進行MCTS（蒙特卡洛樹）搜索。MCTS搜索給出每一步的落子概率π。通常這種方式會選出更有效的落子方式。

因此，MCTS可以被看作是一個強大的策略提升operator。這個系統(tǒng)通過搜索進行自我對弈，使用增強的MCTS策略決定如何落子，然后把獲勝z作為價值樣本。

這個強化學(xué)習(xí)算法的主要理念，實在策略迭代過程中，反復(fù)使用這些這些搜索operator：神經(jīng)網(wǎng)絡(luò)的參數(shù)不斷更新，讓落子概率和價值（P,v）=f_θ(s)越來越接近改善后的搜索概率和自我對弈贏家（π, z）。這些新參數(shù)也被用于下一次的自我對弈迭代，讓搜索變得更強大。整個過程如下圖所示。

上圖解釋了AlphaGo Zero中的自我對弈強化學(xué)習(xí)。圖a展示了程序的自我對弈過程。程序在從s1到st的棋局中進行自我對弈，在任意位置st，程序會用最新的神經(jīng)網(wǎng)絡(luò)f_θ來執(zhí)行MCTS α_θ，根據(jù)MCTS計算出的搜索概率a_t～π_t選擇落子位置，根據(jù)游戲規(guī)則來決定最終位置s_T，并計算出勝者z。

圖b展示了AlphaGo Zero中的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程，神經(jīng)網(wǎng)絡(luò)以棋盤位置s_t為輸入，將它和參數(shù)θ通過多層CNN傳遞，輸出向量P_t和張量值v_t，P_t表示幾步之后可能的局面，v_t表示s_t位置上當前玩家的勝率。為了將P_t和搜索概率π_t的相似度最大化，并最小化v_t和游戲?qū)嶋H勝者z之間的誤差，神經(jīng)網(wǎng)絡(luò)的參數(shù)θ會不斷更新，更新后的參數(shù)會用到如圖a所示的下一次自我對弈迭代中。

AlpaGo Zero中的MCTS結(jié)構(gòu)如上圖所示，從圖a顯示的選擇步驟可以看出，每次模擬都會通過選擇最大行為價值Q的邊緣，加上置信區(qū)間上限U來遍歷樹，U取決于存儲先驗概率P和訪問次數(shù)N。

圖b顯示，葉節(jié)點擴展和相關(guān)位置s的評估都是通過神經(jīng)網(wǎng)絡(luò)(P(s, ·)，V(s)) = f_θ(s)實現(xiàn)的，P的向量值存儲在s的出口邊緣。

圖c顯示了更新行為價值Q以追蹤該行為下面子樹中所有評估V的平均值。

圖d顯示，搜索完成后，搜索概率π返回，與N^1/τ成比例，其中N是從根狀態(tài)每次移動的訪問次數(shù)，τ是控制溫度的參數(shù)。

從零開始的訓(xùn)練

DeepMind在論文中表示，應(yīng)用了強化學(xué)習(xí)的pipeline來訓(xùn)練AlphaGo Zero，訓(xùn)練從完全隨機的行為開始，并在沒有認為干預(yù)的情況下持續(xù)3天。

訓(xùn)練過程中，生成了490萬盤自我博弈對局，每個MCTS使用1600次模擬，相當于每下一步思考0.4秒。下圖顯示了在自我對弈強化學(xué)習(xí)期間，AlphaGo Zero的表現(xiàn)。整個訓(xùn)練過程中，沒有出現(xiàn)震蕩或者災(zāi)難性遺忘的困擾。

令人驚訝的是，AlphaGo Zero在訓(xùn)練36小時后，表現(xiàn)就優(yōu)于擊敗李世乭的版本AlphaGo Lee。當年那個版本經(jīng)過了數(shù)月的訓(xùn)練。AlphaGo Zero使用了4個TPU，而擊敗李世乭的AlphaGo使用了48個TPU。

下圖就是AlphaGo Zero和AlphaGo Lee的神經(jīng)網(wǎng)絡(luò)架構(gòu)比較。

論文全文

論文的共同第一作者是David Silver、Julian Schrittwieser、Karen Simonyan。

關(guān)于這篇論文，可以直接從這個地址下載：

https://deepmind.com/documents/119/agz_unformatted_nature.pdf

DeepMind還放出AlphaGo Zero的80局棋譜，下載地址在此：

https://www.nature.com/nature/journal/v550/n7676/extref/nature24270-s2.zip

— 完 —

加入社群

量子位AI社群10群開始招募啦，歡迎對AI感興趣的同學(xué)，加小助手微信qbitbot3入群；

此外，量子位專業(yè)細分群(自動駕駛、CV、NLP、機器學(xué)習(xí)等)正在招募，面向正在從事相關(guān)領(lǐng)域的工程師及研究人員。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

技術(shù)細節(jié)

論文摘要

AlphaGo Zero的強化學(xué)習(xí)

從零開始的訓(xùn)練

論文全文