阿爾法圍棋(AlphaGo)是通過兩個不同神經網絡“大腦”合作來改進下棋。這些大腦是多層神經網絡跟那些Google圖片搜索引擎識別圖片在結構上是相似的。它們從多層啟發式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網絡處理圖片一樣。經過過濾,13 個完全連接的神經網絡層產生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。
這些網絡通過反復訓練來檢查結果,再去校對調整參數,去讓下次執行更好。這個處理器有大量的隨機性元素,所以人們是不可能精確知道網絡是如何“思考”的,但更多的訓練后能讓它進化到更好。
第一大腦:落子選擇器 (Move Picker)
阿爾法圍棋(AlphaGo)的第一個神經網絡大腦是“監督學習的策略網絡(Policy Network)” ,觀察棋盤布局企圖找到最佳的下一步。事實上,它預測每一個合法下一步的最佳概率,那么最前面猜測的就是那個概率最高的。這可以理解成“落子選擇器”。
第二大腦:棋局評估器 (Position Evaluator)
阿爾法圍棋(AlphaGo)的第二個大腦相對于落子選擇器是回答另一個問題。不是去猜測具體下一步,它預測每一個棋手贏棋的可能,在給定棋子位置情況下。這“局面評估器”就是“價值網絡(Value Network)”,通過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的,但對于閱讀速度提高很有幫助。通過分類潛在的未來局面的“好”與“壞”,AlphaGo能夠決定是否通過特殊變種去深入閱讀。如果局面評估器說這個特殊變種不行,那么阿爾法就跳過閱讀在這一條線上的任何更多落子。
“阿爾法圍棋”和其他的圍棋人工智能機器人進行了較量,在總計495局中只輸了一局,勝率是99.8%。它甚至嘗試了讓4子對陣CrazyStone、Zen和Pachi三個先進的人工智能機器人,勝率分別是77%、86%和99%。
谷歌研究者開發的名為“阿爾法圍棋”(Alpha Go)的人工智能機器人,在沒有任何讓子的情況下,以5:0完勝歐洲圍棋冠軍、職業二段選手樊麾。在圍棋人工智能領域,實現了一次史無前例的突破。計算機程序能在不讓子的情況下,在完整的圍棋游戲中擊敗專業選手,這是第一次。
2016年3月15日,“人機大戰”最后一場對弈中,“AlphaGo”在一度不利的情況下于收官階段中盤戰勝李世石,總比分被定格為1:4,五番棋最終以“AlphaGo”勝出而告終。
2016年7月17日,Gorating世界圍棋排名發生了重大變化,柯潔由于在海峽兩岸世界冠軍爭霸賽中表現不佳,積分下跌,AlphaGo反超柯潔,排名升至榜首[5]。
2016年3月27日,暴雪娛樂制作總監Tim Morten在WCS中國站決賽上表示,AlphaGo確認將挑戰《星際爭霸2》,但谷歌目前正在和暴雪溝通,具體細節還沒有確定。[4]
2017年4月10日,谷歌在中國棋院召開發布會,宣布5月23日-27日在烏鎮主辦“中國烏鎮·圍棋峰會”,屆時AlphaGo將再度與柯潔等為代表的中國頂尖棋手進行圍棋對弈。[8]
2017年5月23日-27日柯潔與圍棋人工智能AlphaGo在“中國烏鎮·圍棋峰會”展開對弈。三局比賽,分別于5月23、25、27日進行[9]。
5月25日,人機大戰第二局在桐鄉舉行。柯潔執白迎戰AlphaGo。弈至155手,柯潔認負,AlphaGo執黑中盤勝,目前比分2比0,AlphaGo贏下與柯潔的人機大戰。
5月26日,在人機大戰配對賽中,古力和連笑兩位棋手分別與AlphaGo組隊,2V2較量。最終連笑一方執白中盤取勝。
5月26日,在人機大戰團體賽中,AlphaGo執白中盤勝陳耀燁、時越、羋昱廷、唐韋星、周睿羊[12]。
5月27日,柯潔以中盤投子結束了與AlphaGo的最后一場比賽,最終比分定格在0:3[10]。
谷歌Deep mind首席執行官(CEO)德米斯·哈薩比斯宣布“要將Alpha Go和醫療、機器人等進行結合”。[1]
繼“阿爾法狗”在2016年3月打敗韓國棋手李世石九段后,沉寂半年之久的“阿爾法狗”宣布將于2017年初正式復出!這表明該人工智能系統已經在棋力上又取得了進步。在“狗狗”沉寂的半年時間內,團隊對“狗狗”并未停止研發進程。此次重磅宣布復出,“狗狗”對人類棋手進行了很深入的研究,但具體細節還有待公布![6]
從2016年12月29日晚起,一位神秘高手在圍棋界掀起了“腥風血雨”。一個注冊為“master”、標注為韓國九段的“網絡棋手”接連“踢館”弈城網和野狐網。
“Master”已戰勝不少頂級職業棋手,其中包括柯潔、古力、樸廷桓、陳耀燁、聶衛平、常昊等圍棋高手。截至2017年1月4日晚,master已經斬獲了58連勝。
2017年1月4日晚,就在Master取得第59場連勝后,Master賬號宣布自己就是AlphaGo,而代為執子的就是AlphaGo團隊的黃士杰博士![7]
大師(Master)最終以60戰全勝的戰績結束了“他”的網絡公測。
大師(Master)擊敗的棋手名單中,包括中國世界冠軍:古力(3次)、柯潔(3次)、陳耀燁(3次)、范廷鈺(2次)、常昊(1次)、時越(1次)、羋昱廷(1次)、唐韋星(1次)、江維杰(1次)、柁嘉熹(1次)、周睿羊(1次),韓國世界冠軍樸廷桓(5次)、元晟溱(1次)、姜東潤(1次)、金志錫(1次)、樸永訓(1次)。
2017年5月27日,在2017人機大戰最后一局比賽結束后的發布會上,AlphaGo之父、DeepMind創始人戴密斯·哈薩比斯(Demis Hassabis)說:“本周的比賽聚集了圍棋起源地最優秀的棋手參與,是AlphaGo作為一個競賽系統能夠對弈的最高級別對手。因此,本次中國烏鎮圍棋峰會是AlphaGo參加的最后對弈比賽[11]。”
2017年10月18日,DeepMind團隊公布了最強版AlphaGo ,代號AlphaGo Zero。它的獨門秘籍,是“自學成才”。而且,是從一張白紙開始,零基礎學習,在短短3天內,成為頂級高手。
團隊稱,AlphaGo Zero的水平已經超過之前所有版本的AlphaGo。在對陣曾贏下韓國棋手李世石那版AlphaGo時,AlphaGo Zero取得了100:0的壓倒性戰績。DeepMind團隊將關于AlphaGo Zero的相關研究以論文的形式,刊發在了10月18日的《自然》雜志上[13]?。