DeepMind 創始人之一,現任CEO Demis Hassabis 在 MIT 的演講在Youtube上發布。Demis在演講中詳細地介紹了AlphaGo的原理,并回顧了3月份那場與李世石的圍棋大戰中最激動人心的時刻。
來源:新智元
今天,世界職業圍棋排名網站GoRatings公布,最新世界排名中,AlphaGo已經超越柯潔,成為新的世界第一。
下文是DeepMind創始人之一,現任CEO的 Demis Hassabis 在 MIT 大腦與機器研究中心(CBMM)的演講。Demis 既是一名AI研究者,也是一名神經科學家、視頻游戲開發者。在本次演講中,他介紹了AI 研究中最前沿的技術,其中包括具有歷史意義的AlphaGo與李世石的圍棋大戰。Demis 也展望了未來AI對科學和醫療行業的影響,說明發展AI可以讓我們更好地理解人類的內心。
DeepMind建立于2010年,2014年被谷歌收購。
DeepMind的使命:
解決智能難題;
用智能解決所有難題。
DeepMind從建立起目標就鎖定在建立通用的人工智能。Demis在演講中把這一目標稱為通用目的的學習算法,即,能從原始的輸入,而非預先編程的材料中自動地進行學習。通用指的是,一個能在大量的任務中運行的系統。
通用人工智能(AGI):靈活的、可適應的、創造性。
“狹義”的AI:手工編碼的、特定用途的、易破壞的。
深藍就是預先編程的。
增強學習框架:
帶有目的的智能體在特定的環境中進行訓練,獲得觀察和反饋,然后做出該環境中的行動決策。
一個真正能思考的機器,必須是在一個多變的現實環境下可行的。
游戲是一個開發和測試AI算法的理想平臺:無限的訓練數據、不存在測試偏見、平行測試、進程可控。
端對端的學習智能體:從像素到行到,即,從感知到行動。
在使用游戲來研究AI上,DeepMind走在了前列。
深度增強學習:深度學習與增強學習的結合:讓增強學習可以更大范圍的使用。
從80年代起,在Atari 2600平臺上訓練了50+個經典游戲
智能體只獲得最原始的像素作為輸入
其目標是盡可能拿高分
從“零”學起
一個系統,玩所有不同的游戲
游戲實例(視頻中可見)
DeepMind通過玩游戲進行AI研究的成果,曾作為封面文章于2015年發表在《Nature》上。
神經科學系統對AI的啟發:記憶、聚焦(Attention)、概念、規劃、導航、想象。大腦中的海馬體在發揮作用。
讓神經網絡具備記憶功能
記憶:神經圖靈機器示意圖
AI中的經典問題:積木難題
象征推理:迷你積木難題(程序如何根據設定的目標對積木進行排序,視頻中有動圖可見)。Demis說,今年年底,將會發表相關論文。
用積木代表語言問題
程序在游戲中的3D導航問題
Demis兩步教你下圍棋
第二步:劫
為什么選擇圍棋?
人類最復雜難懂的游戲
人類已經達到很高的專業水準
對AI來說依然是一個巨大的挑戰:要求直覺和計算;要求模式識別和規劃的結合。
圍棋的復雜性讓暴力算法無效。
兩大主要挑戰:搜索空間非常大;不可能寫估值函數來決定誰贏。
國際象棋每個位置有20種可能走法
圍棋每個位置有200種可能走法
圍棋是一種建設性的游戲,所以估值包含了預測。
局部微小的改變會完全改變估值。
直覺VS計算
圍棋主要是關于直覺而不是計算
AlphaGo的深度神經網絡包含兩層:策略網絡和估值網絡
蒙特卡洛樹形搜索與神經網絡的結合
搜索樹刪節
AlphaGo與其他程序的對比
2015年,與樊麾的比賽。AlphaGo 5:0 獲勝。
關于AlphaGo下圍棋的研究發表在2016年的《Nature》上。
與李世石的圍棋大戰
詳解第二局中AlphaGo的第37步棋
第四局中,李世石的第78步棋。
這場對決帶來的影響
深藍與AlphaGo的對比
直覺和創造力
未來應用:健康醫療和智能助理
AlphaGo團隊