精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
DeepMind讓AI組隊踢足球?qū)W會“合作”,并開源訓(xùn)練環(huán)境

大數(shù)據(jù)文摘編輯部出品

從足球競技到戰(zhàn)爭,團隊合作一直被認為是人類社會進步的基石。基于長遠的共同目標(biāo),弱化甚至犧牲個人利益,促成了人類作為共同體的最大利益。

DeepMind也正嘗試讓人工智能學(xué)會這一點,并且選擇了最有可能顯示團隊合作的考核方式——足球比賽。

今天凌晨,DeepMind發(fā)布了最新研究:證明了在足球環(huán)境下,一種基于分布式代理的連續(xù)控制培訓(xùn)框架,結(jié)合獎勵渠道的自動優(yōu)化,可以實現(xiàn)多智能體端到端的學(xué)習(xí)。

簡單來說就是,DeepMind設(shè)置了環(huán)境,讓多個AI一起踢足球賽。并且提前設(shè)置了規(guī)則,獎勵整只“足球隊”而不去鼓勵某個'AI球員”的個人成績,以促成整個球隊的進步。用這種方式證明了,AI也是可以相互合作的!

先附上論文鏈接:

https://arxiv.org/pdf/1902.07151.pdf

這篇論文被ICLP 2019收錄。

通過競爭,實現(xiàn)緊急協(xié)調(diào)的多方協(xié)作

多智能體通過協(xié)作,完成團隊最優(yōu)目標(biāo)并不是一個陌生的話題,去年,OpenAI就曾發(fā)布了由五個神經(jīng)網(wǎng)絡(luò)組成的DOTA團戰(zhàn)AI團隊——OpenAI Five ,并在5v5中擊敗了頂級人類玩家團隊。比賽中,OpenAI Five也展示了,在勝利是以摧毀防御塔為前提的游戲中,犧牲“小兵”利益是可以被接受的,也就是說,AI是可以朝著長期目標(biāo)進行優(yōu)化的。

DeepMind的最新研究進一步專注于多智能體(multi-agent)這一領(lǐng)域。

他們組織了無數(shù)場2v2的AI足球比賽,并設(shè)定了規(guī)則,一旦有一方得分或者比賽超過45秒,比賽就結(jié)束。

DeepMind稱,通過去中心化的、基于群體的訓(xùn)練可以使得代理人的行為不斷發(fā)展:從隨機,簡單的追球,到最后的簡單“合作”。他們的研究還強調(diào)了在連續(xù)控制的大規(guī)模多智能體訓(xùn)練中遇到的幾個挑戰(zhàn)。

值得一提的是,DeepMind通過設(shè)置自動優(yōu)化的簡單獎勵,不鼓勵個體,而去鼓勵合作行為和團隊整體的成績,可以促成長期的團隊行為。

在研究中通過引入一種“基于單獨折扣因子來形成自動優(yōu)化獎勵的思想”,可以幫助他們的代理從一種短視的訓(xùn)練方式,過渡到一種長時間但更傾向于團隊合作的訓(xùn)練模式當(dāng)中。

DeepMind也進一步提出了一個以博弈論原理為基礎(chǔ)的評估方案,可以在沒有預(yù)定義的評估任務(wù)或人類基線的情況下評估代理的表現(xiàn)。

具體思想

將足球比賽看做一個多智能體強化學(xué)習(xí)(MARL)的過程,模擬一個可交互的環(huán)境,智能主體通過學(xué)習(xí)與環(huán)境互動,然后優(yōu)化自己累計獎勵。MARL的主題思想是協(xié)作或競爭,亦或兩者皆有。選擇什么樣的行為,完全取決于“報酬獎勵”的設(shè)置。MARL的目標(biāo)是典型的馬爾科夫完美均衡。大致意思是尋找隨機博弈中達到均衡條件的混合策略集合。

具體意思是:博弈參與者的行動策略有馬爾科夫特點,這意味著每個玩家的下一個動作是根據(jù)另一個玩家的最后一個動作來預(yù)測的,而不是根據(jù)先前的行動歷史來預(yù)測的。馬爾科夫完美均衡是:基于這些玩家的動作尋找動態(tài)均衡。

DeepMind在github上發(fā)布了他們使用的MuJoCo Soccer環(huán)境,這是一個競爭協(xié)作多智能體交互的開源研究平臺,在機器學(xué)習(xí)社區(qū)已經(jīng)得到了相當(dāng)廣泛的使用。

github地址:

https://github.com/deepmind/dm_control/tree/master/dm_control/locomotion/soccer

評估

相關(guān)比賽視頻鏈接:

https://youtu.be/wPtF_ygW2ss

為了有效地評估學(xué)習(xí)團隊,DeepMind選擇優(yōu)化評估方法,所選團隊都是以前由不同評估方法產(chǎn)生的10個團隊,每個團隊擁有250億次的學(xué)習(xí)經(jīng)驗。他們在10個團隊中收集了一百萬種比賽情況。

上圖顯示了支持團隊的3個智能體顯示的成對預(yù)期目標(biāo)差異。納什均衡要求3個團隊的權(quán)重都是非零的,這些團隊協(xié)作展示了具有非傳遞性能的不同策略,這是評估方案中并不存在的:團隊A在59.7%的比賽中贏得或打平團隊B; 團隊B在71.1%的比賽中贏得或打平團隊C,團隊C在65.3%的比賽中贏得或打平團隊A.,他們展示了團隊A,B和C之間的示例比賽的記錄,可以定性地量化其策略的多樣性。

在上圖中,DeepMind展示了代理行為的典型軌跡:在5B步驟中,當(dāng)代理更個性化地行動時,我們觀察到無論blue1的位置如何,blue0總是試圖自己運球。但在訓(xùn)練的后期,blue0則積極尋求團隊合作,其行為呈現(xiàn)出由其隊友驅(qū)動的特點,顯示出高水平的協(xié)調(diào)精神。特別是在“8e10_left”這一場比賽中中,DeepMind稱他們觀察到了兩次連續(xù)傳球(blue0到blue1和后衛(wèi)),這是在人類足球比賽中經(jīng)常出現(xiàn)的2對1撞墻式配合。

未來研究

DeepMind此項研究意義重大,將2v2足球領(lǐng)域引入多智能體協(xié)作是以前沒有過的研究,通過強化學(xué)習(xí)研究,利用競爭與合作來訓(xùn)練獨立智能個體,展示了團隊的協(xié)調(diào)行為。

這篇論文也證明了一種基于連續(xù)控制的分布式集群訓(xùn)練框架,可以結(jié)合獎勵路徑自動優(yōu)化,因此,在這種環(huán)境下可以進行進行端到端的學(xué)習(xí)。

其引入了一種思想,將獎勵方向從單策略行為轉(zhuǎn)變?yōu)殚L期團隊合作。引入了一種新的反事實政策評估來分析主題策略行為。評估強調(diào)了匹配結(jié)果中的非傳遞性和對穩(wěn)健性的實際需求。

DeepMind開源的訓(xùn)練環(huán)境可以作為多智能體研究的平臺,也可以根據(jù)需要擴展到更復(fù)雜的智能體行為研究,這為未來的研究打下堅實的基礎(chǔ)。

實習(xí)/全職編輯記者招聘ing

加入我們,親身體驗一家專業(yè)科技媒體采寫的每個細節(jié),在最有前景的行業(yè),和一群遍布全球最優(yōu)秀的人一起成長。坐標(biāo)北京·清華東門,在大數(shù)據(jù)文摘主頁對話頁回復(fù)“招聘”了解詳情。簡歷請直接發(fā)送至zz@bigdatadigest.cn


志愿者介紹

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
DeepMind揭秘雷神之錘3背后AI真相:碾壓人類只是個開始
DeepMind和Unity合作,創(chuàng)建虛擬世界來訓(xùn)練AI
AI打星際II更厲害:Deepmind的AlphaStar 10比1贏了人類
小學(xué)龜兔賽跑課程設(shè)計
玩轉(zhuǎn)AI:通過與AT&T合作,熱火帶給球迷數(shù)字智能交互體驗
AI巨頭們給白宮交卷:谷歌等12家機構(gòu)聯(lián)合發(fā)布“模型安全性評估框架”
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 铜梁县| 兴国县| 塔河县| 苍山县| 安康市| 永寿县| 临西县| 丰原市| 武功县| 章丘市| 锡林郭勒盟| 同德县| 西盟| 泽库县| 七台河市| 乐山市| 仪征市| 旺苍县| 卢湾区| 安溪县| 合水县| 池州市| 柯坪县| 南通市| 仁寿县| 新乐市| 临武县| 青铜峡市| 丰城市| 万载县| 新乡市| 昂仁县| 丹东市| 泰和县| 泸水县| 望谟县| 平山县| 石泉县| 永平县| 防城港市| 两当县|