今天分享一篇短文。
最近,你可能聽過太多人聊ChatGPT了。AI生成的“新技能”正在以每周甚至每天的速度進步。有人覺得OpenAI創造的大語言模型,是互聯網之后最令人興奮的科技跳板,也有國家、機構開始限制AI訓練,封殺ChatGPT。爭論肯定還會繼續。
那不如,我們試著回到故事的起點?如果我說,游戲玩家其實是最早聽說“OpenAI”這個機構名字的大眾群體,你是否能回想起什么?前不久,在英偉達組織的一次線上會議上,OpenAI聯合創始人就聊起了團隊做出的第一個大項目,打Dota2的AI。
OpenAI在2017年到2019年間,多次舉辦了Dota2 AI與職業選手的對局,當時被冠以“人機大戰”的噱頭,。研究游戲看似是他們走的一條彎路,但也在給OpenAI打響名聲的同時,增強了團隊對AI訓練模型的理解,并變相推動了后續ChatGPT的誕生。
事實上,即便訓練出了(在一定限制下)能夠擊敗電競世界冠軍的AI,在很長一段時間里,OpenAI都被許多人認為是意義不明的項目,“打游戲這么強有什么用?”。但如今我們才明白過來,通過ChatGPT名利雙收的OpenAI已經離自己的不朽盾越來越近。
本文轉載自 | 游戲葡萄
原作者 | 王丹
近日,英偉達GTC線上大會發起了一場特別活動——英偉達CEO黃仁勛與OpenAI聯合創始人兼首席科學家Ilya Sutskever進行了一次“爐邊談話”。兩人就OpenAI旗下產品ChatGPT系列,以及OpenAI公司本身的發展進行了回顧和探討。
Ilya在談話中提到,在OpenAI及其產品的發展歷程中,有2個好點子功不可沒——第一個是,通過壓縮訓練數據讓AI進行“無監督學習”;第二個是,讓AI進行強化學習。在介紹強化學習部分時,Ilya特地提到了《DOTA2》——訓練出能與職業選手對抗的《DOTA2》AI,這是他們在OpenAI中完成的第一個真正的大型項目。
在2017年的《DOTA2》國際邀請賽(TI7)上,OpenAI首次與《DOTA2》玩家見面。當時的OpenAI還無法進行5V5對戰,只可進行中路單挑。在表演賽環節,主辦方請來了TI1冠軍隊選手Dendi,他使用英雄影魔與OpenAI進行中路單挑。OpenAI展現了熟練的卡兵技巧,隨后僅用4分40秒就2:0擊敗了Dendi。
比賽期間,OpenAI官方在YouTube上發布視頻,解釋了為何團隊選擇用《DOTA2》來訓練AI——《DOTA2》機制較為復雜且競技性較強,AI在游玩中需要不斷學習新的技能、新的玩法,才能達到和職業玩家相當的水平,這使《DOTA2》成為了很好的AI自我訓練道具。
在此之后,OpenAI研發出了《DOTA2》5V5對戰AI——OpenAI Five。5V5對AI之間的合作、策略規劃提出了更高要求。在實際對戰中,OpenAI Five的合作表現確實不如職業選手——2018年8月TI8,職業戰隊paiN在表演賽上對戰OpenAI Five,最終取勝;在TI8的第二場表演賽上,BurNing徐志雷、駱非池iG_430等5位國內前職業選手組成小隊,對戰OpenAI Five,也同樣取勝。
OpenAI Five在2018年的戰績并不好看,但它的成長速度超出了許多玩家的想象——2019年4月,OpenAI Five與TI8冠軍戰隊OG進行BO3對戰,官方對這次比賽進行了直播。
最終OpenAI Five以2:0的比分拿下了BO3勝利。期間還多次表演了誘敵深入、絲血逃命的“騷操作”。
比賽之后,OpenAI官方宣布在2019年4月18-21日舉辦Open Five擂臺賽,期間全球玩家可自行組隊挑戰OpenAI Five。根據官方最終在推特上公布的數據來看,OpenAI贏得了7215場比賽,輸掉了42場,勝率高達99.4%。
談到OpenAI在《DOTA2》上的嘗試,黃仁勛表示,當時OpenAI看似在走彎路,但現在回顧卻發現正是這些彎路導致了ChatGPT的產生。Ilya表示認同——從某一方面來說,通過《DOTA2》,OpenAI的學習模式從“強化學習”轉變為了“基于人類反饋的強化學習(RLHF)”,這為后來的ChatGPT技術提供了借鑒。
當然,《DOTA2》只是OpenAI的突破性嘗試之一:在早期同行專注于神經網絡的深度時,OpenAI已經在兼顧考慮神經網絡的規模;團隊曾運用英偉達GPU和ImageNet來訓練神經網絡模型,而用黃仁勛的話來說,其訓練結果“震驚了世界”。
據llya介紹,今年3月推出的GPT-4采用多模態模型,不僅能夠更好地理解文本,也能從圖像中獲取和學習信息,GPT-4也因此具有更強的總結推斷能力。但llya也坦言——OpenAI還沒有充分挖掘出AI的潛力,AI領域在未來還會持續進步。
回顧過去,《DOAT2》并不是唯一一個推動科技及研發進展的游戲。最被玩家熟知的,可能還是2005年的“墮落之血事件”——因為暴雪設計上的疏漏,一種傳染性極強的debuff在《魔獸世界》各大主城傳播,造成大量玩家角色傷亡?!皦櫬渲录币欢鹊玫搅斯残l生學界的關注,很多研究者將“墮落之血事件”作為流行病學的“虛擬案例”加以研究,還有人撰寫了相關論文并刊發在醫學期刊《柳葉刀·傳染病》上。
圖源YouTube@Half as Interesting
除了這些成果較為明顯的案例,游戲行業的發展本身就對科技有著不小的推進作用。今年2月,新華社旗下的每日電訊發文《別忽視游戲行業的科技價值》表示,游戲科技近年來正在芯片、終端、工業、建筑等實體產業領域實現價值外溢,釋放更多效能。此外,文章認為,游戲產業匯聚了大量高水平科技人才,并且其發展順應消費者需求,兼具市場與人才的“先天優勢”,將為更多科技創新提供基礎環境。