只需要幾分鐘,就可以成功模仿專家行為,并記住所有學(xué)過的知識,Google DeepMind 研發(fā)的 AI Agent,登上了 Nature 子刊。
據(jù)介紹,在 3D 模擬中,該智能體能夠在第一次見到的任務(wù)中實(shí)時(shí)模仿專家,并從第三人稱視角實(shí)時(shí)可靠地獲取來自人類搭檔的知識。
雖然該智能體之前從來沒有見過人類,但它可以在各種有挑戰(zhàn)性的導(dǎo)航問題中從人類和 AI 專家中快速學(xué)習(xí)。例如,它可以在包含大量障礙的復(fù)雜地形中穿梭。
相關(guān)研究論文以“Learning few-shot imitation as cultural transmission”為題,已發(fā)表在 Nature 子刊 Nature Communications 上。
研究團(tuán)隊(duì)認(rèn)為,該研究結(jié)果是對具身 AI 實(shí)現(xiàn)快速知識傳播的一次概念驗(yàn)證,是朝著人類-AI 互動的開放式文化演變邁出的第一步。
另外,AI 從業(yè)者可以從人類社會學(xué)習(xí)中汲取靈感,構(gòu)建出適應(yīng)當(dāng)下人類伙伴的具身 AI 智能體,并妥善保護(hù)隱私。此外,具備社會學(xué)習(xí)能力的 AI 智能體或許還可以為研究人類文化能力發(fā)展提供全新的建模工具。
具備實(shí)時(shí)文化傳播能力
文化傳播(Cultural transmission)是一項(xiàng)通用技能,使人們能夠在社交中實(shí)時(shí)獲取和使用信息,同時(shí)具備高度的準(zhǔn)確度和記憶力。在人類社會中,文化演化使得技能、工具和知識代代相傳,并在這些過程中不斷積累和完善。
在這項(xiàng)工作中,研究團(tuán)隊(duì)通過應(yīng)用智能體-環(huán)境共適應(yīng)(agent environment co-adaptation)的方法,成功生成了一個(gè)具備實(shí)時(shí)文化傳播能力的 AI 智能體。
如上圖,為實(shí)現(xiàn)這一目標(biāo),他們引入了一個(gè)虛擬的 3D 任務(wù)空間,每個(gè)任務(wù)都包含由程序生成的地形、障礙物和目標(biāo)球。
在每個(gè)任務(wù)中,AI 智能體需要按照特定的循環(huán)順序訪問目標(biāo)球以獲取獎勵,而這個(gè)順序是在任務(wù)開始時(shí)隨機(jī)確定的。然而,AI 智能體并不知道正確的順序,所以它必須通過實(shí)驗(yàn)或從專家那里學(xué)習(xí)來弄清楚。不過,這個(gè)任務(wù)空間設(shè)計(jì)得很復(fù)雜,可以通過調(diào)整世界的大小、障礙物的數(shù)量、地形的崎嶇程度以及目標(biāo)球的數(shù)量等參數(shù)來改變導(dǎo)航的難度。
研究人員通過精心設(shè)計(jì)的實(shí)驗(yàn)發(fā)現(xiàn),AI 智能體文化傳播的出現(xiàn)需要一組最小而充分的訓(xùn)練要素,被命名為 MEDAL-ADR,包括函數(shù)逼近、記憶、專家共同參與者、專家丟失、對專家的注意偏向以及自動領(lǐng)域隨機(jī)化。
圖|MEDAL-ADR 要素
其中,記憶通過 LSTM 網(wǎng)絡(luò)實(shí)現(xiàn),專家共同參與者是硬編碼的機(jī)器人,而自動領(lǐng)域隨機(jī)化有助于訓(xùn)練 AI 智能體在多樣化的任務(wù)中展現(xiàn)出更好的行為。
這些組件的巧妙組合構(gòu)成了一個(gè)強(qiáng)大的 AI 智能體,其文化傳播能力在回憶(recall)、泛化(generalisation)和保真度(fidelity)三個(gè)方面均表現(xiàn)出色。
回憶評估了智能體在沒有專家在場的情況下復(fù)制演示的能力,泛化衡量了智能體是否能夠在未知任務(wù)上進(jìn)行文化傳播,而保真度則計(jì)算了智能體選擇與專家演示者的一致性程度。
最引人注目的是,這個(gè) AI 智能體的“大腦”神經(jīng)元展現(xiàn)出了強(qiáng)大的解釋力,專門負(fù)責(zé)編碼社交信息和目標(biāo)狀態(tài)。這一方法不僅使 AI 智能體在訓(xùn)練分布之外實(shí)現(xiàn)了泛化,而且在專家離開后的單一情境內(nèi)依然能夠回想起演示,為實(shí)際應(yīng)用場景提供了更多可能性,尤其是在人類數(shù)據(jù)收集困難、任務(wù)變化多樣且隱私至關(guān)重要的情況下。
一些局限性
盡管該研究提出的 MEDAL-ADR 方法可以使 AI 智能體在開放式學(xué)習(xí)中適應(yīng)多樣的文化環(huán)境。
但是,研究者團(tuán)隊(duì)也指出了評估方法上的一些局限性。
首先,研究沒有從多個(gè)人中測試文化傳播,而是選擇了研究團(tuán)隊(duì)內(nèi)的一個(gè)單一參與者。因此,研究無法對跨越人群的強(qiáng)大性做出統(tǒng)計(jì)顯著的斷言。
其次,導(dǎo)航任務(wù)對合理的人類行為的多樣性有一定的限制。為了更深入地了解通用的文化傳播,研究需要具有更廣泛和深度策略的任務(wù)。
最后,研究人員并未明確區(qū)分訓(xùn)練過的智能體是否記住了地理路徑,以及是否記住了正確球體順序。
MEDAL-ADR 在 GoalCycle3D 任務(wù)空間之外是否更為通用?答案可能是有條件的“否”。
GoalCycle3D 是一個(gè)龐大的、程序生成的任務(wù)空間,其作用類似于更廣泛類別任務(wù)的導(dǎo)航代表。這些任務(wù)涉及到需要反復(fù)進(jìn)行戰(zhàn)略選擇序列的活動,比如烹飪、導(dǎo)航和問題解決。
然而,該方法需要一些環(huán)境條件,包括專家的可見性、退出和程序生成。如果在某個(gè)環(huán)境中無法創(chuàng)建近似條件,那么該方法就無法應(yīng)用。
此外,研究人員并不認(rèn)為 MEDAL-ADR 方法是人類文化傳播發(fā)展的直接模型。但是,他們鼓勵未來的研究者進(jìn)行更多實(shí)驗(yàn)證明,如比較 MEDAL-ADR 的模型與不同階段兒童或非人動物的行為,以及在實(shí)驗(yàn)室環(huán)境中研究人類和 AI 的文化積累。這種實(shí)證研究有望加深對文化傳播、元學(xué)習(xí)和開放式學(xué)習(xí)相關(guān)問題的理解。
研究團(tuán)隊(duì)表示,他們期待未來 AI 和文化進(jìn)化心理學(xué)領(lǐng)域的跨學(xué)科交流。
論文鏈接:
https://www.nature.com/articles/s41467-023-42875-2
作者:閆一米
編輯:學(xué)術(shù)君