二、Generative Agents: Interactive Simulacra of Human Behavior這篇論文介紹了一種新的計算機模擬軟件,稱為“生成代理”,可以模擬逼真的人類行為。這些生成代理可以像真實人一樣進行日常生活行為,例如起床做早餐、去上班、形成意見、互相注意到并開始對話等。為了實現生成代理,論文提出了一種架構,該架構基于大型語言模型,可以存儲生成代理的自然語言體驗記錄,并將這些記憶隨著時間的推移合成為更高層次的反思,然后動態檢索這些反思以規劃行為。論文還展示了如何將這些生成代理實例化,用于填充一個類似于《模擬城市》的互動沙箱環境,該環境可與二十五個生成代理進行自然語言交互。在評估中,這些生成代理產生了可信的個體和群體行為,例如從一個用戶指定的觀念開始,即一個代理想舉辦情人節派對,代理們在接下來的兩天內自主傳播派對的邀請,結交新朋友,互相邀請參加派對,并協調在正確的時間一起參加派對。論文通過消融證明了生成代理架構的各個組成部分——觀察、計劃和反思——對于代理行為的可信度都至關重要。通過將大型語言模型與計算交互代理相結合,該工作為實現逼真的人類行為模擬提供了架構和交互模式。
三、Introspective Tips: Large Language Model for In-Context Decision Making 這篇論文討論了使用大型語言模型 (LLM) 進行上下文決策制定的方法。近年來,大型語言模型 (LLM) 已經在自然語言處理領域產生了重大影響,在多種任務中取得了出色的結果。在這項研究中,作者使用“內省提示”來幫助 LLM 自我優化其決策制定。通過內省地檢查軌跡,LLM 生成簡潔且有價值的提示,來改進其政策。這種方法在很少或沒有示例的情況下提高了代理的表現,考慮了三個重要場景:從代理過去的經驗中學習、集成專家演示,并泛化到不同的游戲。重要的是,我們實現這些改進并不需要微調 LLM 參數,而是調整提示以概括上述三個場景的洞察力。我們的框架不僅支持,而且強調使用 LLM 進行上下文決策制定的優勢。通過超過 100 個 TextWorld 游戲的實驗,我們展示了我們的方法的優勢。
六、Decision-Oriented Dialogue for Human-AI Collaboration這篇論文描述了一種名為“決策導向對話”的人機合作方法,用于幫助人類做出復雜決策。在該方法中,人工智能助手必須與一個或多個人類通過自然語言進行合作,以幫助用戶做出最佳決策。論文涵蓋了三個日常決策場景:選擇將審稿人分配給會議論文、在城市中進行多步驟旅行計劃以及與朋友協商旅行計劃。在這些場景中,人工智能助手和用戶擁有不同的能力和需求,必須相互結合以做出最佳決策。為了每個任務,論文建立了一個對話環境,使代理人根據他們最終決策的質量獲得獎勵。使用這些環境,論文收集了人類與人類之間的對話,人類扮演助手的角色。為了比較當前人工智能助手在這些場景中的溝通能力,論文還提供了基于大型語言模型的自我對弈的基礎線。最后,論文強調了決策導向對話中面臨的許多挑戰,包括高效溝通、推理和優化,并釋放了我們的環境作為未來建模工作的測試平臺。
七、Minimum Levels of Interpretability for Artificial Moral Agents這篇論文的主題是人工道德代理(AMA)的最低可解釋性水平。隨著人工智能(AI)模型的不斷擴展和應用,如何理解和信任這些模型的內部推理機制變得尤為重要。對于參與道德決策的模型,即人工道德代理,可解釋性提供了一種途徑。本文概述了這個迅速發展的 AI 可解釋性子領域,并引入了“最低可解釋性水平”(MLI)的概念,為各種類型的代理在現實世界的安全部署提供了建議。
十一、Forming Effective Human-AI Teams: Building Machine Learning Models that Complement the Capabilities of Multiple Experts論文涉及的問題是在與人類專家共同工作的應用領域中,如何構建機器學習模型以補充多個專家的能力。之前的研究主要集中在只有一個不同專家的場景上,但實際情況中可能有多個能力不同的專家可供選擇。為了解決這個問題,該論文提出了一種訓練分類模型的方法,使其能夠補充多個人類專家的能力。通過與分配系統一起進行聯合訓練,分類器學習準確預測那些對人類專家來說很難預測的實例,而分配系統學習將每個實例分配給最合適的團隊成員,可以是分類器或某個人類專家。該方法在多個實驗中使用“合成”專家的公共數據集和由多個放射科醫生注釋的真實醫療數據集進行評估。該方法優于之前的研究,比最好的人類專家或分類器更準確。此外,該方法適應能力強,可以靈活地適應不同規模和不同水平的專家多樣性的團隊。
十三、MindCraft - Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks這篇論文主要研究了如何讓自主代理能夠在人類世界中以人類的方式進行合作。其中,心智理論在人類合作和交流中起著重要的作用。為了實現心智理論建模在情境交互中的應用,作者引入了一個由人類主體在 Minecraft 的 3D 虛擬方塊世界中執行的協作任務的細粒度數據集。這個數據集提供了在交互過程中合作伙伴對世界和對方的信念信息,為研究人類在情境語言交流中的協作行為提供了豐富的機會。作為實現我們目標的第一步,即開發能夠推斷協作伙伴情境信念狀態的具身 AI 代理,我們構建并展示了計算模型對于幾種心智理論任務的結果。
十四、It Takes Two to Tango: Towards Theory of AI's Mind這篇論文討論了人工智能(AI)與人類協作的必要性,并提出了一種名為“AI 心智理論(ToAIM)”的方法。論文認為,要讓人機協作團隊有效運作,不僅要讓 AI 更理解人類,還要讓人類更好地理解 AI。作者在視覺問答(VQA)領域中實例化了這些觀點,發現只需使用少量示例(50 個),非專業人士就可以通過訓練更好地預測復雜 VQA 模型的響應和即將出現的故障。此外,論文還評估了現有解釋(或可解釋性)方法在幫助人類建立 ToAIM 方面的作用。出人意料的是,獲得模型內部狀態——例如對前 k 個預測的置信度、顯式或隱式注意力圖等——并不能幫助人們更好地預測其行為。