2024年以來,AI Agent多次被提起。
近日,OpenAI 的聯合創始人、特斯拉自動駕駛 AI 部門的前負責人安德烈·卡爾帕西(Andrej Karpathy)分享了他對 AI Agent 的潛力和未來挑戰的見解。在他看來,AI Agent 的吸引力在于 OpenAI 和 DeFi 等機構尚未處在技術的前沿,市場里的其他玩家有著趕超的機會。雖然 OpenAI 在大模型上比別人快一步,但在 AI Agent 領域,當下研究都處在同一條起跑線上。
概括來說,AI Agent(人工智能代理)是一種能夠感知環境、進行決策和執行動作的智能實體。
不同于傳統的人工智能,AI Agent 具備通過獨立思考、調用工具去逐步完成給定目標的能力。比如,告訴 AI Agent 幫忙下單一份外賣,它就可以直接調用 APP 選擇外賣,再調用支付程序下單支付,無需人類去指定每一步的操作。
Agent 的概念由 Minsky 在其 1986 年出版的《思維的社會》一書中提出,Minsky 認為社會中的某些個體經過協商之后可求得問題的解,這些個體就是 Agent。他還認為Agent應具有社會交互性和智能性。Agent的概念由此被引入人工智能和計算機領域,并迅速成為研究熱點。但苦于數據和算力限制,想要實現真正智能的 AI Agents 缺乏必要的現實條件。
浙江大學一篇探討人工智能體的論文中將 AI Agent 定義為:一個運行于動態環境中的、具有較高自治能力的實體(即自治體,可以是系統、機器,也可以是一個計算機軟件程序等等)。其根本目標是接受另一個實體(即主體,可以是用戶、計算機程序、系統或機器等)的委托并為之提供幫助或服務,能夠在目標任務的驅動下主動采取包括學習、通訊、社交等各種手段感知、適應其外在環境的動態變化,并作出適當的反應。
簡單來說,AI Agent 以大模型為核心驅動力,在此基礎上增加了規劃(Planning)、記憶(Memory)和工具使用(Tool Use)三個關鍵組件,以提高大模型在面對復雜任務時的處理能力。
在人工智能領域,這一術語被賦予了一層新的含義:具有自主性、反應性、積極性和社交能力特征的智能實體。
AI Agent,它被設計為具有獨立思考和行動能力的AI程序。你只需要提供一個目標,比如寫一個游戲、開發一個網頁,他就會根據環境的反應和獨白的形式生成一個任務序列開始工作。就好像是人工智能可以自我提示反饋,不斷發展和適應,以盡可能最好的方式來實現你給出的目標。
一個基于大模型的 AI Agent 系統可以拆分為大模型、規劃、記憶與工具使用四個組件部分。6 月,OpenAI 的應用研究主管 Lilian Weng 撰寫了一篇博客,認為 AI Agent 可能會成為新時代的開端。她提出了 Agent = LLM 規劃技能 記憶 工具使用的基礎架構,其中 LLM 扮演了 Agent 的“大腦”,在這個系統中提供推理、規劃等能力。
2.1 大模型 規劃:Agent 的“大腦”,通過思維鏈能力實現任務分解
LLM 具備邏輯推理能力,Agent 可以將 LLM 的邏輯推理能力激發出來。當模型規模足夠大的時候,LLM 本身是具備推理能力的。在簡單推理問題上,LLM 已經達到了很好的能力;但在復雜推理問題上,LLM 有時還是會出現錯誤。事實上,很多時候用戶無法通過 LLM 獲得理想的回答,原因在于 prompt 不夠合適,無法激發 LLM 本身的推理能力,通過追加輔助推理的 prompt,可以大幅提升 LLM 的推理效果。在《Large language models are zero-shot reasoners》這篇論文的測試中,在向 LLM 提問的時候追加“Let’s think step by step”后,在數學推理測試集 GSM8K 上的推理準確率從 10.4%提升到了 40.7%。而 Agent 作為智能體代理,能夠根據給定的目標自己創建合適的 prompt,可以更好地激發大模型的推理能力。
對于需要更多步驟的復雜任務,Agent 能夠調用 LLM 通過思維鏈能力實現任務分解與規劃。在AI Agent 的架構中,任務分解規劃的過程是基于大模型的能力來實現的。大模型具備思維鏈(Chain of Thoughts, CoT)能力,通過提示模型“逐步思考”,利用更多的計算時間來將困難任務分解為更小,更簡單的步驟,降低每個子任務的規模。
通過反思與自省框架,Agents 可以不斷提升任務規劃能力。AI Agent 可以對過去的行為進行自我批評和反思,從錯誤中學習,并為未來的步驟進行完善,從而提高最終結果的質量。自省框架使 Agents 能夠修正以往的決策、糾正之前的失誤,從而不斷優化其性能。在實際任務執行中,嘗試和錯誤是常態,反思和自省兩個框架在這個過程中起到了核心作用。
對 AI 智能體系統的輸入會成為系統的記憶,與人類的記憶模式可實現一一映射。記憶可以定義為用于獲取、存儲、保留以及隨后檢索信息的過程。人腦中有多種記憶類型,如感覺記憶、短期記憶和長期記憶。而對于 AI Agent 系統而言,用戶在與其交互過程中產生的內容都可以認為是Agent 的記憶,和人類記憶的模式能夠產生對應關系。
感覺記憶就是作為學習嵌入表示的原始輸入,包括文本、圖像或其他模態;短期記憶就是上下文,受到有限的上下文窗口長度的限制;長期記憶則可以認為是 Agent 在工作時需要查詢的外部向量數據庫,可通過快速檢索進行訪問。
目前 Agent 主要是利用外部的長期記憶,來完成很多的復雜任務,比如閱讀 PDF、聯網搜索實時新聞等。任務與結果會儲存在記憶模塊中,當信息被調用時,儲存在記憶中的信息會回到與用戶的對話中,由此創造出更加緊密的上下文環境。
向量數據庫通過將數據轉化為向量存儲,解決大模型海量知識的存儲、檢索、匹配問題。向量是AI 理解世界的通用數據形式,大模型需要大量的數據進行訓練,以獲取豐富的語義和上下文信息,導致了數據量的指數級增長。
向量數據庫利用人工智能中的 Embedding 方法,將圖像、音視頻等非結構化數據抽象、轉換為多維向量,由此可以結構化地在向量數據庫中進行管理,從而實現快速、高效的數據存儲和檢索過程,賦予了 Agent“長期記憶”。同時,將高維空間中的多模態數據映射到低維空間的向量,也能大幅降低存儲和計算的成本,向量數據庫的存儲成本比存到神經網絡的成本要低 2 到 4 個數量級。
Embedding 技術和向量相似度計算是向量數據庫的核心。Embedding 技術是一種將圖像、音視頻等非結構化數據轉化為計算機能夠識別的語言的方法,例如常見的地圖就是對于現實地理的Embedding,現實的地理地形的信息其實遠遠超過三維,但是地圖通過顏色和等高線等來最大化表現現實的地理信息。
在通過 Embedding 技術將非結構化數據例如文本數據轉化為向量后,就可以通過數學方法來計算兩個向量之間的相似度,即可實現對文本的比較。向量數據庫強大的檢索功能就是基于向量相似度計算而達成的,通過相似性檢索特性,針對相似的問題找出近似匹配的結果,是一種模糊匹配的檢索,沒有標準的準確答案,進而更高效地支撐更廣泛的應用場景。
AI Agent 與大模型的一大區別在于能夠使用外部工具拓展模型能力。懂得使用工具是人類最顯著和最獨特的地方,同樣地,我們也可以為大模型配備外部工具來讓模型完成原本無法完成的工作。
ChatGPT 的一大缺點在于,其訓練數據只截止到了 2021 年底,對于更新一些的知識內容它無法直接做出回答。雖然后續 OpenAI 為 ChatGPT 更新了插件功能,能夠調用瀏覽器插件來訪問最新的信息,但是需要用戶來針對問題指定是否需要使用插件,無法做到完全自然的回答。
AI Agent則具備了自主調用工具的能力,在獲取到每一步子任務的工作后,Agent 都會判斷是否需要通過調用外部工具來完成該子任務,并在完成后獲取該外部工具返回的信息提供給 LLM,進行下一步子任務的工作。
OpenAI 也在 6 月為 GPT-4 和 GPT-3.5 更新了函數調用的功能,開發者現在可以向這兩個大模型描述函數,并讓模型智能地選擇輸出包含調用這些函數的參數的 JSON 對象。這是一種更可靠地將 GPT 的功能與外部工具和 API 相連的新方法,允許開發者更可靠地從模型中獲得結構化的數據,為 AI 開發者提供了方便。
以 HuggingGPT 為例,HuggingGPT 將模型社區 HuggingFace 和 ChatGPT 連接在一起,形成了一個 AI Agent。2023 年 4 月,浙江大學和微軟聯合團隊發布了 HuggingGPT,它可以連接不同的 AI 模型,以解決用戶提出的任務。HuggingGPT 融合了 HuggingFace 中成百上千的模型和GPT,可以解決 24種任務,包括文本分類、對象檢測、語義分割、圖像生成、問答、文本語音轉換和文本視頻轉換。具體步驟分為四步:
1)任務規劃:使用 ChatGPT 來獲取用戶請求;
2)模型選擇:根據 Hugging Face 中的函數描述選擇模型,并用選中的模型執行 AI 任務;
3)任務執行:使用第 2 步選擇的模型執行的任務,總結成回答返回給 ChatGPT;
4)回答生成:使用 ChatGPT 融合所有模型的推理,生成回答返回給用戶。
03 新風口——AI Agent
AI Agent 發展迅速,出現多款“出圈”級研究成果。
2023年3月起,AI Agent 領域迎來了第一次“出圈”,西部世界小鎮、BabyAGI、AutoGPT 等多款重大 Agent研究項目均在短短兩周內陸續上線,引發了大家對 AI Agent 領域的關注。目前已經涌現了在游戲領域大放異彩的英偉達 Voyager 智能體、能夠幫助個人完成簡單任務的 Agent 助理 HyperWrite、以及主打個人情感陪伴的 AI 助理 Pi 等多款優秀的 Agent成果,AI Agent 的研究進展迅速。
去年11月, OpenAI 發布 AI Agent 初級形態產品 GPTs,讓人看到智能體的應用前景。谷歌、亞馬遜在該領域也有所涉獵。比爾?蓋茨認為 AI Agent 是 AI 的未來,并預言不久的將來,所有人都將擁有專屬 AI 助理。
2024年1月9日,在釘釘 2024 年度產品發布會 - 我的超級助理活動上,我們看到了理想中的 AI Agent:數字員工。會上,釘釘發布了全新 7.5 版本,并推出有機會對標 GPTs 的智能化產品 ——AI 助理,讓每個人、每家企業定制個性化、專屬超級助理。
如今 AI Agent 或成為激烈角逐點,是 AIGC 下一階段的關鍵。