人工智能代理(AI Agent),又稱智能代理,是一種能夠感知環境、進行決策和執行動作的智能實體。它可以被視為一個獨立的系統,能夠自主地執行任務并完成目標。
AI Agent雖然最近才被大眾所認識,但實際上這貨并不是因為大模型出現才躍然紙上的。AI Agent的概念最早可以追溯到20世紀50年代,當時人工智能研究的先驅們開始探索如何構建能夠自主行動的智能機器。比如1956年,美國學者Allen Newell和Herbert Simon提出了“通用問題求解器”(GPS)的概念,這被認為是AI Agent的雛形。GPS旨在構建一個能夠解決任何問題的通用算法,它包含了感知、推理和行動等基本要素。
1970年代,隨著人工智能研究的深入,AI
Agent的概念逐漸成熟。1972年,美國學者Marvin
Minsky在麻省理工學院建立了人工智能實驗室,并提出了“代理”(Agent)的概念。他認為,AI Agent應該能夠像人類一樣感知世界、進行推理和執行動作。
1980年代,AI Agent的研究取得了重大進展。1980年,美國學者Michael Brady提出了一種基于行為的AI Agent框架,該框架強調了AI Agent與環境的交互作用。1986年,美國學者David Luck等人提出了BBDI理論(Belief-Desire-Intention),該理論為AI Agent的建模和設計提供了理論基礎。
1990年代和2000年代,AI Agent的研究繼續蓬勃發展。在這一時期,出現了許多新的AI Agent模型和算法,例如基于強化學習的AI Agent、基于博弈論的AI Agent等。AI Agent也被應用于各種實際應用中,例如機器人控制、游戲開發、虛擬現實等。
2010年代以來,隨著人工智能技術的突破,AI Agent的研究進入了新的階段。因為深度學習、強化學習技術的出現和成熟使AI
Agent能夠從大量數據中學習,從而顯著提高了其性能。此外,云計算和物聯網技術的普及也為AI Agent的大規模應用創造了條件。下面這個視頻是好些年前OpenAI做著玩的,沒別的,就是看看強化學習是不是能讓機器人自己學會躲貓貓。
當時看到AI自己就學會怎么捉或者怎么躲還是挺震撼的。我們大致上歸納一下AI Agent我們起碼想象它具有的幾個特點:
l 自主性: 能夠獨立運行,無需人類的持續干預。
l 感知能力: 能夠感知周圍環境,獲取信息。
l 行動能力: 能夠根據感知到的信息,執行動作并改變環境。
l 推理能力: 能夠根據感知到的信息和自身知識,進行推理和決策。
l 學習能力: 能夠從經驗中學習,提高自身的能力。
不過實際上現在的AI Agent還在路上,我們以機器視覺為任務導向為例,AI Agent能不能像我的助理那樣在不同網站上搜羅信息,最后匯總做個分析呢?
Alex做了一套測試AI Agent到底水平如何的虛擬機,給來自GPT-4、智譜、Claude 3等AI
Agent們都做了一點基本測試。
測試過程有興趣的去看論文,但結果確實有點大跌眼鏡。
得分最高的是GPT-4 Vision,得分是12.17,這是高還是低呢?
低,低得離譜。
人類助理要完成同樣一組任務的完成率是72.36%。
我們引用甲子光年的分級,AI Agent要到L4還有點距離
哦,看到這里也不用覺得哎呀怎么AI Agent還這么傻,第一如果要讓大語言模型完成他們不擅長的任務他們確實很傻,第二在Alex設計的實驗中涉及到多個任務環節,每個環節出錯都可能導致任務失敗,而AI們要對這些任務節點都有能力完成才能獲得最終的分數。哪些環節是目前AI最不擅長的呢?下面這些:
- 屏幕上實現精確操作
- 重復動作
- 一些禿然跳出來的窗口
- 弄清楚 GUI 交互
- 特定于應用程序的知識
那這些問題能不能解決呢?能,在AGI沒有出現之前,這就是考驗AI能力的工程化范疇了,我們智用研究院可擅長這事兒了。