特斯拉2023年股東會上,馬斯克表示,人形機器人將是今后特斯拉主要的長期價值來源,“如果人形機器人和人的比例是2比1左右,那么人們對機器人的需求量可能是100億乃至200億個,遠超電動車的數量”。英偉達創始人黃仁勛在ITF World 2023半導體大會上也表示,AI下一個浪潮將是“具身智能”。
“具身智能”意指有身體并支持物理交互的智能體,人形機器人為標桿產品。具身智能,首先需要聽懂人類語言,分解任務、規劃子任務,移動中識別物體,與環境交互,最終完成任務。人形機器人很好的契合了具身智能的要求,有望成為標桿應用。
圍繞具身智能,我們從下面幾方面展開討論:具身智能的概念是如何定義的,具體方案模塊是如何設置的,發展歷程又是怎樣的,相關技術及模型有哪些,可能受益的相關公司都有哪些。希望通過這些問題的探討,讓我們對于具身智能有個淺顯的了解。
(更多投研內容可關注公眾號《 投研鋒向 》加入社群,體驗更多0預期差紀要信息)
01
具身智能概述
1.概念
具身智能(Embodied Intelligence)是指一種具備自主決策和行動能力的機器智能,它可以像人類一樣感知和理解環境,通過自主學習和適應性行為來完成任務。要實現具身智能與環境實時交互并完成自主做事的功能,其所涉及到的主要環節可以抽象理解為包括感知、傳輸、決策、執行。
感知層類似人的五官,負責收集環境信息,在單一場景下機器或許可以通過感知來繞過決策控制,比如1986年,美國著名機器人制造專家羅德尼·布魯克斯(Rodney Brooks)研發了第一個基于感知行為模式的輪式機器人,不需要中樞控制可以實現避讓、前進和平衡等功能,但是如果想要讓機器實現與人類互動并完成多樣化指令要求,它面對的可能是結合了語言、圖像等多個模態的復雜信息,決策層的多模態處理就顯得不可或缺。
決策層作為核心處理樞紐,需要類似人類大腦的處理能力,滿足機器在理解指令、分解任務、規劃子任務、識別物體完成人機交互和環境交互等方面的需求,多維度的人機交互在傳統的機器人領域是一大難題,因而當下的研究更多體現在特定指令下對于環境交互的探索,也即如何更智能地執行特定物理任務上。而ChatGPT等AI大模型的快速突破提供了新的思路,有望充當機器人的大腦與人類進行多維度交互,從而更為出色完成任務。
此外,隨著感知和決策的復雜化,傳輸層對于的實時性的要求日益提升,從而對傳輸速率和邊緣計算等提出更高的需求。
2.PIE方案是實現具象智能的解決方案之一
PIE方案是實現具象智能的解決方案之一,可分為三個模塊——具身感知(Perception)、具身想象(Imagination)和具身執行(Execution)。
具象感知(Perception):交互感知,自動挖掘、定義具象概念。可以通過兩種方式實現:1)全感知:構建一個大規模的數據庫,包含我們所操作的這個世界模型(world model)的各種各樣的知識,跟操作相關的知識,包括外形、結構、語義,以及48個真實世界關節體類別等;2)具身交互感知:各種內容交互的感覺帶來的全新感知,通過牛頓定律和數據驅動的結合,不斷修正誤差從而得到正確的模型。
具象想象(Imagination):自動具身任務模擬,仿真引擎構建。通過名為RFUniverse的仿真引擎,這個仿真引擎支持7種物體(比如關節可移動的、柔性的、透明的、流體的……)、87種原子操作的仿真。當研究人員把物體輸入,模型會在仿真引擎中進行想象操作。
具身執行(Execution):多傳感器合作,自意識執行誤差。研究人員通過構建一個元操作庫,調用各種元操作來解決執行的問題。通過半自動的data collection and labeling,能夠非常快速地產生20億個抓取點位,再進行訓練,把「grasp」這個問題分解為where(去哪里抓)和how(怎么去抓)的貝葉斯問題,分別估測網絡。
02
具身智能發展歷程
1.“具身智能”的機器人是人工智能的終極形態
1950年,圖靈在他的論文——《Computing Machinery and Intelligence》中首次提出了具身智能的概念。具身智能(Embodied AI)指的是,有身體并支持物理交互的智能體,如智能服務機器人、自動駕駛汽車等,具身智能機器人指的是,像人一樣能夠與環境交互感知、自助規劃、決策、行動、執行任務的機器人。它包含人工智能領域幾乎所有的技術,包括機器視覺、自然語言理解、認知和推理、機器人學、博弈倫理、機器學習等,橫跨多個學科方向,是人工智能的集大成者。
2.現有機器人難以適應現實世界,是因為其學習模式為“旁觀型學習方式”
目前大部分深度學習模型訓練使用的數據來自于互聯網(InternatAI)而非現實世界第一人稱視角,只能學習到數據中心的固定模式,但無法在真實世界中直接學習,因此也無法適應真實世界。現實當中的人類是通過對現實世界的觀察、互動、反饋等學習,大腦中的部分認知依賴物理身體與世界持續不斷的交互,因此學習到越來越多的技能來適應環境。
3.具身智能是通往通用人工智能的關鍵鑰匙,賦予機器人實踐學習的能力
斯坦福大學的李飛飛教授稱“具身的含義不是身體本身,而是與環境交互以及在環境中做事的整體需求和功能。”上海交通大學的盧策吾教授通過貓學習走路來做出形象比喻:“如圖中的貓一樣,主動貓是具身的智能,它可以在環境中自由行動,從而學習行走的能力。被動貓只能被動的觀察世界,最終失去了行走能力。”實踐性學習方法與旁觀型學方法的不同點在于,實踐性學習是機器人像人一樣,通過物理身體與環境的互動來學習,可以主動感知或者執行任務的方法來感知世界,對世界進行建模,增強對世界的認知和鍛煉行動能力。
4.具身智能更側重“交互”
上世紀以來,具身智能的研究已廣泛拓展到教育、材料、能源等領域,成為未來新一代人工智能理論與應用突破的一個重要窗口。麻省理工學院成立了名為“具身智能”的研究團隊進行相關領域的研究。
清華大學劉華平教授等人在《基于形態的具身智能研究:歷史回顧與前沿進展》中總結了海內外多方面研究后提出,具身智能(Embodied intelligence)相對于離身智能(Disembodied intelligence)更側重關注“交互”,即智能受腦、身體與環境協同影響,并由身體與環境相互作用中,通過信息感知與物理操作過程連續、動態地產生。具身智能未來可望獲得突破的發展方向包括形態涌現、感知進化、物理實現、多體協同等,劉教授等人也強調,盡管具身智能很重要,其有著自身的局限性,與離身智能的緊密結合才是實現通用智能的必由之路。
5.近期英偉達創始人CEO黃仁勛強調“具身智能”的重大價值
黃仁勛在ITFWorld2023半導體大會上表示,人工智能的下一個浪潮是具身智能(Embodied AI),即能理解、推理、并與物理世界互動的智能系統,比如機器人、自動駕駛汽車,甚至聊天機器人,他們都能很好的理解物理世界。同時,黃仁勛公布NividiaVIMA,一個多模態具身視覺語言模型。據介紹,VIMA可以通過視覺執行任務,也可以通過文本提示來做任務,比如重新排列這些方塊以與場景匹配;它能明白概念,采取適當行動,他可以在演示中學習,并且將行為控制在合理范疇內。
6.具身智能的現實應用存在諸多難點,涉及到多學科知識
拆解具身智能的應用過程:當人要求機器人完成某一項任務,機器人要經過的步驟包括:能夠聽懂人類語言分解任務規劃子任務移動中識別物體與環境交互最終完成相應任務。這個過程涉及到自然語言理解、邏輯推理、機器視覺、運動控制、機器學習、運動規劃、機械控制等。因此,要實現完全的具身智能,依然有很長的一段路要走。
03
具身智能相關技術及模型
具身智能已成為全球學術和企業的重要的研究方向。今年的IROS(機器人領域頂級學術會議)將具身智能作為重要主題。目前谷歌、微軟等技術團隊、眾多頂尖研究院所和高校已探索具身智能的發展落地。谷歌、微軟、UCBerkeley等走在技術前沿。
1.谷歌:視覺語言大模型PaLM-E
2023年3月6日,來自谷歌和德國柏林工業大學的一組人工智能研究人員公布了史上最大視覺語言模型PaLM-E(Pathways Language Model with Embodied)。PaLM包括了540B語言模型與22B視覺ViT(Vison Transformer)模型,最終參數量達562B。PaLM-E本身是個多模態的大模型,不僅能理解文本,還能理解圖片(ViT),可以理解圖片中的語義信息。ViT將大模型能力泛化至CV領域,賦予大模型視覺能力。兩相結合,PaLM-E模型具備多模態能力,能夠觀察物理實體世界的信息,由大模型進行分析理解,再將決策結果反饋至物理世界,由此溝通物理和虛擬兩個世界。
亮點在于多模態大模型應用于人機交互領域。1)發現參數擴大有助于提升人機交互中的語言能力:語言模型越大,在視覺語言與機器人任務的訓練中,保持的語言能力就越強,5620億參數的PaLM-E幾乎保持了它所有的語言能力。2)對于機器人的長跨度、長周期任務,以往通常需要人工協助,PaLM-E通過自主學習全部完成,如下圖左。3)展示了模型的泛化能力,研究人員要求機器人將“綠色色塊推到烏龜旁邊”的指令,即便機器人之前沒有見過這只烏龜擺件,也能完成任務。
同時PaLM-E通過分析來自機器人攝像頭的數據來實現對高級命令的執行,而無需對場景進行預處理。這消除了人類對數據進行預處理或注釋的需要,并允許更自主的機器人控制。
2.Meta:SAM分割模型
2023年4月6日,Meta推出一個AI模型Segment Anything Model(SAM,分割一切模型),能夠根據文本指令等方式實現圖像分割。SAM任務目的:零樣本(zero-shot)或者簡單prompt下,就對任意圖片進行精細分割。
SAM證明,多種多樣的分割任務是可以被一個通用大模型涵蓋的。SAM做到的分割一切并不是CV大模型的終點,我們期待一個模型可以無監督完成分割、檢測、識別、跟蹤等所有CV任務,屆時視覺大模型應用會得到極大發展。
3.微軟:ChatGPT for Robotics
在Microsoft Research的ChatGPT for Robotics文章中,研究者使用ChatGPT生成機器人的高層控制代碼,從而可以通過自然語言和ChatGPT交流,使用ChatGPT來控制機械臂、無人機、移動機器人等機器人。
目前的機器人的應用基礎是代碼,工程師需要經常編寫代碼和規范來控制機器人的行為,這個過程緩慢、昂貴且低效,使用場景有限。ChatGPT帶來一種新的機器人應用范例,通過大型語言模型(LLM)將人的語言快速轉換為代碼。在這種情境下,人們不需要學習復雜的編程語言或機器人系統的詳細信息,就可以控制機器人來完成各種任務,更輕松的與機器人互動。目前實驗已經能夠通過給ChatGPT的對話框輸入指令,讓其控制機器人在房間中找到“健康飲料”、“有糖和紅色標志的東西”(可樂),以及一面供無人機自拍的鏡子。
4.伯克利的LM-Nav模型
UCBerkeley、波蘭華沙大學聯合谷歌機器人團隊發表論文《LM-Nav:具有大型預訓練語言、視覺和動作模型的機器人導航系統》,該模型結合了三種預訓練模型,從而無需用戶注釋即可執行自然語言指令。其中,大語言模型(LLM)用于完成自然語言處理的任務;視覺和語言模型(VLM)將圖像和文本信息進行關聯,即用戶指令和機器人視覺感知的外部環境進行關聯;視覺導航模型(VNM)用于從其觀察到的信息中直接進行導航,將圖像和將要執行的任務按時間進行關聯。
5.國內現狀
國內政策也在加碼推進具身智能領域的發展,5月12日,北京市發布《北京市促進通用人工智能創新發展的若干措施(2023-2025年)(征求意見稿)》,其中便提出探索具身智能、通用智能體和類腦智能等通用人工智能新路徑,包括推動具身智能系統研究及應用,突破機器人在開放環境、泛化場景、連續任務等復雜條件下的感知、認知、決策技術。
具身智能有望打開AI新空間,引領人工智能下一站浪潮,建議關注包括數字基礎設施及機器人制造等相關環節投資機會。
國內服務機器人企業加速領跑,開放化的行業生態日漸形成。當前,國產機器人的性能和可靠性大幅提升,國內企業圍繞國內外特色市場需求,在手術醫療、消費服務等多個賽道推出了獨具特點、功能新穎的特色產品,部分產品性能水平已突破“并跑”,實現與國際領先水平“領跑”。
04
相關產業梳理
1.具身智能+機器人將有望成為AI的重要解決方案,傳感器、執行器與計劃控制是三大基本要素
傳感器包括本體感受傳感器、觸覺+視覺+聲音傳感器、機器視覺等;執行器包括減速器、伺服系統、微電機等;計劃控制部分包括控制器、工控系統、AI系統等。傳感器與執行器數量較多。具身智能核心技術壁壘和價值環節主要聚焦核心零部件:減速器、伺服系統和控制器,其中減速器在機器人中成本占比最高達30%,其次是伺服系統(20%)和控制器(10%)。
2.未來Optimus的數量可能將達到100億以上
2023年5月17日,特斯拉召開2023年股東大會,展示了一直備受關注的人形機器人Optimus進化情況,在機械關節控制方面,特斯拉機器人電機扭矩控制,力度控制更加精確靈敏;在感知方面,該機器人環境感知和記憶能力提升不僅可以看路,亦會記路;在學習方面,Optimus可根據人類動作范例,進行端到端動作操控。特斯拉創始人兼首席執行官馬斯克表示:未來Optimus的數量可能將達到100億以上。
3.算力硬件層——具身智能的底層土壤
算力硬件層是構成AI產業的核心底座,主要包括AI芯片、AI服務器等。
AI芯片需求有望率先擴張。AI芯片是用于加速人工智能訓練和推理任務的專用硬件,主要包括GPU、FPGA、ASIC等,具有高度并行性和能夠實現低功耗高效計算的特點。
隨著AI應用的普及和算力需求的不斷擴大,AI芯片需求有望率先擴張。根據IDC預測,中國AI算力規模將保持高速增長,預計到2026年將達1271.4EFLOPS,CAGRA(2022-2026年)達52.3%。在此背景下,IDC預測異構計算將成為主流趨勢,未來18個月全球人工智能服務器GPU、ASIC和FPGA的搭載率均會上升,2025年人工智能芯片市場規模將達726億美元。
4.機器視覺——具身智能的“眼睛”
若要實現具身智能與外界的互動感知,機器視覺也是必不可少的一環。機器視覺是在機器人和自動化設備中代替人眼實現高精度檢測、識別、測量和定位引導等功能,助力企業構建數字化車間、打造智能工廠。
從機器視覺產業鏈角度來看,機器視覺行業產業鏈環節較長,上游由機器視覺系統硬件和軟件算法構成,中游為設備商和系統集成商主要負責軟件的二次開發和設備制造,下游應用場景和行業廣泛。工業是目前中國機器視覺行業最大的下游應用領域,工業領域的銷售額占比為81.2%。具身智能有望成為下一個快速發展的下游應用。
機器視覺行業隨工業自動化技術的演進逐步升級規模化應用,全球市場來看,GGII預計至2025年市場規模超1200億元。
國內視覺龍頭有望充分受益于具身智能發展。國內兩大機器視覺龍頭均深度布局。根據中國機器視覺產業聯盟(CMVU)調查統計,現在已進入中國的國際機器視覺品牌已近200多家(如康耐視、達爾薩、堡盟等為代表的核心部件制造商,以基恩士、歐姆龍、松下、邦納、NI等為代表的則同時涉足機器視覺核心部件和系統集成),中國自有的機器視覺品牌也已有100多家(如海康、華睿、盟拓光電、神州視覺、深圳燦銳、上海方誠、上海波創電氣等),機器視覺各類產品代理商超過300家(如深圳鴻富視覺、微視新紀元、三寶興業、凌云光、陽光視覺等)。
從視覺業務規模的角度看,2021年,各大廠商均有較為亮眼的業務增速,尤其國產廠商,海康機器人機器視覺業務2021年實現超過100%的增長,國內業務規模超過基恩士、康耐視,位居第一,其他國產廠商如奧普特、華睿科技亦有較高的增速。
05
具身智能相關公司
具身智能的出現會持續引領“大模型+機器人”潮流,機器人產業鏈及布局具身智能多模態大模型的廠商有望深度受益:機器人產業鏈:三花智控、綠的諧波、鳴志電器、禾川科技等;機器視覺:虹軟科技、海康威視、大華股份等;大模型:中科創達、商湯科技、云從科技、科大訊飛等。
1.機器人產業鏈
(1)三花智控
機器人方面,公司重點聚焦仿生機器人機電執行器業務,并已與多個客戶建立合作,具備先發優勢,公司將同步配合客戶量產目標,并積極籌劃機電執行器海外生產布局。2023年4月公司發布公告,與蘇州綠的諧波傳動科技股份有限公司簽署戰略合作框架協議,雙方將在三花墨西哥工業園共同出資設立一家合資企業,合資公司主營業務為諧波減速器。
(2)綠的諧波
諧波減速器長期需求向好,公司先發優勢持續。諧波減速器長期需求向好。
①工業機器人領域需求有望持續增長,人工成本上升以及老齡化持續推動國內機器人對人工的替代,諧波減速器作為智能制造設備的核心基礎零部件持續受益。
②非工業機器人應用領域不斷拓展,由于具有自身體積小、傳動比大等優點,加之公司創新底層數理模型,大幅提升產品剛性指標,為諧波減速器打開了大量新的應用場景,公司諧波減速器應用領域已經從工業機器人拓展至服務機器人、數控機床、醫療器械、半導體設備、新能源設備等多個領域。
2.機器視覺
(1)虹軟科技
公司是計算機視覺行業領先的算法服務提供商及解決方案提供商,是全球領先的計算機視覺人工智能企業。23Q1移動智能終端收入實現正增長,同時智能駕駛視覺解決方案不斷落地并持續取得前裝定點項目,有望培育新的增長點。
(2)海康威視
公司較早地對人工智能的技術趨勢作出反應,在技術上實現了更大規模和更深的網絡、更強的并行能力、更強的數據中心、更強的數據生成和數據標注的能力。在AI技術的發展過程中,公司的AI模型規模持續擴大,已形成了千卡并行的能力并訓練了百億級參數的模型。公司始終專注于AIOT,從客戶的場景需求出發解決問題。
3.大模型
(1)中科創達
中科創達發布全新的人工智能基礎大模型系列和應用產品路線圖。其中,RUBIK基礎平臺(RUBIKFOUNDATIONFAMILY),全面覆蓋了從邊緣端、語言大模型、多模態、機器人等大模型系列。RUBIK應用產品全家桶全面覆蓋了包括汽車大模型、終端大模型、行業大模型、開發套件大模型等一系列大模型產品組合。
Rubik大模型接入Kanzi,賦能汽車HMI設計。公司基于Rubik大模型和Kanzi,推出HMI設計輔助工具Rubik Genius Canvas,該產品能夠為設計師提供從概念創作、3D元素設計、特效代碼生成以及場景搭建制作等方面的幫助,極大的提升了汽車座艙HMI的設計效率與質量。
Rubik或將對標GooglePaLM2,賦能邊緣AI應用。Rubik大模型將與公司現有的智能汽車和物聯網業務整合,并通過私有化部署和系統調優來滿足各行業需求。當前市場聚焦于云端大模型AI以及上游算力等環節,對于邊緣AI預期差較大,而中科創達先發優勢顯著。
(2)科大訊飛
深度參與互聯網產業格局重塑,攻關“訊飛星火大模型”筑牢技術底座優勢。2022年12月,科大訊飛啟動了“1+N認知智能大模型技術及應用”專項攻關,其中“1”指的是通用認知智能大模型算法研發及高效訓練方案底座平臺,“N”指的是將認知智能大模型技術應用在教育、醫療、人機交互、辦公、翻譯等多個行業領域。科大訊飛有信心在中文認知領域形成獨特優勢,同時在教育、醫療等多個行業領域形成業界領先的深度創新應用。公司在2023年5月6日舉辦了“訊飛星火認知大模型”成果發布會,除了發布“訊飛星火認知大模型”之外,還有星火認知大模型在公司現有產品上的商業應用成果:大模型+AI學習機:AI像老師一樣批改作文,像口語老師一樣實景對話;大模型+訊飛聽見:錄音一鍵成稿,一分鐘輸出流暢會議文案;大模型+智能辦公本:根據手寫要點自動生成會議紀要;大模型+智慧駕艙:車內跨業務,跨場景人車自由交流;大模型+數字員工:基于自然語言生成業務流程和RPA(RPA即機器人流程自動化),幫助企業員工完成大量重復性工作;大模型+開放平臺:聯合各行業合作伙伴共建大模型生態,首批接入來自36個行業的3000余家開發者。
“星火大模型”的三個重要時間點。2023年6月9日科大訊飛24周年慶時,“星火”會通過類搜索插件突破開放式問答,即實時問答,多輪對話能力、數學能力也將升級。8月15日,“星火”的多模態能力、代碼能力會上升一個“大臺階”,并將開放給客戶。10月24日,“星火”大模型將能夠在通用大模型能力上對標ChatGPT,“在中文上要超越ChatGPT,英文上達到相當的水平。”
06
具身智能發展展望
大模型與機器人成果顯著,具身智能的東風已至:
1.人形機器人——具身智能成長的重要土壤
TeslaBot功能進展迅速,商業化前景可期。2021年,在“特斯拉AI日”上,馬斯克發布了特斯拉的通用機器人計劃,并用圖片展示了人形機器人TeslaBot的大致形態。但當時的TeslaBot只是個概念。一年后在2022特斯拉AI日上,人形機器人擎天柱(Optimus)實體亮相。2023年5月中旬的特斯拉股東大會上,馬斯克又展示了TeslaBot的最新進展,現在TeslaBot已經可以流暢行走,并還能靈活抓取放下物體。馬斯克在會上表示“人形機器人將會是今后特斯拉主要的長期價值來源。如果人形機器人和人的比例是2比1,則人們對機器人的需求量可能是100億乃至200億個,遠超電動車數量”。
最近的TeslaBot功能突破來源于特斯拉改進的電機扭矩控制以及環境建模等技術。特斯拉利用一些技術方法改進了人形機器人的動作和控制,包括電機扭矩控制、環境發現與記憶、基于人類演示訓練機器人。首先,研究團隊使用電機扭矩控制(motor torque control)操縱人形機器人腿部的運動,讓機器人落腳力度保持輕緩。對于一個機器人來說,觀察或感知周圍環境是非常重要的,因此特斯拉為人形機器人添加了環境發現與記憶的能力。現在該人形機器人已經可以對周圍環境進行大致建模。特斯拉的人形機器人具備與人類相似的身體結構,特斯拉的研究團隊使用大量人類演示訓練了機器人,特別是在手部動作方面,旨在讓其具備與人類似的物體抓取能力。
具身智能帶來的AI價值遠比人形機器人更大。具身智能最大的特質就是能夠以主人公的視角去自主感知物理世界,用擬人化的思維路徑去學習,從而做出人類期待的行為反饋,而不是被動的等待數據投喂。人形機器人提供了各種基于人類行為的學習和反饋系統,為實現更復雜行為語義提供了迭代的基礎和試驗場,因此,人形機器人的逐步完善也為具身智能的落地提供了方向。而面向工業等場景的具身智能應用并非一定要是人形機器人,因此具身智能背后的技術和方法論才是核心,也意味著具身智能所帶來的價值要遠遠高于人形機器人本身。換句話說,人形機器人是具身智能的重要應用場景,也將為具身智能的迭代優化提供方向和空間。
2.AIGC助力具身智能瓶頸突破,智能與泛化能力是關鍵
強化學習興起之后,具身智能受到了更廣泛的關注。之前隨著AlphaGo的成功,學術界對于強化學習的興趣大增,隨之很多人開始用RL來打通智能體的感知-決策-執行,希望實現具身智能。訓練RL是一個不斷試錯的過程,所以從2017、18年開始,出現了很多仿真訓練平臺,能把一個智能體以具身的形式放進去,然后通過與環境的交互中獲得reward,進而學習一個policy。但是因為仿真環境和現實環境總是有差距的(叫sim2realgap),習得的policy不一定能遷移到現實里。當前能實現技能policy從仿真遷移到現實環境中的,主要還是像移動導航、單步驟的抓取或者操作這類較為單一的技能,而且很難泛化。
最近大語言模型的風頭又壓過了強化學習。最近業界希望通過大規模,用一個模型整合視覺、語言、機器人,也取得了一定效果。但是機器人的執行需要的是4D數據(三維環境和機器人運動的時序軌跡),它的數據量和豐富度都遠不如圖片和文本,采集成本也高的多,因此迭代演化的難度相比于大模型高得多。
而多模態大模型為具身智能的技術瓶頸突破提供了重要驅動力。具身智能是人工智能、機器人等各技術分支融合發展的必然結果,因為計算機視覺為圖像的采集和處理打開了窗口,圖形學也為物理仿真提供了工具支撐,NLP也為人類-機器交互提供了便捷性,也為機器從文本中學習知識提供了有效途徑,認知科學也為具身智能的行為認知原理提供了科學研究途徑。各類機器人構件也為智能體與物理環境交互提供了橋梁。因此,人工智能的技術分支以及機器人功能性的提升,為具身智能的進一步發展帶來了可能,而當前AIGC時代的大模型可以將之前的技術分支更優地集成和創新,已有不少研究者嘗試將多模態的大語言模型作為人類與機器人溝通的橋梁,即通過將圖像、文字、具身數據聯合訓練,并引入多模態輸入,增強模型對現實中對象的理解,從而更高效地幫助機器人處理具身推理任務,一定程度提升了具身智能的泛化水平。所以,GPT等AI大模型為具身智能的自我感知和任務處理的優化升級提供了新的研究手段。
3.巨頭紛紛布局,產業融合加速推進
“算力霸主”英偉達高調布局具身智能。在ITFWorld2023半導體大會上,黃仁勛表示人工智能的下一個浪潮將是具身智能,即能理解、推理、并與物理世界互動的智能系統。同時,他也介紹了英偉達的多模態具身智能系統NvidiaVIMA,其能在視覺文本提示的指導下,執行復雜任務、獲取概念、理解邊界、甚至模擬物理學,這也標志著AI能力的一大顯著進步。
融合傳感器模態與語言模型,谷歌推出的視覺語言模型相較于ChatGPT新增了視覺功能。2023年3月,谷歌和柏林工業大學AI研究團隊推出了當時最大視覺語言模型——PaLM-E多模態視覺語言模型(VLM),該模型具有5620億個參數,集成了可控制機器人的視覺和語言能力,將真實世界的連續傳感器模態直接納入語言模型,從而建立單詞和感知之間的聯系,且該模型能夠執行各種任務且無需重新訓練,其相較于ChatGPT新增了視覺功能。PaLM-E的主要架構思想是將連續的、具體化的觀察(如圖像、狀態估計或其他傳感器模態)注入預先訓練的語言模型的語言嵌入空間,因此實現了以類似于語言標記的方式將連續信息注入到語言模型中。
谷歌實現視覺語言與機器人高水平實時互聯,且觀察到了類似多模態思維鏈推理與多圖像推理等涌現能力的出現。基于語言模型,PaLM-E會進行連續觀察,例如接收圖像或傳感器數據,并將其編碼為一系列與語言令牌大小相同的向量。因此,模型就能繼續以處理語言的方式“理解”感官信息。而且,同一套PaLM-E模型能夠達到實時控制機器人的水準。PaLM-E還展現出隨機應變的能力,例如盡管只接受過單圖像提示訓練,仍可實現多模態思維鏈推理(允許模型對包含語言和視覺信息在內的一系列輸入進行分析)和多圖像推理(同時使用多張輸入圖像進行推理或預測)。但谷歌展示的Demo中的空間范圍、物品種類、任務規劃復雜度等條件還比較有限,隨著深度學習模型愈發復雜,PaLM-E也將打開更多可行性應用空間。
微軟正計劃將ChatGPT的能力擴展到機器人領域,使得能用語言文字控制機器人。目前實驗已經能夠通過給ChatGPT的對話框輸入指令,讓其控制機器人在房間中找到“健康飲料”、“有糖和紅色標志的東西”等。微軟研究人員表示,“研究的目標是看ChatGPT是否能超越生成文本的范疇,對現實世界狀況進行推理,從而幫助機器人完成任務”。微軟希望幫助人們更輕松地與機器人互動,而無需學習復雜的編程語言或有關機器人系統的詳細信息。
阿里采用和微軟相似的路徑,正在實驗將千問大模型接入工業機器人。在近日舉行的第六屆數字中國建設峰會上,阿里云發布一個演示視頻中展示了千問大模型的實際應用場景。其中,千問大模型接入了工業機器人,工程師通過釘釘對話框向機器人發出指令后,千問大模型在后臺自動編寫了一組代碼發給機器人,機器人開始識別周邊環境,從附近的桌上找到一瓶水,并自動完成移動、抓取、配送等一系列動作,遞送給工程師。在釘釘對話框輸入一句人類語言即可指揮機器人工作,這將為工業機器人的開發和應用帶來革命性的變化,其背后意味著大模型為工業機器人的開發打開了新的大門。因為千問等大模型為機器人提供了推理決策的能力,從而有望讓機器人的靈活性和智能性大幅提升。
END