復盤最近一周的大事,在科技領域,人形機器人可以說是當仁不讓的焦點。
科技巨頭入場
近日,英偉達成立了一個新的研究小組,名為“GEAR(Generalist Embodied Agent Research)”。目標是為了讓英偉達進一步推進和構建基于人工智能的實體,并使其能夠在虛擬世界和物理世界中熟練地操作,比如智能機器人和NPC之類。這個新部門由AI高級研究科學家、AI 代理計劃的負責人Jim fan和Yuke Zhu教授領導,主要專注于多模態基礎模型、通用型機器人研究、虛擬世界中的基礎智能體、模擬與合成數據技術這四大關鍵領域,致力于在未來技術浪潮中占據領先地位,并推動整個人工智能和機器人行業的持續進步與發展。
英偉達還宣布,將于3月18日至21日舉辦GTC2024大會。屆時,黃仁勛將發布加速計算、生成式AI以及機器人技術領域的最新突破性成果。在英偉達列出的12位重磅嘉賓中,三位是機器人領域大佬,包括Google DeepMind杰出科學家兼機器人高級總監Vincent Vanhoucke、波士頓動力公司首席技術官Aaron Saunders、斯坦福大學計算機科學教授李飛飛博士。Agility Robotics、波士頓動力公司、迪士尼和Google DeepMind等公司還將在現場展出25款機器人,包括人形機器人、工業機械手等。
除此之外,人形機器人初創公司Figure AI也受到廣泛關注。據稱其在新一輪融資中募資約6.75億美元,投前估值約20億美元。目前,亞馬遜創始人杰夫·貝索斯、英偉達和其他大型科技公司正在投資Figure AI:貝索斯已通過他的公司Explore Investments LLC承諾投資1億美元,微軟將投資9500萬美元,英偉達和亞馬遜附屬基金各提供5000萬美元,英特爾的風險投資部門將投入2,500萬美元,LG Innotek將提供850萬美元。與此同時,三星投資集團承諾出資500萬美元。一度考慮收購Figure的OpenAI將投資500萬美元。
FigureAI成立于2022年1月,專注于設計自動通用人形機器人。其創始人Brett Adcock被稱為“下一個埃隆·馬斯克”。Figure公司的員工多來自特斯拉、IHMC、Apple、Cruise等。這家公司的目標是打造世界上第一個具有商業可行性的人形機器人,并加入人類的勞動隊伍。在Figure上個月發布的一個視頻中,旗下產品Figure 01展示出能夠自主完成煮咖啡等任務的能力。
與此相關的信息還有,馬斯克在推特發布人形機器人Optimus在實驗室里閑逛的視頻。Optimus的步行速度已達到0.6米/秒或1.34英里/小時。自12月的視頻演示以來,速度提升了30%以上。
市場規模將達千億美元
2024年將是機器人軟件技術快速突破之年,也將是人形機器人量產元年。人形機器人有望成為千億美元級的藍海市場。隨著人形機器人功能邁向多樣化和普適化, 產業分工日趨成熟,成本持續下探,潛在應用場景包括制造業、家庭服務等多個領域。有數據顯示,2035 年全球人形機器人制造和家庭服務市場銷量達到1318萬臺,2025-2035 年CAGR為98.2%;市場規模達到1103億美元,2025-2035年CAGR為68.6%。
全球人形機器人制造和家庭服務市場銷量
機器人可以視為AI+制造業的最佳結合體。中國是全球最大的制造業基地,市場前景發展廣闊。同時,老齡化已成為工業化國家不得不面臨的問題。要想解決這一問題,向資本密集型的自動化、智能化產業轉型是更有可能的路徑。對于中國而言,高端制造業的進一步升級也是緊迫而必要的。
從產業鏈視角上看,人形機器人相比工業機器人而言,由于構造復雜、造價昂貴,滲透率還比較低,但未來的市場空間巨大。同時,由于人形機器人所需要的硬件數量和精度要求都要遠高于普通工業機器人,這也意味著人形機器人更長、更廣泛的產業鏈,能創造的產業鏈價值更大。
AI大模型實現泛化能力
與AI大模型不同,人形機器人是軟硬件能力高度集成的實體。但其核心突破點正在于AI大模型??梢哉f,AI大模型將形成人形機器人的AI大腦。具身智能大模型將為機器人操作系統補全最后一塊拼圖。
以往由于算法模型的局限,機器人很難形成通用化能力,只能通過對于某一個特定領域訓練對應的基礎模型,形成特定用途的機器人AI算法,比如工廠車間大量采用的機械臂、家用掃地機器人等。軟件層面的局限性限制了機器人的應用場景。
而大模型的出現,補全了讓機器人能力實現躍升的技術基礎。去年,AI公司Levatas與波士 頓動力合作,將ChatGPT和谷歌的語音合成技術接入Spot機器狗,成功實現與人類的交互。可以說,ChatGPT 的成功,為人形機器人的發展帶來了拐點??梢哉f,大模型的泛化能力讓研究者看到人形通用機器人的曙光。
泛化(Generalization)可以理解為一種遷移學習的能力,把從過去的經驗中學習到的表達、知識和策略應用到新的領域。人類就具有“舉一反三”的能力,學習 一個新概念后立即就能理解它在其他情況下的相關用法。以往,人工智能的泛化能力很低,應用場景更加局限。而大模型的泛化能力讓人形機器人能夠在沒有被訓練過的場景中也能有所表現,這是人形機器人實現通用性的基礎。
有報道稱,以 GPT-4為代表的多模態大模型已經具備成為通用性人形機器人核心大腦的初步條件。OpenAI 在 10 月正式上線 GPT-4V(ision),為 GPT-4 新增了語音與圖像功能。用戶可以直接與 GPT-4V 進行語音交互,并且 GPT-4V 能夠對圖像進行推理和分析。根據微軟團隊對 GPT4V 的詳細評測,GPT-4V有作為具身智能的理解核心的潛力。在微軟的測試案例中,GPT-4V可以扮演一名家庭機器人,閱讀咖啡機的操作界面并給出正確的指令操作;或者通過房間圖片的輸入,要求 GPT-4V 規劃出去廚房冰箱取物品的路線,GPT-4V 也可以執行面向任務的導航。
英偉達的策略
分析英偉達在人形機器人上的戰略,簡單總結可以概括成“大模型-數據-開發平臺”。在去年ITF World 2023半導體大會上,英偉達CEO黃仁勛就高調宣傳了這一概念,并在這場活動上公布了一套多模態具身智能系統——Nvidia VIMA。這是一款全新的AI模型,能夠在視覺文本提示的指導下執行復雜任務。
在英偉達GEAR小組負責人Jim Fan的演講中,其給具身智能的定義為“一個掌握廣泛技能,控制許多身體,并能夠泛化到多個環境中的單一算法?!边@是一個可以在虛擬世界和現實世界里泛化的通用智能體模型,而人形機器人是這種模型最好的載體。
在GEAR 團隊成立之前,英偉達已在具身智能大模型領域實現了一些研究成果。比較出名是,Nvidia Research團隊利用GPT-4生成獎勵函數,教會機器人完成三十多個復雜任務,包括快速轉筆,打開抽屜和柜子、以及拋接球等。在英偉達發布的Voyager項目中,將GPT-4嵌入知名游戲《我的世界》,利用多模態提示實現通用機器人操作能力,這也是第一個用大語主模型驅動,玩游戲的案例。
此外,英偉達還擁有豐富的訓練數據。這些數據一部分來自英偉達龐大的生態伙伴;另一方面英偉達還摸索出一條獲取數據的“新路”,即利用自身硬件生成數據。在英偉達與得克薩斯大學奧斯汀分校的一項最新研究論文中,介紹了一個名為“MimicGen”的系統,該系統可以用不到 200個演示,自主生成超過5萬個訓練數據,從而大大減少昂貴的人工演示工作、加快機器 AI 化進程。在行業數據資源幾近枯竭的背景下,英偉達靠著自身的硬件條件讓AI大模型訓練更加容易。而相關分析顯示,合成數據有望打破人工智能訓練數據的瓶頸。
英偉達的最終目標還是打造機器人開發平臺與生態,搶占產業鏈價值最高點。英偉達在Jetson Orin系列平臺的基礎上,推出了Issac AMR等一系列智能機器人平臺,以鞏固其競爭優勢。在即將召開的GTC2024大會上,英偉達將發布加速計算、生成式AI 以及機器人領域的最新突破性成果。會議上,Agility Robotics、波士頓動力公司、迪士尼和Google Deep Mind等公司將在現場展出25款機器人,包括人形機器人、工業機械手等。這些都是英偉達打造機器人開發平臺與生態的一部分。具身智能被英偉達看作AI的下一個熱點。英偉達正在人形機器人產業上做前期的布局。