精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
機器人行業(yè)報告:大模型迭代,智能駕駛、機器人算法進化

報告出品方:申萬宏源

以下為報告原文節(jié)選

------

1. 智能駕駛:端到端的算法新范式

1.1 AI感知:機器人+駕駛+具身智能的智能化曾都卡在這里

1.2 AI感知:以毫末智行為例,中美簡單對比

1.3 自動駕駛:大模型AI對感知和標注的改造

強化感知:空間-時序維度,多模態(tài)數(shù)據(jù)融合

· 在2021 TESLA AI DAY將引入Transformer進行大規(guī)模的無監(jiān)督學習。2022年后國內(nèi)公司跟進。
· 特斯拉從安裝在汽車周圍的八個攝像頭的視頻中用傳統(tǒng)的ResNet提取圖像特征,并使用Transformer、CNN、3D卷積中的一種或者多種組合完成跨時間的圖像融合,實現(xiàn)基于2D圖像形成具有3D信息輸出。
· 毫末智行的AI團隊正在逐步將基于Transformer的感知算法應用到實際的道路感知問題,如車道線檢測、障礙物檢測、可行駛區(qū)域分割、紅綠燈檢測&識別、道路交通標志檢測、點云檢測&分割等。

數(shù)據(jù)標注升級:大模型無標注自監(jiān)督學習

· 先統(tǒng)一所有感知任務的backbone,再使用以無標注數(shù)據(jù)為主的數(shù)據(jù),對大模型進行預訓練,使大模型獲得能夠使用無標注數(shù)據(jù)訓練的能力。這里同樣使用了大模型并行計算的能力。

自動駕駛:大模型的BEV transformer重要

BEV的通俗理解:把不同視角的觀察合成一個“天眼模式”整體圖,了解全局

傳統(tǒng)駕駛算法下,時序信息很難與已有3D目標檢測融合

· 3D BEV優(yōu)勢:1)將不同視角在 BEV 下統(tǒng)一,方便后續(xù)規(guī)劃控制模塊任務;2)BEV 下的物體沒有圖像視角下的尺度(scale)和遮擋(occlusion)問題;

· 時序信息:自動駕駛感知任務重要,但現(xiàn)階段基于視覺的 3D 目標檢測方法并沒有很好的利用;n BEVformer:基于Transformer的自動駕駛BEV純視覺感知

· BEVFormer的兩大核心任務:mutil-camera(多視角相機) 和 bird- eye-view(鳥瞰圖)BEV

· BEVFormer利用了Transformer的特征提取能力以及Timestamp結構的時序特征的查詢映射能力,在時間維度和空間維度對兩個模態(tài)的特征信息進行聚合,增強整體感知系統(tǒng)的檢測效果。

自動駕駛: BEV transformer

BEV的通俗理解:把不同視角的觀察合成一個“天眼模式”整體圖,了解全局。

Pre-BEV特征提取(如果輸入特征提取的是3D信息,得到3D BEV,壓縮到2D BEV)。
· 3D坐標離散化到體素空間(高效率)+3D卷積提取特征+3D特征高度壓縮變成2D BEV特征;

· 體素稀疏、不規(guī)則、3D卷積計算量大,落地困難。
Post-BEV特征提取(如果輸入特征提取數(shù)據(jù)是BEV信息)。
· 先將3D的點云轉化為BEV表示,然后再使用2D卷積等方式提取BEV特征。

1.4 AI感知:NeRF(神經(jīng)輻射場)-大模型和自動駕駛的交集

NeRF,即Neural Radiance Fields(神經(jīng)輻射場)。其通俗理解:給予海量不同視角的二維圖,合成同一場景不同視角下的圖像。

· 還可以通俗理解為X-Y-Z到三維極坐標的轉化,第三視角到第一視角的轉化。

輻射場:

· 如果我們從一個角度向一個靜態(tài)空間發(fā)射一條射線,我們可以查詢到這條射線在空間中每個點 (x,y,z) 的密度 ρ ,以及該位置在射線角度 (θ, φ) 下呈現(xiàn)出來的顏色 c ( c=(R,G,B) )。
· 即 F(x,y,z, θ, φ)→(R,G,B, ρ) 。密度是用來計算權重的,對點上的顏色做加權求和就可以呈現(xiàn)像素顏色。
· 給定F(x,y,z, θ, φ)直接查表獲得RGB值和密度,給體渲染方法。

訓練:

· 用Tensor輸入5D數(shù)據(jù)(三個位置,兩個角度);

· 得到顏色和密度;

· 端到端訓練,把原圖和訓練結果的損失做梯度回傳。

體渲染:
· 對上述輻射場的密度和顏色做積分,就可以得到像素的顏色。
· 遍歷所有像素,這個視角下的圖像就渲染出來了。

AI感知+預測:Occupancy Network占用網(wǎng)絡

Occupancy Network的通俗理解:兩維的鳥瞰BEV,變?yōu)槿S的鳥瞰。而增加運動序列預測。

2022CVPR放大的占用網(wǎng)絡

· 2022 CVPR中,Tesla FSD新負責人 Ashok Elluswamy 推出了Occupancy Network。借鑒了機器人領域常用的思想,基于occupancy grid mapping,是一種簡單形式的在線3D重建。
· 將世界劃分為一系列網(wǎng)格單元,然后定義哪個單元被占用,哪個單元是空閑的(考慮速度、預測軌跡等)。通過預測3D空間中的占據(jù)概率來獲得一種簡單的3d空間表示。關鍵詞是3D、使用占據(jù)概率而非檢測、多視角。

對BEV鳥瞰圖的加強和改進

· 首先是純視覺+AI+大模型路線,國內(nèi)更可能用傳感器路線;

· BEV感知:高水平視覺為主的自動駕駛方案的起點;

· 占用網(wǎng)絡Occupancy Network:純視覺自動駕駛技術的里程碑(CVPR 2022)。

優(yōu)勢有哪些?泛化,2D變3D,像素變體素

· 2D BEV柵格變成3D柵格,高度方向又增加了一個維度變成了3D柵格;

· 借鑒了NeRF(輸出3D柵格特征和柵格流,增加語義輸出和速度信息,可以變分辨率聚焦);

· 體現(xiàn)了泛化,可以識別之前未知物。
· 體現(xiàn)了語義感知,超過雷達。

1.5 從AI感知,到端到端(感知+預測+規(guī)劃+控制):CVPR2023

1)在Backbone環(huán)節(jié)特征提取,其中涉及BEV和多模態(tài)等大模型技術。
· 將一系列多相機圖像輸入特征提取器,并將生成的特征通過 BEVFormer 中的現(xiàn)成 BEV 編碼器轉換為統(tǒng)一鳥瞰圖 (BEV) 特征 。
· UniAD 可利用其他替代方案通過長期時間融合或多模態(tài)融合 。
2)在感知環(huán)節(jié)

· 目標檢測與跟蹤模塊可以實現(xiàn)對動態(tài)元素的特征提取、幀間物體跟蹤。

· MapFormer 將map queries作為道路元素(例如,車道和分隔線)的語義抽象(semantic abstractions),并對地圖進行全景分割。

AI端到端:CVPR2023的啟發(fā)

3)預測模塊,實現(xiàn)動靜態(tài)元素交互與長時序軌跡預測,而且已經(jīng)有“聯(lián)合訓練AI”。
· 由于每個單元的動作都會顯著影響場景中的其他,因此該模塊對所有考慮的單元進行聯(lián)合預測。
4)在規(guī)劃模塊,基于軌跡預測,做防碰撞,其中涉及占用網(wǎng)絡(Occupancy network)等大模型技術。
· 基于自身的軌跡預測和基于占據(jù)柵格的碰撞優(yōu)化并使自己遠離 OccFormer 預測的占用區(qū)域(occupied regions)以避免碰撞。

2. 視覺泛化:大模型帶來何種改變

2.1 大模型能帶來視覺底層能力怎樣的迭代?

大模型+自動駕駛,實際并未使用到視覺泛化能力

· 3D占據(jù)柵格網(wǎng)絡:主要預測了空間中點被占據(jù)的概率,并未識別出三維物體是什么;

· 大模型主要改變了自動駕駛工作范式。
然而在機器人工作中,需要識別出具體物體是什么

· 小模型時代,特征提取+梯度下降訓練;

· 在特定領域已經(jīng)非常成熟,如:人臉識別;

· 但是,區(qū)分物體是什么有難度,泛化能力欠缺。
視覺大模型相對于傳統(tǒng)的小型模型,具有以下的優(yōu)缺點

· 更高的準確性:視覺大模型一般具有千萬級別或更多參數(shù),相比小型模型具有更強大的表示能力,因此可以更好地捕捉圖像中的細節(jié)和特征,從而提高模型的準確性。
· 更強的泛化能力:視覺大模型在訓練過程中可以學習到更多的特征,因此具有更好的泛化能力,可以適應更多的場景和數(shù)據(jù)分布。
· Few shot/Zero shot下的CV能力:圖像分類、語義分割、目標檢測、實例分割、物體追蹤。
最終可能通過跨模態(tài),實現(xiàn)Zero shot。

2.2 AI感知的“泛化”理解:VIT將Transformer引入CV任務

在CV領域,為何基于傳統(tǒng)CNN+大參數(shù)的思路遇到瓶頸?
· 從算子層面看,傳統(tǒng)的 CNNs 算子缺乏長距離依賴和自適應空間聚合能力;

· 從結構層面看,傳統(tǒng) CNNs 結構缺乏先進組件。
Transformer + CV,提升了視覺模型參數(shù)上限

· 2021年后,隨著vit、Swin transformer、MAE等論文推出,transformer在CV和跨模態(tài)等應用增加。
· 2021年3月,google將嘗試將自注意力機制和transformer直接應用在圖像領域。
· 基于ViT 和 Swin Transformer 等方法,首次將CV模型擴大到20億和30億參數(shù)級別。
· 其單模型在 ImageNet 數(shù)據(jù)集的分類準確率也都突破了 90%,遠超傳統(tǒng) CNN 網(wǎng)絡和小規(guī)模模型,突破了技術瓶頸。

2.3 AI感知的“泛化”理解:META SAM

提出Segment Anything (SAM)項目

· 用一個基礎大模型,可以實現(xiàn)Zero-shot下的通用分割能力,基本涵蓋了分割的各個子領域。即,CV中某個重要領域的通用模型出現(xiàn)了。
· 零樣本(zero-shot)或者簡單prompt(比如一個點,下圖中綠點、線框,或者一小段文字)下,就對任意圖片進行分割。
一個用于圖像分割的新任務、模型和數(shù)據(jù)集。
· 1)10億+掩碼:在數(shù)據(jù)收集循環(huán)中使用高效模型,構建了迄今為止(到目前為止)最大的分割數(shù)據(jù)集,在1100萬張授權和尊重隱私的圖像上有超過10億個掩碼。
· 2)將發(fā)布SAM模型和數(shù)據(jù)集。數(shù)據(jù)集(SA-1B),其中包含1B個掩碼和1100萬張圖像,以促進對計算機視覺基礎模型的研究。

2.4 AI感知的“泛化”理解:META dinoV2

Dino V2的三個重要功能
· 深度估計、語義分割、目標檢索;暫時無法做到實例分割,實例分割=目標檢+語義分割。

· 數(shù)據(jù)集:1.42億,沒有文字標簽,但是圖片特征相似模型參數(shù)量是 10 億級,也仍然是視覺Transformer 架構(ViT),但與 DINO 不太一樣的是,這次 DINOv2 在數(shù)據(jù)集上經(jīng)過了精心挑選。
· DINOv2 構建了一個數(shù)據(jù)篩選 pipeline,將內(nèi)容相似的圖片篩選出來,同時排除掉相同的圖片。

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
大模型技術在自動駕駛中的應用
一篇文章讓你輕松看的智駕感知的進階算法策略
行業(yè)第一家!問界新M7率先實現(xiàn)全國高階智能駕駛 不依賴高精地圖
百度AI進階:從生活智能到科研全景
中金 | AI十年展望(三):AI視角下的自動駕駛行業(yè)全解析
會士專欄丨焦李成院士:從ChatGPT到GPT-4看下一代人工智能的挑戰(zhàn)與機遇
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 元阳县| 得荣县| 喀喇| 台安县| 腾冲县| 漠河县| 通河县| 绥阳县| 慈利县| 建德市| 澄城县| 紫金县| 澜沧| 天台县| 镇康县| 武乡县| 潜江市| 铜川市| 长兴县| 珠海市| 连平县| 万源市| 库尔勒市| 沙坪坝区| 岚皋县| 保康县| 长寿区| 通山县| 通许县| 西林县| 阳春市| 东平县| 东明县| 临高县| 玉山县| 墨竹工卡县| 合阳县| 合山市| 福鼎市| 云霄县| 南京市|