精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
自動駕駛LiDAR點(diǎn)云深度學(xué)習(xí)綜述
干貨第一時間送達(dá)
導(dǎo)讀 /
本文是滑鐵盧大學(xué)CogDrive實(shí)驗(yàn)室和Geospatial Sensing and Data Intelligence Lab實(shí)驗(yàn)室聯(lián)合剛發(fā)表在 IEEE Transactions On Neural Networks And Learning Systems 上的一篇綜述,主要介紹基于深度學(xué)習(xí)的 LiDAR 點(diǎn)云在無人車上的應(yīng)用。
本篇綜述總結(jié)了最近五年的140多項(xiàng)重要參考文獻(xiàn),包括具有里程碑意義的3D深度學(xué)習(xí)模型,以及他們在語義分割,目標(biāo)檢測和分類中的出色應(yīng)用。此外,本文描述了常用的點(diǎn)云數(shù)據(jù)集。最后,對于當(dāng)前研究的局限性及未來可能的研究方向提供了自己的見解。本文的原文DOI: 10.1109/TNNLS.2020.3015992
背景
準(zhǔn)確的環(huán)境感知和精確的定位是自動駕駛汽車在復(fù)雜動態(tài)環(huán)境中能夠進(jìn)行可靠導(dǎo)航,信息決策以及安全駕駛的關(guān)鍵。這兩個任務(wù)需要獲取和處理真實(shí)環(huán)境中的高度準(zhǔn)確且信息豐富的數(shù)據(jù)。為了獲得此類數(shù)據(jù),無人車上或者移動測量車上通常裝備多種傳感器,例如LiDAR或者相機(jī)。傳統(tǒng)上,相機(jī)捕獲的圖像數(shù)據(jù)能夠提供二維語義和紋理信息,且低成本和高效率,是感知任務(wù)中最常用的數(shù)據(jù)之一。但是,圖像數(shù)據(jù)缺少三維地理信息。因此,由LiDAR收集的密集的、準(zhǔn)確的、具有三維地理信息的點(diǎn)云數(shù)據(jù)也應(yīng)用于感知任務(wù)中。此外,LiDAR對照明條件的變化不敏感,可以在白天和夜晚工作,即使有強(qiáng)光和陰影干擾。
LiDAR點(diǎn)云在自動駕駛領(lǐng)域中的應(yīng)用可以分為以下兩個方面:1)基于場景理解和目標(biāo)檢測的實(shí)時環(huán)境感知和處理;2)基于可靠定位和參考的高精度地圖和城市模型的生成和構(gòu)建。這些應(yīng)用具有一些類似的任務(wù),可以大致分為三種類型:點(diǎn)云分割,三維目標(biāo)檢測和定位以及三維目標(biāo)分類和識別。這項(xiàng)技術(shù)的發(fā)展引發(fā)了自動駕駛領(lǐng)域?qū)c(diǎn)云數(shù)據(jù)自動處理與分析的日益迫切的需求。
近些年來, 隨著深度學(xué)習(xí)的不斷突破和三維點(diǎn)云數(shù)據(jù)的可及性,3D深度學(xué)習(xí)在2D深度學(xué)習(xí)的基礎(chǔ)上取得了一系列顯著的成果。這些3D深度學(xué)習(xí)網(wǎng)絡(luò)主要應(yīng)用于自動駕駛汽車的幾個相關(guān)任務(wù),例如:語義分割和場景理解,目標(biāo)檢測和目標(biāo)分類。因此,本文主要集中在構(gòu)建基于深度學(xué)習(xí)的LiDAR點(diǎn)云在自動駕駛汽車分割,檢測,和分類任務(wù)上的系統(tǒng)性綜述。
問題與難點(diǎn)
點(diǎn)云語義分割:將輸入點(diǎn)云數(shù)據(jù)聚集成幾個同質(zhì)區(qū)域的過程,其中相同區(qū)域中的點(diǎn)具有相同的屬性。每個點(diǎn)都分配有語義標(biāo)簽,例如:道路,樹木,建筑物等。語義分割結(jié)果可以為目標(biāo)檢測提供前景和背景分類信息。
3D目標(biāo)檢測:給定任意點(diǎn)云數(shù)據(jù),目標(biāo)檢測能夠定位和檢測預(yù)定義類別的場景實(shí)例,并輸出他們的三維位置,方向,和語義實(shí)例標(biāo)簽。這些信息可以用3D邊界框粗略地表示。這些邊界框通常由邊界框(目標(biāo)物)中心點(diǎn)三維坐標(biāo)、邊界框的長寬高、邊界框的方向、以及它的語義標(biāo)簽表示。
3D目標(biāo)分類: 給定任意一組點(diǎn)云,目標(biāo)分類能夠輸出它的類別,例如:車輛,行人等。
感知條件和不受限制的環(huán)境變化會對LiDAR掃描的物體外觀有著巨大影響。特別是在不同場景甚至是同一場景捕獲的對象,由于掃描時間,位置,天氣狀況,傳感器類型,感測距離和背景的不同都帶來了差異。所有這些條件都會對LiDAR點(diǎn)云中的類間和類類對象產(chǎn)生顯著影響:
  • 多樣化的點(diǎn)云密度和反射強(qiáng)度:由于LiDAR的掃描模式,點(diǎn)云物體的密度和強(qiáng)度變化很大。這兩個特征的分布高度取決于物體與LiDAR傳感器之間的距離。此外,LiDAR傳感器的功能,掃描的時間限制和所需的分辨率也會影響其分布和強(qiáng)度。
  • 噪聲:所有傳感器都有噪聲。LiDAR有幾種類型的噪聲包括點(diǎn)擾動和離群值。這意味著一個點(diǎn)可能存在于被采樣(擾動)點(diǎn)周圍一定半徑的球體內(nèi),或者它可能出現(xiàn)在空間中的隨機(jī)位置。
  • 不完整性:LiDAR獲得的點(diǎn)云通常是不完整的。這主要是由于物體之間的遮擋,城市場景中背景的混亂,和材料表面反射率不理想所致。這樣的問題在實(shí)時捕獲運(yùn)動對象時非常嚴(yán)重,導(dǎo)致這些被掃描運(yùn)動對象點(diǎn)云數(shù)據(jù)存在較大的空洞和嚴(yán)重的欠采樣。
  • 類別混亂。在自然環(huán)境中掃描的形狀相似或反射性相似的物體對目標(biāo)檢測和分類會產(chǎn)生干擾。例如,一些人工制作的目標(biāo)物如廣告牌和路牌的相似度就很高。
不規(guī)則的點(diǎn)云數(shù)據(jù)格式以及對準(zhǔn)確性和效率的要求給3D深度學(xué)習(xí)模型帶來了一些新挑戰(zhàn)。在構(gòu)建一個高效且有魯棒性的3D深度學(xué)習(xí)模型時,主要集中解決以下幾個問題:
  • 排列和方向不變挑戰(zhàn):與二維柵格像素相比,LiDAR點(diǎn)云是一組具有不規(guī)則順序且沒有特定方向的點(diǎn)。在同一組輸入的N個點(diǎn),網(wǎng)絡(luò)應(yīng)對輸入的N!種排列保持不變。此外,對于缺少方向性的點(diǎn)云數(shù)據(jù),目標(biāo)識別面臨很大的挑戰(zhàn)。
  • 剛性變化挑戰(zhàn)。點(diǎn)集之間存在各種剛性變換,例如3D旋轉(zhuǎn)和3D平移。這些轉(zhuǎn)變不應(yīng)影響網(wǎng)絡(luò)的性能。
  • 大數(shù)據(jù)挑戰(zhàn)。LiDAR在不同城市的自然場景中收集數(shù)百萬至數(shù)十億個點(diǎn),例如,在KITTI數(shù)據(jù)集中,由3D Velodyne激光掃描儀捕獲的每一幀都包含10萬個點(diǎn),其收集的最小場景為114幀,超過1000萬個點(diǎn)。這樣的數(shù)據(jù)量給數(shù)據(jù)存儲和處理帶來困難。
  • 精度挑戰(zhàn)。準(zhǔn)確感知道路物體對于自動駕駛汽車至關(guān)重要。但是,類類和類間對象的變化以及數(shù)據(jù)質(zhì)量都對準(zhǔn)確性提出了挑戰(zhàn)。例如,就各種材料、形狀、和大小而言,同一類別中的對象具有不同的場景實(shí)例。此外,構(gòu)建的模型應(yīng)對點(diǎn)云數(shù)據(jù)分布不均、稀疏、和缺失具有魯棒性。    
  • 效率挑戰(zhàn)。與二維圖像相比,處理大量的點(diǎn)云會產(chǎn)生較高的計算復(fù)雜度和時間成本。此外,自動駕駛汽車上的計算設(shè)備具有有限的計算能力和存儲空間。因此,構(gòu)建高效且可擴(kuò)展的深度網(wǎng)絡(luò)模型至關(guān)重要。
常用數(shù)據(jù)集
室外語義分割數(shù)據(jù)集:
  1. Semantic3D
  2. Oakland
  3. IQmulus
  4. Paris-Lille-3D
室外目標(biāo)物檢測數(shù)據(jù)集:
  1. KITTI 3D Object Detection Evaluation 2017
  2. KITTI Bird's Eye View Evaluation 2017
  3. nuScenes
  4. Waymo
  5. Lyft
  6. apolloscape
目標(biāo)分類數(shù)據(jù)集:
  1. SYDNEYURBAN OBJECTS DATASET
室內(nèi)場景數(shù)據(jù)集:
  1. The Stanford Large-Scale 3D Indoor Spaces Dataset     (S3DIS)
  2. Richly-annotated     3D Reconstructions of Indoor Scenes (ScanNet)
  3. SUN RGB-D: A RGB-D Scene Understanding Benchmark     Suite
  4. NYU Depth Dataset V2

通用3D深度學(xué)習(xí)模型
本篇綜述分析了一些先驅(qū)性的3D深度學(xué)習(xí)模型,這些模型致力于解決上述的LiDAR點(diǎn)云所面臨的問題。此外,它們穩(wěn)定高效的性能使其適合用作構(gòu)建分割、檢測、和分類網(wǎng)絡(luò)的backbone。盡管LiDAR采集的3D數(shù)據(jù)通常以點(diǎn)云的形式出現(xiàn),但是如何表示點(diǎn)云以及用那種深度學(xué)習(xí)模型去分割,檢測,和分類仍然是一個未解決的問題。目前大多數(shù)3D深度學(xué)習(xí)網(wǎng)絡(luò)主要集中在以體素(voxel),點(diǎn)云(point cloud),圖(graph),和視圖(view)等四種點(diǎn)云表示方式來構(gòu)建網(wǎng)絡(luò)。
(1)基于體素(voxel)的深度學(xué)習(xí)網(wǎng)絡(luò)
傳統(tǒng)上,卷積神經(jīng)網(wǎng)絡(luò)(CNN)主要應(yīng)用于具有規(guī)則結(jié)構(gòu)的數(shù)據(jù),例如二維像素陣列。因此,為了將CNN應(yīng)用于無序3D點(diǎn)云,通常將點(diǎn)云數(shù)據(jù)劃分為具有一定大小的規(guī)則網(wǎng)格,以描述其在三維空間中的分布。通常,網(wǎng)格的大小與數(shù)據(jù)的分辨率有關(guān)。基于體素的表示的優(yōu)勢在于,它可以通過將被占用的體素分類為幾種類型(例如可見,遮擋或自遮擋)來對三維形狀和視點(diǎn)信息進(jìn)行編碼。此外,還可以在體素網(wǎng)格中直接應(yīng)用3D卷積(Conv)和池化(pooling)操作。
但是基于體素的3D數(shù)據(jù)表示存在以下局限性:
  • 首先,并不是所有體素都有用,因?yàn)樗鼈儼瑨呙璀h(huán)境中已占用和未占用的部分。因此,對于這種非高效的數(shù)據(jù)表示方式,對計算機(jī)存儲的高需求是不必要的。
  • 其次,網(wǎng)格的大小難以設(shè)置,因?yàn)檫@會影響輸入數(shù)據(jù)的尺度,并可能破壞點(diǎn)與點(diǎn)之間的空間關(guān)系。
  • 第三,計算和存儲需求隨著體素分辨率的增長而立方增長。 因此,現(xiàn)有的基于體素的模型通常保持在低分辨率下,體素的最常用尺寸為303。
更高效的體素數(shù)據(jù)表示法是基于八叉樹(octree)的網(wǎng)格,它們使用自適應(yīng)大小將3D點(diǎn)云劃分為不同的網(wǎng)格。它是一種分層數(shù)據(jù)結(jié)構(gòu),可將根體素遞歸分解為多個葉體素。
2)基于點(diǎn)云(point cloud)的深度學(xué)習(xí)網(wǎng)絡(luò)
與體素數(shù)據(jù)表示不同,點(diǎn)云可以保留點(diǎn)云的三維地理空間信息和內(nèi)部局部結(jié)構(gòu)。此外,以固定步幅掃描空間的基于體素的模型受局部感受野的約束。但是對于點(diǎn)云,輸入數(shù)據(jù)及其度量方式?jīng)Q定了感受野的范圍,具有很高的效率和準(zhǔn)確性。
基于點(diǎn)云的深度模型主要集中在解決輸入排列問題。盡管它們在局部尺度上獨(dú)立地處理點(diǎn)以維持置換不變性,但是這種獨(dú)立性忽略了點(diǎn)及其相鄰點(diǎn)之間的幾何關(guān)系,從而導(dǎo)致更高級的局部特征缺失。
(3)基于圖(graph)的深度學(xué)習(xí)網(wǎng)絡(luò)
圖是一種非歐氏數(shù)據(jù)結(jié)構(gòu),可用于表示點(diǎn)云。它們的節(jié)點(diǎn)對應(yīng)于每個輸入點(diǎn),并且邊表示每個相鄰點(diǎn)之間的關(guān)系。圖神經(jīng)網(wǎng)絡(luò)以迭代的方式傳播節(jié)點(diǎn)狀態(tài)直到達(dá)到平衡。隨著CNN的發(fā)展,越來越多的圖卷積網(wǎng)絡(luò)被應(yīng)用于三維數(shù)據(jù)。這些圖卷積網(wǎng)絡(luò)在光譜和非光譜(空間)域中直接在圖上定義卷積,對空間上緊密相鄰的組進(jìn)行操作。基于圖的深度學(xué)習(xí)模型的優(yōu)點(diǎn)是能夠探索點(diǎn)及其相鄰點(diǎn)之間的幾何關(guān)系。但是,構(gòu)建基于圖的深度模型存在以下兩個挑戰(zhàn):
  • 首先,定義一個適合于動態(tài)鄰域大小的CNN,并維護(hù)CNN的權(quán)重共享機(jī)制。
  • 其次,探索每個節(jié)點(diǎn)鄰域之間的空間和幾何關(guān)系。
(4)基于視圖(view)的深度學(xué)習(xí)網(wǎng)絡(luò)
LiDAR點(diǎn)云數(shù)據(jù)的最后一種表示類型是從不同方向的3D點(diǎn)云獲得的2D視圖。借助投影的二維視圖,可以利用傳統(tǒng)完善的CNN和圖像數(shù)據(jù)集上的預(yù)訓(xùn)練網(wǎng)絡(luò),例如AlexNet、VGG、GoogLeNet、和ResNet 等。與基于體素的模型相比,這些方法可以通過對感興趣的對象或場景進(jìn)行多視圖查看,然后對輸出進(jìn)行融合或投票以進(jìn)行最終預(yù)測,從而提高不同3D任務(wù)的性能。與上述三種不同的點(diǎn)云數(shù)據(jù)表示相比,基于視圖的模型可以實(shí)現(xiàn)近乎最佳的結(jié)果。與點(diǎn)云和體素數(shù)據(jù)表示模型相比,即使不使用預(yù)訓(xùn)練模型,多視圖方法也具有最佳的泛化能力。基于視圖的模型的優(yōu)勢可以歸納如下:
  • 效率。與點(diǎn)云或體素網(wǎng)格等3D數(shù)據(jù)表示相比,減少的一維信息可以大大降低計算成本,但分辨率更高。
  • 可以利用已有的2D CNN和數(shù)據(jù)集。現(xiàn)有的2D深度學(xué)習(xí)網(wǎng)絡(luò)可以更好地利用投影的2D視圖圖像中的局部和全局信息。此外,現(xiàn)有的圖像數(shù)據(jù)集(如ImageNet)可用于訓(xùn)練2D深度網(wǎng)絡(luò)。
但是,基于視圖的模型存在一些限制:
  • 首先,從3D空間到2D視圖的投影可能會丟失一些幾何相關(guān)的空間信息。
  • 第二個是多個視圖之間存在冗余信息。
點(diǎn)云深度學(xué)習(xí)在無人車中的應(yīng)用
1.點(diǎn)云語義分割
2.目標(biāo)檢測
3.目標(biāo)分類
點(diǎn)云研究挑戰(zhàn)與機(jī)遇
(1) 多源數(shù)據(jù)融合:為了彌補(bǔ)3D點(diǎn)云中語義和紋理信息的缺失和彌補(bǔ)不完整的點(diǎn)云信息,圖像、LiDAR點(diǎn)云、和radar數(shù)據(jù)可以融合在一起為自動駕駛汽車導(dǎo)航和決策提供準(zhǔn)確、具有地理參考、和信息豐富的提示。此外,低端LiDAR(例如Velodyne HDL-16E)和高端LiDAR(例如Velodyne HDL-64E)采集的數(shù)據(jù)之間也存在融合問題。但是,融合這些數(shù)據(jù)存在一些挑戰(zhàn)。首先是點(diǎn)云的稀疏性導(dǎo)致融合多源數(shù)據(jù)時數(shù)據(jù)不一致和丟失。第二個問題是,現(xiàn)有的基于深度學(xué)習(xí)數(shù)據(jù)融合方案是在單獨(dú)的流程中處理的,而不是端到端方案。
(2) 魯棒性的點(diǎn)云數(shù)據(jù)表示:非結(jié)構(gòu)化和無序的數(shù)據(jù)格式對3D深度學(xué)習(xí)的應(yīng)用產(chǎn)生了巨大的挑戰(zhàn)。盡管有幾種有效的數(shù)據(jù)表示,例如體素、點(diǎn)云、圖、視圖或新穎的3D數(shù)據(jù)表示方式,但目前尚未就魯棒且高效存儲的3D數(shù)據(jù)表示達(dá)成共識。例如,盡管體素解決了排序問題,但是計算成本隨著體素分辨率的增加而立方增加。對于點(diǎn)云和圖,置換不變性和計算能力限制了點(diǎn)的可處理數(shù)量,這不可避免地限制了深層模型的性能。
(3) 有效且高效的3D深度學(xué)習(xí)框架:由于自動駕駛汽車計算能力的限制,有效和高效的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建至關(guān)重要。盡管現(xiàn)有3D模型中有重大改進(jìn),例如PointNet,PointNet ++,PointCNN,DGCNN,RotationNet等。但很少有模型可以同時實(shí)現(xiàn)魯棒性的實(shí)時分割、檢測和分類任務(wù)。
(4) 上下文知識提取:由于點(diǎn)云的稀疏性和所掃描對象的不完整性,目標(biāo)對象的詳細(xì)上下文信息沒有被深度學(xué)習(xí)網(wǎng)絡(luò)充分利用。例如,交通標(biāo)志中的語義信息是自動駕駛汽車導(dǎo)航的關(guān)鍵線索,但是現(xiàn)有的深度模型無法完全從點(diǎn)云中提取此類信息。因而,有些方法利用多尺度特征融合策略以進(jìn)行上下文信息提取。此外,生成式對抗網(wǎng)絡(luò)(GAN)也可以用來提高3D點(diǎn)云的完整性。但是,這些框架無法以端到端的可訓(xùn)練方式解決上下文信息提取的稀疏性和不完整性問題。
(5) 多任務(wù)學(xué)習(xí):LiDAR點(diǎn)云可以應(yīng)用在自動駕駛汽車相關(guān)的幾個任務(wù),例如場景分割,目標(biāo)檢測(例如汽車,行人,交通信號燈等)和分類(例如道路標(biāo)記和交通標(biāo)志)。這些結(jié)果通常被融合在一起報告給決策系統(tǒng)以進(jìn)行最終控制。盡管有一些深度學(xué)習(xí)模型將這些任務(wù)組合在一起完成。但它們之間的信息沒有得到充分利用,并不能以更少的計算來生成更好的模型。
(6)弱監(jiān)督/無監(jiān)督學(xué)習(xí):現(xiàn)有的深度學(xué)習(xí)模型通常是在監(jiān)督模式下使用帶有3D對象邊界框或帶標(biāo)簽的點(diǎn)進(jìn)行訓(xùn)練測試。但是,這是基于監(jiān)督學(xué)習(xí)的模型存在一些限制。首先是高質(zhì)量、大規(guī)模、龐大的通用對象數(shù)據(jù)集的有限可用性。其次是,監(jiān)督學(xué)習(xí)的模型對非常見或未經(jīng)訓(xùn)練的對象的泛化能力較弱。 
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
下載1
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
三維點(diǎn)云分割綜述(下)
今天來給大家介紹一下三維點(diǎn)云分割方法發(fā)展史
LaserMix: 利用結(jié)構(gòu)先驗(yàn)的半監(jiān)督LiDAR點(diǎn)云分割框架
新論文:傾斜攝影點(diǎn)云+深度學(xué)習(xí)=城市風(fēng)環(huán)境自動化模擬
深度 | CVPR 2016谷歌論文全收錄:直擊谷歌計算機(jī)視覺研究最新動態(tài)(附論文)
今天來聊一聊深度學(xué)習(xí)技術(shù)在點(diǎn)云分割中的應(yīng)用
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 贡嘎县| 西乌珠穆沁旗| 开平市| 故城县| 儋州市| 固镇县| 师宗县| 洮南市| 扎鲁特旗| 交口县| 威远县| 青龙| 郁南县| 板桥市| 富阳市| 台山市| 鄂州市| 大姚县| 唐海县| 菏泽市| 开平市| 宁津县| 年辖:市辖区| 辽阳县| 宁国市| 宜州市| 蓬溪县| 扎囊县| 乐山市| 滕州市| 莱芜市| 大连市| 察哈| 巴南区| 卓尼县| 朝阳市| 双鸭山市| 连江县| 炎陵县| 玉溪市| 嵩明县|