多樣化的點(diǎn)云密度和反射強(qiáng)度:由于LiDAR的掃描模式,點(diǎn)云物體的密度和強(qiáng)度變化很大。這兩個特征的分布高度取決于物體與LiDAR傳感器之間的距離。此外,LiDAR傳感器的功能,掃描的時間限制和所需的分辨率也會影響其分布和強(qiáng)度。 噪聲:所有傳感器都有噪聲。LiDAR有幾種類型的噪聲包括點(diǎn)擾動和離群值。這意味著一個點(diǎn)可能存在于被采樣(擾動)點(diǎn)周圍一定半徑的球體內(nèi),或者它可能出現(xiàn)在空間中的隨機(jī)位置。 不完整性:LiDAR獲得的點(diǎn)云通常是不完整的。這主要是由于物體之間的遮擋,城市場景中背景的混亂,和材料表面反射率不理想所致。這樣的問題在實(shí)時捕獲運(yùn)動對象時非常嚴(yán)重,導(dǎo)致這些被掃描運(yùn)動對象點(diǎn)云數(shù)據(jù)存在較大的空洞和嚴(yán)重的欠采樣。 類別混亂。在自然環(huán)境中掃描的形狀相似或反射性相似的物體對目標(biāo)檢測和分類會產(chǎn)生干擾。例如,一些人工制作的目標(biāo)物如廣告牌和路牌的相似度就很高。
排列和方向不變挑戰(zhàn):與二維柵格像素相比,LiDAR點(diǎn)云是一組具有不規(guī)則順序且沒有特定方向的點(diǎn)。在同一組輸入的N個點(diǎn),網(wǎng)絡(luò)應(yīng)對輸入的N!種排列保持不變。此外,對于缺少方向性的點(diǎn)云數(shù)據(jù),目標(biāo)識別面臨很大的挑戰(zhàn)。 剛性變化挑戰(zhàn)。點(diǎn)集之間存在各種剛性變換,例如3D旋轉(zhuǎn)和3D平移。這些轉(zhuǎn)變不應(yīng)影響網(wǎng)絡(luò)的性能。 大數(shù)據(jù)挑戰(zhàn)。LiDAR在不同城市的自然場景中收集數(shù)百萬至數(shù)十億個點(diǎn),例如,在KITTI數(shù)據(jù)集中,由3D Velodyne激光掃描儀捕獲的每一幀都包含10萬個點(diǎn),其收集的最小場景為114幀,超過1000萬個點(diǎn)。這樣的數(shù)據(jù)量給數(shù)據(jù)存儲和處理帶來困難。 精度挑戰(zhàn)。準(zhǔn)確感知道路物體對于自動駕駛汽車至關(guān)重要。但是,類類和類間對象的變化以及數(shù)據(jù)質(zhì)量都對準(zhǔn)確性提出了挑戰(zhàn)。例如,就各種材料、形狀、和大小而言,同一類別中的對象具有不同的場景實(shí)例。此外,構(gòu)建的模型應(yīng)對點(diǎn)云數(shù)據(jù)分布不均、稀疏、和缺失具有魯棒性。 效率挑戰(zhàn)。與二維圖像相比,處理大量的點(diǎn)云會產(chǎn)生較高的計算復(fù)雜度和時間成本。此外,自動駕駛汽車上的計算設(shè)備具有有限的計算能力和存儲空間。因此,構(gòu)建高效且可擴(kuò)展的深度網(wǎng)絡(luò)模型至關(guān)重要。
首先,并不是所有體素都有用,因?yàn)樗鼈儼瑨呙璀h(huán)境中已占用和未占用的部分。因此,對于這種非高效的數(shù)據(jù)表示方式,對計算機(jī)存儲的高需求是不必要的。 其次,網(wǎng)格的大小難以設(shè)置,因?yàn)檫@會影響輸入數(shù)據(jù)的尺度,并可能破壞點(diǎn)與點(diǎn)之間的空間關(guān)系。 第三,計算和存儲需求隨著體素分辨率的增長而立方增長。 因此,現(xiàn)有的基于體素的模型通常保持在低分辨率下,體素的最常用尺寸為303。
首先,定義一個適合于動態(tài)鄰域大小的CNN,并維護(hù)CNN的權(quán)重共享機(jī)制。 其次,探索每個節(jié)點(diǎn)鄰域之間的空間和幾何關(guān)系。
效率。與點(diǎn)云或體素網(wǎng)格等3D數(shù)據(jù)表示相比,減少的一維信息可以大大降低計算成本,但分辨率更高。 可以利用已有的2D CNN和數(shù)據(jù)集。現(xiàn)有的2D深度學(xué)習(xí)網(wǎng)絡(luò)可以更好地利用投影的2D視圖圖像中的局部和全局信息。此外,現(xiàn)有的圖像數(shù)據(jù)集(如ImageNet)可用于訓(xùn)練2D深度網(wǎng)絡(luò)。
首先,從3D空間到2D視圖的投影可能會丟失一些幾何相關(guān)的空間信息。 第二個是多個視圖之間存在冗余信息。