日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

深度霍夫投票在點云3D物體檢測中的應(yīng)用

2021-03-24 11:04:54·  來源:同濟智能汽車研究所  
 
編者按:基于點云的3D目標檢測是自動駕駛系統(tǒng)重要的一環(huán)。3D目標檢測的目的是對3D場景中的對象進行定位和識別。更具體地說,在這項工作中,我們的目標是估計定向
編者按:基于點云的3D目標檢測是自動駕駛系統(tǒng)重要的一環(huán)。3D目標檢測的目的是對3D場景中的對象進行定位和識別。更具體地說,在這項工作中,我們的目標是估計定向的3D邊界框以及點云對象的語義類。與2D圖像相比,3D點云具有精確的幾何形狀和對光照變化的魯棒性。但是,點云是不規(guī)則的。因此,典型的CNN不太適合直接處理點云數(shù)據(jù)。在這項工作中,我們提出一個直接處理原始數(shù)據(jù)、不依賴任何2D檢測器的點云3D檢測框架。這個檢測網(wǎng)絡(luò)稱為VoteNet,是點云3D深度學習模型的最新進展,并受到用于對象檢測的廣義霍夫投票過程的啟發(fā)。

本文譯自:
《DEEP HOUGH VOTING FOR 3D OBJECT DETECTION IN POINT CLOUDS》
文章來源:
International Journal of Aotumotive Technology,Vol.20,No.5,pp.1033-1042(2019)
作者:
Charles R. Qi 1 Or Litany 1 Kaiming He 1 Leonidas J. Guibas 1,2
原文鏈接:
https://arxiv.org/abs/1904.08963v1

摘要:當前的3D目標檢測方法受2D檢測器的影響很大。為了利用2D檢測器的架構(gòu),它們通常將3D點云轉(zhuǎn)換為規(guī)則的網(wǎng)格,或依賴于在2D圖像中檢測來提取3D框。很少有人嘗試直接檢測點云中的物體。在這篇論文中,研究人員回歸第一原則,為點云數(shù)據(jù)構(gòu)建了一個盡可能通用的3D檢測架構(gòu)。然而,由于數(shù)據(jù)的稀疏性,直接從場景點預(yù)測邊界框參數(shù)時面臨一個主要挑戰(zhàn):一個3D物體的質(zhì)心可能遠離任何表面點,因此很難用一個步驟準確地回歸。為了解決這一問題,我們提出了VoteNet,這是一個基于深度網(wǎng)絡(luò)和霍夫投票的端到端3D目標檢測網(wǎng)絡(luò)。該模型設(shè)計簡單,模型尺寸緊湊,而且效率高,在ScanNet和SUN RGB-D兩大真實3D掃描數(shù)據(jù)集上實現(xiàn)了最先進的3D檢測精度。值得一提的是,VoteNet不依賴彩色圖像,使用純幾何信息。

關(guān)鍵詞:自動駕駛汽車,深度學習,目標檢測,霍夫投票

1 引言

為了避免處理不規(guī)則點云,目前的3D檢測方法在很多方面都嚴重依賴基于2D的檢測器。例如,將Faster/Mask R-CNN等2D檢測框架擴展到3D,或者將點云轉(zhuǎn)換為常規(guī)的2D鳥瞰圖像,然后應(yīng)用2D檢測器來定位對象。然而,這會犧牲幾何細節(jié),而這些細節(jié)在雜亂的室內(nèi)環(huán)境中可能是至關(guān)重要。

深度霍夫投票在點云3D物體檢測中的應(yīng)用
圖1 基于深度霍夫投票模型的點云3D目標檢測

我們利用了 PointNet++,這是一個用于點云學習的分層深度網(wǎng)絡(luò),以減少將點云轉(zhuǎn)換為規(guī)則結(jié)構(gòu)的需要。通過直接處理點云,不僅避免了量化過程中信息的丟失,而且通過僅對感測點進行計算,利用了點云的稀疏性。

雖然PointNet++在對象分類和語義分割方面都很成功,但很少有研究使用這種架構(gòu)來檢測點云中的3D對象。

一個簡單的解決方案是遵循2D檢測器的常規(guī)做法,并執(zhí)行密集物體提案,即直接從感測點提出3D邊界框。然而,點云的固有稀疏性使得這種方法不適宜。在圖像中,通常在目標中心附近存在一個像素,但在點云中卻不是這樣。由于深度傳感器僅捕獲物體的表面,因此3D物體的中心很可能在遠離任何點的空白空間中。因此,基于點的網(wǎng)絡(luò)很難在目標中心附近聚集場景上下文。簡單地增加感知域并不能解決這個問題,因為當網(wǎng)絡(luò)捕獲更大的上下文時,它也會導致包含更多的附近的對象和雜物。

為此,我們提出賦予點云深度網(wǎng)絡(luò)一種類似于經(jīng)典霍夫投票的投票機制。通過投票,我們基本上生成了靠近對象中心的新的點,這些點可以進行分組和聚合,以生成提案。與傳統(tǒng)的多獨立模塊、難以聯(lián)合優(yōu)化的霍夫投票相比,VoteNet是端到端優(yōu)化的。具體來說,在通過主干點云網(wǎng)絡(luò)傳遞輸入點云之后,我們對一組種子點進行采樣,并根據(jù)它們的特征生成投票。投票的目標是到達目標中心。因此,投票集群出現(xiàn)在目標中心附近,然后可以通過一個學習模塊進行聚合,生成提案。其結(jié)果是一個強大的3D物體檢測器,它是純幾何的,可以直接應(yīng)用于點云。

我們在兩個具有挑戰(zhàn)性的3D目標檢測數(shù)據(jù)集上評估了我們的方法:SUN RGB-D數(shù)據(jù)集和 ScanNet數(shù)據(jù)集。在這兩個數(shù)據(jù)集上,僅使用幾何信息的VoteNet明顯優(yōu)于使用RGB和幾何甚至多視圖RGB圖像的現(xiàn)有技術(shù)。我們的研究表明,投票方案支持更有效的上下文聚合,并驗證了當目標中心遠離目標表面時,VoteNet能夠提供最大的改進??傊覀児ぷ鞯呢暙I是:

在通過端到端可微架構(gòu)進行深度學習的背景下,重新制定了霍夫投票,稱之為VoteNet。在SUN RGB-D和ScanNet兩個數(shù)據(jù)集上實現(xiàn)了最先進的3D目標檢測性能。深入分析了投票在點云3D目標檢測中的重要性。

2 相關(guān)工作

由于直接 3D 場景識別的復雜性,許多方法都采用某些投影。比如在MV3D和VoxelNet,3D數(shù)據(jù)在進入其他模塊前先降維為鳥瞰圖,通過先處理2D輸入來減少搜索空間的維度被Frustum PointNets[34]和[20]所采用。類似地,[16]利用3D投影驗證了一個分割假設(shè)。最近,PointRCNN和GSPN使用點云深度網(wǎng)絡(luò)來檢測3D物體。

物體檢測中的霍夫投票:最初在50年代后期推出,霍夫變換將點樣本中檢測圖案轉(zhuǎn)化為在參數(shù)空間中檢測峰值。廣義霍夫進一步拓展到以圖象補丁為指標預(yù)測復雜物體的存在性。使用霍夫投票的例子包括[24]的開創(chuàng)性工作,它介紹了3D點云的平面提取和隱式形狀模型以及6D姿態(tài)估計。

霍夫投票也和最新技術(shù)相結(jié)合。[30]中,投票被分配以不同的權(quán)重,該權(quán)重通過最大值框架學習得到。[8,7]將霍夫森林引入目標檢測。最近,[15]通過使用深度特征提取構(gòu)建代碼本的方式提高了6D位姿估計。[31]也是利用深度特征構(gòu)建的代碼本提高了MRI的語義分割。[14]中,經(jīng)典霍夫算法應(yīng)用于在汽車標志中提取圓形圖案,隨后被輸入到一個分類網(wǎng)絡(luò)。[33]提出2D實例分割的子流行卷積,這也和霍夫投票有關(guān)。還有些工作使用霍夫投票來進行3D物體檢測[50, 18, 47, 19],但都采用了和2D檢測器類似的模塊。

點云上的深度學習:最近設(shè)計適合點云的網(wǎng)絡(luò)架構(gòu)的研究越來越多[35, 36, 43, 1, 25, 9, 48, 45, 46, 22, 17,53, 52, 49, 51],在3D物體分類、部分分割以及場景分割上性能卓越。在3D目標檢測領(lǐng)域,VoxelNet[55]通過學習體素中的點來編碼體素特征,而[34]用 PointNet在2D邊界框切割出的平截頭體的點云來定位對象。然而,很少有研究提出如何直接從原始點云中提出和檢測3D物體。

3 深度霍夫投票

傳統(tǒng)的霍夫投票2D檢測器包括離線和在線兩個步驟。首先,給定一系列帶注釋的圖像集,使用存儲在圖像補?。ɑ蛩麄兊奶卣鳎┖退麄兊綄?yīng)物體中心的偏移量之間的映射構(gòu)建一個代碼本。在推理時,從圖像中選擇興趣點來提取周圍的補丁,將這些補丁和代碼本里的補丁相比較,以檢索偏移并計算投票。由于對象補丁傾向于投票一致,因此集群將在目標中心附近形成。最后,通過將集群投票追溯到它們生成的補丁來檢索對象邊界。

我們確定這種技術(shù)非常適合我們感興趣的問題,有兩個方面:

首先,基于投票的檢測比起 RPN 來更適合稀疏數(shù)據(jù),RPN 生成的接近物體中心的提案更可能在一個空的空間,造成額外的計算量。

其次,霍夫投票自底向上的原理,積累少量的局部信息以形成可靠的檢測。

然而,傳統(tǒng)的霍夫投票是由多個獨立的模塊組成的,將其集成到點云網(wǎng)絡(luò)仍然是一個開放的研究課題。為此,我們建議對不同模塊進行以下調(diào)整:

興趣點由深度神經(jīng)網(wǎng)絡(luò)來描述和選擇,而不是依賴手工制作的特性。

投票生成是通過網(wǎng)絡(luò)學習的,而不是使用代碼本。利用更大的感受野,可以使投票減少模糊,從而更有效。此外,還可以使用特征向量對投票位置進行增強,從而實現(xiàn)更好的聚合。

投票聚合是通過可訓練參數(shù)的點云處理層實現(xiàn)的。利用投票功能,網(wǎng)絡(luò)可以過濾掉低質(zhì)量的選票,并生成改進的proposal。

提案的形式是:位置、維度、方向、語義類,都可以直接從聚合特征生成,從而減少了追溯投票起源的需要。

接下來,我們將描述如何將上述所有組件組合成一個名為VoteNet的端到端網(wǎng)絡(luò)。

4 VoteNet架構(gòu)

圖2描述了我們提出的端到端檢測網(wǎng)絡(luò)VoteNet的架構(gòu)。整個網(wǎng)絡(luò)可以分為兩部分:一部分處理現(xiàn)有的點來生成投票;另一部分處理虛擬點——投票來提議和分類對象。

深度霍夫投票在點云3D物體檢測中的應(yīng)用1
圖2 用于點云中3D目標檢測的VoteNet架構(gòu)

(Ⅰ)點云學習投票

給定一個包含N個點和XYZ坐標的輸入點云,一個主干網(wǎng)絡(luò)(使用PointNet++實現(xiàn)),對這些點進行采樣和學習深度特性,并輸出M個點的子集。這些點的子集被視為種子點。每個種子通過投票模塊獨立地生成一個投票。然后將投票分組為集群,并由proposal模塊處理,生成最終的提案。

(Ⅱ)實現(xiàn)細節(jié)

輸入和數(shù)據(jù)增強。輸入到目標檢測網(wǎng)絡(luò)的是隨機采樣的N個點。除了XYZ坐標,我們還包括了每個點的高度特征,代表點到地面的距離。地面高度被估計為所有點高度的1%。為了增強數(shù)據(jù),我們隨機采樣,還在水平方向上隨機翻轉(zhuǎn)點云,繞著垂直軸隨機旋轉(zhuǎn)場景點[−5°,5°],或者隨機縮放[0.9,1.1]。

訓練網(wǎng)絡(luò)。端到端的訓練,使用 Adam 優(yōu)化器,批處理量8和初始學習率0.001。在迭代 80輪后學習率下降10倍,在120輪后再下降10倍。在Volta Quadro GP100 GPU上訓練網(wǎng)絡(luò) SUN RGB-D用了10小時,ScanNetV2用了少于4小時。

推理。我們的VoteNet能夠把整個場景的點云輸入并在一次前向傳播中生成proposal。接著這些proposal經(jīng)過IOU閾值0.25的NMS。評價和[42]一樣采用平均精度。

5 實驗

在這部分我們首先在兩個大型3D室內(nèi)目標檢測基準上,將我們基于霍夫投票的檢測器與之前最先進的方法進行比較。然后,我們提供了分析實驗來了解投票的重要性、不同的投票聚合方法的效果,并展示了我們的方法在緊湊性和效率方面的優(yōu)勢。最后,我們展示了我們的檢測器的定性結(jié)果。論文附錄中提供了更多的分析和可視化。

(Ⅰ)和最新方法比較

給定一個包含N個點和XYZ坐標的輸入點云,一個主干網(wǎng)絡(luò)(使用PointNet++實現(xiàn)),對這些點進行采樣和學習深度特性,并輸出M個點的子集。這些點的子集被視為種子點。每個種子通過投票模塊獨立地生成一個投票。然后將投票分組為集群,并由proposal模塊處理,生成最終的提案。

SUN RGB-D [40]是用于三維場景理解單視圖 RGB-D 數(shù)據(jù)集。該數(shù)據(jù)集包含37個類別,其中~5K用于訓練,每一個圖像都標記了完整帶朝向的3D框。我們首先用提供的相機參數(shù)將深度圖像轉(zhuǎn)為點云作為網(wǎng)絡(luò)的輸入。我們在10個類別上遵循標準的評估方式。

ScanNetV2 [5]是一個帶有豐富注釋的3D重建網(wǎng)格的室內(nèi)場景數(shù)據(jù)集。它包含從數(shù)百個房間搜集的~1.2K個訓練樣本,有18個物體類別的語義和實例分割標注。相比于 SUN RGB-D 的部分掃描,ScanNetV2場景更完整,涵蓋更多對象更大區(qū)域。我們采樣重建網(wǎng)格的頂點作為我們的輸入點云。由于ScanNetV2不提供帶朝向的3D框,我們改為預(yù)測正3D框。

方法的對比。我們比較了多種現(xiàn)有方法。深滑動形狀(DSS)[42]和3D-SIS [12]均為3D CNN檢測器,結(jié)合了幾何形狀和RGB特征,使用Faster R-CNN [37]的流程。與DSS、3D-SIS引入復雜的傳感器融合方案相比(將RGB特征投影到3D體素),因此能夠使用多個RGB視圖來提高性能。2D驅(qū)動[20]和F-PointNet[34]是基于2D的3D檢測器,通過檢測圖像來減少三維檢測的搜索空間。梯度點云基于滑動窗口,使用設(shè)計的3D HoG特征的檢測器。MRCNN 2D-3D直接將Mask-RCNN[11]的實例分割結(jié)果投影到3D獲得邊框估計。GSPN[54]是使用生成模型提出對象實例,其也基于PointNet ++骨干。

表1 SUN RGB-D val數(shù)據(jù)集上的3D目標檢測結(jié)果
深度霍夫投票在點云3D物體檢測中的應(yīng)用2

結(jié)果如表1和表2所示。在SUN RGB-D和ScanNet兩個數(shù)據(jù)集中,VoteNet的性能都優(yōu)于先前的方法,分別增加了3.7和18.4mAP。表1表明,當類別是訓練樣本最多的“椅子”時,我們的方法比以前的最優(yōu)方法提高11AP。值得注意的是,我們僅使用幾何信息就實現(xiàn)了這樣的提升,而他們除點云外還使用RGB圖像。表2表明,僅使用幾何輸入時,我們的方法顯著優(yōu)于基于3D CNN的3D-SIS方法,超過了20AP。

表2 ScanNetV2 val數(shù)據(jù)集上的3D目標檢測結(jié)果
深度霍夫投票在點云3D物體檢測中的應(yīng)用3

(Ⅱ)分析實驗

投票好還是不投票好呢?我們采用了一個簡單的基線網(wǎng)絡(luò),稱之為 BoxNet,它直接從采樣的場景點提出檢測框,而不需要投票。BoxNet具有與VoteNet相同的主干,但它不采用投票機制,而是直接從種子點生成框。

表3 VoteNet和no-vote基線的比較
深度霍夫投票在點云3D物體檢測中的應(yīng)用4
那么,投票在哪些方面有幫助呢?我們認為,由于在稀疏的3D點云中,現(xiàn)有的場景點往往遠離目標中心點,直接的proposal可能置信度較低或不準確。投票讓這些低置信度的點更接近,并允許通過聚合來強化它們的假設(shè)。在圖3中,我們在一個典型的ScanNetV2場景中演示了這種現(xiàn)象。從圖中可以看出,與BoxNet(圖左)相比,VoteNet(圖右)提供了更廣泛的 “好” 種子點的覆蓋范圍,顯示了投票帶來的穩(wěn)健性。

深度霍夫投票在點云3D物體檢測中的應(yīng)用5
圖3 投票有助于增加檢測上下文,從而增加了準確檢測的可能性

深度霍夫投票在點云3D物體檢測中的應(yīng)用6
圖4 當目標點遠離目標中心的情況下,投票更有幫助

圖6和圖7分別展示了 ScanNet 和 SUN RGB-D 場景中 VoteNet 檢測結(jié)果的幾個代表性例子。可以看出,場景是非常多樣化的,并提出了多種挑戰(zhàn),包括雜亂,噪聲,掃描的偽像等。盡管有這些挑戰(zhàn),我們的網(wǎng)絡(luò)仍顯示出相當強大的結(jié)果。

例如,圖6展示了如何在頂部場景中正確地檢測到絕大多數(shù)椅子。我們的方法能夠很好地區(qū)分左下角場景中連起來的沙發(fā)椅和沙發(fā);并預(yù)測了右下角那張不完整的、雜亂無章的桌子的完整邊界框。

深度霍夫投票在點云3D物體檢測中的應(yīng)用7
圖6 ScanNetV2中3D目標檢測的定性結(jié)果。左:VoteNet 的結(jié)果,右: ground-truth


深度霍夫投票在點云3D物體檢測中的應(yīng)用8
圖7 SUN RGB-D中3D目標檢測的定性結(jié)果。(從左到右):場景的圖像,VoteNet的3D對象檢測,以及ground-truth注釋

6 結(jié)論

在這項工作中,我們介紹了VoteNet:一個簡單但強大的3D對象檢測模型,受到霍夫投票的啟發(fā)。該網(wǎng)絡(luò)學習直接從點云向目標質(zhì)心投票,并學會通過它們的特性和局部幾何信息來聚合投票,以生成高質(zhì)量的 object proposals。該模型僅使用3D點云,與之前使用深度和彩色圖像的方法相比,有了顯著的改進。

在未來的工作中,我們將探索如何將RGB圖像納入這個檢測框架,并在下游應(yīng)用(如3D實例分割) 匯總利用我們的檢測器。我們相信霍夫投票和深度學習的協(xié)同作用可以推廣到更多的應(yīng)用領(lǐng)域,如 6D 姿態(tài)估計、基于模板的檢測等,并期待在這方面看到更多的研究。 
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25