日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網

  • 公眾號
    • 汽車測試網

    • 在線課堂

    • 電車測試

首頁 > 汽車技術 > 正文

高效的深度4D車載雷達里程計方法

2024-08-16 16:22:12·  來源:同濟智能汽車研究所  
 

編者按:本文介紹了一種基于深度學習的4D雷達里程計方法4DRO-Net,旨在提高智能車輛在各種環(huán)境條件下的定位精度和魯棒性。通過利用4D雷達點云的獨特速度信息,本研究解決了傳統傳感器在復雜環(huán)境下的局限,并通過粗到精的層次化優(yōu)化技術,實現了對稀疏點云的有效特征學習和位姿估計。實驗結果表明,4DRO-Net在多個評價指標上超越了現有技術,同時滿足實時處理的要求,為自動駕駛領域提供了一種低成本、高效的解決方案。

本文譯自:

《Efficient Deep-Learning 4D Automotive Radar Odometry Method》


文章來源:

IEEE Transactions on Intelligent Vehicles, Vol. 9, NO. 1, January 2024


作者:

Shouyi Lu1, Guirong Zhuo1, Lu Xiong1, Xichan Zhu1, Lianqing Zheng1, Zihang He1, Mingyu Zhou2, Xinfei Lu2, Jie Bai3


作者單位:

1同濟大學,2上海幾何伙伴智能駕駛有限公司,3浙大城市學院


原文鏈接:

https://ieeexplore.ieee.org/document/10237296


摘要:里程計是智能車輛自主定位的關鍵技術。雖然最近從激光雷達(LiDAR)和攝像頭估計里程計已經取得了進展,但如何從4D雷達這種具有獨特優(yōu)勢的新興傳感器估計里程計還有待觀察。在本研究中,提出了一種基于深度學習的4D雷達里程計方法,名為4DRO-Net。該方法采用基于滑動窗口的從粗到細的分層優(yōu)化技術,以迭代方式估計和細化自動駕駛車輛的姿態(tài)。提出了一種用于4D雷達點云的特征提取網絡,以實現稀疏點云的高效學習。構建了一個初始姿態(tài)生成模塊,用于獲取初始姿態(tài),該姿態(tài)用于扭曲第一個點云并縮短與第二個點云的距離。然后開發(fā)了一個速度感知的注意力代價體模塊,用于關聯扭曲后的第一個點云和第二個點云,以獲取點的運動信息。利用雷達點的速度信息來學習注意力權重,以增強運動信息估計的魯棒性。利用運動信息來回歸校正后的姿態(tài),然后用于細化初始姿態(tài),以獲得更準確的最終姿態(tài)。我們的4D雷達里程計方法在View-of-Delft和內部數據集上的優(yōu)越性能和有效性得到了證明。


關鍵詞:深度雷達里程計,自動駕駛,4D雷達


1 引言


里程計技術是智能車輛自主定位的關鍵技術,也是此類車輛規(guī)劃和決策任務的基礎。里程計使用傳感器捕獲的兩幅連續(xù)圖像或點云來估計兩個幀之間的相對姿態(tài)變換。最近的里程計技術發(fā)展包括利用監(jiān)督或自監(jiān)督學習來執(zhí)行所需任務[1],[2],[3],[4],[5],[6]。然而,大多數現有的里程計方法使用攝像頭或激光雷達傳感器,而這兩種傳感器的缺點,如無法在所有天氣條件下感知、檢測距離短以及高昂的經濟成本,限制了它們在里程計技術中的應用。


4D毫米波雷達作為一種新興傳感器,因其相較于攝像頭和激光雷達的獨特優(yōu)勢,正在學術界和工業(yè)界廣泛受到關注[7],[8],[9],[10],[11],[12]。首先,4D雷達提供了更豐富的場景描述,包括場景中目標的3D位置、雷達截面積(RCS)和徑向相對速度(RRV)測量,其中額外的速度信息有助于在里程計系統中排除動態(tài)點。其次,由于其短波長和高穿透能力,4D雷達能夠在不利的天氣條件(如雨、雪和霧)以及不利的光照條件下穩(wěn)定運行。最后,4D雷達相較于激光雷達具有更低的成本和更小的體積,使其在預算和空間有限的智能車輛中更易于使用。盡管4D雷達具有諸多優(yōu)勢,但基于4D雷達的里程計研究仍然不足。本研究的目的是開發(fā)一種基于學習的里程計方法,使用4D雷達捕獲的點云進行定位。


圖片

圖1. 圖像、藍色激光雷達點云和粉紅色雷達點云之間的視覺比較。雷達點云明顯比激光雷達點云更小且更嘈雜。


在使用4D雷達采集的點云進行里程計學習時,存在三個挑戰(zhàn)。(1)與激光雷達輸出的點云相比,4D雷達點云更稀疏、噪聲更大,且分辨率更低,如圖1所示。具體來說,單幀4D雷達只有幾百個點,僅為激光雷達點數的1%。這種稀疏性顯著增加了穩(wěn)健提取點云特征的難度。(2)由于4D雷達點的稀疏性和噪聲,難以在兩個連續(xù)幀的4D雷達中進行精確的點對點匹配。(3)場景中的動態(tài)物體在各種里程計技術中都是一個普遍的挑戰(zhàn),顯著影響車輛姿態(tài)估計的精度。為了解決這些挑戰(zhàn),并充分利用4D雷達的點云信息,我們提出了一種基于深度學習的4D雷達里程計方法。


為了解決第一個挑戰(zhàn),大多數現有的深度激光雷達里程計研究使用了PointNet[13]、PointNet++[14]以及將3D點云投影到2D深度圖像的方法來提取點云特征[15]。然而,由于激光雷達點云信息的局限性,上述研究僅使用了點云的空間信息。4D雷達點云不僅包含點云的空間信息,還包含速度和雷達截面積(RCS)信息。受到PointNet的啟發(fā),并結合4D雷達的點云信息,本研究為4D雷達提出了一種名為Radar-PointNet的點云特征提取網絡。該網絡通過分別編碼和對來自4D雷達的不同點云信息進行多尺度融合,有效地提取點云特征。


針對第二個挑戰(zhàn),Zheng等人[16]通過在2D深度圖像中提取和匹配關鍵點來實現點對點的對應關系。然而,雷達點云稀疏且噪聲較大,因此無法實現精確的點對應。在本研究中,使用了4D雷達點云的代價體積來獲得兩個點云之間的注意力加權軟對應關系,并直接從描述點云之間軟對應關系的代價體積中回歸姿態(tài)。

為了解決第三個挑戰(zhàn),必須濾除動態(tài)點。Wang等人[17]提出了層次嵌入掩碼來濾除激光雷達點云中的動態(tài)點。然而,對于4D雷達點云而言,特定于點云的速度信息在處理動態(tài)點時具有獨特性。利用4D雷達點云特有的速度信息,我們對點云進行了過濾,并在網絡中提出了一個速度感知的注意力機制模塊,以對來自代價體積的點的移動進行加權。此外,為了充分利用稀疏點云中的信息,構建了一個粗到細的網絡架構,并通過迭代優(yōu)化以獲得更準確的姿態(tài)。


本研究的貢獻如下:


我們開發(fā)了一種從4D雷達數據進行里程計估計的新方法,通過為4D雷達里程計任務開發(fā)了一個完整且高效的框架——4DRO-Net。在該框架中,所有模塊都是完全可微的,因此每個過程不是獨立的,而是通過組合進行優(yōu)化。4DRO-Net使用基于滑動窗口的粗到細的分層優(yōu)化方法,以迭代的方式估計和優(yōu)化姿態(tài)。

在所提出的框架中,提出了一種4D雷達點云特征提取網絡Radar-PointNet,它包括多尺度特征提取、深度特征融合和特征生成策略,以實現與4D雷達點云信息結合的稀疏點云的有效特征提取。

在所提出的框架中,提出了一種新穎的速度感知注意力代價體積網絡,該網絡利用4D雷達點云特有的速度信息對代價體積中的點的運動進行加權,以提高姿態(tài)估計的準確性。

最后,我們的方法在View-of-Delft (VoD) 數據集[18]以及內部數據集上進行了廣泛的評估。我們進行了評估實驗和消融研究,以證明所提出方法的優(yōu)越性和每種技術的有效性。


本文余下部分的結構如下:第二部分介紹相關工作。第三部分詳細介紹所提出的方法。第四部分介紹數據集處理、基準線、評估指標和訓練細節(jié)。第五部分展示了將所提出的方法與其他方法進行比較的實驗結果以及消融研究的結果。


2 相關工作


A.3D點云特征學習方法


通常,3D點云特征學習方法可以分為基于體素的學習方法和基于點的學習方法?;隗w素的學習方法通常將點云轉換為3D網格表示,然后在體素表示上使用經過驗證的2D或3D卷積神經網絡(CNN)來提取3D點云特征。VoxNet[19]是第一個基于體素的學習方法,它使用概率估計來計算3D網格中的占據情況,并隨后使用3D卷積神經網絡處理這些占據的網格。吳等人[20]提出了一種方法,將幾何3D形狀表示為3D體素網格中的二進制概率分布,然后使用卷積網絡進行特征提取。盡管上述方法取得了出色的性能,但由于計算和內存消耗隨著分辨率的增加呈立方增長,這些方法在處理密集3D表示時無法很好地擴展。為了解決這一問題,Gernot等人開發(fā)了OctNet[21],該方法采用混合網格八叉樹結構對點云進行分層劃分,以減少計算和內存成本。同時,體素化過程中信息的丟失是不可避免的。VoxelNet[22]和PointPillars[23]使用神經網絡在體素化過程中從每個網格的點云中提取初始特征向量,盡可能地將原始點云信息存儲在提取的體素特征中,從而減少了體素化過程中信息的丟失。然而,即使引入了神經網絡,在體素化過程中原始結構信息的丟失仍然是不可避免的。通過設計與卷積順序無關的特征提取算子,基于點的學習方法可以省略體素化過程,直接從原始點云中提取特征,從而保留點云的結構信息。PointNet[13]是一種由Charles等人在2016年提出的3D點云特征學習方法,用于直接從非結構化點云中學習點云特征。PointNet++[14]是PointNet的改進版本,它通過構建“采樣-鄰域聚類”的特征學習模型,對場景中的局部區(qū)域點集進行均勻采樣和分割。然而,處理無序、非結構化和不均勻3D點云的分組過程引入了更多的計算量。HPLFlowNet[24]嘗試使用基于格子的插值方法來處理大規(guī)模點云,但與插值相關的誤差是不可避免的。Choy等人[25]提出了全卷積幾何特征,這些特征由3D全卷積網絡在單次傳遞中計算得出。SpinNet[26]引入了一種強大的3D柱狀卷積,用于學習豐富而通用的特征。


上述3D點云特征學習方法是為激光雷達點云設計的;然而,與激光雷達點云相比,4D雷達點云包含額外的速度和雷達截面積(RCS)信息。上述方法均無法有效提取4D雷達點云特征。受到PointNet[13]的啟發(fā),本文提出了一種新穎的4D雷達點云特征提取方法,該方法利用4D雷達點云信息,實現點云特征的多層次提取和深度融合。


B.傳統的點云里程計方法


傳統的點云里程計方法分為兩個步驟:點云對齊和基于對齊結果的當前幀和參考幀姿態(tài)估計。迭代最近點(ICP)算法是最廣泛使用的傳統點云里程計方法。它通過使用最近的歐幾里得距離來建立點之間的對應關系,并求解要匹配的兩個點云的相對姿態(tài)[27]。根據誤差測量的不同,ICP可以分為點對點ICP(P2P-ICP)[28],該方法使用點到點的歐幾里得距離作為誤差測量;點對面ICP(P2Pl-ICP)[29],該方法使用點到面的歐幾里得距離作為誤差測量;強度ICP[30],該方法使用激光雷達反射強度作為誤差測量;以及廣義ICP(GICP)[31],該方法結合了P2P-ICP和P2Pl-ICP。盡管基于ICP的里程計方法在大多數場景中都能取得出色的性能,但當車輛速度較高時,激光雷達點云會發(fā)生畸變,因此會給出錯誤的姿態(tài)估計。為了解決這個問題,現有工作中提出了一種對齊方法,該方法提取點云中的一些關鍵元素[32][33]。Zhang等人[34]提出的激光雷達里程計和地圖構建(LOAM)框架是使用關鍵元素進行對齊的經典方法,該方法基于曲率從激光雷達點云中提取位于鋒利邊緣和平面的特征,并分別將其對齊到邊緣線段和平面特征。Shan等人[35]基于LOAM框架提出了輕量級和地面優(yōu)化的LOAM(LeGO-LOAM)框架。與LOAM框架相比,LeGO-LOAM框架增加了一個點云分割模塊,通過提取地面和分割點來聚類點云,并基于雙平滑性選擇特征點,從而提高了魯棒性。此外,還研究了各種數學性質來描述點云并解決姿態(tài)問題,其中最常見的是法向分布變換(NDT)[36]。與其他方法相比,該方法不需要建立顯式的點或特征之間的對應關系,但仍然存在嚴重依賴初始姿態(tài)的缺點。


C.基于深度學習的點云里程計方法


近年來,基于深度學習的點云里程計方法迅速發(fā)展,在準確性和實時性方面均取得了出色的性能。深度學習能夠更好地學習特征表示,使其在應對具有挑戰(zhàn)性的場景時表現得更加穩(wěn)健。Nicolai等人[37]于2016年首次使用深度學習方法來估計連續(xù)點云之間的姿態(tài)變換。他們將激光雷達點云投影到二維平面上,并使用基于圖像的深度學習技術實現激光雷達里程計。Velas等人[38]也將激光雷達點云投影到二維平面上,并使用包含高度、距離和強度的3D向量作為輸入,分別通過卷積神經網絡和全連接層回歸旋轉和位移。Wang等人于2019年提出了DeepPCO[39]。該方法使用全景深度圖像來表示點云,并采用并行化的思路,使用平移子網絡和FlowNet[40]分別估計輸入的連續(xù)點云的平移和旋轉。同年,Li等人提出了LO-Net[41],該網絡以兩個連續(xù)的點云作為輸入,通過估計3D點的法向量構建幾何一致性損失,并構建掩碼預測子網絡以估計不確定性掩碼,從而消除動態(tài)物體的影響。Zheng等人提出的LodoNet[16]將激光雷達點云轉換為圖像空間,然后使用基于圖像的特征提取和匹配方法進行激光雷達里程計。PWCLO-Net[42]提出了一個姿態(tài)扭曲優(yōu)化模塊,以粗到細的方式實現激光雷達里程計的分層優(yōu)化,并通過分層嵌入掩碼優(yōu)化處理各種異常值。EfficientLO-Net[17]提出了一種投影感知的3D點云表示,并基于這種點云表示構建了一個用于激光雷達里程計任務的金字塔、扭曲和代價體積(PWC)結構,以粗到細的方式估計和優(yōu)化姿態(tài)。TransLO[43]引入了一種創(chuàng)新的、基于窗口的端到端掩碼點轉換器網絡,專為大規(guī)模激光雷達里程計設計。該架構通過協同集成卷積神經網絡(CNN)和轉換器框架來提取全面的全局特征嵌入。


3 深度學習4D毫米波汽車雷達里程計


A.綜述



圖片

圖2. 圖1中4D雷達收集的點云信息可視化,包括空間、RRV(徑向相對速度)和RCS(雷達截面積)信息。RCS信息通過點的顏色來表示,顏色代表RCS值。同樣,RRV的可視化也是通過點的顏色來實現,顏色表示RRV值。(a)RCS信息可視化。(b)RRV信息可視化。



問題表述:本研究的主要目的是利用兩個連續(xù)的4D雷達點云來獲得這兩個幀之間的相對姿態(tài)變換。具體來說,給定兩個連續(xù)的點云和,網絡輸出這兩個幀之間的姿態(tài)變換,其中姿態(tài)變換由旋轉和平移組成。在本研究中,旋轉由歐拉角表示,平移由平移向量表示。這里,和表示點的數量。與傳統的僅包含空間信息的點云不同,4D雷達捕獲的點云還包括徑向相對速度(RRV)和雷達截面積(RCS)信息,這些信息共同構成了一個5D特征向量。RRV描述了場景中其他物體相對于自車的運動,而目標的RCS則是截獲雷達發(fā)射信號并將其反射回雷達接收器的假想區(qū)域[44],如圖2所示。



圖片

圖3 所提出的4DRO-Net架構的細節(jié)。該網絡由點特征編碼模塊、初始位姿生成模塊以及矯正位姿生成模塊組成。網絡最終估計的位姿由初始位姿和矯正位姿相乘獲得。(a)在訓練階段,將連續(xù)三幀點云組成的滑動窗口作為網絡的輸入,相鄰點云和分離點云的旋轉損失和平移損失被制定來訓練網絡。(b)在測試階段,將相鄰點云輸入網絡得到點云之間的位姿變換。



整體架構:圖3展示了本研究中提出的4DRO-Net的整體架構。它由特征編碼模塊、初始姿態(tài)生成模塊和校正姿態(tài)生成模塊組成。使用深度學習模型進行里程計訓練的一個缺點是標簽不平衡程度高,即數據集中大多數曲線都是次要曲線,只有少部分曲線是主要曲線。為了解決這個問題,在訓練階段,我們使用當前點云及其前兩幀和形成一個滑動窗口作為網絡的輸入。在滑動窗口中,不僅解決了與之間的姿態(tài)變換,還解決了與之間的姿態(tài)變換。這增加了主要曲線的樣本分布,并使模型能夠更好地訓練。特征編碼模塊對滑動窗口內的每個點云進行特征編碼,生成其相應的點特征和全局特征。初始姿態(tài)生成模塊使用點云全局特征作為輸入對,并估計點云之間的初始歐拉角和初始平移向量。基于初始姿態(tài)變換,校正姿態(tài)生成模塊執(zhí)行姿態(tài)扭曲,然后使用所提出的速度感知注意力代價體積網絡生成代價體積,基于扭曲后的點云及其相應的點特征。代價體積用于回歸校正后的歐拉角和校正后的平移向量。最后,使用校正后的姿態(tài)對初始姿態(tài)進行優(yōu)化,獲得最終的歐拉角和平移向量。對于滑動窗口中的不同點云對,我們設計了網絡以連續(xù)點云損失和間隔點云損失進行訓練。在測試階段,我們只將兩個連續(xù)的幀和輸入到訓練好的網絡中,以獲得這兩個幀之間的姿態(tài)變換。


B.特征編碼網絡


圖片

圖4 特征提取網絡的詳細信息。該網絡由兩大部分組成:深度特征融合模塊和特征生成模塊。輸出每個點的特征和全局特征。


4D雷達點云在3D空間中比激光雷達點云更稀疏且噪聲更大。因此,如果使用像VoxelNet[22]那樣的密集體素,大多數體素網格可能是空的。PointNet[13]作為經典的3D點云特征提取算法,使用共享的多層感知器和最大池化來提取點特征和全局特征,但僅利用了點的空間信息。受到PointNet的啟發(fā),并結合4D雷達點云信息,提出了Radar-PointNet以有效地提取雷達點云特征。圖4展示了所提出的Radar-PointNet網絡,包括深度特征融合模塊和特征生成模塊,具體描述如下。


1)深度特征融合模塊:從4D雷達點云中提取穩(wěn)健的點云特征受限于兩個方面:a)雷達點云信息的復雜性,b)雷達點云的稀疏性。與激光雷達點云相比,4D雷達點云不僅包含空間信息,還包含RRV和RCS信息。RRV和RCS信息尤為重要。RRV描述了周圍物體相對于自車在徑向方向上的速度,這在考慮雷達里程計任務中的動態(tài)點時具有重要價值。RCS值在不同物體之間有顯著差異,從而有助于對每個物體進行全面表征。將所有4D雷達點云信息編碼到同一個特征空間會導致特征復雜性。為了解決這個問題,我們分別使用三個1D卷積、BN(批歸一化)和ReLU層對點云的空間、速度和RCS信息進行編碼,并在三個特征尺度上進行特征拼接以實現深度特征融合。為了解決雷達點云的稀疏性問題,我們提取了點云中每個點的點特征,以對稀疏點云進行細粒度特征提取,從而充分利用場景中的4D雷達點。具體來說,對于輸入的點云,最終的點云融合特征通過以下計算過程得到。



圖片



其中,表示點的位置信息,表示點的速度信息,表示點的強度信息,表示1D卷積,表示ReLU激活函數,表示連接,表示點的位置信息特征提取,表示點的速度信息特征提取,表示點的強度信息特征提取,表示點的位置信息、速度信息以及強度信息的組合特征,表示平均池化函數。


2)特征生成模塊:在獲得最終的點云融合特征后,首先通過平均池化聚合特征,以獲得點云的點特征。基于點特征,在點特征的每個維度上使用1D卷積和最大池化,以獲得最終的全局特征。公式如下:


圖片


其中,和表示點特征聚合過程中生成的中間特征,表示最大池化函數。


C.初始姿態(tài)生成網絡


圖片

圖5 初始位姿生成模塊。該模塊將兩幀點云的全局特征作為輸入,輸出初始旋轉估計和初始平移估計。


將點云的全局特征轉換為兩幀之間全局一致的姿態(tài)變換是一個新的問題。在本小節(jié)中,提出了一種方法,使用兩個點云的全局特征來生成初始姿態(tài)變換。


如圖5所示,初始姿態(tài)生成網絡獲取了需要估計姿態(tài)變換的兩個點云的全局特征和。這些特征隨后被拼接,以進行后續(xù)的空間特征提取??臻g特征的提取通過平均池化來實現,該方法結合了兩個點云的全局特征信息,從而使特征提取網絡能夠有效地進行特征提取。最后,提取的空間特征被映射到一個6自由度(6-DoF)的姿態(tài)變換中。由于旋轉是高度非線性的,我們使用兩組獨立的多層感知器(MLP)對平移和旋轉的映射進行解耦。計算過程如下:


圖片


D.校正姿態(tài)生成模塊


圖片

圖6 矯正位姿生成模塊。該模塊將兩幀點云、點云的點特征以及初始位姿估計作為輸入,經過位姿變換、速度意識的注意力成本量和位姿回歸后輸出矯正旋轉估計和矯正平移估計。


為了在端到端方其中實現粗到細的精細化過程,我們提出了一個校正姿態(tài)生成模塊,以校正初始姿態(tài)并獲得更準確的姿態(tài)。如圖6所示,該網絡包含幾個關鍵組件:姿態(tài)扭曲、速度感知注意力代價體積和校正姿態(tài)回歸。姿態(tài)扭曲過程使用初始姿態(tài)對進行扭曲,以減少和之間的距離。接下來,速度感知注意力代價體積模塊將與扭曲后的關聯起來,并推導出嵌入特征,該特征表征了中每個點的運動信息。最后,應用校正姿態(tài)回歸模塊,以獲取和扭曲后的的校正姿態(tài)。具體過程如下:


1)姿態(tài)扭曲:此過程是使用來自初始位姿生成模塊的歐拉角和平移向量對中每個點進行變換,生成。具體來說,首先將歐拉角轉換為對應的旋轉矩陣。之后,使用旋轉矩陣和平移向量對點云進行變換。扭曲變換的公式如下:


圖片

圖片

圖7. 速度感知注意力代價體積。該模塊以兩個點云的空間信息、速度信息和點特征為輸入。通過注意力加權獲得中每個點的運動信息。最后,該模塊輸出的代價體積特征。


2)速度感知注意力代價體積:如果初始姿態(tài)估計準確,那么和將大致相等。然而,初始姿態(tài)中的誤差僅使更接近而不是。受到文獻[45]的啟發(fā),并結合4D雷達點云特有的速度信息,我們引入了速度感知注意力代價體積,以關聯和,然后基于代價體積生成和之間的校正姿態(tài)。代價體積使用空間和速度信息來關聯兩個點云,以生成代價體積特征。代價體積特征包含中每個點的運動信息,這些信息與校正姿態(tài)直接相關。然而,屬于動態(tài)物體的點對雷達里程計是不利的。速度信息直接反映了雷達點的運動。因此,我們利用雷達點的速度信息來學習注意力權重,對注意力流嵌入進行加權。速度感知注意力代價體積如圖7所示。該模塊的輸入是兩個點云的空間、速度和點特征,和。其中,表示空間信息,表示速度信息,表示由點特征和點云的全局特征組成的特征向量。模型的輸出是第一點云中每個點的運動編碼,其中。這一過程的詳細描述如下。


點的運動編碼可以分為中的點對求取注意力成本量以及中的點對求取注意力成本量兩個過程。在第一個過程中,根據點的空間信息,對中的每個點在中選擇個最近的鄰居點。對中的每個點在中選擇個最近的鄰居點。使用和求取中的點對的注意力成本量。首先,求取用于注意力權重學習的特征向量:


圖片


除了點云的速度信息,我們還使用了點云的空間結構信息,空間結構信息與點的相似性直接相關?;冢⒁饬嘀赜嬎闳缦滤荆?


圖片


其中,表示softmax激活函數,用于歸一化注意力權重。之后,使用兩幀點云的點特征和特征向量構建flow embedding :


圖片


最后,基于和,可獲得中點對的attentive flow embedding:


圖片


這里,表示點乘。在第二個過程中,首先根據的局部3D空間結構信息和速度信息求取用于注意力權重學習的特征向量:


圖片


基于,注意力權重計算如下所示:


圖片


最后,中點的attentive flow embedding如下所示:


圖片


連接中每個點的attentive flow embedding即可得到的運動編碼。


圖片

圖8 修正的姿態(tài)回歸。該模塊將兩幀點云的成本量作為輸入,輸出矯正旋轉估計和矯正平移估計。


3)修正后的姿態(tài)回歸:下一步,基于兩幀點云的成本量,我們提出了一個矯正位姿回歸模塊從成本量中生成矯正位姿。如圖8所示,該模塊首先使用最大池化綜合點云中所有點運動編碼每一維上的信息生成點云的運動特征,之后使用MLP將提取的點云運動特征映射到6-DoF位姿變換,可得到矯正的旋轉估計和矯正的平移向量,該過程如下式所示:


圖片


E.姿態(tài)細化


在本節(jié)中,根據剛體變換組合的基本法則進行兩幀之間最終位姿的求解。更詳細地說,給定一個3幀連續(xù)點云的滑動窗口,根據3.3節(jié)可以獲得連續(xù)點云(consecutive point cloud)和區(qū)間點云(interval point cloud)的初始旋轉估計和初始平移估計,根據3.4.3節(jié)可以獲得連續(xù)點云和區(qū)間點云的矯正旋轉估計和矯正平移估計。最終位姿的求解在下其中給出。

圖片


其中,為歐拉角對應的旋轉矩陣。通過這一過程,我們基于滑動窗口將姿態(tài)從粗糙細化到精細,得到了更準確的最終姿態(tài)估計?;瑒哟翱诘囊氩粌H解決了數據分布不均勻的問題,而且提高了姿態(tài)估計的精度和對大規(guī)模運動的魯棒性。


F.訓練損失


網絡輸出滑動窗口內連續(xù)點云的位姿和區(qū)間點云的位姿。對于每一個位姿,我們設計了旋轉損失和平移損失分別學習點云幀間旋轉和平移分量:


圖片


其中,表示范數,和分別是由真實姿態(tài)變換矩陣生成的真實歐拉角和平移向量。


由于歐拉角和平移向量之間的尺度和單位不同,參考之前的深度里程計工作[41],我們引入了兩個可學習參數和。對于每一個位姿訓練損失函數為:


圖片


因此,在一個滑動窗口內,一個兩階段的監(jiān)督方法的定義如下:


圖片


其中,和為連續(xù)點云在兩階段的姿態(tài)損失函數。和是間隔點云在兩階段的姿態(tài)損失函數。是一個超參數,平衡連續(xù)點云損失函數和間隔點云損失函數的大小。


4 實施


A.數據集


表I 在VOD數據集中,與測試集相對應的幀號

圖片


1)View-of-Delft Automotive Dataset:VoD數據集[18]是從Delft校園、郊區(qū)和老城區(qū)收集的,場景中包含許多動態(tài)對象,如行人和騎自行車的人。數據集包含8682幀,包括相機、激光雷達和4D雷達的數據。每個幀還提供了不同傳感器之間的外部參數轉換和里程計信息?;趲g的數據連續(xù)性,我們將8682幀分成了24個序列。在保持數據分布一致性的前提下,我們選擇了五個序列(00、03、04、07、23)中的1718幀作為測試集,其余序列中的6964幀用作訓練集,按照24個序列中訓練集和測試集的8:2比例。數據集中測試序列對應的幀號見表I。


圖片

圖9. 顯示內部數據集收集場景。為了可視化數據,我們將四維雷達點投影到相應的圖像上,并使用彩色編碼方案表示它們的深度。


2)The In-House Dataset:我們使用了一輛裝備有4D雷達和高精度多源信息組合定位設備的汽車作為數據收集平臺。4D雷達序列以10fps的幀率采集,高精度多源信息組合定位設備輸出的GPS數據以100fps的幀率采集。我們總共收集了11,192幀,分為4個序列,圖9顯示了收集的場景。在所有序列中,我們選擇了序列03和04,共3403幀作為測試集,而其余序列,共7789幀用作訓練集。


B.數據集處理


1)Labels:所提出的方法求出來的兩幀點云之間的位姿變換是在雷達坐標系下。由于VoD數據集提供的ground truth pose是相機坐標系到里程計坐標系的變換矩陣。因此,需要根據VoD數據集提供的4D雷達和相機的外參矩陣將相機坐標系到里程計坐標系的變換矩陣轉換為在雷達坐標系下兩幀點云之間的位姿變換。首先,根據第幀相機坐標系到里程計坐標系的變換矩陣和第幀相機坐標系到里程計坐標系的變換矩陣求得第幀相機坐標系到第幀相機坐標系的變換矩陣:


圖片


接著,根據4D雷達和相機的外參矩陣求得第幀雷達坐標系到第幀雷達坐標系的變換矩陣:


圖片


相同的,我們可以獲得第幀雷達坐標系到第幀雷達坐標系的變換矩陣對滑動窗口中的區(qū)間點云(interval point cloud)之間的位姿變換監(jiān)督訓練。對于自己采集的校園數據集,ground truth pose是由高精度多源信息組合定位設備輸出的GPS數據轉換得到。首先,將GPS數據轉換為在第幀定位設備坐標系到東北天坐標系下的位姿變換矩陣,這里為雷達幀的數目。接著,基于計算第幀定位設備坐標系到第幀定位設備坐標系的變換矩陣:


圖片


最后,根據4D雷達和定位設備的外參矩陣求得第幀雷達坐標系到第幀雷達坐標系的變換矩陣:


圖片


2)Data Augmentation:在VoD數據集中,車輛的左轉場景和右轉場景存在著高度不平衡。深度學習模型高度依賴盡可能完善的數據集,而在VoD數據集中并非如此。為了解決這個問題,我們采用了少量標簽過采樣的方法。通過對訓練集中樣本ground truth pose偏航分量統計分析,我們使用樣本重復的方法來獲得更平衡的數據集。通過這種方式,我們添加了大約1000個用于旋轉的樣本。


VoD數據集中提供的點云速度為速度補償后的絕對速度,而內部數據集中提供的點云速度為原始RRV。為了使兩個數據集的網絡信息輸入保持一致性,我們對內部數據集的點云速度進行了速度補償,并進行了參考[46]。


速度信息是4D雷達點云所特有的點云信息,使用該信息設定合適的速度閾值可以很方便的區(qū)分點云中的靜態(tài)點和動態(tài)點,即速度信息的絕對值大于的點被當作動態(tài)點,反之則為靜態(tài)點。對于每幀點云輸入到網絡的個點,我們優(yōu)先從靜態(tài)點中進行采樣,若靜態(tài)點數量不夠,則從動態(tài)點中采樣足夠數量的點。


3)baseLine:與3D雷達點相比,4D雷達點的空間表示已從二維()轉變?yōu)槿S(),類似于激光雷達點的空間表示。因此,將4D雷達點適應現有的3D雷達里程計方法是一個挑戰(zhàn)。因此,我們選擇了基于3D空間點的里程計方法。我們的比較方法包括三類:基于經典的里程計方法、基于激光雷達的方法和基于4D雷達的方法。在基于經典的里程計方法中,我們比較了幾種經典的基于ICP的里程計方法,包括ICP-point2point [28](ICP-po2po)、ICP-point2plane [29](ICP-po2pl)和GICP [31],以及基于NDT [36]的里程計方法。對于基于激光雷達的方法,我們使用了A-LOAM和LO-Net [41]作為比較算法。A-LOAM是LOAM [34]的高級實現,目前是基于激光雷達點云的同時定位與地圖構建的最佳方法。本研究中提出的算法相當于SLAM系統的前端里程計組件。因此,我們將4D雷達點云適應到A-LOAM框架中,沒有后端優(yōu)化,以獲得基于A-LOAM框架的4D雷達里程計結果,而沒有進行地圖構建。LO-Net是一種基于學習的激光雷達里程計方法,用于訓練和測試集的劃分,以獲得基于LO-Net學習的4D雷達里程計結果。對于基于4D雷達的方法,我們使用了RaFlow [10]和CMFlow [11]作為比較算法。RaFlow通過自監(jiān)督估計4D雷達場景流,將里程計估計作為中間任務。我們使用默認模型參數和我們的數據集分割來訓練網絡。CMFlow通過跨模態(tài)監(jiān)督估計4D雷達場景流、里程計和運動分割,使用GPS/INS來監(jiān)督里程計。我們比較了與CMFlow重疊的測試序列。


4)Metrics:利用相對姿態(tài)誤差(RPE)來量化估計姿態(tài)和地面真實姿態(tài)之間的差異,評估了該方法的性能。RPE通過測量估計姿態(tài)的姿態(tài)變化和地面真實姿態(tài)之間的差值來評估算法的精度,這同時考慮了旋轉和平移誤差。此外,在本研究中,我們對長度為20~160m的所有可能子序列使用了平均平移均方根誤差(RMSE)(m/m)和平均旋轉RMSE(?/m),步長為20 m,以進行比較。


5)Training Details:由于我們的系統中采用了與VoD數據集中使用的不同的4D雷達設備,每個點云內的點數存在相當大的變化。在對VoD和內部數據集上的網絡進行訓練和評估期間,網絡分別輸入了256和512個點,分別記為N。所有的訓練和評估實驗都是在單個NVIDIA 2080Ti GPU上使用Pytorch 1.7完成的。采用了SGD優(yōu)化器,動量(momentum)設為0.9,權重衰減(weight_decay)設為10-4。初始學習率為0.001,每10個epoch后衰減0.1。epoch總數為40,批量大小(batchsize)為8。所有層都使用Xavier分布進行初始化。在公式(15)中,可訓練參數和的初始值分別設為-2.5和0。在公式(16)中,。速度閾值用于區(qū)分動態(tài)點和靜態(tài)點,設為2。


5 試驗結果


在本節(jié)中,我們介紹了四維雷達測程任務的網絡性能的定量和定性結果,并與那些最先進的方法進行了比較。本文報告了一項廣泛的消融研究的結果,以證明每個成分對結果的影響。


A.性能評估


表II 在VOD數據集上的四維雷達測程實驗結果


圖片


VoD數據集上的結果:在表II中展示了對VoD數據集進行定量評估的結果。盡管在密集點云(例如激光雷達)上表現令人滿意,但雷達數據的稀疏性和噪聲性使得現有最先進的方法在雷達數據上難以提供相同的效果。實驗結果表明,與其他方法相比,所提出的方法在幾乎所有指標上都取得了最佳性能。這證實了我們針對4D雷達的架構設計在處理稀疏、嘈雜和低分辨率雷達點云方面的有效性。A-LOAM在00和03序列上沒有完全運行,因為4D雷達點太稀疏了。



圖片

圖10. 在序列00、03、04和07上,使用位姿優(yōu)化的提出方法、不使用位姿優(yōu)化的提出方法、ICP-point2point、GICP、LO-Net、RaFlow、CMFlow 以及沒有進行地圖構建的A-LOAM的軌跡結果。(a)序列00的2D軌跡圖。(b)序列03的2D軌跡圖。(c)序列04的2D軌跡圖。(d)序列07的2D軌跡圖。



圖片

圖11. 在VoD序列00、03、04、07和21上,所有可能的長度為20、40...160米的子序列上的平均平移和旋轉誤差。我們的方法表現最佳。


定性結果在圖10和圖11中展示。圖10展示了我們提出的方法、ICP-point2point、GICP、LO-Net、RaFlow和CMFlow在XY平面上的軌跡。很明顯,所提出的算法的軌跡明顯比其他方法更準確,并且與真實軌跡大致一致。圖11展示了序列00、03、04、07和21的平均段誤差圖。顯然,在平均平移誤差和平均旋轉誤差方面,所提出的方法都明顯優(yōu)于所有其他方法。


表Ⅲ 在內部數據集上的四維雷達測程實驗結果

圖片


圖片

圖12. 提出的方法、未進行地圖構建的A-LOAM和LO-Net在序列00和01上的軌跡結果。(a)序列00的2D軌跡圖。(b)序列01的2D軌跡圖。


圖片

圖13. 在內部序列00、03、04、07和21上,所有可能長度為20、40...160米的子序列上的平均平移和旋轉誤差。我們的方法表現最佳。


內部數據集的結果:內部數據集的定量結果在表III中呈現。在測試集的兩個序列中,我們的方法在相對平移誤差和相對旋轉誤差方面都優(yōu)于其他方法。結果表明,所提出的方法表現出對各種類型4D雷達設備的良好適應性。


定性結果在圖12和圖13中展示。圖12顯示了所提方法、GICP、NDT、LO-Net和RaFlow在XY平面上的軌跡投影。如圖12所示,所提方法的軌跡比其他方法更接近真實軌跡。圖13展示了我們的方法、ICP-po2po、ICP-po2pl和LOAM(無地圖構建)在所有測試序列上的平均平移和旋轉誤差,考慮了從20到160米、每20米為一步的所有可能的子序列。圖13明顯表明,我們的方法實現了最佳的定位性能。


B.消融試驗


為了分析所提方法中每個模塊的有效性,在VoD數據集上進行了消融研究,通過移除或更改模塊組件來完成。訓練和測試條件與第四部分B5節(jié)中描述的相同。


表IV 消融試驗結果

圖片


深度特征融合模塊的效果:我們使用了PointNet[13]的編碼組件來替換所提方法中的深度特征融合模塊。這意味著將4D雷達點云的空間、速度和雷達截面(RCS)信息編碼到同一特征空間中。表IV-a的結果顯示,所提出的深度特征融合模塊基于相對平移誤差和相對旋轉誤差獲得了更好的結果。這是因為,與PointNet相比,深度特征融合模塊分別對點云的空間、速度和RCS信息進行編碼,并在三個特征尺度上融合特征,這有效地避免了不同類型的點云信息的混合以及高強度點云信息對低強度點云信息的掩蓋。


成本體積中速度信息的優(yōu)勢:我們從成本體積中移除了速度信息,以驗證速度信息對于點運動估計的重要性。我們僅使用點云的空間信息作為成本體積的輸入,結果如表IV-b所示。與我們提出的速度感知注意力成本體積相比,僅以點云的空間信息為輸入的成本體積在相對平移誤差和相對旋轉誤差方面的表現都有所下降。在包含更多動態(tài)對象的場景中,如序列03和04,這種下降更為明顯。這是因為引入速度信息為注意力流嵌入提供了注意力加權,從而允許更準確地估計點運動。因此,所提出的速度感知注意力成本體積獲得了最佳結果。


位姿優(yōu)化的效果:我們移除了校正位姿生成模塊和位姿優(yōu)化,這意味著位姿僅通過粗略估計過程來確定。結果在表IV-c中展示,其中相對平移誤差和相對旋轉誤差的性能都顯著降低,這證明了粗到細分層優(yōu)化在位姿回歸中的重要性。我們還在圖10中展示了進行位姿優(yōu)化和不進行位姿優(yōu)化的軌跡。從圖中可以看出,位姿優(yōu)化對旋轉估計有明顯的校正效果,使得估計的軌跡與真實軌跡更加吻合。


C.計算時間


4D雷達點云隨時間被單獨捕獲,處理數據所需的時間是智能車輛實時定位的關鍵參數。我們在VoD數據集的序列04上測試了所提出的方法和比較方法的總計算時間。如表V所示,由于在4D雷達點云中每幀只有大約256個點,因此基于經典方法的測程法的運行時間非常短。本文所述方法的總計算時間為10.82 ms,約為100 Hz。時間戳對齊后,VoD數據集中的4D雷達點云捕獲頻率為10 Hz,即每100 ms捕獲一個點云。該方法對每個點云的處理時間均小于100 ms,足以滿足實時性需求。因此,本研究中提出的方法可以在100 Hz的實時4D雷達測程。


表V 總計算時間

圖片


6 總結


在這項研究中,我們介紹了4DRO-Net,一種設計用于測速的4d雷達網絡。本文提出了一種針對四維雷達點云的特征提取網絡,以實現對四維雷達點云特征的有效學習。提出了一種新的速度感知注意代價體積網絡,以減少動態(tài)對象對姿態(tài)估計的影響。我們的方法實現了一個完全端到端高效的框架,其中一個基于滑動窗口的粗到精細的層次優(yōu)化,用于估計和細化姿態(tài)。在VoD和內部數據集上的實驗證明了該方法的有效性。


據我們所知,本研究是首次使用深度學習方法進行四維雷達測程測量。我們希望這項研究將促進使用4D雷達傳感器,以實現低成本和高度魯棒的測速系統。在未來的工作中,我們將探索使用無監(jiān)督學習和多傳感器融合來實現4D雷達測程法。


參考文獻


圖片

圖片


圖片

圖片



分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25