SGDet3D：基于4D雷達(dá)和相機(jī)的語義和幾何信息融合的3D目標(biāo)檢測方法

2025-02-19 17:38:11· 來源：同濟(jì)智能汽車研究所

編者按：自動(dòng)駕駛環(huán)境感知中，4D毫米波雷達(dá)因其全天候可靠性和成本優(yōu)勢(shì)，正成為激光雷達(dá)的重要替代方案。本期推薦的SGDet3D方法通過創(chuàng)新性的雙分支融合架構(gòu)，解決了雷達(dá)與相機(jī)信息融合中的關(guān)鍵挑戰(zhàn)。該方法設(shè)計(jì)的幾何深度補(bǔ)全和語義雷達(dá)PillarNet兩個(gè)核心模塊，實(shí)現(xiàn)了跨模態(tài)信息的深度互補(bǔ)。特別是其提出的感知交叉注意力機(jī)制，有效增強(qiáng)多模態(tài)特征提取的準(zhǔn)確性。在公開數(shù)據(jù)集的結(jié)果表明，SGDet3D在復(fù)雜場景下展現(xiàn)出優(yōu)異的檢測性能，為自動(dòng)駕駛環(huán)境感知系統(tǒng)的發(fā)展提供了新的研究思路，期待未來在此基礎(chǔ)上能夠發(fā)展出更高效、更可靠的環(huán)境感知解決方案。

本文譯自：

《SGDet3D: Semantics and Geometry Fusion for 3D Object Detection Using 4D Radar and Camera》

文章來源：

IEEE ROBOTICS AND AUTOMATION LETTERS, VOL. 10, NO.1, JANUARY 2025

作者：

Xiaokai Bai1, Zhu Yu1, Lianqing Zheng2, Xiaohan Zhang1, Zili Zhou1, Xue Zhang1, Fang Wang3, Jie Bai3, and Huiliang Shen1

作者單位：

1Zhejiang University，2 Tongji University, 3 Hangzhou City University

原文鏈接：

https://ieeexplore.ieee.org/abstract/document/10783046

摘要：4D毫米波雷達(dá)作為自動(dòng)駕駛的新興傳感器在近年來受到廣泛關(guān)注。然而，現(xiàn)有的4D雷達(dá)和相機(jī)融合模型往往未能充分利用各模態(tài)內(nèi)的互補(bǔ)信息，且缺乏深層的跨模態(tài)交互。為解決這些問題，我們提出了一種新穎的4D雷達(dá)和相機(jī)融合方法SGDet3D，用于3D目標(biāo)檢測。具體而言，我們首先引入了一個(gè)雙分支融合模塊，該模塊采用幾何深度補(bǔ)全和語義雷達(dá)PillarNet，以全面利用每個(gè)模態(tài)內(nèi)的幾何和語義信息。然后，我們引入了一個(gè)面向?qū)ο蟮淖⒁饬δK，該模塊采用位置感知的交叉注意力機(jī)制，通過查詢并關(guān)注鳥瞰圖(BEV)中感興趣的圖像特征，促進(jìn)模態(tài)間的深度交互。我們?cè)赥J4DRadSet和View-of-Delft(VoD)數(shù)據(jù)集上驗(yàn)證了SGDet3D的性能。實(shí)驗(yàn)結(jié)果表明，SGDet3D能有效融合4D雷達(dá)數(shù)據(jù)和相機(jī)圖像，并達(dá)到了最先進(jìn)的性能水平。

關(guān)鍵詞：相機(jī)，目標(biāo)檢測，雷達(dá)，傳感器融合

Ⅰ引言

對(duì)周圍環(huán)境的準(zhǔn)確感知對(duì)自動(dòng)駕駛至關(guān)重要[1]，[2]，其中3D目標(biāo)檢測是最重要的任務(wù)之一。當(dāng)前的3D目標(biāo)檢測模型[3]通常依靠激光雷達(dá)數(shù)據(jù)獲取精確的幾何信息，并依靠相機(jī)獲取豐富的語義信息。然而，激光雷達(dá)成本高昂且在惡劣天氣條件下效果不佳[4]。作為一種經(jīng)濟(jì)且可靠的替代方案，4D毫米波雷達(dá)具有遠(yuǎn)距離探測、速度測量和全天候可靠性等優(yōu)勢(shì)[5]。此外，4D雷達(dá)還包含高程信息，與已經(jīng)能提供目標(biāo)距離、方位角和多普勒速度測量的3D雷達(dá)相比，能提供更高分辨率的點(diǎn)云，這使其在自動(dòng)駕駛感知領(lǐng)域變得越來越具有吸引力。

盡管4D雷達(dá)硬件技術(shù)不斷進(jìn)步，但雷達(dá)點(diǎn)云的噪聲和稀疏特性仍然限制了其性能[8]，這突顯了雷達(dá)-相機(jī)融合的必要性。近期在跨模態(tài)融合方面的進(jìn)展提高了3D目標(biāo)檢測的性能。這些方法要么顯式地進(jìn)行視角轉(zhuǎn)換，要么隱式地利用注意力機(jī)制來聚合圖像特征。

在顯式方法中，BEVFusion[3]通過采用LSS范式[9]將圖像特征展開到鳥瞰圖(BEV)視角，開創(chuàng)了激光雷達(dá)-相機(jī)融合的先河。RCFusion[6]采用正射特征變換(OFT)[10]在預(yù)定義的3D網(wǎng)格中采樣圖像特征，實(shí)現(xiàn)了顯著的4D雷達(dá)和相機(jī)融合效果（見圖1(a)）。LXL[7]通過引入單目深度估計(jì)來支持視角轉(zhuǎn)換，并參考CRN[11]通過占用預(yù)測來利用雷達(dá)空間信息，進(jìn)一步改進(jìn)了RCFusion（見圖1(b)）。然而，這些方法沒有充分利用各模態(tài)內(nèi)的幾何和語義信息來最優(yōu)化地輔助另一分支。具體來說，它們既沒有深入探索雷達(dá)數(shù)據(jù)中的幾何信息來改進(jìn)深度估計(jì)，也沒有充分利用圖像中的語義信息來實(shí)現(xiàn)更有效的多模態(tài)交互。

相比之下，隱式方法使用交叉注意力機(jī)制來聚合透視圖圖像特征。這些方法利用強(qiáng)大的注意力機(jī)制來識(shí)別和融合相關(guān)的語義信息。盡管像FUTR3D[12]和CRAFT[13]這樣的方法采用稀疏查詢進(jìn)行多模態(tài)信息融合，但由于它們沒有構(gòu)建完整的BEV表示，因此無法實(shí)現(xiàn)對(duì)周圍場景的完整感知。此外，查詢與感興趣標(biāo)記之間的相關(guān)性相對(duì)較弱，阻礙了深層的跨模態(tài)交互。

為解決上述問題，本研究提出了一種使用4D雷達(dá)和相機(jī)的深度語義-幾何融合方法用于3D目標(biāo)檢測（見圖1(c)）。我們的方法引入了兩個(gè)模塊，以充分利用各模態(tài)內(nèi)的互補(bǔ)信息并實(shí)現(xiàn)深層的跨模態(tài)交互。

具體而言，我們首先引入了一個(gè)雙分支融合模塊，通過全面利用雷達(dá)豐富的幾何信息來增強(qiáng)圖像分支，并利用圖像豐富的語義信息來增強(qiáng)雷達(dá)分支，以實(shí)現(xiàn)更準(zhǔn)確的語義-幾何信息融合。然后，我們引入了一個(gè)面向?qū)ο蟮淖⒁饬δK，通過允許跨模態(tài)BEV查詢關(guān)注感興趣的圖像標(biāo)記，有效增強(qiáng)了特征提取，從而實(shí)現(xiàn)模態(tài)間的深度交互。在TJ4DRadSet[14]和View-of-Delft(VoD)[15]數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，SGDet3D優(yōu)于其他4D雷達(dá)和相機(jī)融合模型。我們的貢獻(xiàn)可總結(jié)如下：

我們提出了一種新穎的4D雷達(dá)和相機(jī)融合方法SGDet3D，通過充分利用兩種傳感器的互補(bǔ)信息并有效進(jìn)行跨模態(tài)交互來實(shí)現(xiàn)3D目標(biāo)檢測。在公開數(shù)據(jù)集上的實(shí)驗(yàn)表明，我們的方法達(dá)到了最先進(jìn)的性能水平。
我們?cè)O(shè)計(jì)了一個(gè)雙分支融合模塊，包括幾何深度補(bǔ)全(GDC)和語義雷達(dá)PillarNet(SRP)，以全面利用每個(gè)模態(tài)內(nèi)的幾何和語義信息。
我們?cè)O(shè)計(jì)了一個(gè)面向?qū)ο蟮淖⒁饬δK，采用位置感知的交叉注意力(LACA)機(jī)制，增強(qiáng)特征提取并實(shí)現(xiàn)模態(tài)間的深度交互。

圖1. 4D雷達(dá)和相機(jī)融合流程的比較。(a) RCFusion[6]在鳥瞰圖(BEV)空間中融合多模態(tài)雷達(dá)和圖像特征。(b) LXL[7]通過引入圖像深度信息并利用雷達(dá)幾何信息來輔助視角轉(zhuǎn)換(VT)，從而改進(jìn)了RCFusion。(c) 我們的SGDet3D充分利用了各模態(tài)內(nèi)的互補(bǔ)信息，并通過新穎的注意力機(jī)制有效實(shí)現(xiàn)了深層的跨模態(tài)交互。虛線表示跨模態(tài)信息的利用。圖(c)中的紅色虛線突出顯示了LXL與我們的SGDet3D之間的差異。

Ⅱ相關(guān)工作

A. 激光雷達(dá)和雷達(dá)3D目標(biāo)檢測

激光雷達(dá)處理開創(chuàng)了點(diǎn)云應(yīng)用先河，在3D目標(biāo)檢測和分割等任務(wù)中表現(xiàn)出良好的適應(yīng)性。根據(jù)網(wǎng)絡(luò)處理過程中點(diǎn)云的表示方式，基于激光雷達(dá)的3D目標(biāo)檢測方法可分為基于點(diǎn)的[16]、基于柱體的[17]和基于體素的[18]方法。盡管這些方法很有效，但激光雷達(dá)傳感器成本高昂，且在惡劣天氣條件下性能可能會(huì)下降。相比之下，雷達(dá)在這些條件下提供了更好的魯棒性，且更具成本效益[4]，使其成為自動(dòng)感知任務(wù)的重要替代方案。由于雷達(dá)點(diǎn)云的稀疏和噪聲特性，基于雷達(dá)的3D目標(biāo)檢測方法主要使用柱狀特征[19]。RPFA-Net[20]通過基于自注意力的層改進(jìn)了傳統(tǒng)的柱狀特征提取，以更好地捕獲上下文信息，而RadarPillarNet[6]則分別編碼空間、速度和雷達(dá)截面特征，以實(shí)現(xiàn)更好的檢測精度。SMURF[21]通過在骨干網(wǎng)絡(luò)中添加核密度估計(jì)特征進(jìn)一步提升了性能。然而，雷達(dá)點(diǎn)云的噪聲和稀疏特性限制了其性能，這突顯了雷達(dá)-相機(jī)融合的必要性。

B. 雷達(dá)-相機(jī)融合的3D目標(biāo)檢測

基于是否使用注意力機(jī)制來聚合圖像特征，多模態(tài)3D目標(biāo)檢測大致可分為顯式和隱式兩種方法。顯式方法采用LSS[9]或OFT[10]將圖像特征轉(zhuǎn)換到3D空間。BEVFusion[3]開創(chuàng)了在BEV空間中融合跨模態(tài)信息的先河，但在構(gòu)建BEV特征之前并未充分利用模態(tài)特定的特征。RCFusion[6]集成了OFT來提升圖像特征，但它無法區(qū)分投影射線上均等存在的圖像特征。雖然LXL[7]進(jìn)一步利用深度預(yù)測來區(qū)分圖像特征，但未能有效利用雷達(dá)深度圖來改進(jìn)深度估計(jì)。CRN[11]采用LSS并利用雷達(dá)占用率來輔助圖像視角轉(zhuǎn)換，在BEV空間中有效利用了各模態(tài)內(nèi)的互補(bǔ)信息。然而，它未能使用注意力機(jī)制直接聚合透視圖像特征，這阻礙了語義增強(qiáng)。

與顯式方法不同，隱式方法使用交叉注意力來聚合圖像語義。BEVFormer[22]開創(chuàng)性地使用注意力機(jī)制從環(huán)視圖像中提取信息。CRAFT[13]采用空間上下文融合轉(zhuǎn)換器通過雷達(dá)測量來細(xì)化圖像建議，而FUTR3D[12]使用注意力直接融合多個(gè)傳感器的特征用于3D目標(biāo)檢測。然而，這些方法常常遇到查詢難以找到對(duì)應(yīng)標(biāo)記的問題，這主要是由于3D到2D投影中的深度不一致等問題。盡管[23]和[24]緩解了深度維度上的不一致性，但查詢與感興趣圖像標(biāo)記在像素域中的相關(guān)性仍然較弱，這仍然阻礙了模態(tài)間深度交互的性能。

Ⅲ 方法

A. 概述

圖2展示了我們SGDet3D的架構(gòu)，它由四個(gè)模塊組成，包括特征提取模塊、雙分支融合模塊、面向?qū)ο蟮淖⒁饬δK和目標(biāo)檢測模塊。

特征提取模塊從原始數(shù)據(jù)中提取信息。圖像編碼器由ResNet50主干網(wǎng)絡(luò)和特征金字塔網(wǎng)絡(luò)組成。我們用表示提取的2D圖像特征，其中表示通道數(shù)，表示特征分辨率。雷達(dá)編碼器使用來自[6]的RadarPillarNet對(duì)4D雷達(dá)點(diǎn)云進(jìn)行編碼。它生成雷達(dá)鳥瞰圖特征，表示為，其中表示鳥瞰圖空間分辨率。在后續(xù)模塊中，我們保持透視圖和鳥瞰圖的特征維度分別與和保持一致。

在雙分支融合模塊中，我們首先設(shè)計(jì)了幾何深度補(bǔ)全(GDC)模塊，通過深度補(bǔ)全提高深度圖的準(zhǔn)確性，以充分利用雷達(dá)數(shù)據(jù)中的幾何信息來增強(qiáng)圖像分支。然后，我們開發(fā)了語義雷達(dá)PillarNet(SRP)，通過在雷達(dá)坐標(biāo)系下準(zhǔn)確定位3D空間中的圖像特征，為雷達(dá)分支整合語義信息。

在面向?qū)ο蟮淖⒁饬δK中，我們采用位置感知交叉注意力(LACA)機(jī)制，在3D特征空間中顯式定位目標(biāo)，并在注意力機(jī)制中實(shí)現(xiàn)BEV查詢與感興趣圖像標(biāo)記之間的深度跨模態(tài)交互。對(duì)于目標(biāo)檢測模塊，我們采用與PointPillars[17]相同的檢測頭。

圖2. 我們的SGDet3D神經(jīng)網(wǎng)絡(luò)架構(gòu)。(a) 特征提取模塊提取雷達(dá)和圖像特征。(b) 雙分支融合模塊充分利用豐富的雷達(dá)幾何信息來增強(qiáng)圖像分支，利用豐富的圖像語義信息來增強(qiáng)雷達(dá)分支，最終將特征提升到統(tǒng)一的BEV空間。(c) 面向?qū)ο蟮淖⒁饬δK使用交叉注意力機(jī)制，通過與感興趣的圖像標(biāo)記進(jìn)行深度交互，進(jìn)一步增強(qiáng)跨模態(tài)BEV查詢的特征化。(d) 目標(biāo)檢測頭。虛線表示跨模態(tài)信息的深度利用。

B. 雙分支融合模塊

通過我們精心設(shè)計(jì)的圖像分支幾何深度補(bǔ)全(GDC)和雷達(dá)分支語義雷達(dá)PillarNet(SRP)，我們充分利用了各模態(tài)內(nèi)的互補(bǔ)信息，最終獲得了一個(gè)全面的雷達(dá)-相機(jī)鳥瞰圖(RC-BEV)特征。圖像特征首先通過上下文網(wǎng)絡(luò)處理，生成上下文特征和透視圖前景分割掩碼。然后，和雷達(dá)深度被輸入到GDC中。

圖像分支的GDC：如圖3(a)所示，GDC使用鄰域交叉注意力[27]實(shí)現(xiàn)特征交互，獲得離散深度概率。這里，表示預(yù)定義的離散化深度數(shù)量。與BEVDepth[28]和CGFormer[29]類似，我們使用預(yù)測深度和真實(shí)激光雷達(dá)深度之間的Kullback-Leibler散度損失表示為，來監(jiān)督深度估計(jì)。受[30]啟發(fā)，我們通過將損失與中指示的前景概率相乘來自適應(yīng)地關(guān)注前景區(qū)域，從而產(chǎn)生深度損失。

其中和分別表示深度預(yù)測值和來自激光雷達(dá)的深度標(biāo)簽，表示聚焦權(quán)重。對(duì)于前景掩碼的生成，我們使用二元交叉熵?fù)p失進(jìn)行監(jiān)督，可以表示為：

其中和分別是來自Detectron2[31]的處理結(jié)果和真實(shí)2D邊界框掩碼。隨后，我們參照[9]對(duì)和的外積進(jìn)行體素池化，以生成具有幾何感知的圖像鳥瞰圖特征。

雷達(dá)分支的SRP：4D雷達(dá)數(shù)據(jù)缺乏語義信息阻礙了其目標(biāo)檢測能力。OFT[10]可以集成圖像特征來輔助雷達(dá)分支，但它無法區(qū)分投影射線上均等存在的圖像特征。這個(gè)限制導(dǎo)致語義信息使用不當(dāng)。受[7]，[23]啟發(fā)，我們?cè)O(shè)計(jì)了如圖3(b)所示的SRP模塊，以全面利用幾何和語義信息。

具體來說，SRP在雷達(dá)坐標(biāo)系下生成一組預(yù)定義的體素，以及位于其中心的虛擬點(diǎn)。這里，是高度維度上的體素?cái)?shù)量，。對(duì)于第個(gè)點(diǎn)，我們使用外參和內(nèi)參將其投影到透視圖中，以獲得像素索引和離散深度區(qū)間索引。我們使用檢索上下文特征并獲得相應(yīng)的圖像特征。檢索到的特征隨后用于裝飾，得到。第個(gè)點(diǎn)的裝飾特征表示為。

我們注意到，上述處理可能導(dǎo)致單個(gè)特征對(duì)應(yīng)投影射線上的多個(gè)3D點(diǎn)。為了建立正確的上下文-點(diǎn)映射關(guān)系，我們使用從我們的GDC中檢索改進(jìn)的深度預(yù)測，產(chǎn)生從像素發(fā)出的射線上的概率分布。因此，通過在中索引，可以獲得第個(gè)點(diǎn)對(duì)應(yīng)上下文的正確映射概率。通過表示概率，我們通過重新加權(quán)來定位3D空間中的。

因此，我們有效地利用GDC的精確深度來準(zhǔn)確定位3D空間中的豐富語義信息。然后，我們將整合這些圖像特征來輔助雷達(dá)分支。我們首先將從點(diǎn)的形式重塑為規(guī)則張量，以便應(yīng)用我們的柱狀壓縮模塊和后續(xù)卷積。柱狀壓縮模塊由多層感知器組成，旨在減少高度維度并生成具有豐富語義的鳥瞰圖特征。然后從鳥瞰圖特征和雷達(dá)鳥瞰圖中獲得具有語義感知的雷達(dá)鳥瞰圖特征，表示為：

其中conv和concat分別表示卷積和串聯(lián)操作，MLP表示多層感知器。

圖3. 我們的GDC和SRP模塊示意圖。(a) GDC利用雷達(dá)數(shù)據(jù)中的幾何信息來改進(jìn)深度估計(jì)[25]，[26]。(b) SRP利用來自GDC的深度信息，在3D空間中準(zhǔn)確定位豐富的語義信息，以整合語義信息。

C. 面向?qū)ο蟮淖⒁饬δK

在我們的面向?qū)ο蟮淖⒁饬δK中（見圖4），我們創(chuàng)建了一個(gè)判別性的標(biāo)記空間，加強(qiáng)了BEV查詢與感興趣圖像標(biāo)記之間的相關(guān)性，從而促進(jìn)深層的跨模態(tài)交互。

面向?qū)ο蟮?D特征空間創(chuàng)建：為了加強(qiáng)BEV查詢與感興趣圖像標(biāo)記之間的相關(guān)性，我們利用分割掩碼和估計(jì)深度來在3D特征空間中顯式定位目標(biāo)。如圖4(a)所示，我們使用深度概率進(jìn)行深度定位，使用前景掩碼進(jìn)行像素定位。我們首先通過和之間的外積來擴(kuò)展的維度，以在深度維度上定位目標(biāo)對(duì)象，生成。然后我們對(duì)和進(jìn)行點(diǎn)積運(yùn)算，其中是通過在深度維度上擴(kuò)展獲得的，以在像素域中定位目標(biāo)對(duì)象。上述面向?qū)ο蟮?D特征計(jì)算可以表示為：

位置感知交叉注意力：如圖4(b)所示，LACA旨在通過利用中的判別信息來獲得增強(qiáng)的BEV特征。與應(yīng)用于純視覺任務(wù)的[23]不同，我們從跨模態(tài)RC-BEV初始化查詢，該RC-BEV是通過[6]中的融合模塊將和融合而成。然后我們參照[22]將BEV平面上的每個(gè)查詢提升為一個(gè)柱體，并從柱體中采樣3D參考點(diǎn)。隨后，LACA將預(yù)定義的3D錨點(diǎn)作為3D查詢，將3D特征圖擴(kuò)展為3D鍵和值，并通過將這些點(diǎn)投影到特征空間來在3D像素坐標(biāo)系中執(zhí)行可變形注意力。具體來說，對(duì)于位于的3D查詢，我們通過3D可變形交叉注意力機(jī)制獲得優(yōu)化后的查詢。

其中表示從總共個(gè)點(diǎn)中采樣的點(diǎn)的索引，表示相機(jī)投影函數(shù)，用于獲取3D像素空間中的參考點(diǎn)，是可學(xué)習(xí)的注意力權(quán)重，表示投影權(quán)重。表示相對(duì)于參考點(diǎn)的預(yù)測偏移量，表示用于在3D特征空間中采樣特征的三線性插值。與[24]中的單目深度估計(jì)相比，我們的GDC整合了雷達(dá)深度進(jìn)行深度補(bǔ)全，使得在目標(biāo)內(nèi)部沿深度維度的注意力聚合更加有效。此外，引入掩碼通過區(qū)分像素域中的語義進(jìn)一步增強(qiáng)了特征表示。因此，我們獲得了用于檢測頭的增強(qiáng)RC-BEV特征。

圖4. 我們的面向?qū)ο笞⒁饬δK示意圖。我們首先利用分割掩碼和估計(jì)深度，通過像素定位和深度定位在面向?qū)ο蟮?D特征空間中顯式定位目標(biāo)，如左側(cè)虛線所示。然后，我們采用位置感知交叉注意力(LACA)來輔助將感興趣的語義信息聚合到增強(qiáng)的RC-BEV特征中。

D. 損失函數(shù)

除了[6]中的檢測損失之外，我們還使用深度損失和透視圖前景分割損失來監(jiān)督我們的模型?？倱p失表示為：

其中超參數(shù)和分別用于平衡深度損失和分割損失。在本研究中，我們?cè)O(shè)置。

Ⅳ 實(shí)驗(yàn)

A. 實(shí)現(xiàn)細(xì)節(jié)

數(shù)據(jù)集：VoD[15]和TJ4DRadSet[14]數(shù)據(jù)集包含同步的圖像、激光雷達(dá)數(shù)據(jù)和4D雷達(dá)數(shù)據(jù)，以及汽車、行人和騎自行車者的3D標(biāo)注。VoD數(shù)據(jù)集分為5139幀訓(xùn)練數(shù)據(jù)和1296幀驗(yàn)證數(shù)據(jù)。TJ4DRadSet包含7757幀，額外包含卡車的標(biāo)注，覆蓋各種駕駛場景，我們將數(shù)據(jù)集分為5717幀訓(xùn)練數(shù)據(jù)和2040幀測試數(shù)據(jù)。

評(píng)估指標(biāo)：對(duì)于VoD數(shù)據(jù)集，根據(jù)官方建議，我們使用兩個(gè)指標(biāo)：整個(gè)標(biāo)注區(qū)域的3D AP（表示為）和駕駛走廊的3D AP（表示為）。對(duì)于，所有標(biāo)注都用于評(píng)估，不考慮距離。對(duì)于，我們只考慮相機(jī)坐標(biāo)系中特定區(qū)域內(nèi)的標(biāo)注。在AP計(jì)算中，騎自行車者和行人的交并比(IoU)閾值設(shè)為0.25，汽車設(shè)為0.5。IoU閾值用于確定正負(fù)樣本。對(duì)于TJ4DRadset數(shù)據(jù)集，對(duì)雷達(dá)源70米范圍內(nèi)的目標(biāo)評(píng)估3D AP（表示為）和BEV AP（表示為），IoU閾值與VoD數(shù)據(jù)集一致，額外的卡車類別IoU閾值為0.5。

網(wǎng)絡(luò)設(shè)置：對(duì)于VoD數(shù)據(jù)集，體素邊界在、、軸分別限制在(0, 51.2)米、(-25.6, 25.6)米和(-3, 2.76)米。對(duì)于TJ4DRadSet數(shù)據(jù)集，體素邊界在、、軸分別限制在(0, 69.12)米、(-39.68, 39.68)米和(-4, 2)米。此外，每個(gè)體素是邊長為0.16米的立方體。VoD的圖像尺寸處理為896×1408，TJ4DRadSet處理為480×640，離散化深度區(qū)間數(shù)量VoD設(shè)為56，TJ4DRadSet設(shè)為72。兩個(gè)數(shù)據(jù)集的錨框大小與[6]中保持一致。由于TJ4DRadSet未發(fā)布激光雷達(dá)數(shù)據(jù)，我們使用雷達(dá)深度圖作為深度標(biāo)簽。

訓(xùn)練細(xì)節(jié)：我們基于MMDetection3D框架實(shí)現(xiàn)模型。模型在4個(gè)NVIDIA GeForce RTX 4090 GPU上訓(xùn)練，每個(gè)GPU的批量大小為2。我們的訓(xùn)練過程分為兩個(gè)階段。首先，我們分別訓(xùn)練用于深度估計(jì)的圖像分支和用于3D目標(biāo)檢測的雷達(dá)分支。圖像分支繼承了按照[6]在COCO和KITTI數(shù)據(jù)集上預(yù)訓(xùn)練的模型權(quán)重，而雷達(dá)分支權(quán)重從頭開始訓(xùn)練。其次，我們使用上述流程繼承的權(quán)重訓(xùn)練我們的SGDet3D方法。在融合訓(xùn)練期間，我們使用AdamW優(yōu)化器，初始學(xué)習(xí)率為1e-4，總共訓(xùn)練12個(gè)周期。

B. 3D目標(biāo)檢測結(jié)果

VoD數(shù)據(jù)集結(jié)果：表I展示了VoD數(shù)據(jù)集[15]驗(yàn)證集上的3D目標(biāo)檢測結(jié)果。騎自行車者類別的檢測性能在所有模型中保持一致良好。這可能是因?yàn)閿?shù)據(jù)集中大多數(shù)騎自行車者都在運(yùn)動(dòng)，使雷達(dá)能夠測量這些目標(biāo)的徑向多普勒速度，這對(duì)純雷達(dá)和多模態(tài)方法都有益。因此，雷達(dá)對(duì)運(yùn)動(dòng)物體表現(xiàn)出更高的敏感度，即使在單模態(tài)設(shè)置下也能獲得穩(wěn)健的檢測結(jié)果。此外，和之間的差異表明雷達(dá)對(duì)較近物體表現(xiàn)出更優(yōu)的檢測性能，因?yàn)檫@些物體提供了更高密度的檢測點(diǎn)。

此外，整體實(shí)驗(yàn)結(jié)果表明我們的方法在幾乎所有指標(biāo)上都優(yōu)于其他方法。與最新的LXL[7]相比，我們?nèi)〉昧烁玫慕Y(jié)果，達(dá)到59.43%，達(dá)到76.60%。特別是對(duì)于汽車類別，我們的SGDet3D在兩個(gè)主要指標(biāo)上大幅超越LXL。這種改進(jìn)可歸因于汽車上較多的雷達(dá)點(diǎn)，這提供了更多投影到圖像上的參考點(diǎn)，允許更精確的深度估計(jì)和更豐富的語義信息捕獲。騎自行車者類別略差的性能可能是由于圖像特征融合后偶爾與行人發(fā)生錯(cuò)誤分類，這可能是因?yàn)樽孕熊嚾谌氡尘岸T車者被誤認(rèn)為行人。在推理速度方面，我們的SGDet3D達(dá)到9.2 FPS，與其他方法相比，在沒有專門的代碼優(yōu)化的情況下提供了準(zhǔn)實(shí)時(shí)檢測和更優(yōu)的性能。VoD數(shù)據(jù)集的可視化結(jié)果展示在圖5的第一行。

TJ4DRadSet數(shù)據(jù)集結(jié)果：與VoD相比，TJ4DRadSet由于包含復(fù)雜場景（如夜間環(huán)境、橋下區(qū)域和相機(jī)失焦情況）而帶來更大挑戰(zhàn)。TJ4DRadSet增加了卡車類別，且該類別中目標(biāo)尺寸變化很大，進(jìn)一步增加了檢測難度。盡管存在這些挑戰(zhàn)，SGDet3D在兩個(gè)主要指標(biāo)和上顯著優(yōu)于其他方法。如表II所示，與表現(xiàn)第二好的方法LXL[7]相比，SGDet3D表現(xiàn)出巨大改進(jìn)，達(dá)到42.10%，達(dá)到47.45%。與VoD上觀察到的結(jié)果一致，我們的方法在大尺寸類別（即汽車和卡車）上顯示出最顯著的改進(jìn)。此外，ImVoxelNet[33]的檢測結(jié)果表明，盡管相機(jī)提供了豐富的語義信息，但缺乏深度信息導(dǎo)致性能欠佳。這些結(jié)果證明了我們的SGDet3D在融合4D雷達(dá)和相機(jī)信息進(jìn)行3D目標(biāo)檢測方面的有效性，即使在具有挑戰(zhàn)性的光照條件下也是如此。TJ4DRadSet數(shù)據(jù)集的可視化結(jié)果展示在圖5的第二行。

表I SGDet3D在VOD[15]驗(yàn)證集上最先進(jìn)方法的比較

表II SGDet3D在TJ4DRADSET[14]測試集上最先進(jìn)方法的比較

圖5. VoD驗(yàn)證集（第一行）和TJ4DRadSet測試集（第二行）的一些可視化結(jié)果。每張圖對(duì)應(yīng)一幀包含圖像和雷達(dá)點(diǎn)（灰色）的數(shù)據(jù)，紅色三角形標(biāo)記自車位置。橙色和黃色框分別表示透視圖和鳥瞰圖中的真實(shí)標(biāo)注。綠色和藍(lán)色框表示SGDet3D的預(yù)測邊界框，左下角顯示BEV特征圖可視化。圖(a)、(b)和(c)分別展示了SGDet3D在VoD數(shù)據(jù)集上對(duì)汽車、騎自行車者和行人的檢測性能。圖(d)、(e)和(f)展示了SGDet3D在TJ4DRadSet復(fù)雜環(huán)境（如低光照夜間條件和失焦場景）中的魯棒性。建議放大查看細(xì)節(jié)。

C. 消融研究

所有消融實(shí)驗(yàn)都在VoD驗(yàn)證集上進(jìn)行，僅使用一半的訓(xùn)練周期。總體消融結(jié)果總結(jié)在表III中。觀察發(fā)現(xiàn)，SRP通過充分利用圖像中豐富的語義信息來輔助雷達(dá)分支，提高了和。GDC通過充分利用雷達(dá)數(shù)據(jù)中的幾何信息和透視圖前景分割掩碼進(jìn)行自適應(yīng)深度估計(jì)，進(jìn)一步提升了兩個(gè)指標(biāo)的性能。最后，我們?cè)O(shè)計(jì)的LACA有效促進(jìn)了感興趣圖像語義的聚合，實(shí)現(xiàn)更深層的跨模態(tài)交互，帶來性能提升。此外，我們分析了深度標(biāo)簽的影響。表IV顯示使用額外的激光雷達(dá)數(shù)據(jù)獲得了最佳性能。同時(shí)也可以觀察到，僅使用雷達(dá)數(shù)據(jù)進(jìn)行深度估計(jì)監(jiān)督的性能也超過了LXL[7]（見表I），證明了我們模型的優(yōu)越性。

LACA的有效性：我們通過探索像素定位和深度定位機(jī)制來研究LACA的效果。如表V所示，像素定位始終有助于聚合感興趣的語義信息。然而，使用深度估計(jì)在3D特征空間的深度維度上定位目標(biāo)的深度定位，可能會(huì)由于單目深度預(yù)測結(jié)果不佳而影響檢測性能。通過比較設(shè)置3和設(shè)置4，我們觀察到引入雷達(dá)數(shù)據(jù)的幾何信息來增強(qiáng)深度估計(jì)在和上帶來了顯著的性能提升。這表明只有與GDC結(jié)合，我們的LACA才能最大化其在深度維度上的信息聚合效果，驗(yàn)證了GDC的重要性。最終，通過結(jié)合兩種定位，我們創(chuàng)建了一個(gè)判別性的標(biāo)記空間，加強(qiáng)了BEV查詢與感興趣圖像標(biāo)記之間的相關(guān)性，導(dǎo)致兩個(gè)指標(biāo)的性能提升。

SRP的有效性：我們從兩個(gè)方面評(píng)估SRP。首先，我們研究SRP是否利用豐富的上下文特征來裝飾虛擬點(diǎn)，從而輔助雷達(dá)分支。其次，我們?cè)u(píng)估SRP是否通過重新加權(quán)特征來準(zhǔn)確定位3D空間中的豐富語義。如表VI所示，裝飾操作通過整合語義有效地輔助了雷達(dá)分支，導(dǎo)致兩個(gè)指標(biāo)的性能提升。此外，SRP通過使用重新加權(quán)操作正確區(qū)分投影射線上均等存在的圖像特征，進(jìn)一步提高了駕駛走廊內(nèi)的檢測性能（用表示），這對(duì)精確融合至關(guān)重要。在整個(gè)標(biāo)注區(qū)域的mAP（用表示）上改進(jìn)有限可能是由于遠(yuǎn)距離區(qū)域的深度估計(jì)困難。

GDC的有效性：我們?cè)谕暾腟GDet3D網(wǎng)絡(luò)中對(duì)(1)式中的聚焦權(quán)重進(jìn)行消融研究。如表VII所示，隨著增加，真實(shí)邊界框內(nèi)的深度損失降低，這可能是由于對(duì)前景區(qū)域施加了更強(qiáng)的懲罰。然而，由于對(duì)其他區(qū)域的關(guān)注相對(duì)較弱，總損失先減少后增加。檢測性能遵循相同的趨勢(shì)，這表明在前景區(qū)域和整體場景之間找到平衡對(duì)實(shí)現(xiàn)最佳檢測性能至關(guān)重要。在實(shí)驗(yàn)中，我們根據(jù)表VII的發(fā)現(xiàn)設(shè)置。

表III 在VOD數(shù)據(jù)集上對(duì)SGDet3D各組件的消融研究

表IV 用于監(jiān)督深度預(yù)測的深度標(biāo)簽的消融研究

表V 在VOD數(shù)據(jù)集上對(duì)LACA的消融研究

表VI 在VOD數(shù)據(jù)集上對(duì)SRP的消融研究

表VII VOD數(shù)據(jù)集上GDC中焦點(diǎn)權(quán)重的消融研究

Ⅴ 結(jié)論

在本研究中，我們提出了一種用于3D目標(biāo)檢測的4D雷達(dá)和相機(jī)融合方法SGDet3D。我們的方法充分利用了各模態(tài)內(nèi)的語義-幾何信息，并促進(jìn)了深層的跨模態(tài)交互。在相關(guān)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，SGDet3D能有效融合4D雷達(dá)數(shù)據(jù)和相機(jī)圖像，并達(dá)到了最先進(jìn)的性能水平。

局限性：盡管SGDet3D很有效，但其推理速度有限，且缺乏時(shí)序信息。未來的工作將聚焦于這些問題，并探索多視圖圖像以提高感知準(zhǔn)確性和魯棒性。

參考文獻(xiàn)

分享到：

微信“掃一掃”
分享到朋友圈

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測試網(wǎng)V課堂
微信公眾號(hào)
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

SGDet3D：基于4D雷達(dá)和相機(jī)的語義和幾何信息融合的3D目標(biāo)檢測方法

微信公眾號(hào)

Ⅰ引言

Ⅱ相關(guān)工作

Ⅲ 方法

Ⅳ 實(shí)驗(yàn)

Ⅴ 結(jié)論

參考文獻(xiàn)

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對(duì)摩托車前照燈配光性能的工