日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

自動駕駛中基于深度學習的雷達與視覺融合用于三維物體檢測的綜述

2025-01-01 15:31:28·  來源:同濟智能汽車研究所  
 
雷達生成的感興趣區(qū)域(ROI)策略,即直接將雷達點投影到二維圖像平面上,可以扁平化點云的深度維度,可能導致傳感器最初捕獲的一些三維空間信息的損失[33]。因此,這類方法更適用于不需要深度值的二維 物體檢測。對于三維物體檢測,越來越多的工作集中在 視覺生成的感興趣區(qū)域方案上。CenterFusion [32]引入了 一個柱擴展步驟來解決雷達點高度信息不準確的問題。 然后,它使用基于圓錐的方法將雷達檢測與相應的物體提議相關(guān)聯(lián),補充圖像特征并回歸物體屬性。ClusterFus ion [33]也在第一階段從輸入圖像生成初步的三維物體檢測,然后利用雷達點來細化初步檢測的速度、深度、方向和屬性預測。然而,這些方法往往依賴于從圖像中獲取的物體在世界坐標系中的初步位置,由于缺乏深度信息,這必然會導致相當大的不確定性。因此,基于這些不精確的位置對雷達點進行采樣,并直接丟棄未關(guān)聯(lián)的雷達點, 對檢測精度產(chǎn)生了負面影響。CRAFT[4]通過軟關(guān)聯(lián)將從圖像生成的3D提議與極坐標系中的雷達點進行關(guān)聯(lián)。隨后,通過連續(xù)的基于交叉注意力的特征融合層,它自適應地交換相機和雷達之間的空間上下文信息,以解決錯誤的關(guān)聯(lián),從而顯著提高檢測精度。上述方法都表明, 最大化3D提議和雷達點之間的正確關(guān)聯(lián)數(shù)量似乎是ROI-based RV融合框架中的關(guān)鍵步驟。然而,由于雷達點的稀疏性以及它們?nèi)狈Ω叨刃畔ⅲ瑑?yōu)化這一關(guān)鍵步驟對提高模型性能的影響有限。得益于現(xiàn)代雷達技術(shù)的進步,雷達傳感器的分辨率也逐漸提高,導致雷達點云比以前更密集。這一進步使得將現(xiàn)有的成熟基于 LiDAR的架構(gòu)[20]-[23]應用于處理雷達數(shù)據(jù)成為可能[24]、 [25]。盡管如此,與LiDAR點云相比,雷達點云仍然非常稀疏,并且缺乏足夠的語義信息。因此,基于ROI的融合框架在性能上存在局限性。無論哪種模態(tài)生成感興趣區(qū)域,由于缺乏深度或高度信息,都可能發(fā)生顯著的檢測錯誤,直接影響最終的物體檢測結(jié)果。然而,這些融合框架也提供了一些好處,因為它們可以部分地減少物體檢測的搜索范圍,從而節(jié)省計算資源。

表二 當前配備攝像頭和雷達裝置的駕駛數(shù)據(jù)集

圖片

圖片

圖 3.基于投資回報率的雷達視覺融合框架((a):雷達生成的感興趣區(qū)域;(b): 視覺生成的感興趣區(qū)域)

B. 端到端融合

端到端融合策略同時處理來自攝像頭和雷達的數(shù)據(jù)。通過在一個統(tǒng)一的框架內(nèi)整合兩種模態(tài)的特征,并利用它們的互補優(yōu)勢,感知性能變得更加穩(wěn)健。這種方法是目前最突出的融合管道之一。端到端RV融合的基本框架如圖4所示。我們進一步將這種方法分為兩個部分:基于 3D包圍框預測和基于鳥瞰圖(BEV)。

a) 基于 3D 邊界框預測:得益于成熟的現(xiàn)代 2D 檢測技術(shù)的發(fā)展,許多自動駕駛?cè)诤峡蚣苤苯蛹{入單獨的輸入分支,用于將雷達數(shù)據(jù)處理到先進的 2D 檢測網(wǎng)絡 中,并在網(wǎng)絡中間融合雷達特征與圖像特征。例如,[34] 為 SSD 檢測框架添加了用于雷達輸入數(shù)據(jù)的額外分支, 而[13]和[35]基于 YOLO 系列網(wǎng)絡擴展了輸入通道,以同時提取圖像和雷達特征。CRF-Net [36]采用 VGG16 作為模型骨干,利用輔助分支提取雷達特征在不同級別上。毫無疑問,實現(xiàn)3D物體檢測任務的最簡單方法是移植現(xiàn)有的成熟2D計算機視覺框架,并將其移植到3D檢測頭上,這在實踐中確實如此。在3D物體檢測發(fā)展的早期階段,研究人員專注于利用各種卷積神經(jīng)網(wǎng)絡(CNNs)同時從圖像和雷達數(shù)據(jù)中提取特征。然而,與 2D物體檢測不同,3D物體檢測模型需要在三維空間中回歸3D包圍框,包括長度、寬度和高度信息。在[37]中,使用3D區(qū)域提議網(wǎng)絡基于相機圖像和雷達圖像生成提議。GRIF Net[3]預先定義了不同高度和大小的3D錨點框,并將它們投影到相機透視視圖和雷達鳥瞰視圖上。然后,它利用3D區(qū)域提議網(wǎng)絡(RPN)生成3D提議。然而,這兩 種方法并沒有有效地利用相機特征和雷達特征之間的相關(guān)性。它們只是直接從兩個傳感器的特征和連接融合特征中學習3D包圍框的參數(shù)。最近,注意力機制的引入進一步提高了計算機視覺模型的性能。為了解決雷達和相機特征之間的幾何對應關(guān)系的不確定性,作者在[47]中提出了一 種光線約束的交叉注意力機制,以更好地利用雷達距離測量來改善相機深度預測。SparseFusion3D [48]基于 DETR3D [49]的架構(gòu),通過使用雷達點初始化對象查詢,并將從對象查詢解碼出的3D參考點投影到圖像空間以提取圖像特征??傮w而言,基于3D框預測的方法從2D目標檢測網(wǎng)絡中的許多優(yōu)秀思想中汲取了靈感。然而,預測3D框需要估計與三維空間密切相關(guān)的更多參數(shù),這往往 需要更多的計算資源和更復雜的算法。

圖片

圖 4. 一般端到端的 RV 融合框架

b) 基于鳥瞰視圖(BEV)的:最近,由于其能夠提供全景和無遮擋的感知視角,鳥瞰視圖感知方案在三維物體檢測中逐漸占據(jù)主導地位?;邙B瞰視圖的方法將物體檢測簡化為從頂向下的二維圖像操作,使得能夠利用計算機視覺領(lǐng)域的豐富技術(shù)和算法,同時也提高了計算效率 。許多研究考慮利用具有強大深度感知的雷達檢測來協(xié)助將圖像特征從透視視圖轉(zhuǎn)換為鳥瞰視圖。在[39]中,作者利用預測的深度分布將圖像特征提升到三維空間,并利用雷達深度先驗和雷達鳥瞰視圖占用率引導的雷達鳥瞰視圖占用率沿著高度通道將它們與圖像鳥瞰視圖特征連接起來。 然后,通過一個可變形交叉注意力模塊,他們自適應地融合圖像鳥瞰視圖特征和雷達鳥瞰視圖特征,以處理嘈雜和模糊的雷達點。這項工作利用雷達的深度感知優(yōu)勢來補充單目深度估計網(wǎng)絡。然而,它依賴于兩個并行且獨立的視 圖變換,這不可避免地導致來自兩種模態(tài)的 BEV 特征在 空間上不一致。RCM-Fusin [38]采用 BEVFormer [14]作為 基準,并通過可變形自注意力機制[51]從雷達 BEV 特征 圖中提取雷達位置信息創(chuàng)建了一個優(yōu)化的 BEV 查詢,從而整合了來自兩種模態(tài)的特征以實現(xiàn)隱式視圖變換。在 [50]中,作者使用交叉注意力將柱狀特征與來自雷達點云的稀疏深度編碼與相應的深度缺失圖像列相關(guān)聯(lián),以在透視視圖中生成統(tǒng)一的幾何感知特征。然后,他們使用從雷達 BEV 特征計算出的雷達加權(quán)深度一致性來細化初始的 BEV 查詢,解決了特征不一致或關(guān)聯(lián)的問題。這些方法中的關(guān)鍵挑戰(zhàn)在于如何利用雷達點的深度信息來改進透視視圖特征中對深度的感知,以及如何處理圖像和雷達 BEV 特征之間的空間不一致性。HVDetFusion [40]是一個 兩階段檢測框架。在第一階段,它利用估計的深度將圖像特征從二維空間轉(zhuǎn)換到三維空間。然后,它使用第一個檢測頭獲得初步檢測結(jié)果,并將其作為先驗信息來優(yōu)化初始 雷達數(shù)據(jù)中的誤檢。隨后,它將雷達檢測與圖像檢測相結(jié)合,并利用第二個檢測頭輸出融合檢測結(jié)果。這是目前在 nuScenes 排行榜上雷達-攝像頭融合三維目標檢測的最先進方法。


 Ⅳ 4D雷達在自動駕駛系統(tǒng)中的應用


隨著雷達技術(shù)的進步,4D 雷達解決了傳統(tǒng)雷達在缺乏高度信息方面的不足,這引起了研究人員的關(guān)注,并逐漸探索如何在自動駕駛汽車中應用它。在[18]中,作者將 之前用于激光雷達三維數(shù)據(jù)的點柱應用于四維雷達數(shù)據(jù), 以進行多類道路使用者檢測。MVFAN [42]是一個用于三 維物體檢測的端到端和單階段框架,利用雷達特征輔助骨干網(wǎng)絡來充分挖掘有價值的四維雷達數(shù)據(jù)。RCFusion [43] 在統(tǒng)一的 BEV 空間下實現(xiàn)了攝像頭和四維雷達特征的融合,引入了一個雷達柱狀網(wǎng)絡來生成雷達偽圖像。然后, 使用名為 IAM 的融合模塊自適應地融合這兩種 BEV 特征類型。此外 在目標檢測方面,也有利用4D雷達進行其他自動駕駛?cè)蝿盏难芯俊enterRadarNet[44]是一個使用4D雷達的聯(lián)合3D目標檢測和跟蹤框架,包括一個單階段3D目標檢測器和在線重識別(re-ID)跟蹤器。4DRVO-Net[45] 是一種將攝像頭和4D雷達信息集成起來的4D雷達視覺里程計方法。它涉及設(shè)計一個自適應4D雷達-攝像頭融合模塊(A-RCFM),該模塊根據(jù)4D雷達點特征自動選擇圖像特征。[46]中提出的方法將圖像和4D雷達點云融合用于度量密集深度估計。總之,4D雷達點云作為 一種比傳統(tǒng)3D雷達更穩(wěn)健的傳感器數(shù)據(jù),具有更高的密度和與LiDAR相比的額外多普勒信息,值得進一步探索。然而,與3D雷達類似,4D雷達點云仍然相對稀疏。建立4D雷達點云和圖像之間的準確關(guān)聯(lián)和特征交互仍然是一個重大挑戰(zhàn)。



   Ⅴ 未來趨勢    

通過本文的回顧與分析,我們認為在自動駕駛的背景下,房車的融合感知具有以下發(fā)展趨勢:

a) 端到端自主駕駛:端到端自主駕駛直接將原始傳 感器數(shù)據(jù)作為輸入,并將感知、路徑規(guī)劃、控制和決策等任務集成到單個神經(jīng)網(wǎng)絡中進行學習。它直接輸出控制車輛行為所需的指令,而無需手動設(shè)計復雜的中間表示或處理步驟。這項技術(shù)消除了傳統(tǒng)自主駕駛系統(tǒng)中的復雜模塊結(jié)構(gòu),簡化了系統(tǒng)的設(shè)計和實現(xiàn)過程。此外,由于它能夠自動發(fā)現(xiàn)傳感器數(shù)據(jù)中的復雜模式和特征,它能夠更好地理解環(huán)境并做出更準確的決策。

b) 4D雷達的應用:隨著4D毫米波雷達技術(shù)的進步, 它正朝著更高的分辨率和更遠的探測范圍發(fā)展。由于其成本優(yōu)勢,未來它可能會在一些大規(guī)模生產(chǎn)的智能汽車中取代傳統(tǒng)的雷達和激光雷達。這帶來了4D雷達和視覺之間更簡潔和高效的融合解決方案的需求。研究中的挑戰(zhàn)和趨勢包括如何深度整合兩種異構(gòu)多模態(tài)數(shù)據(jù)源,以及如何在保持精度的前提下提高感知系統(tǒng) 的實時性能。

c) 協(xié)同感知:協(xié)同感知是指多個自動駕駛車輛交換信息并合作,共同感知周圍環(huán)境并做出決策的過程。這一創(chuàng)新感知概念使路上的車輛能夠?qū)崿F(xiàn)實時和全面的環(huán)境感知。它不僅提高了自動駕駛系統(tǒng)的安全性和可靠性,還優(yōu)化了整個交通系統(tǒng)的效率,與智能交通發(fā)展的要求無縫對接。

   Ⅵ 結(jié)論    

感知作為自動駕駛系統(tǒng)中的三個關(guān)鍵模塊之一,在處理來自多個傳感器的信息以及提取其他兩個模塊 (控制和決策)所需的相關(guān)環(huán)境數(shù)據(jù)方面發(fā)揮著至關(guān) 重要的作用。作為量產(chǎn)車輛中最常見的低成本傳感器, 攝像頭和雷達具有豐富的語義信息和全天候運行特性,它們的互補優(yōu)勢可以實現(xiàn)相對理想的感知性能。在本文中,我們首先分析了幾種傳感器的優(yōu)缺點,然后介紹了現(xiàn)有的公開數(shù)據(jù)集,這些數(shù)據(jù)集同時包含了雷達和攝像頭,包括最新的4D雷達數(shù)據(jù)集。然后我們詳細回顧了基于RV融合的3D目標檢測的現(xiàn)狀?;谏疃葘W習的3D目標檢測技術(shù)分為兩種策略:基于ROI和端到端。為了跟上最新的技術(shù),我們介紹了4D雷達在自動駕駛行業(yè)中的最新應用。最后,我們分析了自動駕駛 RV融合感知發(fā)展的可能趨勢,以供讀者參考。

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25