在單目3D目標檢測和跟蹤中目標深度估計很重要

2022-06-13 11:03:29· 來源：計算機視覺深度學習和自動駕駛作者：黃浴

arXiv2022年6月8號上傳的論文“Depth Estimation Matters Most: Improving Per-Object Depth Estimation for Monocular 3D Detection and Tracking“，作者來自

arXiv2022年6月8號上傳的論文“Depth Estimation Matters Most: Improving Per-Object Depth Estimation for Monocular 3D Detection and Tracking“，作者來自谷歌WayMo公司、Johns-Hopkins大學和Cornell大學。

近年來，基于單目圖像的3D感知技術(shù)在自動駕駛的應用非常活躍。然而，與基于激光雷達的技術(shù)相比，包括檢測和跟蹤在內(nèi)，單目3D感知方法的性能往往較差。通過系統(tǒng)分析，發(fā)現(xiàn)每個目標的深度估計精度是影響性能的主要因素。基于這一觀察結(jié)果，提出一種多層融合方法，該方法將目標不同的表征（RGB和偽激光雷達）和時域多幀信息（tracklet）相結(jié)合，以增強每個目標的深度估計。

該融合方法在Waymo開放數(shù)據(jù)集、KITTI檢測數(shù)據(jù)集和KITTI MOT數(shù)據(jù)集上實現(xiàn)了每目標深度估計的最好性能。簡單地將估計深度替換為融合增強深度，可以顯著改善單目3D感知任務，包括檢測和跟蹤。

現(xiàn)有的自動駕駛車輛感知系統(tǒng)主要依賴于昂貴的傳感器，如激光雷達和雷達。由于攝像機的低成本、低功耗和更長的感知范圍，單目圖像感知近年來吸引了業(yè)界和研究界的極大興趣。這種感知任務往往具有挑戰(zhàn)性，單目感知系統(tǒng)與基于激光雷達/雷達的系統(tǒng)之間存在很大的性能差距。

常見的3D單目感知系統(tǒng)包括兩個主要模塊：3D目標檢測和3D跟蹤。前者需要學習目標的3D位置、長方體大小和旋轉(zhuǎn)/朝向，而后者需要使用外觀和運動線索跨幀跟蹤檢測。在這兩項任務中，不清楚系統(tǒng)的哪個組件對性能有最關(guān)鍵的影響。為了充分了解哪個組件限制了總體性能，用真值替換最先進檢測模型的每個輸出，然后用最先進的檢測器評估檢測和tracking-by-detection性能的變化。

如圖所示，在圖像中包括旋轉(zhuǎn)、大小、深度和非模態(tài)中心在內(nèi)的所有屬性中，發(fā)現(xiàn)只有每個目標的深度，即車輛3D中心的深度，才起作用（請參見每個目標深度估計完美時的顯著性能改進，以及其他信號完美時的非主體改進）。基于這一觀察，單目標深度估計是單目3D檢測和檢測跟蹤的主要瓶頸。對其他最先進的檢測器進行相同的分析，例如帶AB3D跟蹤器的RTM3D框架，結(jié)果表明，深度是改善單目3D檢測的關(guān)鍵因素，跟蹤是橫穿模型的總結(jié)論。

從單目圖像估計物體深度的一個主要挑戰(zhàn)是獲得一個表征，對從2D信息到3D深度的轉(zhuǎn)換進行編碼。最近的工作（例如，3D單目檢測）主要集中于直接從原始RGB圖像學習，或利用從預測的密集深度圖中提取偽激光雷達表征。直覺上，上述兩種表示法在估計每個目標的深度方面可能是互補的，單獨從其中任何一種學習都可能是次優(yōu)的：RGB圖像實際上編碼了外觀、紋理和2D幾何等，但不包含3D直接信息。

在不過擬合無關(guān)信息的情況下，很難學習如何將RGB特征精確映射到深度；另一方面，偽激光雷達表征通過估計的密集深度圖直接建模目標三維結(jié)構(gòu)，這使得學習每個目標的深度變得簡單。然而，估計的密集深度圖通常是有噪聲的（通常具有至少8%的平均相對誤差）。受先前的融合（如RGB圖像特征和用于動作識別的光流）方法啟發(fā)，融合在兩種表征中編碼的互補信號可能有助于每個目標的深度估計。

此外，單目圖像的深度估計基本上是不適定問題，因為場景的單個2D視圖可以由許多看似合理的3D場景來解釋。然而，隨時間推移，觀察一個目標可以對目標的基本時間和運動一致性進行建模，能提供上下文信息，以便在3D中更好地定位目標。在其他任務中也有類似的想法，如基于2D視頻的目標檢測。

上圖顯示用于逐目標深度估計的多級融合框架概述：首先進行二維目標檢測和跨幀跟蹤檢測，為每個目標構(gòu)建一個tracklet。然后，構(gòu)建跨幀目標的偽激光雷達表示，以及當前幀的RGB圖像特征。自運動補償應用于每個tracklet的所有偽激光雷達patch，并轉(zhuǎn)換到相同的坐標系。最后，對當前幀的RGB圖像特征和時間融合的偽激光雷達特征進行融合，以產(chǎn)生逐個目標深度。

PR-融合，利用RGB和偽激光雷達表示編碼的互補信息。給定一幅大小為H×W的RGB圖像I，使用預訓練的卷積神經(jīng)網(wǎng)絡(luò)FRGB可以提取整個圖像的緊湊特征。對于具有2D邊框b的任何目標，用預定義的池化操作池（FRGB（I），b）提取邊框的RGB圖像特征R。從圖像I中提取目標邊框b的圖像特征R的過程可以表示為

偽激光雷達表示的提取過程包括三個步驟：（1）每個圖像的密集深度估計，（2）提升預測的密集深度到偽激光雷達，（3）用神經(jīng)網(wǎng)絡(luò)提取偽激光雷達表示。對于任何RGB圖像I，深度估計可以通過使用密集深度估計網(wǎng)絡(luò)Fd完成

然后，用以下基于攝像頭模型將整個深度圖的每個像素提升到點云：

在變換之后，密集深度圖d中的每個像素被變換為三個通道，表示在攝像頭坐標中對應像素在3D空間的絕對位置。

在獲得圖像I的偽激光雷達表示后，可以基于2D邊框?qū)r間戳t的目標bt偽激光雷達patch Pt進行裁剪，其中Pt是框bt內(nèi)的偽激光雷達點集?？梢杂昧硪粋€特征編碼器Fp提取目標bt的偽激光雷達特征PL，如

PR-融合則表示為

直接從單個幀預測每個目標的深度很有挑戰(zhàn)性，因為攝像頭圖像中的單個目標可以由具有不同深度的多個看似合理的目標來解釋。受視頻任務的時間融合方法啟發(fā)，提出跨多幀融合目標級信息，增強預測的時間和運動一致性。給定2D檢測結(jié)果，首先進行2D數(shù)據(jù)關(guān)聯(lián)，為目標構(gòu)建軌跡，然后在時間窗口融合軌跡的特征。

一種簡單的方法是直接跨幀融合圖像特征，然而直接融合不同幀的RGB特征可能不太理想，因為RGB特征將攝像頭自運動和目標運動耦合在一起，很難從2D圖像序列中學習運動和時間一致性。為了對深度估計進行有效的時間融合，必須對攝像機運動進行補償，以確保不同幀的特征位于同一坐標系中。幸運的是，攝像頭的自運動可以通過偽激光雷達表示在3D空間中輕松補償。因此，提出一種基于偽激光雷達表示帶自運動補償?shù)腡-融合法。

T-融合的輸入包括在不同幀Pt, Pt?1 , ..., Pt?n中每個目標的偽激光雷達patch，而Pt位于t幀的三維攝像頭坐標中。自運動用基于傳統(tǒng)六自由度的4×4齊次矩陣H表示：平移[γx，γy，γz]以米為單位，旋轉(zhuǎn)[ρx，ρy，ρz]以弧度為單位。

首先，用攝像頭坐標到全局坐標的轉(zhuǎn)換矩陣H，將來自不同幀的所有偽激光雷達patch投影到全局坐標系中。假設(shè)攝像頭坐標到全局坐標的變換矩陣為Ht?j，對于任何時間戳Pt-j的偽激光雷達patch，轉(zhuǎn)換如下：

坐標變換后，自動駕駛汽車的自運動得到補償，變換后的Pt′?j與Pt在同一坐標系中。將相同的變換應用于所有時間戳的偽激光雷達patch，消除自運動對每個目標的偽激光雷達點位置造成的影響。

給定偽激光雷達的任何特征編碼器Fp（），數(shù)據(jù)中不同時間戳的特征可以提取為Fp（P′t），F(xiàn)p（P′t?1 ), ..., Fp（P′t?n），其中′表示偽激光雷達patch做自運動補償。然后，可以用神經(jīng)網(wǎng)絡(luò)編碼器GTF對目標序列的融合特征進行建模，如下所示：

PR-融合和T-融合聚合了兩個不同領(lǐng)域的特征。將這兩種融合方法結(jié)合在一起進一步提高性能是很自然的。給定一系列跨時間的目標框，bt，bt?1, ...., bt?n，目標bi的RGB圖像特征可以用圖像特征編碼器FRGB（）表示，其偽激光雷達特征可以用編碼器Fp（）提取。PRT-融合分為兩個步驟：給定當前幀的目標及其前一幀的目標，首先對多幀的偽激光雷達表示進行帶自運動補償?shù)腡-融合；然后將其與當前幀t的RGB特征融合為

RGB特征提取采用CenterNet和CenterTrack，它們最近在nuScenes數(shù)據(jù)集上的單目3D檢測任務上取得了最先進的性能。遵循其公式和網(wǎng)絡(luò)架構(gòu)，以ResNet50為骨干進行2D檢測。

偽激光雷達特征提取采用PatchNet，其最近顯著提高基于偽激光雷達的檢測性能。選擇它作為主干模型來提取基于偽激光雷達的特征，其作為基線和該方法的輸入。

為了跟蹤2D檢測形成tracklet，用基于卡爾曼濾波器的跟蹤器。

實驗結(jié)果如下：

如圖所示：綠色、紅色和藍色邊框?qū)贕T、基線深度估計和檢測（BL），以及PRT-融合中具有增強逐目標深度的邊框?？梢杂^察到明顯更好的深度估計及其在檢測方面的進一步改進。

如圖所示：由于（a）中顯示的深度估計不準確，3D跟蹤器錯誤地關(guān)聯(lián)了幀間的檢測，從而導致ID切換。根據(jù)（b）中提出的融合模型預測的增強深度，跟蹤器可以正確地關(guān)聯(lián)檢測。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：用于車輛NVH應用的新型環(huán)保材料的聲學研究
上一篇：混合動力系統(tǒng)主流動力構(gòu)型方案對比研究

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預期功能安全應該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護
• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬
• 即刻探索8臺機器人如何解放數(shù)百名工人！	• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學習增強運
• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

在單目3D目標檢測和跟蹤中目標深度估計很重要

微信公眾號

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

在單目3D目標檢測和跟蹤中目標深度估計很重要

微信公眾號

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

開年豪擲1.8億搶用戶，又一車企加入“價格

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將