用于自動(dòng)駕駛的概率性3D多模態(tài)多目標(biāo)跟蹤

2022-12-28 19:57:22· 來源：同濟(jì)智能汽車研究所

編者按：多目標(biāo)的跟蹤是自動(dòng)駕駛領(lǐng)域常見的研究問題，而目前簡單基于卡爾曼濾波的跟蹤方法難以保證足夠的精度，且在數(shù)據(jù)關(guān)聯(lián)階段和歷史軌跡生命周期管理器方面存在很大的提升空間。因此作者提出了一個(gè)包含多個(gè)神經(jīng)網(wǎng)絡(luò)模塊的多模態(tài)多目標(biāo)跟蹤模型，融合2D圖像

編者按：多目標(biāo)的跟蹤是自動(dòng)駕駛領(lǐng)域常見的研究問題，而目前簡單基于卡爾曼濾波的跟蹤方法難以保證足夠的精度，且在數(shù)據(jù)關(guān)聯(lián)階段和歷史軌跡生命周期管理器方面存在很大的提升空間。因此作者提出了一個(gè)包含多個(gè)神經(jīng)網(wǎng)絡(luò)模塊的多模態(tài)多目標(biāo)跟蹤模型，融合2D圖像和3D激光點(diǎn)云的特征來同時(shí)利用目標(biāo)的外觀信息和幾何信息，并利用神經(jīng)網(wǎng)絡(luò)計(jì)算雙模型的結(jié)合權(quán)重和判斷新目標(biāo)是否可以直接生成新軌跡。綜合來看，作者提出的多模態(tài)跟蹤方法充分融合了圖像和點(diǎn)云的信息，并引入神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)獲取原本提前設(shè)定的超參數(shù)，在KITTI跟蹤數(shù)據(jù)集上取得了領(lǐng)先的性能。

本文譯自：

《Probabilistic 3D Multi-Modal, Multi-Object Tracking for Autonomous Driving》

文章來源：

2021 IEEE International Conference on Robotics and Automation (ICRA)

作者：

Hsu-kuang Chiu, Jie Li, Rares, Ambrus, Jeannette Bohg.

原文鏈接：https://ieeexplore.ieee.org/abstract/document/9561754

https://arxiv.org/pdf/2012.13755.pdf

摘要：多目標(biāo)跟蹤是自動(dòng)駕駛車輛在交通場景中安全行駛的重要功能。當(dāng)前最先進(jìn)的方法遵循“檢測-跟蹤”范式，其中當(dāng)前跟蹤目標(biāo)物通過一些距離指標(biāo)與檢測目標(biāo)物相關(guān)聯(lián)。提高跟蹤準(zhǔn)確性的關(guān)鍵挑戰(zhàn)在于數(shù)據(jù)關(guān)聯(lián)和跟蹤生命周期管理。我們提出了一種基于概率的、多模態(tài)、多目標(biāo)的跟蹤系統(tǒng)，該系統(tǒng)由不同的可訓(xùn)練模塊組成，以提供魯棒的和數(shù)據(jù)驅(qū)動(dòng)的跟蹤結(jié)果。首先，我們學(xué)習(xí)如何融合2D圖像和3D激光雷達(dá)點(diǎn)云的特征，以捕捉目標(biāo)的外觀和幾何信息。第二，在比較數(shù)據(jù)關(guān)聯(lián)中的跟蹤目標(biāo)和新檢測目標(biāo)時(shí)，我們提出一種結(jié)合馬氏距離和特征距離的指標(biāo)。第三，我們提出了一個(gè)何時(shí)從未匹配的目標(biāo)檢測中初始化跟蹤任務(wù)的方法。通過廣泛的定量和定性結(jié)果，我們表明，當(dāng)使用相同的目標(biāo)檢測器時(shí)，我們的方法優(yōu)于NuScene和KITTI數(shù)據(jù)集上的最先進(jìn)方法。

Ⅰ 緒論

3D多目標(biāo)跟蹤對于自動(dòng)駕駛至關(guān)重要。它可以估計(jì)所有交通參與者的位置、方向和尺寸。通過考慮時(shí)間信息，跟蹤模塊可以從基于幀的目標(biāo)檢測中過濾異常值，并且對部分或完全遮擋更加魯棒。然后，所得軌跡可用于推斷每個(gè)交通參與者的運(yùn)動(dòng)模式和駕駛行為，以改進(jìn)運(yùn)動(dòng)預(yù)測。這可以在自動(dòng)駕駛中實(shí)現(xiàn)安全決策。當(dāng)前最先進(jìn)的3D多目標(biāo)跟蹤[1, 2]遵循“檢測-跟蹤”范式。這些方法首先使用3D目標(biāo)檢測器來估計(jì)每幀中每個(gè)目標(biāo)的邊界框的位置和方向。然后，他們使用中心或馬氏距離[3]作為檢測目標(biāo)物和現(xiàn)有跟蹤目標(biāo)物之間的數(shù)據(jù)關(guān)聯(lián)指標(biāo)。然而，這些指標(biāo)僅評估目標(biāo)的距離以及邊界框大小和方向的差異，而忽略每個(gè)目標(biāo)的幾何和外觀特征。因此，數(shù)據(jù)關(guān)聯(lián)性能高度依賴運(yùn)動(dòng)預(yù)測的準(zhǔn)確性。對于難以精確預(yù)測的物體，例如行人、摩托車或急轉(zhuǎn)彎的汽車，預(yù)測和正確檢測之間的歐氏距離可能很大。因此，它們可能無法正確匹配。[4, 5]試圖通過從跟蹤器的軌跡和檢測的特征學(xué)習(xí)關(guān)聯(lián)指標(biāo)來改進(jìn)數(shù)據(jù)關(guān)聯(lián)。然而，這些方法仍然無法超過上述基于中心距離的簡單方法[1]。結(jié)果表明，建立有效數(shù)據(jù)關(guān)聯(lián)的神經(jīng)網(wǎng)絡(luò)具有挑戰(zhàn)性。我們建議在比較跟蹤和檢測之間的數(shù)據(jù)關(guān)聯(lián)時(shí)，學(xué)習(xí)如何權(quán)衡馬氏距離和基于幾何和外觀特征的距離[3]。這些特征是從3D激光雷達(dá)點(diǎn)云和2D相機(jī)圖像中提取的。與[4]和[5]不同，我們在標(biāo)準(zhǔn)卡爾曼濾波器[6]中使用學(xué)習(xí)到的指標(biāo)，這種卡爾曼濾波器對多目標(biāo)跟蹤有效[2]。此外，卡爾曼濾波器提供了可解釋性和顯式的不確定性估計(jì)，可用于下游決策。除了數(shù)據(jù)關(guān)聯(lián)，跟蹤目標(biāo)物的生命周期管理是在線目標(biāo)跟蹤系統(tǒng)的另一個(gè)重要組成部分。跟蹤目標(biāo)物的生命周期管理確定何時(shí)初始化和終止每個(gè)跟蹤任務(wù)。這一決定會(huì)顯著影響假陽性和ID切換的數(shù)量。然而，跟蹤目標(biāo)物的生命周期管理并沒有引起研究界的太多關(guān)注。先前的工作要么為每個(gè)未匹配的檢測目標(biāo)物初始化一個(gè)新的跟蹤任務(wù)[1]，要么創(chuàng)建臨時(shí)跟蹤任務(wù)，并在足夠連續(xù)的匹配情況下將其轉(zhuǎn)換為完整軌跡[2, 4, 5, 7, 8]。基于其幾何和外觀特征，我們提出了一種是否從未匹配檢測目標(biāo)物中初始化新跟蹤任務(wù)的方法。這種方法有助于避免我們的跟蹤方法為潛在的假陽性初始化新的跟蹤任務(wù)。總而言之，我們提出了一種基于概率的、多模態(tài)、多目標(biāo)的跟蹤系統(tǒng)，該系統(tǒng)由三個(gè)可訓(xùn)練模塊（距離組合、跟蹤初始化和特征融合）組成，以提供魯棒的和數(shù)據(jù)驅(qū)動(dòng)的跟蹤結(jié)果。我們在NuScenes [9]和KITTI [10]數(shù)據(jù)集上使用領(lǐng)先的目標(biāo)檢測器[1, 11]評估了我們的方法，這些目標(biāo)檢測器將3D激光雷達(dá)點(diǎn)云作為輸入。我們表明，所提出的方法優(yōu)于[1]和[5]中報(bào)告的跟蹤方法。通過有效融合2D和3D輸入，我們可以進(jìn)一步提高性能。我們的定性結(jié)果還明確顯示出假陽性跟蹤的減少，這對決策很重要。如果使用更加新的目標(biāo)檢測器，我們預(yù)計(jì)會(huì)進(jìn)一步提高性能，因?yàn)槲覀兊姆椒▽x擇哪個(gè)目標(biāo)檢測器事先未知。

Ⅱ相關(guān)工作
A. 3D 目標(biāo)檢測大多數(shù)的3D多目標(biāo)跟蹤系統(tǒng)[1, 2, 4, 5, 7, 8, 12]，在由3D目標(biāo)檢測器提供的目標(biāo)檢測框上進(jìn)行跟蹤。因此，3D目標(biāo)檢測器的選擇對于整個(gè)跟蹤系統(tǒng)的性能是很重要的。3D目標(biāo)檢測可以被應(yīng)用于相機(jī)圖像[13, 14]，激光雷達(dá)點(diǎn)云[11, 15-19]，或者他們的結(jié)合上[20-22]。單目3D目標(biāo)檢測性能不太可能與利用激光雷達(dá)或深度信息的模型持平。因此，依賴單目3D目標(biāo)檢測器的3D多目標(biāo)跟蹤算法[12, 23]通常無法勝過依賴激光雷達(dá)或基于深度的目標(biāo)檢測器的跟蹤方法。在我們提出的跟蹤系統(tǒng)中，我們使用CenterPoint 3D目標(biāo)檢測器[1]，它是NuScenes檢測數(shù)據(jù)集[9]中表現(xiàn)最好的檢測器之一。需要注意的是，我們的方法與檢測器無關(guān)。CenterPoint 量化激光雷達(dá)點(diǎn)云并使用PointNet [24, 25]生成特征圖。然后將特征圖輸入到關(guān)鍵點(diǎn)檢測器，用于定位對象的中心并回歸邊界框的大小和方向。B. 3D 多目標(biāo)跟蹤大多數(shù)3D多目標(biāo)跟蹤算法采用先檢測后跟蹤的框架。他們將 3D 對象檢測結(jié)果作為跟蹤方法的輸入。在數(shù)據(jù)關(guān)聯(lián)步驟中，使用不同的距離度量來找到匹配的軌跡檢測對。例如，AB3DMOT [7]在2D跟蹤算法[26]中使用3D交并比（3D IOU）作為2D交并比的擴(kuò)展。ProbabilisticTracking [2]使用馬式距離，它考慮了跟蹤狀態(tài)的不確定性。CenterPoint [1]使用目標(biāo)的中心距離并實(shí)現(xiàn)了有競爭力的跟蹤性能，這主要是由于新提出的3D目標(biāo)檢測器比[2, 7]中使用的檢測器更好。CenterPoint [1]目前是NuScenes跟蹤數(shù)據(jù)集[9]中最先進(jìn)的方法之一。其他幾種3D跟蹤方法提出將跟蹤的軌跡與對象幾何和外觀特征相結(jié)合。GNN3DMOT [5]使用圖神經(jīng)網(wǎng)絡(luò)和2D-3D多特征學(xué)習(xí)進(jìn)行數(shù)據(jù)關(guān)聯(lián)。PnPNet [4]提出了一個(gè)端到端的可訓(xùn)練模型來聯(lián)合解決檢測、跟蹤和預(yù)測任務(wù)。然而，他們無法在NuScenes [9]數(shù)據(jù)集上勝過上述更簡單的CenterPoint [1]算法。

圖1：算法流程圖。子圖（a）描述了我們提出的架構(gòu)的高級(jí)概述，右側(cè)的（b）（c）（d）表明了每個(gè)神經(jīng)網(wǎng)絡(luò)模塊的細(xì)節(jié)。在第t幀，我們使用3D物體檢測器并提取每個(gè)檢測到的目標(biāo)的激光雷達(dá)和圖像特征。這些特征是由特征融合模塊融合的。時(shí)間t的檢測特征和時(shí)間t-1的跟蹤特征融合后的特征被用在可訓(xùn)練距離組合模塊中，以學(xué)習(xí)深度特征距離和Mahalanobis距離的組合。我們將貪婪匹配算法應(yīng)用于數(shù)據(jù)關(guān)聯(lián)的組合距離，匹配得到的物體對由卡爾曼濾波器進(jìn)一步處理以細(xì)化最終對象狀態(tài)。軌道初始化模塊決定是否為每個(gè)不匹配的檢測初始化新的跟蹤。

Ⅲ方法我們的方法的流程如圖1所示。在ProbabilisticTracking [2]的基礎(chǔ)上，我們的算法將激光雷達(dá)點(diǎn)云和相機(jī)圖像作為輸入，并通過卡爾曼濾波器進(jìn)行目標(biāo)跟蹤。我們提出的跟蹤算法具有三個(gè)可訓(xùn)練的組件，以加強(qiáng)數(shù)據(jù)關(guān)聯(lián)和跟蹤生命周期管理：特征融合模塊合并激光雷達(dá)和圖像的特征以生成融合后的深層特征。距離組合模塊將深層的特征距離與馬氏距離相結(jié)合,作為數(shù)據(jù)關(guān)聯(lián)的最終度量。此外，我們還引入了軌跡初始化模塊，該模塊根據(jù)融合的2D和3D深度特征來決定是否為每個(gè)未匹配的檢測目標(biāo)初始化新軌跡。在下面的內(nèi)容中，我們將描述我們提出的跟蹤模型的每個(gè)核心組件。A. 卡爾曼濾波我們在ProbabilisticTracking [2]之前的工作基礎(chǔ)上，使用卡爾曼濾波器[6]進(jìn)行對象狀態(tài)估計(jì)。每個(gè)對象的狀態(tài)由11個(gè)變量表示:

其中為物體3D邊框的中心位置，為物體面向方向與軸的夾角，表示邊框的長、寬、高，表示當(dāng)前幀與前一幀的差值。

我們使用線性運(yùn)動(dòng)模型對運(yùn)動(dòng)物體的動(dòng)力學(xué)進(jìn)行建模，并假設(shè)線性速度和角速度恒定，物體尺寸恒定，即在預(yù)測步驟中不發(fā)生變化。根據(jù)標(biāo)準(zhǔn)的卡爾曼濾波公式，我們將預(yù)測步驟定義為:

其中，為時(shí)刻真實(shí)狀態(tài)的估計(jì)平均值，為時(shí)刻的預(yù)測狀態(tài)平均值。矩陣為流程模型的狀態(tài)轉(zhuǎn)移矩陣。矩陣是時(shí)刻的狀態(tài)協(xié)方差，而是時(shí)刻的預(yù)測狀態(tài)協(xié)方差。矩陣是過程模型噪聲協(xié)方差。

我們使用CenterPoint [1]的3D物體檢測器為我們的卡爾曼濾波器提供觀測。每幀3D物體檢測結(jié)果由一組3D邊界框組成，每個(gè)邊界框由9個(gè)變量表示:

其中為檢測框的中心位置、方向和比例，類似于式1中的定義。剩下的兩個(gè)變量表示當(dāng)前幀和前一幀之間的差值。這兩個(gè)值可以通過將檢測器的估計(jì)中心速度與兩個(gè)連續(xù)幀之間的時(shí)間持續(xù)時(shí)間相乘得到。我們使用均值為零、噪聲協(xié)方差為的加性高斯噪聲的線性觀察模型，利用該觀測模型和預(yù)測的目標(biāo)狀態(tài)為，我們可以預(yù)測下一個(gè)測量值為創(chuàng)新協(xié)方差為，表示預(yù)測目標(biāo)檢測的不確定性:

過程模型和觀測模型的噪聲協(xié)方差矩陣和是根據(jù)訓(xùn)練集數(shù)據(jù)的統(tǒng)計(jì)估計(jì)的，如[2]中提出的。

B. 2D和3D特征的融合

該模塊旨在融合來自2D相機(jī)圖像和3D激光雷達(dá)點(diǎn)云的特征，每次檢測的關(guān)鍵幀。融合的特征將被用作距離組合模塊和軌跡初始化模塊的輸入。對于每個(gè)檢測，我們首先將其2D位置從世界坐標(biāo)系映射到3D對象檢測器中間特征映射坐標(biāo)系中的2D位置。從中間特征圖中提取的激光雷達(dá)點(diǎn)云特征。我們不再只提取特征圖中位于的單個(gè)特征向量，而是提取以為中心的相關(guān) 區(qū)域內(nèi)的所有特征向量，以便利用更多的上下文信息。

然后將三維檢測邊界框投影到攝像機(jī)圖像平面上，從COCO [27]預(yù)訓(xùn)練掩碼R-CNN[28]中提取相應(yīng)的二維圖像特征。對于每個(gè)投影的2D邊界框，我們提取一個(gè)2D圖像特征，該特征將來自投影2D邊界框的RoIAlign特征的1024維向量和一個(gè)6D one-hot向量連接起來，該向量表示物體投射到哪個(gè)相機(jī)平面(在傳感器掃描的6個(gè)平面中)。

最后，我們通過多層感知器(MLP)和一個(gè)重塑操作將兩個(gè)特征向量合并:

其中是個(gè)檢測的融合特征; 為2D特征; 為3D特征;表示MLP和圖1b所示的重塑操作。該MLP的隱藏大小為1536，輸出大小為4608，使用整流線性單元(ReLU)作為激活函數(shù)。注意，我們不單獨(dú)訓(xùn)練這個(gè)特性融合模塊。相反，我們將其連接到距離組合模塊和軌跡初始化模塊，并使用這兩個(gè)模塊進(jìn)行訓(xùn)練。

C. 距離關(guān)聯(lián)模塊

該模塊為個(gè)檢測結(jié)果和個(gè)軌跡之間的數(shù)據(jù)關(guān)聯(lián)提供了一個(gè)可學(xué)習(xí)的距離度量。該度量結(jié)合了來自狀態(tài)估計(jì)以及外觀和幾何特征的信息。具體來說，我們設(shè)計(jì)了馬氏距離和深度特征距離的線性組合：

其中，表示馬氏距離矩陣，其中每個(gè)元素包含每個(gè)檢測結(jié)果和每個(gè)航跡預(yù)測狀態(tài)之間的距離；表示特征距離矩陣，其元素衡量每個(gè)檢測和每個(gè)航跡之間的特征不相似度，為合并系數(shù)矩陣，其形狀為。符號(hào)表示元素級(jí)乘積算子。常數(shù)作為線性組合的初始偏置項(xiàng)，幫助模型訓(xùn)練更快地收斂。的每個(gè)元素的計(jì)算公式為：

其中，為第個(gè)檢測值，定義在方程4中，為線性觀測模型，為第軌預(yù)測狀態(tài)均值，為信息協(xié)方差矩陣，定義在方程6中。

采用如圖1c所示的兩階段神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法，首先學(xué)習(xí)深度特征距離，然后學(xué)習(xí)系數(shù)矩陣，生成最終的聯(lián)合距離度量。

1）深度特征距離：網(wǎng)絡(luò)從個(gè)檢測和個(gè)軌跡的融合特征中學(xué)習(xí)一個(gè)的距離圖：

其中，如圖1c所示，表示一個(gè)核大小為，輸出通道大小為256的卷積層，后接一個(gè)ReLU層和一個(gè)隱藏大小為128的MLP層。我們將特征距離學(xué)習(xí)作為一個(gè)二分類問題來處理，并且我們用二進(jìn)制交叉熵?fù)p失來訓(xùn)練網(wǎng)絡(luò)。

其中是監(jiān)督匹配指示矩陣，其中0表示匹配的航跡-檢測特征對，1表示不匹配的特征對。由于每個(gè)航跡-檢測對沒有地物標(biāo)注，如果前一幀中跟蹤框最靠近的地物框和當(dāng)前幀中檢測框最靠近的地物框?qū)儆谕粋€(gè)目標(biāo)標(biāo)識(shí)，且它們與最靠近的地物框的2D中心歐氏距離均小于2米，則將該對視為匹配。

2）組合系數(shù)：固定學(xué)習(xí)到的特征距離，然后訓(xùn)練距離組合模塊的剩余部分來學(xué)習(xí)系數(shù)矩陣和，從而根據(jù)每個(gè)深度特征距離的重要性來調(diào)整最終的距離D。

其中表示圖1c中的卷積層和MLP層。具有與相似的網(wǎng)絡(luò)結(jié)構(gòu)，只是輸出信道大小不同。受PnPNet [4]的啟發(fā)，我們結(jié)合最大間隔和對比損失來訓(xùn)練這個(gè)模塊。對于一對正樣本和負(fù)樣本，我們定義其最大間隔損失如下：

其中為常數(shù)間隔，為正樣本的組合距離，為負(fù)樣本的組合距離，見公式8中的距離矩陣。整體的對比損失給出如下：

其中表示正的航跡檢測對集合，表示負(fù)的航跡檢測對集合。這種損失函數(shù)的設(shè)計(jì)鼓勵(lì)神經(jīng)網(wǎng)絡(luò)通過調(diào)整和的元素，學(xué)習(xí)為每個(gè)正軌檢測樣本生成一個(gè)小于任何負(fù)樣本的距離的距離。

為了在推理時(shí)也使用學(xué)習(xí)到的組合距離來舍棄不匹配的異常值，我們?yōu)檎龢颖炯拓?fù)樣本集定義了另外兩個(gè)最大的邊際損失：

其中，和表示固定的邊際，是用于在推理時(shí)舍棄不匹配的異常值的恒定閾值。這種損失函數(shù)的設(shè)計(jì)鼓勵(lì)神經(jīng)網(wǎng)絡(luò)對任何正樣本產(chǎn)生一個(gè)小于閾值的距離，對任何負(fù)樣本產(chǎn)生一個(gè)大于的距離。

該神經(jīng)網(wǎng)絡(luò)的總體訓(xùn)練損失定義如下：

在我們的實(shí)現(xiàn)過程中，選擇，與[2]中使用的閾值相同。設(shè)置，大約是的一半。同時(shí)，我們設(shè)置，是的一半。

在測試時(shí)，一旦我們計(jì)算出綜合距離，我們就使用ProbabilisticTracking [2]的貪婪匹配算法進(jìn)行數(shù)據(jù)關(guān)聯(lián)。

D.軌跡初始化模塊

軌跡生命周期管理是多目標(biāo)跟蹤系統(tǒng)的另一個(gè)重要組成部分。大多數(shù)先前的工作要么總是為每個(gè)不匹配的檢測初始化一個(gè)新的軌跡[1]，要么創(chuàng)建一個(gè)臨時(shí)軌跡，然后在將臨時(shí)軌跡轉(zhuǎn)換為完整的軌跡之前等待一個(gè)固定數(shù)量的連續(xù)匹配[2, 7, 8]。

與之前的啟發(fā)式方法不同，我們將軌跡初始化任務(wù)視為一個(gè)二元分類問題。我們提出了軌跡初始化模塊，該模塊將不匹配的檢測記過的融合特征作為輸入，并就是否應(yīng)該初始化一個(gè)新的軌跡生成一個(gè)輸出信度分?jǐn)?shù) ：

其中, 表示圖1d中描述的卷積層、MLP和Sigmoid層。其卷積層與MLP層的結(jié)構(gòu)與。我們使用交叉熵?fù)p失將訓(xùn)練成一個(gè)二元分類器：

其中, 如果有一個(gè)接近檢測目標(biāo)的地面真實(shí)物體，則；否則。在推理時(shí)間，如果大于0.5，我們會(huì)使用新的跟蹤器來初始化不匹配的檢測。這個(gè)軌跡初始化模塊幫助我們提出的跟蹤系統(tǒng)減少了假陽性軌跡的數(shù)量，如圖2所示。

Ⅳ實(shí)驗(yàn)結(jié)果

A. 數(shù)據(jù)集

我們在NuScenes[9]和KITTI[10]數(shù)據(jù)集上評估我們的方法。NuScenes數(shù)據(jù)集包含1000個(gè)駕駛序列。每個(gè)序列的長度大約為20秒，包含以2Hz采樣的關(guān)鍵幀。我們遵循官方的數(shù)據(jù)分割設(shè)置，用700個(gè)序列訓(xùn)練我們的模型，并報(bào)告150個(gè)驗(yàn)證序列的結(jié)果。對于KITTI數(shù)據(jù)集，我們遵循GNN3DMOT[5]的分割設(shè)置，其中包含10個(gè)訓(xùn)練序列和11個(gè)驗(yàn)證序列。在所有的實(shí)驗(yàn)中，我們通過使用Adam[29]優(yōu)化器來訓(xùn)練我們的模塊，初始學(xué)習(xí)率為0.001，歷時(shí)10個(gè)周期。

B.評估指標(biāo)

為了評估我們的算法性能，我們使用平均多目標(biāo)跟蹤精度(Average Multi-Object Tracking Accuracy, AMOTA)，這也是NuScenes跟蹤挑戰(zhàn)(The NuScenes Tracking Challenge [9])中使用的主要評估指標(biāo)。AMOTA是不同召回閾值下的跟蹤精度平均值，定義如下：

其中為采樣點(diǎn)數(shù)，是抽樣召回閾值。MOTAR (Recall-Normalized Multi-Object Tracking Accuracy) 是召回歸一化多目標(biāo)跟蹤精度，定義如下：

其中為真陽性數(shù)，為身份開關(guān)數(shù)，為假陽性數(shù)，為假陰性數(shù)。

對于KITTI [10]，我們還報(bào)告了標(biāo)準(zhǔn)的多目標(biāo)跟蹤精度(Multi-Object Tracking Accuracy, MOTA)，定義如下：

其中, 和是在單一最佳召回閾值采樣的身份開關(guān)、假陽性和假陰性的數(shù)量。

C.定量結(jié)果

我們在表Ⅰ中報(bào)告了我們的方法在NuScenes驗(yàn)證集中驗(yàn)證的結(jié)果。我們提出的跟蹤方法使用CenterPoint[1]在每幀的3D對象檢測結(jié)果作為卡爾曼濾波器的輸入。為了與最先進(jìn)的方法[1, 2, 7]進(jìn)行公平的比較，我們還將我們的跟蹤方法在僅使用激光雷達(dá)作為輸入時(shí)的定量結(jié)果包括了進(jìn)去。從表Ⅰ可以看出，輸入檢測的質(zhì)量對最終的跟蹤性能至關(guān)重要。在NuScenes檢測挑戰(zhàn)[9]中，CenterPoint [1]提供了比MEGVII [15]更好的3D對象檢測結(jié)果。

從表Ⅰ的最后兩行可以看出，當(dāng)只使用完全相同的3D激光雷達(dá)輸入時(shí)，我們的跟蹤方法優(yōu)于CenterPoint [1]和ProbabilisticTracking [2]。我們的模型能夠使用3D激光雷達(dá)點(diǎn)云數(shù)據(jù)學(xué)習(xí)細(xì)粒度的幾何特征，并且我們的模型還成功地學(xué)習(xí)了幾何特征距離和馬氏距離的有效聯(lián)合權(quán)重。此外，通過融合來自激光雷達(dá)和圖像數(shù)據(jù)的特征，我們的方法可以進(jìn)一步提高整體AMOTA，與之前最先進(jìn)的CenterPoint [1]相比，性能提高了2.8。這一性能增益表明，我們的模型能夠?qū)W習(xí)如何有效地將3D 激光雷達(dá)點(diǎn)云信息和2D相機(jī)圖像信息輸入融合在一起，以實(shí)現(xiàn)更好的整體跟蹤精度。然而，我們的模型并沒有實(shí)現(xiàn)對行人跟蹤的顯著改善。這可能是由于每個(gè)行人的外形和幾何特征隨著時(shí)間的推移會(huì)發(fā)生巨大變化，因?yàn)樗麄兊淖藙輹?huì)發(fā)生變化，而其他對象沒有變形。

我們還將我們的模型與其他多模式跟蹤模型進(jìn)行了比較：GNN3DMOT [5]和PnPNet [4]在NuScenes [9]中的驗(yàn)證結(jié)果（表Ⅱ）和KITTI [10]中的驗(yàn)證結(jié)果（表Ⅲ）。

表I：NuScenes [9]驗(yàn)證集的評估結(jié)果。與基線方法相比，根據(jù)每個(gè)目標(biāo)類別的總體AMOTA和單個(gè)AMOTA進(jìn)行評估。在每一列中，獲得的最佳結(jié)果都用粗體字顯示。（*通過使用[2]的開源代碼和[1]的對象檢測結(jié)果實(shí)現(xiàn)的。）

表II：NuScenes [9]驗(yàn)證集的評估結(jié)果，整體AMOTA和汽車AMOTA的評估。GNN3DMOT [5]僅報(bào)告了整體AMOTA，PnPNet[4]僅報(bào)告汽車的AMOTA。注意，每種方法使用一個(gè)不同的3D目標(biāo)檢測器，這可能會(huì)顯著影響跟蹤精度。（*GNN3DMOT [5]在他們的論文中將AMOTA重命名為sAMOTA。）

表III：KITTI [10]驗(yàn)證集的評估結(jié)果，汽車AMOTA和MOTA方面的評估。我們遵循[5]，使用Point R-CNN [11] 3D目標(biāo)檢測器和相同的訓(xùn)練驗(yàn)證數(shù)據(jù)劃分。（*GNN3DMOT [5]在他們的論文中將AMOTA重命名為sAMOTA）

D.消融研究

我們提供了不同可訓(xùn)練模塊的消融分析，以更好地理解它們對整體系統(tǒng)性能的貢獻(xiàn)：距離組合模塊、軌跡初始化模塊和特征融合模塊。我們在表Ⅳ中報(bào)告了我們的結(jié)果。我們注意到，距離組合模塊和軌跡初始化模塊在基線上產(chǎn)生了一致的改進(jìn)，在同時(shí)啟用這兩個(gè)模塊時(shí)達(dá)到了最高的性能點(diǎn)。此外，在融合2D和3D特征時(shí)，我們記錄了性能的持續(xù)增長，這使我們可以得出結(jié)論，我們的模型成功地學(xué)會(huì)了如何利用外觀和幾何特征。

表IV：NuScenes [9]驗(yàn)證集的消融試驗(yàn)結(jié)果。與我們提出的方法的變體相比，根據(jù)每個(gè)對象類別的整體AMOTA和單個(gè)AMOTA進(jìn)行評估。所有變體都使用CenterPoint [1]的對象檢測結(jié)果作為輸入。在每一列中，獲得的最佳結(jié)果都用粗體字顯示。

(a) 輸入的檢測

(b)CenterPoint [1]

(d) 真值

圖2：摩托車的鳥瞰跟蹤結(jié)果可視化。我們繪制了每個(gè)子圖中相同駕駛序列的每個(gè)幀的邊界框，不同的顏色表示跟蹤結(jié)果中不同的跟蹤id，同時(shí)表示真值標(biāo)注中目標(biāo)的不同實(shí)例。(a)：輸入是CenterPoint [1]的對象檢測器提供的檢測邊界框。(b)：CenterPoint [1]的跟蹤結(jié)果。(c)：我們提出的方法的跟蹤結(jié)果。(d)：真實(shí)值。與CenterPoint [1]的結(jié)果相比，我們的跟蹤結(jié)果明顯具有更少的假陽性邊界框，我們的追蹤結(jié)果也更接近于真值。

(a) 序列0, 幀1

(b) 序列0, 幀2

(d) 序列, 幀29

圖3：投影到攝像機(jī)圖像的摩托車跟蹤可視化。(a) 、(b)是序列0中的兩個(gè)連續(xù)幀，(c)、(d)來自序列1。彩色框是跟蹤結(jié)果，不同的顏色表示不同的跟蹤id，白色框表示檢測結(jié)果。我們的模型可以準(zhǔn)確跟蹤序列0中紅色邊界框和序列1中黃色邊界框中的摩托車。在序列0中，我們的距離組合模塊學(xué)習(xí)生成更大的正α值為2.594，這可能是因?yàn)橥庥^特征提供了強(qiáng)大的信息，以匹配這些連續(xù)幀中檢測到的摩托車。在序列1中，我們的模型生成了更小α值為1.802，這可能是因?yàn)檫吔缈蚋?，圖像更模糊。我們的軌道初始化模塊也正確地決定了不對序列1幀28中的假陽性檢測初始化新的跟蹤。

E.定性結(jié)果

如表I所示，我們注意到特定類別的顯著改善（如：摩托車類別超過10%）。在圖2中，我們繪制了BEV上相同駕駛序列的每一幀中摩托車的邊界框，不同顏色的圖像表示不同的跟蹤id，并與方法[1]進(jìn)行比較。從圖2可以看出，與[1]相比，我們的跟蹤結(jié)果具有明顯更少的假陽性邊界框。方法CenterPoint [1]依賴于中心歐幾里德距離，任何不匹配的檢測框總是被初始化為新的跟蹤。相反，我們的跟蹤初始化模塊被設(shè)計(jì)為基于3D激光雷達(dá)和2D圖像特征的融合來決定是否初始化新的跟蹤。此外，我們的方法使用卡爾曼濾波器基于過去的觀測來細(xì)化邊界框位置、方向和尺度，而[1]直接使用潛在噪聲檢測框作為跟蹤結(jié)果，而不使用過去的觀測。

雖然我們在數(shù)量上記錄到，與CenterPoint [1]相比，摩托車類的AMOTA增加了11.0%，但從質(zhì)量上來說，這意味著假陽性跟蹤的數(shù)量顯著減少，雖然AMOTA度量沒有過多懲罰，但這對決策至關(guān)重要。定性和定量結(jié)果之間的差異背后的主要原因是，大多數(shù)假陽性跟蹤是由具有低置信分?jǐn)?shù)的假陽性檢測框組成的。AMOTA開始從那些具有較高置信分?jǐn)?shù)的人身上取樣，因此，大量置信度低的假陽性跟蹤不會(huì)對AMOTA產(chǎn)生太大影響（有關(guān)AMOTA的詳細(xì)信息，請參考[9]）。

圖3顯示了我們將摩托車投影到相機(jī)圖像上的結(jié)果。（a），（b）是序列0中的兩個(gè)連續(xù)幀。（c），（d）來自序列1。白色框表示檢測框，彩色框表示用彩色編碼的跟蹤ID的跟蹤結(jié)果。我們的模型在兩個(gè)序列中都能精確跟蹤摩托車，在序列0中，我們的距離組合模塊對履帶摩托車預(yù)測出了一個(gè)較大的正α值為2.594，代表一個(gè)可靠的特征距離。這是可以預(yù)期到的，因?yàn)樵?D圖像中對應(yīng)的對象很大且可以清晰地捕捉到。在對象較小且模糊的序列1中，模塊預(yù)測了一個(gè)較小的α值為1.802。此外，我們的跟蹤初始化模塊還正確地決定了不對序列1幀28中的假陽性檢測初始化新的跟蹤。

Ⅴ結(jié)論

在本文中，我們提出了一種用于自動(dòng)駕駛的在線概率、多模態(tài)、多目標(biāo)跟蹤算法。我們的模型學(xué)習(xí)融合2D相機(jī)圖像和3D激光雷達(dá)點(diǎn)云特征。然后，這些融合的特征被用于學(xué)習(xí)有效的權(quán)重，以將深度特征距離與Mahalanobis距離相結(jié)合，從而獲得更好的數(shù)據(jù)關(guān)聯(lián)。我們的模型還學(xué)習(xí)以數(shù)據(jù)驅(qū)動(dòng)的方式管理跟蹤循環(huán)周期。我們在NuScenes [9]和KITTI [10]數(shù)據(jù)集上驗(yàn)證了我們提出的方法，我們的方法在定量和定性上都優(yōu)于使用相同目標(biāo)檢測器的最先進(jìn)的基準(zhǔn)方法。

對于未來的工作，我們希望包括額外的模式（如：地圖數(shù)據(jù)）以及新型物體檢測器。同時(shí)，每個(gè)類別學(xué)習(xí)更好的運(yùn)動(dòng)模型也有可能進(jìn)一步改善數(shù)據(jù)關(guān)聯(lián)。最后，我們或許可以利用可微濾波框架端到端地微調(diào)運(yùn)動(dòng)和觀測模型。

參考文獻(xiàn)

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：?期刊 | 一種商用車掛車用制動(dòng)模塊研究
上一篇：“馭勢”——中國汽車產(chǎn)業(yè)發(fā)展國際論壇2022年度之聲成功召開

點(diǎn)贊 0 反對 0 舉報(bào) 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號(hào)
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)
• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬
• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！	• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)
• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

用于自動(dòng)駕駛的概率性3D多模態(tài)多目標(biāo)跟蹤

微信公眾號(hào)

參考文獻(xiàn)

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

用于自動(dòng)駕駛的概率性3D多模態(tài)多目標(biāo)跟蹤

微信公眾號(hào)

參考文獻(xiàn)

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將