基于興趣區(qū)域投票的多任務(wù)車輛檢測

2019-06-19 12:15:33· 來源：同濟(jì)智能汽車研究所

編者按：車輛檢測是自動(dòng)駕駛車輛感知模塊中的關(guān)鍵技術(shù)之一。由于視角、遮擋和截?cái)嘣斐傻拇笠?guī)模內(nèi)部分類的不同，使得車輛檢測非常具有挑戰(zhàn)性。這篇文章提出了一個(gè)

編者按：車輛檢測是自動(dòng)駕駛車輛感知模塊中的關(guān)鍵技術(shù)之一。由于視角、遮擋和截?cái)嘣斐傻拇笠?guī)模內(nèi)部分類的不同，使得車輛檢測非常具有挑戰(zhàn)性。這篇文章提出了一個(gè)基于多任務(wù)CNN和RoI投票的車輛檢測方法，實(shí)驗(yàn)結(jié)果表明，該方法優(yōu)于大多數(shù)現(xiàn)有的車輛檢測框架。

本文譯自：《Multi-Task VehicleDetection With Region-of-Interest Voting》

原作者：Wenqing Chu , Yao Liu,Chen Shen, Deng Cai

原文鏈接：https://ieeexplore.ieee.org/document/8066331/

摘要：車輛檢測是自動(dòng)駕駛系統(tǒng)中的一個(gè)具有挑戰(zhàn)性的問題，因?yàn)槠渚哂休^大的結(jié)構(gòu)和外觀變化。在本文中，我們提出了一種基于多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）和感興趣區(qū)域（RoI）投票的新型車輛檢測方案。在CNN體系結(jié)構(gòu)的設(shè)計(jì)中，我們以子類別、區(qū)域重疊、邊界框回歸和每個(gè)訓(xùn)練ROI的類別作為一個(gè)多任務(wù)學(xué)習(xí)框架來豐富監(jiān)督信息。該設(shè)計(jì)允許CNN模型同時(shí)在不同車輛屬性之間共享視覺信息，因此，可以有效地提高檢測魯棒性。此外，大多數(shù)現(xiàn)有方法獨(dú)立考慮每個(gè)RoI，忽略了其相鄰RoI的線索。在我們的方法中，我們利用CNN模型來預(yù)測每個(gè)RoI邊界朝向相應(yīng)標(biāo)注過的數(shù)據(jù)的偏移方向。然后，每個(gè)RoI可以對那些合適的相鄰邊界框進(jìn)行投票，這與該附加信息一致。投票結(jié)果與每個(gè)RoI本身的得分相結(jié)合，以從大量候選中找到更準(zhǔn)確的位置。KITTI和PASCAL2007車輛數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明，與其他現(xiàn)有方法相比，我們的方法在車輛檢測中實(shí)現(xiàn)了卓越的性能。

1 引言

車輛檢測是許多視覺計(jì)算應(yīng)用的基本問題，包括交通監(jiān)控和智能駕駛。不幸的是，由于不同視點(diǎn)，遮擋和截?cái)嘁鸬妮^大類內(nèi)差異，車輛檢測非常具有挑戰(zhàn)性。圖1顯示了一些具有不同復(fù)雜性的例子，這些例子來自PASCAL2007汽車數(shù)據(jù)集[1]和最近提出的KITTI車輛檢測基準(zhǔn)[2]。

圖1.來自兩個(gè)數(shù)據(jù)集的車輛檢測的復(fù)雜性的圖示（a）PASCAL VOC2007汽車數(shù)據(jù)集[1]由不同視點(diǎn)和較少遮擋的單車組成。（b）KITTI車輛基準(zhǔn)[2]包括安裝在駕駛汽車上的攝像頭拍攝的道路上的汽車，該汽車具有更多的遮擋和截?cái)唷?/div>

通常，車輛檢測可以被視為通用對象檢測的特殊主題。在過去幾年中，研究人員在提高物體檢測性能方面取得了顯著進(jìn)展[3-8]。解決此問題的常見流程包括兩個(gè)主要步驟：（1）生成建議目標(biāo)，（2）特定類的評分和邊界框回歸。對于第一步，有很多精心設(shè)計(jì)的方法[8-11]用于生成建議目標(biāo)或僅僅是[5]中使用的滑動(dòng)窗口方式。然后提取對象邊界框的一些特定視覺特征，并利用分類器確定有界區(qū)域是否是期望對象，其中代表性方法包括AdaBoost算法[3]，DPM模型[5]和深度CNN模型[7]。然而由于車輛的結(jié)構(gòu)和外觀變化較大，尤其是普遍存在的遮擋，這進(jìn)一步增加了類內(nèi)差異，使得車輛檢測仍然具有挑戰(zhàn)性，此外，許多車輛檢測基準(zhǔn)要求聯(lián)合交叉（IoU）超過0.7以評估正確的定位，這顯著提高了對模型的性能要求。

在本文中，我們提出了一種基于多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）、感興趣區(qū)域（RoI）投票和多級(jí)定位的新型車輛檢測方案，由RV-CNN表示。多任務(wù)學(xué)習(xí)旨在實(shí)現(xiàn)信息共享，同時(shí)解決多個(gè)相關(guān)任務(wù)，提高部分甚至所有任務(wù)的性能[12]。在我們的方法中，CNN模型在四個(gè)任務(wù)上進(jìn)行訓(xùn)練：類別分類，邊界框回歸，重疊預(yù)測和子類別分類。在這里，我們引入子類別分類任務(wù)來使得CNN模型在不同的遮擋，截?cái)嗪鸵朁c(diǎn)下都能學(xué)習(xí)車輛的良好表示。我們利用[13]中提出的3D體素模式（3DVP）概念進(jìn)行子類別分類。 3DVP是一種對象表示，它共同捕獲關(guān)鍵對象屬性，這些屬性涉及到在聚類過程中剛性對象的外觀、對象姿態(tài)、遮擋和截?cái)?。然后每個(gè)3DVP被認(rèn)為是一個(gè)子類別。

大多數(shù)檢測方法利用CNN模型的預(yù)測分?jǐn)?shù)進(jìn)行非極大值抑制（NMS），以得到最終的邊界框位置。但是，高于某一水平的檢測分?jǐn)?shù)與邊框提案的可靠性沒有很強(qiáng)的相關(guān)性[14]。原因之一是訓(xùn)分類器被訓(xùn)練為從背景中對對象進(jìn)行分類，而不是對聯(lián)合交叉（IoU）進(jìn)行排序。因此，我們建議使用鄰近的RoI來完善這一評分。首先，我們使用CNN模型同時(shí)預(yù)測從RoI到每個(gè)邊界的標(biāo)注過的數(shù)據(jù)的偏移方向。有了這些額外的信息，我們設(shè)計(jì)了一個(gè)簡單而有效的投票方案來重新分配這些ROI。在所有提案的得分重新計(jì)算后，我們可以應(yīng)用NMS得到最終結(jié)果此外，我們觀察到，在IOU超過0.7的限制下，區(qū)域提案網(wǎng)絡(luò)[8]的產(chǎn)出不能保證達(dá)到100%召回。這將對以下檢測網(wǎng)絡(luò)構(gòu)成挑戰(zhàn)，因?yàn)樗仨氃跊]有高質(zhì)量建議的情況下處理一些困難的案例。此外，在更快的R-CNN [8]中，NMS的預(yù)測框的檢測分?jǐn)?shù)不準(zhǔn)確，因?yàn)樗诨貧w之前應(yīng)用了RoI的卷積特征?？紤]到這兩個(gè)缺點(diǎn)，本文提出了一種多級(jí)定位方案，進(jìn)一步提高了檢測精度和可靠性。

我們已經(jīng)在兩個(gè)常用的車輛檢測數(shù)據(jù)集（KITTI車輛基準(zhǔn)[2]和PASCAL VOC2007汽車數(shù)據(jù)集[1]）上評估了我們的方法。我們的方法在KITTI車輛檢測基準(zhǔn)上實(shí)現(xiàn)了91.67％的Ap，顯著超越了最近的結(jié)果[15-17]。此外，我們還對PASCAL VOC2007汽車數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，與基線和相關(guān)方法相比，我們的RV-CNN模型具有了一致且顯著的性能提升。

2 相關(guān)工作

在本節(jié)中，我們將簡要回顧一下最近關(guān)于一般物體檢測和車輛檢測的工作。

通用目標(biāo)檢測是近年來研究的一個(gè)活躍領(lǐng)域，有著大量的前期工作。[3]中的級(jí)聯(lián)式檢測器是最早實(shí)現(xiàn)相對高精度實(shí)時(shí)檢測的方法之一。這種結(jié)構(gòu)已廣泛用于實(shí)現(xiàn)人臉[3]，[18]，行人[19]和車輛[20]的滑動(dòng)窗口探測器?；诓糠值哪Ｐ鸵彩俏墨I(xiàn)中最強(qiáng)大的物體檢測方法之一，其中可變形的組件模型（DPM）[5]，[21]是一個(gè)很好的例子。該方法采用定向梯度直方圖（HOG）特征作為輸入，并利用由根濾波器和組件濾波器組成的星形結(jié)構(gòu)來表示高度可變的物體，使其能夠檢測出被嚴(yán)重遮擋的物體。

最近，深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）表現(xiàn)出了卓越的性能，在各種視覺任務(wù)中占據(jù)了最高精度基準(zhǔn)[22-26]。這些工作提出了大量的方法[7]，[8]，[27-36]解決了CNN模型的問題。在這些方法中，具有卷積神經(jīng)網(wǎng)絡(luò)（R-CNN）框架[7]的區(qū)域已經(jīng)取得了很好的檢測性能，并成為對象檢測的常用范例。其基本步驟包括使用選擇性搜索的建議目標(biāo)生成[9]，CNN特征提取，基于CNN特征的對象候選分類和回歸。

然而R-CNN帶來了過多的計(jì)算成本，因?yàn)樗鼮閿?shù)千個(gè)建議目標(biāo)重復(fù)提取CNN特征。為了加速R-CNN中的特征提取過程，提出了空間金字塔匯集網(wǎng)絡(luò)（SPPnet）[28]和基于快速區(qū)域的卷積網(wǎng)絡(luò)（Fast R-CNN）[29]。其缺點(diǎn)是仍然采用自下而上的建議目標(biāo)生成，這是效率的瓶頸。相反，在[8]中提出了一種區(qū)域生成網(wǎng)絡(luò)（RPN），它與檢測網(wǎng)絡(luò)共享全圖像卷積特征，從而實(shí)現(xiàn)了幾乎無成本的區(qū)域生成。MS-CNN [15]由提議子網(wǎng)和檢測子網(wǎng)組成。在提議子網(wǎng)中，在多個(gè)輸出層執(zhí)行檢測，以便匹配不同尺度的對象。這種方案也用于SSD [32]和TextBoxes [37]。另一個(gè)有趣的工作是YOLO [31]，它在7x7網(wǎng)格內(nèi)輸出對象檢測。該網(wǎng)絡(luò)以40fps運(yùn)行，但檢測精度有所降低。

大多數(shù)這些深度模型都針對一般物體檢測。為了更好地處理被遮擋車輛的檢測問題，在[38]中的一個(gè)DPM模型提供的根和組件分?jǐn)?shù)配置上使用了第二層條件隨機(jī)場（CRF）。最近，在[39]和[40]中提出了一個(gè)和或結(jié)構(gòu)，以有效地將遮擋配置與經(jīng)典的DPM進(jìn)行比較。在[41]中，作者建議將車輛檢測和屬性注釋結(jié)合起來。此外，改進(jìn)模型泛化的一種常見方法是學(xué)習(xí)對象類[20]中的子類別。子類別已被廣泛應(yīng)用于車輛檢測，并提出了幾種子類別分類方法[42-45]。在[42]中，使用局部線性嵌入和HOG特征以無監(jiān)督的方式學(xué)習(xí)學(xué)習(xí)對應(yīng)于車輛方向的視覺子類別。參考文獻(xiàn)[43]根據(jù)對象的視角執(zhí)行聚類，以發(fā)現(xiàn)子類別。在[45]中研究了區(qū)分性子分類，其中聚類步驟考慮了負(fù)面實(shí)例。最近，[13]提出了一種新的對象表示，即三維體素模式（3DVP），它共同編碼對象的關(guān)鍵屬性，包括外觀、三維形狀、視點(diǎn)、遮擋和截?cái)唷Ｔ摲椒ㄒ詳?shù)據(jù)驅(qū)動(dòng)的方式發(fā)現(xiàn)3DVPS，并為3DVPS訓(xùn)練一組專門的檢測器。在[46]中，作者利用3DVP子類別信息訓(xùn)練子類別卷積層，輸出特定位置和比例下某些子類別存在的熱圖。在我們的工作中，我們將子類別分類作為改進(jìn)基于CNN的檢測性能的多任務(wù)的一部分，并且可以使用在[13]、[42]和[43]中獲得的子類別標(biāo)簽來實(shí)現(xiàn)該組件。

3 具體檢測過程

在本節(jié)中，我們描述了用于解決車輛檢測問題的多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)。對于每個(gè)輸入圖像，我們的方法包括三個(gè)主要階段。首先，我們生成一個(gè)由多尺度區(qū)域生成網(wǎng)絡(luò)（RPN）[8]獲得的對象提議池。然后我們使用多任務(wù)CNN模型來預(yù)測每個(gè)RoI的屬性。根據(jù)回歸結(jié)果，一些提案將由二級(jí)回歸網(wǎng)絡(luò)處理。最后，我們采用有效的投票機(jī)制來優(yōu)化每個(gè)RoI的最終得分。此外，由于我們可以獲得子類別信息，因此我們引入了子類別感知的非極大值抑制（NMS）來更好地處理遮擋。最后，我們可以獲得在實(shí)際應(yīng)用中非常準(zhǔn)確的預(yù)測框。

A.多任務(wù)損失函數(shù)

最近，多任務(wù)學(xué)習(xí)已經(jīng)應(yīng)用于許多計(jì)算機(jī)視覺問題，特別是在缺乏訓(xùn)練樣本的情況下[12]。多任務(wù)學(xué)習(xí)的目的是在同時(shí)解決多個(gè)相關(guān)任務(wù)的同時(shí)，加強(qiáng)信息共享。這種共享已經(jīng)被證明可以提高部分或全部任務(wù)的性能[12]，[47]，[48]。對于車輛檢測問題，我們通過子類別，區(qū)域重疊，邊界框回歸和每個(gè)訓(xùn)練RoI的類別作為多任務(wù)學(xué)習(xí)框架，豐富了監(jiān)督信息。接下來，我們將詳細(xì)解釋多任務(wù)CNN模型的提議方法的細(xì)節(jié)。圖2顯示了所提出的多任務(wù)學(xué)習(xí)框架的總體流程。如圖2所示，在生成RoI之后，我們將[29]中提出的RoI池化層應(yīng)用于每個(gè)RoI的池卷積特征。然后，匯集的卷積特征用于完成四個(gè)任務(wù)：類別分類，邊界框回歸，重疊預(yù)測和子類別分類。最后一部分“偏移方向預(yù)測”將在下一節(jié)中描述。每個(gè)被訓(xùn)練的RoI都標(biāo)有真實(shí)類和真實(shí)邊界框回歸目標(biāo)，類似于[29]中的設(shè)置。通常，該監(jiān)督信息用于設(shè)計(jì)分類損失L cat和邊界框回歸損失L loc。

接下來，第三個(gè)任務(wù)是子類別分類。對于復(fù)雜和雜亂的城市場景中的車輛檢測，遮擋和視點(diǎn)是關(guān)鍵方面。如在[40]中，處理遮擋需要能夠捕獲組件層面上遮擋的基本規(guī)律（即不同遮擋配置），并且明確地利用與遮擋共同發(fā)生的上下文信息，這超出了單車輛檢測的范圍。此外，不同視圖中的2D圖像也難以識(shí)別。這些顯著增加了類內(nèi)差異。為了表示遮擋和視點(diǎn)變化，我們采用最近在[13]中提出的3D體素模式（3DVP）的概念。 3DVP是一種對象表示，它共同捕獲與外觀，三維形狀和遮擋掩膜相關(guān)的關(guān)鍵對象屬性。參考文獻(xiàn)[13]提出在網(wǎng)絡(luò)上的存儲(chǔ)庫中利用3DCAD模型，例如Trimble3D Warehouse，并將這些3D CAD模型與2D圖像一起標(biāo)注以構(gòu)建3D體素示例。更具體地說，對于訓(xùn)練集中的每個(gè)圖像，使用從預(yù)定義的模型集合中選擇的3D CAD模型來標(biāo)記圖像中的對象，選擇的模型是有與真實(shí)3D長方體最接近的縱橫比的模型。然后使用相機(jī)參數(shù)將所有標(biāo)注的3D CAD模型投影到圖像平面上并獲得深度排序掩模。在下文中，深度排序掩模確定投影的3D CAD模型的哪個(gè)像素是可見的，被遮擋的或截?cái)嗟摹?3DVP表示一組三維體素示例，這些示例共享在其三維體素模型中編碼的類似可見性模式。參考文獻(xiàn)[13]通過在統(tǒng)一的三維空間中聚類三維體素樣本來發(fā)現(xiàn)3DVP。有關(guān)詳細(xì)信息，讀者可以參考他們的項(xiàng)目網(wǎng)站。

圖2.多任務(wù)框架的圖示

在[13]之后，我們對剛性物體（即KITTI中的車輛）采用3D體素模式（3DVP）表示，它在聚類過程中共同模擬物體姿態(tài)，遮擋和截?cái)?。然后每個(gè)3DVP被認(rèn)為是一個(gè)子類別。圖3顯示了Kitti車輛數(shù)據(jù)集中不同子類別車輛的幾個(gè)示例。通過這些附加的注釋，CNN模型可以捕獲更多關(guān)鍵信息進(jìn)行檢測。如圖2所示，CNN模型在K + 1個(gè)子類別上輸出離散概率分布（每個(gè)RoI），p =（p 0，...，p K）。與往常一樣，p是由一個(gè)全連接層的k+1個(gè)輸出上的softmax計(jì)算的。因此，子類別分類的損失公式為Lsub(p,u) = logpu，它是真實(shí)分類u類的對數(shù)損失。

圖3.每一列為一個(gè)子分類

此外，我們發(fā)現(xiàn)預(yù)測RoI與相應(yīng)的標(biāo)注過的數(shù)據(jù)之間的重疊對其他任務(wù)是有益的。對于重疊回歸，我們使用下列方程中的損失。

其中

是一種強(qiáng)大的L1損耗，其對異常值的敏感性低于L2損耗，這需要仔細(xì)調(diào)整學(xué)習(xí)速率以防止爆炸梯度。 Op表示由CNN模型預(yù)測的重疊，并且根據(jù)ROI和標(biāo)注過的數(shù)據(jù)計(jì)算Og。

總結(jié)，整個(gè)多任務(wù)框架的損失可以表述為：

上式中的超參數(shù)λ1，λ2，λ3用于控制四個(gè)任務(wù)損失之間的平衡。我們在驗(yàn)證數(shù)據(jù)集上調(diào)整了這些超參數(shù)。具體地，在實(shí)驗(yàn)中將λ1，λ2，λ3設(shè)定為1，10，1.2。

B.感興趣的區(qū)域投票

我們觀察到檢測分?jǐn)?shù)不能很好地表示有界區(qū)域的可靠性或置信度。在[14]中，作者還認(rèn)為，高于某一水平的檢測分?jǐn)?shù)與與框提議的最優(yōu)性沒有很大關(guān)系。實(shí)際上這并不奇怪，因?yàn)榉诸惼鞅挥?xùn)練為從背景中分類對象而不是對IoU進(jìn)行排序。另外，預(yù)測框的分?jǐn)?shù)由RoI的卷積特征計(jì)算，其與回歸框略有不同，這也是值得懷疑的。為了解決這個(gè)問題，我們使用鄰近的RoI來優(yōu)化其得分。首先，我們使用CNN模型同時(shí)預(yù)測從每個(gè)RoI邊界到標(biāo)注過的數(shù)據(jù)邊界的偏移方向。然后我們可以得到四個(gè)變量來指示實(shí)際的方向。在我們的方法中，我們分別用D l，D t，D r，D d表示這四個(gè)變量，分別用于RoI的左邊界，頂邊界，右邊界和下邊界。例如，D l的可能預(yù)測如下：“向左轉(zhuǎn)”，“向右轉(zhuǎn)”，“在此處停止”和“此RoI周圍沒有實(shí)例”。對于D t，“上升”，“下降”，“在此處停止”和“此RoI周圍沒有實(shí)例”是可能的訓(xùn)練標(biāo)簽。這些標(biāo)簽可以根據(jù)ROI的位置和訓(xùn)練前的地面實(shí)況來計(jì)算。

如前所述，我們使用多尺度RPN模型來生成數(shù)千個(gè)對象提議。利用所提出的多任務(wù)CNN框架，預(yù)測每個(gè)RoI的邊界框偏移，得分和方向。然后結(jié)合每個(gè)ROI的坐標(biāo)和相應(yīng)的框偏移量，我們可以得到大量的預(yù)測框，這比實(shí)際的圖像中的物體數(shù)量大得多。因此，我們將一個(gè)圖像中的所有預(yù)測框分成組，每組對應(yīng)一個(gè)對象。分組方案簡單如下：我們選擇具有最高分?jǐn)?shù)的預(yù)測框作為種子，并將具有高IoU的框與種子放入一個(gè)組中。此過程將迭代，直到分配了所有框。該方案在物體檢測中很常見[5]，[7]，[8]，[29]。我們的目標(biāo)是為每個(gè)組找到最佳對象預(yù)測框。以前的方法直接選擇具有最高預(yù)測分?jǐn)?shù)的預(yù)測框。

在這里，我們利用來自每個(gè)預(yù)測框的相鄰RoI的附加信息來優(yōu)化分?jǐn)?shù)。如果預(yù)測框的位置與其相鄰RoI的預(yù)測方向一致，則該預(yù)測框更可靠。否則，應(yīng)減少預(yù)測框的最終得分。為清晰起見，假設(shè)預(yù)測框具有坐標(biāo)和得分s。并且我們用B表示它的相鄰RoI，用N表示B中RoI數(shù)量，用si表示的第i個(gè)RoI的得分，用表示預(yù)測方向。然后我們制定投票方案，如下所示：

其中

其他r b(b,b i)函數(shù)遵循與r l(b,b j)相同的規(guī)則。在所有預(yù)測框的得分重新計(jì)算后，我們可以應(yīng)用NMS得到最終的結(jié)果。

這種RoI投票方法有幾個(gè)優(yōu)點(diǎn)。首先，不同于被訓(xùn)練以從背景中對對象進(jìn)行分類而不是對IoU進(jìn)行排名的類別分類器，我們的RoI投票方法預(yù)測朝向標(biāo)注過的數(shù)據(jù)的偏移方向，這對于位置是合理的。此外，該RoI投票方法利用來自相鄰RoI的統(tǒng)計(jì)信息，這使得結(jié)果更加穩(wěn)健和可靠。其次，與基于CNN的回歸任務(wù)解決檢測問題的方法相比，我們的方法采用了更加文件的分類模型，既簡單又有效。CNN模型在分類任務(wù)上通常比回歸任務(wù)取得更好的性能[49]。由于具有softmax損失的偏移方向的分類使得模型在真實(shí)方向上最大限度地激活，而不是在邊界框坐標(biāo)的精確值上激活。此外，預(yù)測朝向標(biāo)注過的數(shù)據(jù)的方向可以作為多任務(wù)框架的一部分來實(shí)現(xiàn)，這不會(huì)給計(jì)算帶來額外的負(fù)擔(dān)。

C. 多級(jí)定位

在Fast RCNN[29]等常見的目標(biāo)檢測流程中，我們發(fā)現(xiàn)了兩個(gè)缺點(diǎn)。首先，由于許多檢測基準(zhǔn)要求IOU超過0.7才能評估正確的定位，因此區(qū)域生成網(wǎng)絡(luò)[8]經(jīng)常無法達(dá)到100%的召回率。這將對以下檢測網(wǎng)絡(luò)構(gòu)成挑戰(zhàn)，因?yàn)樗仨氃跊]有高質(zhì)量建議的情況下處理一些困難的案例。其次，在快速的R-CNN中，用于進(jìn)行NMS的提案的分?jǐn)?shù)不準(zhǔn)確，因?yàn)樗鼈冊诨貧w前采用了特征。這兩個(gè)因素將降低這些檢測器在實(shí)際車輛檢測任務(wù)中的性能。因此，我們引入了一個(gè)多層次的定位框架，以粗到細(xì)的方式解決這兩個(gè)問題。具體來說，我們的定位方案從區(qū)域生成網(wǎng)絡(luò)[8]開始，通過迭代評分和細(xì)化它們的坐標(biāo)來工作。在這里，我們實(shí)施了一個(gè)兩階段方案。首先，我們將所有與標(biāo)注過的數(shù)據(jù)重疊大于0.5的提案作為培訓(xùn)第一階段回歸網(wǎng)絡(luò)的正樣本。由于我們發(fā)現(xiàn)RPN在直接使用0.7時(shí)未能召回所有車輛，而在0.5時(shí)所有車輛都有正面建議。在測試階段，該回歸網(wǎng)絡(luò)可以將召回率從97.8％提高到98.9％。在第二階段，我們使用來自第一階段的預(yù)測邊界框來訓(xùn)練第二級(jí)目標(biāo)檢測網(wǎng)絡(luò)，使用與標(biāo)注過的數(shù)據(jù)重疊大于0.7的建議作為陽性樣本。在這個(gè)階段，大多數(shù)車輛都有高質(zhì)量的建議，這使得回歸任務(wù)相對容易。此外，我們發(fā)現(xiàn)第一級(jí)網(wǎng)絡(luò)的輸出提供了強(qiáng)有力的建議，使第二網(wǎng)絡(luò)產(chǎn)生更準(zhǔn)確的定位。另外，由第二網(wǎng)絡(luò)計(jì)算的邊界框偏移通常很小，這使得預(yù)測框的得分更準(zhǔn)確。

圖4.在復(fù)雜的交通場景中，標(biāo)準(zhǔn)流程會(huì)導(dǎo)致漏檢

（a）原始圖像（b）NMS之前的部分車輛檢測結(jié)果

考慮到速度，我們對所有提案進(jìn)行一級(jí)定位，并選擇其中的一部分進(jìn)行二級(jí)定位。選擇的規(guī)則是：如果一個(gè)提案與預(yù)測框有很大的重疊，我們將不會(huì)進(jìn)行第二次定位。我們認(rèn)為，如果重疊度很大，評分是準(zhǔn)確的，提案不需要再次回歸。在實(shí)驗(yàn)部分，我們將此閾值設(shè)置為0.9。在多級(jí)定位之后，我們獲得了一系列檢測結(jié)果，這些檢測結(jié)果都具有高召回率和準(zhǔn)確定位。我們考慮重用卷積層功能來進(jìn)行多級(jí)定位。但是，性能增益并不令人滿意。因此，對于第二階段，我們訓(xùn)練一個(gè)新的回歸網(wǎng)絡(luò)。我們采用這種設(shè)計(jì)是因?yàn)槲覀兿Ｍㄟ^相應(yīng)邊界框的卷積特征盡快準(zhǔn)確地計(jì)算提案的分類分?jǐn)?shù)。

D.子類別的NMS

在復(fù)雜的交通場景中，遮擋使得車輛檢測非常具有挑戰(zhàn)性。例如，圖4中的藍(lán)色圓圈中有兩輛汽車彼此靠近，它們的IOU大于0.7。雖然我們之前的管道可以檢測到它們的位置并為它們分配高分，但標(biāo)準(zhǔn)的后處理步驟NMS將過濾其中一個(gè)分?jǐn)?shù)較低的邊界框。如果我們將NMS的閾值設(shè)置得更高，則可以保留兩個(gè)邊界框。

但是，檢測結(jié)果的精度會(huì)非常低。為了解決這個(gè)難題，我們引入了子類別的NMS（subNMS）方法。在我們的多任務(wù)框架中，我們可以獲得子類別信息。由于藍(lán)色圓圈中的兩輛車屬于不同的子類別，我們的subNMS利用級(jí)聯(lián)管道。首先，我們?yōu)閷儆谕蛔宇悇e的邊界框執(zhí)行標(biāo)準(zhǔn)NMS，其嚴(yán)格閾值為0.5。然后，NMS將處理所有邊界框，其閾值為0.75。通過所提出的subNMS，檢測結(jié)果的精確度和召回率可以達(dá)到平衡。

E.實(shí)施細(xì)節(jié)

我們的框架是使用caffe[50]實(shí)現(xiàn)的，運(yùn)行在配置了Nvidia M40 GPU卡的工作站上。我們不從零開始培訓(xùn)我們的RPN和檢測CNN，而是應(yīng)用在ImageNet[22]上預(yù)訓(xùn)練的模型來初始化卷積層和前兩個(gè)全連接層，然后對整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào)。在KITTI基準(zhǔn)測試中，我們對第一級(jí)定位的AlexNet [22]和第二級(jí)定位的GoogleNet [51]進(jìn)行了微調(diào)。

為了解決尺度的變化，我們使用多尺度方式來訓(xùn)練第一級(jí)定位。由于GPU內(nèi)存限制，我們無法直接培訓(xùn)多尺度GoogleNet檢測網(wǎng)絡(luò)。因此，我們獨(dú)立裁剪和調(diào)整RoI，不在同一輸入圖像中共享卷積計(jì)算。用于多任務(wù)學(xué)習(xí)的全連接層分別由標(biāo)準(zhǔn)差為0.01和0.001的零平均高斯分布初始化。偏差初始化為0。所有層對權(quán)重使用1的每層學(xué)習(xí)率，對偏差使用2的每層學(xué)習(xí)率，全局學(xué)習(xí)率為0.001。在對KITTI訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)，我們運(yùn)行SGD進(jìn)行30k小批量迭代，然后將學(xué)習(xí)率降低到0.0001并訓(xùn)練另外10k次迭代。學(xué)習(xí)在40,000次迭代后停止，并且在學(xué)習(xí)期間，將conv1-1到conv2-2的層參數(shù)固定，以實(shí)現(xiàn)更快的訓(xùn)練。

在對VOC07 trainval car數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)，我們運(yùn)行SGD進(jìn)行8K小批量迭代，然后將學(xué)習(xí)率降低到0.0001，再進(jìn)行2K迭代培訓(xùn)。使用0.9的動(dòng)量和0.0005的參數(shù)衰減（基于權(quán)重和偏差）。

4 實(shí)驗(yàn)

在本節(jié)中，我們在兩個(gè)公共數(shù)據(jù)集上評估我們的方法：KITTI車輛檢測基準(zhǔn)[2]和PASCAL VOC2007汽車數(shù)據(jù)集[1]。

A.KITTI驗(yàn)證集的實(shí)驗(yàn)

KITTI數(shù)據(jù)集由7481個(gè)訓(xùn)練圖像和7518個(gè)測試圖像組成。訓(xùn)練中的物體總數(shù)達(dá)到51867，其中汽車僅占28742。KITTI汽車檢測任務(wù)的關(guān)鍵難點(diǎn)在于大量汽車尺寸較?。ǜ叨?lt;40像素）并且被遮擋。

由于KITTI測試集的基本真實(shí)注釋不公開，我們使用[46]的訓(xùn)練/驗(yàn)證分割來對我們的框架進(jìn)行分析，其中分別包含3682個(gè)圖像和3799個(gè)圖像。對于KITTI的驗(yàn)證，我們使用125個(gè)子類別（125個(gè)3DVP用于汽車），而對于KITTI的測試，我們使用227個(gè)子類別（227個(gè)3DVP用于汽車）。關(guān)于子類別的數(shù)量，我們遵循[13]中的配置。 3DVP是一種數(shù)據(jù)驅(qū)動(dòng)方法，子類別的數(shù)量是聚類算法中使用的一個(gè)超參數(shù)。對于驗(yàn)證數(shù)據(jù)集，僅使用訓(xùn)練數(shù)據(jù)集來發(fā)現(xiàn)3DVP模式。對于測試數(shù)據(jù)集，訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集的結(jié)合更加復(fù)雜，所以子類別的數(shù)量更多。

圖5 檢測成功和失敗案例示例（綠色框表示正

確定位，紅色框表示錯(cuò)誤報(bào)警藍(lán)色框表示檢測缺失）

我們根據(jù)KITTI基準(zhǔn)[2]建議，在三個(gè)難度級(jí)別（簡單，適度和難度）上評估我們的識(shí)別結(jié)果。為了評估物體檢測精度，在整個(gè)實(shí)驗(yàn)中報(bào)告平均精度（AP）。

汽車的KITTI基準(zhǔn)采用0.7重疊閾值。表I顯示了三個(gè)類別的檢測結(jié)果，其中我們證明了各種組分對KITTI的RV-CNN性能的影響。從表I可以看出，多任務(wù)學(xué)習(xí)，RoI投票和多層次本地化的組成部分都是有效的設(shè)計(jì)。對于那些中等和難度級(jí)別的汽車，我們的方法可以通過更多組件實(shí)現(xiàn)更好的性能。

圖6.在KITTI驗(yàn)證集上的不同IOU閾值下的AP曲線

表1

為了展示我們方法的穩(wěn)健性，我們給出了圖6中不同IOU閾值下的AP。此外，圖5顯示了我們在KITTI驗(yàn)證數(shù)據(jù)集上的檢測結(jié)果的一些示例。我們可以看到，檢測中失敗的大多是那些難以看到的被遮擋的汽車。將來，我們需要將CNN模型與一些遮擋推理機(jī)制相結(jié)合，以更好地處理這些困難案例。

B.KITTI測試集的實(shí)驗(yàn)

為了與KITTI檢測基準(zhǔn)的最新方法進(jìn)行比較，我們使用所有KITTI訓(xùn)練數(shù)據(jù)訓(xùn)練我們的RPN和RV-CNN，然后將我們的結(jié)果提交到官方網(wǎng)站，在KITTI測試集上測試我們的方法。

表2列出了三類檢測結(jié)果，我們將我們的方法（RV-CNN）與KITTI評估的不同方法進(jìn)行了比較。這些結(jié)果是在2017年3月提取的。最近，評估腳本已經(jīng)更改，并提供了原始結(jié)果。我們的方法在基于中等難度結(jié)果的所有已發(fā)布方法中排名第一。實(shí)驗(yàn)結(jié)果證明了我們的CNN能夠處理具有更多遮擋和截?cái)嗟能囕v。圖7給出了中等類別的KITTI測試裝置的精確召回曲線。

圖7.中等難度結(jié)果的KITTI測試集的精確召回曲線，沒有方法描述的匿名提交將被忽略

表2

C.VOC Pascal 2007車輛數(shù)據(jù)集的實(shí)驗(yàn)

我們還將我們方法與幾個(gè)競爭模型：DPM [5]，RCNN [7]，快速RCNN [29]和更快的RCNN [8]在另一個(gè)公共數(shù)據(jù)集上進(jìn)行了比較：PASCAL VOC2007汽車數(shù)據(jù)集[1]。這些方法在一般物體檢測方面獲得了最先進(jìn)的性能，并且這些代碼是公開可用的。

圖8.PASCAL2007汽車數(shù)據(jù)集上的精確召回曲線

我們在VOC-RELEASE5[65]中采用訓(xùn)練好的車輛模型用于DPM，而基于CNN的其他模型和我們的方法則基于預(yù)訓(xùn)練的VGG16模型。提取PASCAL VOC 2007數(shù)據(jù)集中的訓(xùn)練集和測試集（總共1434個(gè)圖像）中包含的所有圖像以進(jìn)行評估。

汽車檢測評估標(biāo)準(zhǔn)與PASCAL目標(biāo)檢測相同。聯(lián)合交叉（IoU）設(shè)置為0.7以以確保定位正確。圖8顯示了PASCAL VOC2007汽車測試集的精確召回曲線。由于3DVP需要標(biāo)注過的數(shù)據(jù)3D注釋（立方體）和相機(jī)參數(shù)，我們沒有找到PASCAL VOC的這些標(biāo)簽。因此，我們刪除了PascalVOC數(shù)據(jù)集實(shí)驗(yàn)中的子類別分類任務(wù)。APS分別為63.91%（我們的模型）、38.52%（RCNN）、52.95%（快速RCNN）、59.82%（快速RCNN）和57.14%（DPM）。盡管這個(gè)數(shù)據(jù)非常小，但我們的方法依舊勝過了其他方法。

5 結(jié)論

在本文中，我們開發(fā)了一種基于多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）和感興趣區(qū)域（RoI）投票的新型車輛檢測方案。KITTI和PASCAL2007汽車數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明，我們的方法優(yōu)于大多數(shù)現(xiàn)有的車輛檢測框架。在未來，我們將探索一個(gè)更有效的投票機(jī)制的端到端框架。此外，我們希望將CNN模型與一些遮擋推理方法相結(jié)合，以更好地處理這些困難案例。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：大眾將設(shè)立5000人汽車軟件部門開發(fā)汽車操作系統(tǒng)
上一篇：Lab測試：大眾T-Cross動(dòng)力剎車靜音一流，但車漆還需提升

點(diǎn)贊 0 反對 0 舉報(bào) 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號(hào)
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評論

• 亦莊：自動(dòng)駕駛之城	• 智能網(wǎng)聯(lián)汽車仿真測試標(biāo)準(zhǔn)體系研究
• 汽車自動(dòng)駕駛仿真：場景呈現(xiàn)的技術(shù)深度探討	• 汽車自動(dòng)駕駛感知模塊的開發(fā)與驗(yàn)證：技術(shù)挑戰(zhàn)與未來展望
• 汽車自動(dòng)駕駛感知模塊開發(fā)與驗(yàn)證中的場景仿真技術(shù)探析	• 智能網(wǎng)聯(lián)不確定路口場景下汽車駕駛性能的實(shí)驗(yàn)與評價(jià)研究
• 智能網(wǎng)聯(lián)汽車產(chǎn)品模擬仿真測試可信度評估方法	• 智能網(wǎng)聯(lián)汽車產(chǎn)品模擬仿真測試可信度評估框架
• 智能網(wǎng)聯(lián)汽車產(chǎn)品測試策略：確保安全可靠的駕駛體驗(yàn)	• 智能網(wǎng)聯(lián)汽車視覺感知系統(tǒng)測評驗(yàn)證：性能評估與未來展望

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

基于興趣區(qū)域投票的多任務(wù)車輛檢測

微信公眾號(hào)

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工