基于興趣區(qū)域投票的多任務(wù)車輛檢測
本文譯自:《Multi-Task VehicleDetection With Region-of-Interest Voting》
原作者:Wenqing Chu , Yao Liu,Chen Shen, Deng Cai
原文鏈接:https://ieeexplore.ieee.org/document/8066331/
摘要:車輛檢測是自動(dòng)駕駛系統(tǒng)中的一個(gè)具有挑戰(zhàn)性的問題,因?yàn)槠渚哂休^大的結(jié)構(gòu)和外觀變化。在本文中,我們提出了一種基于多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)和感興趣區(qū)域(RoI)投票的新型車輛檢測方案。在CNN體系結(jié)構(gòu)的設(shè)計(jì)中,我們以子類別、區(qū)域重疊、邊界框回歸和每個(gè)訓(xùn)練ROI的類別作為一個(gè)多任務(wù)學(xué)習(xí)框架來豐富監(jiān)督信息。該設(shè)計(jì)允許CNN模型同時(shí)在不同車輛屬性之間共享視覺信息,因此,可以有效地提高檢測魯棒性。此外,大多數(shù)現(xiàn)有方法獨(dú)立考慮每個(gè)RoI,忽略了其相鄰RoI的線索。在我們的方法中,我們利用CNN模型來預(yù)測每個(gè)RoI邊界朝向相應(yīng)標(biāo)注過的數(shù)據(jù)的偏移方向。然后,每個(gè)RoI可以對那些合適的相鄰邊界框進(jìn)行投票,這與該附加信息一致。投票結(jié)果與每個(gè)RoI本身的得分相結(jié)合,以從大量候選中找到更準(zhǔn)確的位置。KITTI和PASCAL2007車輛數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,與其他現(xiàn)有方法相比,我們的方法在車輛檢測中實(shí)現(xiàn)了卓越的性能。
1 引言

通常,車輛檢測可以被視為通用對象檢測的特殊主題。在過去幾年中,研究人員在提高物體檢測性能方面取得了顯著進(jìn)展[3-8]。解決此問題的常見流程包括兩個(gè)主要步驟:(1)生成建議目標(biāo),(2)特定類的評分和邊界框回歸。對于第一步,有很多精心設(shè)計(jì)的方法[8-11]用于生成建議目標(biāo)或僅僅是[5]中使用的滑動(dòng)窗口方式。然后提取對象邊界框的一些特定視覺特征,并利用分類器確定有界區(qū)域是否是期望對象,其中代表性方法包括AdaBoost算法[3],DPM模型[5]和深度CNN模型[7]。然而由于車輛的結(jié)構(gòu)和外觀變化較大,尤其是普遍存在的遮擋,這進(jìn)一步增加了類內(nèi)差異,使得車輛檢測仍然具有挑戰(zhàn)性,此外,許多車輛檢測基準(zhǔn)要求聯(lián)合交叉(IoU)超過0.7以評估正確的定位,這顯著提高了對模型的性能要求。
在本文中,我們提出了一種基于多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)、感興趣區(qū)域(RoI)投票和多級(jí)定位的新型車輛檢測方案,由RV-CNN表示。多任務(wù)學(xué)習(xí)旨在實(shí)現(xiàn)信息共享,同時(shí)解決多個(gè)相關(guān)任務(wù),提高部分甚至所有任務(wù)的性能[12]。在我們的方法中,CNN模型在四個(gè)任務(wù)上進(jìn)行訓(xùn)練:類別分類,邊界框回歸,重疊預(yù)測和子類別分類。在這里,我們引入子類別分類任務(wù)來使得CNN模型在不同的遮擋,截?cái)嗪鸵朁c(diǎn)下都能學(xué)習(xí)車輛的良好表示。我們利用[13]中提出的3D體素模式(3DVP)概念進(jìn)行子類別分類。 3DVP是一種對象表示,它共同捕獲關(guān)鍵對象屬性,這些屬性涉及到在聚類過程中剛性對象的外觀、對象姿態(tài)、遮擋和截?cái)?。然后每個(gè)3DVP被認(rèn)為是一個(gè)子類別。
大多數(shù)檢測方法利用CNN模型的預(yù)測分?jǐn)?shù)進(jìn)行非極大值抑制(NMS),以得到最終的邊界框位置。但是,高于某一水平的檢測分?jǐn)?shù)與邊框提案的可靠性沒有很強(qiáng)的相關(guān)性[14]。原因之一是訓(xùn)分類器被訓(xùn)練為從背景中對對象進(jìn)行分類,而不是對聯(lián)合交叉(IoU)進(jìn)行排序。因此,我們建議使用鄰近的RoI來完善這一評分。首先,我們使用CNN模型同時(shí)預(yù)測從RoI到每個(gè)邊界的標(biāo)注過的數(shù)據(jù)的偏移方向。有了這些額外的信息,我們設(shè)計(jì)了一個(gè)簡單而有效的投票方案來重新分配這些ROI。在所有提案的得分重新計(jì)算后,我們可以應(yīng)用NMS得到最終結(jié)果此外,我們觀察到,在IOU超過0.7的限制下,區(qū)域提案網(wǎng)絡(luò)[8]的產(chǎn)出不能保證達(dá)到100%召回。這將對以下檢測網(wǎng)絡(luò)構(gòu)成挑戰(zhàn),因?yàn)樗仨氃跊]有高質(zhì)量建議的情況下處理一些困難的案例。此外,在更快的R-CNN [8]中,NMS的預(yù)測框的檢測分?jǐn)?shù)不準(zhǔn)確,因?yàn)樗诨貧w之前應(yīng)用了RoI的卷積特征??紤]到這兩個(gè)缺點(diǎn),本文提出了一種多級(jí)定位方案,進(jìn)一步提高了檢測精度和可靠性。
我們已經(jīng)在兩個(gè)常用的車輛檢測數(shù)據(jù)集(KITTI車輛基準(zhǔn)[2]和PASCAL VOC2007汽車數(shù)據(jù)集[1])上評估了我們的方法。我們的方法在KITTI車輛檢測基準(zhǔn)上實(shí)現(xiàn)了91.67%的Ap,顯著超越了最近的結(jié)果[15-17]。此外,我們還對PASCAL VOC2007汽車數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,與基線和相關(guān)方法相比,我們的RV-CNN模型具有了一致且顯著的性能提升。
2 相關(guān)工作
在本節(jié)中,我們將簡要回顧一下最近關(guān)于一般物體檢測和車輛檢測的工作。
通用目標(biāo)檢測是近年來研究的一個(gè)活躍領(lǐng)域,有著大量的前期工作。[3]中的級(jí)聯(lián)式檢測器是最早實(shí)現(xiàn)相對高精度實(shí)時(shí)檢測的方法之一。這種結(jié)構(gòu)已廣泛用于實(shí)現(xiàn)人臉[3],[18],行人[19]和車輛[20]的滑動(dòng)窗口探測器?;诓糠值哪P鸵彩俏墨I(xiàn)中最強(qiáng)大的物體檢測方法之一,其中可變形的組件模型(DPM)[5],[21]是一個(gè)很好的例子。該方法采用定向梯度直方圖(HOG)特征作為輸入,并利用由根濾波器和組件濾波器組成的星形結(jié)構(gòu)來表示高度可變的物體,使其能夠檢測出被嚴(yán)重遮擋的物體。
最近,深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)表現(xiàn)出了卓越的性能,在各種視覺任務(wù)中占據(jù)了最高精度基準(zhǔn)[22-26]。這些工作提出了大量的方法[7],[8],[27-36]解決了CNN模型的問題。在這些方法中,具有卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)框架[7]的區(qū)域已經(jīng)取得了很好的檢測性能,并成為對象檢測的常用范例。其基本步驟包括使用選擇性搜索的建議目標(biāo)生成[9],CNN特征提取,基于CNN特征的對象候選分類和回歸。
然而R-CNN帶來了過多的計(jì)算成本,因?yàn)樗鼮閿?shù)千個(gè)建議目標(biāo)重復(fù)提取CNN特征。為了加速R-CNN中的特征提取過程,提出了空間金字塔匯集網(wǎng)絡(luò)(SPPnet)[28]和基于快速區(qū)域的卷積網(wǎng)絡(luò)(Fast R-CNN)[29]。其缺點(diǎn)是仍然采用自下而上的建議目標(biāo)生成,這是效率的瓶頸。相反,在[8]中提出了一種區(qū)域生成網(wǎng)絡(luò)(RPN),它與檢測網(wǎng)絡(luò)共享全圖像卷積特征,從而實(shí)現(xiàn)了幾乎無成本的區(qū)域生成。MS-CNN [15]由提議子網(wǎng)和檢測子網(wǎng)組成。在提議子網(wǎng)中,在多個(gè)輸出層執(zhí)行檢測,以便匹配不同尺度的對象。這種方案也用于SSD [32]和TextBoxes [37]。另一個(gè)有趣的工作是YOLO [31],它在7x7網(wǎng)格內(nèi)輸出對象檢測。該網(wǎng)絡(luò)以40fps運(yùn)行,但檢測精度有所降低。
大多數(shù)這些深度模型都針對一般物體檢測。為了更好地處理被遮擋車輛的檢測問題,在[38]中的一個(gè)DPM模型提供的根和組件分?jǐn)?shù)配置上使用了第二層條件隨機(jī)場(CRF)。最近,在[39]和[40]中提出了一個(gè)和或結(jié)構(gòu),以有效地將遮擋配置與經(jīng)典的DPM進(jìn)行比較。在[41]中,作者建議將車輛檢測和屬性注釋結(jié)合起來。此外,改進(jìn)模型泛化的一種常見方法是學(xué)習(xí)對象類[20]中的子類別。子類別已被廣泛應(yīng)用于車輛檢測,并提出了幾種子類別分類方法[42-45]。在[42]中,使用局部線性嵌入和HOG特征以無監(jiān)督的方式學(xué)習(xí)學(xué)習(xí)對應(yīng)于車輛方向的視覺子類別。參考文獻(xiàn)[43]根據(jù)對象的視角執(zhí)行聚類,以發(fā)現(xiàn)子類別。在[45]中研究了區(qū)分性子分類,其中聚類步驟考慮了負(fù)面實(shí)例。最近,[13]提出了一種新的對象表示,即三維體素模式(3DVP),它共同編碼對象的關(guān)鍵屬性,包括外觀、三維形狀、視點(diǎn)、遮擋和截?cái)唷T摲椒ㄒ詳?shù)據(jù)驅(qū)動(dòng)的方式發(fā)現(xiàn)3DVPS,并為3DVPS訓(xùn)練一組專門的檢測器。在[46]中,作者利用3DVP子類別信息訓(xùn)練子類別卷積層,輸出特定位置和比例下某些子類別存在的熱圖。在我們的工作中,我們將子類別分類作為改進(jìn)基于CNN的檢測性能的多任務(wù)的一部分,并且可以使用在[13]、[42]和[43]中獲得的子類別標(biāo)簽來實(shí)現(xiàn)該組件。
3 具體檢測過程
A.多任務(wù)損失函數(shù)
最近,多任務(wù)學(xué)習(xí)已經(jīng)應(yīng)用于許多計(jì)算機(jī)視覺問題,特別是在缺乏訓(xùn)練樣本的情況下[12]。多任務(wù)學(xué)習(xí)的目的是在同時(shí)解決多個(gè)相關(guān)任務(wù)的同時(shí),加強(qiáng)信息共享。這種共享已經(jīng)被證明可以提高部分或全部任務(wù)的性能[12],[47],[48]。對于車輛檢測問題,我們通過子類別,區(qū)域重疊,邊界框回歸和每個(gè)訓(xùn)練RoI的類別作為多任務(wù)學(xué)習(xí)框架,豐富了監(jiān)督信息。接下來,我們將詳細(xì)解釋多任務(wù)CNN模型的提議方法的細(xì)節(jié)。圖2顯示了所提出的多任務(wù)學(xué)習(xí)框架的總體流程。如圖2所示,在生成RoI之后,我們將[29]中提出的RoI池化層應(yīng)用于每個(gè)RoI的池卷積特征。然后,匯集的卷積特征用于完成四個(gè)任務(wù):類別分類,邊界框回歸,重疊預(yù)測和子類別分類。最后一部分“偏移方向預(yù)測”將在下一節(jié)中描述。每個(gè)被訓(xùn)練的RoI都標(biāo)有真實(shí)類和真實(shí)邊界框回歸目標(biāo),類似于[29]中的設(shè)置。通常,該監(jiān)督信息用于設(shè)計(jì)分類損失L cat和邊界框回歸損失L loc。
接下來,第三個(gè)任務(wù)是子類別分類。對于復(fù)雜和雜亂的城市場景中的車輛檢測,遮擋和視點(diǎn)是關(guān)鍵方面。如在[40]中,處理遮擋需要能夠捕獲組件層面上遮擋的基本規(guī)律(即不同遮擋配置),并且明確地利用與遮擋共同發(fā)生的上下文信息,這超出了單車輛檢測的范圍。此外,不同視圖中的2D圖像也難以識(shí)別。這些顯著增加了類內(nèi)差異。為了表示遮擋和視點(diǎn)變化,我們采用最近在[13]中提出的3D體素模式(3DVP)的概念。 3DVP是一種對象表示,它共同捕獲與外觀,三維形狀和遮擋掩膜相關(guān)的關(guān)鍵對象屬性。參考文獻(xiàn)[13]提出在網(wǎng)絡(luò)上的存儲(chǔ)庫中利用3DCAD模型,例如Trimble3D Warehouse,并將這些3D CAD模型與2D圖像一起標(biāo)注以構(gòu)建3D體素示例。更具體地說,對于訓(xùn)練集中的每個(gè)圖像,使用從預(yù)定義的模型集合中選擇的3D CAD模型來標(biāo)記圖像中的對象,選擇的模型是有與真實(shí)3D長方體最接近的縱橫比的模型。然后使用相機(jī)參數(shù)將所有標(biāo)注的3D CAD模型投影到圖像平面上并獲得深度排序掩模。在下文中,深度排序掩模確定投影的3D CAD模型的哪個(gè)像素是可見的,被遮擋的或截?cái)嗟摹?3DVP表示一組三維體素示例,這些示例共享在其三維體素模型中編碼的類似可見性模式。參考文獻(xiàn)[13]通過在統(tǒng)一的三維空間中聚類三維體素樣本來發(fā)現(xiàn)3DVP。有關(guān)詳細(xì)信息,讀者可以參考他們的項(xiàng)目網(wǎng)站。

在[13]之后,我們對剛性物體(即KITTI中的車輛)采用3D體素模式(3DVP)表示,它在聚類過程中共同模擬物體姿態(tài),遮擋和截?cái)?。然后每個(gè)3DVP被認(rèn)為是一個(gè)子類別。圖3顯示了Kitti車輛數(shù)據(jù)集中不同子類別車輛的幾個(gè)示例。通過這些附加的注釋,CNN模型可以捕獲更多關(guān)鍵信息進(jìn)行檢測。如圖2所示,CNN模型在K + 1個(gè)子類別上輸出離散概率分布(每個(gè)RoI),p =(p 0,...,p K)。與往常一樣,p是由一個(gè)全連接層的k+1個(gè)輸出上的softmax計(jì)算的。因此,子類別分類的損失公式為Lsub(p,u) = logpu,它是真實(shí)分類u類的對數(shù)損失。

此外,我們發(fā)現(xiàn)預(yù)測RoI與相應(yīng)的標(biāo)注過的數(shù)據(jù)之間的重疊對其他任務(wù)是有益的。對于重疊回歸,我們使用下列方程中的損失。

其中

是一種強(qiáng)大的L1損耗,其對異常值的敏感性低于L2損耗,這需要仔細(xì)調(diào)整學(xué)習(xí)速率以防止爆炸梯度。 Op表示由CNN模型預(yù)測的重疊,并且根據(jù)ROI和標(biāo)注過的數(shù)據(jù)計(jì)算Og。
總結(jié),整個(gè)多任務(wù)框架的損失可以表述為:

上式中的超參數(shù)λ1,λ2,λ3用于控制四個(gè)任務(wù)損失之間的平衡。我們在驗(yàn)證數(shù)據(jù)集上調(diào)整了這些超參數(shù)。具體地,在實(shí)驗(yàn)中將λ1,λ2,λ3設(shè)定為1,10,1.2。
B.感興趣的區(qū)域投票
我們觀察到檢測分?jǐn)?shù)不能很好地表示有界區(qū)域的可靠性或置信度。在[14]中,作者還認(rèn)為,高于某一水平的檢測分?jǐn)?shù)與與框提議的最優(yōu)性沒有很大關(guān)系。實(shí)際上這并不奇怪,因?yàn)榉诸惼鞅挥?xùn)練為從背景中分類對象而不是對IoU進(jìn)行排序。另外,預(yù)測框的分?jǐn)?shù)由RoI的卷積特征計(jì)算,其與回歸框略有不同,這也是值得懷疑的。為了解決這個(gè)問題,我們使用鄰近的RoI來優(yōu)化其得分。首先,我們使用CNN模型同時(shí)預(yù)測從每個(gè)RoI邊界到標(biāo)注過的數(shù)據(jù)邊界的偏移方向。然后我們可以得到四個(gè)變量來指示實(shí)際的方向。在我們的方法中,我們分別用D l,D t,D r,D d表示這四個(gè)變量,分別用于RoI的左邊界,頂邊界,右邊界和下邊界。例如,D l的可能預(yù)測如下:“向左轉(zhuǎn)”,“向右轉(zhuǎn)”,“在此處停止”和“此RoI周圍沒有實(shí)例”。對于D t,“上升”,“下降”,“在此處停止”和“此RoI周圍沒有實(shí)例”是可能的訓(xùn)練標(biāo)簽。這些標(biāo)簽可以根據(jù)ROI的位置和訓(xùn)練前的地面實(shí)況來計(jì)算。


其他r b(b,b i)函數(shù)遵循與r l(b,b j)相同的規(guī)則。在所有預(yù)測框的得分重新計(jì)算后,我們可以應(yīng)用NMS得到最終的結(jié)果。
這種RoI投票方法有幾個(gè)優(yōu)點(diǎn)。首先,不同于被訓(xùn)練以從背景中對對象進(jìn)行分類而不是對IoU進(jìn)行排名的類別分類器,我們的RoI投票方法預(yù)測朝向標(biāo)注過的數(shù)據(jù)的偏移方向,這對于位置是合理的。此外,該RoI投票方法利用來自相鄰RoI的統(tǒng)計(jì)信息,這使得結(jié)果更加穩(wěn)健和可靠。其次,與基于CNN的回歸任務(wù)解決檢測問題的方法相比,我們的方法采用了更加文件的分類模型,既簡單又有效。CNN模型在分類任務(wù)上通常比回歸任務(wù)取得更好的性能[49]。由于具有softmax損失的偏移方向的分類使得模型在真實(shí)方向上最大限度地激活,而不是在邊界框坐標(biāo)的精確值上激活。此外,預(yù)測朝向標(biāo)注過的數(shù)據(jù)的方向可以作為多任務(wù)框架的一部分來實(shí)現(xiàn),這不會(huì)給計(jì)算帶來額外的負(fù)擔(dān)。
C. 多級(jí)定位
在Fast RCNN[29]等常見的目標(biāo)檢測流程中,我們發(fā)現(xiàn)了兩個(gè)缺點(diǎn)。首先,由于許多檢測基準(zhǔn)要求IOU超過0.7才能評估正確的定位,因此區(qū)域生成網(wǎng)絡(luò)[8]經(jīng)常無法達(dá)到100%的召回率。這將對以下檢測網(wǎng)絡(luò)構(gòu)成挑戰(zhàn),因?yàn)樗仨氃跊]有高質(zhì)量建議的情況下處理一些困難的案例。其次,在快速的R-CNN中,用于進(jìn)行NMS的提案的分?jǐn)?shù)不準(zhǔn)確,因?yàn)樗鼈冊诨貧w前采用了特征。這兩個(gè)因素將降低這些檢測器在實(shí)際車輛檢測任務(wù)中的性能。因此,我們引入了一個(gè)多層次的定位框架,以粗到細(xì)的方式解決這兩個(gè)問題。具體來說,我們的定位方案從區(qū)域生成網(wǎng)絡(luò)[8]開始,通過迭代評分和細(xì)化它們的坐標(biāo)來工作。在這里,我們實(shí)施了一個(gè)兩階段方案。首先,我們將所有與標(biāo)注過的數(shù)據(jù)重疊大于0.5的提案作為培訓(xùn)第一階段回歸網(wǎng)絡(luò)的正樣本。由于我們發(fā)現(xiàn)RPN在直接使用0.7時(shí)未能召回所有車輛,而在0.5時(shí)所有車輛都有正面建議。在測試階段,該回歸網(wǎng)絡(luò)可以將召回率從97.8%提高到98.9%。在第二階段,我們使用來自第一階段的預(yù)測邊界框來訓(xùn)練第二級(jí)目標(biāo)檢測網(wǎng)絡(luò),使用與標(biāo)注過的數(shù)據(jù)重疊大于0.7的建議作為陽性樣本。在這個(gè)階段,大多數(shù)車輛都有高質(zhì)量的建議,這使得回歸任務(wù)相對容易。此外,我們發(fā)現(xiàn)第一級(jí)網(wǎng)絡(luò)的輸出提供了強(qiáng)有力的建議,使第二網(wǎng)絡(luò)產(chǎn)生更準(zhǔn)確的定位。另外,由第二網(wǎng)絡(luò)計(jì)算的邊界框偏移通常很小,這使得預(yù)測框的得分更準(zhǔn)確。

(a)原始圖像(b)NMS之前的部分車輛檢測結(jié)果
考慮到速度,我們對所有提案進(jìn)行一級(jí)定位,并選擇其中的一部分進(jìn)行二級(jí)定位。選擇的規(guī)則是:如果一個(gè)提案與預(yù)測框有很大的重疊,我們將不會(huì)進(jìn)行第二次定位。我們認(rèn)為,如果重疊度很大,評分是準(zhǔn)確的,提案不需要再次回歸。在實(shí)驗(yàn)部分,我們將此閾值設(shè)置為0.9。在多級(jí)定位之后,我們獲得了一系列檢測結(jié)果,這些檢測結(jié)果都具有高召回率和準(zhǔn)確定位。我們考慮重用卷積層功能來進(jìn)行多級(jí)定位。但是,性能增益并不令人滿意。因此,對于第二階段,我們訓(xùn)練一個(gè)新的回歸網(wǎng)絡(luò)。我們采用這種設(shè)計(jì)是因?yàn)槲覀兿Mㄟ^相應(yīng)邊界框的卷積特征盡快準(zhǔn)確地計(jì)算提案的分類分?jǐn)?shù)。
D.子類別的NMS
在復(fù)雜的交通場景中,遮擋使得車輛檢測非常具有挑戰(zhàn)性。例如,圖4中的藍(lán)色圓圈中有兩輛汽車彼此靠近,它們的IOU大于0.7。雖然我們之前的管道可以檢測到它們的位置并為它們分配高分,但標(biāo)準(zhǔn)的后處理步驟NMS將過濾其中一個(gè)分?jǐn)?shù)較低的邊界框。如果我們將NMS的閾值設(shè)置得更高,則可以保留兩個(gè)邊界框。
但是,檢測結(jié)果的精度會(huì)非常低。為了解決這個(gè)難題,我們引入了子類別的NMS(subNMS)方法。在我們的多任務(wù)框架中,我們可以獲得子類別信息。由于藍(lán)色圓圈中的兩輛車屬于不同的子類別,我們的subNMS利用級(jí)聯(lián)管道。首先,我們?yōu)閷儆谕蛔宇悇e的邊界框執(zhí)行標(biāo)準(zhǔn)NMS,其嚴(yán)格閾值為0.5。然后,NMS將處理所有邊界框,其閾值為0.75。通過所提出的subNMS,檢測結(jié)果的精確度和召回率可以達(dá)到平衡。
E.實(shí)施細(xì)節(jié)
我們的框架是使用caffe[50]實(shí)現(xiàn)的,運(yùn)行在配置了Nvidia M40 GPU卡的工作站上。我們不從零開始培訓(xùn)我們的RPN和檢測CNN,而是應(yīng)用在ImageNet[22]上預(yù)訓(xùn)練的模型來初始化卷積層和前兩個(gè)全連接層,然后對整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào)。在KITTI基準(zhǔn)測試中,我們對第一級(jí)定位的AlexNet [22]和第二級(jí)定位的GoogleNet [51]進(jìn)行了微調(diào)。
為了解決尺度的變化,我們使用多尺度方式來訓(xùn)練第一級(jí)定位。由于GPU內(nèi)存限制,我們無法直接培訓(xùn)多尺度GoogleNet檢測網(wǎng)絡(luò)。因此,我們獨(dú)立裁剪和調(diào)整RoI,不在同一輸入圖像中共享卷積計(jì)算。用于多任務(wù)學(xué)習(xí)的全連接層分別由標(biāo)準(zhǔn)差為0.01和0.001的零平均高斯分布初始化。偏差初始化為0。所有層對權(quán)重使用1的每層學(xué)習(xí)率,對偏差使用2的每層學(xué)習(xí)率,全局學(xué)習(xí)率為0.001。在對KITTI訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),我們運(yùn)行SGD進(jìn)行30k小批量迭代,然后將學(xué)習(xí)率降低到0.0001并訓(xùn)練另外10k次迭代。學(xué)習(xí)在40,000次迭代后停止,并且在學(xué)習(xí)期間,將conv1-1到conv2-2的層參數(shù)固定,以實(shí)現(xiàn)更快的訓(xùn)練。
在對VOC07 trainval car數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),我們運(yùn)行SGD進(jìn)行8K小批量迭代,然后將學(xué)習(xí)率降低到0.0001,再進(jìn)行2K迭代培訓(xùn)。使用0.9的動(dòng)量和0.0005的參數(shù)衰減(基于權(quán)重和偏差)。
4 實(shí)驗(yàn)
在本節(jié)中,我們在兩個(gè)公共數(shù)據(jù)集上評估我們的方法:KITTI車輛檢測基準(zhǔn)[2]和PASCAL VOC2007汽車數(shù)據(jù)集[1]。
A.KITTI驗(yàn)證集的實(shí)驗(yàn)
KITTI數(shù)據(jù)集由7481個(gè)訓(xùn)練圖像和7518個(gè)測試圖像組成。訓(xùn)練中的物體總數(shù)達(dá)到51867,其中汽車僅占28742。KITTI汽車檢測任務(wù)的關(guān)鍵難點(diǎn)在于大量汽車尺寸較?。ǜ叨?lt;40像素)并且被遮擋。
由于KITTI測試集的基本真實(shí)注釋不公開,我們使用[46]的訓(xùn)練/驗(yàn)證分割來對我們的框架進(jìn)行分析,其中分別包含3682個(gè)圖像和3799個(gè)圖像。對于KITTI的驗(yàn)證,我們使用125個(gè)子類別(125個(gè)3DVP用于汽車),而對于KITTI的測試,我們使用227個(gè)子類別(227個(gè)3DVP用于汽車)。關(guān)于子類別的數(shù)量,我們遵循[13]中的配置。 3DVP是一種數(shù)據(jù)驅(qū)動(dòng)方法,子類別的數(shù)量是聚類算法中使用的一個(gè)超參數(shù)。對于驗(yàn)證數(shù)據(jù)集,僅使用訓(xùn)練數(shù)據(jù)集來發(fā)現(xiàn)3DVP模式。對于測試數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集的結(jié)合更加復(fù)雜,所以子類別的數(shù)量更多。

確定位,紅色框表示錯(cuò)誤報(bào)警藍(lán)色框表示檢測缺失)
我們根據(jù)KITTI基準(zhǔn)[2]建議,在三個(gè)難度級(jí)別(簡單,適度和難度)上評估我們的識(shí)別結(jié)果。為了評估物體檢測精度,在整個(gè)實(shí)驗(yàn)中報(bào)告平均精度(AP)。
汽車的KITTI基準(zhǔn)采用0.7重疊閾值。表I顯示了三個(gè)類別的檢測結(jié)果,其中我們證明了各種組分對KITTI的RV-CNN性能的影響。從表I可以看出,多任務(wù)學(xué)習(xí),RoI投票和多層次本地化的組成部分都是有效的設(shè)計(jì)。對于那些中等和難度級(jí)別的汽車,我們的方法可以通過更多組件實(shí)現(xiàn)更好的性能。

表1

為了展示我們方法的穩(wěn)健性,我們給出了圖6中不同IOU閾值下的AP。此外,圖5顯示了我們在KITTI驗(yàn)證數(shù)據(jù)集上的檢測結(jié)果的一些示例。我們可以看到,檢測中失敗的大多是那些難以看到的被遮擋的汽車。將來,我們需要將CNN模型與一些遮擋推理機(jī)制相結(jié)合,以更好地處理這些困難案例。
B.KITTI測試集的實(shí)驗(yàn)
為了與KITTI檢測基準(zhǔn)的最新方法進(jìn)行比較,我們使用所有KITTI訓(xùn)練數(shù)據(jù)訓(xùn)練我們的RPN和RV-CNN,然后將我們的結(jié)果提交到官方網(wǎng)站,在KITTI測試集上測試我們的方法。
表2列出了三類檢測結(jié)果,我們將我們的方法(RV-CNN)與KITTI評估的不同方法進(jìn)行了比較。這些結(jié)果是在2017年3月提取的。最近,評估腳本已經(jīng)更改,并提供了原始結(jié)果。我們的方法在基于中等難度結(jié)果的所有已發(fā)布方法中排名第一。實(shí)驗(yàn)結(jié)果證明了我們的CNN能夠處理具有更多遮擋和截?cái)嗟能囕v。圖7給出了中等類別的KITTI測試裝置的精確召回曲線。

表2

C.VOC Pascal 2007車輛數(shù)據(jù)集的實(shí)驗(yàn)
我們還將我們方法與幾個(gè)競爭模型:DPM [5],RCNN [7],快速RCNN [29]和更快的RCNN [8]在另一個(gè)公共數(shù)據(jù)集上進(jìn)行了比較:PASCAL VOC2007汽車數(shù)據(jù)集[1]。這些方法在一般物體檢測方面獲得了最先進(jìn)的性能,并且這些代碼是公開可用的。

我們在VOC-RELEASE5[65]中采用訓(xùn)練好的車輛模型用于DPM,而基于CNN的其他模型和我們的方法則基于預(yù)訓(xùn)練的VGG16模型。提取PASCAL VOC 2007數(shù)據(jù)集中的訓(xùn)練集和測試集(總共1434個(gè)圖像)中包含的所有圖像以進(jìn)行評估。
汽車檢測評估標(biāo)準(zhǔn)與PASCAL目標(biāo)檢測相同。聯(lián)合交叉(IoU)設(shè)置為0.7以以確保定位正確。圖8顯示了PASCAL VOC2007汽車測試集的精確召回曲線。由于3DVP需要標(biāo)注過的數(shù)據(jù)3D注釋(立方體)和相機(jī)參數(shù),我們沒有找到PASCAL VOC的這些標(biāo)簽。因此,我們刪除了PascalVOC數(shù)據(jù)集實(shí)驗(yàn)中的子類別分類任務(wù)。APS分別為63.91%(我們的模型)、38.52%(RCNN)、52.95%(快速RCNN)、59.82%(快速RCNN)和57.14%(DPM)。盡管這個(gè)數(shù)據(jù)非常小,但我們的方法依舊勝過了其他方法。
5 結(jié)論
在本文中,我們開發(fā)了一種基于多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)和感興趣區(qū)域(RoI)投票的新型車輛檢測方案。KITTI和PASCAL2007汽車數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,我們的方法優(yōu)于大多數(shù)現(xiàn)有的車輛檢測框架。在未來,我們將探索一個(gè)更有效的投票機(jī)制的端到端框架。此外,我們希望將CNN模型與一些遮擋推理方法相結(jié)合,以更好地處理這些困難案例。
廣告 編輯推薦
最新資訊
-
“汽車爬坡試驗(yàn)方法”將有國家標(biāo)準(zhǔn)
2026-03-03 12:44
-
十年耐久監(jiān)管時(shí)代:電池系統(tǒng)開發(fā)策略將如何
2026-03-03 12:44
-
聯(lián)合國法規(guī)R59對機(jī)動(dòng)車備用消聲系統(tǒng)的工程
2026-03-03 12:08
-
聯(lián)合國法規(guī)R58對后下部防護(hù)裝置的工程化約
2026-03-03 12:07
-
聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工
2026-03-03 12:07





廣告


























































