日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框

2021-05-13 00:04:41·  來源:同濟(jì)智能汽車研究所  
 
編者按:感知系統(tǒng)作為自動(dòng)駕駛汽車的上游環(huán)節(jié),扮演著非常重要的作用?,F(xiàn)在傳統(tǒng)的檢測(cè)器采用回歸框的形式給出物體位姿的預(yù)測(cè)結(jié)果,而在復(fù)雜場(chǎng)景下,物體的定位出
編者按:感知系統(tǒng)作為自動(dòng)駕駛汽車的上游環(huán)節(jié),扮演著非常重要的作用?,F(xiàn)在傳統(tǒng)的檢測(cè)器采用回歸框的形式給出物體位姿的預(yù)測(cè)結(jié)果,而在復(fù)雜場(chǎng)景下,物體的定位出現(xiàn)很大的不確定性和隨意性,使得這樣的回歸框不能準(zhǔn)確地反應(yīng)物體的位姿。該文章為了解決這個(gè)問題,提出了一種新的基于任意分布的檢測(cè)框并推導(dǎo)其損失函數(shù)。


本文譯自:
《Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection》
文章來源:
Computer Vision and Pattern Recognition (cs.CV) 2020
作者:
Xiang Li, Wenhai Wang, Lijun Wu, Shuo Chen
原文鏈接:
https://arxiv.org/pdf/2006.04388

摘要:一階段物體檢測(cè)對(duì)于包圍框的質(zhì)量的表示往往是直接預(yù)測(cè)框的質(zhì)量,然后再和類別置信度結(jié)合起來使用。這篇文章深入研究了物體檢測(cè)3個(gè)最基礎(chǔ)的要素:質(zhì)量的預(yù)測(cè),類別和定位。發(fā)現(xiàn)了2個(gè)問題(1)質(zhì)量預(yù)測(cè)在訓(xùn)練和推理中的不一致性。(2)當(dāng)在復(fù)雜場(chǎng)景的情況下,物體的定位往往會(huì)出現(xiàn)不確定性和隨意性,而物體位置的狄拉克分布對(duì)于表示這種不確定性和隨意性不合適。為了解決這兩個(gè)問題,這篇文章中對(duì)這三個(gè)要素設(shè)計(jì)了一種新的表示,將質(zhì)量的預(yù)測(cè)放到類別預(yù)測(cè)當(dāng)中去,這樣就得到一個(gè)物體的定位質(zhì)量和類別概率的聯(lián)合表示,并可以使用一個(gè)向量來表示包圍框的任意的分布。使用這種表示的時(shí)候,用到的標(biāo)簽是連續(xù)的,這樣的話,F(xiàn)ocal Loss就不適用了,于是,我們提出了Generalized Focal Loss,將Focal Loss擴(kuò)展到了連續(xù)的場(chǎng)景中。

關(guān)鍵詞:類別不平衡,不確定性,深度學(xué)習(xí)

1  介紹

近年來,密集檢測(cè)器逐漸成為了目標(biāo)檢測(cè)的主流方法,而對(duì)邊界框表示及其定位質(zhì)量估計(jì)的關(guān)注引起了令人鼓舞的進(jìn)步。具體而言,邊界框表示被建模為簡(jiǎn)單的狄拉克增量分布[10,18,32,26,31],在過去的幾年中廣泛使用。正如在FCOS [26]中流行的那樣,當(dāng)將質(zhì)量估計(jì)值與分類可信度結(jié)合在一起(通常是相乘)時(shí),預(yù)測(cè)附加的定位質(zhì)量(例如,IoU分?jǐn)?shù)[29]或中心度分?jǐn)?shù)[26])會(huì)帶來檢測(cè)準(zhǔn)確性的持續(xù)改進(jìn)。推理過程中非最大抑制(NMS)的排名過程得分[12、11、26、29、35]。盡管取得了成功,但我們?nèi)詴?huì)在現(xiàn)有實(shí)踐中觀察到以下問題:訓(xùn)練和推理之間的定位質(zhì)量估計(jì)和分類得分用法不一致:(1)在最近的密集探測(cè)器中,通常獨(dú)立地訓(xùn)練定位質(zhì)量估計(jì)和分類得分,但綜合利用( [26,29](圖1(a))。(2)目前僅對(duì)陽性樣本進(jìn)行定位質(zhì)量估計(jì)的監(jiān)督[12、11、26、29、35],這是不可靠的,因?yàn)殛幮钥赡軙?huì)獲得無法控制的更高質(zhì)量預(yù)測(cè)的機(jī)會(huì)(圖2(a)) )。這兩個(gè)因素導(dǎo)致訓(xùn)練和測(cè)試之間存在差距,并且可能會(huì)降低檢測(cè)性能,例如,在NMS期間,具有隨機(jī)高質(zhì)量分?jǐn)?shù)的陰性實(shí)例可能會(huì)在具有較低質(zhì)量預(yù)測(cè)的陽性實(shí)例之前排在前面。

邊界框的不靈活表示:廣泛使用的邊界框表示可以看作是目標(biāo)框坐標(biāo)的Dirac delta分布[7、23、8、1、18、26、13、31]。但是,它沒有考慮數(shù)據(jù)集中的歧義和不確定性(請(qǐng)參見圖3中圖形的邊界不清楚)。盡管最近有一些著作[10,4]將盒子建模為高斯分布,但要捕獲包圍盒位置的真實(shí)分布還是太簡(jiǎn)單了。實(shí)際上,實(shí)際分布可以更加隨意和靈活[10],而不必像高斯函數(shù)那樣對(duì)稱。

廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框
圖1:現(xiàn)有的單獨(dú)表示與本文提出的聯(lián)合表示的分類和定位質(zhì)量估計(jì)之間的比較。(a):在訓(xùn)練和測(cè)試過程中單獨(dú)使用質(zhì)量分支(即IoU或中心得分)[12、26、29、35、31]。(b):我們對(duì)分類和定位質(zhì)量的聯(lián)合表示使訓(xùn)練和推理之間具有高度一致性。

為了解決上述問題,我們?yōu)檫吔缈蚣捌涠ㄎ毁|(zhì)量設(shè)計(jì)了新的表示形式。對(duì)于定位質(zhì)量表示,我們建議將其與分類分?jǐn)?shù)合并為一個(gè)統(tǒng)一的表示形式:分類向量,其中其在地面真實(shí)類別索引中的值指的是其相應(yīng)的定位質(zhì)量(通常是預(yù)測(cè)框與預(yù)測(cè)框之間的IoU分?jǐn)?shù))本文中相應(yīng)的地面真值框)。通過這種方式,我們將分類分?jǐn)?shù)和IoU分?jǐn)?shù)統(tǒng)一為一個(gè)聯(lián)合變量(稱為“分類-IoU聯(lián)合表示”),可以以端到端的方式對(duì)其進(jìn)行訓(xùn)練,而在推理過程中可以直接使用(圖7)。1(b))。結(jié)果,它消除了訓(xùn)練測(cè)試的不一致(圖1(b)),并使定位質(zhì)量和分類之間的關(guān)聯(lián)最強(qiáng)(圖2(b))。此外,將對(duì)負(fù)片進(jìn)行0質(zhì)量得分的監(jiān)督,從而使總體質(zhì)量預(yù)測(cè)變得更加可靠。對(duì)于密集的對(duì)象檢測(cè)器而言,這特別有利,因?yàn)樗鼈儗?duì)整個(gè)圖像中定期采樣的所有候選進(jìn)行排名。對(duì)于邊界框表示,我們建議通過直接學(xué)習(xí)離散空間在其連續(xù)空間上的離散概率分布來表示框位置的任意分布(在本文中稱為“一般分布”),而無需引入任何其他更強(qiáng)的先驗(yàn)(例如,高斯[10] ,4])。因此,我們可以獲得更可靠和準(zhǔn)確的邊界框估計(jì),同時(shí)了解它們的各種基礎(chǔ)分布(請(qǐng)參見圖3和補(bǔ)充材料中的預(yù)測(cè)分布)。

廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框1
圖2:當(dāng)前使用IoU分支的密集檢測(cè)器的IoU預(yù)測(cè)不可靠。(a):基于圖1(a)中優(yōu)化的IoU分支模型,我們展示了一些具有極高預(yù)測(cè)質(zhì)量得分(例如IoU得分> 0.9)的背景補(bǔ)丁(A和B)。(b)中的散點(diǎn)圖表示具有其預(yù)期得分的隨機(jī)采樣實(shí)例,其中的藍(lán)點(diǎn)清楚地說明了單獨(dú)表示的預(yù)測(cè)分類得分和預(yù)測(cè)IoU得分之間的弱相關(guān)性。紅色圓圈中的部分包含許多可能的底片,且具有較大的定位質(zhì)量預(yù)測(cè),這可能潛在地排在真底片的前面,從而損害性能。相反,我們的聯(lián)合代表制(綠點(diǎn))迫使它們相等,從而避免了此類風(fēng)險(xiǎn)。

然后,改進(jìn)的表示形式對(duì)優(yōu)化提出了挑戰(zhàn)。傳統(tǒng)上,對(duì)于密集探測(cè)器,分類分支使用焦點(diǎn)損失[18](FL)進(jìn)行優(yōu)化。通過重塑標(biāo)準(zhǔn)交叉熵?fù)p失,F(xiàn)L可以成功處理類不平衡問題。但是,對(duì)于建議的分類-IoU聯(lián)合表示,除了仍然存在不平衡風(fēng)險(xiǎn)外,我們還面臨著連續(xù)IoU標(biāo)簽(0 1)作為監(jiān)督的新問題,因?yàn)樵糉L僅支持離散f1;當(dāng)前為0g類別標(biāo)簽。我們通過從f1擴(kuò)展FL成功解決了這個(gè)問題。0g離散版本到其連續(xù)變體,稱為廣義焦損(GFL)。與FL有所不同,GFL考慮了一個(gè)非常普遍的情況,其中全局優(yōu)化的解決方案能夠針對(duì)任何期望的連續(xù)值,而不是離散值。在本文中,更具體地講,GFL可以專門用于質(zhì)量焦點(diǎn)損失(QFL)和分布焦點(diǎn)損失(DFL),分別用于優(yōu)化改進(jìn)的兩種表示形式:QFL專注于稀疏的困難示例集,并同時(shí)產(chǎn)生其連續(xù)的0 1相應(yīng)類別的質(zhì)量評(píng)估;DFL使網(wǎng)絡(luò)迅速專注于學(xué)習(xí)在任意靈活分布下目標(biāo)邊界框連續(xù)位置周圍的值的概率。我們展示了GFL的三個(gè)優(yōu)點(diǎn):(1)當(dāng)一階段檢測(cè)器通過附加的質(zhì)量估算來促進(jìn)訓(xùn)練和測(cè)試之間的差距時(shí),它可以簡(jiǎn)化,聯(lián)合和有效地表示分類和定位質(zhì)量;(2)很好地模擬了邊界框的靈活底層分布,從而提供了更多信息和準(zhǔn)確的框位置;(3)可以不斷提高一級(jí)檢測(cè)器的性能,而不會(huì)引起額外的開銷。在COCO測(cè)試開發(fā)中,GFL憑借ResNet-101骨干網(wǎng)達(dá)到了45.0%的AP,超過了最先進(jìn)的SAPD(43.5%)和ATSS(43.6%)。我們的最佳模型可以在單個(gè)2080Ti GPU上以10 FPS的速度實(shí)現(xiàn)48.2%的單模型單比例AP。

廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框2
圖3:由于遮擋,陰影,模糊等原因,許多對(duì)象的邊界不夠清晰,因此地面真實(shí)標(biāo)簽(白框)有時(shí)不可信,并且Dirac delta分布僅限于指示此類問題。取而代之的是,所提議的習(xí)知的邊界框一般分布表示形式可以通過其形狀反映基礎(chǔ)信息,其中扁平分布表示邊界不清晰和模棱兩可(請(qǐng)參閱紅色圓圈),而尖銳的代表清晰的情況。我們的模型預(yù)測(cè)的框標(biāo)記為綠色。

2  相關(guān)工作

定位質(zhì)量的表征。像Fitness NMS [27],IoU-Net [12],MS R-CNN [11],F(xiàn)COS [26]和IoU-aware [29]之類的現(xiàn)有實(shí)踐利用一個(gè)單獨(dú)的分支以IoU或IoU的形式執(zhí)行定位質(zhì)量估算中心得分。如第二節(jié)所述。如圖1所示,這種單獨(dú)的表述導(dǎo)致訓(xùn)練和測(cè)試之間的不一致以及不可靠的質(zhì)量預(yù)測(cè)。代替引入額外的分支,PISA [2]和IoU-balance [28]根據(jù)它們的定位質(zhì)量在分類損失中分配不同的權(quán)重,旨在增強(qiáng)分類得分和定位精度之間的相關(guān)性。但是,權(quán)重策略具有隱含的和有限的收益,因?yàn)樗粫?huì)更改分類的損失目標(biāo)的最佳值。

邊界框的表示。狄拉克三角分布[7、23、8、1、18、26、13、31]控制著過去幾年中邊界框的表示。最近,采用高斯假設(shè)[10,4]通過引入預(yù)測(cè)方差來學(xué)習(xí)不確定性。不幸的是,現(xiàn)有的表示過于僵化或過于簡(jiǎn)化,無法反映真實(shí)數(shù)據(jù)中復(fù)雜的基礎(chǔ)分布。在本文中,我們進(jìn)一步放寬了假設(shè),并直接了解邊界框更任意,更靈活的常規(guī)分布,同時(shí)提供了更多信息和準(zhǔn)確性。

3  方法

在本節(jié)中,我們首先回顧用于學(xué)習(xí)一階段檢測(cè)器密集分類分?jǐn)?shù)的原始Focal Loss [18] (FL)。接下來,我們?cè)敿?xì)介紹了改進(jìn)的定位質(zhì)量估計(jì)表示和邊界框,分別通過提出的質(zhì)量焦損失(QFL)和分布焦損失(DFL)成功優(yōu)化了這兩種表示。最后,我們將QFL和DFL的公式概括為統(tǒng)一的觀點(diǎn),稱為廣義焦點(diǎn)損失(GFL),作為FL的靈活擴(kuò)展,以促進(jìn)將來的進(jìn)一步推廣和一般理解。焦損(FL)。最初的FL[18]被提出來解決一階段物體檢測(cè)的情況,在這種情況下,訓(xùn)練期間前景和背景類別之間經(jīng)常存在極端的不平衡。FL的典型形式如下(為簡(jiǎn)單起見,我們忽略了原始論文[18]中的t):

廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框17

質(zhì)量焦點(diǎn)損失(QFL)。針對(duì)上述訓(xùn)練階段和測(cè)試階段不一致的問題,我們提出了一種本地化質(zhì)量的聯(lián)合表示。,借據(jù)的分?jǐn)?shù))和分類評(píng)分(簡(jiǎn)稱“classification-IoU”),其監(jiān)督軟化的標(biāo)準(zhǔn)在一個(gè)炎熱的類別標(biāo)簽,導(dǎo)致可能浮動(dòng)目標(biāo)y∈[0,1]上的相應(yīng)類別(參見圖4中的分類分支)。具體來說,y = 0表示負(fù)樣本質(zhì)量分?jǐn)?shù)為0,和0 < y≤1代表積極與目標(biāo)樣本借據(jù)分?jǐn)?shù)y。注意,本地化質(zhì)量標(biāo)簽y遵循傳統(tǒng)的定義在[29日12]:在訓(xùn)練過程中,預(yù)測(cè)的邊界框和相應(yīng)的ground-truth - ture邊界框之間的IoU得分,動(dòng)態(tài)值為0 ~ 1。繼[18,26]之后,我們采用sigmoid算子σ(·)的多重二進(jìn)制分類來實(shí)現(xiàn)多類。為簡(jiǎn)單起見,sigmoid的輸出標(biāo)記為σ。

由于所提出的分類-IoU聯(lián)合表示需要對(duì)整個(gè)圖像進(jìn)行密集的監(jiān)督,并且仍然存在類別不平衡問題,因此必須繼承FL的思想。然而,F(xiàn)L的當(dāng)前形式僅支持{1,0}離散標(biāo)簽,但我們的新標(biāo)簽包含小數(shù)。因此,我們建議對(duì)FL的兩個(gè)部分進(jìn)行擴(kuò)展,以使聯(lián)合表示情況下的訓(xùn)練成功:(1)交叉熵部分−log(pt)擴(kuò)展為完整版本−(1−y) log(1−σ) + y log(σ) ;(2)比例因子部分(1−pt)γ 推廣為估計(jì)σ與其連續(xù)標(biāo)號(hào)y之間的絕對(duì)距離,即。−σ|β (β≥0),這里|·|保證非負(fù)性。隨后,我們將上述兩個(gè)擴(kuò)展部分結(jié)合起來,形成完整的損失目標(biāo),稱為質(zhì)量焦點(diǎn)損失(Quality Focal loss, QFL):

廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框15
廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框3
圖4:比較了傳統(tǒng)方法和我們提出的GFL在稠密探測(cè)器頭部的應(yīng)用。GFL包括QFL和DFL。QFL有效地學(xué)習(xí)了分類得分和定位質(zhì)量估計(jì)的聯(lián)合表示。DFL將邊界框的位置建模為一般分布,同時(shí)迫使網(wǎng)絡(luò)快速專注于學(xué)習(xí)接近目標(biāo)坐標(biāo)值的概率。

分布焦損失(DFL)。在[26,31]之后,我們采用從位置到邊界框四邊的相對(duì)偏移量作為回歸目標(biāo)(參見圖4中的回歸分支)。邊界盒回歸的傳統(tǒng)操作將回歸后的標(biāo)簽y建模為Dirac-delta分布。根據(jù)第一部分的分析,我們不采用Dirac delta[23,8,1,26,31]或Gaussian[4,10]假設(shè),而是直接學(xué)習(xí)基本的一般分布P(x),而不引入任何其他先驗(yàn)。

廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框4

為了與卷積神經(jīng)網(wǎng)絡(luò)保持一致,我們通過把區(qū)間\left[y_0,y_n\right]離散化變?yōu)閧{y}_0,y_1,\ldots,y_n}把連續(xù)積分用離散的方式表達(dá)。因此,給我們一個(gè)離散的概率分布\sum_{i=0}^{n}P\left(y_i\right)=1,則估計(jì)的回歸值\hat{y}可以被表示為:

廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框5

結(jié)果,通過由n + 1個(gè)單元組成的softmax層可以容易地實(shí)現(xiàn)Px,為簡(jiǎn)單起見,將P_i表示為S_i。請(qǐng)注意,可以使用傳統(tǒng)的損失目標(biāo)(如SmoothL1 [7],IoU損失[27]或GIoU損失[24])以端到端的方式訓(xùn)練^ y。但是,如圖5(b)所示,存在P(x)的值的無限組合,可以使最終積分結(jié)果為y,這可能會(huì)降低學(xué)習(xí)效率。與(1)和(2)直觀地比較,分布(3)是緊湊的,并且在邊界框估計(jì)上趨于更加自信和精確,這促使我們通過顯式激勵(lì)Px的高概率來優(yōu)化Px的形狀。接近目標(biāo)y的值。此外,通常情況下,最合適的基礎(chǔ)位置(如果存在)不會(huì)遠(yuǎn)離粗略標(biāo)簽。因此,我們引入了分布焦點(diǎn)損失(DFL),通過顯著增大yi和yi + 1(最接近2的y,yi,yi+1)的概率,迫使網(wǎng)絡(luò)迅速重視標(biāo)簽y附近的值。由于邊界框的學(xué)習(xí)僅針對(duì)沒有類別不平衡問題風(fēng)險(xiǎn)的正樣本,因此我們僅將QFL中完整的交叉熵部分應(yīng)用于DFL的定義:

廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框6

直觀地來看,DFL旨在提高目標(biāo)y附近值的概率。DFL的全局最小解能夠保證回歸估計(jì)值\hat{y}無限接近于對(duì)應(yīng)的標(biāo)簽。

廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框16

GFL的性質(zhì)。顯然,原始FL[18]以及擬議的QFL和DFL都是GFL的特殊情況(有關(guān)詳細(xì)信息,請(qǐng)參見補(bǔ)充材料)。請(qǐng)注意,GFL可以應(yīng)用于任何一級(jí)檢測(cè)器。修改后的探測(cè)器在兩個(gè)方面與原始探測(cè)器有所不同。首先,在推論過程中,我們直接將分類得分(帶有質(zhì)量估計(jì)的聯(lián)合表示)作為NMS得分,而無需將任何單獨(dú)的質(zhì)量預(yù)測(cè)(如果存在)相乘(例如,像FCOS [26]和ATSS [31]中的中心性)。其次,用于預(yù)測(cè)邊界框每個(gè)位置的回歸分支的最后一層現(xiàn)在具有n + 1個(gè)輸出,而不是1個(gè)輸出,這帶來的額外計(jì)算成本可忽略不計(jì),如后面的表3所示。

用GFL訓(xùn)練密集檢測(cè)器。我們講訓(xùn)練損失定義為L(zhǎng):

廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框7

通常情況下,L_B表示GIoU損失,如[26,31]。N_{pos}表示陽性樣本數(shù)。\lambda_0 (通常默認(rèn)為2,[3])和\lambda_1(實(shí)際上是\frac{1}{4},在四個(gè)方向上的平均)是L_Q,L_D的平衡權(quán)重。在金字塔特征映射[17]上的所有位置z上計(jì)算總和。按照官方規(guī)范[3,26,31,15]的慣例,我們?cè)谟?xùn)練過程中也利用質(zhì)量分?jǐn)?shù)來加權(quán)LB 和LD 。

廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框8
圖5:基于ATSS [31],Dirac delta(a),Gaussian(b)與我們建議的General(c)分布之間的定性比較,用于基于COCO minival的邊界框回歸。白框表示地面標(biāo)簽,預(yù)測(cè)的標(biāo)簽為綠。

廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框9
表2:關(guān)于DFL的研究(骨干網(wǎng)絡(luò)為ResNet50),所有試驗(yàn)都可以 mmdetection上復(fù)現(xiàn)。

4  方法

我們的實(shí)驗(yàn)是在COCO數(shù)據(jù)集[19]上進(jìn)行的,其中使用trainval35k(115K圖像)進(jìn)行訓(xùn)練,而我們使用minival(5K圖像)作為消融研究的驗(yàn)證。主要結(jié)果報(bào)告在test-dev(20K圖像)上,可以從評(píng)估服務(wù)器獲得。為了公平比較,所有結(jié)果均在mmdetection [3]下產(chǎn)生,其中采用了默認(rèn)的超參數(shù)。除非另有說明,否則我們將基于ResNet-50 [9]主干采用1倍的學(xué)習(xí)進(jìn)度(訓(xùn)練12代),而無需進(jìn)行多級(jí)培訓(xùn)來進(jìn)行以下研究。在補(bǔ)充材料中可以找到更多的訓(xùn)練/測(cè)試的詳細(xì)信息。

我們首先研究了QFL的有效性(表1)。在表1(a)中,我們將提議的聯(lián)合表示與單獨(dú)或隱含的表示進(jìn)行了比較。實(shí)驗(yàn)中還采用了兩種表示定位質(zhì)量的方法:IoU[29,12]和centerness[26,31]。一般來說,我們構(gòu)建了4個(gè)使用單獨(dú)或隱式表示的變體,如圖6所示。根據(jù)研究結(jié)果,我們觀察到,QFL優(yōu)化的聯(lián)合表示始終比所有對(duì)應(yīng)的表示獲得更好的性能,而IoU在衡量本地化質(zhì)量(補(bǔ)充材料)時(shí)總是比中心度表現(xiàn)更好。表1(b)顯示QFL也可以提高其他流行的單級(jí)檢測(cè)器的性能,表1(c)顯示\beta=2是QFL的最佳設(shè)置。我們通過抽樣實(shí)例來說明聯(lián)合表示的有效性,其預(yù)測(cè)分類和IoU分支模型和我們的IoU分?jǐn)?shù),如圖2(b)所示。結(jié)果表明,基于QFL訓(xùn)練的聯(lián)合表示方法具有更可靠的質(zhì)量估計(jì),有利于檢測(cè),并且根據(jù)其定義,分類與質(zhì)量分?jǐn)?shù)的相關(guān)性最強(qiáng)。事實(shí)上,在我們的聯(lián)合表示中,預(yù)測(cè)的分類分?jǐn)?shù)與估計(jì)的質(zhì)量分?jǐn)?shù)完全相等。

廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框10
圖6:?jiǎn)文P蛦纬叨人俣?ms) vs coco數(shù)據(jù)集上先進(jìn)方法的精度(AP)

其次,我們研究了DFL的有效性(表2)。為了快速選擇合理的n值,我們首先在圖5(c)中說明回歸目標(biāo)的分布。我們將在后面的實(shí)驗(yàn)中說明,ATSS推薦的值是14或16。在表2(a)中,我們比較了邊界框回歸的不同數(shù)據(jù)表示的有效性。我們發(fā)現(xiàn),一般分布達(dá)到了優(yōu)越的或至少可比的結(jié)果,而DFL可以進(jìn)一步提高其性能。定性比較如圖7所示。結(jié)果表明,與高斯分布和Dirac-delta分布相比,廣義分布能提供更精確的包圍框位置,特別是在有相當(dāng)大遮擋的情況下(補(bǔ)充資料中有更多討論)?;贕FL訓(xùn)練的改進(jìn)ATSS,我們?cè)诒?(b)和(c)中通過固定一個(gè)和改變另一個(gè)來報(bào)告DFL中n和delta的影響。結(jié)果表明,n的選擇不敏感,在實(shí)際應(yīng)用中建議選擇較小的n值(如1)。為了說明一般分布的效果,我們?cè)趫D3中繪制了幾個(gè)具有代表性的實(shí)例,其分布邊界框在四個(gè)方向上,其中提出的分布表示可以通過其形狀有效地反映邊界框的不確定性(更多示例見補(bǔ)充資料)。

第三,我們使用ResNet-50骨干對(duì)ATSS進(jìn)行消融研究,以顯示QFL和DFL的相對(duì)貢獻(xiàn)(表3)。FPS(每秒幀數(shù))是在同一臺(tái)計(jì)算機(jī)上使用單個(gè)GeForce RTX 2080Ti GPU在相同的mmdetection [3]框架下以1的批處理大小進(jìn)行測(cè)量的。我們觀察到DFL的改善與QFL是正交的,并且兩者(即GFL)的聯(lián)合使用可通過絕對(duì)的1%AP評(píng)分來改善強(qiáng)ATSS基線。此外,根據(jù)推斷速度,GFL帶來的額外開銷微不足道,并且被認(rèn)為是非常實(shí)用的。最后,我們?cè)诒?中將GFL(基于ATSS)與最新的COCO測(cè)試開發(fā)方法進(jìn)行了比較。遵循先前的工作[18,26],多尺度訓(xùn)練策略和2倍的學(xué)習(xí)進(jìn)度(24代訓(xùn)練)在培訓(xùn)期間被采用。為了公平地比較,我們報(bào)告了所有方法的單模型單尺度測(cè)試的結(jié)果,以及它們相應(yīng)的推理速度(FPS)。具有ResNet-101 [9]的GFL在14.6 FPS時(shí)可達(dá)到45.0%的AP,這優(yōu)于所有具有相同骨干的現(xiàn)有檢測(cè)器,包括SAPD [33](43.5%)和ATSS [31](43.6%)。除此之外,可變卷積也能夠持續(xù)地提升模型性能,使用GFL的ResNet101-DCN以10FPS的速度達(dá)到了最高精度48.2%。圖8顯示了速度-精度權(quán)衡的可視化結(jié)果,我們可以看到使用了GFL的模型速度和精度都較高。

廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框11
表3:各種先進(jìn)檢測(cè)網(wǎng)絡(luò)在coco數(shù)據(jù)集上的比較。帶*的FPS值來源于[33],其余的FPS值用一張GeForce RTX2080Ti GPU進(jìn)行測(cè)試,批大小為1。R: ResNet. X: ResNeXt. HG: Hourglass. DCN: Deformable Convolutional Network.

5  總結(jié)

為了有效地學(xué)習(xí)密集目標(biāo)探測(cè)器的限定邊界框和分布邊界框,我們提出了廣義焦損(GFL)方法,該方法將原始焦損從離散公式推廣到連續(xù)版本。GFL可以被特殊化為質(zhì)量焦點(diǎn)損失(QFL)和分布焦點(diǎn)損失(DFL),其中QFL鼓勵(lì)學(xué)習(xí)更好的分類和定位質(zhì)量的聯(lián)合表示,DFL通過將它們的位置建模為一般分布來提供更多信息和更精確的邊界框估計(jì)。大量實(shí)驗(yàn)驗(yàn)證了GFL的有效性。我們希望GFL能成為領(lǐng)域內(nèi)的一個(gè)簡(jiǎn)單而有效的基線。


參考文獻(xiàn)
廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框12
廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框13
廣義焦損失:學(xué)習(xí)用于密集物體檢測(cè)的高質(zhì)量分布式邊界框14


分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25