基于光照感知深度神經網絡的多光譜數據融合行人檢測

2021-01-28 00:19:01· 來源：同濟智能汽車研究所

編者按：為實現(xiàn)全天候自動駕駛，需要在不同的光照條件下檢測出行人。遠紅外相機拍攝的熱圖像在低光照條件下能提供額外的目標信息，將熱圖像和可見光圖像融合的多

編者按：為實現(xiàn)全天候自動駕駛，需要在不同的光照條件下檢測出行人。遠紅外相機拍攝的熱圖像在低光照條件下能提供額外的目標信息，將熱圖像和可見光圖像融合的多光譜行人檢測性能優(yōu)于單獨采用可見光圖像。本文提出了一種基于光照感知行人檢測和語義分割多任務學習的多光譜行人檢測框架，一方面從融合特征圖中學習場景的光照條件，另一方面將行人檢測和語義分割網絡都分為兩個子網絡，分別負責學習白天和夜間的行人特征。通過學習到的光照信息對兩個子網絡的輸出加權，得到最終結果。設計光照感知、行人檢測、語義分割的多任務損失函數以進行端到端的聯(lián)合訓練。實驗證明，該光照感知加權機制為多光譜行人檢測器的性能提升提供了一種有效的策略。

本文譯自：
Fusion of Multispectral Data Through Illumination-aware Deep Neural Networks for Pedestrian Detection
文章來源：
2018 SCI Information Fusion
作者：
Dayan Guan, Yanpeng Cao, Jiangxin Yang, Yanlong Cao, Michael Ying Yang
原文鏈接：
https://doi.org/10.1016/j.inffus.2018.11.017

摘要：多光譜行人檢測作為促進全天候應用（如安全監(jiān)控和自動駕駛）魯棒人體目標檢測的一種有前景的解決方案，近年來受到了廣泛關注。在本文中，我們證明了編碼在多光譜圖像中的光照信息可以顯著提高行人檢測的性能。提出了一種新的光照感知加權機制來準確描述場景的光照條件。將這些光照信息整合到雙流深度卷積神經網絡中，學習不同光照條件下（白天和夜間）的多光譜人體相關特征。此外，我們利用光照信息與多光譜數據結合來生成更準確的語義分割，從而提高行人檢測的準確率。將所有部分放在一起，我們提出了一個強大的基于光照感知行人檢測和語義分割多任務學習的多光譜行人檢測框架。我們提出的方法使用精心設計的多任務損失函數進行端到端的訓練，在KAIST多光譜行人數據集上表現(xiàn)優(yōu)于最先進的方法。

關鍵詞：多光譜融合，行人檢測，深度神經網絡，光照感知，語義分割

1 引言

行人檢測是近幾十年來計算機視覺領域的一個熱門研究課題[29, 5, 8, 11, 10, 4, 41]。給定在各種現(xiàn)實世界監(jiān)控情況下拍攝的圖像，行人檢測要求生成邊界框，以準確定位單個行人實例。它提供了一個重要的功能，促進一系列以人體為中心的應用，如視頻監(jiān)控[36,1,25]和自動駕駛[37,24,39]。

盡管近年來已經取得了顯著的進步，但開發(fā)一種可用于實際應用的魯棒行人檢測算法仍然是一項具有挑戰(zhàn)性的任務。值得注意的是，現(xiàn)有的行人檢測器大多僅使用可見光信息進行訓練，因此其性能對光照、天氣和遮擋的變化非常敏感[18]。為了克服上述的局限性，許多研究工作已經聚焦在開發(fā)多光譜行人檢測方法上，以促進對全天候應用的魯棒人體目標檢測[22, 21, 34, 28, 16, 13]。直覺上，多光譜圖像（如可見光和熱圖像）提供了有關感興趣目標的互補信息，有效地融合這些數據可以得到更魯棒、更準確的檢測結果。

基于光照感知深度神經網絡的多光譜數據融合行人檢測

圖1 在(a)白天和(b)夜間場景下拍攝的多光譜行人實例特征。(a)和(b)中的第一行是行人實例的多光譜圖像。(a)和(b)中的第二行是相應行人實例特征圖的可視化?？梢姽夂蜔釄D像的特征圖由在相應通道訓練好的深度神經區(qū)域建議網絡[38]生成。注意，多光譜行人實例在白天和夜間光照條件下展示出明顯不同的人體相關特征。

基于光照感知深度神經網絡的多光譜數據融合行人檢測1

圖2 光照感知加權機制的說明。給出一對對齊的可見光和熱圖像，雙流深度神經網絡(TDNN)生成多光譜語義特征圖。白天-光照子網絡和夜間-光照子網絡利用多光譜語義特征圖在不同光照條件下進行行人檢測和語義分割。最終的檢測結果是由多個光照感知子網絡的輸出融合而成。

在本文工作中，我們設計了一個框架，通過提出的光照感知深度神經網絡來學習在不同光照條件下（白天和夜間）的多光譜人體相關特征。我們觀察到多光譜行人實例在白天和夜間光照條件下展示出明顯不同的人體相關特征，如圖1所示，因此利用多個內置的子網絡，每個子網絡專門捕捉特定光照的視覺形態(tài)，提供一種有效的方案來處理大量由不同光照條件導致的類間差異，以實現(xiàn)更魯棒的目標探測。根據多光譜數據對光照信息進行魯棒估計，并將光照信息引入到多個光照感知子網絡中學習多光譜語義特征圖，用于不同光照條件下的魯棒行人檢測和語義分割。給出一對白天捕獲的多光譜圖像，我們提出的光照感知加權機制自適應地為白天-光照子網絡（行人檢測和語義分割）分配一個高權重來學習白天的人體相關特征。與此相對，夜間場景的多光譜圖像被用來生成夜間-光照特征。我們在圖2中說明了這種光照感知加權機制是如何工作的。最終的檢測結果是由多個光照感知子網絡的輸出融合而成，在場景光照變化中對大的變化保持魯棒性。本文工作有以下幾點貢獻。

首先，我們證明了通過一種考慮多光譜語義特征的全連接神經網絡架構可以魯棒地確定場景的光照條件，且估計的光照信息為提高行人檢測性能提供了有用的信息。

其次，我們將光照感知機制整合到雙流深度卷積神經網絡中，以學習不同光照條件下（白天和夜間）的多光譜人體相關特征。據我們所知，這是探索光照信息用于訓練多光譜行人檢測器的首次嘗試。

第三，我們提出了一個基于光照感知行人檢測和語義分割多任務學習的完整的多光譜行人檢測框架，并利用精心設計的多任務損失對其進行端到端的訓練。與最先進的多光譜行人檢測器相比，我們的方法獲得了更低的遺漏率和更快的運行時間[16,18,19]。

本文其余部分組織如下。在第2節(jié)中，我們回顧了一些現(xiàn)有的多光譜行人檢測方法。第3節(jié)介紹了我們提出的光照感知深度神經網絡的細節(jié)。第4節(jié)對多光譜行人檢測方法進行了廣泛的實驗比較，第5節(jié)總結了本文。

2 相關研究

使用可見光和多光譜圖像的行人檢測方法與我們的工作密切相關。我們在下面對這些主題的最新研究進行綜述。

可見光行人檢測。利用可見光信息進行行人檢測已有大量方法被提出。Piotr等人提出的融合通道特征（ICF）行人檢測器基于特征金字塔和增強分類器[6]。其性能通過多種方法包括ACF[7]、LDCF[27]、Checkerboards[40]等得到進一步提高。最近，基于DNN的目標檢測方法[12, 31, 15]已經被用于提高行人檢測的性能。Li等人[23] 提出了一種尺度感知的深度網絡框架，將一個大尺度的子網絡和一個小尺度的子網絡組合成一個統(tǒng)一的架構，以描述不同尺度下行人的獨特特征。Cai等人[3]提出了一種統(tǒng)一的多尺度深度神經網絡架構，將互補的特定尺度的檢測器組合在一起，從而提供大量的感受野來匹配不同尺度的對象。Zhang等人[38]利用高分辨率卷積特征圖進行分類，并提出了一種利用區(qū)域建議網絡（RPN）加上增強森林的行人檢測有效流程。Mao等人[26]提出了一種新的網絡架構，聯(lián)合學習行人檢測以及給定的額外特征。這種多任務訓練方案能夠利用給定特征的信息，在推理階段無額外輸入的情況下提高檢測性能。Brazil等人[2] 開發(fā)了一種引入分割的網絡，通過對語義分割和行人檢測的聯(lián)合監(jiān)督來提高行人檢測的準確率。事實證明，弱注釋框提供了足夠的信息獲得可觀的性能提升。

多光譜行人檢測。多光譜圖像提供了有關感興趣目標的互補信息，因此利用多模態(tài)數據源訓練的行人檢測器產生魯棒的檢測結果。Hwang等人[16]建立了一個大規(guī)模多光譜行人數據集（KAIST）。使用對齊好的標有密集的行人注釋的可見光和熱圖像對，作者提出了一種新的多光譜聚合特征（ACF+T+THOG）來處理彩色-熱圖像對，并應用了增強決策樹（BDT）進行目標分類。Wagner等人[35]首次將DNN應用于多光譜行人檢測，并對兩種決策網絡（early-fusion和late-fusion）的性能進行了評估。這些決策網絡對ACF+T+THOG[16]生成的行人候選框進行驗證，從而獲得更準確的檢測結果。Liu等人[18]研究了如何利用Faster R-CNN[31]來完成多光譜行人檢測任務，并設計了四種卷積網絡融合結構，其中雙分支卷積網絡是在DNN不同階段融合的。最優(yōu)的結構是Halfway Fusion，該模型利用中層卷積特征融合雙分支卷積網絡。Konig等人[19] 修改了RPN + BDT[38]的架構，構建了用于多光譜行人檢測的Fusion RPN + BDT。Fusion RPN融合了中層卷積特征上的雙分支RPN，在KAIST多光譜數據集上獲得了最先進的性能。我們的方法明顯不同于上述方法，它開發(fā)了一個在不同光照條件下（白天和夜間）通過提出的光照感知多光譜深度神經網絡學習多光譜人體相關特征的框架。據我們所知，這是探索光照信息用于提高多光譜行人檢測性能的首次嘗試。

3 我們的方法

3.1 提出模型概述

基于光照感知深度神經網絡的多光譜數據融合行人檢測2

圖3 我們提出的光照感知多光譜深度神經網絡（IATDNN+IASS）的架構。注意，綠色方框表示卷積層和全連接層，黃色方框表示池化層，藍色方框表示融合層，灰色方框表示分割層，橙色方框表示輸出層。最好用彩圖觀看。

光照感知多光譜深度神經網絡的架構如圖3所示。它由三個集成處理模塊組成，分別是光照全連接神經網絡（IFCNN）、光照感知雙流深度卷積神經網絡（IATDNN）和光照感知多光譜語義分割（IAMSS）。給定對齊的可見光和熱圖像，IFCNN計算光照感知權重，以確定它是白天場景還是夜間場景。通過提出的光照感知機制，IATDNN和IASS利用多個子網絡生成檢測結果（分類分數- Cls和邊界框- Bbox）和分割掩膜（Seg）。例如，IATDNN使用兩個獨立的分類子網絡（D-Cls和N-Cls）分別在白天和夜間光照條件下對行人進行分類。將每個子網絡的Cls、Bbox和Seg結果結合起來，通過根據場景光照條件定義的門函數得到最終輸出。基于光照感知行人檢測和語義分割的多任務學習，對該方法進行端到端的訓練。

3.2 光照全連接神經網絡（IFCNN）

如圖3所示，將一對可見光和熱圖像送入雙流深度卷積神經網絡（TDNN）[19]的前5個卷積層和池化層，提取出單個通道的語義特征圖。注意TDNN中特征提取層的每個流（可見光圖像流的Conv1-V到Conv5-V、熱圖像流的Conv1-T到Conv5-T）采用VGG16[33]的1-5層卷積層作為backbone。然后融合兩個通道的特征圖，通過一個連接層（Concat）生成雙流特征圖（TSFM）。TSFM用作IFCNN的輸入，計算決定場景光照條件的光照感知權重

和

。

IFCNN由一個池化層（IA-Pool）、三個全連接層（IA-FC1、IA-FC2、IA-FC3）和soft-max層（Soft-max）組成。類似于空間金字塔池化（SPP）層，消除了網絡的固定大小約束[14]，IA-Pool使用雙線性插值將TSFM的特征調整為固定尺度的圖（7×7），并為全連接層生成固定大小的輸出。IA-FC1、IA-FC2、IA-FC3的通道數根據經驗分別設置為512、64、2。Soft-max是IFCNN的最后一層。Soft-max的輸出為

和

。我們將光照誤差用

表示，定義為

其中

和

為對于白天和夜間場景的估計光照權重，

和

為光照標簽。如果訓練圖片是在白天光照條件下拍攝的，我們設

，否則

。

3.3 光照感知雙流深度卷積神經網絡（IATDNN）

IATDNN架構是基于雙流深度卷積神經網絡（TDNN）[19]設計的。采用了區(qū)域建議網絡（RPN）模型[38]由于其優(yōu)越的行人檢測性能。給定單個輸入圖像，RPN輸出大量與置信度分數關聯(lián)的邊界框，通過分類和邊界框回歸生成行人建議。如圖4(a)所示，一個3×3卷積層（Conv-Pro）連接在Concat層之后，再附加兩個兄弟1×1卷積層（Cls和Bbox）分別用于分類和邊界框回歸。TDNN模型提供了一個有效的框架，利用雙流特征圖（TSFM）進行魯棒行人檢測。

基于光照感知深度神經網絡的多光譜數據融合行人檢測15

圖4 TDNN和IATDNN架構的比較。注意

和

，綠色方框表示卷積層和全連接層，黃色方框表示池化層，藍色方框表示融合層，橙色方框表示輸出層。最好用彩圖觀看。

我們進一步將光照信息整合到TDNN中，以生成不同光照條件下的分類和回歸結果。具體而言，IATDNN包含4個子網絡（D-Cls、N-Cls、D-Bbox、N-Bbox）來產生光照感知的檢測結果，如圖4(b)所示。D-Cls和N-Cls分別計算白天和夜間光照條件下的分類得分，D-Bbox和N-Bbox分別生成白天和夜間場景的邊界框。對這些子網絡的輸出使用IFCNN中計算出的光照權重進行組合，從而產生最終的檢測結果。檢測損失項

定義為

其中

是分類損失

和回歸損失

的組合，

定義了它們之間的正則化參數（我們根據Zhang等人[38]提出的方法，設

），

定義了一個mini-batch的訓練樣本集。若一個訓練樣本與某一真值邊界框的交并比（IoU）大于0.5，則認為該訓練樣本為正樣本，否則為負樣本。我們對正樣本設置訓練標簽

，負樣本設

。對每個正樣本，其邊界框設置為

以計算邊界框回歸損失。在式2中分類損失項

定義為

回歸損失項

定義為

其中

和

分別為預測的分類分數和邊界框，

損失函數

在[12]中定義來學習

和

之間的轉化映射。在IATDNN中，

作為白天-光照分類得分

和夜間-光照分類得分

的加權和來計算

為D-Bbox和N-Bbox子網絡分別預測的兩個邊界框

和

的光照加權和

通過上述光照加權機制，在白天場景下，白天-光照子網絡（分類和回歸）將被給予一個高優(yōu)先級來學習人體相關特征。另一方面，利用夜間場景的多光譜特征圖，在夜間光照條件下生成可靠的檢測結果。
3.4 光照感知語義分割（IASS）

最近，語義分割掩膜已被成功地用作強線索提高單通道目標檢測的性能[15,2]。簡單的基于邊界框的分割掩膜提供了額外的監(jiān)督，引導共享層中的特征對下游行人檢測器變得更為顯著。在本文中，我們將語義分割方案與雙流深度卷積神經網絡相結合，實現(xiàn)對多光譜圖像上的行人同時檢測和分割。
基于光照感知深度神經網絡的多光譜數據融合行人檢測45

圖5 MSS-F、MSS、IAMSS-F和IAMSS架構的比較。注意，綠色方框表示卷積層，藍色方框表示融合層，灰色方框表示分割層。最好用彩圖觀看。

給定來自兩個多光譜通道（可見光通道和熱通道）的信息，在不同階段（特征階段和決策階段）的融合會導致不同的分割結果。因此，我們希望研究一種適合多光譜分割任務的最佳融合結構。為此，我們設計了兩種在不同階段進行融合的多光譜語義分割架構，分別為特征階段多光譜語義分割（MSS-F）和決策階段多光譜語義分割（MSS）。如圖5(a)-(b)所示，MSS-F首先將Conv5-V和Conv5-T的特征圖融合起來，然后應用一個公共的Conv-Seg層產生分割掩膜。相比之下，MSS使用兩個卷積層（Conv-seg-V和Conv-seg-T）為每個通道產生不同的分割圖，然后結合兩個流的輸出生成最終的分割掩膜。

此外，我們希望研究考慮場景的光照條件能否提高語義分割的性能?；贛SS-F和MSS架構，我們設計了另外兩種光照感知的多光譜語義分割架構（IAMSS-F和IAMSS）。如圖5(c)-(d)所示，我們使用了兩個分割子網絡（D-Seg和N-seg）來生成光照感知語義分割的結果。注意IAMSS-F包含兩個子網絡，IAMSS包含四個子網絡。通過光照加權機制，利用IFCNN預測的光照權重融合這些子網絡的輸出，生成多光譜語義分割。在第4節(jié)中，我們給出了這四種不同的多光譜分割架構的評估結果。

這里我們定義分割損失項為
基于光照感知深度神經網絡的多光譜數據融合行人檢測46

其中

為預測的分割掩膜，

為分割流（MSS-F和IAMSS-F只包含一個分割流，而MSS和IAMSS包含兩個流），

為基于邊界框的分割在單個mini-batch中的訓練樣本數。若樣本落在真值邊界框內，我們設

，否則設

。在光照感知的多光譜語義分割架構IAMSS-F和IAMSS中，

是D-Seg和N-Seg子網絡分別預測的兩個分割掩膜

和

的光照加權組合

為進行光照感知行人檢測和語義分割的多任務學習，我們將式1、2、7定義的損失項組合，得到最終的多任務損失函數如下

其中

和

分別為損失項

和

的平衡系數。根據Brazil等人[2]提出的方法，我們設

，

。我們利用這個損失函數來聯(lián)合訓練光照感知的多光譜深度神經網絡。

4 實驗

4.1 實驗設置

數據集：我們的實驗是利用公共數據集KAIST多光譜行人基準[16]進行的?？偟膩碚f，KAIST訓練數據集包含50172張對齊的彩色-紅外圖像對，這些圖像對拍攝于不同的城市地點、不同的光照條件下，帶有密集的標注。我們每2幀對圖像進行采樣，并按照Konig等人[19]提出的方法獲得25086張訓練圖像。KAIST的測試集包含2252對圖像，其中797對是在夜間拍攝的。“合理”設置（行人大于55像素，至少50%可見）下的原始注釋用于性能評估[16]。

實現(xiàn)細節(jié)：我們采用以圖像為中心的訓練方案，生成1幅圖像和隨機選取的120個anchor組成的mini-batch。如果anchor與某一真值邊界框的交并比（IoU）大于0.5，則認為該anchor為正樣本，否則為負樣本。TDNN每個流中的前5個卷積層（可見光圖像流的Conv1-V到Conv5-V、熱圖像流的Conv1-T到Conv5-T）使用在ImageNet數據集[32]上預訓練的VGG-16[33]深度卷積神經網絡參數并行初始化。所有其他卷積層和全連接層都以標準偏差（0.01）的零均值高斯分布進行初始化。深度神經網絡是在Caffe[17]框架下訓練的，采用隨機梯度下降（SGD）[42]，動量項為0.9，權重衰減為0.0005[20]。為了避免因梯度爆炸[30]導致的學習失敗，我們使用了閾值10來對梯度削波。

評估指標：我們使用對數平均遺漏率（MR）[7]來評估多光譜行人檢測算法的性能。如果檢測的邊界框結果能夠成功匹配到某一真值邊界框（IoU超過50%[16]），則認為該結果為真陽性。未匹配到的檢測邊界框和未匹配到的真值邊界框分別被認為是假陽性和假陰性。根據Dollar等人[7]提出的方法，與被忽略的真值邊界框匹配的檢測邊界框不被視為真陽性，同樣未被匹配的被忽略的真值邊界框標簽不被視為假陰性。MR通過在

到

范圍對數空間均勻分布的9個每幅圖像假陽性（FPPI）率值上的平均遺漏率（假陰性率）來計算 [16,18,19]。

4.2 IFCNN評估

光照加權機制在我們提出的光照感知深度神經網絡中提供了一個必要的功能。我們首先評估IAFCNN能否準確計算出提供關鍵信息的光照權重，以平衡光照感知子網絡的輸出。我們使用KAIST測試集來評估IAFCNN的性能，其中包含白天（1455幀）和夜間（797幀）拍攝的多光譜圖像。給出一對對齊的可見光和熱圖像，IAFCNN將輸出白天的光照權重

。如果白天場景得到

，或者夜間場景得到

，則光照條件預測正確。此外，我們單獨使用可見光圖像通道（IFCNN-V）或熱圖像通道（IFCNN-T）提取的特征圖來評估光照預測的性能，以研究哪個通道提供了最可靠的信息來確定場景的光照條件。IFCNN-V、IFCNN-T和IFCNN的架構如圖6所示，表1比較了它們的預測精度。
基于光照感知深度神經網絡的多光譜數據融合行人檢測68

圖6 IFCNN、IFCNN-V和IFCNN-T的架構。注意，綠色方框表示卷積層和全連接層，黃色方框表示池化層，藍色方框表示融合層，橙色方框表示soft-max層。最好用彩圖觀看。

表1 使用IFCNN-V、IFCNN-T和IFCNN的光照預測準確率

基于光照感知深度神經網絡的多光譜數據融合行人檢測69

結果表明，使用來自可見光圖像通道的信息可以對白天和夜間場景（白天- 97.94%和夜間-97.11%）都生成可靠的光照預測。這個結果是合理的，因為人類可以很容易地根據視覺觀察確定這是一個白天場景還是一個夜間場景。雖然熱圖像通道不能單獨用于光照預測，但它提供了對可見光圖像通道的補充信息，從而提高了光照預測的性能。通過對可見光和熱圖像通道互補信息的融合，IFCNN比IFCNN-V（僅使用可見光圖像）或IFCNN-T（僅使用熱圖像）計算出更精確的光照權重。實驗結果表明，通過考慮多光譜語義特征，基于我們提出的IFCNN能夠魯棒地確定場景的光照條件。

4.3 IATDNN評估

我們進一步評估光照信息能否用來提高多光譜行人檢測器的性能。具體來說，我們比較了TDNN和IATDNN的性能。為了公平比較，TDNN和IATDNN兩種架構都沒有考慮語義分割的信息。我們結合式1中定義的光照損失項和式2中定義的檢測損失項來聯(lián)合訓練IAFCNN和IATDNN，并使用檢測損失項訓練TDNN。TDNN模型提供了一種利用雙流特征圖（TSFM）進行魯棒行人檢測的有效框架[19]。然而，它沒有區(qū)分在白天和夜間光照條件下的人體實例，使用一個公共的Con-Prov層生成檢測結果。相比之下，IATDNN應用光照加權機制自適應地組合多個光照感知子網絡（D-Cls、N-Cls、D-Reg、N-Reg）的輸出，生成最終的檢測結果。
表2 IDNN和IATDNN的MR
基于光照感知深度神經網絡的多光譜數據融合行人檢測70

使用對數平均遺漏率（MR）作為評估指標，IATDNN和TDNN的檢測精度如表2所示。通過考慮場景的光照信息，IATDNN能夠顯著提高白天和夜間場景的檢測精度。值得一提的是，這樣的性能提升（TDNN 32.60% 對比 IATDNN 29.62% MR）是以很小的計算開銷為代價實現(xiàn)的?；趩蝹€Titan X GPU, TDNN模型需要0.22s來處理KAIST數據集中的一對可見光和熱圖像（640×512像素），而IATDNN模型需要0.24s。第4.5節(jié)提供了更多計算效率的比較結果。實驗結果表明，基于多光譜數據我們能夠魯棒地估計光照信息，并進一步引入多個光照感知子網絡中，更好地學習人體相關特征圖，從而提高行人檢測器的性能。

4.4 IAMSS評估

我們通過將語義分割方案與IATDNN結合來評估性能的提高。這里我們比較了用于行人檢測的四種不同的多光譜語義分割模型，包括MSS-F（特征階段MSS）、MSS（決策階段MSS）、IAMSS-F（光照感知的特征階段MSS）、IAMSS（光照感知的決策階段MSS）。這四種模型的架構如圖5所示。MSS模型輸出大量基于邊界框的分割掩膜，這樣的弱注釋邊界框提供了額外信息，從而能夠訓練IATDNN中更顯著的特征。表3比較了IATDNN、IATDNN+MSS-F、IATDNN+MSS、IATDNN+IAMSS-F、IATDNN+IAMSS的檢測性能。

表3 IATDNN、IATDNN+SS和IATDNN+IASS的MR比較
基于光照感知深度神經網絡的多光譜數據融合行人檢測71

值得注意的是，使用四種不同的多光譜語義分割模型（除了夜間場景使用IATDNN+MSS-F），一般都可以通過行人檢測和語義分割的聯(lián)合訓練來獲得性能的提高。其基本原理是，語義分割掩膜將提供額外的監(jiān)督，以促進訓練更復雜的特征，從而實現(xiàn)更魯棒的行人檢測[2]。另一個觀察結果是，融合方案的選擇（特征階段還是決策階段）會顯著影響檢測性能。結果表明，決策階段融合的多光譜語義分割模型（MSS和IA-MSS）優(yōu)于特征階段融合模型（MSS-F和IA-MSS-F）。對這一現(xiàn)象的一種可能解釋是，后融合策略（如決策階段融合）更適合結合高水平的分割結果。尋找最優(yōu)的分割融合策略來處理多光譜數據將是我們未來的研究方向。最后，考慮場景的光照條件可以提高語義分割的性能。通過光照加權機制自適應地融合子網絡輸出，在不同光照條件下生成更準確的分割結果。圖7顯示了使用四種不同MSS模型的語義分割結果的比較。觀察到，IATDNN+IASS（使用光照）生成的語義分割可以更準確地覆蓋小目標，抑制背景噪聲。更準確的分割可以提供更好的監(jiān)督來訓練最顯著的人體相關特征圖。

在圖8中我們可以看到TDNN、IATDNN和IATDNN+IAMSS的特征圖，來了解不同的光照感知模塊所實現(xiàn)的改進增益。我們發(fā)現(xiàn)，與TDNN相比，IATDNN通過將光照信息整合到多個光照感知子網絡中以更好地學習人體相關特征圖，生成了更多顯著的行人特征。IATDNN+IASS通過分割引入方案可以實現(xiàn)進一步的提高，該方案使用光照感知的可見光和熱圖像語義分割掩膜來監(jiān)督特征圖的訓練。

基于光照感知深度神經網絡的多光譜數據融合行人檢測72

圖7 使用四種不同多光譜語義分割模型生成的多光譜行人語義分割結果示例。(a)和(b)的前兩列分別顯示了可見光圖像和熱圖像的行人實例。(a)和(b)的第三至第六列分別顯示了MSS-F、MSS、IAMSS-F和IAMSS生成的語義分割。注意，綠色實線邊界框（BBs）表示正樣本標簽，黃色虛線BBs表示忽略的標簽。最好用彩圖觀看。

基于光照感知深度神經網絡的多光譜數據融合行人檢測73

圖8 在(a)白天和(b)夜間場景中，由光照感知機制提升的多光譜行人特征圖示例。(a)和(b)的前兩列分別顯示可見光圖像和熱圖像的行人實例。(a)和(b)的第三至第五列分別為TDNN、IATDNN和IATDNN+IASS生成的特征圖可視化。注意，通過逐步插入我們提出的兩個光照感知模塊IA（用于分類和邊界框回歸）和IASS（用于生成多光譜語義分割）來改進多光譜行人的特征圖。

4.5與最先進的多光譜行人檢測方法比較

我們提出的IATDNN和IATDNN+IASS與其他三種多光譜行人檢測器：ACF+T+THOG[16]、Halfway Fusion[18]和Fusion RPN+ BDT[19]進行了比較。為了比較檢測器，我們通過改變檢測置信度的閾值，繪制MR-FPPI曲線（使用log-log繪制），如圖9所示。

我們提出的IATDNN+IASS在全天場景取得了杰出的26.37%的MR。與目前最先進的多光譜行人檢測方法Fusion RPN+BDT（29.68%）相比，性能有11%的相對提升率。同時，提出檢測器的性能在白天（27.29%對比30.51%）和夜間（24.41%對比27.62%）都超過了最先進的方法。

此外，我們提出的IATDNN在不使用語義分割架構的情況下，可以實現(xiàn)與最先進的方法相當的性能（白天：IATDNN（30.30%）對比Fusion RPN+BDT（30.51%）以及夜間：IATDNN（26.88%）對比Fusion RPN+BDT（27.62%））。

我們將Fusion RPN+BDT和我們提出的IATDNN、IATDNN+IASS的一些檢測結果可視化如圖10。與Fusion RPN+BDT相比較，我們提出的IATDNN和IATDNN+IASS能夠在不同光照條件下成功檢測大多數行人實例。同時結合光照感知的語義分割，減少了重復檢測導致的假陽性。

此外，我們比較了IATDNN+IASS、IATDNN、TDNN和最先進方法的計算效率，如表4所示。在多光譜行人檢測方面，IATDNN+IASS的效率大大超過了目前最先進的深度學習方法，運行時0.25s/每張圖像對比0.40s/每張圖像。Halfway Fusion架構是TDNN和Fast R-CNN的結合[12]。可以看出，F(xiàn)ast R-CNN模型使計算效率幾乎減半。同時，F(xiàn)usion RPN+BDT架構是TDNN和增強森林的集成。我們可以觀察到，增強模塊非常耗時，將運行時間增加了3倍。值得注意的是，我們提出的光照感知加權網絡對網絡效率的影響很小，與TDNN相比是0.25s對比0.22s。

表4 比較IATDNN+IASS和最先進方法的MR（全天）和運行時間性能。利用單個Titan X GPU對計算效率進行評估。注意DL表示深度學習，BF表示增強森林[9]。
基于光照感知深度神經網絡的多光譜數據融合行人檢測74

圖9 “合理“設置下在全天(a)、白天(b)、夜間(c) KAIST測試集上的比較（標簽表示MR）

基于光照感知深度神經網絡的多光譜數據融合行人檢測76

圖10 與目前最先進方法（Fusion RPN + BDT）行人檢測結果的比較。第一列為帶真值的輸入多光譜圖像（展示了可見光圖像通道），其余為Fusion RPN + BDT、IATDNN、IATDNN+IASS的檢測結果（展示了熱圖像通道）。注意，綠色實線邊界框（BBs）表示正樣本標簽，綠色虛線BBs表示忽略的標簽，黃色實線BBs表示真陽性，黃色虛線BBs表示忽略標簽的檢測，紅色BBs表示假陽性。最好用彩圖觀看。

5 總結

本文提出了一種功能強大的多光譜行人檢測器，它基于光照感知行人檢測和語義分割的多任務學習。利用編碼在多光譜圖像中的光照信息計算光照感知權重。我們證明了我們設計的光照全連接神經網絡（IFCNN）可以準確地預測權重。提出了一種新的光照感知加權機制，將白天和夜間光照子網絡（行人檢測和語義分割）結合起來。實驗結果表明，光照感知加權機制為多光譜行人檢測器的性能提升提供了一種有效的策略。此外，我們探索了四種不同的多光譜語義分割架構，發(fā)現(xiàn)光照感知決策階段融合的多光譜語義分割生成最可靠的輸出。在KAIST基準上的實驗結果表明，我們所提出的方法優(yōu)于目前最先進的方法，并且使用更少的運行時間獲得了更準確的行人檢測結果。

參考文獻
基于光照感知深度神經網絡的多光譜數據融合行人檢測77

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：典型V2X通信技術標準化進展及對比分析研究
上一篇：汽車測試假人的路該怎么走？

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網V課堂
微信公眾號
汽車測試網手機站

相關閱讀

0 條相關評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數，而是證據鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預期功能安全應該覆蓋
• 大推力直驅技術助力EPS安全測試，為你的安全出行 “保駕護	• 單機體積，雙倍效能！激光切割機玩轉“降本增效”
• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬	• 即刻探索8臺機器人如何解放數百名工人！
• 考慮驅動單元性能變化的分布式驅動智能車輛強化學習增強運	• eVTOL/飛行汽車→低噪聲氣動設計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強制新規(guī)來了：標準更嚴,明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

基于光照感知深度神經網絡的多光譜數據融合行人檢測

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標準

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工