日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

視透霧天:看不見的惡劣天氣中的深度多模式傳感器融合

2020-09-16 12:22:36·  來源:同濟智能汽車研究所  
 
編者按:目標檢測是自動駕駛車輛中基本的計算機視覺問題。由于自然偏向,現(xiàn)有的訓練數(shù)據(jù)集偏向晴朗的天氣,而惡劣天氣下的數(shù)據(jù)非常罕見,現(xiàn)有的檢測架構(gòu)依賴于未
編者按:目標檢測是自動駕駛車輛中基本的計算機視覺問題。由于自然偏向,現(xiàn)有的訓練數(shù)據(jù)集偏向晴朗的天氣,而惡劣天氣下的數(shù)據(jù)非常罕見,現(xiàn)有的檢測架構(gòu)依賴于未失真的傳感器流,而惡劣天氣下傳感器會產(chǎn)生非對稱的失真,因此現(xiàn)有的目標檢測方法不適用于惡劣天氣場景。本文提出了一種自適應單次深度融合架構(gòu),并引入新型多模式數(shù)據(jù)集來解決現(xiàn)有數(shù)據(jù)集中的天氣偏差,使本文的方法可以在晴朗天氣的數(shù)據(jù)上進行訓練,并將傳感器不對稱損壞的情況穩(wěn)健地推廣到惡劣天氣的情況。

本文譯自:
Seeing Through FogWithout Seeing Fog: Deep Multimodal Sensor Fusion in Unseen Adverse Weather
文章來源:
CVPR2020
作者:
Mario Bijelic, Tobias Gruber, Fahim Mannan, Florian Kraus, Werner Ritter, Klaus Dietmayer, Felix Heide
原文鏈接:
https://www.cs.princeton.edu/~fheide/AdverseWeatherFusion/

摘要:多模式傳感器流的融合,例如相機,激光雷達和雷達測量,在自動駕駛汽車的目標檢測中起著至關(guān)重要的作用,這些輸入是自動駕駛汽車的決策基礎(chǔ)。盡管現(xiàn)有方法在良好的環(huán)境條件下可以利用大量的信息,但在惡劣的天氣中這些方法會失效,因為在這種情況下,傳感器流可能會不對稱地失真。這些罕見的“邊緣情況”的場景沒有呈現(xiàn)在可用的數(shù)據(jù)集里,而且現(xiàn)有的融合架構(gòu)也不旨在解決這些問題。為了應對這一挑戰(zhàn),本文提出了一個新的多模式數(shù)據(jù)集,該數(shù)據(jù)集是在北歐10,000 多公里的行駛中獲得的。盡管此數(shù)據(jù)集是惡劣天氣下的第一個大型的多模式數(shù)據(jù)集,且具有10 萬個激光雷達、相機、雷達和門控NIR傳感器的標簽,但由于極端天氣很少見,因此不利于訓練。為此,本文提出了一種深層融合網(wǎng)絡,可進行穩(wěn)健的融合,而無需涵蓋所有非對稱失真的大量標記訓練數(shù)據(jù)。與提案層的融合不同,本文提出了一種由測量熵驅(qū)動的自適應融合特征的單次模型。本文在廣泛的驗證數(shù)據(jù)集中驗證經(jīng)過清晰數(shù)據(jù)訓練的所提出方法。代碼和數(shù)據(jù)可以在這個網(wǎng)站獲得:https://github.com/princeton-computationalimaging/SeeingThroughFog。

1 前言

目標檢測是自動駕駛機器人(包括自動駕駛車輛和自動駕駛無人機)中基本的計算機視覺問題。在具有挑戰(zhàn)性的現(xiàn)實場景中,此類應用需要場景對象的2D 或3D 邊界框,包括復雜的混亂場景,變化很大的照明以及惡劣的天氣條件。最有前景的自動駕駛汽車系統(tǒng)依賴于來自多種傳感器形式的大量輸入[58、6、73],包括相機、激光雷達、雷達和新興傳感器(例如FIR)[29]。使用卷積神經(jīng)網(wǎng)絡進行物體檢測的研究越來越多,這使得用這種多模態(tài)數(shù)據(jù)可以準確地進行2D 和3D 盒子估計,尤其是依賴于相機和激光雷達數(shù)據(jù)的[64、11、56、71、66、42、35]。

盡管這些現(xiàn)有方法以及在其輸出上執(zhí)行決策的自動駕駛系統(tǒng)在正常成像的條件下表現(xiàn)良好,但在惡劣的天氣和成像條件下卻無法使用。這是因為現(xiàn)有的訓練數(shù)據(jù)集偏向晴朗的天氣條件,并且檢測器的架構(gòu)設(shè)計僅依賴于未失真的傳感流中的冗余信息。但是,它們不適用于惡劣的場景,這些場景會導致傳感器流非對稱變形,詳見圖1。極端天氣情況在統(tǒng)計上很少見。例如,在北美,僅有0.01%典型駕駛情況下可以觀察到濃霧;在大霧地區(qū),每年能見度在50m 以下的濃霧最多發(fā)生15 次[61]。圖3展示了瑞典四個星期內(nèi)獲得的實際駕駛數(shù)據(jù)分布,其中包括冬季行駛的10,000 km。自然偏倚的分布驗證了可用數(shù)據(jù)集中很少甚至根本沒有惡劣天氣情況[65,19,58]。不幸的是,域自適應方法[44、28、41] 也沒有對此提供解決方案,因為它們需要目標樣本,而惡劣天氣的失真數(shù)據(jù)通常很少被考慮。而且,現(xiàn)有方法限于圖像數(shù)據(jù),而不受限于多傳感器數(shù)據(jù),包括激光雷達點云數(shù)據(jù)。
 


圖1 現(xiàn)有的物體檢測方法,包括高效的單次檢測器(SSD)[40],都是在偏向于良好天氣條件的汽車數(shù)據(jù)集上進行訓練的。雖然這些方法在良好的條件下效果很好[19,58],但在罕見的天氣事件中卻失敗了(頂部)。由于在霧或雪(中心)中發(fā)生嚴重的反向散射,Lidaronly 探測器(例如在預計的激光雷達深度上訓練的同一SSD 模型)可能會失真。這些不對稱失真對依賴冗余信息的融合方法構(gòu)成了挑戰(zhàn)。本文所提出的方法(底部)將學習解決多模式數(shù)據(jù)中看不見的(可能不對稱)失真的問題,而不會看到這些罕見情況的訓練數(shù)據(jù)。
 
由于現(xiàn)有訓練數(shù)據(jù)集中的傳感器輸入有限[65、19、58],目前已提出了主要用于激光雷達攝像機設(shè)置的融合方法[64、11、42、35、12]。由于訓練數(shù)據(jù)的偏差,這些方法不只是專注于研究惡劣天氣中的傳感器失真。他們要么在獨立處理各個傳感器流后,通過過濾執(zhí)行后期融合[12],要么融合假設(shè)[35] 或高級特征向量[64]。這些方法的網(wǎng)絡架構(gòu)是在假設(shè)數(shù)據(jù)流一致且冗余的前提下設(shè)計的,即出現(xiàn)在一個傳感流中的目標也出現(xiàn)在另一個傳感流中。但是,在惡劣的天氣條件下,例如霧、雨、雪或極端光照條件下,包括低光照或低反射物體,多模式傳感器配置可能會不對稱地失效。例如,傳統(tǒng)的RGB 相機在弱光場景區(qū)域中會產(chǎn)生不可靠的嘈雜測量,而掃描激光雷達傳感器則使用主動照明來提供可靠的深度。在雨雪中,小顆粒同樣會通過反向散射影響彩色圖像和激光雷達深度估計。相反,在有霧或雪的天氣下,由于反向散射,最新的脈沖激光雷達系統(tǒng)被限制在小于20m的范圍內(nèi),請參見圖4。雖然激光雷達可能是夜間駕駛的解決方案,但對于惡劣的天氣并非如此。

本文的研究提出了一種多模式融合方法,可用于惡劣天氣(包括霧,雪和大雨)中的目標檢測,而沒有適用于這些場景的大型注釋訓練數(shù)據(jù)集。具體來說,通過偏離現(xiàn)有的提案層融合方法來處理相機、激光雷達、雷達和門控NIR傳感器流中的非對稱測量損壞:本文提出了一種自適應單次深度融合架構(gòu),該架構(gòu)在交織的特征提取器塊中交換特征。這種深度的早期融合通過測量的熵來控制。提出的自適應融合能夠?qū)W習在各種情況下進行概括的模型。為了驗證此方法,通過引入三個月內(nèi)在北歐采集的新型多模式數(shù)據(jù)集來解決現(xiàn)有數(shù)據(jù)集中的偏差。該數(shù)據(jù)集是惡劣天氣下的第一個大型多模式駕駛數(shù)據(jù)集,具有10萬個激光雷達、攝像機、雷達、門控NIR 傳感器和FIR 傳感器標簽。盡管天氣偏向仍然不利于訓練,但是這些數(shù)據(jù)使本文的方法可以在晴朗天氣的數(shù)據(jù)上進行訓練,同時將傳感器不對稱損壞的情況穩(wěn)健地推廣到惡劣天氣的情況。

具體來說,本文做出了以下貢獻:

· 
引入多模式惡劣天氣數(shù)據(jù)集,涵蓋了相機、激光雷達、雷達、門控NIR 和FIR 傳感器數(shù)據(jù)。該數(shù)據(jù)集包含罕見的場景,例如在北歐行駛10,000 多公里時的大霧、大雪和大雨。

·  
提出一個深度的多模式融合網(wǎng)絡,該網(wǎng)絡不同于提案層的融合,而是由測量熵驅(qū)動的自適應融合。

·  
在本文提出的數(shù)據(jù)集上評估該模型,驗證該模型可以推廣到惡劣天氣的不對稱失真。在與天氣無關(guān)的惡劣情況下(包括小霧、濃霧、大雪和晴朗的天氣),該方法比先進的融合方法性能高出8%以上,并且可以實時運行。

2 相關(guān)研究

在惡劣的天氣條件下進行檢測 在過去的十年中,汽車數(shù)據(jù)集的開創(chuàng)性工作[5、14、19、16、65、9] 為汽車目標檢測,深度估計[18、39、21],車道檢測[26],交通信號燈檢測[32],道路場景分割[5、2] 和端到端駕駛模型[4、65] 都提供了沃土[11、8、64、35、40、20]。盡管現(xiàn)有的數(shù)據(jù)集為該研究領(lǐng)域提供了動力,但由于地理位置[65] 和獲得數(shù)據(jù)的季節(jié)[19],數(shù)據(jù)集偏向于良好的天氣條件,因此缺乏罕見的霧、大雪和雨水引起的嚴重失真。許多近期的工作探索了在這種惡劣條件下僅使用攝像頭的方法[51,7,1]。然而,這些數(shù)據(jù)集非常小,捕獲的圖像少于100個[51],并且僅限于攝像機的視覺任務。相比之下,現(xiàn)有的自動駕駛應用依賴于多模式傳感器堆棧,包括攝像頭、雷達、激光雷達和新興傳感器,例如門控NIR 成像[22、23],并且必須在數(shù)千小時的駕駛中進行評估。本研究填補了這一空白,并引入了一個大規(guī)模評估數(shù)據(jù)集,以便為這種多模式輸入開發(fā)一種融合模型,該模型對惡劣天氣下的失真具有魯棒性。

惡劣天氣中的數(shù)據(jù)預處理
 大量研究探索了在處理之前消除傳感器失真的方法。特別是,廣泛地研究了從常規(guī)強度圖像數(shù)據(jù)中去除霧氣和霧霾的方法[67、70、33、53、36、7、37、46]。霧會導致對比度和色彩的距離損失。除霧方法不僅可以應用于顯示[25],還可以作為預處理方法提高下游語義任務的性能[51]。現(xiàn)有的霧霾消除方法是依靠場景先驗的潛在清晰圖像和深度來解決不合適的恢復問題。這些先驗是手動的[25],分別用于深度和傳輸估計,或者作為可訓練的端到端模型的一部分共同學習[37、31、72]。用于照相機駕駛員輔助系統(tǒng)的霧和能見度估計的方法已被提出[57、59]。圖像恢復方法也已應用于排水[10] 或去模糊[36]。

域適應 另一研究領(lǐng)域是通過域適應來解決未標記數(shù)據(jù)分布的變化[60,28,50,27,69,62]。這樣的方法可以使清晰標記的場景適應苛刻的惡劣天氣場景[28] 或通過特征自適應的表示[60]。不幸的是,這兩種方法都難以一概而論,因為與現(xiàn)有的域傳輸方法相比,總體而言,受天氣影響的數(shù)據(jù)(不僅是標記數(shù)據(jù))的代表性不足。此外,現(xiàn)有方法不能處理多模式數(shù)據(jù)。

多傳感器融合 通常融合自動駕駛汽車中的多傳感器饋送以利用測量中的變化線索[43],以及簡化路徑規(guī)劃[15],在出現(xiàn)失真的情況下實現(xiàn)冗余[47] 或解決聯(lián)合視覺任務,例如作為3D對象檢測[64]?,F(xiàn)有的用于全自動駕駛的傳感系統(tǒng)包括激光雷達,攝像頭和雷達傳感器。由于大型汽車數(shù)據(jù)集[65、19、58] 僅覆蓋了有限的傳感器輸入,因此,現(xiàn)有的融合方法主要針對激光雷達相機設(shè)置[64、55、11、35、42]。諸如AVOD[35] 和MV3D [11] 之類的方法結(jié)合了相機和激光雷達的多個視圖來檢測物體。它們依賴于合并的感興趣區(qū)域的融合,因此遵循主流的區(qū)域提議架構(gòu)進行后期特征融合[49]。Qi 等人[48] 在另一項研究中和Xu 等[64] 提出了一種管道模型,該模型需要針對攝像機圖像的有效檢測輸出以及從激光雷達點云中提取的3D 特征向量。Kim 等[34] 提出了一種用于相機-激光雷達融合的門控機制。在所有現(xiàn)有方法中,傳感器流均在特征提取階段進行單獨處理,這會阻礙學習冗余,實際上,在存在非對稱測量失真的情況下,其性能比單個傳感器流差。

3 多模式惡劣天氣數(shù)據(jù)集

為了評估惡劣天氣中的目標檢測,本文獲得了一個大型的汽車數(shù)據(jù)集,該數(shù)據(jù)集提供了用于多模式數(shù)據(jù)的2D 和3D 檢測邊界框,并對罕見惡劣天氣情況下的天氣,光照和場景類型進行了精細分類。表2比較了本文的數(shù)據(jù)集和最近的大規(guī)模汽車數(shù)據(jù)集,例如Waymo[58],NuScenes[6],KITTI[19] 和BDD[68] 數(shù)據(jù)集。與[6] 和[68] 相比,本文的數(shù)據(jù)集不僅包含在晴朗天氣條件下的實驗數(shù)據(jù),還包含在大雪,雨天和霧中的實驗數(shù)據(jù)。補充材料中給出了注釋程序和標簽規(guī)格的詳細說明。借助這種多模式傳感器數(shù)據(jù)的跨天氣注釋和廣泛的地理采樣,它是現(xiàn)有數(shù)據(jù)集中唯一可以評估本文的多模式融合方法的。將來,設(shè)想研究人員可以開發(fā)和評估現(xiàn)有數(shù)據(jù)集未涵蓋的天氣條件下的多模式融合方法。

表1:提出的多模式惡劣天氣數(shù)據(jù)集與現(xiàn)有的汽車檢測數(shù)據(jù)集的比較。
 
圖3:繪制了上述數(shù)據(jù)集的天氣分布。通過以0.1Hz 的幀速率手動注釋所有同步幀來獲得統(tǒng)計信息。當可見度分別低于1km[45] 和100m 以下時,指導注釋者手動地將光與濃霧區(qū)分開。如果霧和降水同時發(fā)生,則根據(jù)環(huán)境道路狀況將場景標記為下雪或下雨。對于本文的實驗,將雪和雨天的情況結(jié)合。值得注意的是,統(tǒng)計數(shù)據(jù)證實了惡劣天氣下的場景稀有性,這一點與[61] 一致,并說明了在評估真正的自動駕駛車輛時,即在沒有在地理圍欄區(qū)域之外的遠程操作員交互的情況下,獲取此類數(shù)據(jù)的難度和關(guān)鍵性。本文發(fā)現(xiàn)極端惡劣的天氣條件僅在當?shù)匕l(fā)生并且變化非??臁?/div>

個別的天氣狀況會導致各種傳感器技術(shù)的不對稱擾動,從而導致不對稱退化,即,并非所有傳感器輸出均受到不斷惡化的環(huán)境條件的統(tǒng)一影響,有些傳感器的退化要比其他傳感器要嚴重得多,請參見圖4。例如,傳統(tǒng)的被動式攝像機在白天條件下表現(xiàn)良好,但在夜間條件或光照不良的設(shè)置(例如低太陽光照)下其性能會下降。同時,激光雷達和雷達等有源掃描傳感器受有源照明和檢測邊的窄帶通環(huán)境的光變化影響較小。另一方面,有源激光雷達傳感器的性能會由于霧,雪或雨等散射介質(zhì)而大大退化,從而限制了在霧密度低于50m 至25m 時的最大可感知距離,請參見圖4。毫米波雷達波不會在霧中強烈散射[24],但目前僅提供低方位角分辨率。最近的門控圖像在惡劣天氣下顯示出穩(wěn)健的感知能力[23],且具有較高的空間分辨率,但與標準成像儀相比缺少色彩信息。由于每個傳感器這些特定的優(yōu)缺點,多模式數(shù)據(jù)對于可靠的檢測方法至關(guān)重要。

圖3: 右:數(shù)據(jù)收集活動的地理覆蓋范圍,涵蓋了兩個月和德國,瑞典,丹麥和芬蘭的10,000 公里。左上方:配置了頂部激光雷達,帶閃光燈的門控攝像頭,RGB 攝像頭,專有雷達,F(xiàn)IR 攝像頭,氣象站和道路摩擦傳感器的測試車輛的設(shè)置。左下:整個數(shù)據(jù)采集過程中天氣狀況的分布。駕駛數(shù)據(jù)相對于天氣狀況特別不平衡,包含惡劣天氣的情況非常稀有。

圖4: 在濃霧中的RGB 攝像頭,掃描激光雷達,門控攝像頭和雷達的多模式傳感器響應。第一行顯示了清晰條件下的參考記錄,第二行顯示了在可見度為23m 的霧中的記錄。

3.1 多模式傳感器設(shè)置

為了進行采集,為測試車輛配備了涵蓋可見光,毫米波,NIR 和FIR 波段的傳感器,請參見圖3。測量光強度,深度和天氣狀況。

立體聲相機 使用兩個前置立體高動態(tài)范圍的汽車RCCB 相機作為可見波長RGB 相機,由兩臺分辨率為1920 × 1024,基線為20.3cm 和12 位量化的onSemi AR0230 成像儀組成。攝像機以30Hz 的頻率運行并同步進行立體成像。使用焦距為8mm 的Lensagon B5M8018C光學元件,可獲得39.6? × 21.7? 的視場。

門控攝像機 使用以120Hz 運行,且分辨率為1280×720 和10 位位深度的BrightwayVisionBrightEye 攝像機,以在808nm 的近紅外波段捕獲門控圖像。該攝像機提供與31.1? × 17.8? 的立體攝像機類似的視野。門控成像器依賴于時間同步相機和泛光閃光燈激光源[30]。激光脈沖發(fā)出可變的窄脈沖,在可調(diào)的延遲后,相機捕獲激光回波。這可以顯著減少惡劣天氣條件下粒子的反向散射[3]。此外,高成像儀的速度可以捕獲具有不同范圍強度文件的多個重疊切片,這些切片對多個切片之間可提取的深度信息進行編碼[23]。按照[23],以10Hz 的系統(tǒng)采樣率捕獲了3 個寬片用于深度估計,另外還捕獲了3-4 個窄片及其被動對應關(guān)系。

雷達 對于雷達傳感,使用專有的頻率連續(xù)波(FMCW)雷達,頻率為77GHz,角分辨率為1?,最大距離為200m。雷達提供15Hz 的位置速度檢測。

激光雷達 在汽車的車頂上,安裝了兩個來自Velodyne 的激光掃描儀,分別是HDL64S3D 和VLP32C。兩者都在903nm 下工作,并且可以在10Hz 下提供雙返回(最強和最強)。Velodyne HDL64 S3D 提供了平均分布的64 條掃描線,其角分辨率為0.4?,而Velodyne VLP32C提供了32 條非線性分布的掃描線。HDL64 S3D 和VLP32C 掃描儀可以分別達到100m 和120m的范圍。

FIR 攝像機 使用Axis Q1922 FIR 攝像機以30Hz 的溫度捕獲熱圖像。該相機的分辨率為640 × 480,像素間距為17μm,等效噪聲溫差(NETD)<100 mK。

環(huán)境傳感器 使用提供溫度,風速和濕度的Airmar WX150 氣象站以及專有的道路摩擦傳感器來測量環(huán)境信息。所有傳感器均采用專有慣性測量單元(IMU)進行時間同步和自我運動校正。系統(tǒng)提供10 Hz 的采樣率。

3.2 記錄

真實記錄 所有實驗數(shù)據(jù)分別在德國,瑞典,丹麥和芬蘭進行的試駕中獲得, 兩次試駕于2019 年二月和十二月進行,為期兩個星期,在不同的天氣和光照條件下覆蓋了10,000km 的距離。以10Hz 的幀速率共收集了140 萬幀。每第100 幀都經(jīng)過手動標記,以平衡場景類型的覆蓋范圍。生成的注釋包含5 500個晴天,1 000個濃霧,1 000個薄霧,4 000個雪/雨。大量的捕獲工作表明在惡劣條件下訓練數(shù)據(jù)是很少的。本文通過僅訓練晴朗天氣的數(shù)據(jù),以及在惡劣情況下進行測試來解決此問題。訓練區(qū)域和測試區(qū)域沒有任何地理重疊。除了按幀劃分外,還根據(jù)不同位置的獨立記錄(長度為5-60 分鐘)對數(shù)據(jù)集進行劃分。這些記錄來自圖3中所示的18個不同的主要城市以及沿途的幾個較小的城市。

受控條件記錄 為了在受控條件下收集圖像和距離數(shù)據(jù),還提供了在霧室中獲取的測量值。霧室設(shè)置的詳細信息可以在[17,13] 中找到。本文已經(jīng)以10Hz 的幀速率捕獲了35000幀,并在兩種不同的光照條件(白天/夜晚)和三種霧密度下分別標記了1500幀的子集,其氣象可見度V分別為30m,40m 和50m。補充材料中提供了詳細信息,其中還使用[51] 中的正向模型對模擬數(shù)據(jù)集進行了比較。

4 自適應深度融合

本節(jié)描述了本文提出的自適應深度融合架構(gòu),該架構(gòu)允許在出現(xiàn)不可見的不對稱傳感器失真的情況下實現(xiàn)多模式融合。本文在自動駕駛車輛和無人駕駛飛機所需的實時處理約束下設(shè)計架構(gòu)。具體來說,本文提出了一種有效的單次融合架構(gòu)。

4.1 自適應多模式單次融合

提出的網(wǎng)絡架構(gòu)如圖5所示。它由多個單次檢測分支組成,每個分支都分析一個傳感器模式。

數(shù)據(jù)表示 相機分支使用常規(guī)的三平面RGB 輸入,而對于激光雷達和雷達分支,本文的方法與最近的鳥瞰(BeV)投影[35] 方案或原始點云表示[64] 不同。BeV 投影或點云輸入不允許進行深度的早期融合,因為早期圖層中的特征表示與相機特征天生不同。因此,現(xiàn)有的BeV 融合方法只能在建議匹配區(qū)域之后進行提升空間中的特征融合,而不能提前。圖5可視化了本文提出的輸入數(shù)據(jù)編碼,該編碼有助于進行深度多模態(tài)融合。深度,高度和脈沖強度作為激光雷達網(wǎng)絡的輸入,而不是僅使用樸素的深度輸入編碼。對于雷達網(wǎng)絡,假設(shè)雷達在與圖像平面正交和與水平圖像尺寸平行的2D 平面中進行掃描。因此,考慮沿垂直圖像軸雷達的不變性,并沿垂直軸復制掃描。使用單應性映射將門控圖像轉(zhuǎn)換為RGB 相機的圖像平面,這部分請參閱補充材料。本文所提出的輸入編碼使用不同流之間的逐像素對應,可以實現(xiàn)與位置和強度相關(guān)的融合。用零值來編碼缺失的測量樣本。

特征提取 作為每個流中的特征提取堆棧,本文使用了改進的VGG[54] 主干。類似于[35,11],將通道數(shù)量減少一半,并在conv4 層上切斷網(wǎng)絡。受[40,38] 的啟發(fā),使用conv4-10中的六個要素層作為SSD 檢測層的輸入。特征圖的隨尺寸減小,實現(xiàn)了一個用于不同比例檢測的特征金字塔。如圖5所示,不同特征提取堆棧的激活進行了交換。為了使融合更加可靠,為每個特征交換塊提供了傳感器熵。首先對熵進行卷積,應用S 形,與來自所有傳感器的級聯(lián)輸入特征相乘,最后級聯(lián)輸入熵。熵的折疊和S 形的應用在區(qū)間[0,1] 中生成一個乘法矩陣,這可以根據(jù)可用信息分別縮放每個傳感器的級聯(lián)特征。具有低熵的區(qū)域可以被衰減,而富熵的區(qū)域可以在特征提取中被放大。這樣做能夠在特征提取堆棧中實現(xiàn)自適應融合特征,將在下一部分中深入探討。
 
視透霧天:看不見的惡劣天氣中的深度多模式傳感器融合
圖5: 本文的體系結(jié)構(gòu)概述,由四個單次檢測器分支組成,具有深度特征交換和激光雷達,RGB 攝像頭,門控攝像頭和雷達的自適應融合。按照第4.1 節(jié)的規(guī)定,所有傳感器數(shù)據(jù)都將投影到相機坐標系中。為了引導傳感器之間的融合,模型依賴于傳感器熵,該熵被提供給每個特征交換塊(紅色)。深層特征交換塊(白色)與并行特征提取塊交換信息(藍色)。融合的特征圖由SSD 塊(橙色)分析。

4.2 熵導向融合

為了使深度融合具有冗余且可靠的信息,在每個傳感器流中引入了一個熵通道,而不是像[57,59] 中那樣直接推斷惡劣的天氣類型和強度。估計局部測量熵,

 
熵值是由本文提出的圖像控件數(shù)據(jù)表示中,像素值i∈ [0, 255] 的每8 位二進制流I 計算得到的。每個流被分成大小為M×N = 16px×16px 的小塊,從而產(chǎn)生w×? = 1920px×1024px 的熵圖。兩種不同場景的多模式熵圖如圖6所示:左側(cè)展示了在受控霧室內(nèi)的場景,包含車輛,騎自行車的人和行人。隨著霧的可見性降低,被動式RGB 相機和激光雷達會受到反向散射和衰減的影響,而門控相機則通過門控來抑制反向散射,雷達測量的性能在霧中也不會顯著降低。圖6中的右圖顯示了在變化的環(huán)境光照下的靜態(tài)室外場景。在這種場景下,有源激光雷達和雷達不受環(huán)境照度變化的影響。對于門控攝像機,環(huán)境照明消失,僅保留主動照明的區(qū)域,而被動RGB 攝像機隨著環(huán)境光線的減少性能逐漸下降。
 
控制過程完全是在晴朗的天氣數(shù)據(jù)中學習的,其中包含白天到晚上的不同照明設(shè)置。在訓練過程中,沒有出現(xiàn)真正的惡劣天氣模式。此外,以0.5 的概率隨機放置傳感器流,并將熵設(shè)置為恒定的零值。

4.3 損失功能和訓練細節(jié)

各個特征圖層中的錨框數(shù)量及其大小在訓練過程中起著重要作用,可以在補充材料中查看??偟膩碚f,每個帶有等級yi 和概率pi 的錨框都使用帶有softmax的交叉熵損失進行訓練,

 
對于匹配閾值為0.5 的正錨定框和負錨定框,損耗將進行拆分。對于每個正錨點框,使用下式的Huber 損失H(x) 對邊界框坐標x進行回歸:

 
將負錨的總數(shù)限制為5× 使用示例[45,52] 的正示例的數(shù)量。從頭開始訓練所有網(wǎng)絡,學習速率恒定,L2 權(quán)重衰減為0.0005。

圖6: 門控相機,RGB 相機,雷達和激光雷達在不同霧度(左)和光照(右)下帶有清晰參考記錄的歸一化熵。熵是根據(jù)圖4中所示的受控霧室內(nèi)的動態(tài)場景(左)和具有變化的自然光照設(shè)置的靜態(tài)場景(右)計算得出的。定量的數(shù)字已根據(jù)方程式1計算,注意不同傳感器技術(shù)的非對稱傳感器故障。定性結(jié)果在下面給出,并通過箭頭連接到其相應的霧密度/日間。

5 評估

本節(jié)將在惡劣天氣的實驗測試數(shù)據(jù)上驗證所提出的融合模型。將這種方法與現(xiàn)有的單傳感器輸入和融合的檢測器,以及域自適應方法進行比較。由于訓練數(shù)據(jù)獲取存在天氣偏向,僅使用提出的數(shù)據(jù)集的晴朗天氣部分進行訓練。使用本文新的多模式天氣數(shù)據(jù)集作為測試集來評估檢測性能,請參閱補充數(shù)據(jù)以了解測試和訓練分組的詳細信息。

本文驗證了表2中提出的基于真實惡劣天氣數(shù)據(jù)的方法,將其稱為“深度熵融合”。本文報告了三種不同難度級別(容易,中等,困難)的平均精度(AP),并根據(jù)KITTI 評估框架[19] 在各種霧密度,雪干擾和晴朗天氣下對汽車進行了評估。將提出的模型與最新的激光雷達-照相機融合模型進行了比較,包括AVODFPN[35],F(xiàn)rustum PointNets[48],以及提出的方法的變體,比如另一種方式融合或傳感器輸入。作為基準變量,實現(xiàn)了兩個融合和四個單傳感器探測器。特別是,比較了后期融合和早期融合,后期融合有圖像,激光雷達,門控和邊界框回歸(Fusion SSD)之前融合的雷達特征,早期融合是在一個特征提取堆棧的早期開始將所有傳感器數(shù)據(jù)進行關(guān)聯(lián)來融合(Concat SSD)。Fusion SSD 網(wǎng)絡與提出的模型的結(jié)構(gòu)是一樣的,但沒有特征交換和自適應融合層。此外,將提出的模型與具有單傳感器輸入的相同SSD 分支(僅圖像SSD,僅門控SSD,僅激光雷達SSD,僅雷達SSD)進行了比較。所有模型都使用相同的超參數(shù)和錨點進行訓練。

表2:對數(shù)據(jù)集中受真實的看不見天氣影響的數(shù)據(jù)的定量檢測AP,其中,數(shù)據(jù)根據(jù)天氣和不同的難易程度劃分(容易/中等/困難[19])除域適應法外,所有檢測模型都僅針對清晰的數(shù)據(jù)進行訓練,而不會出現(xiàn)天氣失真。最佳模型以粗體突出顯示。
 
對惡劣天氣情況進行評估時,所有方法的檢測性能都會下降。值得一提的是,隨著場景復雜度在天氣分類之間變化,評估指標可能會同時增加。例如,當更少的車輛參與道路交通或者在冰雪的條件下車輛之間的距離增加時,阻塞的車輛更少。圖像和門控數(shù)據(jù)的性能幾乎穩(wěn)定,但激光雷達數(shù)據(jù)卻大幅下降,而雷達數(shù)據(jù)卻有所提高。強烈的反向散射可以導致激光雷達性能的下降,請參閱補充材料。最多有100 個測量目標,這限制了雷達輸入的性能,因此報告中的改進來自更簡單的場景。

總體而言,在有霧條件下,激光雷達性能的大幅降低會影響僅激光雷達情況下的檢測率,降低幅度為45.38%AP。此外,它還對相機-激光雷達融合模型AVOD,Concat SSD 和Fusion SSD產(chǎn)生了重大影響。它使得學習到的冗余不再成立,這些方法甚至低于僅使用圖像的方法。

兩階段方法(例如Frustum PointNet[48])會迅速下降。但是,與AVOD 相比,它們漸近地實現(xiàn)了更高的結(jié)果,因為在第一階段學習到的統(tǒng)計先驗是基于僅圖像SSD 的,這限制其性能為圖像域先驗。AVOD 受天氣晴朗的幾個假設(shè)所限制,例如在訓練過程中對裝有激光雷達數(shù)據(jù)的盒子進行重要性采樣,從而獲得最低的融合性能。此外,隨著霧密度的增加,本文所提出的自適應融合模型的性能優(yōu)于所有其他方法。特別是在嚴重失真的情況下,提出的自適應融合層在沒有深度融合的情況下會在模型上產(chǎn)生很大的邊際??傮w而言,本文所提出的方法優(yōu)于所有基準方法。在濃霧中,與次佳的特征融合變體相比,它提高了9.69%的邊際。

為了完整起見,還將提出的模型與最新的領(lǐng)自適應方法進行比較。首先,根據(jù)[60]將僅圖像SSD 特征從晴天轉(zhuǎn)為惡劣天氣。其次,利用[28] 研究從晴天到惡劣天氣的特征轉(zhuǎn)換,并從晴天輸入中生成惡劣天氣訓練樣本。值得一提的是,這些方法相對于所有其他比較方法均具有不公平的優(yōu)勢,因為它們已經(jīng)從的驗證集中看到了惡劣的天氣情況。請注意,領(lǐng)域適應方法無法直接應用,因為它們需要來自特定領(lǐng)域的目標圖像。因此,它們也無法為數(shù)據(jù)有限的罕見情況提供解決方案。此外,[28] 沒有對包括霧或雪在內(nèi)的失真進行建模,請參見補充材料中的實驗。值得一提的是,遵循[51] 的合成數(shù)據(jù)增強或消除惡劣天氣影響的圖像到圖像重建方法[63] 都不會影響所提出的多模式深度熵融合的邊際。
 
6 結(jié)論和展望

本文解決了自動駕駛中的一個關(guān)鍵問題:場景中的多傳感器融合,其中注釋數(shù)據(jù)稀少且由于自然的天氣偏向而難以獲取。為了評估惡劣天氣下的多模式融合,本文引入了一個新穎的惡劣天氣數(shù)據(jù)集,涵蓋了相機、激光雷達、雷達、門控NIR 和FIR 傳感器數(shù)據(jù)。該數(shù)據(jù)集包含罕見的場景,例如在北歐行駛10,000 多公里時遇到的大霧,大雪和大雨。本文提出了一個實時的深度多模態(tài)融合網(wǎng)絡,該網(wǎng)絡不同于提案層的融合,而是由測量熵驅(qū)動自適應融合。未來研究的方向包括開發(fā)能夠進行故障檢測的端到端模型以及激光雷達傳感器中的自適應傳感器控制(例如噪聲水平或功率水平控制)。

參考文獻:
 
 
 
 
 
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25