日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

首頁 > 汽車技術 > 正文

綜述-基于車輛信息的多模態(tài)融合技術

2022-11-30 10:55:34·  來源:計算機視覺深度學習和自動駕駛  作者:黃浴  
 
綜述論文“Multi-modal Fusion Technology based on Vehicle Information: A Survey”,22年11月。多模態(tài)融合方法主要關注攝像頭數(shù)據(jù)和激光雷達數(shù)據(jù),但很少關注車輛底部傳感器提供的運動學信息,例如加速度、車輛速度、旋轉(zhuǎn)角度。這些信息不受復雜外部場景的

綜述論文“Multi-modal Fusion Technology based on Vehicle Information: A Survey”,22年11月。

多模態(tài)融合方法主要關注攝像頭數(shù)據(jù)和激光雷達數(shù)據(jù),但很少關注車輛底部傳感器提供的運動學信息,例如加速度、車輛速度、旋轉(zhuǎn)角度。這些信息不受復雜外部場景的影響,因此更為穩(wěn)健和可靠。本文介紹車輛底部信息的現(xiàn)有應用領域和相關方法的研究進展,以及基于底部信息的多模態(tài)融合方法;介紹了車輛底部信息數(shù)據(jù)集的相關信息。此外,提出用于自動駕駛任務的多模態(tài)融合技術的未來新思路。

轉(zhuǎn)向角和車速的應用現(xiàn)狀和代表性方法

在轉(zhuǎn)向角方面,建議對轉(zhuǎn)向角預測、多輔助任務、變道預測和噪聲圖像數(shù)據(jù)下的感知進行一些研究。在速度方面,對駕駛風格分類、速度預測、軌跡預測、里程、時間、功耗預測、理想角度、車輛減速預測進行了一些研究。

當車輛行駛時,僅靠視覺輸入不足以做出準確的轉(zhuǎn)向判斷。通過添加車輛運動學信息,可以更好地估計車輛的行為。運動學信息確保汽車不會執(zhí)行違反某些物理規(guī)則的駕駛行為。據(jù)推測,10英里/小時和30英里/小時的U形轉(zhuǎn)彎在轉(zhuǎn)彎角度和控制策略方面有所不同。然而,給出的視覺觀察結果幾乎相同。雖然可以從場景變化的速度推斷車輛的速度,但這仍然是模糊的,不容易從圖像中學習。而車輛自身的傳感器,可以提供諸如當前車輛速度和轉(zhuǎn)向的信息。

此外,應用于車輛信息融合的一些輔助任務也可以幫助了解車輛的周圍環(huán)境。在正常情況下,駕駛員可以通過關注重要信息和了解駕駛場景來快速做出駕駛決策。經(jīng)過訓練的端到端自動駕駛和深度學習使駕駛員能夠用帶有駕駛行為標簽(如轉(zhuǎn)向角和速度)的監(jiān)督學習在駕駛場景中做出相應的判斷。但是,在這種方法中,端到端模型很難學習和理解一些重要特征信息與駕駛行為之間的映射關系。對駕駛決策有重大影響的區(qū)域,如車輛、行人、交通燈和可駕駛區(qū)域,沒有得到更多關注。因此,基于多任務的學習與多輔助任務(如語義分割和目標檢測)一起使用,這有助于關注顯著區(qū)域并理解駕駛場景。

如圖是多輔助任務的例子:

圖片

德國一項研究報告稱,考慮到變車,城市道路上變道的概率為55%,高速公路上轉(zhuǎn)向燈的使用率為75%。來自三個來源的數(shù)據(jù)融合通常會產(chǎn)生最佳的預測率:1)駕駛員行為觀察(例如眼睛跟蹤);2)環(huán)境傳感器信息(例如前/側雷達、車道檢測、GPS/地圖數(shù)據(jù))3)車輛參數(shù)(例如轉(zhuǎn)向信號、速度、加速度、方向盤角)。方向盤角作為一個可直接測量的車輛參數(shù),似乎是一個很有前途的變道早期預測指標。這里提出一種方向盤角的數(shù)學模型,有助于預測變道機動。

許多研究表明,當視覺信息受到噪聲干擾時,車輛的感知會受到很大影響。特斯拉的一個無人駕駛事故是由于感知模塊在強光環(huán)境下發(fā)生故障所致。潮濕的道路很容易在攝像頭圖像中過度曝光,甚至有陽光直射到攝像頭傳感器,導致鏡頭光暈。這些不利的光照條件在測試期間有一些差異,因為測試期間太陽位置發(fā)生了變化,這可能會影響不同模型結果的比較。如圖所示為噪聲干擾例子:

圖片

駕駛員的非正常駕駛行為是交通事故的主要原因,如酒后駕駛、疲勞駕駛、攻擊性駕駛。如果有一些方法可以預測駕駛員的駕駛行為,可以提醒駕駛員,減少事故的發(fā)生。一些監(jiān)控駕駛員行為的方法直接監(jiān)控駕駛員的面部和身體,但人們可以主觀地控制他們的表情,因此這種方法可能具有欺騙性,并侵犯人們的隱私。由車輛的底層信息預測的駕駛行為不能被人主觀地改變,因此由車輛的諸如速度和加速度等底層信息預測出的駕駛行為更加準確和令人信服。除了判斷駕駛行為有助于預防交通事故外,還為優(yōu)化油耗提供了一些支持,因為不同的駕駛行為具有不同的油耗。例如,激進駕駛通常比正常駕駛消耗更多的燃油。目前,一些保險公司還必須判斷駕駛員的正常駕駛行為,以便按照不同的標準劃分保險成本,如果駕駛員通常是激進駕駛,那么他的保險成本將高于普通人。

隨著人口密度的增加,城市地區(qū)的大部分空氣污染都是由機動車尾氣排放造成的。目前,許多研究已經(jīng)通過預測車輛狀態(tài)來優(yōu)化動力系統(tǒng)控制,從而降低燃油消耗,滿足嚴格的排放法規(guī),并減少環(huán)境污染。此外,在自動駕駛方面,汽車面臨的最大挑戰(zhàn)是自動橫向和縱向控制,包括轉(zhuǎn)向和速度控制。因此,準確預測速度尤為重要。

在駕駛習慣方面,人們通常在轉(zhuǎn)彎時減速,直行時適當加速。因此,這種行為可以在自動駕駛汽車上繼續(xù)模仿這個習慣,根據(jù)前方道路的曲率預測速度是否應該增加或減少,以幫助車輛更好地控制。

許多預測車輛速度的方法都使用特定時間段內(nèi)車輛的信息來預測未來特定時間段的速度。他們只考慮車輛本身的信息,而不考慮一些影響速度控制的因素,例如道路交通狀況和與周圍車輛的距離。這種外部環(huán)境的影響增加了速度預測的壓力。

使用什么數(shù)據(jù)來預測速度需要充分的理由。當使用的數(shù)據(jù)太少時,不足以反映車輛狀態(tài)。當使用過多數(shù)據(jù)時,不相關的數(shù)據(jù)會干擾模型。

上述方法大多基于燃油車。在電動車方面,因其無污染、低噪音、無需頻繁維護等優(yōu)點,已經(jīng)逐漸進入人們的生活。

大多數(shù)關于速度預測的研究都是在正常的地理條件下進行的。受氣壓、溫度和濕度、氧含量等因素的影響,不同海拔高度對車輛動態(tài)性能的影響不同,人們的駕駛習慣也不同。因此,需要特定的模型來預測高海拔地區(qū)的車輛速度。

如果在交通監(jiān)控系統(tǒng)上實時進行道路車輛的軌跡預測,或者將一套軌跡預測系統(tǒng)應用于車輛,那么當車輛之間的軌跡發(fā)生沖突時,軌跡預測系統(tǒng)可以通過給車主一定程度的提醒來減少大量的交通事故。

在高速公路上,車輛行駛速度更快,變道過程更危險,如果能夠及時預測車輛在變道過程中是否處于安全狀態(tài),就可以影響駕駛員的行為,避免發(fā)生事故。

傳統(tǒng)的預測軌跡方法使用基于物理的運動模型,雖然它們的結果在短期內(nèi)是準確的,但如果它們超過1秒,結果就不那么可靠,無法進一步參考。

雖然汽車的油耗表可以顯示汽車的瞬時油耗、平均油耗和里程數(shù),但汽車的里程數(shù)是根據(jù)汽車油箱中的剩余燃油除以汽車的平均油耗來計算的。平均油耗是根據(jù)一段時間內(nèi)的里程數(shù)和油耗來計算的,實時性不高。此外,如果可以根據(jù)實時信息在車輛顯示屏上顯示剩余時間和剩余里程,則信息量更大,從而駕駛員可以根據(jù)各種信息安排行程。因此,用影響燃油消耗的參數(shù)(如車速和道路坡度)來預測剩余里程和時間可以為駕駛員提供更大的幫助。估計車輛的實時能耗可以監(jiān)測道路污染,并為減少污染技術提供數(shù)據(jù)支持。

在轉(zhuǎn)向不足或過度(如漂移)的情況下,車輛的穩(wěn)定性控制系統(tǒng)尤為重要,穩(wěn)定性控制系統(tǒng)通過干預發(fā)動機或車輪將車輛恢復到穩(wěn)定狀態(tài)。在橫向穩(wěn)定性控制方面,滑動角和滾動角是車輛橫向穩(wěn)定性的關鍵參數(shù),但這些參數(shù)需要非常昂貴的設備測量。

如果在發(fā)生碰撞之前向駕駛員發(fā)出一定程度的警告,則會減少大量的交通事故,即使在自動駕駛的情況下,也需要一定的時間才能做出反應。制動減速度是指車輛在行駛過程中快速降低行駛速度直至停止的能力。

多模態(tài)融合方法

對于多模態(tài)融合,決定使用何種信息融合和融合方法是極其重要的。本文介紹了遞歸繪制(recurrence plot)和譜圖(spectrogram),將一維信息轉(zhuǎn)換為二維圖像,并且便于二維卷積神經(jīng)網(wǎng)絡。然后,提出張量融合(tensor fusion)和自適應多模態(tài)融合(adaptive multi-modal fusion)技術。

遞歸繪制(RP)首次于1987年提出,用于非線性動力系統(tǒng)的定性分析。RP是從表示每個時間點之間距離的時間序列數(shù)據(jù)獲得的圖像,并且可以用閾值對圖像進行二值化。一般RP是分析時間序列的周期性、混沌性和非平穩(wěn)性的重要方法,可以揭示時間序列的內(nèi)部結構,提供關于相似性、信息量和可預測性的先驗知識,RP特別適用于短時間序列數(shù)據(jù)。RP最近被用于識別許多其他領域中時間序列的動態(tài)模式變化,例如金融數(shù)據(jù)時間序列和生態(tài)系統(tǒng)時間序列。由于RP可以將時間序列轉(zhuǎn)換為二維信息,因此它特別適用于二維卷積神經(jīng)網(wǎng)絡,這為一維信息和二維信息的轉(zhuǎn)換提供了重要支持。

如圖為基于遞歸繪制判斷駕駛狀態(tài)的網(wǎng)絡架構:

圖片

車輛的轉(zhuǎn)向角、車速、加速度等信息隨時間變化。譜圖是能夠反映頻率隨時間變化的圖像。它可以將一維信息轉(zhuǎn)換為二維信息,因此可以更方便地應用于卷積神經(jīng)網(wǎng)絡。

在信號處理領域,有三個主要域角度可分析信號,即時域、頻域和時頻域,對應于時域圖、頻域圖和時頻圖,即語言頻譜(language spectrum)。時域和頻域只能表示信號的二維信息,而譜圖使用二維圖像表示三維信息。譜圖(Spectrogram)的橫坐標是時間,縱坐標是頻率,坐標點值是語音數(shù)據(jù)能量(speech data energy)。由于二維平面用于表達三維信息,能量值的大小由顏色表示,顏色暗度表示點的語音能量強度,這是音頻在時域和頻域特性中的綜合描述。譜圖(Spectrogram)基于短時傅里葉變換(STFT),在分析信號的時頻特性方面非常有用。STFT是最經(jīng)典的時頻域分析方法,STFT通過長時間的信號成框、加窗,然后對每個信號框進行傅里葉變換(FFT),最后將每個框的結果沿另一個維度疊加,形成頻譜。

張量融合作為多模態(tài)信息融合的主流融合方法,在各個領域得到廣泛應用,自動駕駛領域也不例外。張量融合有多種方法,如早期簡單特征拼接、后期決策融合、張量外積融合等。

在自動駕駛領域,除了圖像和其他數(shù)據(jù)信息之外,車輛底部的數(shù)據(jù)信息,例如轉(zhuǎn)向角和車速也非常重要。通過張量外積方法,可以將各種車輛底部信息和圖像數(shù)據(jù)信息進行融合,以更好地解決實際問題。這種融合方法可以更充分、更靈活地融合各種數(shù)據(jù)信息之間的特征,其效果優(yōu)于簡單的特征拼接和后期決策。

張量外積是從每個模式中提取的特征向量進行外積運算,獲得高維融合張量Z,然后通過線性層將高維融合張量器Z投影到低維空間中。每個特征向量的每個元素都是完全融合的。兩種模式融合后形成二階張量,三種模式融合之后形成三階張量。

張量融合網(wǎng)絡需要對每種模式的特征向量進行外部乘積運算,當需要融合的特征向量較多時,網(wǎng)絡將進行高維張量計算,計算成本將非常高。例如,同時融合轉(zhuǎn)向角、車速和圖像這三個信息,融合后將得到一個三階張量Z。如果想使用線性層將其投影到低維空間,需要一個四階權重矩陣W和Z來完成計算。

鑒于張量融合網(wǎng)絡的高計算成本,許多網(wǎng)絡模型提出了不同的解決方案。比如:對張量融合網(wǎng)絡的參數(shù)W和融合張量Z進行分解,最后將高階張量運算分解為線性運算,使得計算成本不會隨著模態(tài)的增加而呈指數(shù)增長。在此基礎上,有一種低階多模態(tài)融合方法。另外,這里采用傅里葉卷積代替以往的高階張量計算,可以解決計算成本高的問題,并提出一種多模態(tài)緊湊雙線性池化(MCB,Multi- modal Compact Bilinear pooling)融合網(wǎng)絡。

自適應多模態(tài)融合更加靈活和自然,因為這種融合網(wǎng)絡不會確定特定的融合操作,例如特征拼接、張量外積等,而是讓網(wǎng)絡決定“如何”更有效地集成給定的一組多模態(tài)特征。有兩種自適應融合網(wǎng)絡結構:1)自動融合,它對所有模式的信息進行編碼,并將其拼接成張量,然后使用解碼器恢復特征,最后計算特征之間的損失。該方法不僅集成了特征向量,還學習了有用的特征。它解決了最終預測器承擔識別有用信號這個額外責任問題。2) GAN融合,網(wǎng)絡首先找到一個主干模式,然后融合除主干模式之外的其他模態(tài)信息,并將融合的信息與主干模式的信息進行融合,從而獲得主干模式的新特征向量。在相同的操作中,所有模式同時用作主干模式,因此可以獲得每個模式的新特征向量,然后拼接這些特征向量。這才完成最后的集成。

如表是開源數(shù)據(jù)集的比較:

圖片

挑戰(zhàn)

車輛的自動駕駛功能主要通過縱向運動控制和橫向運動控制來實現(xiàn)。在自動車輛控制中,縱向控制仍然是一個具有挑戰(zhàn)性的問題。除了攝像機/雷達收集的視覺信息外,隨著車載傳感器數(shù)量的增加,可以收集到越來越多的車輛運動狀態(tài)參數(shù)。例如,縱向加速度、空氣阻力、輪胎載荷、地面摩擦、地面傾斜等。通過結合圖像感知信息,車輛可以在定速巡航、自適應巡航和防撞系統(tǒng)中實現(xiàn)更好的縱向控制。因此,研究人員可以嘗試結合來自不同駕駛場景的豐富的自傳感器信息,以實現(xiàn)車輛控制。

在研究場景方面,目前大多數(shù)研究都集中在日間駕駛場景,只有少數(shù)研究涉及夜間駕駛,大多數(shù)研究人員在他們的場景中忽略了夜間駕駛。如果自動駕駛僅依賴日間駕駛,則其運動范圍有限。然而,自有傳感器的信息不受惡劣天氣和光線條件的影響。因此在未來的研究中廣泛使用車輛信息,以提高場景泛化能力。

在數(shù)據(jù)集方面,具有車輛基礎傳感器信息的公開可用數(shù)據(jù)集相對較少。大多數(shù)研究人員收集特定場景或條件的固定數(shù)據(jù),缺乏具有車輛運動學參數(shù)的大規(guī)模自動駕駛數(shù)據(jù)集。一種常見的解決方案是對有限的數(shù)據(jù)執(zhí)行數(shù)據(jù)增強以獲得額外的訓練數(shù)據(jù)。如普通的翻轉(zhuǎn)、裁剪、增加陰影操作,或者轉(zhuǎn)換圖像的顏色、亮度、強度和空間。然而,與涵蓋各種照明條件和復雜道路條件的真實數(shù)據(jù)集相比,它仍有一定的局限性。此外,許多研究人員已經(jīng)在模擬器上構建了自動駕駛模擬場景,并獲得了用于模型訓練的模擬數(shù)據(jù),但從模擬到現(xiàn)實世界,誤差幾乎增加了一倍?,F(xiàn)實世界環(huán)境的復雜性和多樣性帶來了更大的挑戰(zhàn)。這表明未來需要在更大的真實世界數(shù)據(jù)集和更真實的模擬環(huán)境中進行培訓和測試。

未來研究方向

準確區(qū)分駕駛員的駕駛行為在駕駛輔助系統(tǒng)、道路安全、能源優(yōu)化等方面發(fā)揮著重要作用?;隈{駛員動態(tài)行為分類方法,直接使用攝像頭對準駕駛員的面部和身體,這侵犯了駕駛員的隱私?;谲囕v動力學的行為分類方法,僅使用車輛信息進行分析,缺乏能夠提供車輛和道路周圍豐富信息的圖像。車輛信息的變化程度直接反映駕駛員的駕駛行為。例如,短時間內(nèi)速度的急劇變化反映出駕駛員處于攻擊性狀態(tài)。道路圖像可以反映交通空曠程度、擁擠程度以及與障礙物的距離。如果將車輛信息與圖像相結合,則可以使信息互補并提高分類性能。

對于自動駕駛汽車,由于攝像頭拍攝的頻率固定,車輛只能盲目跟蹤目標,而不知道目標位置變化的程度。諸如車輛速度之類的車輛信息直觀地反映了沒目標位置的變化程度。相鄰幀之間的速度越快,目標位置的變化越大,圖像之間的目標相似度越低。因此,車速可以用作目標跟蹤的輔助信息,該輔助信息可以與圖像相結合,以提高目標檢測能力。

轉(zhuǎn)向角預測可納入更廣泛的基于計算機視覺的技術,如車道線檢測、障礙物檢測等。在自動駕駛領域,車輛的必要功能之一是需要準確識別車道線。根據(jù)不同的路況,合理的車道保持以防止偏離安全駕駛區(qū)域與準確的轉(zhuǎn)向角預測密不可分。在轉(zhuǎn)彎過程中,由于車道線處于彎曲狀態(tài),且車道線跨越圖像的不同區(qū)域,因此卷積神經(jīng)網(wǎng)絡中的卷積核在提取特征區(qū)域方面存在局限性,無法有效地提取彎曲的和跨區(qū)域特征。轉(zhuǎn)彎角度描述了轉(zhuǎn)彎跨度大小,即車道線的彎曲程度,直觀地反映了車道線的狀態(tài)。因此,轉(zhuǎn)彎角度可以用作輔助數(shù)據(jù)和圖像,以提高車道線的識別能力。 

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25