日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

一種考慮通信時延的協(xié)同感知系統(tǒng)

2023-08-30 19:46:04·  來源:同濟(jì)智能汽車研究所  
 

編者按:隨著智能網(wǎng)聯(lián)汽車的快速發(fā)展,單車智能的局限性日益突出,基于協(xié)同的自動駕駛成為未來發(fā)展方向。多智能體協(xié)同感知系統(tǒng)基于多智能體不同視角的觀測數(shù)據(jù)對同一場景執(zhí)行感知,從根本上突破了單一智能體感知的物理限制如超視距、遮擋?;谥悄荏w共享數(shù)據(jù)類型與融合策略,協(xié)同感知可劃分為三類:原始數(shù)據(jù)級融合、中間特征級融合與感知目標(biāo)級融合??紤]感知數(shù)據(jù)通信傳輸損耗與感知性能之間的平衡,并得益于近年來深度學(xué)習(xí)的快速發(fā)展,中間特征級融合是目前協(xié)同感知領(lǐng)域的主要研究方向。協(xié)同感知系統(tǒng)的一大關(guān)鍵是通信系統(tǒng),然而目前大部分協(xié)同感知方法均假設(shè)一個理想的通信條件,比如不考慮數(shù)據(jù)傳輸時延、不考慮通信損耗,這使得許多特征級協(xié)同感知方法只能停留在數(shù)據(jù)集仿真上。本文則考慮協(xié)同感知系統(tǒng)在實際應(yīng)用中面臨的帶缺陷通信問題,首次提出考慮傳輸時延的特征級協(xié)同感知系統(tǒng)。通過利用深度學(xué)習(xí)方法,主動地將周圍智能體的時延異步感知特征與自車當(dāng)前時刻的特征進(jìn)行同步,以提高協(xié)同感知系統(tǒng)在通信延遲下的魯棒性和有效性。

本文譯自:

《Latency-Aware Collaborative Perception》

文章來源:

European Conference on Computer Vision (ECCV), 2022

作者:

Zixing Lei, Shunli Ren, Yue Hu, Wenjun Zhang, Siheng Chen

原文鏈接:

https://arxiv.org/pdf/2207.08560.pdf

代碼鏈接

https://github.com/MediaBrain-SJTU/SyncNet


摘要:相比于單智能體感知,最近多智能體協(xié)同感知在提升感知性能方面顯示出巨大潛力?,F(xiàn)有協(xié)同感知方法通常考慮理想的通信環(huán)境。然而,在實際應(yīng)用中,通信系統(tǒng)不可避免地會產(chǎn)生傳輸時延問題,導(dǎo)致潛在的性能下降,并給自動駕駛等安全關(guān)鍵型應(yīng)用帶來高風(fēng)險。為了減輕不可避免的通信時延所造成的影響,我們從機(jī)器學(xué)習(xí)的角度出發(fā),提出了第一個具有時延意識的協(xié)同感知系統(tǒng),它能主動將多個智能體的異步感知特征同步于同一時間戳上,從而提高協(xié)同的魯棒性和有效性。為了實現(xiàn)這種特征級同步,我們提出了一種名為 SyncNet 的新型時延補(bǔ)償模塊,該模塊主要應(yīng)用了特征-注意力共生估計和時間調(diào)制技術(shù)。實驗結(jié)果表明,在考慮通信時延設(shè)置下,采用 SyncNet 的帶時延意識的協(xié)同感知方法比最先進(jìn)的協(xié)同感知方法高出 15.6%,并在嚴(yán)重時延情況下保持協(xié)同感知優(yōu)于單智能體感知。

關(guān)鍵詞:協(xié)同感知,車車通訊,自動駕駛,深度學(xué)習(xí)


1 引言 


協(xié)同感知系統(tǒng)考慮基于多智能體感知同一場景,多個智能體通過通信網(wǎng)絡(luò)執(zhí)行協(xié)同[4,6,8,15,17,27,34,35,37,40]?;诙鄠€智能體的觀測,協(xié)同感知可以從根本上克服單智能體感知的物理限制,如超視距和遮擋。這種協(xié)同感知系統(tǒng)可廣泛應(yīng)用于自動駕駛和機(jī)器人測繪等實際應(yīng)用中。以往的協(xié)同感知方法[15,7,27] 已在多種感知任務(wù)中取得了顯著的成功,包括2D/3D目標(biāo)檢測[21,22,36]和語義分割[5,20,33,41]。其中[16,17]側(cè)重于無人機(jī)的語義分割,[15,27]則討論了基于車車通信輔助的自動駕駛的3D目標(biāo)檢測??紤]到通信帶寬與感知性能之間的權(quán)衡,以往許多工作在中間特征級實現(xiàn)協(xié)同,并利用注意力機(jī)制來融合協(xié)同特征。

圖片

圖1 協(xié)同3D目標(biāo)檢測。紅色:檢測值,綠色:真值。當(dāng)存在傳輸時延時,無時延考慮的協(xié)同感知模型可能比單智能體感知模型效果更差。

然而,這些先前的協(xié)同感知方法都沒有考慮現(xiàn)實通信環(huán)境中不可避免的時延問題。如文獻(xiàn)[13]所述,在實時LTE-V2X通信系統(tǒng)中,通信延遲時間平均可達(dá)131.30 ms(498個通信周期)。此外,不同通信通道的不同延遲時間會導(dǎo)致嚴(yán)重的時間異步問題。實驗表明,時延問題嚴(yán)重?fù)p害了協(xié)同感知系統(tǒng),導(dǎo)致其性能甚至比單智能體感知更差。從圖1中我們可以看到:1)(a)中紫色框內(nèi)經(jīng)協(xié)同感知檢測到的車輛在(b)中缺失;2) (c)中藍(lán)框內(nèi)由單智能體感知正確檢測到的車輛在(b)中沒有被正確檢測。原因是自車接收到的他車具有時延的協(xié)同數(shù)據(jù)代表了1s前的情況,它會誤導(dǎo)檢測器輸出具有顯著偏差的邊界框。這促使我們考慮設(shè)計一種對不可避免的通信延遲具有魯棒性的協(xié)同感知系統(tǒng)。

為了解決時延問題,我們從機(jī)器學(xué)習(xí)的角度提出了第一個具有時延意識的協(xié)同感知系統(tǒng),該系統(tǒng)主動地將多個智能體的異步感知特征同步于同一時間戳,提高了協(xié)同感知的魯棒性和有效性。如圖2所示,我們的具有時延意識的協(xié)同感知系統(tǒng)沿用一個先進(jìn)的中間特征級協(xié)同感知框架[15],并由五個部分組成:1)編碼模塊:從原始數(shù)據(jù)中提取感知特征;2)通信模塊:在變化的通信時延條件下傳輸智能體之間的感知特征;3)時延補(bǔ)償模塊:將傳輸至自主智能體下周圍多個智能體的時延特征同步于當(dāng)前時間戳;4)融合模塊:聚合所有經(jīng)同步后的各智能體特征并生成融合特征;5)解碼模塊:利用融合特征得到最終感知輸出。我們的協(xié)同感知系統(tǒng)的主要優(yōu)點是,它能夠在聚合協(xié)同特征之前同步各智能體特征,而不是直接融合接收到的異步特征,以減輕通信時延造成的影響。

我們所提系統(tǒng)的關(guān)鍵是時延補(bǔ)償模塊,該模塊旨在對周圍智能體所傳輸?shù)臅r滯特征執(zhí)行特征級補(bǔ)償,進(jìn)而與自主智能體當(dāng)前時刻特征同步。為了實現(xiàn)這一點,我們提出了一個新穎的同步補(bǔ)償網(wǎng)絡(luò)SyncNet,它利用周圍智能體歷史協(xié)同信息來同時估計當(dāng)前協(xié)同特征及對應(yīng)的協(xié)同注意力權(quán)重,這兩者由于通信時延在當(dāng)前時刻都是而未知的。協(xié)同過程中成對智能體之間的注意力權(quán)重與協(xié)同特征圖具有相同的空間分辨率,表示所接收協(xié)同特征中各空間區(qū)域的信息水平。因此,它為協(xié)同伙伴提供了關(guān)于如何利用協(xié)同特征的信息提示。直觀地說,協(xié)同特征和相應(yīng)的協(xié)同注意力權(quán)重是耦合在一起的?;诖嗽O(shè)計原理,本文提出的SyncNet采用特征-注意力共生估計結(jié)構(gòu),同時推斷出當(dāng)前時刻其他智能體由于時延而未知的協(xié)同特征和協(xié)同注意力權(quán)重,二者相互增強(qiáng)并避免了級聯(lián)誤差。

圖片

圖2 本文提出的具有時延意識的協(xié)同感知系統(tǒng)框架:關(guān)鍵模塊是時延補(bǔ)償模塊。為了實現(xiàn)這一點,我們提出了SyncNet,它利用歷史協(xié)同信息來同步由通信時延引起的多個智能體的異步信息。

與常用的時間序列預(yù)測方法相比,本文提出的SyncNet有兩個主要區(qū)別:1)執(zhí)行特征級估計而不是輸出級預(yù)測;2)耦合式估計協(xié)同特征和協(xié)同注意力權(quán)重,而不是預(yù)測單個輸出。

我們在V2X-Sim數(shù)據(jù)集[14]上廣泛評估了基于SyncNet的新型協(xié)同感知模型,用于自動駕駛的協(xié)同3D目標(biāo)檢測。結(jié)果驗證了我們的系統(tǒng)的魯棒性,并比最先進(jìn)的方法有了實質(zhì)性的改進(jìn)。通過使用SyncNet,我們的協(xié)同感知系統(tǒng)在不同的通信延遲下始終顯著地優(yōu)于單智能體感知。

綜上所述,我們的貢獻(xiàn)如下:

1.本文首次提出了協(xié)同感知中的通信時延挑戰(zhàn),提出了一種新的具有時延意識的協(xié)同感知系統(tǒng),該系統(tǒng)通過減輕不可避免的通信延遲影響來促進(jìn)多智能體協(xié)同的魯棒感知。

2.我們提出了一種新的時延補(bǔ)償模塊,稱為SyncNet,以實現(xiàn)特征級同步。該模塊實現(xiàn)了中間特征和協(xié)同注意力兩類關(guān)鍵協(xié)同信息的共生估計、相互促進(jìn)。

3.我們進(jìn)行了廣泛的實驗,并驗證了我們所提SyncNet在時延場景下比以前的方法取得了巨大的性能提升,在嚴(yán)重時延條件下我們依然保持了協(xié)同感知優(yōu)于單智能體感知。


2 相關(guān)工作


2.1 V2V 通信: V2V通信主要有兩大協(xié)議:IEEE 802.11p協(xié)議和蜂窩網(wǎng)絡(luò)標(biāo)準(zhǔn)[18]。在IEEE 802.11p協(xié)議中,有一個無線車載環(huán)境接入模式(Wireless Access in Vehicular Environment,簡稱WAVE),允許用戶跳過基本服務(wù)集(Basic Service Set,簡稱BSS),從而減少了連接建立的開銷[11]。在蜂窩網(wǎng)絡(luò)中,長期演進(jìn)(Long Term Evolution,簡稱LTE)標(biāo)準(zhǔn)衍生出LTE-V2X[1]。雖然V2V網(wǎng)絡(luò)取得了進(jìn)展,但仍然面臨通信延遲問題,這對協(xié)同感知來說風(fēng)險極大,通信時延時間平均高達(dá) 131.30 ms(498個通信周期))[13]。我們旨在從機(jī)器學(xué)習(xí)的角度減輕不可避免的通信延遲所帶來的影響,而不是從通信的角度避免延遲,從而設(shè)計一種新的具有時延意識的協(xié)同感知系統(tǒng)。

2.2 協(xié)同感知:協(xié)同感知使智能體能夠通過通信網(wǎng)絡(luò)共享感知到的信息,從根本上提升了單智能體感知能力。[16,17]使用握手(handshake)機(jī)制來確定哪兩個智能體應(yīng)該通信。[27]引入了一種多輪消息傳遞的圖神經(jīng)網(wǎng)絡(luò)。[15]則提出了一種基于圖的協(xié)同感知系統(tǒng),通過知識蒸餾來平衡通信傳輸損耗和感知性能。以往的研究大多集中在理想情境下的協(xié)同策略學(xué)習(xí)。最近,人們開始考慮更現(xiàn)實的情況。[25]利用位姿誤差回歸模塊來校正接收到的噪聲位姿誤差。然而,以往的研究都沒有考慮到實際協(xié)同系統(tǒng)中帶缺陷的通信的影響。為了填補(bǔ)這一空白,我們考慮協(xié)同感知通信中不可避免的時延問題,這對協(xié)同系統(tǒng)來說是非常危險的,并構(gòu)建了一個具有時延意識的協(xié)同感知系統(tǒng)來減輕通信延遲帶來的影響。

2.3 時間序列預(yù)測:時間序列預(yù)測的目標(biāo)是根據(jù)歷史數(shù)據(jù)預(yù)測未來的信號。[23]在臨近降水預(yù)報(now-casting)中提出了一種conv-LSTM架構(gòu)。視頻預(yù)測作為一種具有普遍性和代表性的時間序列預(yù)測類型,一直受到人們的積極研究[19,24,28,31]。通過利用預(yù)測技術(shù),我們的工作從歷史協(xié)同信息中恢復(fù)由于時延而丟失的信息。然而,與標(biāo)準(zhǔn)預(yù)測不同,我們的目標(biāo)是最大化最終感知性能,而不是精確估計當(dāng)前狀態(tài)。


3 本文方法


為了解決時延問題,我們在3.1節(jié)中提出了一個具有時延意識的協(xié)同感知系統(tǒng)。3.2節(jié)介紹時延補(bǔ)償模塊SyncNet,這也是整個系統(tǒng)的關(guān)鍵。最后,3.3節(jié)介紹了網(wǎng)絡(luò)監(jiān)督訓(xùn)練的損失函數(shù)。

3.1 具有時延意識的協(xié)同感知系統(tǒng)

協(xié)同感知系統(tǒng)中多個智能體基于由通信網(wǎng)絡(luò)共享的數(shù)據(jù)來共同感知一個場景。由于通信延遲在現(xiàn)實通信系統(tǒng)中是不可避免的,因此我們重點研究考慮時延設(shè)置下的協(xié)同感知系統(tǒng)。也就是說,給定一個通信延遲不可控的非理想通信信道,我們的目標(biāo)是通過減輕時延的影響來優(yōu)化協(xié)同系統(tǒng)下智能體的感知能力。

我們考慮在一個場景中有個在執(zhí)行環(huán)境感知的智能體。設(shè)、和分別為第個智能體在時間戳的原始觀測、中間感知特征和最終感知輸出。表示特征從智能體傳輸?shù)街悄荏w的延遲時間。 是智能體和智能體在時刻的協(xié)同注意力權(quán)重。協(xié)同注意力權(quán)重由可學(xué)習(xí)網(wǎng)絡(luò)計算:對協(xié)同感知系統(tǒng)中所有協(xié)同特征執(zhí)行點素級注意力分配。需注意的是:1)延遲時間本身是時變的,為了簡化符號,從這里開始我們將省略它的上標(biāo)。2)本工作認(rèn)為多智能體協(xié)同發(fā)生在離散時間戳,并且也是離散的,因為每個智能體都有確定的觀測采樣率。實驗結(jié)果也驗證了在合理小的時間間隔內(nèi)對連續(xù)時間進(jìn)行離散時,產(chǎn)生較少不匹配。然后,我們將提出的考慮時延的協(xié)同感知表述為:

圖片

其中為所估計的智能體在時刻同步后的特征,是智能體與智能體在時刻的協(xié)同注意力權(quán)重,是智能體在當(dāng)前時間戳對所有周圍智能體估計的同步特征執(zhí)行聚合后的特征,表示智能體的鄰域智能體集,是一超參數(shù)。

步驟(1a)考慮從原始觀測數(shù)據(jù)中提取感知特征,其中為編碼網(wǎng)絡(luò)。在步驟(1b)中,我們從其他智能體接收具有不同傳輸延遲時間的感知特征。為了補(bǔ)償時延,步驟(1c)通過利用來自各智能體的歷史特征和主體智能體感知的實時特征來估計當(dāng)前時間戳下其他智能體的協(xié)同特征和協(xié)同注意力,其中表示該估計網(wǎng)絡(luò)。這里我們假設(shè)每個智能體可以在內(nèi)存中存儲前幀的歷史特征。步驟(1d)則融合所有經(jīng)時延補(bǔ)償后的協(xié)同信息。最后,步驟(1e)輸出最終感知輸出,其中為解碼器網(wǎng)絡(luò)。對應(yīng)于圖2,步驟(1a)和(1b)構(gòu)成編碼模塊,步驟(1c)屬于時延補(bǔ)償模塊,步驟(1d)為時延融合模塊,步驟(1e)構(gòu)成解碼模塊。

我們提出的時延協(xié)同感知系統(tǒng)有四個優(yōu)點:1)我們明確地將通信時延納入?yún)f(xié)同感知系統(tǒng)的設(shè)計中(見(1b)、 (1c)),這在以前的工作中從未做過。2)我們通過從歷史協(xié)同信息中估計當(dāng)前信息來減輕傳輸時延的影響(見(1 c))。對此,我們考慮特征級同步,而不是同步感知輸出,因為它允許端到端學(xué)習(xí)框架具有更高的學(xué)習(xí)靈活性。3)在(1c)中,我們同時推理協(xié)同特征和協(xié)同注意力權(quán)重。如果我們只估計特征,我們將需要基于估計的特征來計算協(xié)同注意力,這將放大估計誤差,導(dǎo)致級聯(lián)錯誤。4)我們采用基于注意力的估計,利用(1c)中的協(xié)同注意力權(quán)重促進(jìn)對感知敏感區(qū)域的更精確的估計(見(1d))。

3.2 SyncNet :時延補(bǔ)償模塊

由于時延補(bǔ)償模塊是本文所提協(xié)同感知系統(tǒng)的關(guān)鍵,我們專門設(shè)計了估計網(wǎng)絡(luò),并提出了新穎的同步補(bǔ)償網(wǎng)絡(luò)SyncNet。它的功能是利用各周圍智能體歷史協(xié)同信息來對其所傳輸特征執(zhí)行時延補(bǔ)償。SyncNet包括兩個部分:特征-注意力共生估計模塊,其采用雙分支金字塔LSTM來同時估計實時特征和協(xié)同注意力;時間調(diào)制模塊,其利用時延時間自適應(yīng)調(diào)整協(xié)同特征的最終估計。

圖片

圖3 SyncNet結(jié)構(gòu):SyncNet包括特征-注意力共生估計(FASE)模塊和時間調(diào)制(TM)模塊。前者是共享相同輸入的雙分支金字塔LSTM(圖中P-LSTM),即特征和注意力的聚合。時間調(diào)制模塊則用于在估計的特征和接收的原始異步特征之間分配時域注意力。

特征 - 注意力共生估計:特征-注意力共生估計(FASE)利用一種新的雙分支結(jié)構(gòu),由特征估計分支和注意力估計分支組成,進(jìn)而同時估計當(dāng)前時刻特征及其協(xié)同注意力權(quán)重。雙LSTM網(wǎng)絡(luò)的兩個分支共享相同的輸入,包括主體智能體感知的實時特征和其他協(xié)同智能體感知的前幀歷史特征。每個分支由一個金字塔LSTM網(wǎng)絡(luò)實現(xiàn),該LSTM對一系列歷史協(xié)作信息建模并估計當(dāng)前狀態(tài)。金字塔LSTM網(wǎng)絡(luò)專門用于捕獲空間相關(guān)的協(xié)同特征。如圖4所示,當(dāng)紅框內(nèi)的車輛相對于中心車輛右移時,特征圖上的對應(yīng)區(qū)域也會發(fā)生相同的移動。事實表明,空間信息對我們的估計任務(wù)是重要的。我們將LSTM[10]中的矩陣乘法修改為多尺度卷積結(jié)構(gòu),詳見圖5a。本文提出的金字塔LSTM與普通LSTM的主要區(qū)別在于:標(biāo)準(zhǔn)LSTM[10]沒有專門考慮提取空間特征,而[23]則僅提取單尺度空間特征。本文所提出的金字塔LSTM則是在多個尺度上捕捉局部到全局的特征。

圖片

圖片

圖4 特征域的空間相關(guān)性。上半部分圖中綠框代表真值目標(biāo)。下半部分熱力圖由特征沿特征通道求和得到。

圖片

圖5 (a)為金字塔LSTM的多分辨率空間卷積, (b)表示時間調(diào)制,最終估計特征為。

特征估計分支旨在獲取當(dāng)前協(xié)同中最具信息的特征。為了實現(xiàn)這一點,特征估計分支應(yīng)該是具有注意力意識的。而注意力估計分支的目的是尋找當(dāng)前信息量最大的特征區(qū)域,同時還要抑制估計誤差較大的區(qū)域。為了實現(xiàn)這一點,注意力估計分支應(yīng)該是具有特征意識的。為了允許所估計的特征和相應(yīng)的注意力能相互關(guān)注到彼此,我們循環(huán)地利用來自前一個時間戳估計的特征和協(xié)同注意力作為兩個分支下一個時間戳的輸入。

整個過程如算法1所示,是特征傳輸延遲時間,代表歷史幀,表示當(dāng)前時間戳,和分別表示在時刻自主智能體接收到其他智能體的協(xié)同注意力權(quán)重和協(xié)同感知特征,和則分別表示時刻經(jīng)時延補(bǔ)償估計的協(xié)同特征和協(xié)同注意力,是時刻金字塔LSTM 的輸入,,,和分別是金字塔LSTM在每個分支中的隱藏狀態(tài)和元胞狀態(tài)。

我們所提出的特征-注意力共生估計網(wǎng)絡(luò)具有三個特點:1)雙分支結(jié)構(gòu)同時推斷協(xié)同特征和相應(yīng)的協(xié)同注意力,保持二者的獨立性并消除級聯(lián)錯誤。2)該估計網(wǎng)絡(luò)將協(xié)同注意力作為輸入,從而聚焦于具有更多信息的區(qū)域,促進(jìn)更有效的估計。3)可學(xué)習(xí)的注意力估計網(wǎng)絡(luò)獲取協(xié)同特征的信息,并基于理想無時延環(huán)境下獲取的協(xié)同注意力和融合特征進(jìn)行監(jiān)督訓(xùn)練。在端到端優(yōu)化過程中,它不僅可以模擬計算出無延遲的權(quán)重分布,還可以主動學(xué)習(xí)減少對特征中噪聲較大的空間區(qū)域的關(guān)注。

算法 1:特征-注意力共生估計

圖片

時間調(diào)制:雖然FASE實現(xiàn)了的基本功能,但我們發(fā)現(xiàn),當(dāng)時延較小時,傳輸時延引起的協(xié)同感知性能下降相對于FASE導(dǎo)致的估計噪聲要小。為了解決這個問題,我們提出了時間調(diào)制模塊,它將原始傳輸?shù)闹虚g特征(在低時延下工作良好)和基于FASE估計的特征(在高延遲下工作良好)融合在一起,結(jié)合延遲時間,產(chǎn)生更全面和可靠的估計。

設(shè),為反映各空間區(qū)域估計不確定程度的置信度矩陣。和分別為延遲時間經(jīng)擴(kuò)展得到的時延張量,二者形狀分別與和相同。時間調(diào)制模塊的工作原理如下:

圖片

圖片

圖片

圖片

其中和均為配有sigmoid激活函數(shù)的輕量級卷積神經(jīng)網(wǎng)絡(luò),為所有元素均為的矩陣。步驟(2a)將FASE估計的協(xié)同特征/注意力、當(dāng)前接收的時滯特征/注意力和時延擴(kuò)展張量進(jìn)行對應(yīng)拼接,得到代表每個空間區(qū)域下所估計的協(xié)同特征與協(xié)同注意力的置信度。根據(jù)置信度矩陣,步驟(2b)分別將估計的特征/注意力和原始異步特征/注意力組合起來。我們期望當(dāng)時延較大時,置信度矩陣的權(quán)重會更高,表示此時經(jīng)時延補(bǔ)償估計的特征/注意力對最終估計的貢獻(xiàn)會更大。具體過程同樣可見圖5b。

3.3 損失函數(shù)

設(shè)為智能體在時刻的最終感知輸出的真值目標(biāo)信息,為智能體在時刻融合各智能體協(xié)同特征后的真值特征,為智能體在時刻的真值協(xié)同特征,是時刻智能體到智能體的真值協(xié)同注意力權(quán)重。我們考慮最小化以下目標(biāo)以優(yōu)化整個考慮時延的協(xié)同感知系統(tǒng):

圖片

其中表示每個項目的權(quán)重,是最終目標(biāo)檢測損失項,, , 分別為融合特征、中間估計特征和估計協(xié)同注意力損失項。第一項監(jiān)督目標(biāo)檢測輸出,第二項監(jiān)督估計的融合特征。第三和第四項提供了對中間特征映射和協(xié)同注意力的監(jiān)督,以促進(jìn)更快的收斂。


 4 實驗


4.1 多智能體 3D 目標(biāo)檢測數(shù)據(jù)集

我們使用多智能體數(shù)據(jù)集V2X-Sim[14]驗證了SyncNet在基于lidar的3D目標(biāo)檢測任務(wù)[3,9]上的效果。V2X-Sim是由SUMO[12]和CARLA[7]聯(lián)合仿真構(gòu)建的數(shù)據(jù)集。V2X-Sim訓(xùn)練集包含80個場景,測試集包含11個場景。數(shù)據(jù)集中每個樣本平均包含2.67個智能體,并具有3D點云輸入和3D邊界框注釋。3D點云由32通道、最大距離70m、旋轉(zhuǎn)頻率20Hz、記錄頻率5Hz的激光雷達(dá)生成。為了模擬時延場景下的協(xié)同感知,我們異步加載其他智能體感知數(shù)據(jù)。延遲時間是根據(jù)指數(shù)分布隨機(jī)生成的并最終四舍五入為整數(shù)。

4.2 實現(xiàn)細(xì)節(jié)

實驗設(shè)置:基于自車笛卡爾坐標(biāo)系,我們對3D點云執(zhí)行范圍裁剪,只取位于[?32m,32m] ×[?32m,32m]×[0.5m]范圍下的點云。考慮對點云執(zhí)行體素化處理,我們設(shè)置每個體素柵格的大小為0.25m×0.25m×0.4m。對點云執(zhí)行范圍裁剪和體素化之后,我們得到了一個尺寸為256×256×13的鳥瞰圖。各智能體需傳輸?shù)木幋a特征的尺寸為32×32×256。兩個智能體之間的時延時間由指數(shù)分布四舍五入生成,可以是固定或隨機(jī)整數(shù)。我們使用NVIDIA RTX 3090 GPU和Pytorch訓(xùn)練我們的模型。評估指標(biāo)選用IoU閾值為0.5和0.7的平均精度(AP)。

基準(zhǔn):我們提出的具有時延意識的協(xié)同感知系統(tǒng)沿用DiscoNet[15]框架,這是目前最先進(jìn)的協(xié)同感知框架之一。此外我們利用所提出的SyncNet作為時延補(bǔ)償模塊來處理各種時延設(shè)置。為了驗證我們的協(xié)同感知系統(tǒng)Disconet + SyncNet,我們與三個基準(zhǔn)進(jìn)行比較:1)單智能體感知系統(tǒng),即無協(xié)同感知;2)無時延意識的協(xié)同感知系統(tǒng),DiscoNet[15];3)基于卡爾曼濾波[32]的具有樸素時延意識的后融合協(xié)同感知系統(tǒng),Late collaboration + Kalman Filter。需要注意的是,SyncNet也可以作為其他中間特征級協(xié)同感知框架(如V2VNet)的時延補(bǔ)償插件模塊[27]。SyncNet相當(dāng)于特征-注意力共生估計(FASE)+時間調(diào)制(TM)。與雙分支結(jié)構(gòu)的FASE相對應(yīng),一種簡化的變體是簡單估計(Vanilla Estimation, VE),它只采用單分支LSTM來估計協(xié)同特征。在消融研究中,我們將比較DiscoNet、Disconet + FASE、Disconet + VE和Disconet + SyncNet的性能。

訓(xùn)練策略:我們在訓(xùn)練階段采用課程學(xué)習(xí)(Curriculum Learning)[2]策略。課程學(xué)習(xí)從簡單的樣本開始,然后逐漸增加難度。為了處理變化的延遲時間,我們在不同的時延設(shè)置下訓(xùn)練模型。然而,隨著延遲時間的增加,訓(xùn)練損失急劇增加,導(dǎo)致訓(xùn)練過程不穩(wěn)定,容易受到攻擊。為了解決這個問題,我們采用課程學(xué)習(xí)技術(shù),每10個epoch逐漸增加1個延遲時間,直到增加到第10個延遲時間。然后,我們以平均為5的指數(shù)分布隨機(jī)采樣延遲時間,以進(jìn)一步升級模型以適應(yīng)靈活的通信延遲。

4.3 定量評價

圖6比較了我們的具有時延意識的協(xié)同感知系統(tǒng)、無協(xié)同感知、無時延補(bǔ)償?shù)腄iscoNet以及基于卡爾曼濾波的后融合協(xié)同感知系統(tǒng)的性能。我們可以發(fā)現(xiàn):1)DiscoNet易受傳輸時延的影響,在高時延條件下其性能甚至低于無協(xié)同感知模型。2)我們的Disconet + SyncNet對時延具有魯棒性,即使在通信延遲高達(dá)10幀的糟糕通信條件下也優(yōu)于無協(xié)同感知模型。3)我們的Disconet + SyncNet在不同的通信延遲下始終優(yōu)于DiscoNet,并將AP@0.5/0.7的性能對應(yīng)提高了15.6%和12.6%。

圖片

圖6 無協(xié)同感知、DiscoNet[15]、卡爾曼濾波的后融合協(xié)同感知、Disconet + SyncNet在1-10幀延遲下的性能比較。

圖7顯示了其他框架(包括V2VNet和基于Transformer的融合模塊)在使用和不使用SyncNet時的性能對比。基于Transformer的融合模塊采用多頭注意力[26]來融合每個空間位置的協(xié)同特征。SyncNet模塊在AP@0.5上的性能分別提高了11.8%和8.7%。研究表明,各種協(xié)同感知模型都容易受到通信時延的影響,而我們所提出的時延補(bǔ)償模塊一致且顯著地改善了這些框架。

圖片

圖7 SyncNet在AP@0.5中集成于不同的協(xié)同感知框架的性能對比。

4.4 消融研究

我們首先在圖8中展示了時延補(bǔ)償時所考慮歷史幀數(shù)對協(xié)同感知性能的影響。我們看到,明顯優(yōu)于,但相比于僅帶來較小的增益。因此本文默認(rèn)選擇,以實現(xiàn)計算效率和性能之間的平衡。我們進(jìn)一步驗證了我們提出的同步補(bǔ)償網(wǎng)絡(luò)(SyncNet)的兩個主要組件(FASE和TM)的有效性。簡單估計(Vanilla Estimation, VE)采用單分支結(jié)構(gòu),只對協(xié)同特征進(jìn)行估計。圖9是DiscoNet、Disconet + FASE、Disconet + VE和Disconet + SyncNet隨延遲時間的變化對比圖。我們可以看到:1)對比綠線和藍(lán)線,我們的協(xié)同感知系統(tǒng)只需要一個普通的LSTM補(bǔ)償模塊就可以在時延場景下實現(xiàn)顯著的性能提升。2)對比紅線和藍(lán)線,F(xiàn)ASE架構(gòu)可以提高AP@0.7指標(biāo)的性能。3)對比紅線和黃線,當(dāng)時延較小時,TM可以提高性能。表1進(jìn)一步討論了補(bǔ)償模塊、多尺度卷積和時間調(diào)制模塊在低時延和高時延下的效果。我們可以看到:1)D優(yōu)于A, E優(yōu)于B, F優(yōu)于C,反映FASE在AP@0.7指標(biāo)中始終有效;2)C優(yōu)于B, F優(yōu)于E,反映TM在高時延時始終有效。

圖片

圖8 歷史幀數(shù)k的消融研究。

圖片

圖9 消融研究:比較DiscoNet, Disconet + FASE,Disconet + VE + TM,Disconet + SyncNet隨時延變化的性能。FASE在AP@0.7中有明顯改進(jìn)作用,TM在小時延時具有改進(jìn)作用。

表1 AP@0.5/0.7指標(biāo)下SyncNet消融研究

圖片

4.5 定性評價

圖10為無時延設(shè)置下的DiscoNet、有時延設(shè)置的DiscoNet、有時延設(shè)置的Disconet + VE和有時延設(shè)置的Disconet + SyncNet的檢測結(jié)果。對比(a)和(b),我們可以看到(a)中紫色框中正確檢測到的車輛由于傳輸時延而在(b)中被遺漏或被錯誤檢測到。(c)表明,簡單估計VE(無FASE)部分補(bǔ)償了藍(lán)框中的延遲誤差,但在橙色框中無法實現(xiàn)準(zhǔn)確估計,而我們的SyncNet可以精確地恢復(fù)兩輛車的真實位置,如圖(d)的紫色框所示。從圖(d)可以看出,SyncNet實現(xiàn)了最佳補(bǔ)償,并精確地恢復(fù)了車輛的真實位置。

圖片

圖片

圖10 FASE架構(gòu)定性地提高了通信延遲下的性能。(a)為無時延設(shè)置的DiscoNet[15]檢測結(jié)果。(b) (c) (d)顯示平均時延設(shè)置為5幀下的檢測結(jié)果。

圖片

圖片

圖11這里展示了圖10中四組模型第一行場景中自車對周圍某個智能體所傳輸特征的協(xié)同注意力權(quán)重。(b) (c) (d)為平均延遲5幀設(shè)置下的結(jié)果。對比(b)、(c)和(d)我們可以看到SyncNet得到了一個更接近(a)的特征(無時延設(shè)置),并且主動降低了紅框中有噪聲位置的權(quán)重。

圖11顯示了圖10中四組模型第一行場景所示示例中來自周圍智能體所傳輸特征的注意力權(quán)重。我們可以看到:(b)、(c)在紅框中都有類似的大權(quán)重,這表明它們將噪聲引入到協(xié)同特征中。得益于SyncNet中的協(xié)同注意力估計分支(基于真值協(xié)同注意力權(quán)重的監(jiān)督訓(xùn)練),(d)在紅框有類似(a)的小權(quán)重,其關(guān)注真實的具有更多有效信息的區(qū)域并避免由于特征估計不準(zhǔn)確而導(dǎo)致的級聯(lián)誤差。這些定性結(jié)果驗證了SyncNet的有效性。



   5 結(jié)論    

我們引入了一個具有時延意識的協(xié)同感知系統(tǒng),并提出了一種新的時延特征補(bǔ)償模塊SyncNet,用于時域同步,適合現(xiàn)有的中間特征級協(xié)同感知方法。 SyncNet采用了一種新型的共生估計結(jié)構(gòu),該結(jié)構(gòu)聯(lián)合估計中間特征和注意力權(quán)重。SyncNet基于特征-注意力共生估計和時間調(diào)制模塊,顯著提高了較小時延范圍內(nèi)的協(xié)同感知性能。系統(tǒng)性的定量和定性實驗表明,所提出的SyncNet可以提高通信延遲場景下的感知性能,有效解決協(xié)同感知中的時延問題。


參考文獻(xiàn)


圖片

圖片

圖片

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25