日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

GitNet: 基于幾何先驗(yàn)的轉(zhuǎn)換用于BEV分割

2022-08-01 10:45:02·  來(lái)源:計(jì)算機(jī)視覺(jué)深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
arXiv論文“GitNet: Geometric Prior-based Transformation for Birds-Eye-View Segmentation“,上傳于22年4月第一版/7月第二版,報(bào)道華中理工和百度的工作。BE

arXiv論文“GitNet: Geometric Prior-based Transformation for Birds-Eye-View Segmentation“,上傳于22年4月第一版/7月第二版,報(bào)道華中理工和百度的工作。

圖片

BEV具有強(qiáng)大的空間表示能力,語(yǔ)義分割對(duì)于自主駕駛至關(guān)重要。由于空間差距,從單目圖像估計(jì)BEV語(yǔ)義圖是一個(gè)挑戰(zhàn),因?yàn)殡[含地需要實(shí)現(xiàn)從透視圖到BEV的轉(zhuǎn)換和分割。


提出一種兩階段基于幾何先驗(yàn)的變換框架GitNet,由(i)幾何引導(dǎo)的預(yù)對(duì)齊(GPA)和(ii)基于光線的transformer(RT)組成。在第一階段,將BEV分割解耦為透視圖像分割和基于幾何先驗(yàn)的映射,并將BEV語(yǔ)義標(biāo)簽投影到圖像平面,去學(xué)習(xí)可見(jiàn)度-覺(jué)察的特征和可學(xué)習(xí)的幾何,從而轉(zhuǎn)換為BEV空間,以此做顯式監(jiān)督。其次,通過(guò)基于光線的transformer進(jìn)一步變形預(yù)對(duì)齊的粗BEV特征,把可見(jiàn)性知識(shí)予以考慮。

網(wǎng)絡(luò)的目標(biāo)是從單目透視圖像預(yù)測(cè)BEV空間中場(chǎng)景語(yǔ)義圖。預(yù)測(cè)BEV語(yǔ)義圖的挑戰(zhàn)在于,輸入和輸出表示存在于不同的空間中,因此網(wǎng)絡(luò)要學(xué)習(xí)從透視圖像視圖到正交BEV空間的轉(zhuǎn)換。如圖所示:

圖片

這個(gè)框架是一個(gè)兩步流水線,將透視圖(PV)轉(zhuǎn)換為鳥(niǎo)瞰圖。它主要由四個(gè)模塊組成,(i)用于多尺度透視特征表示的特征金字塔網(wǎng)絡(luò)(FPN),(ii)基于可學(xué)習(xí)的攝像機(jī)高度,將特征轉(zhuǎn)移到BEV空間的幾何引導(dǎo)預(yù)對(duì)齊(GPA),(iii)BEV分割前基于注意的特征增強(qiáng),構(gòu)成基于光線的Transformer(RT)模塊,以及(iv)用于重加權(quán)不同像素專門(mén)設(shè)計(jì)的損失函數(shù)。


首先,幾何引導(dǎo)為初始化變換的BEV特征提供外觀和可見(jiàn)性。為了解決攝像機(jī)安裝高度引起的模糊性,特別學(xué)習(xí)了高度,以便更好地對(duì)齊透視空間和BEV空間。


在獲得預(yù)對(duì)齊的BEV特征后,進(jìn)一步采用基于光線的transformer模塊,增強(qiáng)BEV空間的特征變形(feature deformation),從而進(jìn)行語(yǔ)義分割。在可學(xué)習(xí)攝像機(jī)高度的引導(dǎo)下,對(duì)GPA階段進(jìn)行明確監(jiān)督,學(xué)習(xí)可見(jiàn)度-覺(jué)察特征,然后將其轉(zhuǎn)換為預(yù)對(duì)齊的BEV特征。


此外,為了緩解成像引起的透視效應(yīng),以深度-覺(jué)察的方式組織投影監(jiān)督損失,進(jìn)一步提出self weighted DICE(SW Dice)損失來(lái)重新加權(quán)“易-難”樣本。


GPA模塊的架構(gòu)如圖所示:

圖片


首先將金字塔圖像特征輸入分割頭,預(yù)測(cè)由無(wú)遮擋DA丟失和投影標(biāo)簽強(qiáng)制的BEV一致概率圖。通過(guò)像素級(jí)融合對(duì)BEV一致性概率圖和透視特征進(jìn)行進(jìn)一步編碼,以提取可見(jiàn)度感知特征。在另一個(gè)分支中,最小尺度特征F 5用于預(yù)測(cè)到經(jīng)驗(yàn)預(yù)定義高度的偏移w.r.t。然后應(yīng)用學(xué)習(xí)到的攝像機(jī)高度,將可見(jiàn)度感知的透視特征反向投影到BEV特征,作為后續(xù)變換階段的初始查詢。


如圖是RT的架構(gòu)示意圖:在第二步,將常見(jiàn)的多頭注意擴(kuò)展到基于光線的Transformer(RT)。多頭注意需要三個(gè)輸入:查詢(Q)、鍵(K)和值(V),表示為多頭(Q,K,V);由于BEV語(yǔ)義分割任務(wù)需要高分辨率的特征圖,計(jì)算完整圖像的注意將帶來(lái)高計(jì)算復(fù)雜度和GPU內(nèi)存;位于同一列的透視圖像素,對(duì)應(yīng)于BEV的同一光線;這促使單個(gè)列或光線計(jì)算注意,這大大降低了注意的復(fù)雜性。

圖片


編碼器的列上下文增強(qiáng)(CCA)技術(shù)介紹如下:如圖所示,Transformer編碼器的輸入是從FPN中提取的透視特征{F1,F(xiàn)2,F(xiàn)3,F(xiàn)4},其中Fm的空間分辨率為Hm×Wm。在CCA中,每個(gè)像素通過(guò)使用多頭自注意自適應(yīng)地集成來(lái)自同一列的其他像素信息。進(jìn)一步將空間位置編碼Pm引入輸入Fm,區(qū)分輸入特征的位置。用正弦函數(shù)來(lái)生成空間位置編碼。


解碼器基于光線的交叉注意(RCA)是這樣的:transformer解碼器的RCA旨在基于增強(qiáng)圖像特征{F1,F(xiàn)2,F(xiàn)3,F(xiàn)4},細(xì)化預(yù)對(duì)齊塊{S1,S2,S3,S4}輸出。如圖所示,RCA接收預(yù)對(duì)齊的BEV特征作為Query,從編碼器構(gòu)建的增強(qiáng)特征作為Key 和 Value。與CCA類似,RCA也采用空間位置編碼Pm′。不同之處在于,Pm′表示BEV的位置,而Pm位于圖像平面。


如圖是RCA和CCA的架構(gòu)圖:

圖片


實(shí)驗(yàn)結(jié)果如下:

圖片


圖片


圖片



分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25