日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

UniFormer:用統(tǒng)一多視角融合Transformer構(gòu)建時(shí)空BEV表征

2022-07-26 09:47:04·  來源:計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
arXiv論文“UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird’s-Eye-View“,2022年7月上傳,浙江大學(xué)、大疆公

arXiv論文“UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird’s-Eye-View“,2022年7月上傳,浙江大學(xué)、大疆公司和上海AI實(shí)驗(yàn)室的工作。

圖片


BEV表示是一種基于空域融合的自主駕駛感知形式。此外,時(shí)域融合也被引入到BEV表示中,并取得了巨大的成功。這項(xiàng)工作提出一種方法,將空間和時(shí)間融合統(tǒng)一起來,并將它們合并到一個(gè)統(tǒng)一的數(shù)學(xué)形式中。統(tǒng)一融合不僅為BEV融合提供了新的視角,而且?guī)砹诵碌哪芰?。通過提出的統(tǒng)一時(shí)空融合,可以支持傳統(tǒng)BEV方法難以實(shí)現(xiàn)的遠(yuǎn)距離融合。


此外,BEV融合是時(shí)間自適應(yīng)的,時(shí)域融合的權(quán)重是可學(xué)習(xí)的。相比之下,傳統(tǒng)方法主要使用固定權(quán)重和等權(quán)重進(jìn)行時(shí)域融合。并且,所提出的統(tǒng)一融合可以避免傳統(tǒng)BEV融合方法中的信息丟失,并充分利用特征。

如圖介紹BEV時(shí)域融合的方法:從左到右,無時(shí)域融合、基于warp的時(shí)域融合和提出的統(tǒng)一多視圖融合。對(duì)于無時(shí)域融合的方法,僅在當(dāng)前時(shí)間步長用周圍圖像預(yù)測(cè)BEV空間;基于warp的時(shí)域融合將上一時(shí)間步的BEV空間warp,是一種串行融合方法;統(tǒng)一的多視圖融合,是一種并行方法,可以支持遠(yuǎn)距離融合。

圖片


傳統(tǒng)的BEV時(shí)域融合是基于warp的融合,如圖a所示:基于warp的融合基于不同時(shí)間步長的自運(yùn)動(dòng)來warp過去的BEV特征和信息;由于所有特征在warp之前已經(jīng)組織在預(yù)定義的自車BEV空間中,因此該過程將丟失信息。

圖片


攝像機(jī)的實(shí)際可見范圍遠(yuǎn)大于BEV空間的可見范圍。例如,對(duì)于典型的攝像機(jī)來說,100m是一個(gè)非常小的可見范圍,而大多數(shù)BEV范圍被定義為不超過52m。通過這種方式,可以獲得比簡單warpBEV空間更好的BEV時(shí)間融合,如圖b所示。

圖片


為了實(shí)現(xiàn)更好的時(shí)域融合,提出了一個(gè)概念,虛擬視圖(virtual view),如圖c所示:虛擬視圖定義為當(dāng)前時(shí)間步不存在的傳感器視圖,這些過去的視圖根據(jù)自車BEV空間旋轉(zhuǎn)和轉(zhuǎn)換,就像實(shí)際存在于當(dāng)前時(shí)間步一樣。

圖片


如圖是BEV融合的模型框架:該網(wǎng)絡(luò)由主干網(wǎng)、統(tǒng)一多視圖融合transformer和分割頭三部分組成。

圖片


最重要的模塊是用于統(tǒng)一多視圖時(shí)空融合的交叉注意。在統(tǒng)一多視圖融合的幫助下,所有時(shí)空特征可以映射到同一個(gè)自車BEV空間。交叉注意模塊的目標(biāo)是融合和集成映射的時(shí)空BEV空間特征。


通過這種方式,用BEV query Q來迭代BEV空間不同位置的特征、時(shí)間步、多尺度級(jí)和采樣高度。可以以統(tǒng)一的方式直接檢索來自任何地點(diǎn)和時(shí)間的信息,而不會(huì)造成任何損失。這種設(shè)計(jì)還使得遠(yuǎn)距離融合成為可能,因?yàn)闊o論多久以前的特征,都可以被直接訪問,也支持自適應(yīng)時(shí)域融合。


最后一個(gè)主要部分是自回歸機(jī)制。將Transformer的輸出與BEV query連接起來作為新輸入,并重新運(yùn)行Transformer獲得最終特征。BEVFormer將warp的先前BEV特征與自注意模塊之前的BEV query連接起來,實(shí)現(xiàn)時(shí)域融合。對(duì)Transformer的第一次運(yùn)行,只需將BEV query加倍并疊加做為輸入。


在BEVFormer中,warp的BEV特征和BEV query的疊加帶來了時(shí)域融合,這是性能提高的根本原因。這項(xiàng)工作中,BEV特征和query的連接隱含地加深和加倍了transformer的層數(shù)。由于warp的BEV特征已經(jīng)在之前的時(shí)間步讓transformer處理,因此疊加視為兩個(gè)連續(xù)transformer的嫁接。這樣,無warp的簡單自回歸可以獲得與BEVFormer類似的性能增益。


分割頭是ERFNet。

ResNet50、Swin Tiny和VoVNet作為主干網(wǎng)。ResNet50和SWN主干從ImageNet預(yù)訓(xùn)練初始化,VoVNet主干從DD3D初始化。Transformer的默認(rèn)層數(shù)設(shè)置為12。對(duì)于ResNet50和Swin,輸入圖像分辨率設(shè)置為1600×900。


對(duì)于VoVNet,用1408×512的圖像大小。訓(xùn)練用AdamW優(yōu)化器,學(xué)習(xí)速率為2e-4,權(quán)重衰減為1e-4。主干的學(xué)習(xí)速率降低了10倍。批量大小設(shè)置為每個(gè)GPU 1個(gè),模型用8個(gè)GPU訓(xùn)練24個(gè)epoch。在第20個(gè)epoch,學(xué)習(xí)率降低了10倍。多尺度特征的數(shù)量設(shè)置為L=4,先前時(shí)間步長的默認(rèn)數(shù)量設(shè)置為P=6,采樣高度的數(shù)量設(shè)置為Z=4。高度范圍為(?5米,3米],其中stride是2米。


對(duì)于100米×100米設(shè)置,用50×50 BEV query來表示整個(gè)BEV空間,然后將結(jié)果上采樣4倍去匹配BEV分辨率。對(duì)于60米×30米設(shè)置,用100×50 BEV query,其上采樣與100米×100米設(shè)置類似。對(duì)于160米×100米設(shè)置,用80×50 BEV query,然后向上采樣8x去匹配分辨率。用交叉熵(CE)損失在兩種設(shè)置下進(jìn)行訓(xùn)練。


對(duì)于類不平衡問題,背景類的損失權(quán)重默認(rèn)設(shè)置為0.4。由于100米×100米設(shè)置中的道路類別是多邊形區(qū)域,沒有類別不平衡問題,因此道路背景類別的損失權(quán)重設(shè)置為1.0。


實(shí)驗(yàn)結(jié)果如下:

圖片


圖片


圖片


圖片


圖片


圖片


圖片


分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25