UniFormer：用統(tǒng)一多視角融合Transformer構(gòu)建時(shí)空BEV表征

2022-07-26 09:47:04· 來源：計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛作者：黃浴

arXiv論文“UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird’s-Eye-View“，2022年7月上傳，浙江大學(xué)、大疆公

arXiv論文“UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird’s-Eye-View“，2022年7月上傳，浙江大學(xué)、大疆公司和上海AI實(shí)驗(yàn)室的工作。

BEV表示是一種基于空域融合的自主駕駛感知形式。此外，時(shí)域融合也被引入到BEV表示中，并取得了巨大的成功。這項(xiàng)工作提出一種方法，將空間和時(shí)間融合統(tǒng)一起來，并將它們合并到一個(gè)統(tǒng)一的數(shù)學(xué)形式中。統(tǒng)一融合不僅為BEV融合提供了新的視角，而且?guī)砹诵碌哪芰?。通過提出的統(tǒng)一時(shí)空融合，可以支持傳統(tǒng)BEV方法難以實(shí)現(xiàn)的遠(yuǎn)距離融合。

此外，BEV融合是時(shí)間自適應(yīng)的，時(shí)域融合的權(quán)重是可學(xué)習(xí)的。相比之下，傳統(tǒng)方法主要使用固定權(quán)重和等權(quán)重進(jìn)行時(shí)域融合。并且，所提出的統(tǒng)一融合可以避免傳統(tǒng)BEV融合方法中的信息丟失，并充分利用特征。

如圖介紹BEV時(shí)域融合的方法：從左到右，無時(shí)域融合、基于warp的時(shí)域融合和提出的統(tǒng)一多視圖融合。對(duì)于無時(shí)域融合的方法，僅在當(dāng)前時(shí)間步長用周圍圖像預(yù)測(cè)BEV空間；基于warp的時(shí)域融合將上一時(shí)間步的BEV空間warp，是一種串行融合方法；統(tǒng)一的多視圖融合，是一種并行方法，可以支持遠(yuǎn)距離融合。

傳統(tǒng)的BEV時(shí)域融合是基于warp的融合，如圖a所示：基于warp的融合基于不同時(shí)間步長的自運(yùn)動(dòng)來warp過去的BEV特征和信息；由于所有特征在warp之前已經(jīng)組織在預(yù)定義的自車BEV空間中，因此該過程將丟失信息。

攝像機(jī)的實(shí)際可見范圍遠(yuǎn)大于BEV空間的可見范圍。例如，對(duì)于典型的攝像機(jī)來說，100m是一個(gè)非常小的可見范圍，而大多數(shù)BEV范圍被定義為不超過52m。通過這種方式，可以獲得比簡單warpBEV空間更好的BEV時(shí)間融合，如圖b所示。

為了實(shí)現(xiàn)更好的時(shí)域融合，提出了一個(gè)概念，虛擬視圖（virtual view），如圖c所示：虛擬視圖定義為當(dāng)前時(shí)間步不存在的傳感器視圖，這些過去的視圖根據(jù)自車BEV空間旋轉(zhuǎn)和轉(zhuǎn)換，就像實(shí)際存在于當(dāng)前時(shí)間步一樣。

如圖是BEV融合的模型框架：該網(wǎng)絡(luò)由主干網(wǎng)、統(tǒng)一多視圖融合transformer和分割頭三部分組成。

最重要的模塊是用于統(tǒng)一多視圖時(shí)空融合的交叉注意。在統(tǒng)一多視圖融合的幫助下，所有時(shí)空特征可以映射到同一個(gè)自車BEV空間。交叉注意模塊的目標(biāo)是融合和集成映射的時(shí)空BEV空間特征。

通過這種方式，用BEV query Q來迭代BEV空間不同位置的特征、時(shí)間步、多尺度級(jí)和采樣高度。可以以統(tǒng)一的方式直接檢索來自任何地點(diǎn)和時(shí)間的信息，而不會(huì)造成任何損失。這種設(shè)計(jì)還使得遠(yuǎn)距離融合成為可能，因?yàn)闊o論多久以前的特征，都可以被直接訪問，也支持自適應(yīng)時(shí)域融合。

最后一個(gè)主要部分是自回歸機(jī)制。將Transformer的輸出與BEV query連接起來作為新輸入，并重新運(yùn)行Transformer獲得最終特征。BEVFormer將warp的先前BEV特征與自注意模塊之前的BEV query連接起來，實(shí)現(xiàn)時(shí)域融合。對(duì)Transformer的第一次運(yùn)行，只需將BEV query加倍并疊加做為輸入。

在BEVFormer中，warp的BEV特征和BEV query的疊加帶來了時(shí)域融合，這是性能提高的根本原因。這項(xiàng)工作中，BEV特征和query的連接隱含地加深和加倍了transformer的層數(shù)。由于warp的BEV特征已經(jīng)在之前的時(shí)間步讓transformer處理，因此疊加視為兩個(gè)連續(xù)transformer的嫁接。這樣，無warp的簡單自回歸可以獲得與BEVFormer類似的性能增益。

分割頭是ERFNet。

ResNet50、Swin Tiny和VoVNet作為主干網(wǎng)。ResNet50和SWN主干從ImageNet預(yù)訓(xùn)練初始化，VoVNet主干從DD3D初始化。Transformer的默認(rèn)層數(shù)設(shè)置為12。對(duì)于ResNet50和Swin，輸入圖像分辨率設(shè)置為1600×900。

對(duì)于VoVNet，用1408×512的圖像大小。訓(xùn)練用AdamW優(yōu)化器，學(xué)習(xí)速率為2e-4，權(quán)重衰減為1e-4。主干的學(xué)習(xí)速率降低了10倍。批量大小設(shè)置為每個(gè)GPU 1個(gè)，模型用8個(gè)GPU訓(xùn)練24個(gè)epoch。在第20個(gè)epoch，學(xué)習(xí)率降低了10倍。多尺度特征的數(shù)量設(shè)置為L=4，先前時(shí)間步長的默認(rèn)數(shù)量設(shè)置為P=6，采樣高度的數(shù)量設(shè)置為Z=4。高度范圍為(?5米，3米]，其中stride是2米。

對(duì)于100米×100米設(shè)置，用50×50 BEV query來表示整個(gè)BEV空間，然后將結(jié)果上采樣4倍去匹配BEV分辨率。對(duì)于60米×30米設(shè)置，用100×50 BEV query，其上采樣與100米×100米設(shè)置類似。對(duì)于160米×100米設(shè)置，用80×50 BEV query，然后向上采樣8x去匹配分辨率。用交叉熵（CE）損失在兩種設(shè)置下進(jìn)行訓(xùn)練。

對(duì)于類不平衡問題，背景類的損失權(quán)重默認(rèn)設(shè)置為0.4。由于100米×100米設(shè)置中的道路類別是多邊形區(qū)域，沒有類別不平衡問題，因此道路背景類別的損失權(quán)重設(shè)置為1.0。

實(shí)驗(yàn)結(jié)果如下：

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：10問新能源汽車800V絕緣設(shè)計(jì)
上一篇：如何設(shè)計(jì)提高電芯的容量密度？

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測(cè)試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)
• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬
• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！	• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)
• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

UniFormer：用統(tǒng)一多視角融合Transformer構(gòu)建時(shí)空BEV表征

微信公眾號(hào)

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

聯(lián)合國法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

UniFormer：用統(tǒng)一多視角融合Transformer構(gòu)建時(shí)空BEV表征

微信公眾號(hào)

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

聯(lián)合國法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將