日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

BEVerse:自動(dòng)駕駛視覺為中心的BEV統(tǒng)一感知和預(yù)測(cè)框架

2022-05-23 11:59:50·  來源:計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
arXiv論文“BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving”,上傳于2022年5月19日。作者來自清華大學(xué)

arXiv論文“BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving”,上傳于2022年5月19日。作者來自清華大學(xué)和創(chuàng)業(yè)公司鑒智機(jī)器人。

圖片


本文提出了基于多攝像機(jī)系統(tǒng)的3D感知和預(yù)測(cè)的統(tǒng)一框架BEVerse。與現(xiàn)有研究專注于改進(jìn)單任務(wù)方法不同,BEVerse的特點(diǎn)是從多攝像頭視頻中生成BEV表征,并對(duì)多個(gè)任務(wù)進(jìn)行聯(lián)合推理,實(shí)現(xiàn)以視覺為中心的自動(dòng)駕駛。具體來說,BEVerse首先執(zhí)行共享特征提取和提升(lifting),從多時(shí)間戳和多視圖圖像生成4D BEV表征。在自運(yùn)動(dòng)補(bǔ)償之后,利用時(shí)空編碼器進(jìn)一步提取BEV特征。


最后,加上多個(gè)任務(wù)解碼器進(jìn)行聯(lián)合推理和預(yù)測(cè)。在解碼器中,提出柵格采樣器(grid sampler)來生成對(duì)不同任務(wù)支持不同范圍和粒度的BEV特征。此外,還設(shè)計(jì)一個(gè)迭代流(iterative flow)方法,實(shí)現(xiàn)內(nèi)存高效的未來預(yù)測(cè)。實(shí)驗(yàn)發(fā)現(xiàn),時(shí)域信息可以提高3D目標(biāo)檢測(cè)和語義圖的構(gòu)建,而多任務(wù)學(xué)習(xí)以隱含方式有利于運(yùn)動(dòng)預(yù)測(cè)。


通過在nuScenes數(shù)據(jù)集上的大量實(shí)驗(yàn),表明多任務(wù)BEVerse框架在3D目標(biāo)檢測(cè)、語義地圖構(gòu)建和運(yùn)動(dòng)預(yù)測(cè)方面優(yōu)于現(xiàn)有單任務(wù)方法。與序列工作相比,BEVerse也有利于顯著提高效率。


代碼和模型今后將開源在https://github.com/zhangyp15/BEVerse。

圖片


如上圖所示,傳統(tǒng)的范例是按序列堆疊這些子任務(wù),其中一個(gè)子任務(wù)的輸出作為輸入饋送到下一個(gè)子任務(wù)。序列設(shè)計(jì)可以從整個(gè)系統(tǒng)中分割單個(gè)任務(wù),為學(xué)術(shù)研究創(chuàng)造了獨(dú)立和特定的問題。然而,錯(cuò)誤的傳播會(huì)顯著影響下游任務(wù)。此外,由于重復(fù)的特征提取和傳播,序列范式本身會(huì)帶來額外的計(jì)算負(fù)擔(dān)。而提出的BEVerse框架用于聯(lián)合感知和預(yù)測(cè),通過共享特征提取和并行多任務(wù)推理,在性能和效率之間實(shí)現(xiàn)了更好的權(quán)衡。


最近一些研究一直在探索以激光雷達(dá)為中心的自動(dòng)駕駛系統(tǒng)感知和預(yù)測(cè)的聯(lián)合推理。這些工作表明,由于共享計(jì)算的好處,多任務(wù)范式可以更有效,并且還可以實(shí)現(xiàn)最先進(jìn)的性能,得益于時(shí)域融合和聯(lián)合學(xué)習(xí)。考慮到激光雷達(dá)傳感器的昂貴成本,大家研究的興趣包括了以視覺為中心的方法,依賴于多個(gè)周圍攝像頭作為輸入信息。


其他道路智體的未來行為對(duì)于自訓(xùn)練系統(tǒng)做出安全規(guī)劃決策非常重要,已經(jīng)提出了大量基于攝像頭的運(yùn)動(dòng)預(yù)測(cè)方法。FIERY提出第一個(gè)直接從周圍攝像頭視頻中進(jìn)行BEV運(yùn)動(dòng)預(yù)測(cè)的框架。同時(shí)StretchBEV進(jìn)一步提出在每個(gè)時(shí)間戳對(duì)潛變量進(jìn)行采樣,并預(yù)測(cè)殘余變化產(chǎn)生未來狀態(tài)。


FAF網(wǎng)絡(luò)提出了一個(gè)整體模型,該模型將對(duì)檢測(cè)、預(yù)測(cè)和跟蹤進(jìn)行聯(lián)合推理。MotionNet提出了一種分層時(shí)-空金字塔網(wǎng)絡(luò),對(duì)激光雷達(dá)掃描序列中的BEV特征進(jìn)行編碼。然后,在不使用邊框的情況下執(zhí)行聯(lián)合感知和運(yùn)動(dòng)預(yù)測(cè)。


與FIERY類似,本文方法也采用原始感知輸入,在BEV坐標(biāo)系下進(jìn)行聯(lián)合感知和預(yù)測(cè)。為了減少FIERY的內(nèi)存消耗并支持多任務(wù)推理,提出一個(gè)用于未來狀態(tài)高效生成的迭代流。

圖片


如圖所示,BEVerse從N個(gè)時(shí)間戳中獲取M個(gè)周圍的攝像頭圖像,并將相應(yīng)的自運(yùn)動(dòng)和攝像頭參數(shù)作為輸入。通過多任務(wù)推理,輸出包括當(dāng)前幀的3D邊框和語義圖,以及后續(xù)T幀的未來實(shí)例分割和移動(dòng)。BEVerse由四個(gè)子模塊組成,這些子模塊依次為圖像視圖編碼器、視圖轉(zhuǎn)換器、時(shí)空BEV編碼器和多任務(wù)解碼器


圖像視圖編碼器采用SwinTransformer做主干網(wǎng),視圖轉(zhuǎn)換器采用Lift-Splat-Shoot(LSS)的方法,然后如FIERY時(shí)空BEV編碼器由一組時(shí)域塊組成。


多任務(wù)解碼器是并行和獨(dú)立的一組解碼器組成,其中每個(gè)解碼器包括柵格采樣器、任務(wù)編碼器和任務(wù)頭


由于不同任務(wù)可能需要特定的范圍和粒度,輸入BEV特征的空間范圍和分辨率不能直接用于解碼。例如,語義地圖的學(xué)習(xí)需要細(xì)粒度特征,因?yàn)?-D空間的交通線很窄。因此,柵格采樣器裁剪特定任務(wù)區(qū)域,并通過雙線性插值轉(zhuǎn)換為理想分辨率。實(shí)驗(yàn)中為提高效率,基本BEV柵格設(shè)置大而粗。


特征采樣后,用輕量級(jí)任務(wù)編碼器在相應(yīng)的BEV柵格對(duì)特定任務(wù)特征進(jìn)行編碼。隨BEVDet,作者用ResNet基本塊構(gòu)建主干,并結(jié)合圖像視圖編碼器類似的多尺度特性。輸出特征上采樣到輸入分辨率,并發(fā)送到任務(wù)頭。


由于BEV的特征表征由多個(gè)攝像頭視頻構(gòu)建,因此單目和激光雷達(dá)的方法之間的維度差距(dimension gap)已經(jīng)消失。因此,為激光雷達(dá)設(shè)計(jì)的檢測(cè)頭可以直接采用,無需修改。本文使用兩步法CenterPoint的第一步(stage)作為3D目標(biāo)檢測(cè)頭部


帶有BatchNorm和ReLU的兩個(gè)普通卷積層構(gòu)建語義地圖重建頭,輸出通道是語義地圖中Cmap的類數(shù)。

圖片


還需要對(duì)未來狀態(tài)進(jìn)行預(yù)測(cè)。如上圖(a)所示,F(xiàn)IERY首先預(yù)測(cè)未來高斯分布參數(shù),并采樣潛向量φt∈ RL,其中L是潛維度。采樣的φt,在空域擴(kuò)展為R (Xmotion × Ymotion × L)形狀,并用于初始化未來狀態(tài)。然后,重復(fù)應(yīng)用ConvGRU(convolutional gated recurrent unit)網(wǎng)絡(luò)塊和瓶頸塊,生成未來狀態(tài){st+1,st+2,···,st+T}。


影響FIERY預(yù)測(cè)模塊有效性的兩個(gè)重要因素:(1)每個(gè)BEV像素共享采樣的全局潛向量φt,不能代表許多不同智體的不確定性。(2) 僅從采樣潛向量初始化未來狀態(tài),這樣會(huì)提高預(yù)測(cè)的難度。


為此,提出用于未來預(yù)測(cè)的迭代流,如上圖(b)。與FIERY不同的是,這里直接預(yù)測(cè)和采樣一個(gè)潛圖R(Xmotion × Ymotion × L),這樣可以分離不同目標(biāo)的不確定性。


此外,通過預(yù)測(cè)流進(jìn)行當(dāng)前狀態(tài)的warping,生成下一個(gè)時(shí)間戳的狀態(tài),這自然適應(yīng)運(yùn)動(dòng)預(yù)測(cè)問題并簡(jiǎn)化了學(xué)習(xí)過程。生成未來狀態(tài)后,用相同的輸出頭(如FIERY)預(yù)測(cè)未來實(shí)例分割和運(yùn)動(dòng)。

在nuScenes數(shù)據(jù)集進(jìn)行綜合實(shí)驗(yàn)。nuScenes數(shù)據(jù)集包括1000個(gè)在波士頓和新加坡收集的駕駛視頻段。每個(gè)視頻段長(zhǎng)度為20秒,并以2Hz頻率用3D邊框進(jìn)行標(biāo)注,生成多達(dá)40k個(gè)關(guān)鍵幀和1.4M個(gè)目標(biāo)邊框。所有視頻段正式劃分為700、150和150,分別用于訓(xùn)練、驗(yàn)證和測(cè)試。對(duì)于以視覺為中心的方法,提供的感知輸入包括六個(gè)周圍的攝像頭、內(nèi)/外參數(shù)和自運(yùn)動(dòng)。


構(gòu)建兩個(gè)版本的BEVerse,即BEVerse-Tiny和BEVerse-Small,用于在性能和效率之間進(jìn)行不同的權(quán)衡。BEVerse-Tiny使用Swin-T(33)作為主干,輸入圖像縮放至704×256,而BEVerse-Small使用更強(qiáng)Swin-S(59),圖像縮放至1408×512。請(qǐng)注意,nuScenes數(shù)據(jù)集中的原始分辨率為1600×900。


按照FIERY設(shè)置,BEVerse獲取過去三幀(包括現(xiàn)在)圖像,感知當(dāng)前環(huán)境,并預(yù)測(cè)未來四幀的實(shí)例運(yùn)動(dòng)(在nuScenes其時(shí)長(zhǎng)2.0秒)。基于nuScenes的自車系統(tǒng)構(gòu)建BEV坐標(biāo)。


對(duì)于3-D目標(biāo)檢測(cè),定義X-軸和Y-軸的BEV范圍為[-51.2m,51.2m],間隔為0.8m。對(duì)于語義地圖重建,X-軸范圍為[-30.0m,30.0m],Y-軸范圍為[-15.0m,15.0m],間距為0.15m。對(duì)于運(yùn)動(dòng)預(yù)測(cè),X-軸和Y-軸的范圍均為[-50.0m,50.0m],間隔為0.5m。


視圖轉(zhuǎn)換器的BEV柵格遵循檢測(cè)設(shè)置。


對(duì)于模型架構(gòu)實(shí)現(xiàn),圖像視圖編碼器的輸出通道是512,并且在視圖轉(zhuǎn)換期間進(jìn)一步減少到64。在時(shí)域模型和任務(wù)特定編碼器之后,特征通道增加到256進(jìn)行解碼。對(duì)于每個(gè)任務(wù)的損失權(quán)重,遵循CenterPoint和FIERY的設(shè)置。為平衡多任務(wù)學(xué)習(xí),將檢測(cè)、地圖和運(yùn)動(dòng)的權(quán)重設(shè)置為[1.0、10.0、1.0]。除非另有說明,否則所有報(bào)告的結(jié)果都是用多任務(wù)框架生成。


對(duì)于訓(xùn)練,使用AdamW優(yōu)化器,初始學(xué)習(xí)率為2e-4,權(quán)重衰減為0.01,梯度剪輯為35。該模型使用CBGS進(jìn)行了20 epochs的訓(xùn)練。對(duì)于學(xué)習(xí)安排,采用單周期(one-cylce)策略,峰值學(xué)習(xí)率為1e-3。在32個(gè)NVIDIA GeForce RTX 3090 GPU,為BEVerse Tiny/Small訓(xùn)練批量大小為64/32的模型。主干在ImageNet上進(jìn)行預(yù)訓(xùn)練,其他參數(shù)隨機(jī)初始化。對(duì)于推理,采用BEVDet提出的scale-NMS和加速技巧。


對(duì)于增強(qiáng)策略,嚴(yán)格按照BEVDet的設(shè)置來執(zhí)行圖像視圖和BEV增強(qiáng)。圖像視圖操作包括輸入圖像的隨機(jī)縮放、旋轉(zhuǎn)和翻轉(zhuǎn)。BEV增強(qiáng)包括類似的操作,但適用于BEV表征和相應(yīng)的學(xué)習(xí)目標(biāo)。為了保持一致性,對(duì)過去每一幀應(yīng)用相同的增強(qiáng)操作。


實(shí)驗(yàn)結(jié)果:

圖片圖片


圖片


圖片


圖片


圖片


分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25