BEVerse：自動(dòng)駕駛視覺為中心的BEV統(tǒng)一感知和預(yù)測(cè)框架

2022-05-23 11:59:50· 來源：計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛作者：黃浴

arXiv論文“BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving”，上傳于2022年5月19日。作者來自清華大學(xué)

arXiv論文“BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving”，上傳于2022年5月19日。作者來自清華大學(xué)和創(chuàng)業(yè)公司鑒智機(jī)器人。

本文提出了基于多攝像機(jī)系統(tǒng)的3D感知和預(yù)測(cè)的統(tǒng)一框架BEVerse。與現(xiàn)有研究專注于改進(jìn)單任務(wù)方法不同，BEVerse的特點(diǎn)是從多攝像頭視頻中生成BEV表征，并對(duì)多個(gè)任務(wù)進(jìn)行聯(lián)合推理，實(shí)現(xiàn)以視覺為中心的自動(dòng)駕駛。具體來說，BEVerse首先執(zhí)行共享特征提取和提升（lifting），從多時(shí)間戳和多視圖圖像生成4D BEV表征。在自運(yùn)動(dòng)補(bǔ)償之后，利用時(shí)空編碼器進(jìn)一步提取BEV特征。

最后，加上多個(gè)任務(wù)解碼器進(jìn)行聯(lián)合推理和預(yù)測(cè)。在解碼器中，提出柵格采樣器（grid sampler）來生成對(duì)不同任務(wù)支持不同范圍和粒度的BEV特征。此外，還設(shè)計(jì)一個(gè)迭代流（iterative flow）方法，實(shí)現(xiàn)內(nèi)存高效的未來預(yù)測(cè)。實(shí)驗(yàn)發(fā)現(xiàn)，時(shí)域信息可以提高3D目標(biāo)檢測(cè)和語義圖的構(gòu)建，而多任務(wù)學(xué)習(xí)以隱含方式有利于運(yùn)動(dòng)預(yù)測(cè)。

通過在nuScenes數(shù)據(jù)集上的大量實(shí)驗(yàn)，表明多任務(wù)BEVerse框架在3D目標(biāo)檢測(cè)、語義地圖構(gòu)建和運(yùn)動(dòng)預(yù)測(cè)方面優(yōu)于現(xiàn)有單任務(wù)方法。與序列工作相比，BEVerse也有利于顯著提高效率。

代碼和模型今后將開源在https://github.com/zhangyp15/BEVerse。

如上圖所示，傳統(tǒng)的范例是按序列堆疊這些子任務(wù)，其中一個(gè)子任務(wù)的輸出作為輸入饋送到下一個(gè)子任務(wù)。序列設(shè)計(jì)可以從整個(gè)系統(tǒng)中分割單個(gè)任務(wù)，為學(xué)術(shù)研究創(chuàng)造了獨(dú)立和特定的問題。然而，錯(cuò)誤的傳播會(huì)顯著影響下游任務(wù)。此外，由于重復(fù)的特征提取和傳播，序列范式本身會(huì)帶來額外的計(jì)算負(fù)擔(dān)。而提出的BEVerse框架用于聯(lián)合感知和預(yù)測(cè)，通過共享特征提取和并行多任務(wù)推理，在性能和效率之間實(shí)現(xiàn)了更好的權(quán)衡。

最近一些研究一直在探索以激光雷達(dá)為中心的自動(dòng)駕駛系統(tǒng)感知和預(yù)測(cè)的聯(lián)合推理。這些工作表明，由于共享計(jì)算的好處，多任務(wù)范式可以更有效，并且還可以實(shí)現(xiàn)最先進(jìn)的性能，得益于時(shí)域融合和聯(lián)合學(xué)習(xí)。考慮到激光雷達(dá)傳感器的昂貴成本，大家研究的興趣包括了以視覺為中心的方法，依賴于多個(gè)周圍攝像頭作為輸入信息。

其他道路智體的未來行為對(duì)于自訓(xùn)練系統(tǒng)做出安全規(guī)劃決策非常重要，已經(jīng)提出了大量基于攝像頭的運(yùn)動(dòng)預(yù)測(cè)方法。FIERY提出第一個(gè)直接從周圍攝像頭視頻中進(jìn)行BEV運(yùn)動(dòng)預(yù)測(cè)的框架。同時(shí)StretchBEV進(jìn)一步提出在每個(gè)時(shí)間戳對(duì)潛變量進(jìn)行采樣，并預(yù)測(cè)殘余變化產(chǎn)生未來狀態(tài)。

FAF網(wǎng)絡(luò)提出了一個(gè)整體模型，該模型將對(duì)檢測(cè)、預(yù)測(cè)和跟蹤進(jìn)行聯(lián)合推理。MotionNet提出了一種分層時(shí)-空金字塔網(wǎng)絡(luò)，對(duì)激光雷達(dá)掃描序列中的BEV特征進(jìn)行編碼。然后，在不使用邊框的情況下執(zhí)行聯(lián)合感知和運(yùn)動(dòng)預(yù)測(cè)。

與FIERY類似，本文方法也采用原始感知輸入，在BEV坐標(biāo)系下進(jìn)行聯(lián)合感知和預(yù)測(cè)。為了減少FIERY的內(nèi)存消耗并支持多任務(wù)推理，提出一個(gè)用于未來狀態(tài)高效生成的迭代流。

如圖所示，BEVerse從N個(gè)時(shí)間戳中獲取M個(gè)周圍的攝像頭圖像，并將相應(yīng)的自運(yùn)動(dòng)和攝像頭參數(shù)作為輸入。通過多任務(wù)推理，輸出包括當(dāng)前幀的3D邊框和語義圖，以及后續(xù)T幀的未來實(shí)例分割和移動(dòng)。BEVerse由四個(gè)子模塊組成，這些子模塊依次為圖像視圖編碼器、視圖轉(zhuǎn)換器、時(shí)空BEV編碼器和多任務(wù)解碼器。

圖像視圖編碼器采用SwinTransformer做主干網(wǎng)，視圖轉(zhuǎn)換器采用Lift-Splat-Shoot（LSS）的方法，然后如FIERY時(shí)空BEV編碼器由一組時(shí)域塊組成。

多任務(wù)解碼器是并行和獨(dú)立的一組解碼器組成，其中每個(gè)解碼器包括柵格采樣器、任務(wù)編碼器和任務(wù)頭。

由于不同任務(wù)可能需要特定的范圍和粒度，輸入BEV特征的空間范圍和分辨率不能直接用于解碼。例如，語義地圖的學(xué)習(xí)需要細(xì)粒度特征，因?yàn)?-D空間的交通線很窄。因此，柵格采樣器裁剪特定任務(wù)區(qū)域，并通過雙線性插值轉(zhuǎn)換為理想分辨率。實(shí)驗(yàn)中為提高效率，基本BEV柵格設(shè)置大而粗。

特征采樣后，用輕量級(jí)任務(wù)編碼器在相應(yīng)的BEV柵格對(duì)特定任務(wù)特征進(jìn)行編碼。隨BEVDet，作者用ResNet基本塊構(gòu)建主干，并結(jié)合圖像視圖編碼器類似的多尺度特性。輸出特征上采樣到輸入分辨率，并發(fā)送到任務(wù)頭。

由于BEV的特征表征由多個(gè)攝像頭視頻構(gòu)建，因此單目和激光雷達(dá)的方法之間的維度差距（dimension gap）已經(jīng)消失。因此，為激光雷達(dá)設(shè)計(jì)的檢測(cè)頭可以直接采用，無需修改。本文使用兩步法CenterPoint的第一步（stage）作為3D目標(biāo)檢測(cè)頭部。

帶有BatchNorm和ReLU的兩個(gè)普通卷積層構(gòu)建語義地圖重建頭，輸出通道是語義地圖中Cmap的類數(shù)。

還需要對(duì)未來狀態(tài)進(jìn)行預(yù)測(cè)。如上圖（a）所示，F(xiàn)IERY首先預(yù)測(cè)未來高斯分布參數(shù)，并采樣潛向量φt∈ RL，其中L是潛維度。采樣的φt，在空域擴(kuò)展為R （Xmotion × Ymotion × L）形狀，并用于初始化未來狀態(tài)。然后，重復(fù)應(yīng)用ConvGRU（convolutional gated recurrent unit）網(wǎng)絡(luò)塊和瓶頸塊，生成未來狀態(tài){st+1，st+2，···，st+T}。

影響FIERY預(yù)測(cè)模塊有效性的兩個(gè)重要因素：（1）每個(gè)BEV像素共享采樣的全局潛向量φt，不能代表許多不同智體的不確定性。（2）僅從采樣潛向量初始化未來狀態(tài)，這樣會(huì)提高預(yù)測(cè)的難度。

為此，提出用于未來預(yù)測(cè)的迭代流，如上圖（b）。與FIERY不同的是，這里直接預(yù)測(cè)和采樣一個(gè)潛圖R（Xmotion × Ymotion × L），這樣可以分離不同目標(biāo)的不確定性。

此外，通過預(yù)測(cè)流進(jìn)行當(dāng)前狀態(tài)的warping，生成下一個(gè)時(shí)間戳的狀態(tài)，這自然適應(yīng)運(yùn)動(dòng)預(yù)測(cè)問題并簡(jiǎn)化了學(xué)習(xí)過程。生成未來狀態(tài)后，用相同的輸出頭（如FIERY）預(yù)測(cè)未來實(shí)例分割和運(yùn)動(dòng)。

在nuScenes數(shù)據(jù)集進(jìn)行綜合實(shí)驗(yàn)。nuScenes數(shù)據(jù)集包括1000個(gè)在波士頓和新加坡收集的駕駛視頻段。每個(gè)視頻段長(zhǎng)度為20秒，并以2Hz頻率用3D邊框進(jìn)行標(biāo)注，生成多達(dá)40k個(gè)關(guān)鍵幀和1.4M個(gè)目標(biāo)邊框。所有視頻段正式劃分為700、150和150，分別用于訓(xùn)練、驗(yàn)證和測(cè)試。對(duì)于以視覺為中心的方法，提供的感知輸入包括六個(gè)周圍的攝像頭、內(nèi)/外參數(shù)和自運(yùn)動(dòng)。

構(gòu)建兩個(gè)版本的BEVerse，即BEVerse-Tiny和BEVerse-Small，用于在性能和效率之間進(jìn)行不同的權(quán)衡。BEVerse-Tiny使用Swin-T（33）作為主干，輸入圖像縮放至704×256，而BEVerse-Small使用更強(qiáng)Swin-S（59），圖像縮放至1408×512。請(qǐng)注意，nuScenes數(shù)據(jù)集中的原始分辨率為1600×900。

按照FIERY設(shè)置，BEVerse獲取過去三幀（包括現(xiàn)在）圖像，感知當(dāng)前環(huán)境，并預(yù)測(cè)未來四幀的實(shí)例運(yùn)動(dòng)（在nuScenes其時(shí)長(zhǎng)2.0秒）。基于nuScenes的自車系統(tǒng)構(gòu)建BEV坐標(biāo)。

對(duì)于3-D目標(biāo)檢測(cè)，定義X-軸和Y-軸的BEV范圍為[-51.2m，51.2m]，間隔為0.8m。對(duì)于語義地圖重建，X-軸范圍為[-30.0m，30.0m]，Y-軸范圍為[-15.0m，15.0m]，間距為0.15m。對(duì)于運(yùn)動(dòng)預(yù)測(cè)，X-軸和Y-軸的范圍均為[-50.0m，50.0m]，間隔為0.5m。

視圖轉(zhuǎn)換器的BEV柵格遵循檢測(cè)設(shè)置。

對(duì)于模型架構(gòu)實(shí)現(xiàn)，圖像視圖編碼器的輸出通道是512，并且在視圖轉(zhuǎn)換期間進(jìn)一步減少到64。在時(shí)域模型和任務(wù)特定編碼器之后，特征通道增加到256進(jìn)行解碼。對(duì)于每個(gè)任務(wù)的損失權(quán)重，遵循CenterPoint和FIERY的設(shè)置。為平衡多任務(wù)學(xué)習(xí)，將檢測(cè)、地圖和運(yùn)動(dòng)的權(quán)重設(shè)置為[1.0、10.0、1.0]。除非另有說明，否則所有報(bào)告的結(jié)果都是用多任務(wù)框架生成。

對(duì)于訓(xùn)練，使用AdamW優(yōu)化器，初始學(xué)習(xí)率為2e-4，權(quán)重衰減為0.01，梯度剪輯為35。該模型使用CBGS進(jìn)行了20 epochs的訓(xùn)練。對(duì)于學(xué)習(xí)安排，采用單周期（one-cylce）策略，峰值學(xué)習(xí)率為1e-3。在32個(gè)NVIDIA GeForce RTX 3090 GPU，為BEVerse Tiny/Small訓(xùn)練批量大小為64/32的模型。主干在ImageNet上進(jìn)行預(yù)訓(xùn)練，其他參數(shù)隨機(jī)初始化。對(duì)于推理，采用BEVDet提出的scale-NMS和加速技巧。

對(duì)于增強(qiáng)策略，嚴(yán)格按照BEVDet的設(shè)置來執(zhí)行圖像視圖和BEV增強(qiáng)。圖像視圖操作包括輸入圖像的隨機(jī)縮放、旋轉(zhuǎn)和翻轉(zhuǎn)。BEV增強(qiáng)包括類似的操作，但適用于BEV表征和相應(yīng)的學(xué)習(xí)目標(biāo)。為了保持一致性，對(duì)過去每一幀應(yīng)用相同的增強(qiáng)操作。

實(shí)驗(yàn)結(jié)果：

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：電機(jī)控制器模塊化設(shè)計(jì)淺談
上一篇：直播｜中國(guó)汽研底盤技術(shù)中心：整車底盤誤用工況測(cè)評(píng)與開發(fā)

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測(cè)試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)
• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬
• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！	• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)
• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

BEVerse：自動(dòng)駕駛視覺為中心的BEV統(tǒng)一感知和預(yù)測(cè)框架

微信公眾號(hào)

編輯推薦

最新資訊

聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

電池耐久評(píng)價(jià)開始從“電池單體性能指標(biāo)”轉(zhuǎn)

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

BEVerse：自動(dòng)駕駛視覺為中心的BEV統(tǒng)一感知和預(yù)測(cè)框架

微信公眾號(hào)

編輯推薦

最新資訊

聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

電池耐久評(píng)價(jià)開始從“電池單體性能指標(biāo)”轉(zhuǎn)

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將