日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

StopNet:為城市自動(dòng)駕駛的可擴(kuò)展軌跡預(yù)測(cè)和占有預(yù)測(cè)方法

2022-06-05 00:52:36·  來源:計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
arXiv2022年6月2日上傳論文“StopNet: Scalable Trajectory and Occupancy Prediction for Urban Autonomous Driving“,來自韓國(guó)的朝鮮大學(xué)和谷歌WayMo。介紹了

arXiv2022年6月2日上傳論文“StopNet: Scalable Trajectory and Occupancy Prediction for Urban Autonomous Driving“,來自韓國(guó)的朝鮮大學(xué)和谷歌WayMo。

圖片


介紹了一種運(yùn)動(dòng)預(yù)測(cè)(行為預(yù)測(cè))方法,StopNet,如圖所示,在不犧牲準(zhǔn)確性的情況下滿足密集城市環(huán)境自動(dòng)駕駛的延遲要求。全場(chǎng)景的稀疏輸入表征,允許StopNet擴(kuò)展到數(shù)百個(gè)帶可靠延遲道路智體的預(yù)測(cè)軌跡。


除了預(yù)測(cè)軌跡外,場(chǎng)景編碼器還可以預(yù)測(cè)全場(chǎng)景的概率占用網(wǎng)格(occupancy grids),作為一種適用于繁忙城市環(huán)境的補(bǔ)充輸出表征。占用網(wǎng)格允許自動(dòng)駕駛車輛共同推理智體群的行為,而無需處理其中智體各自軌跡。


在三個(gè)數(shù)據(jù)集證明了稀疏輸入表征和模型在計(jì)算和準(zhǔn)確性方面的有效性。按照標(biāo)準(zhǔn)指標(biāo),聯(lián)合訓(xùn)練一致的軌跡和占用率預(yù)測(cè)改善了性能。

圖片


自動(dòng)駕駛車輛(AV)需要不斷評(píng)估這個(gè)所有來自其他道路智體未來可能運(yùn)動(dòng)所在的空間,以便能夠?yàn)槠渥约壕S護(hù)安全有效的運(yùn)動(dòng)規(guī)劃。此運(yùn)動(dòng)預(yù)測(cè)和重新規(guī)劃任務(wù)是AV連續(xù)執(zhí)行的眾多過程之一,因此至關(guān)重要的是,要在期待的延遲要求下完成。


另一方面,在密集的城市環(huán)境中運(yùn)行時(shí),AV可能會(huì)在其視野內(nèi)遇到數(shù)百個(gè)動(dòng)態(tài)智體的場(chǎng)景,要考慮在有大量行人的體育或音樂場(chǎng)館旁邊駕駛。在這種環(huán)境中自動(dòng)駕駛需要一個(gè)運(yùn)動(dòng)預(yù)測(cè)和規(guī)劃系統(tǒng)要 1)快速2)隨智體數(shù)量擴(kuò)展。


現(xiàn)有的運(yùn)動(dòng)預(yù)測(cè)方法不能滿足上述要求。模型通常需要40-50ms以上的時(shí)間進(jìn)行推斷。這種可擴(kuò)展問題在公開基準(zhǔn)測(cè)試中沒有得到解決,在報(bào)告中經(jīng)常被忽略。提出的方法通常使用光柵(基于渲染的)輸入表示法,這需要昂貴的CNN進(jìn)行處理。


最近,有人提出基于稀疏點(diǎn)的輸入表征方法,比如矢量圖。這些方法提高了精度,減少了模型參數(shù)的數(shù)量。然而,為了提高準(zhǔn)確性,這些方法采取以智體為中心(agent- centric)的場(chǎng)景表征,需要從每個(gè)智體角度重新編碼道路點(diǎn)和智體點(diǎn)。這些方法的延遲隨著推理智體的數(shù)量呈線性增長(zhǎng),因此不適合繁忙的城市環(huán)境。


這項(xiàng)工作StopNet,是一種關(guān)注延遲和擴(kuò)展性的運(yùn)動(dòng)預(yù)測(cè)方法。開發(fā)一種新的全場(chǎng)景(Whole-scene)稀疏輸入表征,可以同時(shí)對(duì)包括所有智體的場(chǎng)景輸入進(jìn)行編碼。借鑒3D目標(biāo)檢測(cè),開發(fā)一個(gè)PointPillars啟發(fā)的場(chǎng)景編碼器,其同時(shí)處理從所有智體中采樣的稀疏點(diǎn),從而形成一個(gè)非??焖俚能壽E預(yù)測(cè)模型,延遲則大多是對(duì)于智體數(shù)不變。


AV通常將預(yù)測(cè)軌跡和不確定性視為規(guī)劃約束,因此在繁忙場(chǎng)景中規(guī)劃算法的延遲也會(huì)增加。StopNet的全場(chǎng)景編碼器還支持預(yù)測(cè)概率占用網(wǎng)格這種致密輸出格式,捕獲地圖中任何給定網(wǎng)格單元被某個(gè)智體部分占用的概率。


這種輸出表征允許AV規(guī)劃器對(duì)繁忙場(chǎng)景中全占有網(wǎng)格情況進(jìn)行推理,無需去處理單個(gè)軌跡,因此需要幾乎恒定不變的計(jì)算操作。占用網(wǎng)格的另一個(gè)吸引人特性是,對(duì)檢測(cè)、跟蹤噪聲和忽隱忽現(xiàn)(flicker)等具有魯棒性,因?yàn)槟P碗S時(shí)間獨(dú)立于智體身份推理占用網(wǎng)格情況。


通過聯(lián)合訓(xùn)練設(shè)置,StopNet也是第一個(gè)方法將軌跡集和占用網(wǎng)格統(tǒng)一為運(yùn)動(dòng)預(yù)測(cè)兩種原型。這些輸出表征與直觀一致性損失聯(lián)系在一起:當(dāng)每個(gè)智體的軌跡輸出分布轉(zhuǎn)換為占有概率分布時(shí),應(yīng)該與總占有概率分布保持一致。這種方式進(jìn)行聯(lián)合訓(xùn)練的結(jié)果,可以獲得最先進(jìn)的軌跡預(yù)測(cè)性能。


假設(shè)每個(gè)智體在任何時(shí)候都可以用一個(gè)有方向的邊框表示,給定場(chǎng)景中所有智體在固定數(shù)量輸入時(shí)間步的狀態(tài)觀測(cè)序列,軌跡預(yù)測(cè)任務(wù),定義為對(duì)場(chǎng)景中的所有智體在固定時(shí)間范圍T預(yù)測(cè)未來位置。預(yù)測(cè)一組K軌跡,其中包括每個(gè)智體的相關(guān)概率,還預(yù)測(cè)了每個(gè)軌跡航點(diǎn)的二維高斯不確定性。


占用率預(yù)測(cè)任務(wù)定義為預(yù)測(cè)占用率網(wǎng)格。占用網(wǎng)格中的每個(gè)單元包含一個(gè)范圍[0,1]內(nèi)值,表示在時(shí)間T任何一個(gè)智體邊框的任何部分與該網(wǎng)格單元重疊的概率。在BEV空間把未來智體邊框渲染為二進(jìn)制圖,構(gòu)建真值占用率網(wǎng)格。由于規(guī)劃器對(duì)不同的智體類的反應(yīng)不同,要為每個(gè)智體類預(yù)測(cè)不同的占用網(wǎng)格。


如圖所示,設(shè)定以AV位置為中心的全場(chǎng)景坐標(biāo)系,t=0。所有當(dāng)前和過去的智體狀態(tài)(包括AV)都轉(zhuǎn)換到此固定坐標(biāo)系。模型輸入包括三組點(diǎn),每個(gè)都有相關(guān)的特征向量。智體點(diǎn)(車和行人)構(gòu)建來自每個(gè)智體邊框內(nèi)均勻采樣的固定數(shù)點(diǎn)。所有輸入時(shí)間步的智體點(diǎn)共存。每個(gè)智體點(diǎn)都帶有狀態(tài)屬性加一個(gè)one-hot編碼的時(shí)間。道路元素點(diǎn)從道路結(jié)構(gòu)的直線和曲線中均勻采樣而得。每個(gè)道路點(diǎn)編碼位置和元素類型。紅綠燈點(diǎn)位于其控制的車道末端。屬性包括位置、時(shí)間和紅綠燈狀態(tài)。

圖片


如圖顯示StopNet體系結(jié)構(gòu)的概覽:包括一個(gè)編碼器,一個(gè)ResNet主干網(wǎng),還有兩個(gè)頭部用于解碼來自共享場(chǎng)景特征的軌跡和占用率預(yù)測(cè)。

圖片


受PointPillar的啟發(fā),StopNet編碼器將點(diǎn)集P分解為x-y平面M×N柱的均勻網(wǎng)格。然后對(duì)每個(gè)柱的點(diǎn)進(jìn)行增強(qiáng),其中有到點(diǎn)平均的距離和到柱中心的偏移。然后,用PointNet的簡(jiǎn)化版對(duì)每個(gè)支柱中所有點(diǎn)的特征進(jìn)行編碼和聚合。特別是,應(yīng)用線性全連接(FC)層,然后是BatchNorm和ReLU對(duì)每個(gè)點(diǎn)進(jìn)行編碼。


在每個(gè)支柱內(nèi)的所有點(diǎn)上應(yīng)用max操作,計(jì)算每個(gè)支柱的特征向量,如下所示:

圖片


然后,編碼器生成的M×N特征圖通過ResNet主干進(jìn)行處理,重塑為W×H,與在場(chǎng)景智體當(dāng)前位置渲染的二進(jìn)制占用網(wǎng)格連接在一起。接著,軌跡解碼器和占用網(wǎng)格解碼器共享生成的特征圖,生成模型的最終預(yù)測(cè)。


為預(yù)測(cè)軌跡,采用MultiPath的軌跡解碼器架構(gòu)和損失函數(shù)。軌跡解碼器從全場(chǎng)景特征提取每個(gè)智體位置為中心的大小為11×11補(bǔ)丁,從而在每個(gè)智體基操作。請(qǐng)注意,雖然軌跡預(yù)測(cè)頭是以智體為中心,但模型計(jì)算的大部分是全場(chǎng)景,這決定了總處理時(shí)間。


軌跡解碼器使用一組固定的預(yù)聚類潛軌跡作為錨點(diǎn)集,通過最近歐氏距離為真值軌跡分配錨點(diǎn)。對(duì)于每個(gè)錨點(diǎn),解碼器從錨點(diǎn)軌跡回歸每個(gè)航點(diǎn)delta,在每個(gè)時(shí)間步產(chǎn)生一個(gè)混合高斯(Gaussian mixture)。損失包括錨點(diǎn)的softmax交叉熵分類損失和錨點(diǎn)內(nèi)平方L2回歸損失。


占用率網(wǎng)格解碼器,通過一個(gè)非常輕量級(jí)CNN一次處理全場(chǎng)景特征圖,在每個(gè)時(shí)間步t重復(fù)該CNN,為每個(gè)類生成occupancy logits作為單獨(dú)的通道。對(duì)logits應(yīng)用sigmoid函數(shù),獲得每個(gè)格的占用率。占用率損失定義為

圖片


除了對(duì)軌跡解碼器和占用率解碼器同訓(xùn)練之外,一致性損失在鼓勵(lì)每個(gè)智體軌跡預(yù)測(cè)和全場(chǎng)景占用網(wǎng)格率之間的一致性是有用的。具有最高預(yù)測(cè)可能性的軌跡預(yù)測(cè)渲染為定向邊界框,并通過智體類聚合。與預(yù)測(cè)占用率輸出的一致性,計(jì)算類似于和真值的交叉熵計(jì)算。


模型最全面變型的損失函數(shù)總結(jié)如下

圖片


該數(shù)據(jù)集是Waymo Open Motion數(shù)據(jù)集的修訂版,重點(diǎn)關(guān)注擁擠場(chǎng)景。它包含超過1300萬個(gè)場(chǎng)景,跨越美國(guó)多個(gè)城市地區(qū)500多小時(shí)的真實(shí)駕駛。這些場(chǎng)景包含動(dòng)態(tài)智體、交通燈和道路網(wǎng)絡(luò)信息。所有場(chǎng)景都包含至少20個(gè)動(dòng)態(tài)智體。另外還測(cè)試了Interaction & Argoverse數(shù)據(jù)集。


訓(xùn)練模型包括三種變型:MT僅使用軌跡損失進(jìn)行訓(xùn)練,MO僅使用占用率損失進(jìn)行訓(xùn)練,MTO使用聯(lián)合訓(xùn)練和一致性損失。所有模型都使用Adam優(yōu)化器從頭開始訓(xùn)練,學(xué)習(xí)率為0.0004,批處理大小為8。梯度范數(shù)剪裁為0.1以上。損失權(quán)重為λo=100.0、λs=1.0、λr=0.16和λc=10.0,使用 light grid search確定。


輸入FOV為160m×160m,對(duì)應(yīng)AV的有效感知范圍為80m。編碼器使用M×N=80×80柱。從所有智體邊框的內(nèi)部統(tǒng)一采樣8×8個(gè)輸入點(diǎn)。占用率解碼器的分辨率為W×H=400×400,預(yù)測(cè)未來在T=10個(gè)線性間隔時(shí)間段最多6秒的占用率,即T∈ {0.6, 1.2, . . . , 6.0}。


占有率測(cè)度采用soft IOU:

圖片


實(shí)驗(yàn)結(jié)果如下:

圖片


如圖比較不同模型編碼器的(a)flops數(shù)量 和(b)可學(xué)習(xí)參數(shù)數(shù)量(對(duì)數(shù)尺度)。紅色虛線突出顯示實(shí)驗(yàn)中如上表的80×80柱配置。

圖片


如圖顯示StopNet的可擴(kuò)展性:對(duì)于以智體為中心的模型,延遲隨智體數(shù)量而線性增長(zhǎng)。

圖片


圖片


如圖是StopNet的占用率預(yù)測(cè)和軌跡預(yù)測(cè)示例:左四列是真值和預(yù)測(cè)占用率網(wǎng)格可視化為彩色編碼的等高線(從紅色表示近期到紫色表示遠(yuǎn)期),其中每個(gè)等高線包含概率>0.5的值。右列:對(duì)于軌跡,不同顏色映射到不同智體。虛線表示道路點(diǎn),黑框表示t=0時(shí)智體的當(dāng)前位置。

圖片


如圖比較占用率預(yù)測(cè)模型MO與車輛占用率預(yù)測(cè)中軌跡模型MT的兩個(gè)版本,即采用有高斯和無高斯的不確定性訓(xùn)練。雖然MO直接預(yù)測(cè)占有率,但MT模型的前六條軌跡輸出已轉(zhuǎn)換(渲染)為占有率網(wǎng)格表示。結(jié)果表明,豐富的非參數(shù)表征更適合于占有率預(yù)測(cè)。

圖片



分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25