日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

PolarFormer:極transformer的多攝像頭3D目標(biāo)檢測(cè)

2022-07-09 22:49:47·  來源:計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
arXiv上傳2022年6月30日“PolarFormer: Multi-camera 3D Object Detection with Polar Transformers“,作者來自復(fù)旦大學(xué)張利教授團(tuán)隊(duì)。自動(dòng)駕駛中的3D目標(biāo)檢測(cè)

arXiv上傳2022年6月30日“PolarFormer: Multi-camera 3D Object Detection with Polar Transformers“,作者來自復(fù)旦大學(xué)張利教授團(tuán)隊(duì)。

圖片


自動(dòng)駕駛中的3D目標(biāo)檢測(cè)旨在推理3D世界中感興趣目標(biāo)的“what”和“where”?,F(xiàn)有的3D目標(biāo)檢測(cè)方法遵循以往2D目標(biāo)檢測(cè)的傳統(tǒng)思路,通常采用垂直軸的標(biāo)準(zhǔn)笛卡爾坐標(biāo)系。然而,這不符合自車透視幾何性質(zhì),因?yàn)槊總€(gè)車載攝像機(jī),都以徑向(非垂直)軸成像幾何楔形(wedge)內(nèi)參,去感知世界。因此,本文提倡利用極坐標(biāo)系,并提出一種極transformer(PolarFormer),以多攝像機(jī)2D圖像作為輸入,用于BEV空間更精確3D目標(biāo)檢測(cè)。


具體來說,設(shè)計(jì)一種不受輸入結(jié)構(gòu)形狀限制、基于交叉注意的極檢測(cè)頭(Polar detection head),用于處理不規(guī)則的極網(wǎng)格(Polar grids)。為了解決沿極距離維度(Polar's distance dimension)的無約束目標(biāo)尺度變化,進(jìn)一步引入一種多尺度極表征(Polar representation)學(xué)習(xí)策略。通過幾何約束下序列到序列(seq-to-seq)的方式,該模型從相應(yīng)圖像觀測(cè)的光柵化最佳利用極表征。在nuScenes數(shù)據(jù)集上的全面實(shí)驗(yàn)表明,PolarFormer顯著優(yōu)于最先進(jìn)的3D目標(biāo)檢測(cè)方案,并且在BEV語義分割任務(wù)上具有競爭力。

圖片


3D目標(biāo)檢測(cè)是在無約束的真實(shí)場景中實(shí)現(xiàn)自主駕駛的一種能力,旨在預(yù)測(cè)3D世界中感興趣的單目標(biāo)位置、尺寸和方向。盡管有良好的成本優(yōu)勢(shì),但基于多攝像機(jī)的3D目標(biāo)檢測(cè)仍然有特別大的挑戰(zhàn)性。為了獲得3D表示,通常利用密集深度估計(jì),但不僅計(jì)算成本高,而且容易出錯(cuò)。


為了繞過深度估計(jì),最近的方法利用基于查詢(query)的2D檢測(cè),學(xué)習(xí)一組稀疏和虛擬嵌入,用于多攝像機(jī)3D目標(biāo)檢測(cè),但無法有效建模目標(biāo)之間的幾何結(jié)構(gòu)。通常,在2D或3D空間中采用垂直軸的經(jīng)典笛卡爾坐標(biāo)系。這在很大程度上受到所用卷積模型的限制。


相反,在自車的透視圖中,每個(gè)攝像機(jī)下感知的物理世界,是攝像機(jī)成像幾何楔形內(nèi)參的形狀,具有徑向非垂直軸??紤]到這種成像特性,極坐標(biāo)系應(yīng)該比通常采用的笛卡爾坐標(biāo)系更合適、更自然地用于3D目標(biāo)檢測(cè)。事實(shí)上,極坐標(biāo)已在一些基于激光雷達(dá)的3D感知方法中得到利用。然而,由于卷積網(wǎng)絡(luò)僅限于矩形網(wǎng)格結(jié)構(gòu)和局部感受野,其在算法上受到限制。


在3D目標(biāo)檢測(cè)中,得到了一組N個(gè)單目視圖,包括輸入圖像和攝像頭內(nèi)外參。PolarFormer的目標(biāo)是從多個(gè)攝像機(jī)視圖中學(xué)習(xí)有效的極BEV表征,以便在極坐標(biāo)系中預(yù)測(cè)目標(biāo)的位置、大小、方向和速度。


PolarFormer由以下部件組成:跨平面編碼器首先生成每個(gè)輸入圖像的多尺度特征表示,具備一個(gè)跨平面注意機(jī)制,其中極查詢(Polar queries )處理輸入圖像在BEV生成3D特征。然后,極對(duì)齊(Polar alignment)模塊聚集來自多個(gè)攝像機(jī)視圖的極射線(Polar rays),生成結(jié)構(gòu)化極圖(Polar map)。此外,極BEV編碼器(Polar BEV encoder)通過多尺度特征交互增強(qiáng)極特征(Polar features)。最后,極檢測(cè)頭對(duì)極圖(Polar map)進(jìn)行解碼,并在極坐標(biāo)系中預(yù)測(cè)目標(biāo)。


為解決具有多粒度細(xì)節(jié)的無約束目標(biāo)尺度變化問題,考慮了一種多尺度極BEV表征結(jié)構(gòu)。不同尺度的圖像特征有獨(dú)特的跨平面編碼器,并在共享極BEV編碼器中相互交互。然后,多尺度極BEV圖由極解碼頭(Polar decoder head)查詢。PolarFormer的總體架構(gòu)如圖所示:

圖片


跨平面編碼器的目標(biāo)是將圖像與極射線相關(guān)聯(lián)。根據(jù)攝像機(jī)的幾何模型,對(duì)于任何攝像機(jī)坐標(biāo)(x(C), y(C), z(C)),轉(zhuǎn)換到圖像坐標(biāo)(x(I), y(I))可以描述為:

圖片


對(duì)任何極BEV坐標(biāo)

圖片


圖片


設(shè)fn,u,w表示來自第n攝像機(jī)、第u尺度和第w列的圖像列,p?n,u,w表示引入的相應(yīng)極射線查詢??缙矫孀⒁饬Ρ硎鰹椋?

圖片


沿方位(azimuth)軸疊加極射線特征pn,u,w,得到第n個(gè)攝像機(jī)和和第u個(gè)尺度的極特征圖(即極BEV表征)pn,u為:

圖片

這種基于序列-到-序列交叉注意的編碼器可以對(duì)幾何成像進(jìn)行先驗(yàn)編碼,并隱式有效地學(xué)習(xí)深度的替代。

極對(duì)齊模塊將極射線從不同的攝像機(jī)坐標(biāo)轉(zhuǎn)換為共享的世界坐標(biāo)。以多視點(diǎn)極特征圖和攝像機(jī)矩陣為輸入,生成相干極BEV圖,覆蓋所有攝像機(jī)視圖。具體來說,首先在柱坐標(biāo)系中均勻生成一組三維點(diǎn) G(P) = (ρ(P), φ(P), z(P)) 表示。然后將這些點(diǎn)投影到第n個(gè)攝像機(jī)的圖像平面,檢索極射線的索引如下:

圖片


第u個(gè)尺度的相干極BEV圖如下生成:

圖片


極對(duì)齊模塊通過沿z軸生成這些點(diǎn)來整合不同高度的特征。學(xué)習(xí)極坐標(biāo)表征優(yōu)于笛卡爾坐標(biāo),因?yàn)樾畔p失最小,與原始視覺數(shù)據(jù)的一致性更高。


利用多尺度特征圖處理極坐標(biāo)中的目標(biāo)尺度變化。為此,極BEV編碼器在相鄰像素之間跨多尺度特征地圖執(zhí)行信息交換。形式上,設(shè){Gu}為輸入的多尺度極特征圖,x?為每個(gè)查詢?cè)豵的參考點(diǎn)的歸一化坐標(biāo),引入一個(gè)多尺度可變形注意模塊,如下所示:

圖片


作為查詢,多尺度特征圖中的每個(gè)像素利用相鄰像素和跨尺度像素的信息。這樣在所有特征尺度上學(xué)習(xí)更豐富的語義。


極解碼器解碼上述多尺度極特征,在極坐標(biāo)中進(jìn)行預(yù)測(cè)。構(gòu)造有變形注意的極BEV解碼器。


與編碼器的2D參考點(diǎn)不同,這里的參考點(diǎn)位于3D柱坐標(biāo)中,當(dāng)投影到BEV時(shí),等同于極坐標(biāo)。每個(gè)解碼器層的分類分支輸出置信度分向量,回歸分支的關(guān)鍵學(xué)習(xí)目標(biāo)是極坐標(biāo),而不是笛卡爾坐標(biāo),如圖所示:

圖片


參考點(diǎn)(ρ,φ,z)在解碼器中迭代細(xì)化。有了參考點(diǎn),回歸分支輸出偏移量dρ、dφ和dz。方向θ和速度v的學(xué)習(xí)目標(biāo)相對(duì)于目標(biāo)的方位角,并分解除為正交分量θφ、θρ、vφ和vρ,定義如下:

圖片


圖片


將目標(biāo)大小l、w和h回歸為對(duì)數(shù)l、對(duì)數(shù)w和對(duì)數(shù)h。分別采用focal loss和L1 loss進(jìn)行分類和回歸。如圖是生成多尺度極BEV圖的示意圖:

圖片


實(shí)驗(yàn)結(jié)果如下:

圖片


圖片


圖片


圖片



分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25