日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

SurroundDepth:自監(jiān)督多攝像頭環(huán)視深度估計

2022-05-30 15:44:58·  來源:計算機視覺深度學(xué)習(xí)和自動駕駛  作者:黃浴  
 
arXiv論文“SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation“,上傳于2022年4月,來自清華、天大和鑒智機器

arXiv論文“SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation“,上傳于2022年4月,來自清華、天大和鑒智機器人創(chuàng)業(yè)公司。

圖片


從圖像中估計深度是自動駕駛3D感知的基本步驟,是昂貴深度傳感器(如激光雷達(dá))的經(jīng)濟替代品。時間光度學(xué)一致性(photometric consistency)可以實現(xiàn)無標(biāo)注的自監(jiān)督深度估計,進(jìn)一步促進(jìn)其廣泛應(yīng)用。然而,大多數(shù)現(xiàn)有方法僅基于每個單目圖像預(yù)測深度,而忽略了多個周圍攝像頭之間的相關(guān)性,這通常適用于現(xiàn)代自動駕駛車輛。


本文提出一種SurroundDepth方法,將來自多個周圍視圖的信息合并到一起,預(yù)測攝像頭之間的深度圖。具體地說用一個聯(lián)合網(wǎng)絡(luò)來處理所有周圍的視圖,并提出一個交叉視圖transformer來有效地融合來自多個視圖的信息。用交叉視圖自注意來有效地實現(xiàn)多攝像機特征圖之間的全局交互。與自監(jiān)督單目深度估計不同,能夠在給定多攝像機外參的情況下預(yù)測真實世界的尺度。為了實現(xiàn)這一目標(biāo),運動恢復(fù)結(jié)構(gòu)(SfM)提取尺度-覺察的偽深度來預(yù)訓(xùn)練模型。此外,不預(yù)測每個單獨攝像頭的自運動,而是估計車輛的通用自運動,并將其傳輸?shù)矫總€視圖,以實現(xiàn)多視圖一致性。在實驗中,該方法在具有挑戰(zhàn)性的多攝像頭深度估計數(shù)據(jù)集DDAD和nuScenes上取得了最新的性能。


代碼位于https://github.com/weiyithu/SurroundDepth

攝像頭的3D感知由于其語義豐富和經(jīng)濟性,已成為一種很有前途潛在的替代方法。深度估計作為輸入2D圖像和真實3D環(huán)境之間的橋梁,對下游3D理解有著至關(guān)重要的影響,并受到越來越多的關(guān)注。


由于密集標(biāo)注深度圖的昂貴成本,深度估計通常是以自監(jiān)督的方式學(xué)習(xí)。通過同時預(yù)測深度圖和攝像頭的自運動,現(xiàn)有方法利用連續(xù)圖像之間的時域光度一致性作為監(jiān)督信號。盡管現(xiàn)代自動駕駛汽車通常配備多個攝像頭來拍攝周圍場景的360度全景,大多數(shù)現(xiàn)有方法仍然側(cè)重于從單目圖像預(yù)測深度圖,而忽略了周圍視圖之間的相關(guān)性。由于只能通過時域光度一致性推斷出相對尺度,這些自監(jiān)督的單目深度估計方法無法產(chǎn)生尺度-覺察的深度。然而,由于多攝像機外參矩陣中的平移向量獲得了真實世界的尺度,因此有可能獲得尺度-覺察預(yù)測。


自監(jiān)督單目深度估計方法同時探索學(xué)習(xí)深度和運動的路線。對于單目序列,幾何約束通常建立在相鄰幀上。最早就是將該問題構(gòu)建為一個視圖合成任務(wù),并訓(xùn)練兩個網(wǎng)絡(luò)分別預(yù)測姿勢和深度。也有提出ICP損失,其工作證明了使用整個3D結(jié)構(gòu)一致性的有效性。Monodepth2采用最小重投影損失、全分辨率多尺度采樣和auto-masking損失,進(jìn)一步提高預(yù)測質(zhì)量。還有一個尺度非一致性(scale consistency )損失項來解決深度圖之間尺度不一致的問題。PackNet SfM通過引入3D卷積進(jìn)一步提高了深度估計精度。最近,F(xiàn)SM通過引入空間和時間上下文來豐富監(jiān)督信號,將自監(jiān)督的單目深度估計擴展到全周圍視圖。


多視圖特征交互是多視圖立體視覺、目標(biāo)檢測和分割中的一個關(guān)鍵組件。MVSNet構(gòu)建一個多視圖特征的基于方差成本體(variance-based cost volume),并用3D CNN做成本正則化回歸深度值。另外還有引入自適應(yīng)聚合和LSTM來進(jìn)一步提高性能。最近,CVP-MVSNet采用金字塔結(jié)構(gòu)來迭代優(yōu)化深度預(yù)測。STTR采用一種具有交替自注意和交叉注意的transformer來取代成本體。LoFTR在transformer中使用自注意和交叉注意層,獲得兩幅圖像的特征描述子。Point MVSNet結(jié)合2D圖像外觀線索和幾何先驗知識,動態(tài)融合多視圖圖像的特征。此外,PVNet集成3D點特征和多視圖特征,以更好地識別聯(lián)合3D形狀。


深度估計的附加監(jiān)督信號,可以加強深度估計的準(zhǔn)確性,如光流和目標(biāo)運動。DispNet是第一個將合成立體視頻數(shù)據(jù)集的信息傳輸?shù)秸鎸嵤澜缟疃裙烙嫷墓ぷ?。此外,有工作采用一種具有生成性對抗損失的雙模塊域自適應(yīng)網(wǎng)絡(luò)(two-module domain adaptive network),從合成域遷移知識。一些方法采用輔助深度傳感器來捕獲準(zhǔn)確的深度,如激光雷達(dá),以協(xié)助深度估計。此外,一些方法引入曲面法線來幫助預(yù)測深度,因為深度受曲面法線決定的局部切平面約束。GeoNet提出了深度到法線(depth-to-normal)網(wǎng)絡(luò)和法線到深度(normal-to-depth)網(wǎng)絡(luò),迫使最終預(yù)測遵循幾何約束。此外,許多工作引入了傳統(tǒng)方法(如SfM),產(chǎn)生一些稀疏但高質(zhì)量的深度值,以協(xié)助模型訓(xùn)練。DepthHints使用一些現(xiàn)成的立體視覺算法來加強立體視覺匹配。


如圖是傳統(tǒng)單目深度估計方法和SurroundDepth的比較:

圖片


在自監(jiān)督深度和自運動設(shè)置中,通過最小化像素光度重投影損失來優(yōu)化深度網(wǎng)絡(luò)F,其中包括SSIM度量和L1損失項:

圖片

此過程需要一個姿態(tài)網(wǎng)絡(luò)G來預(yù)測It-》Is的相對姿態(tài)。具體而言,給定攝像頭固有矩陣K,基于預(yù)測深度圖,可計算It中任何像素p1在Is的相應(yīng)投影p2。這樣,根據(jù)投影坐標(biāo)p2可以在Is中使用雙線性插值創(chuàng)建合成RGB圖像。這種基于重建的自監(jiān)督范式在單目深度估計方法上取得了巨大進(jìn)展,并可以直接擴展到多攝像頭全環(huán)視深度估計。I的預(yù)測深度圖和姿勢可以寫成:

圖片

相鄰視圖之間重疊將所有視圖連接成一個完整的360度環(huán)境視圖,其中包含許多有益的知識和先驗知識,有助于理解整個場景?;谶@一事實,構(gòu)建一個聯(lián)合模型,首先提取并交換所有周圍視圖的表征。在交叉視圖交互之后,將多視圖表征同時映射到最終的深度。此外,視圖相關(guān)的自運動可以從預(yù)測的共同姿態(tài)(universal pose)和已知的外部矩陣中遷移得到。總之,深度和姿態(tài)預(yù)測可以表示為:

圖片

利用聯(lián)合模型,不僅可以通過交叉視圖信息交互提高所有視圖的深度估計性能,還可以生成共同的自運動,從而使用相機外參矩陣生成尺度-覺察預(yù)測。

如圖是SurroundDepth網(wǎng)絡(luò)概覽圖:網(wǎng)絡(luò)F可以分為三部分,即,共享編碼器E、共享解碼器D和多個交叉視圖Transformer(CVT)。給定一組周視圖像,編碼器網(wǎng)絡(luò)首先并行提取其多尺度表征。與現(xiàn)有的直接解碼學(xué)習(xí)特征的方法不同,其將所有視圖的特征在每個尺度上糾纏成一個完整的特征,并進(jìn)一步利用多尺度特定CVT,在所有尺度上執(zhí)行交叉視圖自注意。

圖片

CVT利用強大的注意機制,使特征圖的每個元素能夠?qū)⑵湫畔鞑サ狡渌恢?,同時吸收其他位置的信息。最后,將交互后的特征分離給N個視圖,并將其發(fā)送給解碼器D。


與單目深度估計不同,這個能夠從攝像頭外參矩陣中恢復(fù)真實世界的尺度。利用這些攝像頭外參矩陣的一種簡單方法是,嵌入到兩個相鄰視圖之間的空間光度損失中。然而,發(fā)現(xiàn)深度網(wǎng)絡(luò)通過空間光度一致性的監(jiān)督無法直接學(xué)習(xí)尺度。為了解決這個問題,作者提出尺度-覺察的SfM預(yù)訓(xùn)練和聯(lián)合姿態(tài)估計。


具體來說,用兩幀SfM生成偽深度來預(yù)訓(xùn)練模型。預(yù)訓(xùn)練深度網(wǎng)絡(luò)能夠?qū)W習(xí)真實世界的尺度。此外,N個攝像頭的時域自運動具有明確的幾何約束。這里沒有使用一致性損失,而是估計車輛的共同姿態(tài),并根據(jù)外參矩陣計算每個視圖的自運動。


如圖所示:該工作利用從所有周圍視圖中提取的多尺度特征,將編碼器和解碼器之間的跳連接替換為交叉視圖transformer(CVT)

圖片

首先使用沿深度可分離卷積(DS Conv,depthwise separable convolution)層將多視圖特征總結(jié)為緊湊表征。然后構(gòu)建Z交叉視圖自注意層,充分交換扁平的多視圖特征。在交叉視圖交互之后,用DS Deconv(depthwise separable deconvolution)層來恢復(fù)多視圖特征的分辨率。最后,構(gòu)造了一個跳連接,將輸入和恢復(fù)的多視圖特征相結(jié)合。

SfM預(yù)訓(xùn)練的目的是從相機外參矩陣中探索真實世界的尺度。利用外參矩陣的直接方法是在兩個相鄰視圖之間使用空間光度損失,即:

圖片

但實際上,這樣做并不行。這個結(jié)論不同于FSM(“Full Surround Monodepth from Multiple Cameras“,arXiv 2104.00152,2021)得到的。實際上,在訓(xùn)練開始時,空間光度損失將無效,并且無法監(jiān)督深度網(wǎng)絡(luò)學(xué)習(xí)真實尺度。為了解決這個問題,采用SIFT描述子來提取對應(yīng)關(guān)系。然后,用攝像頭外參矩陣進(jìn)行三角測量來計算尺度-覺察的偽深度。最后,用這些稀疏的偽深度以及時間光度損失來預(yù)訓(xùn)練深度網(wǎng)絡(luò)和姿態(tài)網(wǎng)絡(luò)。


如圖所示即尺度-覺察SfM預(yù)訓(xùn)練:由于小重疊和大視角變化,傳統(tǒng)的兩幀運動恢復(fù)結(jié)構(gòu)(SfM)會產(chǎn)生許多錯誤對應(yīng)。通過引入region mask(定義圖像Ii的左邊1/3區(qū)域,圖像Ii+1的右邊1/3區(qū)域),縮小了對應(yīng)關(guān)系的搜索范圍,提高了檢索質(zhì)量。使用相機外參矩陣得到的極線幾何可進(jìn)一步過濾異常值。

圖片

這里一個點的外極線表示為:

圖片

在單目深度估計框架中,相對的攝像頭姿態(tài)由PoseNet估計,PoseNet是一個編碼器E-解碼器D網(wǎng)絡(luò)。因此,在多攝影頭設(shè)置中,所有攝影頭的姿態(tài)是為所有視圖生成監(jiān)督信號所必需的。一種直觀的方法是分別估計每個姿態(tài)。然而,該策略忽略了不同視圖之間的姿態(tài)一致性,這可能導(dǎo)致監(jiān)督信號無效。為了保持多視點自運動的一致性,將攝像頭姿態(tài)估計問題分解為兩個子問題:共同姿態(tài)預(yù)測和universal-to-local變換。為了獲得共同姿態(tài)P,我將N對目標(biāo)和源圖像一次饋入PoseNet G,并在解碼器之前對提取特征進(jìn)行平均。共同姿態(tài)可通過以下方式計算:

圖片

基于攝像頭內(nèi)參,由此計算各個攝像頭姿態(tài)為:

圖片

實驗結(jié)果如下:

圖片圖片圖片圖片
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25