SurroundDepth：自監(jiān)督多攝像頭環(huán)視深度估計

2022-05-30 15:44:58· 來源：計算機視覺深度學(xué)習(xí)和自動駕駛作者：黃浴

arXiv論文“SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation“，上傳于2022年4月，來自清華、天大和鑒智機器

arXiv論文“SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation“，上傳于2022年4月，來自清華、天大和鑒智機器人創(chuàng)業(yè)公司。

從圖像中估計深度是自動駕駛3D感知的基本步驟，是昂貴深度傳感器（如激光雷達(dá)）的經(jīng)濟替代品。時間光度學(xué)一致性（photometric consistency）可以實現(xiàn)無標(biāo)注的自監(jiān)督深度估計，進(jìn)一步促進(jìn)其廣泛應(yīng)用。然而，大多數(shù)現(xiàn)有方法僅基于每個單目圖像預(yù)測深度，而忽略了多個周圍攝像頭之間的相關(guān)性，這通常適用于現(xiàn)代自動駕駛車輛。

本文提出一種SurroundDepth方法，將來自多個周圍視圖的信息合并到一起，預(yù)測攝像頭之間的深度圖。具體地說用一個聯(lián)合網(wǎng)絡(luò)來處理所有周圍的視圖，并提出一個交叉視圖transformer來有效地融合來自多個視圖的信息。用交叉視圖自注意來有效地實現(xiàn)多攝像機特征圖之間的全局交互。與自監(jiān)督單目深度估計不同，能夠在給定多攝像機外參的情況下預(yù)測真實世界的尺度。為了實現(xiàn)這一目標(biāo)，運動恢復(fù)結(jié)構(gòu)（SfM）提取尺度-覺察的偽深度來預(yù)訓(xùn)練模型。此外，不預(yù)測每個單獨攝像頭的自運動，而是估計車輛的通用自運動，并將其傳輸?shù)矫總€視圖，以實現(xiàn)多視圖一致性。在實驗中，該方法在具有挑戰(zhàn)性的多攝像頭深度估計數(shù)據(jù)集DDAD和nuScenes上取得了最新的性能。

代碼位于https://github.com/weiyithu/SurroundDepth

攝像頭的3D感知由于其語義豐富和經(jīng)濟性，已成為一種很有前途潛在的替代方法。深度估計作為輸入2D圖像和真實3D環(huán)境之間的橋梁，對下游3D理解有著至關(guān)重要的影響，并受到越來越多的關(guān)注。

由于密集標(biāo)注深度圖的昂貴成本，深度估計通常是以自監(jiān)督的方式學(xué)習(xí)。通過同時預(yù)測深度圖和攝像頭的自運動，現(xiàn)有方法利用連續(xù)圖像之間的時域光度一致性作為監(jiān)督信號。盡管現(xiàn)代自動駕駛汽車通常配備多個攝像頭來拍攝周圍場景的360度全景，大多數(shù)現(xiàn)有方法仍然側(cè)重于從單目圖像預(yù)測深度圖，而忽略了周圍視圖之間的相關(guān)性。由于只能通過時域光度一致性推斷出相對尺度，這些自監(jiān)督的單目深度估計方法無法產(chǎn)生尺度-覺察的深度。然而，由于多攝像機外參矩陣中的平移向量獲得了真實世界的尺度，因此有可能獲得尺度-覺察預(yù)測。

自監(jiān)督單目深度估計方法同時探索學(xué)習(xí)深度和運動的路線。對于單目序列，幾何約束通常建立在相鄰幀上。最早就是將該問題構(gòu)建為一個視圖合成任務(wù)，并訓(xùn)練兩個網(wǎng)絡(luò)分別預(yù)測姿勢和深度。也有提出ICP損失，其工作證明了使用整個3D結(jié)構(gòu)一致性的有效性。Monodepth2采用最小重投影損失、全分辨率多尺度采樣和auto-masking損失，進(jìn)一步提高預(yù)測質(zhì)量。還有一個尺度非一致性（scale consistency ）損失項來解決深度圖之間尺度不一致的問題。PackNet SfM通過引入3D卷積進(jìn)一步提高了深度估計精度。最近，F(xiàn)SM通過引入空間和時間上下文來豐富監(jiān)督信號，將自監(jiān)督的單目深度估計擴展到全周圍視圖。

多視圖特征交互是多視圖立體視覺、目標(biāo)檢測和分割中的一個關(guān)鍵組件。MVSNet構(gòu)建一個多視圖特征的基于方差成本體（variance-based cost volume），并用3D CNN做成本正則化回歸深度值。另外還有引入自適應(yīng)聚合和LSTM來進(jìn)一步提高性能。最近，CVP-MVSNet采用金字塔結(jié)構(gòu)來迭代優(yōu)化深度預(yù)測。STTR采用一種具有交替自注意和交叉注意的transformer來取代成本體。LoFTR在transformer中使用自注意和交叉注意層，獲得兩幅圖像的特征描述子。Point MVSNet結(jié)合2D圖像外觀線索和幾何先驗知識，動態(tài)融合多視圖圖像的特征。此外，PVNet集成3D點特征和多視圖特征，以更好地識別聯(lián)合3D形狀。

深度估計的附加監(jiān)督信號，可以加強深度估計的準(zhǔn)確性，如光流和目標(biāo)運動。DispNet是第一個將合成立體視頻數(shù)據(jù)集的信息傳輸?shù)秸鎸嵤澜缟疃裙烙嫷墓ぷ?。此外，有工作采用一種具有生成性對抗損失的雙模塊域自適應(yīng)網(wǎng)絡(luò)（two-module domain adaptive network），從合成域遷移知識。一些方法采用輔助深度傳感器來捕獲準(zhǔn)確的深度，如激光雷達(dá)，以協(xié)助深度估計。此外，一些方法引入曲面法線來幫助預(yù)測深度，因為深度受曲面法線決定的局部切平面約束。GeoNet提出了深度到法線（depth-to-normal）網(wǎng)絡(luò)和法線到深度（normal-to-depth）網(wǎng)絡(luò)，迫使最終預(yù)測遵循幾何約束。此外，許多工作引入了傳統(tǒng)方法（如SfM），產(chǎn)生一些稀疏但高質(zhì)量的深度值，以協(xié)助模型訓(xùn)練。DepthHints使用一些現(xiàn)成的立體視覺算法來加強立體視覺匹配。

如圖是傳統(tǒng)單目深度估計方法和SurroundDepth的比較：

在自監(jiān)督深度和自運動設(shè)置中，通過最小化像素光度重投影損失來優(yōu)化深度網(wǎng)絡(luò)F，其中包括SSIM度量和L1損失項：

此過程需要一個姿態(tài)網(wǎng)絡(luò)G來預(yù)測It-》Is的相對姿態(tài)。具體而言，給定攝像頭固有矩陣K，基于預(yù)測深度圖，可計算It中任何像素p1在Is的相應(yīng)投影p2。這樣，根據(jù)投影坐標(biāo)p2可以在Is中使用雙線性插值創(chuàng)建合成RGB圖像。這種基于重建的自監(jiān)督范式在單目深度估計方法上取得了巨大進(jìn)展，并可以直接擴展到多攝像頭全環(huán)視深度估計。I的預(yù)測深度圖和姿勢可以寫成：

相鄰視圖之間重疊將所有視圖連接成一個完整的360度環(huán)境視圖，其中包含許多有益的知識和先驗知識，有助于理解整個場景?；谶@一事實，構(gòu)建一個聯(lián)合模型，首先提取并交換所有周圍視圖的表征。在交叉視圖交互之后，將多視圖表征同時映射到最終的深度。此外，視圖相關(guān)的自運動可以從預(yù)測的共同姿態(tài)（universal pose）和已知的外部矩陣中遷移得到。總之，深度和姿態(tài)預(yù)測可以表示為：

利用聯(lián)合模型，不僅可以通過交叉視圖信息交互提高所有視圖的深度估計性能，還可以生成共同的自運動，從而使用相機外參矩陣生成尺度-覺察預(yù)測。

如圖是SurroundDepth網(wǎng)絡(luò)概覽圖：網(wǎng)絡(luò)F可以分為三部分，即，共享編碼器E、共享解碼器D和多個交叉視圖Transformer（CVT）。給定一組周視圖像，編碼器網(wǎng)絡(luò)首先并行提取其多尺度表征。與現(xiàn)有的直接解碼學(xué)習(xí)特征的方法不同，其將所有視圖的特征在每個尺度上糾纏成一個完整的特征，并進(jìn)一步利用多尺度特定CVT，在所有尺度上執(zhí)行交叉視圖自注意。

CVT利用強大的注意機制，使特征圖的每個元素能夠?qū)⑵湫畔鞑サ狡渌恢?，同時吸收其他位置的信息。最后，將交互后的特征分離給N個視圖，并將其發(fā)送給解碼器D。

與單目深度估計不同，這個能夠從攝像頭外參矩陣中恢復(fù)真實世界的尺度。利用這些攝像頭外參矩陣的一種簡單方法是，嵌入到兩個相鄰視圖之間的空間光度損失中。然而，發(fā)現(xiàn)深度網(wǎng)絡(luò)通過空間光度一致性的監(jiān)督無法直接學(xué)習(xí)尺度。為了解決這個問題，作者提出尺度-覺察的SfM預(yù)訓(xùn)練和聯(lián)合姿態(tài)估計。

具體來說，用兩幀SfM生成偽深度來預(yù)訓(xùn)練模型。預(yù)訓(xùn)練深度網(wǎng)絡(luò)能夠?qū)W習(xí)真實世界的尺度。此外，N個攝像頭的時域自運動具有明確的幾何約束。這里沒有使用一致性損失，而是估計車輛的共同姿態(tài)，并根據(jù)外參矩陣計算每個視圖的自運動。

如圖所示：該工作利用從所有周圍視圖中提取的多尺度特征，將編碼器和解碼器之間的跳連接替換為交叉視圖transformer（CVT）

首先使用沿深度可分離卷積（DS Conv，depthwise separable convolution）層將多視圖特征總結(jié)為緊湊表征。然后構(gòu)建Z交叉視圖自注意層，充分交換扁平的多視圖特征。在交叉視圖交互之后，用DS Deconv（depthwise separable deconvolution）層來恢復(fù)多視圖特征的分辨率。最后，構(gòu)造了一個跳連接，將輸入和恢復(fù)的多視圖特征相結(jié)合。

SfM預(yù)訓(xùn)練的目的是從相機外參矩陣中探索真實世界的尺度。利用外參矩陣的直接方法是在兩個相鄰視圖之間使用空間光度損失，即：

但實際上，這樣做并不行。這個結(jié)論不同于FSM（“Full Surround Monodepth from Multiple Cameras“，arXiv 2104.00152，2021）得到的。實際上，在訓(xùn)練開始時，空間光度損失將無效，并且無法監(jiān)督深度網(wǎng)絡(luò)學(xué)習(xí)真實尺度。為了解決這個問題，采用SIFT描述子來提取對應(yīng)關(guān)系。然后，用攝像頭外參矩陣進(jìn)行三角測量來計算尺度-覺察的偽深度。最后，用這些稀疏的偽深度以及時間光度損失來預(yù)訓(xùn)練深度網(wǎng)絡(luò)和姿態(tài)網(wǎng)絡(luò)。

如圖所示即尺度-覺察SfM預(yù)訓(xùn)練：由于小重疊和大視角變化，傳統(tǒng)的兩幀運動恢復(fù)結(jié)構(gòu)（SfM）會產(chǎn)生許多錯誤對應(yīng)。通過引入region mask（定義圖像Ii的左邊1/3區(qū)域，圖像Ii+1的右邊1/3區(qū)域），縮小了對應(yīng)關(guān)系的搜索范圍，提高了檢索質(zhì)量。使用相機外參矩陣得到的極線幾何可進(jìn)一步過濾異常值。

這里一個點的外極線表示為：

在單目深度估計框架中，相對的攝像頭姿態(tài)由PoseNet估計，PoseNet是一個編碼器E-解碼器D網(wǎng)絡(luò)。因此，在多攝影頭設(shè)置中，所有攝影頭的姿態(tài)是為所有視圖生成監(jiān)督信號所必需的。一種直觀的方法是分別估計每個姿態(tài)。然而，該策略忽略了不同視圖之間的姿態(tài)一致性，這可能導(dǎo)致監(jiān)督信號無效。為了保持多視點自運動的一致性，將攝像頭姿態(tài)估計問題分解為兩個子問題：共同姿態(tài)預(yù)測和universal-to-local變換。為了獲得共同姿態(tài)P，我將N對目標(biāo)和源圖像一次饋入PoseNet G，并在解碼器之前對提取特征進(jìn)行平均。共同姿態(tài)可通過以下方式計算：

基于攝像頭內(nèi)參，由此計算各個攝像頭姿態(tài)為：

實驗結(jié)果如下：

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：某款混動車輛傳動系統(tǒng)扭振設(shè)計及驗證
上一篇：預(yù)燃室射流點火對汽油發(fā)動機性能影響

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)
• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬
• 即刻探索8臺機器人如何解放數(shù)百名工人！	• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學(xué)習(xí)增強運
• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

SurroundDepth：自監(jiān)督多攝像頭環(huán)視深度估計

微信公眾號

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

SurroundDepth：自監(jiān)督多攝像頭環(huán)視深度估計

微信公眾號

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將