日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

魯棒的多層次大范圍定位算法

2020-11-10 22:06:36·  來源:同濟(jì)智能汽車研究所  作者:SLAM研究組  
 
編者按:在自動駕駛?cè)蝿?wù)中,魯棒的高精度定位信息對后續(xù)的決策規(guī)劃等模塊至關(guān)重要。近年來視覺定位技術(shù)迅速發(fā)展,總體可分為基于圖像級全局特征匹配和基于局部特
編者按:在自動駕駛?cè)蝿?wù)中,魯棒的高精度定位信息對后續(xù)的決策規(guī)劃等模塊至關(guān)重要。近年來視覺定位技術(shù)迅速發(fā)展,總體可分為基于圖像級全局特征匹配和基于局部特征直接匹配兩類?;趫D像級全局特征匹配的方法類似于圖像檢索,速度快且魯棒,但精度較低;基于局部特征的2D-3D匹配的方法依賴于關(guān)鍵點的窮舉匹配,雖然在精度方面有所提升,但是效率低,魯棒性差。本文結(jié)合兩類方法的優(yōu)勢提出了分層的定位方法,可實現(xiàn)高精度、魯棒的、實時的定位效果。
 
本文譯自:
From Coarse to Fine: Robust Hierarchical Localization at Large Scale
文章來源:
Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol. 2019-June, pp. 12708–12717(2019)
作者:
Yinlong Liu, Guang Chen and Alois Knoll
Paul-Edouard Sarlin, Cesar Cadena, Roland Siegwart, Marcin Dymczyk
原文鏈接:
https://arxiv.org/abs/1812.03506
摘要:魯棒的高精度定位是許多應(yīng)用的關(guān)鍵,比如自動駕駛、移動機(jī)器人,但是這仍是一項具有挑戰(zhàn)的任務(wù),尤其是在大場景和外觀特征顯著變化的情況下。最先進(jìn)的定位方法在精度、魯棒性及實時性上都有待提升,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的分層定位方法,該方法可以同時預(yù)測局部特征和全局特征。我們的由粗到精的分層定位方法:首先利用全局特征進(jìn)行全局檢索獲取候選位置,然后通過局部特征匹配候選位置中的局部特征,這種分層的方法節(jié)省了大量的時間,使得系統(tǒng)適用于實時操作。通過學(xué)習(xí)獲取的描述符在定位精度和魯棒性上都得到了提升,并且在兩個公開數(shù)據(jù)集(Aachen, RobotCar)上都取得了最優(yōu)成績。
關(guān)鍵詞:無人駕駛,視覺定位,圖像檢索
1 前言
在現(xiàn)有的3D模型中進(jìn)行精確的6自由度定位是計算機(jī)視覺的核心功能之一,它可以應(yīng)用于很多新的場景,比如在沒有GPS環(huán)境下[8,31,33,6]的自動駕駛和具有增強(qiáng)現(xiàn)實功能的消費設(shè)備[32,24],其中厘米級的6自由度位姿估計對于無人車的安全行駛以及完全沉浸式體驗至關(guān)重要。更廣泛的說,視覺定位是計算機(jī)視覺任務(wù)的一個關(guān)鍵組成部分,如SfM或SLAM。視覺定位的應(yīng)用越來越廣泛,這就要求在室內(nèi)和室外都能可靠的工作,不受天氣、光照或季節(jié)變化的影響。
目前主流的方法主要依賴于使用局部描述符估計查詢圖像中2D關(guān)鍵點與稀疏模型中3D點的對應(yīng)關(guān)系。這類方法雖然精度較高,但是效率較低[51,55,43];對效率進(jìn)行改進(jìn)后,精度便下降了[29]。在這兩種情況下,經(jīng)典方法的魯棒性受到了手工制作局部特征不變性的限制[9,28]。卷積神經(jīng)網(wǎng)絡(luò)(CNN)的最新特征在低計算成本下表現(xiàn)出無與倫比的魯棒性[14,15,34]。然而,直到最近[52]才將它們應(yīng)用于視覺定位問題,而且只是以一種密集的、高計算成本的方式。學(xué)習(xí)得到的稀疏描述子表現(xiàn)出了許多優(yōu)點[14,38],但未應(yīng)用到定位任務(wù)上?;趫D像檢索的定位方法在魯棒性和效率方面都得到了優(yōu)秀的結(jié)果,但精度較差。
在這篇論文中,我們建議使用網(wǎng)絡(luò)學(xué)習(xí)到的特征來提升定位的魯棒性和效率,利用分層定位方法平衡效率和精度兩者間的關(guān)系。與人類定位相似,我們采用由粗略到精細(xì)的位姿估計方法,該方法利用了全局描述符和局部特征,在大型場景中取得了很好的效果(圖1)。我們展示了經(jīng)過學(xué)習(xí)的描述符在挑戰(zhàn)性條件下實現(xiàn)了無與倫比的魯棒性,而經(jīng)學(xué)習(xí)得到的關(guān)鍵點由于其更高的可重復(fù)性降低了計算成本。為了進(jìn)一步提高這種方法的效率,我們提出了一種層次特征網(wǎng)絡(luò)(HF-Net),它可以同時估算全局和局部特征,從而最大程度共享計算。我們展示了如何使用多任務(wù)蒸餾以靈活的方式訓(xùn)練這種壓縮模型,通過多任務(wù)蒸餾將多個最新的特征預(yù)測模型壓縮成一個模型,獲得了高效率、高精度的定位結(jié)果。這種特殊的蒸餾方法可應(yīng)用于視覺定位以外的任務(wù),比如一些需要多模型預(yù)測且又需要低計算成本的任務(wù)。我們的主要貢獻(xiàn)如下:
  1. 我們在多個具有挑戰(zhàn)性的公開視覺定位數(shù)據(jù)集上取得了最優(yōu)定位結(jié)果;
  2. 我們提出了一種可以有效預(yù)測層次結(jié)構(gòu)特征的網(wǎng)絡(luò)HF-Net,以實現(xiàn)快速而魯棒的定位;
  3. 我們展示了多任務(wù)蒸餾的實用性和有效性,以提升異構(gòu)的預(yù)測器的實時性。
 
圖1分層定位。首先使用全局特征進(jìn)行檢索獲取候選地點,然后使用局部特征匹配查詢圖片與候選地點,從匹配成功的局部特征中估計6自由度位姿。
2 相關(guān)工作
在本節(jié)中,我們將回顧與我們方法相關(guān)的其他工作。
6自由度視覺定位傳統(tǒng)上分為基于結(jié)構(gòu)的定位方法和基于圖像的定位方法。前者執(zhí)行查詢圖像的2D關(guān)鍵點和SfM模型的3D點之間的局部描述符直接匹配[51,55,43,27,52],這些方法可以估算精確的位姿,但通常依賴窮舉匹配,計算量大;同時,這種方法在外觀發(fā)生強(qiáng)烈變化的情況下不夠魯棒,如白天和夜間、四季變化。有些方法直接從單張圖片中回歸位姿[7,22],但是精度較低?;趫D像的方法與圖像檢索相關(guān)[2,56,57],并且只能提供數(shù)據(jù)庫離散化的近似位姿,對于許多應(yīng)用而言不夠精確[44,52]。然而,由于它們依賴于全局圖像范圍內(nèi)的信息,因此比直接局部匹配更具有魯棒性,但最先進(jìn)的圖像檢索是基于大型深度學(xué)習(xí)模型的,計算量較大。
可擴(kuò)展定位通過使用廉價的特征來提取、存儲和匹配,降低計算成本來處理額外的計算約束[9,26,39]。雖然改善了移動設(shè)備上的運行時間,但進(jìn)一步削弱了定位的魯棒性[29]。分層定位將問題分為全局粗略搜索,然后進(jìn)行精細(xì)姿態(tài)估計。最近,[42]建議使用圖像檢索在地圖級別進(jìn)行搜索并通過匹配手工提取的局部特征進(jìn)行定位。正如第3節(jié)中所述,其魯棒性和效率受到底層描述符和結(jié)構(gòu)的限制。
局部特征學(xué)習(xí):經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特征被提出用于代替手工制作的特征。稠密特征可用于圖像匹配[11,15,37,40]和定位[52,44],然而,有限的計算能力難以匹配密集的特征。由關(guān)鍵點和描述符組成的稀疏特征為手工制作的特征提供了優(yōu)秀的替代品,并且表現(xiàn)出出色的性能[14,38,18]。稀疏特征可以很容易的從密集特征中采樣獲得,預(yù)測速度快,更適合在移動設(shè)備上部署。基于CNN的關(guān)鍵點檢測器也被證明優(yōu)于經(jīng)典方法,盡管訓(xùn)練過程很困難。其中,SuperPoint[14]采用自監(jiān)督學(xué)習(xí),DELF[36]對于路標(biāo)識別任務(wù)采用注意力機(jī)制優(yōu)化。
移動設(shè)備上的深度學(xué)習(xí):將高精度和魯棒的模型部署到移動設(shè)備上并非易事。多任務(wù)學(xué)習(xí)使得無需手動調(diào)整即可有效的跨任務(wù)共享計算[23,10,50],從而減小所需網(wǎng)絡(luò)的規(guī)模;蒸餾[20]可以幫助從一個已訓(xùn)練過的較大的網(wǎng)絡(luò)[41,59,60]中訓(xùn)練一個較小的網(wǎng)絡(luò),但通常不適用于多任務(wù)環(huán)境。
我們的方法是第一種結(jié)合上述領(lǐng)域的先進(jìn)技術(shù)來優(yōu)化效率和魯棒性的方法。所提出的方法利用這些算法的協(xié)同作用提供一個有競爭力的大范圍定位解決方案,并可應(yīng)用于資源受限的實時在線應(yīng)用程序。
3 分層定位
 
圖2 HF-Net的分層定位結(jié)構(gòu)
上 圖 2 為分層定位的 結(jié)構(gòu)圖,主要可分為以下三個步驟:
先驗檢索:通過使用全局描述符將查詢圖像與數(shù)據(jù)庫圖像匹配,在地圖級別執(zhí)行粗略搜索。利用K近鄰找到K個先驗幀表示地圖中的候選位置,因為SfM模型中的3D點遠(yuǎn)多于數(shù)據(jù)庫中圖像數(shù),所以該方法是可行的。
共視聚類:根據(jù)共視對k個先驗幀進(jìn)行聚類,相當(dāng)于在SfM模型中找到先驗幀所在的位置。
局部特征匹配:對于每個位置,依次將查詢圖像中檢測到的2D關(guān)鍵點與該位置中包含的3D點進(jìn)行匹配,并嘗試在RANSAC中使用PnP進(jìn)行幾何一致性檢驗來估計6自由度位姿。因為3D點的數(shù)量明顯低于整個模型,所以局部特征匹配也是有效的。當(dāng)估計出一個有效的位姿,算法便停止。
4 HF-Net
 
圖3 HF-Net網(wǎng)絡(luò)架構(gòu)。輸入為單幀圖片,輸出為全局描述符、稠密局部特征描述符及關(guān)鍵點檢測分?jǐn)?shù)。通過教師學(xué)生網(wǎng)絡(luò)多任務(wù)蒸餾訓(xùn)練得到。
4.1 HF-Net 網(wǎng)絡(luò)結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)上表現(xiàn)出一種層次結(jié)構(gòu),這種結(jié)構(gòu)很適合局部特征和全局特征的聯(lián)合預(yù)測,并且計算成本較低。HF-Net如圖3所示,由一個編碼器和三個預(yù)測頭組成:a.關(guān)鍵點檢測分?jǐn)?shù);b.稠密局部特征描述符;c.全局圖像描述符。
HF-Net的編碼器由MobileNet[41]構(gòu)成,在MobileNet的最后一個特征圖后面添加一個NetVlad層[2]用來計算全局描述符。使用SuperPoint架構(gòu)將MobileNet生成的局部特征進(jìn)行解碼,以得到關(guān)鍵點和稠密的局部描述子,這比使用卷積作為解碼器向上采樣特征快得多。因為需要更高的空間分辨率來保存空間上的特征,因此局部特征的語義級別低于全局描述符,所以局部特征預(yù)測分支比全局特征特征預(yù)測分支更早的從MobileNet中分出。
4.2訓(xùn)練過程
數(shù)據(jù)匱乏:目前沒有符合如下兩個條件的數(shù)據(jù)集:(1)在全局圖像級別顯示足夠的感知多樣性,例如,在各種條件下,如白天、夜晚、四季;(2)匹配圖像之間包含真實的局部對應(yīng)關(guān)系,這些對應(yīng)關(guān)系通常是從SfM模型[47,49]計算的密集深度[38]中恢復(fù)出來的,而圖像檢索所需的數(shù)據(jù)規(guī)模難以構(gòu)建SfM模型。
數(shù)據(jù)增強(qiáng):自監(jiān)督方法不依賴于對應(yīng)關(guān)系,比如SuperPoint,需要大量的數(shù)據(jù)擴(kuò)充,這是使得局部描述子具有魯棒性的關(guān)鍵。雖然數(shù)據(jù)增強(qiáng)通常能夠很好的捕捉到局部層次上真實世界的變化,但它會破壞圖像的全局一致性,使全局描述子的學(xué)習(xí)變得非常困難。
多任務(wù)蒸餾:多任務(wù)蒸餾是我們解決數(shù)據(jù)問題的方案,采用蒸餾法直接從現(xiàn)有經(jīng)過訓(xùn)練的教師模型中學(xué)習(xí)全局和局部特征。其訓(xùn)練設(shè)置允許使用任意數(shù)據(jù)集,因為可以從教師網(wǎng)絡(luò)中獲得無限量的標(biāo)記數(shù)據(jù)。利用目前最新的網(wǎng)絡(luò)作為教師網(wǎng)絡(luò),用于監(jiān)督局部和全局特征的生成。通過學(xué)習(xí)最新網(wǎng)絡(luò)的輸出來優(yōu)化當(dāng)前網(wǎng)絡(luò)的權(quán)重參數(shù),以得到更好的全局和局部特征。多任務(wù)學(xué)習(xí)的最新方法使學(xué)生網(wǎng)絡(luò)能夠最佳地復(fù)制所有教師網(wǎng)絡(luò),而無需手動調(diào)整權(quán)重以平衡損失。損失函數(shù)定義如下:
 其中d表示描述符,上標(biāo)g和l分別表示全局和局部描述符,下標(biāo)s和t分別表示學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò),p表示關(guān)鍵點檢測分?jǐn)?shù),w表示權(quán)重。更一般的說,我們的多任務(wù)蒸餾公式可以應(yīng)用于任何需要多個預(yù)測且需要保持計算效率的應(yīng)用,特別是訓(xùn)練任務(wù)所需數(shù)據(jù)收集成本很高的情況。
 
5 實驗
5.1局部特征評估
數(shù)據(jù)集:在HPatches[4]和SfM[38]中評估,這兩個數(shù)據(jù)集為2D和3D場景提供了圖像對之間的稠密的真實對應(yīng)關(guān)系。HPatches包含116個照明和視點變化的平面場景,每個場景有5個圖像對;SfM由[19,53]收集的圖像經(jīng)過[38]三維重建而成,真值對應(yīng)關(guān)系從每幅圖像的稠密深度圖和使用COLMAP計算的相對6自由度姿態(tài)獲得。我們選取10個序列用于評估,每個序列由50個圖像對組成。
性能指標(biāo):對于關(guān)鍵點檢測器,評估其重復(fù)性和定位誤差;對于關(guān)鍵點描述符,評估其平均精度和匹配得分。
評估方法:對于關(guān)鍵點檢測器,評估了傳統(tǒng)的DoG和Harris[17]方法以及基于深度學(xué)習(xí)的LF-Net[12]和SuperPoint;對于關(guān)鍵點描述符,評估了傳統(tǒng)的Root-SIFT和基于深度學(xué)習(xí)的LF-Net、SuperPoint以及DOAP和NetVlad的特征圖,并對兩個特征圖都使用SuperPoint作為關(guān)鍵點檢測器。
關(guān)鍵點檢測器:評估結(jié)果如表1所示,Harris擁有最高的重復(fù)性和最大的定位誤差;相反,DoG的可重復(fù)性較差,但誤差??;SuperPoint在重復(fù)性和誤差之間取得了較好的平衡;LF-Net的性能與SuperPoint相似,但其計算量較大。
表1 特征點檢測器評估表。Rep表示可重復(fù)性,MLE表示平均誤差。
 
關(guān)鍵點描述符:DOAP在SfM數(shù)據(jù)集上所有指標(biāo)均優(yōu)于NetVlad,但其在HPatches上訓(xùn)練,故無法評估;NetVlad在SfM上具有良好的位姿估計性能,但是匹配精度差;SuperPoint在各項指標(biāo)上均表現(xiàn)優(yōu)秀;
表2 關(guān)鍵點描述符評估表
 
MS表示匹配得分,mPA表示平均精度,Homography表示單應(yīng)性變化圖像的正確率,Pose表示位姿正確率。
5.2分層定位評估
數(shù)據(jù)集:每個數(shù)據(jù)集由一組參考圖像和稀疏SfM模型組成。Aachen晝夜數(shù)據(jù)集[45]包含4328張歐洲老城的白天數(shù)據(jù)庫圖像,以及分別在白天和夜間條件下采集的824張和98張查詢圖像。RobotCar數(shù)據(jù)集[30]是一個跨越多個城市街區(qū)的長期城市道路數(shù)據(jù)集,由20862張陰天參考圖像和11934張在晴天、黃昏和夜晚等多種條件下拍車的查詢圖片構(gòu)成。CMU數(shù)據(jù)集[5]在城市和郊區(qū)環(huán)境中記錄了8.5公里的行程,包含7159張參考圖像和75335張不同季節(jié)的查詢圖像。
SfM模型構(gòu)建:(1)利用COLMAP構(gòu)建SfM模型;(2)使用我們的特征點和描述子進(jìn)行2D-2D匹配;(3)根據(jù)COLMAP構(gòu)建的SfM模型的共視關(guān)系過濾匹配;(4)使用提供的真實位姿及匹配關(guān)系三角化獲取稀疏新SfM模型。
評估方法:用NetVlad和SuperPoint提取特征來評估我們的分層定位,命名為NV+SP;用HF-Net提取全局和局部特征評估分層定位;同時還使用數(shù)據(jù)集作者使用的方法Active Search(AS)[43]和City Scale Localization(SCL)[51],這兩個都是基于2D-3D直接匹配的方法;DenseVLAD[56]和NetVlad是圖像檢索方法,通過檢索得到的最相似數(shù)據(jù)庫圖像的位姿來近似查詢位姿;Semantic Match Consistency(SMC)依賴于語義分割來拒絕異常值;額外引入NV+SIFT,以RootSIFT作為局部特征執(zhí)行分層定位。
定位結(jié)果:表3顯示每種定位算法在Aachen、RobotCar和CMU數(shù)據(jù)集不同距離和方向閾值下的召回率(%),表中紅色和藍(lán)色分別表示最優(yōu)和次優(yōu)方法。X+Y表示利用X作為全局特征描述符,Y作為局部特征描述符。因為SMC利用RobotCar的語義信息,故不參與RobotCar數(shù)據(jù)集的比較。
表3 召回率評估
 
 
圖4 正確率評估
圖4顯示在三個數(shù)據(jù)集Aachen(左側(cè))RobotCar(中間)CMU(右側(cè))不同距離閾值下定位正確率的變化。在Aachen數(shù)據(jù)集,HF-Net和NV+SP具有相似的性能,并優(yōu)于基于全局檢索和基于特征匹配的方法;在RobotCar數(shù)據(jù)集,HF-Net的性能比NV+SP差,說明了多任務(wù)蒸餾的局限性;在CMU數(shù)據(jù)集上,層級定位方法明顯優(yōu)于其他方法。
NV+SP:在Aachen數(shù)據(jù)集上,NV+SP在白天查詢數(shù)據(jù)上表現(xiàn)優(yōu)秀并優(yōu)于所有夜間查詢數(shù)據(jù)。隨著閾值下降,其性能下降明顯小于直接匹配方法;在RobotCar數(shù)據(jù)集上,它與其他方法在黃昏查詢數(shù)據(jù)上性能類似,在更具挑戰(zhàn)性的查詢數(shù)據(jù)上,NV+SP的方法在各方面都明顯優(yōu)于其他方法;在CMU數(shù)據(jù)集上,與其他方法相比,NV+SP具有出色的魯棒性??傮w而言,NV+SP在三個數(shù)據(jù)集上均樹立了新的技術(shù)水平,在高精度和粗精度兩種情況下均具有出色的性能,這表明我們的分層定位方法是有效的、可靠的。
NV+SIFT:NV+SIFT始終優(yōu)于AS和CSL,盡管這三種方法都是基于SIFT特征點。這表明我們分層定位方法的優(yōu)越性,特別是在有挑戰(zhàn)的查詢數(shù)據(jù)上,圖像檢索有助于消除誤匹配。在精度較高的情況下表現(xiàn)略優(yōu)于NV+SP,但在粗精度的情況下,NV+SP顯示出了基于深度學(xué)習(xí)獲取的特征的優(yōu)越性。
HF-Net:在大多數(shù)數(shù)據(jù)集上,HF-Net都僅次于NV+SP;在RobotCar夜間查詢數(shù)據(jù)上,HF-Net明顯比NV+SP差,這是由于提取的全局特征對模糊低質(zhì)量圖像的性能較差。這體現(xiàn)出了我們方法的局限性,全局檢索的失敗直接導(dǎo)致層次定位的失敗。圖5是利用HF-Net在Aachen數(shù)據(jù)集上成功定位的一個例子,左側(cè)是查詢圖像,右側(cè)是全局檢索獲取的圖像。
 
圖5 HF-Net在Aachen數(shù)據(jù)集上定位結(jié)果
5.3運行時間評估
表5中分別展示了特征提取、全局檢索、聚類、局部特征匹配以及PnP這五個步驟所需要的時間,紅色表示耗時最短的方法。HV+SP和HF-Net的計時顯示,我們的由粗到細(xì)的分層定位方法可以很好的適應(yīng)大場景。只受圖像數(shù)量影響的全局檢索速度很快,可以消除很多潛在的候選匹配集,實現(xiàn)一個規(guī)模較小的2D-3D匹配。當(dāng)特征點越多,共視聚類和局部特征匹配耗時越多,因此NV+SIFT速度很慢。NV+SP顯著改善了NV+SIFT,因為其稀疏的SfM模型擁有更少的特征點,然而NetVlad和SuperPoint的特征提取耗時較大,HF-Net對此進(jìn)行了改進(jìn),將速度提高了7倍。
表5 運行時間評估表
 
6 結(jié)論
本文提出了一種魯棒的、精確的、實時的視覺定位方法。方法遵循由粗到精的定位模式,首先執(zhí)行全局圖像檢索以獲得一組數(shù)據(jù)庫圖像,然后使用3D-SfM模型的共視性將這些圖聚類到各個位置,在這些候選位置上進(jìn)行局部特征的2D-3D匹配得到相機(jī)精確的6自由度位姿。
本文方法的一個版本是基于現(xiàn)有用于圖像檢索和特征匹配的神經(jīng)網(wǎng)絡(luò)。在幾個大型基準(zhǔn)數(shù)據(jù)集中,其性能優(yōu)于最新的定位方法,其中包括晝夜查詢以及跨天氣條件和跨季節(jié)查詢。然后提出一種新穎的CNN網(wǎng)絡(luò)HF-Net,可以一次性計算全局和局部描述符,從而提高其效率。同時證明了多任務(wù)蒸餾方法在保持原始網(wǎng)絡(luò)性能的同時靈活地進(jìn)行訓(xùn)練的有效性。最終的定位系統(tǒng)在大規(guī)模環(huán)境下運行速度超過20 FPS,并在具有挑戰(zhàn)的數(shù)據(jù)集上體現(xiàn)了無與倫比的魯棒性。
參考文獻(xiàn)
 
 
 
 
 
 
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25