日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

最近出現(xiàn)的幾篇視覺和激光雷達(dá)SLAM論文介紹

2022-01-09 21:27:27·  來源:計算機(jī)視覺深度學(xué)習(xí)和自動駕駛  作者:黃浴  
 
介紹最近半年的一些SLAM論文,包括視覺和激光雷達(dá),有傳統(tǒng)方法,也有深度學(xué)習(xí)方法。1 “LT-mapper: A Modular Framework for LiDAR-based Lifelong Mapping“,a
介紹最近半年的一些SLAM論文,包括視覺和激光雷達(dá),有傳統(tǒng)方法,也有深度學(xué)習(xí)方法。
1 “LT-mapper: A Modular framework for LiDAR-based Lifelong Mapping“,arXiv July,2021
是韓國KAIST Department of Civil and Environmental Engineering 發(fā)表。
長期的3D地圖管理是機(jī)器人在非靜止現(xiàn)實世界中可靠導(dǎo)航所需的基本能力。本文為城市區(qū)域開發(fā)了開源、模塊化和現(xiàn)成的基于激光雷達(dá)的持久地圖(lifelong map),稱為LT-Mapper(LiDAR-based lifelong mapping)。它將問題劃分為序貫子問題:多節(jié)SLAM(multi-session SLAM,MSS)、高/低動態(tài)變化檢測和正/負(fù)變化管理。該方法利用MSS,處理潛在的軌跡誤差;因此,變化檢測不需要良好的初始校準(zhǔn)。這個變化管理方案在內(nèi)存和計算成本方面保持有效性,提供了大規(guī)模點云地圖自動分離目標(biāo)的功能。通過對多個時間間隔(從一天到一年)的大量實際實驗,驗證了該框架的可靠性和適用性。
代碼在 https://github.com/gisbi-kim/lt-mapper
  • 通過錨節(jié)點(anchor node)彈性地處理各節(jié),而子模塊 LT- SLAM 可用 LiDAR 在共享幀中拼接多節(jié)。
  • 子模塊 LT-removert 克服了各節(jié)之間對齊的多義性,沿空域軸和時域軸調(diào)用 remove-then-revert 算法。
  • 子模塊 LT-map 可以有效地生成最新地圖(實時地圖)和持久地圖(元地圖),同時變化存為增量地圖(delta map)。通過增量地圖,恢復(fù)和變化檢測操作在內(nèi)存和計算上成本高效。
  • 上述模塊打包在單個框架中,其中包含現(xiàn)成的基于控制臺命令。此外,提供多個時間間隔(每天)的真實世界實驗。
模塊流水線如圖所示:


在 LT-SLAM 模塊中,用多節(jié) SLAM 共同優(yōu)化多個節(jié),同時從基于 LiDAR 的全局定位器進(jìn)行強(qiáng)大的節(jié)間閉環(huán)檢測。在此模塊中,查詢測量校準(zhǔn)到到現(xiàn)有的中心地圖。
對齊查詢和中心節(jié)并刪除 HD (High Dynamic)點,在查詢測量和中心地圖之間應(yīng)用set difference運算檢測變化。這個變化稱Low Dynamic (LD), 進(jìn)一步可分成兩類: 1)新出現(xiàn)的點,Positive Difference (PD) ;和2)消失的點,Negative Difference (ND)。
魯棒的節(jié)間閉環(huán)檢測,采用Scan Context (SC) ,因為其具備的長時全局定位能力和輕量計算成本。檢測節(jié)間閉環(huán)后,通過Iterated Closest Point (ICP) 算法計算兩個關(guān)鍵幀之間的6D相對約束。
如圖是LT-removert可視化的流水線:LT-removert模塊把動態(tài)點分成HD和 LD 兩種,(a) LT-removert 從 LT-SLAM 接收對齊的中心地圖和查詢地圖;(b-c)刪除了HD points的清洗地圖;(d-e)LD 變化檢測(即 PD 和 ND 分割);(f) 通過多節(jié)抹去未刪除的HD points。


給定檢測到的 LD,LT-map 對中心節(jié)的每個關(guān)鍵幀執(zhí)行節(jié)間變化更新。與上傳/下載整個地圖的基于快照方法相比,僅包含差異的增量地圖具有優(yōu)勢。

2 “DSP-SLAM: Object Oriented SLAM with Deep Shape Priors“, arXiv,August,2021
作者來自University College London。
DSP-SLAM(Deep Shape Priors-SLAM),這是一種面向目標(biāo)的SLAM系統(tǒng),可以為前景目標(biāo)構(gòu)建豐富而精確的密集3D模型聯(lián)合地圖,而稀疏的地標(biāo)點表示背景。DSP-SLAM將基于特征SLAM系統(tǒng)重建的3D點云作為輸入,通過對檢測物體進(jìn)行密集重建來增強(qiáng)其稀疏地圖的能力。通過語義實例分割來檢測目標(biāo),并通過一個二階優(yōu)化,特定類別(category-specific)的深度形狀嵌入作為先驗,估計形狀和姿勢。目標(biāo)-覺察BA構(gòu)建一個姿勢圖,共同優(yōu)化相機(jī)姿勢、目標(biāo)位置和特征點。DSP-SLAM 可以在 3 種不同的輸入模式,即單目、立體視覺或立體視覺+LiDAR,以每秒 10 幀速度運行。
項目網(wǎng)頁:https://jingwenwang95.github.io/dsp-slam/
如圖所示:DSP-SLAM 構(gòu)建了豐富的目標(biāo)-覺察地圖,提供了檢測目標(biāo)的完整詳細(xì)形狀,同時將背景粗略地作為稀疏特征點發(fā)送;在KITTI 00上重建地圖和相機(jī)軌跡。


如圖是DSP- SLAM的系統(tǒng)概覽:


采用 DeepSDF(“Deepsdf: Learning continuous signed distance functions for shape representation“,CVPR 2019)作為形狀嵌入,輸入一個形狀碼和一個3D查詢位置,輸出給定點的signed distance function (SDF) 值。ORB-SLAM2 用作跟蹤和制圖主干網(wǎng),一個基于特征的SLAM框架,在單目或立體圖像靜止?fàn)顟B(tài)上運行。雖然跟蹤線程從對應(yīng)關(guān)系中以幀速率估計相機(jī)姿勢,但制圖線程通過重建 3D 地標(biāo)來構(gòu)建稀疏地圖。
在每個關(guān)鍵幀執(zhí)行目標(biāo)檢測,共同推斷2D目標(biāo)邊框和分割掩碼。此外,通過3D邊框檢測獲得目標(biāo)姿勢估計的初始值。
新檢測將關(guān)聯(lián)到現(xiàn)有地圖目標(biāo),或通過目標(biāo)級數(shù)據(jù)關(guān)聯(lián)實例化為新目標(biāo)。每個檢測目標(biāo)實例由一個 2D 邊框、一個 2D 掩碼、稀疏 3D 點云的深度觀測和初始目標(biāo)姿勢等組成。
新實例化目標(biāo)通過重構(gòu)流水線進(jìn)行重構(gòu)。DSP-SLAM 采用一組稀疏的 3D 觀測值 ,其來自重建的 SLAM 點(單目和立體視覺)或 LiDAR 輸入(立體視覺+LiDAR),并選擇形狀碼和目標(biāo)姿勢最小化表面一致性和深度渲染損失。地圖中已存在的目標(biāo)將僅通過姿勢優(yōu)化更新其 6自由度姿勢。
點特征(來自SLAM)、目標(biāo)和攝像機(jī)姿勢的聯(lián)合因子圖(joint factor graph)通過bundle adjustment(BA)進(jìn)行優(yōu)化,以保持一致地圖并考慮閉環(huán)(loop closure)。新目標(biāo)作為節(jié)點,添加到聯(lián)合因子圖中,其相對姿勢估計即相機(jī)-目標(biāo)之間的邊緣。
表面項定義為:


SDF定義為:


事件概率定義為:


渲染的深度項為:


ray-tracing渲染項為:


優(yōu)化的最終能量函數(shù)是表面一致項、渲染項以及形狀碼正則項的加權(quán)和,即


數(shù)據(jù)相關(guān)中目標(biāo)是將每個檢測與其在地圖中最近的目標(biāo)相關(guān)聯(lián),并根據(jù)不同的輸入模式采用不同的策略。當(dāng)LiDAR輸入可用時,比較3D邊框和重建目標(biāo)之間的距離。當(dāng)僅用立體視覺或單目圖像作為輸入時,計算檢測和目標(biāo)之間匹配的特征點數(shù)量。如果多個檢測與同一目標(biāo)相關(guān)聯(lián),保留最近的一個并拒絕其他目標(biāo)。與任何現(xiàn)有目標(biāo)無關(guān)的檢測,將初始化為新目標(biāo),其形狀和姿勢再進(jìn)行優(yōu)化。對于立體視覺和單目輸入模式,僅當(dāng)觀察到足夠表面點時才會進(jìn)行重建。對現(xiàn)有目標(biāo)有關(guān)聯(lián)的檢測,運行只有姿勢的優(yōu)化;新相機(jī)-目標(biāo)邊緣會添加到聯(lián)合因子圖中來優(yōu)化姿勢。
最后聯(lián)合BA優(yōu)化一個聯(lián)合地圖,包括攝像頭姿態(tài)、目標(biāo)姿勢和地圖點:



3 “DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras” arXiv,August 2021
普林斯頓大學(xué)鄧加團(tuán)隊發(fā)表。
DROID(Differentiable Recurrent Optimization-Inspired Design)-SLAM,是一種基于深度學(xué)習(xí)的SLAM系統(tǒng)。DROID-SLAM通過dense BA層對攝像機(jī)姿勢和像素深度進(jìn)行重復(fù)迭代更新。盡管在單目視頻方面進(jìn)行了訓(xùn)練,但采用立體視覺或RGB-D視頻的話,在測試時可實現(xiàn)更高性能。
開源代碼 https://github.com/princeton-vl/DROID-SLAM
如圖是示意圖:


它包括recurrent iterative updates,在RAFT optical flow模型(“Raft: Recurrent all-pairs field transforms for optical flow“,ECCV,2020)基礎(chǔ)上做了兩點改進(jìn):
  • 采用多幀優(yōu)化,而不是兩幀;
  • 更新基于一個可微分的Dense Bundle Adjustment (DBA) 層。
采用一個frame-graph,特征提取主要來自RAFT,同樣包括兩個:特征網(wǎng)絡(luò)和上下文網(wǎng)絡(luò)。特征網(wǎng)絡(luò)用于構(gòu)建一組關(guān)聯(lián)體,而上下文特征則在更新操作的每個應(yīng)用程序注入網(wǎng)絡(luò)。
SLAM 系統(tǒng)的核心組件是如圖所示的學(xué)習(xí)更新操作:更新操作是具有隱狀態(tài) 的 3 × 3 ConvGRU,操作在frame- graph的邊緣進(jìn)行,預(yù)測映射到深度的流修正(flow revision),并通過DBA層進(jìn)行姿勢更新。


相關(guān)特征提供了有關(guān)致密流域每個像素位置附近視覺相似性的信息,使網(wǎng)絡(luò)能夠?qū)W習(xí)對齊視覺相似的圖像區(qū)域。但是,對應(yīng)關(guān)系有時是模棱兩可的。該流提供了一個互補信息源,允許網(wǎng)絡(luò)利用運動場中的平滑度來獲得魯棒性。
相關(guān)特征和流特征在注入GRU之前分別通過兩個卷積層進(jìn)行映射。此外,通過逐元加操作將上下文網(wǎng)絡(luò)提取的上下文特征注入GRU。
ConvGRU是一個小感受野的局部操作。沿著空間維做隱平均,提取全局上下文,并將此特征向量用作GRU的額外輸入。全局上下文在 SLAM 中很重要,因為不正確的對應(yīng)關(guān)系(例如由大型移動目標(biāo)引起)會降低系統(tǒng)的準(zhǔn)確性。對網(wǎng)絡(luò)來說,識別和拒絕錯誤對應(yīng)非常重要。DBA層把流修正集映射成姿態(tài)集,并逐元深度更新。如下定義成本函數(shù):


整個系統(tǒng)包含兩個異步運行線程。前端線程接收新幀、提取特征、選擇關(guān)鍵幀并執(zhí)行局部BA;后端線程同時對關(guān)鍵幀的整個歷史記錄執(zhí)行全局BA。
DROID- SLAM可以泛化到其他數(shù)據(jù)集,如圖所示:



4 “ART-SLAM: Accurate Real-Time 6DoF LiDAR SLAM“,arXiv,September,2021
由意大利一所大學(xué)發(fā)表。
基于地面車輛的實時6-自由度姿態(tài)估計是機(jī)器人學(xué)中的一個重要研究課題,應(yīng)用如自動駕駛和三維地圖。本文提出一種快速、準(zhǔn)確和模塊化的激光雷達(dá)SLAM系統(tǒng),用于批量和在線估計。首先下采樣和出格點去除,濾除噪聲并減小輸入點云的大小。然后將過濾后點云用于姿態(tài)跟蹤和地面檢測,優(yōu)化估計的軌跡。與濾波過程并行工作,一個預(yù)跟蹤器允許獲得預(yù)計算里程計,在跟蹤時用作輔助工具。通過g2o pose graph實現(xiàn)的高效閉環(huán)和位姿優(yōu)化,是該SLAM流水線的最后步驟。系統(tǒng)的性能與當(dāng)前基于點云的方法(LOAM、LeGO-LOAM、A-LOAM、LeGO-LOAM BOR和HDL)進(jìn)行了比較,結(jié)果表明,系統(tǒng)達(dá)到了相同或更好的精度,并且可以輕松地處理無閉環(huán)的情況。使用KITTI和Radiante數(shù)據(jù)集對估算的軌跡位移量進(jìn)行比較。
注:HDL(“A portable 3d lidar-based system for long-term and wide-area people behavior measurement”,IEEE T- HMS,2018)
代碼上線:https://github.com/MatteoF94/ARTSLAM
ART(Accurate Real-Time)- SLAM的框架如下:該系統(tǒng)由多個不同模塊組成,基本兩個主塊。第一個塊是必需的(灰色),是ART-SLAM的核心,在輸入點云上執(zhí)行SLAM的所有模塊(圖中為橙色)。其他塊是可選的,用于主系統(tǒng)與來自不同傳感器數(shù)據(jù)集成,或和重新處理輸入集成。


給定入射激光掃描,第一步是在預(yù)濾波器中進(jìn)行處理,減小其尺寸并去除噪聲。過濾后的點云同時發(fā)送到兩個模塊。最重要的模塊是跟蹤器,與先前濾波的掃描進(jìn)行scan-to- scan匹配(比如實用方法 ICP, GICP, VGICP 和 NDT),估計機(jī)器人當(dāng)前位移。另一個是地面檢測器,發(fā)現(xiàn)機(jī)器人相對地面的姿勢,增加對軌跡的高度和旋轉(zhuǎn)一致性。當(dāng)前姿勢估計連同其對應(yīng)點云一起發(fā)送到閉環(huán)檢測器(基于SC算法)模塊,在新點云和以前點云之間找到閉環(huán),再次執(zhí)行scan-to- scan匹配。此外,用姿勢、閉環(huán)和地面系數(shù)(由地面檢測器模塊估計)構(gòu)建pose graph,表征機(jī)器人的軌跡。最后,對pose graph進(jìn)行優(yōu)化,以提高姿態(tài)估計精度。
IMU和GPS數(shù)據(jù)(圖中粉紅色區(qū)域)可以集成在pose graph生成器模塊,提高估計軌跡的精度。此外,預(yù)計算里程計(例如,通過不同的傳感器或系統(tǒng))可以作為scan matching的初始猜測提供給跟蹤器。最后,預(yù)跟蹤器模塊(圖中綠色區(qū)域)執(zhí)行多級scan-to- scan匹配,在跟蹤之前快速估計機(jī)器人運動。
每個模塊的架構(gòu)如下:它由一個或多個observers、一個或多個dispatch隊列、一個core和一個或多個notifiers組成。此外,ART-SLAM是一種零拷貝軟件,允許對大量數(shù)據(jù)進(jìn)行完善改進(jìn),同時將其保存在內(nèi)存中。


observer允許模塊在數(shù)據(jù)可用時立即捕獲數(shù)據(jù),與類型無關(guān)。由于數(shù)據(jù)到達(dá)速率可能不同于處理所需時間,observer將接收到的數(shù)據(jù)放入一個或多個dispatch隊列,即FIFO結(jié)構(gòu),避免丟失傳入數(shù)據(jù)。模塊中core是主要特點:一次為每個dispatch完善改進(jìn)一個數(shù)據(jù),從相對dispatch隊列中提取數(shù)據(jù)。一旦core完成任務(wù),會將模塊的副產(chǎn)品發(fā)送給notifier程序,將這些副產(chǎn)品廣播給所有需要的模塊。使用dispatch隊列的優(yōu)點是,如果不需要時間一致性,可以在多個線程并行執(zhí)行相同core任務(wù)。
pose graph中的每個節(jié)點表示機(jī)器人的位置和在該位置獲取的測量值(點云);此外,每個節(jié)點都與相應(yīng)的關(guān)鍵幀相關(guān)聯(lián)。兩個節(jié)點之間的邊,包含節(jié)點對應(yīng)機(jī)器人姿勢變換的概率分布。這些變換,要么是跟蹤器模塊在連續(xù)位置之間給出的里程計測量值,要么是通過兩個關(guān)鍵幀之間獲取的傳感器測量值對齊來估計。由于傳感器噪聲和機(jī)器人里程計中的漂移,相關(guān)邊只表示軟約束且不固定。但是,可以插入絕對約束,不做任何方式修改。這些約束的示例包括地面系數(shù)、GPS或IMU數(shù)據(jù),盡管也可以設(shè)置為非絕對約束,因為傳感器或測量帶有不確定性。此外,當(dāng)執(zhí)行閉環(huán)檢測和進(jìn)行閉合的時候,可以在圖中的非連續(xù)節(jié)點之間添加新邊。
以下圖例是實驗的算法結(jié)果比較:


Sequence 07 KITTI


Sequence 05 KITTI

5 “A Biologically Inspired Simultaneous Localization and Mapping System based on LiDAR Sensor“,September,2021
受嚙齒動物的海馬模型(rodent hippocampus)啟發(fā),本文提出一種基于激光雷達(dá)傳感器的生物啟發(fā)SLAM系統(tǒng),用海馬模型構(gòu)建認(rèn)知地圖(cognitive map)并估計機(jī)器人在室內(nèi)環(huán)境中的姿勢?;谏飭l(fā)模型,SLAM系統(tǒng)用激光雷達(dá)傳感器的點云數(shù)據(jù),用來自激光雷達(dá)里程計的自運動線索和來自激光雷達(dá)局部視圖單元(local view cells)的局部視圖線索來構(gòu)建認(rèn)知地圖和估計機(jī)器人姿勢。
整個SLAM系統(tǒng)架構(gòu)如下:包括激光雷達(dá)里程計,激光雷達(dá)局部視圖單元和姿態(tài)單元網(wǎng)絡(luò)(pose cell network)。


“激光雷達(dá)里程計“為機(jī)器人生成運動數(shù)據(jù)起著重要作用?!凹す饫走_(dá)局部視圖單元”模塊提供基于激光雷達(dá)觀測處理和集成局部視圖線索?!弊藨B(tài)單元網(wǎng)絡(luò)“,根據(jù)”激光雷達(dá)里程計“的自運動數(shù)據(jù)和”激光雷達(dá)局部視圖單元“模塊的局部視圖線索,通過路徑積分和閉環(huán),估計機(jī)器人的3-DoF姿態(tài)。
“激光雷達(dá)局部視圖單元“模塊,將激光雷達(dá)觀測結(jié)果處理為視圖模板(view templates),表示場景的特征信息?!凹す饫走_(dá)局部視圖”模板用于維護(hù)局部視圖,并向“姿勢單元網(wǎng)絡(luò)”提供局部視圖線索信息。實時激光雷達(dá)觀測輸入與學(xué)習(xí)的局部視圖進(jìn)行比較,要么在成功找到匹配視圖時生成一個姿勢標(biāo)定活動,要么在沒有匹配視圖時將其添加到學(xué)習(xí)的局部視圖中,學(xué)習(xí)新局部視圖。
一個局部視角的兩步匹配(two-stage matching)算法如下:


該文由RatSLAM(“Ratslam: a hippocampal model for simultaneous localization and mapping,” IEEE ICRA’04)啟發(fā),提出姿勢單元網(wǎng)絡(luò)來保持姿勢表征,集成來自激光雷達(dá)里程計的自運動線索和來自激光雷達(dá)局部視圖單元的局部視圖線索,旨在減少里程計漂移、解決制圖過程中的局部視圖多義性問題。利用姿勢單元網(wǎng)絡(luò),SLAM系統(tǒng)能夠基于自運動線索做路徑積分來構(gòu)建認(rèn)知地圖。此外,借助激光雷達(dá)視圖線索,姿勢單元網(wǎng)絡(luò)執(zhí)行閉環(huán)來標(biāo)定估計的姿勢和在線認(rèn)知地圖,以減少激光雷達(dá)里程計累積誤差和漂移。
姿勢單元網(wǎng)絡(luò)是一個3D連續(xù)吸引網(wǎng)絡(luò),即3D-CAN(“Path integration and cognitive mapping in a continuous attractor neural network model,” Journal of Neuroscience, 1997),表征為活動的3D矩陣。姿勢單元網(wǎng)絡(luò)的每個姿勢單元,通過興奮性(excitatory)和抑制性(inhibitory)連接,與其相鄰單元相連,以3-D形式圍繞在網(wǎng)絡(luò)的邊界,這樣姿勢單元網(wǎng)絡(luò)能夠表征有限數(shù)量姿勢單元的無界空間(unbounded space)。
姿勢單元網(wǎng)絡(luò),加入基于3-D高斯分布的局部興奮和全局抑制活動,隨時間自更新姿勢單元網(wǎng)絡(luò)動力學(xué)。作為激活細(xì)胞聚集的姿勢單元網(wǎng)絡(luò)穩(wěn)定狀態(tài),如OpenRatSLAM(“Openratslam: an open source brain-based slam system,” Autonomous Robots, 2013),姿勢估計則編碼為活動包(activity packet)質(zhì)心。
給定來自局部視圖單元的激光雷達(dá)局部視圖線索,一個標(biāo)定活動會注入姿勢單元網(wǎng)絡(luò),執(zhí)行進(jìn)一步的閉環(huán)和重定位。為解決局部視圖的多義性,當(dāng)連續(xù)局部視圖的更新超過閾值,讓姿態(tài)單元的主活動包可以移動。
在制圖過程中,激光雷達(dá)里程計、激光雷達(dá)局部視圖單元和姿勢單元網(wǎng)絡(luò)的信息,組合和累積在一起估計機(jī)器人姿勢,并構(gòu)建認(rèn)知地圖作為機(jī)器人運動經(jīng)驗的拓?fù)鋱D。當(dāng)觀察學(xué)習(xí)的局部視圖檢測到閉環(huán)時,在兩個現(xiàn)有經(jīng)驗節(jié)點之間建立新的轉(zhuǎn)換(transition),在認(rèn)知圖中帶來新循環(huán)。

6 “Learning Efficient Multi-agent CooperativeVisual Exploration“,arXiv,October,2021
由清華大學(xué)和上海期智研究院發(fā)表。
任務(wù)是視覺多智體室內(nèi)探索,其中智體用盡可能少的步驟合作探索整個室內(nèi)。傳統(tǒng)的基于規(guī)劃方法,通常在每個推理步驟都會遭遇特別昂貴的計算以及協(xié)作策略有限的表現(xiàn)力。相比之下,強(qiáng)化學(xué)習(xí)(RL)具備任意復(fù)雜策略的建模能力和最小推理開銷,所以成為應(yīng)對這一挑戰(zhàn)的一種趨勢典范。
本文引入一種基于RL全局目標(biāo)規(guī)劃器,即空間協(xié)調(diào)規(guī)劃器(Spatial Coordination Planner,SCP),將單智體RL解決方案,即主動神經(jīng)SLAM(Active Neural SLAM,ANS),擴(kuò)展到多智體環(huán)境,以端到端的方式,利用每個智體的空間信息有效地引導(dǎo)智體,以高探索效率對不同的空間目標(biāo)導(dǎo)航。
SCP組成包括兩個:一個基于transformer的relation encoder用于捕獲智體內(nèi)交互,和一個spatial action decoder生成準(zhǔn)確目標(biāo)。此外,實現(xiàn)一些多智體增強(qiáng)功能,處理來自每個智體的局部信息,實現(xiàn)對齊的空間表征和更精確的規(guī)劃方案。最終的解決方案,即多智體主動神經(jīng)SLAM(Multi-Agent Active Neural SLAM,MAANS),結(jié)合所有這些技術(shù),在視覺逼真的物理試驗臺Habitat中,進(jìn)行實驗。
基于規(guī)劃的解決方案已被廣泛應(yīng)用于單智體和多智體場景中的機(jī)器人導(dǎo)航問題。基于規(guī)劃的方法只需要很少的訓(xùn)練,可以直接應(yīng)用于不同的場景。然而,這些方法通常在協(xié)調(diào)策略上的表現(xiàn)力有限,需要對每個測試場景進(jìn)行不同尋常的超參數(shù)調(diào)整,由于在每個決策步驟重復(fù)重規(guī)劃,因此特別耗時。
相比之下,強(qiáng)化學(xué)習(xí)(RL),對一些決策問題而言,包括各種視覺導(dǎo)航任務(wù),是一種很有前途的方案?;赗L的智體通常被參數(shù)化為深度神經(jīng)網(wǎng)絡(luò),并根據(jù)原始傳感器信號直接生成動作。一旦策略通過RL算法得到很好的訓(xùn)練,機(jī)器人就可以捕獲任意復(fù)雜的策略,并通過高效的推理計算(即神經(jīng)網(wǎng)絡(luò)的單次前傳)生成實時決策。然而,訓(xùn)練有效的RL政策可能特別具有挑戰(zhàn)性。因此,大多數(shù)現(xiàn)有的機(jī)器人探索問題,其RL方法集中在單智體設(shè)置上,而大多數(shù)多智體RL方法,僅在迷宮(maze)或網(wǎng)格世界等簡單場景下進(jìn)行評估。
如圖是原ANS的框架:根據(jù)傳入的RGB觀測和傳感器數(shù)據(jù),預(yù)測地圖和智體姿勢估計。全局策略使用該地圖和姿勢輸出長期目標(biāo)(long-term goal),用分析路徑規(guī)劃器轉(zhuǎn)換為短期目標(biāo)(short-term goal)。訓(xùn)練一個局部策略,實現(xiàn)這一短期目標(biāo)。


這里全局規(guī)劃器采用增強(qiáng)的以智體為中心的局部地圖作為輸入,包括指示已探測區(qū)域、未探測區(qū)域及障礙和歷史軌跡的通道,從長期目標(biāo)坐標(biāo)的兩個高斯分布中輸出兩個實數(shù)。該全局規(guī)劃器被參數(shù)化為CNN策略,并通過PPO算法進(jìn)行訓(xùn)練。
而局部規(guī)劃器在智體為中心的局部地圖執(zhí)行經(jīng)典規(guī)劃,即FMM(Fast Marching Method)算法,實現(xiàn)給定的長期目標(biāo),并輸出短期子目標(biāo)的軌跡。最后,局部策略生成給定RGB圖像和子目標(biāo)的動作,并通過模仿學(xué)習(xí)進(jìn)行訓(xùn)練。
如圖是ANS中Neural SLAM架構(gòu):該模塊通過監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練,以RGB圖像、姿勢感知信號及其過去的輸出作為輸入,并輸出更新的2D重建地圖和當(dāng)前姿勢估計。


如圖是本文提出的MA-ANS新框架:


每個智體首先將其姿態(tài)感知信號和RGB圖像傳遞給NeuralSLAM模塊,獲得智體為中心的局部地圖和姿態(tài)估計。地圖細(xì)化(map refiner)對每個局部地圖進(jìn)行規(guī)范化,并與其他特定于智體的信息結(jié)合,作為空間協(xié)調(diào)規(guī)劃器(SCP)的輸入全局地圖。對ID=k的每個智體,SCP接收ID信息,在所有輸入地圖的提取特征應(yīng)用基于transformer的關(guān)系編碼器(relation encoder),并通過智體k的空間動作解碼器(spatial action decoder)生成全局目標(biāo)。局部規(guī)劃器在合并的全局地圖上為全局目標(biāo)執(zhí)行軌跡規(guī)劃。最后,由局部策略生成一個動作。
如圖是SCP模塊示意圖:包括N個CNN-based feature extractors, 一個relation encoder 和一個 spatial action decoder。


如圖是地圖細(xì)化(map refiner)和地圖合并(map merger)的計算工作流:


“地圖細(xì)化“,首先合成所有以前以智體為中心的局部地圖,恢復(fù)以智體為中心的全局地圖。然后,基于姿勢估計變換坐標(biāo)系,規(guī)范化來自同一坐標(biāo)系的所有智體全局地圖。相應(yīng)地規(guī)范化的全局地圖,包含圍繞實際可探測室內(nèi)區(qū)域的無法探測的大邊界。為了確保SCP的特征提取只關(guān)注可實現(xiàn)部分,并導(dǎo)致更集中的空間動作空間,裁剪歸一化地圖的不可解釋邊界,并放大室內(nèi)區(qū)域作為最終的細(xì)化地圖。
在“地圖細(xì)化”獲得N個放大的全局地圖后,“地圖合并”對每個像素位置應(yīng)用max-pooling操作簡單地集成這些地圖。也就是說,對于合并的全局地圖的每個像素,成為障礙的概率是,在所有放大的全局地圖中該像素位置的最大值。人工合并的全局地圖僅用于局部規(guī)劃器,而不用于全局規(guī)劃器SCP。

7 “MegBA: A High-Performance and Distributed Library for Large-Scale Bundle Adjustment“,arXiv December,2021
曠視科技和愛丁堡大學(xué)發(fā)表。
大規(guī)模BA是3D視覺應(yīng)用的關(guān)鍵(例如,SfM和SLAM)。盡管重要,但現(xiàn)有BA庫(如Ceres和g2o)對大規(guī)模BA的支持較差。這些庫未充分利用加速器(即GPU),并且缺乏有效分配BA計算的算法,因此限制了BA問題的規(guī)模。本文提出MegBA,一個用于大規(guī)模BA的高性能分布式庫。MegBA有一種端到端矢量化BA算法,可以在GPU上完全釋放大量并行核,從而加快整個BA計算。它還具有一種精確分布式BA算法,可以自動劃分BA問題,并用分布式GPU解決BA子問題。GPU用網(wǎng)絡(luò)高效的集體通信(collective communication)同步中間求解狀態(tài),并且設(shè)計同步最小化通信成本。MegBA有一個內(nèi)存高效的GPU運行,并公開了和g2o兼容的API。實驗表明,在公共大型BA基準(zhǔn)測試中,MegBA的性能比最先進(jìn)的BA庫(即Ceres和DeepLM)分別高出47.6倍和6.4倍。
MegBA概覽如圖所示5步:(1) MegBA基于邊劃分BA問題;BA子問題的大小相同,調(diào)遣到分布式GPU;(2)在每個GPU用矢量化運算計算雅可比矩陣;(3) 采用矢量化運算構(gòu)造線性系統(tǒng);(4)采用矢量化分布式PCG算法求解線性系統(tǒng),并通過集體通信同步中間PCG狀態(tài)。迭代執(zhí)行步驟(2)-(3)-(4),直到滿足(5)收斂標(biāo)準(zhǔn)。


一個BA問題定義:


求解BA,經(jīng)常利用Schur Complement (SC) ,即


求解該問題相當(dāng)于一個等價方程求解,即




SIMD-optimised Vectorised BA的算法如下:


SIMD-optimised vertorised PCG的算法如下:


在高層看,MegBA分布式BA算法有兩個主要組成部分:(i)一種可以將BA問題劃分為子問題的方法,這些子問題可以由并行矢量化PCG解決;(ii)一種可以同步并行PCG狀態(tài)的算法,以便可以共同解決原始全局BA問題。
distributed PCG算法如下所示:


在Nvidia GPU上實現(xiàn)MegBA,整個實現(xiàn)基于兩項技術(shù)優(yōu)化內(nèi)存效率:
(i) 預(yù)測BA內(nèi)存緩沖區(qū)使用,最小化內(nèi)存分配;
(ii)在GPU線程之間共享內(nèi)存。
與g2o和Ceres完全兼容的方式實現(xiàn)MegBA的API,MegBA API包含兩個主要組件:
  • 聲明BA問題;
  • 選擇BA求解器。
性能比較結(jié)果見表:



8 “Fast Direct Stereo Visual SLAM“, arXiv,December,2021
作者來自美國明尼蘇達(dá)大學(xué)。
本文提出一種不依賴于特征檢測和匹配的快速、準(zhǔn)確的立體視覺SLAM方法,DSV(direct-stereo-vision)-SLAM。將單目DSO(Direct Sparse Odometry)方法擴(kuò)展到立體視覺系統(tǒng),通過優(yōu)化3D點尺度來最小化立體視覺的光度(photometric)誤差;與傳統(tǒng)的立體匹配相比,這是一種計算效率高且魯棒的方法。進(jìn)一步擴(kuò)展到有閉環(huán)的完全SLAM系統(tǒng),減少累積誤差。在假設(shè)攝像機(jī)向前運動的情況下,從視覺里程計獲得3D點,模擬激光雷達(dá)掃描,用激光雷達(dá)點云描述子進(jìn)行位置識別,更有效地檢測閉環(huán)。然后,用直接對齊法(direct alignment)估計相對姿態(tài),最小化潛在閉環(huán)的光度誤差??蛇x地是,用ICP(Iterative Closest Point)算法對直接對齊方法進(jìn)一步改進(jìn)。最后,優(yōu)化一個pose graph,提高全局SLAM精度。因為避免SLAM系統(tǒng)的特征檢測或匹配,確保較高的計算效率和魯棒性。對公共數(shù)據(jù)集的徹底實驗,驗證表明其有效性。
代碼開源:https: //github.com/IRVLab/direct_stereo_slam
如圖是該方法DSV-SLAM的概覽:將尺度優(yōu)化和基于激光雷達(dá)描述子的位置識別方法結(jié)合到直接立體視覺SLAM系統(tǒng)中,(1) 從Cam0開始,單目VO估計攝像機(jī)姿勢并生成3D點;(2) Scale Optimization模塊用3D點估計并保持VO尺度;(3) 閉環(huán)檢測(loop closure detection)模塊基于VO的3D點檢測閉環(huán);(4) 對于潛在閉環(huán),Loop Correction模塊估計閉環(huán)的相對姿勢,并全局性優(yōu)化姿勢。


尺度優(yōu)化方法取自作者論文(“Extending Monocular Visual Odometry to Stereo Camera Systems by Scale Optimization”. IROS, 2019),優(yōu)化的主要思想是將Cam0的單目VO點投影到Cam1,找到使光度誤差最小的最佳尺度。
而基于激光雷達(dá)描述子的閉環(huán)檢測取自作者論文(“A Fast and Robust Place Recognition Approach for Stereo Visual Odometry Using LiDAR Descriptors“. IROS, 2020)。從VO局部累積3D點,獲得一組局部點,然后圍繞當(dāng)前姿勢生成一組Spherical Points,模擬激光雷達(dá)掃描。
SC算法的主要思想是使用城市區(qū)域(例如建筑物)的高度分布來描述激光雷達(dá)生成的點云。原始SC將點云相對于 IMU 重力方向?qū)R。由于不希望引入額外的傳感器(即IMU)到視覺SLAM系統(tǒng)中,因此用PCA來對齊點云。水平面(PCA 平面)根據(jù)半徑和方位角劃分為多個bins。每個bin的最大高度連接起來,形成當(dāng)前位置的簽名(signature)。在SC算法之前用ring-key進(jìn)行快速初步搜索,SC編碼半徑確定每個ring的occupancy ratio 。
如圖所示即模擬激光雷達(dá)掃描ring-key和SC描述子的簡化圖(假設(shè)建筑物和樹木的高度分別為10米和3米):


系統(tǒng)中,對于立體視覺VO的每個關(guān)鍵幀,該方法模擬激光雷達(dá)掃描,并用修改SC描述子生成位置簽名。然后,在簽名數(shù)據(jù)庫(signature database)搜索潛在的閉環(huán)。首先通過ring-key進(jìn)行搜索,其操作速度快,但不易區(qū)分,因此我們選擇前三位候選做SC,這樣再做出最終決定。
一些實驗結(jié)果比較如下:





分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25