最近出現(xiàn)的幾篇視覺和激光雷達(dá)SLAM論文介紹

2022-01-09 21:27:27· 來源：計算機(jī)視覺深度學(xué)習(xí)和自動駕駛作者：黃浴

介紹最近半年的一些SLAM論文，包括視覺和激光雷達(dá)，有傳統(tǒng)方法，也有深度學(xué)習(xí)方法。1 “LT-mapper: A Modular Framework for LiDAR-based Lifelong Mapping“，a

介紹最近半年的一些SLAM論文，包括視覺和激光雷達(dá)，有傳統(tǒng)方法，也有深度學(xué)習(xí)方法。

1 “LT-mapper: A Modular framework for LiDAR-based Lifelong Mapping“，arXiv July，2021

是韓國KAIST Department of Civil and Environmental Engineering 發(fā)表。

長期的3D地圖管理是機(jī)器人在非靜止現(xiàn)實世界中可靠導(dǎo)航所需的基本能力。本文為城市區(qū)域開發(fā)了開源、模塊化和現(xiàn)成的基于激光雷達(dá)的持久地圖（lifelong map），稱為LT-Mapper（LiDAR-based lifelong mapping）。它將問題劃分為序貫子問題：多節(jié)SLAM（multi-session SLAM，MSS）、高/低動態(tài)變化檢測和正/負(fù)變化管理。該方法利用MSS，處理潛在的軌跡誤差；因此，變化檢測不需要良好的初始校準(zhǔn)。這個變化管理方案在內(nèi)存和計算成本方面保持有效性，提供了大規(guī)模點云地圖自動分離目標(biāo)的功能。通過對多個時間間隔（從一天到一年）的大量實際實驗，驗證了該框架的可靠性和適用性。

代碼在 https://github.com/gisbi-kim/lt-mapper

通過錨節(jié)點（anchor node）彈性地處理各節(jié)，而子模塊 LT- SLAM 可用 LiDAR 在共享幀中拼接多節(jié)。
子模塊 LT-removert 克服了各節(jié)之間對齊的多義性，沿空域軸和時域軸調(diào)用 remove-then-revert 算法。
子模塊 LT-map 可以有效地生成最新地圖（實時地圖）和持久地圖（元地圖），同時變化存為增量地圖（delta map）。通過增量地圖，恢復(fù)和變化檢測操作在內(nèi)存和計算上成本高效。
上述模塊打包在單個框架中，其中包含現(xiàn)成的基于控制臺命令。此外，提供多個時間間隔（每天）的真實世界實驗。

模塊流水線如圖所示：

在 LT-SLAM 模塊中，用多節(jié) SLAM 共同優(yōu)化多個節(jié)，同時從基于 LiDAR 的全局定位器進(jìn)行強(qiáng)大的節(jié)間閉環(huán)檢測。在此模塊中，查詢測量校準(zhǔn)到到現(xiàn)有的中心地圖。

對齊查詢和中心節(jié)并刪除 HD （High Dynamic）點，在查詢測量和中心地圖之間應(yīng)用set difference運算檢測變化。這個變化稱Low Dynamic (LD), 進(jìn)一步可分成兩類: 1）新出現(xiàn)的點，Positive Difference (PD) ；和2）消失的點，Negative Difference (ND)。

魯棒的節(jié)間閉環(huán)檢測，采用Scan Context (SC) ，因為其具備的長時全局定位能力和輕量計算成本。檢測節(jié)間閉環(huán)后，通過Iterated Closest Point (ICP) 算法計算兩個關(guān)鍵幀之間的6D相對約束。

如圖是LT-removert可視化的流水線：LT-removert模塊把動態(tài)點分成HD和 LD 兩種，（a） LT-removert 從 LT-SLAM 接收對齊的中心地圖和查詢地圖；（b-c）刪除了HD points的清洗地圖；（d-e）LD 變化檢測（即 PD 和 ND 分割）；（f）通過多節(jié)抹去未刪除的HD points。

給定檢測到的 LD，LT-map 對中心節(jié)的每個關(guān)鍵幀執(zhí)行節(jié)間變化更新。與上傳/下載整個地圖的基于快照方法相比，僅包含差異的增量地圖具有優(yōu)勢。

2 “DSP-SLAM: Object Oriented SLAM with Deep Shape Priors“， arXiv，August，2021

作者來自University College London。

DSP-SLAM（Deep Shape Priors-SLAM），這是一種面向目標(biāo)的SLAM系統(tǒng)，可以為前景目標(biāo)構(gòu)建豐富而精確的密集3D模型聯(lián)合地圖，而稀疏的地標(biāo)點表示背景。DSP-SLAM將基于特征SLAM系統(tǒng)重建的3D點云作為輸入，通過對檢測物體進(jìn)行密集重建來增強(qiáng)其稀疏地圖的能力。通過語義實例分割來檢測目標(biāo)，并通過一個二階優(yōu)化，特定類別（category-specific）的深度形狀嵌入作為先驗，估計形狀和姿勢。目標(biāo)-覺察BA構(gòu)建一個姿勢圖，共同優(yōu)化相機(jī)姿勢、目標(biāo)位置和特征點。DSP-SLAM 可以在 3 種不同的輸入模式，即單目、立體視覺或立體視覺+LiDAR，以每秒 10 幀速度運行。

項目網(wǎng)頁：https://jingwenwang95.github.io/dsp-slam/

如圖所示：DSP-SLAM 構(gòu)建了豐富的目標(biāo)-覺察地圖，提供了檢測目標(biāo)的完整詳細(xì)形狀，同時將背景粗略地作為稀疏特征點發(fā)送；在KITTI 00上重建地圖和相機(jī)軌跡。

如圖是DSP- SLAM的系統(tǒng)概覽：

采用 DeepSDF（“Deepsdf: Learning continuous signed distance functions for shape representation“，CVPR 2019）作為形狀嵌入，輸入一個形狀碼和一個3D查詢位置，輸出給定點的signed distance function (SDF) 值。ORB-SLAM2 用作跟蹤和制圖主干網(wǎng)，一個基于特征的SLAM框架，在單目或立體圖像靜止?fàn)顟B(tài)上運行。雖然跟蹤線程從對應(yīng)關(guān)系中以幀速率估計相機(jī)姿勢，但制圖線程通過重建 3D 地標(biāo)來構(gòu)建稀疏地圖。

在每個關(guān)鍵幀執(zhí)行目標(biāo)檢測，共同推斷2D目標(biāo)邊框和分割掩碼。此外，通過3D邊框檢測獲得目標(biāo)姿勢估計的初始值。

新檢測將關(guān)聯(lián)到現(xiàn)有地圖目標(biāo)，或通過目標(biāo)級數(shù)據(jù)關(guān)聯(lián)實例化為新目標(biāo)。每個檢測目標(biāo)實例由一個 2D 邊框、一個 2D 掩碼、稀疏 3D 點云的深度觀測和初始目標(biāo)姿勢等組成。

新實例化目標(biāo)通過重構(gòu)流水線進(jìn)行重構(gòu)。DSP-SLAM 采用一組稀疏的 3D 觀測值，其來自重建的 SLAM 點（單目和立體視覺）或 LiDAR 輸入（立體視覺+LiDAR），并選擇形狀碼和目標(biāo)姿勢最小化表面一致性和深度渲染損失。地圖中已存在的目標(biāo)將僅通過姿勢優(yōu)化更新其 6自由度姿勢。

點特征（來自SLAM）、目標(biāo)和攝像機(jī)姿勢的聯(lián)合因子圖（joint factor graph）通過bundle adjustment（BA）進(jìn)行優(yōu)化，以保持一致地圖并考慮閉環(huán)（loop closure）。新目標(biāo)作為節(jié)點，添加到聯(lián)合因子圖中，其相對姿勢估計即相機(jī)-目標(biāo)之間的邊緣。

表面項定義為：

SDF定義為：

事件概率定義為：

渲染的深度項為：

ray-tracing渲染項為：

優(yōu)化的最終能量函數(shù)是表面一致項、渲染項以及形狀碼正則項的加權(quán)和，即

數(shù)據(jù)相關(guān)中目標(biāo)是將每個檢測與其在地圖中最近的目標(biāo)相關(guān)聯(lián)，并根據(jù)不同的輸入模式采用不同的策略。當(dāng)LiDAR輸入可用時，比較3D邊框和重建目標(biāo)之間的距離。當(dāng)僅用立體視覺或單目圖像作為輸入時，計算檢測和目標(biāo)之間匹配的特征點數(shù)量。如果多個檢測與同一目標(biāo)相關(guān)聯(lián)，保留最近的一個并拒絕其他目標(biāo)。與任何現(xiàn)有目標(biāo)無關(guān)的檢測，將初始化為新目標(biāo)，其形狀和姿勢再進(jìn)行優(yōu)化。對于立體視覺和單目輸入模式，僅當(dāng)觀察到足夠表面點時才會進(jìn)行重建。對現(xiàn)有目標(biāo)有關(guān)聯(lián)的檢測，運行只有姿勢的優(yōu)化；新相機(jī)-目標(biāo)邊緣會添加到聯(lián)合因子圖中來優(yōu)化姿勢。

最后聯(lián)合BA優(yōu)化一個聯(lián)合地圖，包括攝像頭姿態(tài)、目標(biāo)姿勢和地圖點：

3 “DROID-SLAM: Deep Visual SLAM for Monocular, Stereo, and RGB-D Cameras” arXiv，August 2021

普林斯頓大學(xué)鄧加團(tuán)隊發(fā)表。

DROID（Differentiable Recurrent Optimization-Inspired Design）-SLAM，是一種基于深度學(xué)習(xí)的SLAM系統(tǒng)。DROID-SLAM通過dense BA層對攝像機(jī)姿勢和像素深度進(jìn)行重復(fù)迭代更新。盡管在單目視頻方面進(jìn)行了訓(xùn)練，但采用立體視覺或RGB-D視頻的話，在測試時可實現(xiàn)更高性能。

開源代碼 https://github.com/princeton-vl/DROID-SLAM

如圖是示意圖：

它包括recurrent iterative updates，在RAFT optical flow模型（“Raft: Recurrent all-pairs field transforms for optical flow“，ECCV，2020）基礎(chǔ)上做了兩點改進(jìn)：

采用多幀優(yōu)化，而不是兩幀；
更新基于一個可微分的Dense Bundle Adjustment (DBA) 層。

采用一個frame-graph，特征提取主要來自RAFT，同樣包括兩個：特征網(wǎng)絡(luò)和上下文網(wǎng)絡(luò)。特征網(wǎng)絡(luò)用于構(gòu)建一組關(guān)聯(lián)體，而上下文特征則在更新操作的每個應(yīng)用程序注入網(wǎng)絡(luò)。

SLAM 系統(tǒng)的核心組件是如圖所示的學(xué)習(xí)更新操作：更新操作是具有隱狀態(tài) 的 3 × 3 ConvGRU，操作在frame- graph的邊緣進(jìn)行，預(yù)測映射到深度的流修正（flow revision），并通過DBA層進(jìn)行姿勢更新。

相關(guān)特征提供了有關(guān)致密流域每個像素位置附近視覺相似性的信息，使網(wǎng)絡(luò)能夠?qū)W習(xí)對齊視覺相似的圖像區(qū)域。但是，對應(yīng)關(guān)系有時是模棱兩可的。該流提供了一個互補信息源，允許網(wǎng)絡(luò)利用運動場中的平滑度來獲得魯棒性。

相關(guān)特征和流特征在注入GRU之前分別通過兩個卷積層進(jìn)行映射。此外，通過逐元加操作將上下文網(wǎng)絡(luò)提取的上下文特征注入GRU。

ConvGRU是一個小感受野的局部操作。沿著空間維做隱平均，提取全局上下文，并將此特征向量用作GRU的額外輸入。全局上下文在 SLAM 中很重要，因為不正確的對應(yīng)關(guān)系（例如由大型移動目標(biāo)引起）會降低系統(tǒng)的準(zhǔn)確性。對網(wǎng)絡(luò)來說，識別和拒絕錯誤對應(yīng)非常重要。DBA層把流修正集映射成姿態(tài)集，并逐元深度更新。如下定義成本函數(shù)：

整個系統(tǒng)包含兩個異步運行線程。前端線程接收新幀、提取特征、選擇關(guān)鍵幀并執(zhí)行局部BA；后端線程同時對關(guān)鍵幀的整個歷史記錄執(zhí)行全局BA。

DROID- SLAM可以泛化到其他數(shù)據(jù)集，如圖所示：

4 “ART-SLAM: Accurate Real-Time 6DoF LiDAR SLAM“，arXiv，September，2021

由意大利一所大學(xué)發(fā)表。

基于地面車輛的實時6-自由度姿態(tài)估計是機(jī)器人學(xué)中的一個重要研究課題，應(yīng)用如自動駕駛和三維地圖。本文提出一種快速、準(zhǔn)確和模塊化的激光雷達(dá)SLAM系統(tǒng)，用于批量和在線估計。首先下采樣和出格點去除，濾除噪聲并減小輸入點云的大小。然后將過濾后點云用于姿態(tài)跟蹤和地面檢測，優(yōu)化估計的軌跡。與濾波過程并行工作，一個預(yù)跟蹤器允許獲得預(yù)計算里程計，在跟蹤時用作輔助工具。通過g2o pose graph實現(xiàn)的高效閉環(huán)和位姿優(yōu)化，是該SLAM流水線的最后步驟。系統(tǒng)的性能與當(dāng)前基于點云的方法（LOAM、LeGO-LOAM、A-LOAM、LeGO-LOAM BOR和HDL）進(jìn)行了比較，結(jié)果表明，系統(tǒng)達(dá)到了相同或更好的精度，并且可以輕松地處理無閉環(huán)的情況。使用KITTI和Radiante數(shù)據(jù)集對估算的軌跡位移量進(jìn)行比較。

注：HDL（“A portable 3d lidar-based system for long-term and wide-area people behavior measurement”，IEEE T- HMS，2018）

代碼上線：https://github.com/MatteoF94/ARTSLAM

ART（Accurate Real-Time）- SLAM的框架如下：該系統(tǒng)由多個不同模塊組成，基本兩個主塊。第一個塊是必需的（灰色），是ART-SLAM的核心，在輸入點云上執(zhí)行SLAM的所有模塊（圖中為橙色）。其他塊是可選的，用于主系統(tǒng)與來自不同傳感器數(shù)據(jù)集成，或和重新處理輸入集成。

給定入射激光掃描，第一步是在預(yù)濾波器中進(jìn)行處理，減小其尺寸并去除噪聲。過濾后的點云同時發(fā)送到兩個模塊。最重要的模塊是跟蹤器，與先前濾波的掃描進(jìn)行scan-to- scan匹配（比如實用方法 ICP, GICP, VGICP 和 NDT)，估計機(jī)器人當(dāng)前位移。另一個是地面檢測器，發(fā)現(xiàn)機(jī)器人相對地面的姿勢，增加對軌跡的高度和旋轉(zhuǎn)一致性。當(dāng)前姿勢估計連同其對應(yīng)點云一起發(fā)送到閉環(huán)檢測器（基于SC算法）模塊，在新點云和以前點云之間找到閉環(huán)，再次執(zhí)行scan-to- scan匹配。此外，用姿勢、閉環(huán)和地面系數(shù)（由地面檢測器模塊估計）構(gòu)建pose graph，表征機(jī)器人的軌跡。最后，對pose graph進(jìn)行優(yōu)化，以提高姿態(tài)估計精度。

IMU和GPS數(shù)據(jù)（圖中粉紅色區(qū)域）可以集成在pose graph生成器模塊，提高估計軌跡的精度。此外，預(yù)計算里程計（例如，通過不同的傳感器或系統(tǒng)）可以作為scan matching的初始猜測提供給跟蹤器。最后，預(yù)跟蹤器模塊（圖中綠色區(qū)域）執(zhí)行多級scan-to- scan匹配，在跟蹤之前快速估計機(jī)器人運動。

每個模塊的架構(gòu)如下：它由一個或多個observers、一個或多個dispatch隊列、一個core和一個或多個notifiers組成。此外，ART-SLAM是一種零拷貝軟件，允許對大量數(shù)據(jù)進(jìn)行完善改進(jìn)，同時將其保存在內(nèi)存中。

observer允許模塊在數(shù)據(jù)可用時立即捕獲數(shù)據(jù)，與類型無關(guān)。由于數(shù)據(jù)到達(dá)速率可能不同于處理所需時間，observer將接收到的數(shù)據(jù)放入一個或多個dispatch隊列，即FIFO結(jié)構(gòu)，避免丟失傳入數(shù)據(jù)。模塊中core是主要特點：一次為每個dispatch完善改進(jìn)一個數(shù)據(jù)，從相對dispatch隊列中提取數(shù)據(jù)。一旦core完成任務(wù)，會將模塊的副產(chǎn)品發(fā)送給notifier程序，將這些副產(chǎn)品廣播給所有需要的模塊。使用dispatch隊列的優(yōu)點是，如果不需要時間一致性，可以在多個線程并行執(zhí)行相同core任務(wù)。

pose graph中的每個節(jié)點表示機(jī)器人的位置和在該位置獲取的測量值（點云）；此外，每個節(jié)點都與相應(yīng)的關(guān)鍵幀相關(guān)聯(lián)。兩個節(jié)點之間的邊，包含節(jié)點對應(yīng)機(jī)器人姿勢變換的概率分布。這些變換，要么是跟蹤器模塊在連續(xù)位置之間給出的里程計測量值，要么是通過兩個關(guān)鍵幀之間獲取的傳感器測量值對齊來估計。由于傳感器噪聲和機(jī)器人里程計中的漂移，相關(guān)邊只表示軟約束且不固定。但是，可以插入絕對約束，不做任何方式修改。這些約束的示例包括地面系數(shù)、GPS或IMU數(shù)據(jù)，盡管也可以設(shè)置為非絕對約束，因為傳感器或測量帶有不確定性。此外，當(dāng)執(zhí)行閉環(huán)檢測和進(jìn)行閉合的時候，可以在圖中的非連續(xù)節(jié)點之間添加新邊。

以下圖例是實驗的算法結(jié)果比較：

Sequence 07 KITTI

Sequence 05 KITTI

5 “A Biologically Inspired Simultaneous Localization and Mapping System based on LiDAR Sensor“，September，2021

受嚙齒動物的海馬模型（rodent hippocampus）啟發(fā)，本文提出一種基于激光雷達(dá)傳感器的生物啟發(fā)SLAM系統(tǒng)，用海馬模型構(gòu)建認(rèn)知地圖（cognitive map）并估計機(jī)器人在室內(nèi)環(huán)境中的姿勢?；谏飭l(fā)模型，SLAM系統(tǒng)用激光雷達(dá)傳感器的點云數(shù)據(jù)，用來自激光雷達(dá)里程計的自運動線索和來自激光雷達(dá)局部視圖單元（local view cells）的局部視圖線索來構(gòu)建認(rèn)知地圖和估計機(jī)器人姿勢。

整個SLAM系統(tǒng)架構(gòu)如下：包括激光雷達(dá)里程計，激光雷達(dá)局部視圖單元和姿態(tài)單元網(wǎng)絡(luò)（pose cell network）。

“激光雷達(dá)里程計“為機(jī)器人生成運動數(shù)據(jù)起著重要作用?！凹す饫走_(dá)局部視圖單元”模塊提供基于激光雷達(dá)觀測處理和集成局部視圖線索?！弊藨B(tài)單元網(wǎng)絡(luò)“，根據(jù)”激光雷達(dá)里程計“的自運動數(shù)據(jù)和”激光雷達(dá)局部視圖單元“模塊的局部視圖線索，通過路徑積分和閉環(huán)，估計機(jī)器人的3-DoF姿態(tài)。

“激光雷達(dá)局部視圖單元“模塊，將激光雷達(dá)觀測結(jié)果處理為視圖模板（view templates），表示場景的特征信息?！凹す饫走_(dá)局部視圖”模板用于維護(hù)局部視圖，并向“姿勢單元網(wǎng)絡(luò)”提供局部視圖線索信息。實時激光雷達(dá)觀測輸入與學(xué)習(xí)的局部視圖進(jìn)行比較，要么在成功找到匹配視圖時生成一個姿勢標(biāo)定活動，要么在沒有匹配視圖時將其添加到學(xué)習(xí)的局部視圖中，學(xué)習(xí)新局部視圖。

一個局部視角的兩步匹配（two-stage matching）算法如下：

該文由RatSLAM（“Ratslam: a hippocampal model for simultaneous localization and mapping,” IEEE ICRA’04）啟發(fā)，提出姿勢單元網(wǎng)絡(luò)來保持姿勢表征，集成來自激光雷達(dá)里程計的自運動線索和來自激光雷達(dá)局部視圖單元的局部視圖線索，旨在減少里程計漂移、解決制圖過程中的局部視圖多義性問題。利用姿勢單元網(wǎng)絡(luò)，SLAM系統(tǒng)能夠基于自運動線索做路徑積分來構(gòu)建認(rèn)知地圖。此外，借助激光雷達(dá)視圖線索，姿勢單元網(wǎng)絡(luò)執(zhí)行閉環(huán)來標(biāo)定估計的姿勢和在線認(rèn)知地圖，以減少激光雷達(dá)里程計累積誤差和漂移。

姿勢單元網(wǎng)絡(luò)是一個3D連續(xù)吸引網(wǎng)絡(luò)，即3D-CAN（“Path integration and cognitive mapping in a continuous attractor neural network model,” Journal of Neuroscience, 1997），表征為活動的3D矩陣。姿勢單元網(wǎng)絡(luò)的每個姿勢單元，通過興奮性（excitatory）和抑制性（inhibitory）連接，與其相鄰單元相連，以3-D形式圍繞在網(wǎng)絡(luò)的邊界，這樣姿勢單元網(wǎng)絡(luò)能夠表征有限數(shù)量姿勢單元的無界空間（unbounded space）。

姿勢單元網(wǎng)絡(luò)，加入基于3-D高斯分布的局部興奮和全局抑制活動，隨時間自更新姿勢單元網(wǎng)絡(luò)動力學(xué)。作為激活細(xì)胞聚集的姿勢單元網(wǎng)絡(luò)穩(wěn)定狀態(tài)，如OpenRatSLAM（“Openratslam: an open source brain-based slam system,” Autonomous Robots, 2013），姿勢估計則編碼為活動包（activity packet）質(zhì)心。

給定來自局部視圖單元的激光雷達(dá)局部視圖線索，一個標(biāo)定活動會注入姿勢單元網(wǎng)絡(luò)，執(zhí)行進(jìn)一步的閉環(huán)和重定位。為解決局部視圖的多義性，當(dāng)連續(xù)局部視圖的更新超過閾值，讓姿態(tài)單元的主活動包可以移動。

在制圖過程中，激光雷達(dá)里程計、激光雷達(dá)局部視圖單元和姿勢單元網(wǎng)絡(luò)的信息，組合和累積在一起估計機(jī)器人姿勢，并構(gòu)建認(rèn)知地圖作為機(jī)器人運動經(jīng)驗的拓?fù)鋱D。當(dāng)觀察學(xué)習(xí)的局部視圖檢測到閉環(huán)時，在兩個現(xiàn)有經(jīng)驗節(jié)點之間建立新的轉(zhuǎn)換（transition），在認(rèn)知圖中帶來新循環(huán)。

6 “Learning Efficient Multi-agent CooperativeVisual Exploration“，arXiv，October，2021

由清華大學(xué)和上海期智研究院發(fā)表。

任務(wù)是視覺多智體室內(nèi)探索，其中智體用盡可能少的步驟合作探索整個室內(nèi)。傳統(tǒng)的基于規(guī)劃方法，通常在每個推理步驟都會遭遇特別昂貴的計算以及協(xié)作策略有限的表現(xiàn)力。相比之下，強(qiáng)化學(xué)習(xí)（RL）具備任意復(fù)雜策略的建模能力和最小推理開銷，所以成為應(yīng)對這一挑戰(zhàn)的一種趨勢典范。

本文引入一種基于RL全局目標(biāo)規(guī)劃器，即空間協(xié)調(diào)規(guī)劃器（Spatial Coordination Planner，SCP），將單智體RL解決方案，即主動神經(jīng)SLAM（Active Neural SLAM，ANS），擴(kuò)展到多智體環(huán)境，以端到端的方式，利用每個智體的空間信息有效地引導(dǎo)智體，以高探索效率對不同的空間目標(biāo)導(dǎo)航。

SCP組成包括兩個：一個基于transformer的relation encoder用于捕獲智體內(nèi)交互，和一個spatial action decoder生成準(zhǔn)確目標(biāo)。此外，實現(xiàn)一些多智體增強(qiáng)功能，處理來自每個智體的局部信息，實現(xiàn)對齊的空間表征和更精確的規(guī)劃方案。最終的解決方案，即多智體主動神經(jīng)SLAM（Multi-Agent Active Neural SLAM，MAANS），結(jié)合所有這些技術(shù)，在視覺逼真的物理試驗臺Habitat中，進(jìn)行實驗。

基于規(guī)劃的解決方案已被廣泛應(yīng)用于單智體和多智體場景中的機(jī)器人導(dǎo)航問題。基于規(guī)劃的方法只需要很少的訓(xùn)練，可以直接應(yīng)用于不同的場景。然而，這些方法通常在協(xié)調(diào)策略上的表現(xiàn)力有限，需要對每個測試場景進(jìn)行不同尋常的超參數(shù)調(diào)整，由于在每個決策步驟重復(fù)重規(guī)劃，因此特別耗時。

相比之下，強(qiáng)化學(xué)習(xí)（RL），對一些決策問題而言，包括各種視覺導(dǎo)航任務(wù)，是一種很有前途的方案?；赗L的智體通常被參數(shù)化為深度神經(jīng)網(wǎng)絡(luò)，并根據(jù)原始傳感器信號直接生成動作。一旦策略通過RL算法得到很好的訓(xùn)練，機(jī)器人就可以捕獲任意復(fù)雜的策略，并通過高效的推理計算（即神經(jīng)網(wǎng)絡(luò)的單次前傳）生成實時決策。然而，訓(xùn)練有效的RL政策可能特別具有挑戰(zhàn)性。因此，大多數(shù)現(xiàn)有的機(jī)器人探索問題，其RL方法集中在單智體設(shè)置上，而大多數(shù)多智體RL方法，僅在迷宮（maze）或網(wǎng)格世界等簡單場景下進(jìn)行評估。

如圖是原ANS的框架：根據(jù)傳入的RGB觀測和傳感器數(shù)據(jù)，預(yù)測地圖和智體姿勢估計。全局策略使用該地圖和姿勢輸出長期目標(biāo)（long-term goal），用分析路徑規(guī)劃器轉(zhuǎn)換為短期目標(biāo)（short-term goal）。訓(xùn)練一個局部策略，實現(xiàn)這一短期目標(biāo)。

這里全局規(guī)劃器采用增強(qiáng)的以智體為中心的局部地圖作為輸入，包括指示已探測區(qū)域、未探測區(qū)域及障礙和歷史軌跡的通道，從長期目標(biāo)坐標(biāo)的兩個高斯分布中輸出兩個實數(shù)。該全局規(guī)劃器被參數(shù)化為CNN策略，并通過PPO算法進(jìn)行訓(xùn)練。

而局部規(guī)劃器在智體為中心的局部地圖執(zhí)行經(jīng)典規(guī)劃，即FMM（Fast Marching Method）算法，實現(xiàn)給定的長期目標(biāo)，并輸出短期子目標(biāo)的軌跡。最后，局部策略生成給定RGB圖像和子目標(biāo)的動作，并通過模仿學(xué)習(xí)進(jìn)行訓(xùn)練。

如圖是ANS中Neural SLAM架構(gòu)：該模塊通過監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練，以RGB圖像、姿勢感知信號及其過去的輸出作為輸入，并輸出更新的2D重建地圖和當(dāng)前姿勢估計。

如圖是本文提出的MA-ANS新框架：

每個智體首先將其姿態(tài)感知信號和RGB圖像傳遞給NeuralSLAM模塊，獲得智體為中心的局部地圖和姿態(tài)估計。地圖細(xì)化（map refiner）對每個局部地圖進(jìn)行規(guī)范化，并與其他特定于智體的信息結(jié)合，作為空間協(xié)調(diào)規(guī)劃器（SCP）的輸入全局地圖。對ID=k的每個智體，SCP接收ID信息，在所有輸入地圖的提取特征應(yīng)用基于transformer的關(guān)系編碼器（relation encoder），并通過智體k的空間動作解碼器（spatial action decoder）生成全局目標(biāo)。局部規(guī)劃器在合并的全局地圖上為全局目標(biāo)執(zhí)行軌跡規(guī)劃。最后，由局部策略生成一個動作。

如圖是SCP模塊示意圖：包括N個CNN-based feature extractors, 一個relation encoder 和一個 spatial action decoder。

如圖是地圖細(xì)化（map refiner）和地圖合并（map merger）的計算工作流：

“地圖細(xì)化“，首先合成所有以前以智體為中心的局部地圖，恢復(fù)以智體為中心的全局地圖。然后，基于姿勢估計變換坐標(biāo)系，規(guī)范化來自同一坐標(biāo)系的所有智體全局地圖。相應(yīng)地規(guī)范化的全局地圖，包含圍繞實際可探測室內(nèi)區(qū)域的無法探測的大邊界。為了確保SCP的特征提取只關(guān)注可實現(xiàn)部分，并導(dǎo)致更集中的空間動作空間，裁剪歸一化地圖的不可解釋邊界，并放大室內(nèi)區(qū)域作為最終的細(xì)化地圖。

在“地圖細(xì)化”獲得N個放大的全局地圖后，“地圖合并”對每個像素位置應(yīng)用max-pooling操作簡單地集成這些地圖。也就是說，對于合并的全局地圖的每個像素，成為障礙的概率是，在所有放大的全局地圖中該像素位置的最大值。人工合并的全局地圖僅用于局部規(guī)劃器，而不用于全局規(guī)劃器SCP。

7 “MegBA: A High-Performance and Distributed Library for Large-Scale Bundle Adjustment“，arXiv December，2021

曠視科技和愛丁堡大學(xué)發(fā)表。

大規(guī)模BA是3D視覺應(yīng)用的關(guān)鍵（例如，SfM和SLAM）。盡管重要，但現(xiàn)有BA庫（如Ceres和g2o）對大規(guī)模BA的支持較差。這些庫未充分利用加速器（即GPU），并且缺乏有效分配BA計算的算法，因此限制了BA問題的規(guī)模。本文提出MegBA，一個用于大規(guī)模BA的高性能分布式庫。MegBA有一種端到端矢量化BA算法，可以在GPU上完全釋放大量并行核，從而加快整個BA計算。它還具有一種精確分布式BA算法，可以自動劃分BA問題，并用分布式GPU解決BA子問題。GPU用網(wǎng)絡(luò)高效的集體通信（collective communication）同步中間求解狀態(tài)，并且設(shè)計同步最小化通信成本。MegBA有一個內(nèi)存高效的GPU運行，并公開了和g2o兼容的API。實驗表明，在公共大型BA基準(zhǔn)測試中，MegBA的性能比最先進(jìn)的BA庫（即Ceres和DeepLM）分別高出47.6倍和6.4倍。

MegBA概覽如圖所示5步：（1） MegBA基于邊劃分BA問題；BA子問題的大小相同，調(diào)遣到分布式GPU；（2）在每個GPU用矢量化運算計算雅可比矩陣；（3）采用矢量化運算構(gòu)造線性系統(tǒng)；（4）采用矢量化分布式PCG算法求解線性系統(tǒng)，并通過集體通信同步中間PCG狀態(tài)。迭代執(zhí)行步驟（2）-（3）-（4），直到滿足（5）收斂標(biāo)準(zhǔn)。

一個BA問題定義：

求解BA，經(jīng)常利用Schur Complement (SC) ，即

求解該問題相當(dāng)于一個等價方程求解，即

SIMD-optimised Vectorised BA的算法如下：

SIMD-optimised vertorised PCG的算法如下：

在高層看，MegBA分布式BA算法有兩個主要組成部分：（i）一種可以將BA問題劃分為子問題的方法，這些子問題可以由并行矢量化PCG解決；（ii）一種可以同步并行PCG狀態(tài)的算法，以便可以共同解決原始全局BA問題。

distributed PCG算法如下所示：

在Nvidia GPU上實現(xiàn)MegBA，整個實現(xiàn)基于兩項技術(shù)優(yōu)化內(nèi)存效率：

（i）預(yù)測BA內(nèi)存緩沖區(qū)使用，最小化內(nèi)存分配；

（ii）在GPU線程之間共享內(nèi)存。

與g2o和Ceres完全兼容的方式實現(xiàn)MegBA的API，MegBA API包含兩個主要組件：

聲明BA問題；
選擇BA求解器。

性能比較結(jié)果見表：

8 “Fast Direct Stereo Visual SLAM“， arXiv，December，2021

作者來自美國明尼蘇達(dá)大學(xué)。

本文提出一種不依賴于特征檢測和匹配的快速、準(zhǔn)確的立體視覺SLAM方法，DSV（direct-stereo-vision）-SLAM。將單目DSO（Direct Sparse Odometry）方法擴(kuò)展到立體視覺系統(tǒng)，通過優(yōu)化3D點尺度來最小化立體視覺的光度（photometric）誤差；與傳統(tǒng)的立體匹配相比，這是一種計算效率高且魯棒的方法。進(jìn)一步擴(kuò)展到有閉環(huán)的完全SLAM系統(tǒng)，減少累積誤差。在假設(shè)攝像機(jī)向前運動的情況下，從視覺里程計獲得3D點，模擬激光雷達(dá)掃描，用激光雷達(dá)點云描述子進(jìn)行位置識別，更有效地檢測閉環(huán)。然后，用直接對齊法（direct alignment）估計相對姿態(tài)，最小化潛在閉環(huán)的光度誤差?？蛇x地是，用ICP（Iterative Closest Point）算法對直接對齊方法進(jìn)一步改進(jìn)。最后，優(yōu)化一個pose graph，提高全局SLAM精度。因為避免SLAM系統(tǒng)的特征檢測或匹配，確保較高的計算效率和魯棒性。對公共數(shù)據(jù)集的徹底實驗，驗證表明其有效性。

代碼開源：https: //github.com/IRVLab/direct_stereo_slam

如圖是該方法DSV-SLAM的概覽：將尺度優(yōu)化和基于激光雷達(dá)描述子的位置識別方法結(jié)合到直接立體視覺SLAM系統(tǒng)中，（1）從Cam0開始，單目VO估計攝像機(jī)姿勢并生成3D點；（2） Scale Optimization模塊用3D點估計并保持VO尺度；（3）閉環(huán)檢測（loop closure detection）模塊基于VO的3D點檢測閉環(huán)；（4）對于潛在閉環(huán)，Loop Correction模塊估計閉環(huán)的相對姿勢，并全局性優(yōu)化姿勢。

尺度優(yōu)化方法取自作者論文（“Extending Monocular Visual Odometry to Stereo Camera Systems by Scale Optimization”. IROS, 2019），優(yōu)化的主要思想是將Cam0的單目VO點投影到Cam1，找到使光度誤差最小的最佳尺度。

而基于激光雷達(dá)描述子的閉環(huán)檢測取自作者論文（“A Fast and Robust Place Recognition Approach for Stereo Visual Odometry Using LiDAR Descriptors“. IROS, 2020）。從VO局部累積3D點，獲得一組局部點，然后圍繞當(dāng)前姿勢生成一組Spherical Points，模擬激光雷達(dá)掃描。

SC算法的主要思想是使用城市區(qū)域（例如建筑物）的高度分布來描述激光雷達(dá)生成的點云。原始SC將點云相對于 IMU 重力方向?qū)R。由于不希望引入額外的傳感器（即IMU）到視覺SLAM系統(tǒng)中，因此用PCA來對齊點云。水平面（PCA 平面）根據(jù)半徑和方位角劃分為多個bins。每個bin的最大高度連接起來，形成當(dāng)前位置的簽名（signature）。在SC算法之前用ring-key進(jìn)行快速初步搜索，SC編碼半徑確定每個ring的occupancy ratio 。

如圖所示即模擬激光雷達(dá)掃描ring-key和SC描述子的簡化圖（假設(shè)建筑物和樹木的高度分別為10米和3米）：

系統(tǒng)中，對于立體視覺VO的每個關(guān)鍵幀，該方法模擬激光雷達(dá)掃描，并用修改SC描述子生成位置簽名。然后，在簽名數(shù)據(jù)庫（signature database）搜索潛在的閉環(huán)。首先通過ring-key進(jìn)行搜索，其操作速度快，但不易區(qū)分，因此我們選擇前三位候選做SC，這樣再做出最終決定。

一些實驗結(jié)果比較如下：

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：一篇最新綜述：尋找自動駕駛的關(guān)鍵場景
上一篇：新能源汽車800V高壓平臺和SiC應(yīng)用

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評論

• “汽車大角度座椅第1部分：通用要求”將有國家標(biāo)準(zhǔn)	• “汽車大角度座椅第2部分：可靠性要求”將有國家標(biāo)準(zhǔn)
• 電池耐久評價開始從“電池單體性能指標(biāo)”轉(zhuǎn)變?yōu)椤罢囅到y(tǒng)	• 把脈消費趨勢，賦能產(chǎn)業(yè)升級：商務(wù)部副部長盛秋平赴壹萬科
• 是德科技推出適用于AI數(shù)據(jù)中心的Scale-Up驗證解決方案	• 為什么新車準(zhǔn)入必須管到運行階段，而不能只靠召回兜底
• 是德科技攜手愛立信賦能Pre-6G互操作性驗證	• 懂車帝《懂車性能場》上線：中國品牌征戰(zhàn)紐北，比肩全球性
• 哈曼升級 Ready產(chǎn)品矩陣打造智能、有價值的車載體驗	• 廣汽昊鉑A800榮膺2026“零甲醛”汽車桂冠，定義健康出行新

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

最近出現(xiàn)的幾篇視覺和激光雷達(dá)SLAM論文介紹

微信公眾號

編輯推薦

最新資訊

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

電池耐久評價開始從“電池單體性能指標(biāo)”轉(zhuǎn)

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

最近出現(xiàn)的幾篇視覺和激光雷達(dá)SLAM論文介紹

微信公眾號

編輯推薦

最新資訊

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

電池耐久評價開始從“電池單體性能指標(biāo)”轉(zhuǎn)

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將