日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

首頁 > 汽車技術 > 正文

自動駕駛中基于深度學習的雷達與視覺融合用于三維物體檢測的綜述

2025-11-19 12:36:23·  來源:同濟智能汽車研究所  
 

編者按:清華大學Mars Lab團隊提出SLAM-Former,首次將完整SLAM系統(tǒng)集成于單一Transformer中。該模型通過前端實時跟蹤建圖與后端全局優(yōu)化交替協(xié)同,有效解決傳統(tǒng)方法中累積誤差與全局不一致的問題。實驗顯示,其在TUM、7-Scenes等多個基準上取得領先的追蹤與重建精度,為視覺SLAM的統(tǒng)一神經(jīng)網(wǎng)絡架構提供了新方向。


本文譯自:

《SLAM-Former: Putting SLAM into One Transformer》

文章來源:


arXiv preprint arXiv:2509.16909 (2025).


作者:

Yuan, Yijun, Zhuoguang Chen, Kenan Li, Weibang Wang, Hang Zhao

作者單位:

清華大學

原文鏈接:

https://arxiv.org/abs/2509.16909


摘要:我們提出了 SLAM-Former,這是一種將完整的 SLAM 功能集成到單個 Transformer 中的新型神經(jīng)方法。與傳統(tǒng)的 SLAM 系統(tǒng)類似,SLAM-Former 同樣包含前端和后端,二者協(xié)同工作。前端實時處理連續(xù)的單目圖像,以實現(xiàn)增量式建圖和定位,而后端則進行全局優(yōu)化,以確保幾何一致性。這種交替執(zhí)行的方式使得前端和后端能夠相互促進,從而提升整體系統(tǒng)性能。全面的實驗結果表明,SLAM-Former 的性能優(yōu)于或可與最先進的稠密 SLAM 方法相媲美。

關鍵詞:傳感器融合,雷達,攝像頭,物體檢測,計算機視覺,攝像頭雷達融合,雷達-視覺,自動駕駛,綜述,調查

Ⅰ 簡介


在機器人感知領域,同時定位與建圖(SLAM)具有重要意義。它使機器人能夠在未知環(huán)境中構建地圖的同時追蹤自身位置。這種能力對于機器人在各種環(huán)境中自主導航和執(zhí)行任務至關重要。早期的 SLAM 算法主要側重于使用稀疏點進行定位和建圖,例如 ORB-SLAM 和 LSD-SLAM。這些方法高效且穩(wěn)健,但可能無法提供周圍環(huán)境的詳細信息。相比之下,密集建圖技術旨在創(chuàng)建更詳細且連續(xù)的環(huán)境表示,主要依賴于激光雷達和 RGB-D。隨著光流和多視角深度估計技術的迅速發(fā)展,近期的研究僅通過圖像輸入就實現(xiàn)了高質量的密集單目 SLAM。這些方法利用神經(jīng)網(wǎng)絡和計算機視覺算法的能力,從單個相機中估計深度和運動,從而無需額外傳感器即可創(chuàng)建密集地圖。尤其值得注意的是,利用幾何基礎模型的趨勢。這些模型展現(xiàn)了數(shù)據(jù)驅動的 3D 結構預測的巨大潛力。其流式變體通過精心設計,進一步提升了性能。

通過老化注意力鍵值緩存(KV 緩存),使模型能夠處理增量視覺輸入。我們注意到,諸如 MASt3R-SLAM 和 VGGT-SLAM 這類使用幾何基礎模型作為重建模塊的 SLAM 方法存在全局一致性問題,因為它們依賴于局部子地圖的對齊。另一方面,像 StreamVGGT 和 Stream3R 這樣的流式方法處理增量輸入時不會重新映射過去的數(shù)據(jù),這可能會導致過去數(shù)據(jù)與新輸入數(shù)據(jù)之間出現(xiàn)顯著的不匹配。

在這項工作中,我們提出了一種在單一統(tǒng)一的 Transformer 架構中實現(xiàn)的視覺同步定位與建圖(SLAM)框架,命名為 SLAM-Former。SLAM-Former 在同一個 Transformer 中包含前端和后端,二者協(xié)同工作。前端對連續(xù)的 RGB 圖像進行實時處理,用于關鍵幀選擇以及增量式地圖和位姿更新。前端的增量輸出會定期由后端以較低的頻率進行全局地圖和位姿的優(yōu)化。

在這一交替過程中,前端和后端相互促進。每次后端運行后,都會將轉換器的 KV 緩存更新到前端以進行進一步的增量操作。作為回報,前端提供初始結果和順序,幫助后端進行優(yōu)化。為了使單個轉換器具備所有 SLAM 功能,我們?yōu)?SLAM-Former 提出了三種訓練模式。

與傳統(tǒng)的 SLAM 管道相比,后者需要額外的回環(huán)檢測模塊來閉合其位姿圖,而 SLAM-Former 的后端通過全注意力機制實現(xiàn)了這一功能,相當于在密集因子圖上進行回環(huán)檢測。與現(xiàn)有的校準和未校準的先進方法相比,SLAM-Former 在廣泛使用的密集單目 SLAM 基準測試中實現(xiàn)了顯著更優(yōu)的重建效果和最先進的跟蹤性能。

圖片

圖 1.SLAM-Former 是用于 SLAM 的統(tǒng)一 Transformer。傳統(tǒng)的 SLAM 采用多模型流水線來處理前端和后端任務。相比之下,SLAM-Former 將完整的 SLAM 功能整合到一個 Transformer 中,實現(xiàn)了連貫的姿態(tài)估計和密集的地圖構建。


Ⅱ 相關工作


A. 密集型RGB SLAM

近年來,基于單目相機的稠密 SLAM 研究取得了顯著進展,這得益于深度學習技術的應用。由于沒有深度傳感器,稠密的 RGB SLAM 需要將整個幾何序列和相機作為一個整體進行優(yōu)化。

早期的研究工作側重于降低深度估計的計算成本。例如,CodeSLAM 和 DeepFactors 通過優(yōu)化深度潛在變量作為替代方案。借鑒 MVSNet 的優(yōu)勢,Tandem 依賴于外部模型,但打破了協(xié)同優(yōu)化的結構。相反,DROIDSLAM 和 Scene-Factory 將深度光流模型整合到流程中,并通過速度密集的束調整協(xié)同優(yōu)化兩者。另一方面,基于 NeRF 和高斯點陣的方法已成為重塑密集 SLAM 的趨勢。NeRF-SLAM 方法和 GS-SLAM 方法以高度逼真的新視圖合成目標為整體優(yōu)化場景。然而,這些基于渲染的 SLAM 方法通常耗時較長,無法滿足重建需求,且對模糊和噪聲高度敏感,這極大地限制了它們在實際生活中的應用。

隨著諸如 DUSt3R 和 VGGT 等近期基礎幾何技術的出現(xiàn),研究人員獲得了新的靈感。MASt3R-SLAM 利用先進的成對模型 MASt3R 進行高質量的免校準匹配和幾何構建,在傳統(tǒng)的 SLAM 流程中展現(xiàn)了最先進的性能。另一方面,VGGT-SLAM 將子地圖輸入到 VGGT 中,并使用新穎的 SL(4) 流形將它們連接起來,首次對基礎幾何中的幾何失真進行了建模。然而,這些方法依賴于成對或子地圖級別的幾何優(yōu)化,這常常導致幀之間的沖突結構。MASt3R-SLAM 試圖通過 TSDF 融合來解決這個問題,但這種方法只能修復小的不匹配。同時,VGGT-SLAM 無法解決這個問題,因為它僅在前端和末端節(jié)點之間建立了子地圖的連接。

這激勵我們開發(fā)一種前端后端結合的同步定位與建圖(SLAM)結構,以妥善且清晰地解決這一問題。

B. 前饋三維重建

近年來,DUSt3R引領了一種直接利用可擴展訓練數(shù)據(jù)回歸3D結構的趨勢。然而,在處理圖像對時,DUSt3R對于較大場景需要進行全局優(yōu)化,這降低了推理效率。為解決這一局限性,已有多項研究提出相應方案。Fast3R、VGGT和Pi3均在單次前向傳播中處理多視角圖像,避免了耗時的后處理全局優(yōu)化。這三種模型均為基于Transformer的多視角點云估計模型。Fast3R強調了能夠高效處理數(shù)千張圖像的能力,而VGGT則表明,通過采用簡單的架構結合3D多任務學習和可擴展訓練數(shù)據(jù),能夠取得最先進的成果。Pi3進一步引入了置換等變設計,消除了對固定參考視圖的依賴,增強了對輸入順序的魯棒性和可擴展性。

除了前饋多視圖方法之外,近期的前饋流式方法實現(xiàn)了在線3D重建。Spann3R通過維護和與空間記憶進行交互將Dust3R擴展到流式處理。CUT3R引入了基于轉換器的持久狀態(tài)標記。

在線重建的反復更新。LONG3R 采用 3D 空時記憶和由粗到細的流水線來處理長序列流式重建。StreamVGGT 和 Stream3R 進一步引入因果注意力機制,借鑒現(xiàn)代語言模型,以實現(xiàn)實時流式重建。

然而,現(xiàn)有的流式方法僅專注于增量更新,而不重新審視過去的估計值,這會導致漂移和全局一致性受限。為了解決這個問題,我們提出了 SLAM-Former,這是一種統(tǒng)一的神經(jīng) SLAM 管道,它將前端和后端相結合,以實現(xiàn)高效的增量更新和周期性的全局優(yōu)化。


Ⅲ SLAM-Former


本節(jié)介紹我們提出的 SLAM-Former。首先描述其底層的 Transformer 架構,然后分別詳細闡述其在 SLAM 前端和后端的作用。接著介紹一種聯(lián)合訓練策略,將這些任務統(tǒng)一在一個模型中,最后介紹推理流程。

A. Transformer架構

SLAM-Former 基于單個 Transformer 模型構建,其中 Transformer 主干能夠聚合幀內和幀間信息,而特定任務的頭部則用于解碼場景幾何和相機姿態(tài)。為清晰起見,我們假設圖像特征已預先編碼,輸入的是一組圖像補丁標記,其中添加了注冊標記。與 Pi3 類似的設計一樣,我們在所有幀中使用共享的注冊標記,從而無需指定參考幀。主干包含層,每層都配備了幀內和幀間注意力機制,以共同捕獲局部圖像上下文和時間對應關系。

SLAM-Former 將用于增量幀處理的前端和用于全局地圖及姿態(tài)優(yōu)化的后端集成在一個共享的 Transformer 主干網(wǎng)絡中。

B. 前端

我們在圖 2 中展示了前端處理過程。當新一幀圖像到達時,前端首先判斷其是否應作為新的關鍵幀。如果是,則系統(tǒng)繼續(xù)進行跟蹤和建圖。

圖片

圖 2.SLAM-Former 的工作流程。前端檢測關鍵幀并執(zhí)行增量位姿和地圖更新,而后端執(zhí)行全局位姿和地圖更新。共享的地圖標記內存和 KV 緩存更新機制確保前端和后端相互促進,這一過程由藍色箭頭標記。

形式上,給定一個圖像序列,前端  將每一幀映射為一組地圖標記:

圖片

其中表示先前關鍵幀的 KV 緩存,存儲了在幀間注意力層。關鍵幀索引為 ,其基數(shù)為 ,以及幀  的生成映射標記,這些標記作為場景的隱式神經(jīng)表示。在此過程中生成的新 KV 緩存也將擴展到以備后用。

關鍵幀檢測。 生成地圖標記后,前端使用姿態(tài)頭 估計相機姿態(tài)。

圖片

如果某一幀相對于最新關鍵幀的相對姿態(tài),超過了某個閾值,則將其標記為新的關鍵幀。

在實際操作中,對于關鍵幀檢測,我們不依賴 KV 緩存;而是直接將 應用于幀對,這提高了效率,并且無需指定參考幀。

前端跟蹤與映射。如果確認了新的關鍵幀,將使用完整的 KV 緩存重新計算 ,并更新標記映射

圖片

前端僅依賴于過去的幀,因此具有因果性,適合在線跟蹤。然而,這種因果關系不可避免地會導致誤差累積和局部不一致。為了緩解這一問題,我們引入了一個后端模塊來進行全局優(yōu)化。

C. 后端

后端負責對地圖標記進行優(yōu)化以確保全局一致性。如圖 2 所示,傳統(tǒng)的 SLAM 管道通常依靠閉環(huán)檢測和圖優(yōu)化來實現(xiàn)這一目的。相比之下,我們的方法采用了一個基于 Transformer 的后端,它能夠一次性直接優(yōu)化所有地圖標記:

圖片

這種設計的有效性在于內部的全注意力機制,它在所有地圖標記之間建立了密集的連接。這種全局感受野使后端能夠校正累積的偏差,并在重建的場景中強制執(zhí)行結構一致性。

緩存共享。為了繼承后端優(yōu)化帶來的好處,前端會復用來自后端的共享鍵值緩存 

圖片

通過這種方式,后續(xù)幀會根據(jù)優(yōu)化后的全局結構進行跟蹤和映射,從而降低長序列中誤差累積的風險。

D. 訓練策略

訓練策略旨在使單個Transformer能夠同時處理前端和后端的SLAM功能。我們對SLAM進行聯(lián)合訓練,在單次迭代中跨越三種模式,每種模式對應不同的輸入輸出關系。

圖片

圖 3.SLAM-Former 的三種訓練模式。分別代表一幀圖像的圖像塊標記和地圖標記。在每種模式下,要么輸入標記,要么輸入 標記,或者同時輸入兩者。輸入到包含 層幀注意力和各種幀間注意力的變壓器骨干網(wǎng)絡 中。最后,通過頭部 回歸姿態(tài)和點圖。

訓練前端。前端使用因果注意力掩碼進行訓練。在推理時,它會復用先前幀的KV緩存,從而實現(xiàn)高效、端到端的單次學習。

然而,純因果注意力機制本質上將第一幀指定為參考幀。當對兩個或多個幀進行聯(lián)合操作時,我們采用沒有單個幀定義坐標的設計,從而消除了對固定參考視圖的依賴。因此,我們對前兩幀應用全注意力機制,而對所有后續(xù)幀仍使用因果注意力機制。通過這種設計,在推理過程中,關鍵幀檢測是通過將最后一個關鍵幀和傳入幀一起處理進行的。對于跟蹤和映射,前兩個關鍵幀被聯(lián)合處理以確定全局坐標。

通過前后端協(xié)作訓練前端。為了連接前后端操作,我們訓練模型采用混合注意力機制,以同時處理后端和緩存共享功能。具體而言,后端使用全注意力機制細化地圖標記,而前端在與后端相同的前向傳播中處理新圖像,使用因果注意力,這等同于基于后端優(yōu)化的KV緩存進行條件處理。

訓練后端 。后端對來自不同運行或KV緩存狀態(tài)的地圖標記進行優(yōu)化。在此模式下始終應用全注意力機制,使模型能夠解決漂移問題并確保全局一致性。

聯(lián)合訓練。在所有模式下,生成的標記都隱式地表示幾何形狀和相機姿態(tài)。特定任務的頭部預測點圖、置信度和相機姿態(tài)。

圖片

與預測全局幾何結構的 VGGT 不同,SLAM-Former 為每一幀生成局部點圖,從而避免了定義特定世界坐標系的需求。整體損失結合了深度、點圖和相機監(jiān)督:

圖片

對于深度損失,預測深度與真實深度進行監(jiān)督,權重為置信度,其中表示逐元素乘法,表示空間梯度,為尺度因子。

對于點圖損失,類似于深度損失,但定義在與第一幀對齊的變換局部點圖上:,損失設計為 。

對于相機損失,相對位姿一致性通過縮放的 Huber 損失進行監(jiān)督:,其中  表示縮放平移, 表示 Huber 范數(shù)。

這三種模式在單次迭代中按順序執(zhí)行,且共享權重。最終的訓練目標為上述損失的加權組合。

圖片

E. 執(zhí)行管道

執(zhí)行流水線將前端和后端集成起來以執(zhí)行在線SLAM推理。

前端處理。每個傳入的幀首先傳遞給關鍵幀檢測器。如果被識別為關鍵幀,則會進行進一步處理。前兩個關鍵幀會聯(lián)合處理以進行初始化,生成地圖標記和KV緩存,并將其存儲。對于第個關鍵幀(),前端利用緩存的標記生成及其緩存,并將其添加到存儲中。

后端優(yōu)化。每經(jīng)過個關鍵幀后,后端就會被觸發(fā)。累積的地圖標記會被優(yōu)化,生成的鍵值緩存用于更新前T個前端緩存。


Ⅳ 實驗


我們在多個任務上對SLAM-Former進行評估,包括相機跟蹤和密集三維重建。隨后,我們分析了前端-后端設計的影響,并評估了時間效率。

A. 實驗設置

實現(xiàn)細節(jié):SLAM-Former總共有36層同時具備幀注意力和全局注意力的Transformer層。我們使用Pi3預訓練權重初始化SLAM-Former,并以32為批次大小訓練10個周期(不包括凍結的圖像編碼器和相機頭)。在訓練過程中,我們采用AdamW優(yōu)化器,學習率為1e-5,并使用余弦學習率調度器。在損失函數(shù)中,超參數(shù)設置為。關于數(shù)據(jù)集:SLAM-Former在ARKitScenes、ScanNet、ScanNet++、HyperSim、Blended-MVS、MegaDepth和MVS-Synth上進行訓練。在每次迭代中,單個SLAM-Former的所有三種模式都會被訓練。整個訓練過程在11小時內完成。

基線。我們在實驗中使用的基線分為校準基線和未校準基線:已校準方法包括ORB-SLAM3、DeepV2D、DeepFactors、DPV-SLAM、DPV-SLAM++、GO-SLAM、DROID-SLAM、MASt3R-SLAM以及NICER-SLAM。未校準方法包括DROID-SLAM和MASt3R-SLAM、VGGT-SLAM、SLAM3R以及我們的方法SLAM-Former。此外,我們還使用我們的關鍵幀對相關方法CUT3R和StreamVGGT進行了測試。

B. 3D 跟蹤評估

我們首先在TUM RGB-D、7-Scenes和Replica數(shù)據(jù)集上評估SLAM-Former的跟蹤性能。我們計算了在已校準和未校準兩種設置下各種方法的絕對軌跡誤差的均方根誤差。

在TUM RGB-D數(shù)據(jù)集的測試中,評估是在廣泛使用的場景子集上進行的。結果總結在表1中。如圖所示,在未校準設置下,我們的模型始終優(yōu)于大多數(shù)基線模型。在涉及顯著相機旋轉和可能閉環(huán)的房間和地板等更復雜的序列中表現(xiàn)出色,表明我們的后端全局優(yōu)化在減輕累積漂移方面特別有效。更重要的是,與校準基線相比,它顯著降低了誤差,達到了極具競爭力的水平。

表1.TUM RGB-D數(shù)據(jù)集上絕對軌跡誤差的均方根誤差(單位:米)。*符號表示基線是在未校準模式下從VGGT-SLAM論文中評估得出的,+符號表示基線是在我們的機器上測試得出的。

圖片

與TUM RGB-D軌跡的評估方式類似,我們在表2中展示了對7-Scenes數(shù)據(jù)集的評估結果。在未校準和校準兩種設置下,我們的方法均優(yōu)于大多數(shù)基線方法。在辦公室、南瓜和廚房等更復雜的場景中,我們的模型與其余方法相比性能差距更為顯著??傮w而言,我們的方法優(yōu)于所有基線方法。

表2.7-Scenes數(shù)據(jù)集上絕對軌跡誤差的均方根誤差(單位:米)。*符號表示基線是在未校準模式下從VGGT-SLAM論文中評估的,+符號表示基線是在我們的機器上測試的。

圖片

在Replica數(shù)據(jù)集上的軌跡評估。之前的跟蹤實驗是使用真實捕獲的數(shù)據(jù)進行的,而Replica數(shù)據(jù)集是合成的。在未校準的情況下,我們的方法取得了顯著的改進,與SLAM3R相比平均軌跡誤差降低了約50%,并且優(yōu)于所有基線,如表3所示。然而,我們的方法與NICER-SLAM處于同一水平,但仍落后于傳統(tǒng)的SLAM方法DROID-SLAM。這是因為合成數(shù)據(jù)缺乏噪聲和模糊,使得匹配足夠準確,足以在光束平差中求解位姿。相比之下,在之前的實際數(shù)據(jù)測試中,DROID-SLAM的表現(xiàn)與我們的方法相當。

表3.Replica上的絕對軌跡誤差的均方根誤差(單位:米)。加號表示基線是在我們的機器上測試的。

圖片

C. 重建評估

我們在7-Scenes數(shù)據(jù)集上按照VGGT-SLAM的協(xié)議評估了SLAM-Former的重建性能,并在Replica數(shù)據(jù)集上按照相應協(xié)議進行了評估。

在7-Scenes數(shù)據(jù)集上的密集重建結果如表5所示。與其他最先進的密集SLAM方法相比,我們的方法展現(xiàn)出顯著優(yōu)勢。在重建質量方面,我們的方法實現(xiàn)了0.017米的最高重建精度,而其他方法均在0.05米以上。在完整性和切比雪夫距離方面,我們的方法分別實現(xiàn)了0.037米和0.027米,仍比所有基線方法高出約50%。

表5.7-Scenes上的重建評估(單位:米)。表示每幅圖像選取一個關鍵幀。

圖片

在我們的重建演示圖4中,這種在所有主要重建指標上始終表現(xiàn)出色的情況也得到了體現(xiàn)。如圖中前兩行所示,基線方法在紅色窗口區(qū)域內的幀之間存在表面不匹配的情況。相比之下,我們的SLAM-Former重建始終呈現(xiàn)出連貫且準確的結構。

圖片

圖4.定性重建對比。請注意基線方法存在明顯的結構錯誤,例如錯位,而這些錯誤通過SLAM-Former的全局一致性優(yōu)化得到了修正。

在Replica數(shù)據(jù)集上的密集重建結果列于表4中。我們的方法在所有基準測試中均在準確性和完整性方面表現(xiàn)最佳。具體而言,我們的2.09/1.56的準確度/完整性分別比第二好的結果至少高出1厘米。

表4.Replica數(shù)據(jù)集上的重建結果。星號表示NICER-SLAM報告的結果。短橫線顯示的是SLAM3R的結果。加號代表我們運行的結果。

圖片

我們還在圖4的第三行展示了重建效果。在這里,StreamVGGT展示了房間內的多層表面,如紅色窗口區(qū)域所突出顯示的那樣。更嚴重的是,VGGT-SLAM展示的層存在明顯的尺度差異。而SLAM-Former則與真實情況高度吻合。由于測試時對點云的采樣數(shù)量是固定的,基線方法生成的點云密度較低,這是由于層的不匹配造成的。

D. 前端與后端協(xié)作

為了探究SLAM-Former后端設計如何對整體系統(tǒng)性能做出貢獻,我們進行了一系列消融實驗。結果總結在表6中。這里,F(xiàn)、MB和EB分別表示我們架構的前端、中間后端和末端后端組件。所有評估均在TUM RGB-D基準上進行,使用絕對軌跡誤差的均方根誤差作為度量標準。

表6.在TUM RGB-D數(shù)據(jù)集上通過絕對軌跡誤差的均方根誤差評估模塊協(xié)作情況。

圖片

結果表明,加入后端模塊相較于僅使用前端,準確率顯著提高,這證實了我們所提出的前端與后端相結合設計的有效性。

后端如何協(xié)助前端

盡管MB和EB的個體貢獻在平均處理效應方面看似相當,且兩者聯(lián)合使用在整體指標上并未顯示出顯著提升,但需要強調的是,MB所發(fā)揮的作用遠不止體現(xiàn)在最終的平均處理效應上。我們在一些數(shù)據(jù)集中最具挑戰(zhàn)性的序列上展示了中間結果,包括Replica room1、ICLNUIM-ofkt1和TUM room,所有這些序列如圖5所示為室內環(huán)境的內向外捕捉。最初,前端單獨處理的結果誤差相對較小,如紅色窗口所示。然而,隨著時間的推移,前端單獨處理的重建結果變得嚴重失真。這種失真出現(xiàn)的原因在于前端單獨處理會隨著時間的推移累積誤差,從而在后期導致較大的不準確。相比之下,我們的模型結合了后端處理,在整個過程中保持了一致性,有效地緩解了這些問題。

圖片

圖5.有無后端輔助的定性重建對比。第一行顯示了相應時間戳下僅前端的結果,而第二行則展示了有后端KV緩存輔助的結果。

后端如何從前端獲益

上述測試表明,前端能夠得益于后端的支持,從而實現(xiàn)性能的長期穩(wěn)定。然而,后端如何從前端獲益?這是否等同于僅僅將所有關鍵幀圖像通過一次VGGT或Pi3處理?

為回答這個問題,我們使用ICL-NUIM場景中的ofkt0序列進行演示。如圖6所示,左邊的兩張圖展示了在將所有關鍵幀圖像作為輸入且不使用任何序列信息時VGGT和Pi3的結果。右邊的圖則是我們的結果。很明顯,在沒有我們前端提供的序列信息的情況下,VGGT和Pi3生成的重建結果雜亂無章。相比之下,我們的后端利用前端提供的隱含順序實現(xiàn)了更連貫、更準確的重建。

圖片

圖6 在ICL-NUIM數(shù)據(jù)集上對kt1進行的定性重建對比。從左至右依次展示了VGGT、Pi3和我們方法的結果。VGGT和Pi3均存在姿態(tài)漂移問題,導致幾何不準確,而我們的方法則表現(xiàn)出一致且準確的重建效果。

E. 執(zhí)行速度

我們還記錄了該方法的時間成本,如表7所示。我們展示了在不同數(shù)據(jù)集上模塊的執(zhí)行時間。關鍵幀檢測和前端平均運行時間不到100毫秒,而后端雖然較慢,但執(zhí)行頻率較低。整體速度大于10Hz,這表明我們的方法能夠實時運行。

表7.數(shù)據(jù)集上的時間成本。TPE表示每次執(zhí)行的時間,F(xiàn)PS表示每秒幀數(shù)。

圖片



Ⅴ 結論

在這項工作中,我們引入了SLAM-Former,將完整的SLAM功能集成到一個單一的Transformer中。通過交替進行增量前端處理和全局后端處理,SLAM-Former使前端和后端能夠相互協(xié)作、相互增強,從而實現(xiàn)了整體性能的提升。結果表明,SLAM-Former在跟蹤和重建方面均顯著優(yōu)于傳統(tǒng)的基于幾何基礎的SLAM方法。此外,在使用真實世界數(shù)據(jù)進行測試時,它在跟蹤性能方面達到了高度競爭水平,在重建方面則遠遠優(yōu)于傳統(tǒng)方法。

SLAM-Former仍存在一些局限性。首先,我們在后端使用了全注意力機制來替代傳統(tǒng)SLAM中的回環(huán)檢測與優(yōu)化。然而,全注意力機制由于O(n2)的時間復雜度而帶來了一些問題。我們認為,這一問題在未來的工作中可以通過SLAM的方法或通過Transformer技術如稀疏注意力和標記合并來解決。其次,SLAM-Former不支持本地前端模式;在推理過程中,所有先前的鍵值緩存都應輸入到模型中。


參考文獻


圖片圖片圖片圖片圖片圖片


圖片

責編丨高炳釗

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25