日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

首頁 > 汽車技術 > 正文

QuadricFormer: 基于Superquadric的三維語義占用預測場景

2025-12-17 08:26:13·  來源:同濟智能汽車研究所  
 

編者按:自動駕駛技術的快速發(fā)展,對3D場景感知提出了更高要求。傳統(tǒng)基于體素的方法雖能精細刻畫場景細節(jié),卻因計算冗余而難以滿足實時性需求;而基于高斯分布的方法雖提升了效率,卻受限于其橢球形狀先驗,難以靈活建模多樣化幾何結(jié)構(gòu)。如何在保證感知精度的同時提升效率,成為當前研究的關鍵挑戰(zhàn)。本文提出一種創(chuàng)新的解決方案——QuadricFormer,首次將幾何表達能力更強的超二次曲面引入三維語義占用預測任務中。通過構(gòu)建概率性超二次曲面混合模型,該方法以稀疏的基元實現(xiàn)對復雜場景的高效、高保真建模,并在nuScenes數(shù)據(jù)集上取得了性能與效率的雙重突破。我們相信,QuadricFormer不僅為三維場景理解提供了新的技術思路,也為以視覺為中心的自動駕駛系統(tǒng)邁向?qū)嵱没於酥匾A。本期特此編譯推介,以饗讀者。


本文譯自:《QuadricFormer: Scene as Superquadrics for 3D Semantic Occupancy Prediction》

文章來源:arxiv2025


作者:

Sicheng Zuo1*, Wenzhao Zheng1*, Xiaoyong Han1, Longchao Yang2, Yong Pan2

作者單位:1Tsinghua University, 2 Li Auto Inc

原文鏈接:https://arxiv.org/abs/2506.10977

代碼鏈接:https://zuosc19.github.io/QuadricFormer/


摘要:3D 占用預測對于魯棒的自動駕駛系統(tǒng)至關重要,因為它能夠全面感知環(huán)境結(jié)構(gòu)和語義。大多數(shù)現(xiàn)有方法采用基于密集體素的場景表示,忽略了駕駛場景的稀疏性,導致效率低下。近期研究探索了基于稀疏高斯函數(shù)的以物體為中心的表示,但其橢球形狀先驗限制了對多樣化結(jié)構(gòu)的建模。在現(xiàn)實世界的駕駛場景中,物體呈現(xiàn)出豐富的幾何形狀(例如長方體、圓柱體和不規(guī)則形狀),需要使用大量密集排列的橢球高斯函數(shù)才能實現(xiàn)精確建模,這導致表示效率低下。為了解決這個問題,我們提出使用幾何表達能力強的超二次曲面作為場景基元,利用其固有的形狀多樣性,能夠用更少的基元高效地表示復雜結(jié)構(gòu)。我們開發(fā)了一個概率超二次曲面混合模型,該模型將每個超二次曲面解釋為具有相應幾何先驗的占用概率分布,并通過概率混合計算語義。在此基礎上,我們提出了 QuadricFormer,一個基于超二次曲面的高效 3D 占用預測模型,并引入了剪枝和分裂模塊,通過將超二次曲面集中在占用區(qū)域來進一步提升建模效率。在 nuScenes 數(shù)據(jù)集上進行的大量實驗表明,QuadricFormer 在保持卓越效率的同時,達到了最佳性能。

Ⅰ 引言


以視覺為核心的自動駕駛系統(tǒng)因其成本效益優(yōu)勢,相較于激光雷達方案備受關注。然而,由于視覺模糊性導致的障礙物形狀不規(guī)則識別困難,嚴重影響了行車安全。近期在三維語義占用預測領域的突破,通過估算三維場景中體素級的占用狀態(tài)和語義標簽,有效解決了這一問題。該技術能全面解析場景結(jié)構(gòu)與語義特征,為自監(jiān)督三維場景理解、四維占用預測以及端到端自動駕駛等應用提供支持。盡管前景廣闊,三維語義占用預測仍面臨高密度三維預測帶來的效率挑戰(zhàn),因此高效且表達力強的三維表征至關重要。雖然基于體素的方法通過密集三維網(wǎng)格捕捉細節(jié),卻忽視了駕駛場景的稀疏性并導致計算成本過高。最新進展引入了基于三維高斯分布的對象中心化表征,用以稀疏描述場景。每個高斯分布通過位置、協(xié)方差、不透明度和語義等可學習屬性,建模其局部區(qū)域的占用概率分布。但高斯表征存在根本性局限:根據(jù)數(shù)學公式,高斯分布采用橢球衰減模式描述空間占用概率。這在高斯模型之前就強加了嚴格的橢球形狀先驗,嚴重限制了其對多樣化幾何結(jié)構(gòu)的建模能力?,F(xiàn)實駕駛場景中存在結(jié)構(gòu)變化豐富的物體,僅靠少量橢球高斯模型無法準確表征。因此,基于高斯模型的建模方法必須聚合大量密集排列的高斯模型來近似目標形狀,導致效率顯著下降。本文提出一種高效且富有表現(xiàn)力的以物體為中心的三維表示方法,采用超二次曲面[1]作為場景基元。超二次曲面是一類參數(shù)化形狀,具有高幾何表現(xiàn)力和緊湊的形狀參數(shù),為建模多樣化幾何結(jié)構(gòu)提供了極大靈活性。這使得超二次曲面能夠以稀疏排列方式建模復雜結(jié)構(gòu),實現(xiàn)高效且強大的三維表征。我們通過一組可學習的超二次曲面來表示場景,每個曲面都具有位置、尺度、旋轉(zhuǎn)、不透明度、語義和形狀指數(shù)等特征屬性。在空間占用預測中,我們采用概率性超二次曲面混合模型,將每個超二次曲面解釋為局部空間占用概率分布,并通過概率性混合計算語義信息?;诖吮碚鞣椒?,我們提出QuadricFormer框架——一個基于超二次曲面的高效三維語義空間占用預測系統(tǒng)。此外,我們設計了一個剪枝與分裂模塊,將超二次曲面聚焦于占據(jù)區(qū)域,從而進一步提升建模效率。在nuScenes數(shù)據(jù)集上的大量實驗表明,我們的QuadricFormer在保持卓越效率的同時,實現(xiàn)了業(yè)界領先的性能表現(xiàn)。

圖片

圖1. 考慮到高斯函數(shù)的橢圓形先驗,我們提出利用富有表現(xiàn)力的超二次曲面來構(gòu)建高效且強大的以對象為中心的表示。


Ⅱ 相關工作


A. 三維語義占用預測

三維語義占用預測通過為每個體素標注幾何和語義信息來重建精細的三維場景,這對自動駕駛至關重要。激光雷達和攝像頭是最常用的兩種傳感器。雖然基于激光雷達的方法在深度精度上表現(xiàn)出色,但其在惡劣天氣和遠距離檢測中的局限性促使了以視覺為中心的方法,這些方法通過多視角視覺輸入重建場景。早期方法直接將圖像特征提升到密集的體素網(wǎng)格中進行三維占用預測。然而,考慮到駕駛場景中被占用體素的稀疏性,后續(xù)研究優(yōu)先通過替代表示來提高效率。平面表示如BEV和 TPV將三維數(shù)據(jù)壓縮為二維特征圖以實現(xiàn)高效處理,但犧牲了幾何保真度。以物體為中心的建模通過將計算集中在顯著區(qū)域來保持幾何保真度,既緩解了均勻體素網(wǎng)格的冗余問題,又避免了平面壓縮導致的信息損失。然而,由于現(xiàn)實世界結(jié)構(gòu)的復雜性,這些方法仍難以在效率和建模能力之間取得平衡。為解決這一問題,我們提出了一種基于超二次曲面的模型,能夠高效準確地表示復雜幾何結(jié)構(gòu)。

B. 以物體為中心的場景表征

現(xiàn)有三維場景表征技術主要采用基于體素的框架進行精細的體積建模,在語義預測任務中表現(xiàn)優(yōu)異。然而,其對所有體素的統(tǒng)一處理方式會導致空間冗余,尤其在稀疏環(huán)境中更為明顯。為解決這一問題,近期研究開始探索以物體為中心的表征方法。其中一種方法將密集網(wǎng)格劃分為局部區(qū)域,僅保留檢測到的物體區(qū)域。雖然這種方法效率高,但非空區(qū)域可能被錯誤剔除,導致關鍵幾何信息不可逆丟失。另一種點云方法則利用稀疏點作為迭代優(yōu)化的查詢點,但點云本身缺乏空間延展性,難以捕捉上下文幾何特征。最新進展采用三維語義高斯分布,通過概率密度從高斯中心向外輻射實現(xiàn)自適應空間覆蓋。盡管高斯分布通過概率擴散緩解了點云的剛性問題,但對于復雜幾何結(jié)構(gòu)(尤其是精細結(jié)構(gòu))而言,仍需大量密集排列的幾何基元,導致表征效率低下。本文提出幾何表達能力更強的超二次曲面作為緊湊的場景基元。與傳統(tǒng)物體中心方法不同,超二次曲面無需密集排列即可原生參數(shù)化多種幾何形態(tài)(如長方體、圓柱體),用更少基元實現(xiàn)更優(yōu)的重建保真度。

C. 超四次曲面

超四次曲面是由Barr等人提出的參數(shù)化幾何基元,用于通過緊湊參數(shù)化建模多樣化形狀。典型超四次曲面由五個參數(shù)定義:每個半軸上的三個尺度參數(shù)和決定其形狀的兩個指數(shù)。超四次曲面的尺度與形狀參數(shù)可實現(xiàn)不同幾何形狀(如長方體、圓柱體和球體)之間的平滑插值。當結(jié)合用于平移和旋轉(zhuǎn)的六個姿態(tài)參數(shù)時,僅需11個參數(shù)即可表征完整三維物體。近期研究采用超四次曲面將復雜環(huán)境分解為緊湊幾何基元,這些方法在保持模型效率的同時展現(xiàn)出卓越的重建能力和編輯靈活性。然而現(xiàn)有方法僅適用于點云處理且局限于物體級重建。與之不同,我們首次提出基于超四次曲面的多視角圖像整體場景重建框架,以卓越效率實現(xiàn)業(yè)界領先性能。

圖片

圖2. 不同表示方法的對比。(a) 基于二次曲面的方法使用更少的圖元即可呈現(xiàn)相同物體,且形狀表現(xiàn)力更強。(b) 該二次曲面表示方法在準確性和速度方面均優(yōu)于現(xiàn)有方法,且所需圖元數(shù)量顯著減少


Ⅲ 方法


A. 以對象為中心的場景表示

以視覺為中心的 3D 語義占用預測旨在根據(jù)視覺輸入估計 3D 空間中每個體素的占用狀態(tài)和語義標簽。 正式而言,給定來自N個視圖的輸入圖像

,該模型旨在預測 3D 場景的體素級語義標簽,其中表示語義類別,表示占用的空間形狀。

為實現(xiàn)這一目標,基于體素的方法[36,42]采用密集的體素特征來建模三維場景,導致計算復雜度達到級別。這種低效源于其對空間中所有體素的統(tǒng)一處理方式,忽略了現(xiàn)實場景固有的稀疏性?;诖耍谘芯縖15,12]探索了基于三維高斯分布的對象中心化表征方法,將計算資源聚焦于關鍵區(qū)域以實現(xiàn)高效場景建模?;诟咚沟姆椒╗12]通常采用一組個語義三維高斯基元來稀疏表征三維場景。每個高斯基元通過其顯式均值、尺度、旋轉(zhuǎn)角、不透明度及語義概率來建模靈活的局部區(qū)域。對于三維空間中的點,其與高斯基元相關的幾何占據(jù)概率計算公式為:

圖片

其中  表示點的位置,  、、分別代表協(xié)方差矩陣、由四元數(shù) 構(gòu)建的旋轉(zhuǎn)矩陣以及由尺度構(gòu)建的對角尺度矩陣。此外,使用概率高斯混合模型來聚合多個高斯分布,以預測場景的結(jié)構(gòu)和語義。由于每個高斯分布代表場景中的一個靈活區(qū)域,基于高斯的表示方法能夠?qū)崿F(xiàn)資源的自適應分配和高效的建模。

盡管三維高斯表示比密集體素(例如6400個高斯點 vs. 每場景200×200×16個體素)更高效,但仍存在阻礙其達到最佳效率與性能平衡的局限性。我們的關鍵洞見在于:高斯點本質(zhì)上施加了橢球形狀先驗,這限制了其建模多樣化結(jié)構(gòu)的能力。如等式1所示,高斯點的占據(jù)概率分布可視為一組由以下定義的等概率曲面集合:

圖片

其中表示點位置,表示曲面族的超參數(shù),表示高斯沿三個軸的尺度。在描述標準橢球體的等式3中,為簡化起見省略了高斯的旋轉(zhuǎn)和均值。每個高斯隨后用三維空間中的橢球衰減來建模占用概率。但現(xiàn)實世界中的物體通常具有多種形狀,如長方體、圓柱體和不規(guī)則形狀,這些形狀無法通過少量橢球高斯準確表示。這迫使模型使用大量密集排列的高斯來近似復雜結(jié)構(gòu),導致場景表示效率低下。相比之下,我們的方法采用表達力強的超二次曲面作為場景基元,僅需少量稀疏排列的超二次曲面即可高效緊湊地建模復雜結(jié)構(gòu)。

B. 超二次曲面Superquadrics場景

我們引入了一種以對象為中心的場景表示方法,利用超二次曲面基元的高效性和表達能力。超二次曲面是一類具有強大幾何表達能力的參數(shù)化形狀,定義如下:

圖片

公式(4),典型的超二次曲面由五個參數(shù)定義:沿每個半軸的三個比例參數(shù)和兩個確定其形狀的指數(shù)。

其中 表示點位置,表示曲面族的超參數(shù)。與公式3中的橢球相比,超二次曲面僅引入了兩個額外的形狀定義指數(shù),卻可以表示更為多樣的形狀。如圖2a所示,隨著形狀參數(shù)的變化,超二次曲面可以實現(xiàn)連續(xù)且多樣的形狀變化。 這種固有的參數(shù)效率和幾何表現(xiàn)力使得超二次曲面能夠模擬各種形狀,而不會密集堆積。 因此,只需要少量的超二次曲面就可以表示復雜的場景結(jié)構(gòu),實現(xiàn)高效而強大的場景表示。

因此,我們利用一組參數(shù)化的超二次曲面來表示 3D 場景。每個超二次曲面都以其尺度 和形狀指數(shù)為特征,以定義其幾何形狀。為了將表示擴展到全局坐標系,每個圖元還被分配了位置 和旋轉(zhuǎn) 。除了幾何屬性之外,每個超二次曲面還配備了不透明度和語義概率,以整合語義信息??偠灾?,我們基于超二次曲面的表示可以表述如下:

圖片

我們現(xiàn)在探索如何從超二次曲面表示中獲取三維占用預測?,F(xiàn)有方法(fedele2025superdec)通常將超二次曲面視為確定性曲面,并將其擬合到物體各部分以進行點云重建。然而,這些基于曲面的方法在以視覺為中心的占用預測中面臨關鍵限制。主要挑戰(zhàn)在于監(jiān)督。雖然點云重建可以直接優(yōu)化點與超二次曲面之間的距離,但占用預測需要細粒度的場景理解,而這缺乏明確的基于曲面的約束。此外,基于曲面的方法依賴于點云輸入的顯式結(jié)構(gòu),而視覺輸入會引入結(jié)構(gòu)不確定性,導致確定性建模不穩(wěn)定。最后,基于曲面的方法側(cè)重于具有簡單空間關系的物體級重建。但現(xiàn)實世界的駕駛場景涉及更為復雜的表面交互,這帶來了巨大的建模困難。

為了實現(xiàn)穩(wěn)健的 3D 語義占用預測,我們設計了一種將超二次曲面轉(zhuǎn)換為占用概率的概率建模機制。 受 GaussianFormer-2的啟發(fā),我們采用了一個概率超二次曲面混合模型,其中每個超二次曲面定義了其局部鄰域內(nèi)的占用概率分布。為了計算三維點 被超二次曲面占據(jù)的概率,我們首先將轉(zhuǎn)換至的局部坐標系,該坐標系由其位置和旋轉(zhuǎn)定義:

圖片

其中表示的局部坐標,表示由旋轉(zhuǎn)構(gòu)造的旋轉(zhuǎn)矩陣。與相關的占據(jù)概率則按以下公式計算:

圖片

其中 和 分別是位置參數(shù)和尺度參數(shù),是超二次曲面的形狀指數(shù)。假設不同超二次曲面之間的占用條件獨立,則處的最終占用概率計算如下:

圖片

隨后,通過對所有有貢獻的超二次曲面的語義概率進行加權(quán)聚合來推斷語義預測,其中權(quán)重對應于它們在處的占用影響:

圖片

這種概率建模的關鍵在于將超二次曲面幾何作為形狀先驗融入概率分布中,并實現(xiàn)為符合其幾何形狀的等概率曲面(如公式4所示)。利用超二次曲面的幾何表達能力,我們的模型能夠使用一組稀疏的基元(無需密集填充)高效地表示復雜的三維結(jié)構(gòu),從而實現(xiàn)高效而強大的場景表征。此外,該概率框架能夠有效地模擬由視覺模糊性引起的結(jié)構(gòu)不確定性,顯著提升模型的魯棒性和泛化能力。

C. QuadricFormer

我們在圖3中展示了QuadricFormer的整體框架。

圖片

圖3. QuadricFormer 的整體框架。我們使用多個二次曲面編碼器模塊來更新超二次曲面,并采用剪枝和分裂模塊進一步提升建模效率。5個模塊:初始化超二次曲面、圖像特征提取、超二次曲面和圖像特征的交叉注意力融合、超二次曲面的概率占用預測、Quadric-to-voxel的潑濺渲染。

個視圖的圖像輸入開始,我們首先采用圖像骨干網(wǎng)絡來提取多尺度圖像特征

圖片

由于缺乏場景的結(jié)構(gòu)先驗信息,我們在三維空間中隨機初始化若干超級二次曲面,并采用個二次曲面編碼器模塊從圖像中預測最終的超級二次曲面。在每個模塊中,我們首先通過二次曲面編碼器將當前超級二次曲面編碼為特征。

圖片

隨后,我們采用三維稀疏卷積進行超二次特征自編碼,并使用可變形注意力實現(xiàn)超二次特征與圖像特征之間的交互:

圖片

其中表示超二次型的顯式位置,作為輔助信息用于指導特征編碼。最后,采用二次型解碼器預測超二次型屬性的更新,并通過殘差相加與原始屬性相結(jié)合:

圖片

塊更新后,我們得到最終的超二次預測,而3D語義占用預測可以通過概率建模機制推斷得出:

圖片

在優(yōu)化過程中,我們采用交叉熵損失和Lovasz Softmax[2]損失進行訓練。由于缺乏結(jié)構(gòu)先驗信息,超四元組在三維空間中被統(tǒng)一初始化。這導致部分位于空域的超四元組被優(yōu)化到微小尺度,對場景建模貢獻甚微,造成效率低下。為此,我們在初始訓練后引入剪枝-分割模塊:對可能位于空域的小尺度超四元組進行剪枝,而對可能位于被占區(qū)域的大尺度超四元組進行分割以實現(xiàn)精細建模。我們保持超四元組數(shù)量不變,并通過兩個附加模塊進一步優(yōu)化其特性。值得注意的是,這種輕量級模塊在不增加顯著計算開銷的前提下,顯著提升了超四元組的利用率,實現(xiàn)了更高效的場景表征。


Ⅳ 實驗


A. 數(shù)據(jù)集與評估指標

NuScenes數(shù)據(jù)集包含1000條在波士頓和新加坡采集的城市駕駛場景序列。該數(shù)據(jù)集官方劃分標準為:700條用于訓練,150條用于驗證,150條用于測試。每條序列持續(xù)20秒,通過6個環(huán)繞攝像頭采集的RGB圖像,關鍵幀以2赫茲頻率進行標注。在監(jiān)督學習和評估過程中,我們采用SurroundOcc提供的密集語義占用標注數(shù)據(jù)。標注的體素網(wǎng)格在X/Y軸方向覆蓋-50米至50米,在Z軸方向覆蓋-5米至3米,空間分辨率為200×200×16。每個體素被劃分為18個類別之一(含16種語義類型、1個空位和1個未知)。

評估指標遵循行業(yè)通用標準,即采用平均交并比(mIoU)和交并比(IoU):

圖片

其中、、分別代表非空類、空類以及真陽性、假陽性和假陰性預測的數(shù)量。

B. 實施細節(jié)

輸入圖像的分辨率為900×1600,用于帶有隨機翻轉(zhuǎn)和光度畸變增強的nuScenes。我們采用ResNet101- DCN 與FCOS3D檢查點進行nuScenes處理。

在nuScenes數(shù)據(jù)集的主要結(jié)果中,超級二次曲線的數(shù)量設定為1600。為優(yōu)化模型,我們采用AdamW優(yōu)化器進行訓練,其權(quán)重衰減系數(shù)為0.01,最大學習率設為4×10?4,并按余弦衰減曲線調(diào)整。在nuScenes數(shù)據(jù)集上,我們以8個樣本為一批次,進行了20個訓練周期的模型訓練。

C.主要結(jié)果

三維語義空間占用預測。 我們在表Ⅰ中展示了QuadricFormer的性能表現(xiàn)。與其他方法相比,我們的方法達到了業(yè)界領先水平。具體而言,QuadricFormer在自行車、摩托車、卡車等類別以及各類地面相關類別(可行駛路面、人行道、地形等)上均表現(xiàn)優(yōu)異,展現(xiàn)出對小型物體和結(jié)構(gòu)化物體建模的卓越能力。此外,我們的方法在使用更少超二次曲面(1600個對比12800個)的情況下,顯著超越了GaussianFormer-2,進一步驗證了其高效性與實用性。

基于高斯方法的性能與效率對比。 表Ⅱ展示了QuadricFormer與基于高斯方法的性能與效率對比。QuadricFormer在三維語義空間占用預測和計算效率方面均持續(xù)超越現(xiàn)有方法。具體而言,我們的方法實現(xiàn)了最高的平均交并比(最高達21.11)和交并比(最高達32.13),超越所有基于高斯的方法。在效率方面,QuadricFormer顯著降低了延遲和內(nèi)存消耗。對于相同或更少的原始數(shù)據(jù)點(例如1600或3200個),我們的方法可實現(xiàn)低至162毫秒的延遲和2554MB的內(nèi)存消耗,遠低于其他方法。值得注意的是,即使將QuadricFormer的原始數(shù)據(jù)點數(shù)量增加至12800個,其延遲和內(nèi)存消耗仍低于僅使用1600個原始數(shù)據(jù)點的基于高斯的方法。這進一步凸顯了我們的方法在實際應用中處理復雜結(jié)構(gòu)時的卓越效率。

表Ⅰ nuScenes數(shù)據(jù)集上的三維語義占用預測結(jié)果。*表示采用密集占用標注進行監(jiān)督學習,而非原始LiDAR分割標簽。Ch.表示本模型的通道維度。本方法達到當前最先進的性能水平

圖片

表Ⅱ 與基于高斯的方法相比,性能和效率的比較。在推斷過程中,使用 NVIDIA 4090 GPU進行批量大小為一的延遲和內(nèi)存測試,這與基于高斯的方法一致。我們的方法實現(xiàn)了更好的性能-效率平衡。

圖片

D. 消融實驗

范圍的影響。 我們對等式4中超二次指數(shù)參數(shù) 的范圍進行了消融研究,如表Ⅲ所示。在這些實驗中,我們將超二次方的數(shù)量設置為12800。該表探討了不同 范圍對3D語義占用預測性能的影響。我們觀察到,設置(0.1,2)范圍能獲得最佳結(jié)果,實現(xiàn)了最高的mIoU(20.51)和IoU(31.25)

表Ⅲ 范圍的影響

圖片

E. 可視化展示

我們在圖4中展示了預測的超二次曲面及占用率結(jié)果的可視化效果。該模型能夠利用超二次曲面預測高保真度形狀,并實現(xiàn)全面的占用率結(jié)果。此外,我們在圖5中將本方法與GaussianFormer-2進行對比,結(jié)果顯示我們的預測超二次曲面比高斯模型具有更強的自適應性。值得注意的是,本方法僅需1600個超二次曲面即可達到高質(zhì)量性能,而高斯模型則需要6400個。

圖片

圖4. nuScenes上的3D超四邊形與占據(jù)可視化。我們的模型能夠預測高保真形狀并實現(xiàn)全面的占據(jù)結(jié)果。

圖片

圖5. 定性對比分析。QuadricFormer模型能生成更具柔韌性和自適應性的三維形態(tài)。剪枝-分割模塊的效果評估。我們通過消融實驗驗證了該模塊的作用(如表Ⅳ所示),實驗結(jié)果表明:增加剪枝與分割次數(shù)能持續(xù)提升模型性能。這證實了將基礎元素從低密度區(qū)域重新分配至高密度區(qū)域,可有效提升三維場景表征的準確性和運算效率。

表Ⅳ 修剪-分株模塊的效果。

圖片



Ⅴ 結(jié)論

本文提出了一種基于超二次曲面的對象中心化表征方法,用于高效實現(xiàn)三維語義占用預測。具體而言,我們利用超二次曲面的幾何表達能力,用更少的稀疏原始元素建模復雜結(jié)構(gòu)。我們構(gòu)建了一個概率性超二次曲面混合模型,其中每個超二次曲面都編碼了具有對應幾何先驗的占用概率分布,并通過概率混合推斷語義信息。此外,我們引入了自適應剪枝分割模塊,可將超二次曲面集中于被占用區(qū)域以進一步提升建模效率。在nuScenes基準測試中,我們提出的QuadricFormer展現(xiàn)出業(yè)界領先性能與卓越效率。

局限性: 采用隨機初始化時,QuadricFormer無法完全學習到精確的超二次曲面位置,導致部分超二次曲面殘留在空區(qū)域,降低表征效率。

更廣泛影響: 我們在自動駕駛領域的研究有望提升未來交通效率,但也可能引發(fā)駕駛員崗位流失問題。


參考文獻


圖片圖片圖片圖片圖片
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25