EVORA：面向風(fēng)險感知越野自主系統(tǒng)的深度證據(jù)可通行性學(xué)習(xí)

2025-06-05 09:53:00· 來源：同濟智能汽車研究所

編者按：隨著無人系統(tǒng)在復(fù)雜野外環(huán)境中的應(yīng)用日益廣泛，地形可通行性評估成為提升自主導(dǎo)航能力的關(guān)鍵環(huán)節(jié)。本文由麻省理工學(xué)院與美國陸軍研究實驗室聯(lián)合團隊撰寫，聚焦于風(fēng)險感知越野導(dǎo)航中的不確定性建模問題，提出了一種基于深度證據(jù)學(xué)習(xí)的端到端方法——EVORA。該方法聯(lián)合建模 Aleatoric 與 Epistemic 不確定性，通過Dirichlet分布與標(biāo)準(zhǔn)化流的結(jié)合，實現(xiàn)對牽引力分布的精確建模與未知地形的魯棒識別，為部署于未知或高風(fēng)險區(qū)域的自主機器人提供了堅實的數(shù)據(jù)驅(qū)動支撐。論文提出的 UEMD2 損失函數(shù)在保持準(zhǔn)確率的同時，有效提升了對分布外地形的檢測能力，具有較高的理論價值與應(yīng)用潛力，值得從事智能駕駛、野外探測、風(fēng)險規(guī)避導(dǎo)航等方向的科研人員深入研讀。

本文譯自：

《EVORA: Deep Evidential Traversability Learning for Risk-Aware Off-Road Autonomy》

文章來源：

IEEE Transactions on Robotics, vol. 40, pp. 3756-3777, 2024.

作者：

蔡小毅1，Siddharth Ancha1，Lakshay Sharma1，Philip R. Osteen1，Bernadette Bucher2，Stephen Phillips2，王久光2，Michael Everett1，Nicholas Roy1，Jonathan P. How1

作者單位：

1 麻省理工學(xué)院（Massachusetts Institute of Technology）,2 美國陸軍研究實驗室（U.S. Army Research Laboratory）

原文鏈接：

https://ieeexplore.ieee.org/document/10606099

摘要：穿越具有良好牽引力的地形對于實現(xiàn)快速越野導(dǎo)航至關(guān)重要。現(xiàn)有方法并非基于地形特征手動設(shè)計成本，而是通過自監(jiān)督直接從數(shù)據(jù)中學(xué)習(xí)地形屬性，從而自動懲罰穿越不良地形的軌跡。然而，如何正確量化和降低學(xué)習(xí)模型中不確定性帶來的風(fēng)險仍存在挑戰(zhàn)。為此，我們提出了證據(jù)越野自主性 (EVORA)，這是一個統(tǒng)一的框架，用于學(xué)習(xí)不確定性感知的牽引力模型并規(guī)劃風(fēng)險感知的軌跡。對于不確定性量化，我們通過學(xué)習(xí)離散牽引力分布和牽引力預(yù)測器潛在特征的概率密度，有效地對偶然不確定性和認知不確定性進行建模。利用證據(jù)深度學(xué)習(xí)，我們用網(wǎng)絡(luò)輸出參數(shù)化狄利克雷分布，并提出一種新穎的不確定性感知平方土方距離損失函數(shù)，該函數(shù)具有閉式表達式，可提高學(xué)習(xí)精度和導(dǎo)航性能。對于風(fēng)險感知導(dǎo)航，所提出的規(guī)劃器會模擬具有最壞情況預(yù)期牽引力的狀態(tài)軌跡，以處理隨機不確定性，并懲罰穿越具有高認知不確定性地形的軌跡。我們的方法已在模擬環(huán)境以及輪式和四足機器人上得到廣泛驗證，與假設(shè)無滑移、假設(shè)預(yù)期牽引力或針對最壞情況預(yù)期成本進行優(yōu)化的方法相比，其導(dǎo)航性能有所提升。

關(guān)鍵詞：自主機器人，自監(jiān)督學(xué)習(xí)，不確定性量化，越野導(dǎo)航

Ⅰ 引言

本文的其余部分組織如下。

自主機器人正日益部署于礦區(qū)、森林、沙漠等惡劣的非鋪裝環(huán)境中，這些環(huán)境既需要對幾何結(jié)構(gòu)進行理解，也需要對語義信息進行解析，以便識別非幾何危險（例如淤泥坑、光滑表面）和幾何“非危險”區(qū)域（例如高草和灌木），從而實現(xiàn)可靠的導(dǎo)航。為此，近期的方法通?；诘匦蔚恼Z義分類手動分配導(dǎo)航代價，這一過程不僅需要大量專家知識來標(biāo)注數(shù)據(jù)，還需訓(xùn)練出足夠精確且語義類別豐富的分類器，以獲得期望的風(fēng)險感知行為。另一種思路是利用自監(jiān)督學(xué)習(xí)直接從導(dǎo)航數(shù)據(jù)中學(xué)習(xí)可行性模型，以便在路徑規(guī)劃時自動對不利地形分配更高的代價。然而，由于真實環(huán)境下自監(jiān)督的數(shù)據(jù)采集既緩慢又昂貴，僅僅增加數(shù)據(jù)量并不足以提升性能，除非我們能夠?qū)λ鶎W(xué)模型中的不確定性進行量化并據(jù)此進行風(fēng)險緩解。在越野導(dǎo)航情境中，不確定性主要以兩種形式出現(xiàn)，如圖 1 所示。

圖 1. EVORA 在學(xué)習(xí)地形牽引模型時，同時捕捉兩類不確定性，其中牽引力定義為實際速度與指令速度之比。(a) 內(nèi)稟不確定性（Aleatoric uncertainty）是由于觀測不完全而產(chǎn)生的固有且不可消除的不確定性。例如，外觀相似的地形由于機器人與植被之間的復(fù)雜相互作用，可能具有不同的牽引力值。(b) 模型不確定性（Epistemic uncertainty）是由于訓(xùn)練環(huán)境與測試環(huán)境分布轉(zhuǎn)移帶來的模型不確定性，這會在測試時限制學(xué)習(xí)模型的可靠性。

內(nèi)稟不確定性（Aleatoric uncertainty）是指因觀測不完整而產(chǎn)生的固有且不可消除的不確定性。例如，兩塊外觀相同的地形對車載傳感器而言可能無法區(qū)分，但卻會導(dǎo)致車輛表現(xiàn)出截然不同的行為——此類不確定性通過增加數(shù)據(jù)量也無法降低。模型不確定性（Epistemic uncertainty）則源自測試時遇到的超出分布（OOD）輸入，這些輸入在訓(xùn)練數(shù)據(jù)中缺乏代表性。由于在危險環(huán)境中（如碰撞或懸崖邊緣墜落）采集 OOD 數(shù)據(jù)往往不切實際，訓(xùn)練數(shù)據(jù)集與機器人在實際場景中所遭遇環(huán)境之間可能存在巨大差距。目前，越野導(dǎo)航領(lǐng)域的大部分研究要么專注于通過學(xué)習(xí)系統(tǒng)參數(shù)的分布而非點估計來處理內(nèi)稟不確定性 [10], [11]，要么專注于識別 OOD 地形以應(yīng)對模型不確定性 [12], [13], [14], [15]，但很少有工作同時量化這兩類不確定性并在規(guī)劃階段緩解由此帶來的風(fēng)險。

為了實現(xiàn)快速且可靠的越野導(dǎo)航，本文同時關(guān)注上游的不確定性感知可行性學(xué)習(xí)問題和下游的風(fēng)險感知導(dǎo)航問題。鑒于二者相互依賴，我們提出了EVORA（Evidential Off-Road Autonomy）管線，將前述的不確定性感知可行性模型與風(fēng)險感知規(guī)劃器緊密結(jié)合（見圖 2）。為了規(guī)劃快速軌跡，我們使用地形牽引力來刻畫可行性，其中牽引力定義為實際速度與指令速度之比（例如，導(dǎo)致車輪打滑并降低速度的濕滑地面對應(yīng)低牽引力）。此外，我們通過學(xué)習(xí)經(jīng)驗牽引力分布（捕捉內(nèi)稟不確定性）和牽引力預(yù)測器潛在特征的概率密度（捕捉模型不確定性），高效地量化了兩類不確定性。鑒于真實牽引力分布可能呈多模態(tài)（如圖 1(a)所示，外觀相似的植被可能對應(yīng)不同牽引值），我們對離散化的牽引值學(xué)習(xí)類別分布以刻畫多模態(tài)性。借助文獻 [16] 提出的證據(jù)深度學(xué)習(xí)方法，我們將神經(jīng)網(wǎng)絡(luò)輸出參數(shù)化為Dirichlet分布（類別分布的共軛先驗），并提出了一種基于平方Earth Mover’s Distance（EMD）的新型不確定性感知損失。該損失具有閉式解，可高效計算，并較傳統(tǒng)的基于交叉熵的損失更準(zhǔn)確地捕捉離散牽引值之間的關(guān)系。為應(yīng)對內(nèi)稟不確定性，我們設(shè)計了一個風(fēng)險感知規(guī)劃器，該規(guī)劃器在前向仿真時使用最壞情形下的期望牽引力，實驗證明其性能優(yōu)于或匹配于其他方法：包括基于名義牽引力的方法 [11]、基于期望牽引力的方法 [21]，以及直接優(yōu)化最壞情形期望代價的方法 [22] 。為降低模型不確定性帶來的風(fēng)險，本文在牽引預(yù)測器潛在特征的概率密度上設(shè)定置信度閾值，以識別超出訓(xùn)練分布（OOD）的地形，并通過輔助規(guī)劃代價主動避開這些風(fēng)險區(qū)域。該方法在仿真環(huán)境以及輪式和四足機器人硬件平臺上均進行了詳盡驗證，結(jié)果表明其具有可行性并顯著提升了導(dǎo)航性能。

圖 2. 所提出的考慮不確定性的可行性學(xué)習(xí)與風(fēng)險感知導(dǎo)航方法概覽。 (a) 數(shù)據(jù)采集階段：我們驅(qū)動機器人通過感興趣的地形，記錄牽引力值、機器人位姿，并構(gòu)建語義高程地圖。隨后，離線生成訓(xùn)練數(shù)據(jù)集——提取地形的語義與高程特征，并沿機器人所過路徑估計經(jīng)驗牽引力分布。 (b) 不確定性建模：利用證據(jù)深度學(xué)習(xí)（Evidential Deep Learning）[16]，對離散化后的牽引力值學(xué)習(xí)類別分布，以刻畫固有不確定性（Aleatoric Uncertainty）；同時，通過歸一化流網(wǎng)絡(luò)（Normalizing Flow Network）[17]對牽引力預(yù)測器潛在特征的密度進行建模，以估計認知不確定性（Epistemic Uncertainty）。整個網(wǎng)絡(luò)采用以網(wǎng)絡(luò)輸出參數(shù)化的狄利克雷分布所定義的考慮不確定性的損失函數(shù)進行訓(xùn)練。 (c) 風(fēng)險感知導(dǎo)航：對于固有不確定性，我們提出了一種基于牽引力分布左尾條件在險價值（Left-Tail CVaR）的風(fēng)險感知規(guī)劃器，結(jié)合基于采樣的模型預(yù)測控制（MPC）方法[18]對機器人狀態(tài)進行前向模擬；對于認知不確定性，則通過對牽引力預(yù)測器潛在特征密度設(shè)定閾值，識別并在輔助規(guī)劃代價中懲罰，以規(guī)避預(yù)測不可靠的OOD（分布外）地形。

A. 相關(guān)工作

1）可通行性分析（Traversability Analysis）：地形是否適合導(dǎo)航可以通過多種方式進行評估，例如基于本體感測（proprioceptive）測量[23][24]、幾何特征[1][2][25]，以及幾何與語義特征的結(jié)合[3][4][26]（詳見綜述文獻[27]）。由于難以基于地形特征手工設(shè)計規(guī)劃代價，自監(jiān)督學(xué)習(xí)正越來越多地被用于學(xué)習(xí)與任務(wù)相關(guān)的可通行性表示。例如，Li 等人[28]提出了一種在密集植被下學(xué)習(xí)支撐面的方法，用于腿式機器人的行走；Gasparino 等人[21]建立了一種地形牽引力模型，用于表示機器人在執(zhí)行期望速度指令時的跟蹤能力。然而，這些方法并未考慮由于真實世界數(shù)據(jù)的噪聲性和稀缺性所帶來的非確定性（uncertainty），即Aleatoric 不確定性和Epistemic 不確定性。為捕捉 Aleatoric 不確定性，Ewen 等人[10]與 Cai 等人[11]利用高斯混合模型或分類分布學(xué)習(xí)了多模態(tài)地形屬性。為捕捉 Epistemic 不確定性，F(xiàn)rey 等人[12]與 Schmid 等人[13]評估了訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)在重構(gòu)過去 traversed 地形方面的能力，Seo 等人[29]則訓(xùn)練了一個用于識別陌生地形的二分類器。相比之下，Endo 等人[15]與 Lee 等人[14]使用高斯過程（Gaussian Process, GP）回歸來量化 Epistemic 不確定性，但他們假設(shè)噪聲方差在全局是恒定的，即采用同方差（homoscedastic）噪聲模型。Murphy 等人[30]雖然采用了異方差（heteroscedastic）GP，可處理輸入依賴的噪聲，但其預(yù)測分布在解析上不可求解，因此需依賴近似方法。

與之相對，我們的工作在學(xué)習(xí)牽引力模型的同時，顯式地量化了 Aleatoric 與 Epistemic 不確定性。該模型預(yù)測的是實際速度與命令速度之間的比值。雖然我們也像 Gasparino 等人[21]那樣學(xué)習(xí)牽引力模型，但我們的方法是具備不確定性感知能力的，并可用于實現(xiàn)風(fēng)險感知的導(dǎo)航（risk-aware navigation）。相比之下，F(xiàn)rey 等人[12]雖在規(guī)劃目標(biāo)中使用了實際速度與指令速度的差異，但在進行狀態(tài)預(yù)測時假設(shè)無打滑（no slip）。而我們的牽引力模型可以用于在最差期望牽引力條件下模擬狀態(tài)演化（state rollouts），實驗結(jié)果表明，這一策略在性能上優(yōu)于那些假設(shè)名義牽引力的傳統(tǒng)方法。

2）不確定性量化與 OOD 檢測（Uncertainty Quantification and OOD Detection）：不確定性量化在機器學(xué)習(xí)領(lǐng)域已有廣泛研究（詳見綜述文獻[31]），其中包括一些有效技術(shù)，如 Bayesian Dropout[32]、模型集成（Model Ensembles）[33] 和證據(jù)方法（Evidential Methods）[34]。在越野導(dǎo)航的相關(guān)研究中，模型集成方法被廣泛采用[35][36][37]，因為它們通常優(yōu)于基于 Bayesian Dropout 的方法[38]。相比之下，證據(jù)方法更適合實際部署場景，因為它們僅需單次網(wǎng)絡(luò)前向計算，不會帶來過高的計算或內(nèi)存開銷。因此，我們采用了 Charpentier 等人[16]提出的證據(jù)方法，通過神經(jīng)網(wǎng)絡(luò)輸出直接參數(shù)化目標(biāo)分布的共軛先驗分布，從而同時量化 Aleatoric 和 Epistemic 不確定性。此外，我們提出了一種基于 Hou 等人[19]提出的平方形式的地球移動距離（Squared Earth Mover’s Distance, EMD）的不確定性感知損失函數(shù)，能夠更好地捕捉離散牽引力值之間的關(guān)系，從而提升牽引力預(yù)測的精度，進而提高后續(xù)風(fēng)險感知規(guī)劃器的導(dǎo)航性能。在部署訓(xùn)練好的牽引力模型時，我們通過估計得到的 Epistemic 不確定性顯式識別 OOD（Out-of-Distribution）地形，這屬于通用 OOD 檢測問題的一種實例（綜述見[39]）。例如，Seo 等人[40]采用的基于重構(gòu)的方法，以及 Ancha 等人[41]采用的基于密度的方法，均在越野導(dǎo)航中展示了識別危險地形的良好效果。與 Ancha 等人[41]類似，我們的方法是一種基于密度的方式，通過學(xué)習(xí)訓(xùn)練數(shù)據(jù)分布下的標(biāo)準(zhǔn)化概率密度顯式建模。作為替代，Liu 等人[42]與 Grathwohl 等人[43]提出的基于能量的方法（Energy-based Approaches）無需顯式密度歸一化，類似的思想也被 Castaneda 等人[44]用于避免進入 OOD 狀態(tài)。不同于只關(guān)注 OOD 檢測與規(guī)避的方法，本研究同時量化并緩解 Aleatoric 與 Epistemic 不確定性帶來的風(fēng)險。雖然在測試階段應(yīng)盡量規(guī)避高 Epistemic 不確定性的 OOD 地形，但分布內(nèi)的地形（in-distribution terrain）仍可能由于復(fù)雜的車-地交互導(dǎo)致預(yù)測牽引力具有較高的 Aleatoric 不確定性。因此，需要獨立處理由 Aleatoric 不確定性引起的風(fēng)險，使機器人能夠在低牽引力風(fēng)險與節(jié)省時間之間進行權(quán)衡，以提升整體導(dǎo)航性能。

3）風(fēng)險感知規(guī)劃（Risk-Aware Planning）：在地形通行性存在不確定性的情況下，通行風(fēng)險可通過代價地圖（costmaps）來表示。例如，F(xiàn)an 等人[45]和 Triest 等人[35]使用代價地圖，其中引入條件風(fēng)險值（Conditional Value at Risk, CVaR）來衡量遇到最壞情形期望失敗的代價。CVaR 滿足一組對理性風(fēng)險評估非常關(guān)鍵的公理條件[46]。除代價地圖外，導(dǎo)航性能也可以基于期望未來狀態(tài)（Gibson 等人[47]）或期望牽引力值（Gasparino 等人[21]）來評估。然而，這些方法依賴于名義系統(tǒng)行為或期望系統(tǒng)行為，在車輛與地形之間存在顯著噪聲（即 Aleatoric 不確定性較高）時，往往難以準(zhǔn)確反映真實性能。作為替代方案，Wang 等人[22]提出直接優(yōu)化規(guī)劃目標(biāo)的 CVaR，其方法是通過對不確定參數(shù)采樣，并在每條控制序列上進行評估來估計 CVaR，但這種方法計算開銷很大。與我們的方法類似，Lee 等人[36]近期的工作使用概率集成方法（probabilistic ensembles）[48]同時量化 Aleatoric 和 Epistemic 不確定性，并通過對這兩類不確定性加權(quán)懲罰，實現(xiàn)風(fēng)險感知的軌跡規(guī)劃。但他們的方法仍依賴于期望系統(tǒng)行為。

與其類似，我們也通過輔助懲罰項來處理 Epistemic 不確定性，但在處理 Aleatoric 不確定性時，我們采用最壞情況下的期望系統(tǒng)參數(shù)進行前向仿真，以評估風(fēng)險。這種方式相比 Wang 等人[22]提出的采樣方法在計算上更加高效；相比 Lee 等人[36]與 Gasparino 等人[21]基于期望系統(tǒng)行為的方法，我們的方法在面對現(xiàn)實中存在多模態(tài)地形屬性時表現(xiàn)出更強的魯棒性。

B. 本文貢獻

我們提出了 EVORA：一個面向越野導(dǎo)航的完整流程，將不確定性感知的可通行性學(xué)習(xí)問題與風(fēng)險感知的運動規(guī)劃問題緊密集成。我們顯式地量化了兩類不確定性：Epistemic 不確定性：用于識別在陌生地形下牽引力預(yù)測不可靠的情形；Aleatoric 不確定性：用于支持下游規(guī)劃器緩解由噪聲牽引力估計引起的風(fēng)險。本文的主要貢獻如下：

1）一個基于牽引力分布的概率可通行性模型，用于建模 Aleatoric 不確定性，并通過預(yù)測器潛特征的密度來識別預(yù)測結(jié)果是否可靠（從而量化 Epistemic 不確定性）。

2）提出一種新穎的、不確定性感知損失函數(shù)：基于平方形式的 EMD 損失（EMD2 loss，[19]）并由本文推導(dǎo)出封閉形式表達。與不確定性感知交叉熵損失（Uncertainty-aware Cross Entropy, UCE，[16]）聯(lián)合使用時，該損失可提高牽引力預(yù)測精度、OOD 檢測性能，以及下游導(dǎo)航性能。

3）設(shè)計一個基于牽引力 CVaR 的風(fēng)險感知規(guī)劃器，用于處理 Aleatoric 不確定性。實驗表明，該規(guī)劃器優(yōu)于僅假設(shè)名義牽引力[11]或期望牽引力[21]的方案，并在仿真與真實硬件測試中，性能超過或可與優(yōu)化代價 CVaR 方法[22]相媲美。

4）對上述風(fēng)險感知規(guī)劃器進行擴展，使其能夠處理 Epistemic 不確定性，即通過規(guī)避 OOD 地形來提高仿真中的導(dǎo)航成功率，并在硬件實驗中減少人工干預(yù)次數(shù)。

本工作的初步會議版本發(fā)表于文獻[49]，當(dāng)時提出了學(xué)習(xí)牽引力分布并使用牽引力 CVaR 進行規(guī)劃的方法。而本篇擴展工作在以下方面進行了改進：采用文獻[16]提出的證據(jù)學(xué)習(xí)方法（Evidential Learning）進行模型訓(xùn)練；基于文獻[19]推導(dǎo)新的不確定性感知的 EMD2 損失函數(shù)，顯著提升了學(xué)習(xí)效果。這些新方法不僅提升了牽引力預(yù)測精度與 OOD 檢測性能，還帶來了更快的導(dǎo)航速度。通過增加大量硬件實驗，本文進一步驗證了會議版本[49]中所提出的風(fēng)險感知規(guī)劃器相比當(dāng)前最先進方法[11][21][22]的性能提升。

Ⅱ 問題概述

我們考慮的問題是：在地形牽引力影響下，地面機器人如何實現(xiàn)快速導(dǎo)航至目標(biāo)點。由于牽引力值具有不確定性，我們在第 II-A 節(jié)中引入了以牽引力為隨機變量的動力學(xué)模型；在第 II-B 節(jié)中引入了以“到達目標(biāo)所需時間”為指標(biāo)的規(guī)劃目標(biāo)函數(shù)；并在第 II-C 節(jié)中討論了最小化該時間目標(biāo)所面臨的挑戰(zhàn)。

A. 含牽引力參數(shù)的動力學(xué)模型

考慮以下離散時間系統(tǒng)：

其中：：機器人狀態(tài)向量（如位置與朝向）；：控制輸入（例如線速度與角速度）；：用于描述地形牽引力的參數(shù)向量。我們考慮兩種可近似多類機器人動力學(xué)行為的模型，如圖 3 所示。

圖 3.可以用獨輪車或自行車建模的地面機器人示例動力學(xué)模型。（a）遙控車。（b）差動驅(qū)動機器人。（c）腿式機器人。

1）單輪車模型（Unicycle Model）

適用于差速驅(qū)動機器人與腿式機器人，定義如下：

其中：：位置和航向角；

：命令的線速度和角速度；

：線向與角向的牽引系數(shù)（范圍）；

：時間步長。

直觀理解：牽引力表示滑移程度，即實際速度與命令速度的比值。

2）自行車模型（Bicycle Model）適用于阿克曼轉(zhuǎn)向機器人，定義如下：

其中：：車輪軸距；

：命令的線速度和轉(zhuǎn)向角；

：含義同上，用于建模不同方向的牽引比例；

參考點：為后輪軸中點。

B. 規(guī)劃目標(biāo)

我們采用文獻 [11] 中提出的最短時間目標(biāo)函數(shù)（minimum-time objective），當(dāng)然也可以采用其他形式的“到達目標(biāo)”類目標(biāo)函數(shù)。直觀地說，該目標(biāo)函數(shù)在系統(tǒng)狀態(tài)尚未進入目標(biāo)區(qū)域之前，通過累加時間步來施加階段代價（stage cost）。如果狀態(tài)軌跡從未到達目標(biāo)區(qū)域，則還會施加一個終端代價（terminal cost），以懲罰估計的剩余時間。

設(shè)有函數(shù) 用于計算當(dāng)前狀態(tài) 與目標(biāo)之間的歐氏距離，則從時間到的狀態(tài)軌跡上的最短時間目標(biāo)函數(shù)定義為：

即總代價由終端代價和階段代價兩部分組成。

終端代價和階段代價定義為：

其中：：用于估計剩余時間的默認速度；

：固定的時間間隔；

：指示函數(shù)，若軌跡中存在某個狀態(tài)已到達目標(biāo)區(qū)域，則取值為 1，否則為 0。

我們使用該指示函數(shù)來避免在到達目標(biāo)后繼續(xù)累計代價。盡管時間間隔是固定的，但實際達到目標(biāo)所需的步數(shù)取決于機器人在不同地形條件下的實際速度。從直覺上來看，該目標(biāo)函數(shù)的設(shè)計旨在鼓勵機器人盡可能快地到達目標(biāo)區(qū)域。

C. 關(guān)鍵挑戰(zhàn)

雖然目標(biāo)函數(shù)（公式（4））可以通過非線性優(yōu)化方法（如模型預(yù)測路徑積分控制（Model Predictive Path Integral, MPPI），參見文獻 [18] 中的算法 2）來尋找最優(yōu)控制序列以實現(xiàn)優(yōu)化，但地形牽引力在不同地形類型之間存在變化，因此必須從真實環(huán)境中進行學(xué)習(xí)。然而，現(xiàn)實世界中的地形牽引力存在不確定性：一方面，即使是外觀和幾何特征相似的地形，其牽引力性質(zhì)也可能差異顯著，屬于Aleatoric 不確定性；另一方面，牽引力模型的訓(xùn)練只能依賴于有限的數(shù)據(jù)集，這會導(dǎo)致Epistemic 不確定性。即使我們能夠?qū)Φ匦螤恳Φ牟淮_定性進行準(zhǔn)確建模，如何設(shè)計一個在該不確定性下仍能降低失敗風(fēng)險的風(fēng)險感知規(guī)劃器仍然是一個重大挑戰(zhàn)。為應(yīng)對這些挑戰(zhàn)，我們在第 III 節(jié)和第 IV 節(jié)分別提出了不確定性感知的可通行性模型與風(fēng)險感知的規(guī)劃器。

Ⅲ 不確定性感知的可通行性建模

在本節(jié)中，我們首先介紹一個用于建模Aleatoric 不確定性的牽引力分布預(yù)測器（traction distribution predictor），以及一個用于建模Epistemic 不確定性的潛空間密度估計器（latent space density estimator）。整套可通行性分析流程如圖 4 所示。隨后，我們在牽引力學(xué)習(xí)的背景下回顧文獻 [16] 提出的證據(jù)學(xué)習(xí)方法（evidential method），并進一步提出一種新的不確定性感知損失函數(shù)，以提升學(xué)習(xí)性能。

圖 4.提出的可遍歷性管道將海拔和語義特征映射到捕獲隨機不確定性的牽引分布，以及捕獲認識不確定性的潛在特征的密度。如果潛在要素的密度低于閾值，則 Terrain 區(qū)域被視為 OOD，稍后在規(guī)劃期間會避免使用。當(dāng)潛在特征的密度高于閾值時，預(yù)測的牽引力分布是可靠的，并通知下游風(fēng)險感知規(guī)劃者（第 IV 節(jié)）在固定風(fēng)險與牽引不確定的穿越區(qū)域所節(jié)省的時間之間進行權(quán)衡。

A. Aleatoric 不確定性：牽引力分布建模

設(shè)：為一個包含個離散牽引力取值的集合（這些取值表示實際速度與指令速度的比值）；為地形特征的集合，其中包含高程值以及地形語義標(biāo)簽的 one-hot 向量表示。我們的目標(biāo)是：在輸入地形特征向量的條件下，對牽引力空間建模其分布：

我們用表示定義在上的分類分布（categorical distribution），該分布反映了由于環(huán)境因素導(dǎo)致的Aleatoric 不確定性（即影響牽引力但在特征中無法顯式表達的因素）。需要注意的是，公式（7）中的分布可以通過一個由參數(shù) 控制的神經(jīng)網(wǎng)絡(luò)（NN）來建模，并通過經(jīng)驗數(shù)據(jù)集進行訓(xùn)練。該數(shù)據(jù)集形式為：雖然我們沒有顯式建模地形特征本身的不確定性（例如：高程估計噪聲、因外觀相似導(dǎo)致的語義標(biāo)簽誤判）或其他因素（如低層速度控制器的設(shè)計），但這些未建模因素將反映在實際采集的數(shù)據(jù)中，并能通過訓(xùn)練牽引力分布間接體現(xiàn)。

我們采用分類分布（categorical distributions）來作為高斯混合模型（Gaussian Mixture Models, GMMs）和正態(tài)化流（normalizing flows，[17]）的可行替代，用于學(xué)習(xí)實際中出現(xiàn)的多模態(tài)牽引力分布，原因如下：分類分布無需手動調(diào)節(jié)簇數(shù)量；天生構(gòu)造出有界分布（bounded distributions）；根據(jù)我們的經(jīng)驗，其收斂速度快于 normalizing flows，且在精度上可達到相近水平。由于我們僅需對一維的線向與角向牽引力值進行離散化，因而避免了在高維空間中離散化導(dǎo)致的指數(shù)級增長的問題。因此，采用有限數(shù)量的離散 bin 的分類分布就足以滿足任務(wù)需求。

圖 5. 數(shù)據(jù)采集與離線數(shù)據(jù)集生成流程。(a) 使用 Clearpath Husky 機器人進行真實環(huán)境數(shù)據(jù)采集的示意圖。機器人在人工駕駛下行駛約 10 分鐘，同時記錄其路徑軌跡、牽引力值，并構(gòu)建環(huán)境的語義地圖與高程圖。牽引力值以 20 Hz 頻率記錄。圖中為清晰起見僅展示了部分牽引力數(shù)據(jù)，其中牽引力值出現(xiàn)不連續(xù)的位置對應(yīng)于未發(fā)送線速度或角速度命令的時刻。(b) 離線數(shù)據(jù)集生成階段，牽引力值被離散化后，按遍歷路徑中的地圖單元格累計為直方圖形式存儲。牽引力預(yù)測器的輸入由語義 patch 和高程 patch 組成。地形類別示例包括：植被（淺綠色）、草地（深綠色）、裸土（淺棕色）、覆蓋物/腐殖層（深棕色）。預(yù)測牽引力分布與經(jīng)驗牽引力分布用于計算訓(xùn)練損失，而生成經(jīng)驗牽引力分布所用的測量計數(shù)可用于對訓(xùn)練損失加權(quán)，從而降低對少見地形區(qū)域的過擬合風(fēng)險。(a) 數(shù)據(jù)采集流程。(b) 離線數(shù)據(jù)集生成流程。

圖 5 展示了真實數(shù)據(jù)采集與離線數(shù)據(jù)集生成的示例。環(huán)境的語義與幾何信息可以通過語義 OctoMap（semantic octomap，[50]）構(gòu)建，該方法通過時間融合語義點云來獲得三維結(jié)構(gòu)。我們使用 PointRend[51] 對 RGB 圖像進行分割，該網(wǎng)絡(luò)在 RUGD 越野導(dǎo)航數(shù)據(jù)集[52] 上進行過訓(xùn)練，支持 24 個語義類別。分割結(jié)果隨后會被投影到激光雷達點云上，從而將語義信息轉(zhuǎn)移到空間地圖。在離線數(shù)據(jù)集生成階段，我們通過將牽引力值離散后累計為直方圖的方式，得到經(jīng)驗性線向與角向牽引力分布。這些直方圖分別存儲在機器人遍歷過的每一個地形單元格中。同時，我們也存儲每個單元格內(nèi)的測量次數(shù)，以便在訓(xùn)練過程中按照這些計數(shù)對損失函數(shù)加權(quán)，從而降低在稀疏地形上因樣本稀少導(dǎo)致的不穩(wěn)定學(xué)習(xí)影響。在實際操作中，我們分別學(xué)習(xí)線向與角向牽引力分布。神經(jīng)網(wǎng)絡(luò)的架構(gòu)如下：一個共享編碼器（shared encoder），包括卷積層（CNN）和后續(xù)的全連接層，用于同時處理地形的語義與高程 patch；編碼器之后接兩個獨立的全連接解碼器頭部（decoder heads），分別用于預(yù)測線向與角向牽引力分布，每個輸出采用 softmax 激活函數(shù)。

B. Epistemic 不確定性：潛空間密度建模

由于訓(xùn)練數(shù)據(jù)有限，牽引力分布預(yù)測器在遇到新穎地形區(qū)域時的輸出可能不可靠，從而導(dǎo)致該區(qū)域的導(dǎo)航性能下降。為了度量這種 Epistemic 不確定性，我們希望估計牽引力預(yù)測器中某個中間層提取出的潛特征的密度，該特征是基于地形輸入特征得到的。密度估計器定義如下：

我們使用一個由參數(shù) 控制的正態(tài)化流模型（normalizing flow）來學(xué)習(xí)上述密度函數(shù)。從整體上看，正態(tài)化流的原理是：通過一系列可逆且可微的映射函數(shù)，將目標(biāo)分布（如潛空間分布）變換為一個簡單的基礎(chǔ)分布（base distribution），例如標(biāo)準(zhǔn)正態(tài)分布。然后，使用變量變換公式（change of variable formula，[17]），可以計算任意樣本的密度：其密度為：變換后樣本在基礎(chǔ)分布上的密度值；變換函數(shù)的Jacobian 行列式的絕對值（即體積變化因子）的乘積。在選擇潛空間特征時，必須確保該特征包含與任務(wù)相關(guān)的信息。為此，我們使用由共享地形特征編碼器（shared terrain feature encoder）產(chǎn)生的潛特征，因為該編碼器同時用于預(yù)測線向與角向牽引力分布，其表示能力足夠強。

為了更直觀地使用密度作為不確定性指標(biāo)，我們設(shè)計了一個簡單的置信度函數(shù) ，用于衡量輸入特征的置信程度。該函數(shù)基于訓(xùn)練集內(nèi)所有地形樣本的潛空間密度分布中觀察到的：最大密度；最小密度。該置信度可用于規(guī)劃中區(qū)分訓(xùn)練內(nèi)分布（in-distribution）與 OOD 地形（out-of-distribution terrain）。

在部署階段，若某地形特征的置信度得分低于某個設(shè)定的門限，則認為該地形為 OOD（Out-of-Distribution）。此類具有 OOD 特征的地形區(qū)域可以在路徑規(guī)劃中通過輔助懲罰項（auxiliary penalties）顯式規(guī)避。一個較為系統(tǒng)的設(shè)定方式是：將設(shè)為訓(xùn)練集中所有地形特征的潛特征密度的第分位數(shù)（percentile），即：；較高的值意味著測試時更多地形將被歸為 OOD。由于在公式（9）中使用了歸一化操作，選擇和分別對應(yīng)訓(xùn)練集中密度的第 0 百分位（最小值）與第 100 百分位（最大值），這為門限選擇提供了便利。值得注意的是，這個門限可以離線選定，例如若希望機器人僅規(guī)避密度低于訓(xùn)練集最小值的區(qū)域，可以簡單地設(shè)置。這種策略在部署牽引力預(yù)測模型于訓(xùn)練外場景時（即未見過的新地形），能夠顯著提高導(dǎo)航成功率。這一效果在仿真實驗（見第 VIII 節(jié)）與真實硬件實驗（見第 IX-B 節(jié)）中均得到了驗證。

C. 證據(jù)深度學(xué)習(xí)

盡管牽引力預(yù)測器與密度估計器可以采用順序訓(xùn)練（sequential training）方式分別訓(xùn)練，但 Charpentier 等人 [16] 證明了：基于證據(jù)深度學(xué)習(xí)（evidential deep learning）的聯(lián)合訓(xùn)練能夠在保持預(yù)測精度的同時，顯著提升 OOD 檢測性能。本節(jié)中，我們回顧文獻 [16] 提出的訓(xùn)練方法與損失函數(shù)。在該方法中，神經(jīng)網(wǎng)絡(luò)的輸出參數(shù)化了一個 Dirichlet 分布，該分布是分類分布（categorical distributions）的共軛先驗。

設(shè) 表示一個 Dirichlet 分布，其濃度參數(shù)為：，這是定義在個 bin 上的一個層級概率分布，其中下層的分類分布的參數(shù) 滿足：即 p 是一個歸一化的概率質(zhì)量函數(shù)（PMF），它由上層的 Dirichlet 分布生成：Dirichlet 分布的期望（即期望 PMF）為：該期望 PMF 表征了 Aleatoric 不確定性。Dirichlet 分布參數(shù)的總和：表示分布相對于其期望的集中程度（concentration），也稱為總證據(jù)量（total evidence）。證據(jù)越高，表示 Epistemic 不確定性越低，因為該樣本在訓(xùn)練集中觀察得更多。給定一個先驗 Dirichlet 分布，神經(jīng)網(wǎng)絡(luò)會基于輸入特征執(zhí)行一次輸入相關(guān)的后驗更新，從而學(xué)習(xí)出對該輸入的置信表達。

后驗 Dirichlet 分布同時依賴于：由牽引力預(yù)測器（見公式（7））預(yù)測的牽引力分布；與潛特征密度（見公式（8））成比例的預(yù)測“證據(jù)” ；一個預(yù)設(shè)的置信預(yù)算常數(shù) 。由此可得，后驗 Dirichlet 分布對應(yīng)的期望牽引力 PMF 為：

其中：：先驗 Dirichlet 分布的總濃度；先驗分布的期望 PMF。我們采用平坦先驗（flat prior），令：其中為全 1 向量，從而得到一個在所有可能 PMF 上均勻的 Dirichlet 分布?；谖墨I [16] 的該建?？蚣?，后驗 Dirichlet 分布及其期望牽引力分布都依賴于牽引力預(yù)測器、潛密度估計器與輸入地形特征。為了簡化符號，下面對損失函數(shù)的分析中將統(tǒng)一使用一般形式的 Dirichlet 分布與。但在實際訓(xùn)練中，應(yīng)將它們替換為上述的（后驗形式）公式（10）、（11）、（12）。

給定一個目標(biāo)概率質(zhì)量函數(shù)（PMF）向量，其表示通過經(jīng)驗數(shù)據(jù)估計得到的牽引力分布，我們可以將牽引力預(yù)測器和 normalizing flow 模型聯(lián)合訓(xùn)練，使用以下的 UCE（Uncertainty-aware Cross Entropy）損失函數(shù) [16]：

其中：?是期望交叉熵損失（expected CE loss），而是一個用于鼓勵分布平滑性的熵正則項。需要注意的是，和都依賴于 Dirichlet 分布的參數(shù) （詳見附錄 A）。文獻 [16] 中的消融研究表明，使用上述損失（公式 (13)）進行訓(xùn)練，在保持傳統(tǒng)交叉熵損失精度的同時，能夠有效提升 OOD 檢測性能。然而，CE 類損失函數(shù)在本研究中的一個關(guān)鍵缺陷在于：它將所有 bin 之間的預(yù)測誤差視為相互獨立。這種“獨立性假設(shè)”在牽引力建模場景中并不合理，因為：所有 bin 是通過對連續(xù)牽引力值進行離散化獲得的；這些 bin 是有序的——即，距離較近的 bin 在語義上應(yīng)當(dāng)比距離較遠的 bin 更為相似。為了解決這個問題，我們提出了一種新的損失函數(shù)，基于平方地球移動距離（squared Earth Mover’s Distance, EMD2） [19]。已有研究表明，在 bin 有序的情形下，該損失相比基于交叉熵的損失可獲得更好的預(yù)測精度。

D. 不確定性感知的平方地球移動距離

直觀上，EMD（Earth Mover's Distance）衡量的是：將一個分布的概率質(zhì)量轉(zhuǎn)換為另一個分布所需的最小“運輸代價”。對于兩個具有相同數(shù)量 bins 的分類分布（categorical distributions），EMD 可以計算為封閉形式解 [19]。給定一個預(yù)測的概率質(zhì)量函數(shù)（PMF）與目標(biāo) ，在 bin 等間距的前提下，基于 ?-范數(shù)的歸一化 EMD 可寫為：

其中：表示累加求和（cumulative sum）操作；實際訓(xùn)練中，我們令，即使用歐氏距離（Euclidean distance）；并優(yōu)化其平方形式損失函數(shù)，記作 EMD2，省略了乘法常數(shù)項。圖 6 中的示例清楚地表明：與忽略 bin 間關(guān)系的交叉熵（CE）相比，EMD2 能更好地表達預(yù)測 PMF 的物理含義。

圖6. EMD2和CE之間的差異。給定真實值（GT）和預(yù)測值和，CE產(chǎn)生相同的值，而EMD2對的懲罰更大。實際上，EMD2更為理想，因為它考慮了離散化的牽引值之間的跨區(qū)間關(guān)系。

由于 EMD2 僅定義在 PMF 上，一個樸素但有效的策略是：將目標(biāo)分布與 Dirichlet 分布的期望 PMF 進行比較。從而定義如下?lián)p失函數(shù)（忽略常數(shù)乘子）：

其中：?是 Dirichlet 的期望 PMF；? 是總證據(jù)量（total evidence）；定義為：

由于累計和操作具有線性性質(zhì)，因此：因此，是與總證據(jù)量無關(guān)的，這意味著它對 Epistemic 不確定性（由證據(jù)控制）的學(xué)習(xí)并不敏感，如圖 7 中的示例所示，因此無法有效學(xué)習(xí) Epistemic 不確定性。

圖 7. 在一個包含三個分箱、、的簡單示例中，分析標(biāo)準(zhǔn) EMD2 損失與我們提出的 UEMD2 損失之間的差異。每個藍色三角形表示預(yù)測的狄利克雷分布，可視化為 3-單純形上的概率密度；單純形內(nèi)的每個點對應(yīng)三個分箱上的分類分布。紅色十字 + 表示目標(biāo)標(biāo)簽分布在訓(xùn)練集中的位置。狄利克雷分布可以通過兩個量進行參數(shù)化：其均值的位置及其在均值附近的集中度。左圖：在保持狄利克雷分布集中度不變的情況下，改變其位置。在這種情況下，兩種損失的行為相似且符合預(yù)期——它們促使預(yù)測的狄利克雷分布接近目標(biāo)標(biāo)簽分布。右圖：在保持狄利克雷分布集中度不變的情況下，改變其在類集 (GT) 上的位置。由于 EMD2 僅取決于狄利克雷均值的位置，因此它相對于變化的集中度而言是恒定的。然而，我們提出的 UEMD2 鼓勵預(yù)測的狄利克雷函數(shù)具有較高的集中度（低認知不確定性）。學(xué)習(xí)預(yù)測分布內(nèi)訓(xùn)練樣本的低認知不確定性對于校準(zhǔn)不確定性預(yù)測和檢測 OOD 樣本至關(guān)重要，而不是對集中度漠不關(guān)心。

類似于文獻 [16] 中基于的交叉熵期望損失定義方式，我們提出了不確定性感知平方地球移動距離（UEMD2）損失，將其定義為預(yù)測的 Dirichlet 分布下的 EMD2 期望：

我們提出的 UEMD2 損失具有封閉形式，如下定理所示：

定理 1：令為一個 Dirichlet 分布，為一個分類目標(biāo)分布，則其期望損失函數(shù)具有如下閉式表達：

其中：?：定義見公式（16）。

證明：見附錄B。

由于與公式（15）中的在結(jié)構(gòu)上的相似性，式（18）同樣懲罰預(yù)測 PMF 的 EMD2 誤差，從而提升牽引力預(yù)測精度。此外，式（18）還包含了對 Dirichlet 總證據(jù)量的反向懲罰項，從而有效鼓勵模型輸出集中度高（低 Epistemic 不確定性）的預(yù)測，如圖 7 所示。事實上，可以證明（利用 Jensen 不等式與的凸性）：雖然 UEMD2 損失可單獨用作損失函數(shù)，但其平方項特性有時會導(dǎo)致訓(xùn)練停在非期望的局部最優(yōu) [19]。為此，我們參考文獻 [19]，引入一個聯(lián)合損失函數(shù)，融合了 CE 和 EMD2 的優(yōu)勢，定義如下多目標(biāo)優(yōu)化目標(biāo)：

其中：：Dirichlet 分布的熵，鼓勵分布光滑；：超參數(shù)，用于調(diào)節(jié)各項損失的重要性。在實踐中，我們對預(yù)測的線向與角向牽引力分布分別計算公式（19）中的總損失，然后進行平均。如第五節(jié)第 C 小節(jié)（Section V-C）中的仿真結(jié)果所示，該多目標(biāo)損失函數(shù)（19）相比單一損失，訓(xùn)練更穩(wěn)定，且在測試階段具有更好的泛化能力。

Ⅳ 基于學(xué)習(xí)牽引力分布的風(fēng)險感知規(guī)劃

盡管應(yīng)規(guī)避那些可能導(dǎo)致高 Epistemic 不確定性的 OOD 地形，但在分布內(nèi)（in-distribution）的地形上，由于復(fù)雜的車-地相互作用，仍可能引發(fā) 高 Aleatoric 不確定性，從而造成牽引力不穩(wěn)定。因此，我們提出了一種風(fēng)險感知的規(guī)劃器（risk-aware planner），能夠權(quán)衡以下兩者之間的關(guān)系：失去動力（immobilization）的風(fēng)險；在高不確定性地形上通行所帶來的時間節(jié)約潛力。

A. 條件風(fēng)險值

我們采用 CVaR（Conditional Value at Risk）作為風(fēng)險指標(biāo)，因為它滿足一組用于理性風(fēng)險評估的重要公理 [46]。傳統(tǒng) CVaR 定義假設(shè)風(fēng)險位于分布右尾（right tail），而我們對隨機變量 ZZ 在給定風(fēng)險水平下，分別定義其左右尾的 CVaR（見圖 8）如下：

圖 8. 本研究定義了兩種條件風(fēng)險價值（CVaR）的版本，以捕捉隨機變量 ( ) 在左尾或右尾的最壞情況期望值，分別為 ( ) 和 ( )，其中最壞情況構(gòu)成了總概率的 ( ) 部分。左尾和右尾的風(fēng)險價值（VaR）分別定義為 ( ) 和 ( )。

其中，左右尾的 VaR（Value at Risk）定義如下：

從直觀角度理解：和分別衡量右尾與左尾區(qū)域的期望結(jié)果；每個尾部所占概率質(zhì)量均為；通常，右尾用于衡量需要最小化的代價（如時間、能耗）；左尾用于衡量低牽引力情形的風(fēng)險，更適用于越野可通行性問題。

當(dāng) 時，左右尾 CVaR 定義均等價于期望值：

B. 風(fēng)險感知規(guī)劃

為應(yīng)對因牽引力不確定性帶來的風(fēng)險，我們首先介紹文獻 [22] 提出的基線方法：該方法優(yōu)化規(guī)劃目標(biāo)函數(shù)的右尾 CVaR（CVaR-Cost）。隨后，我們提出一種計算效率更高的方法，即基于牽引力左尾 CVaR 的成本設(shè)計（CVaR-Dyn）。最后，我們分析這兩種方法的優(yōu)缺點。

1)最壞情形期望代價（CVaR-Cost [22]）給定初始狀態(tài) ，我們希望找到一個控制序列，使得在地形牽引力不確定的情況下，最小化名義代價函數(shù) （公式 (4)）的右尾 CVaR：

其中：牽引力是從預(yù)測的牽引力分布（公式 12）中采樣得到；由于牽引力不確定，變?yōu)橐粋€隨機變量，依賴于狀態(tài)軌跡的實現(xiàn)過程。該方法受到文獻 [22] 的啟發(fā)，但我們進一步支持與地形特征相關(guān)的牽引力分布建模。

在實際中，優(yōu)化問題（24）可通過 MPPI（Model Predictive Path Integral）實現(xiàn)，方法是對每個控制序列生成個牽引力樣本，并估計其對應(yīng)的 CVaR 值：為加速訓(xùn)練，可利用 GPU 并行預(yù)生成張牽引力圖，每張圖中每個地圖單元格存儲一個牽引力樣本，從而使每組控制序列可在所有圖上并行評估。但隨著地圖尺寸增加，計算開銷仍會迅速膨脹。

2)最壞情形期望牽引力（CVaR-Dyn）

為提高計算效率，我們提出一種新方法：使用地形牽引力分布的左尾 CVaR來替代 Monte Carlo 采樣。目標(biāo)是最小化名義代價函數(shù) C，但軌跡是由最壞情形牽引力決定的：

當(dāng) 時，等價于期望值，即退化為文獻 [21] 所采用的方法。

3)優(yōu)點與局限性（Advantages and Limitations）

CVaR-Cost 與 CVaR-Dyn 都建立在“最壞情形”風(fēng)險的直覺之上，分別使用：CVaR-Cost：目標(biāo)函數(shù)的 CVaR；CVaR-Dyn：牽引力參數(shù)的 CVaR。它們的優(yōu)勢：所有地形類型共享一個風(fēng)險參數(shù) ，調(diào)參簡單；CVaR-Cost 是更一般性的風(fēng)險處理方法（但計算復(fù)雜）；CVaR-Dyn 計算效率更高，更適合大規(guī)模地圖。CVaR-Dyn 的局限在于：其直覺假設(shè)“低牽引力 → 時間更長”并非總成立；對于更復(fù)雜系統(tǒng)和目標(biāo)函數(shù)，可能不適用。

Ⅴ 可通行性學(xué)習(xí)管線的評估

我們提出的證據(jù)式可通行性學(xué)習(xí)方法（evidential traversability learning method）在一個合成地形數(shù)據(jù)集上進行評估（見第 V-A 節(jié)）。該數(shù)據(jù)集被設(shè)計為模擬真實環(huán)境下數(shù)據(jù)稀缺的情況，提供牽引力的真實值（GT traction distributions）和 OOD 地形掩碼（OOD terrain masks）。我們比較了多個損失函數(shù)變體（如公式 (19)），在預(yù)測精度與 OOD 檢測性能（見第 V-C 節(jié)）上的表現(xiàn)。為突出聯(lián)合訓(xùn)練與 UEMD2 損失（公式 (18)）的優(yōu)勢，我們還在第 V-D 節(jié)進行了消融實驗。分析完第四節(jié)的規(guī)劃器后，第六節(jié)將介紹系統(tǒng)的組成方式，第七節(jié)展示了我們損失函數(shù)對導(dǎo)航性能的提升效果。盡管不確定性量化本身并非本文重點，我們建議讀者參考文獻 [16]，其中詳細探討了本文所用神經(jīng)網(wǎng)絡(luò)架構(gòu)在學(xué)習(xí)精度、OOD 檢測能力和計算效率上相較其他先進方法的優(yōu)勢。

A. 合成三維地形數(shù)據(jù)集

我們使用的合成數(shù)據(jù)集包含隨機生成的 3D 地形，對應(yīng)的 GT 牽引力分布依據(jù)地形的幾何屬性（如坡度、高程）與語義類別（如泥土與植被）生成，具體定義詳見表 I。注意：坡度僅用于生成牽引力 GT，不作為神經(jīng)網(wǎng)絡(luò)的輸入。為簡化問題，線向與角向牽引力使用相同分布；依賴關(guān)系只存在于：泥土類型與地形坡度之間；植被類型與地形高程之間。盡管可以設(shè)計更復(fù)雜的牽引力函數(shù)，我們提供的數(shù)據(jù)集已足以支撐本文工作。

表 I 用于基準(zhǔn)測試損失函數(shù)的合成地形數(shù)據(jù)集

GT（真實）牽引分布針對泥地為單峰高斯分布，其均值隨地形坡度增加而增大，反映地形的崎嶇程度。植被的牽引分布基于海拔高度：在中等海拔時呈雙峰分布，在最低和最高海拔時為單峰分布。需注意，OOD 數(shù)據(jù)集（I）包含混合地形類型，而OOD（II）則不含植被，以確保學(xué)習(xí)到的模型不單純依賴語義信息進行 OOD（分布外）檢測。

具體構(gòu)成如下：5 個訓(xùn)練環(huán)境、20 個測試環(huán)境、40 個 OOD 環(huán)境；每個環(huán)境大小為 30×30 米，分辨率為 0.5 米；參數(shù)變化包括：高程、坡度、植被比例。為了模擬模型泛化能力，訓(xùn)練集特意保持較小規(guī)模。每個訓(xùn)練環(huán)境再細分為訓(xùn)練集與交叉驗證集。圖 9 展示了合成環(huán)境的部分可視化結(jié)果。為模擬真實世界的數(shù)據(jù)采集：牽引力樣本僅沿圓形路徑采集；為分析數(shù)據(jù)量對學(xué)習(xí)的影響，我們通過將測量樣本數(shù)乘以 , 來擴展訓(xùn)練數(shù)據(jù)量。

圖 9. 包含泥土（棕色）和植被（綠色）語義類型的合成三維地形數(shù)據(jù)集。(a) 在每個訓(xùn)練環(huán)境中，沿著預(yù)設(shè)的圓形路徑進行有限的牽引力測量，以模擬有限覆蓋范圍內(nèi)的真實世界數(shù)據(jù)收集。每個環(huán)境被分成兩個進行交叉驗證。此外，我們通過將基準(zhǔn)測量計數(shù)相乘來分析不同測量次數(shù)的影響（見圖 10）。(b) 測試環(huán)境包含用于分析牽引力預(yù)測精度的新型地形特征。為了支持EMD2 是更好的導(dǎo)航性能指標(biāo)這一關(guān)鍵論點，在測試環(huán)境中部署了使用不同損失函數(shù)訓(xùn)練的模型，用于執(zhí)行“前往目標(biāo)”任務(wù)（見第七節(jié)）。(c) 與測試環(huán)境相比，OOD 數(shù)據(jù)集還為訓(xùn)練期間未觀察到的高程和/或坡度的新型地形提供了二值掩碼。(a) 訓(xùn)練環(huán)境示例。(b) 測試環(huán)境示例。(c) OOD 環(huán)境示例。

在訓(xùn)練環(huán)境中：通過直方圖統(tǒng)計記錄牽引力分布，并記錄每個terrain cell 的采樣次數(shù)，以在訓(xùn)練時加權(quán)損失函數(shù)；在測試環(huán)境中：使用 GT 分布評估預(yù)測精度；在 OOD 環(huán)境中：坡度與高程值未在訓(xùn)練中出現(xiàn)者被視為 OOD；OOD 掩碼作為 GT 標(biāo)簽用于 OOD檢測性能評估，圖 9(c) 展示其示例。

B. 模型訓(xùn)練

我們對所有損失函數(shù)使用相同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)：牽引力預(yù)測器由一個共享編碼器（卷積層 + 全連接層）組成，用于處理語義與高程圖 patch；其后接兩個全連接解碼頭，分別輸出線向與角向牽引力分布的 softmax 概率。從共享編碼器得到的潛特征被送入一個徑向流（radial flow）模型 [53]。為數(shù)值穩(wěn)定起見，我們使用一個固定的置信預(yù)算，其值隨潛空間維度以指數(shù)增長 [16]。訓(xùn)練采用 [16] 提出的兩階段流程：聯(lián)合訓(xùn)練牽引力預(yù)測器與流模型；達到初步收斂后，凍結(jié)牽引力預(yù)測器，僅微調(diào)流模型。實驗表明，此策略能有效提升 OOD 檢測性能。但我們未觀察到文獻 [16] 所建議的“warm-up”策略帶來額外提升。

超參數(shù)搜索：Adam優(yōu)化器學(xué)習(xí)率：, , ]；當(dāng)使用 UEMD2 與 UCE 單獨訓(xùn)練時，entropy 權(quán)重：；當(dāng)聯(lián)合使用時，UCE權(quán)重固定，僅搜索 UEMD2 權(quán)重：。對于每組超參數(shù)，我們用 5 個隨機種子訓(xùn)練模型，并以驗證集上的 EMD2 誤差為指標(biāo)選擇最佳模型。實證表明，相比使用 KL 散度選擇模型，用驗證集的 EMD2 誤差選擇模型能提升整體表現(xiàn)。為公平起見，圖表結(jié)果統(tǒng)一基于 UCE 損失 + 驗證集 KL 散度選出的模型。

圖 10. 以 EMD2 和 KL 散度衡量的預(yù)測誤差（越低越好）以及以 AUC-ROC 和 AUC-PR 衡量的 OOD 檢測準(zhǔn)確率（越高越好）。每個損失函數(shù)的圖例后面的括號中是選擇超參數(shù)的標(biāo)準(zhǔn)。結(jié)果顯示平均值和標(biāo)準(zhǔn)差?？傮w而言，當(dāng)給定更多訓(xùn)練樣本時，所提出的 UEMD2 與 UCE 加權(quán)和可獲得最佳預(yù)測準(zhǔn)確率，并穩(wěn)步提高 OOD 檢測性能。由于訓(xùn)練和測試環(huán)境之間的分布偏移，過多的訓(xùn)練數(shù)據(jù)會導(dǎo)致其他損失設(shè)計的預(yù)測準(zhǔn)確率下降。此外，與基于 EMD2 的損失相比，UCE 在捕捉離散牽引值之間的跨箱關(guān)系方面更差，導(dǎo)致預(yù)測準(zhǔn)確率更差和 OOD 檢測性能不穩(wěn)定。

C. 預(yù)測精度與 OOD 檢測性能

我們對不同的損失函數(shù)變體（公式 19）在以下兩個方面進行了評估：預(yù)測精度（prediction accuracy）：使用 EMD2 與 KL 散度，即將預(yù)測分布與真實 GT 分布進行比較；OOD 檢測性能：計算潛空間密度的 AUC-ROC 與 AUC-PR，相對于 OOD mask。AUC-ROC 與 AUC-PR 是二分類標(biāo)準(zhǔn)指標(biāo)，數(shù)值越接近 1 代表分類越好，0.5 表示與隨機分類等價。為對比上限性能，我們納入了一組模型，在訓(xùn)練時直接使用 GT traction 分布（不采樣）進行 UCE 訓(xùn)練。評估報告在圖 10 中展示，包含所有地圖單元格、測試環(huán)境與隨機種子的平均性能與標(biāo)準(zhǔn)差。

實驗主結(jié)論：使用我們提出的 UEMD2 + UCE 加權(quán)組合損失所訓(xùn)練的模型，在 EMD2 和 KL 兩個指標(biāo)上均取得了最佳預(yù)測精度；該加權(quán)組合也帶來了更穩(wěn)定的提升，在訓(xùn)練樣本增多時，OOD 檢測性能與預(yù)測精度持續(xù)改善；但當(dāng)訓(xùn)練樣本過多時，預(yù)測精度會下降（尤其在非組合型損失下）——我們推測其原因在于訓(xùn)練與測試分布發(fā)生偏移，驗證集仍表現(xiàn)良好；UCE 局限：與 EMD2 類損失相比，UCE 無法建模牽引力分布中 bin 間的相關(guān)性；導(dǎo)致潛空間表征欠規(guī)整，進而引起 OOD 檢測性能不穩(wěn)定；即使訓(xùn)練時使用 GT 分布也不能完全彌補這一缺陷。

表 II UEMD2 與聯(lián)合訓(xùn)練的消融研究

所示結(jié)果是基于多個隨機種子計算所得的均值與標(biāo)準(zhǔn)差。最佳結(jié)果以粗體標(biāo)出。

D. UEMD2 與聯(lián)合訓(xùn)練的消融實驗

雖然文獻 [16] 已經(jīng)證明：在使用 UCE 損失時引入不確定性感知與聯(lián)合訓(xùn)練能夠顯著提升性能，但我們?yōu)橥暾云鹨?，也?UEMD2 損失進行了類似的消融實驗，相關(guān)結(jié)果見表 II。為了簡化實驗，我們將樣本數(shù)倍增因子設(shè)為 10（即牽引力采樣量擴大 10 倍）。但在其他倍增設(shè)置下也可以得出類似結(jié)論。實驗結(jié)果表明：只有同時使用聯(lián)合訓(xùn)練與不確定性建模（如 UEMD2），才能在 EMD2 精度與 OOD 檢測方面顯著改善。盡管上述策略已經(jīng)帶來改進，但圖 10 的結(jié)果進一步表明：想要獲得更一致、穩(wěn)定提升的預(yù)測精度與 OOD 檢測性能；仍需聯(lián)合使用 UEMD2 與 UCE 兩種損失函數(shù)。

Ⅵ 風(fēng)險感知規(guī)劃器的評估

在模擬的 2D 語義環(huán)境中，地形牽引力具有較高的 Aleatoric 不確定性。實驗表明，我們提出的 CVaR-Dyn 方法相較于現(xiàn)有方法（如 [11], [21]）在假設(shè)名義牽引力或期望牽引力的前提下具有更優(yōu)性能，同時在效果上也能與 CVaR-Cost 方法 [22] 競爭。為簡化評估，我們構(gòu)建了一個網(wǎng)格世界環(huán)境，其中 dirt 與 vegetation 單元格具有已知牽引力分布（見圖 11）。植被單元格隨機生成，其密度在地圖中心逐漸增加。由于植被對應(yīng)的是一個雙峰牽引力分布，機器人容易陷入“失去動力”的陷阱。任務(wù)目標(biāo)：機器人需避開零牽引力區(qū)域、避障，并成功到達目標(biāo)點；若機器人無法移動或陷入局部最優(yōu)軌跡（如原地打轉(zhuǎn)），視為失敗。

圖 11. 模擬環(huán)境，機器人必須在有界區(qū)域內(nèi)盡快從起點移動到目標(biāo)。為簡單起見，線性和角牽引力參數(shù)具有相同的分布。植被地形斑塊在植被區(qū)域的中心隨機采樣。

A. 規(guī)劃器實現(xiàn)細節(jié)

我們使用 MPPI（Model Predictive Path Integral, [18]）進行控制；時域：100 步，步長 0.1s；控制信號：線速度 3 m/s，角速度 π rad/s，帶有噪聲（2 m/s, 2 rad/s）；rollout 數(shù)量為 1024；對牽引力分布使用 20-bin PMF 進行近似；所有模擬運行在 GPU 上（i9 + RTX 3070），其中 CVaR-Cost 是最昂貴的計算方式，但能以 15 Hz 的頻率重新規(guī)劃（200×200 地圖尺寸）；未進行牽引力采樣的規(guī)劃器可運行至 50+ Hz。

B. 導(dǎo)航性能對比

我們對以下方法進行了對比：CVaR-Dyn（本文方法）CVaR-Cost [22]WayFAST [21]：使用視覺感知的期望牽引力[11] 方法：使用名義牽引力 + CVaR 時間加權(quán)我們在所有方法中統(tǒng)一調(diào)整風(fēng)險參數(shù) ，WayFAST 固定為。每個語義地圖采樣 5 組牽引力，重復(fù) 40 次實驗。圖12 總結(jié)結(jié)果：若設(shè)得較小，CVaR-Dyn 在成功率與到達時間上均優(yōu)于或接近 CVaR-Cost；圖13 展示折中關(guān)系：不同方法在成功率與到達時間之間的取舍。

核心發(fā)現(xiàn)與對比分析：所有方法均可通過調(diào)參提升性能（除 WayFAST）；為 vegetation 設(shè)置高懲罰項（名義牽引力方法）可最大化成功率；CVaR-Dyn 與 CVaR-Cost 在某些任務(wù)中可實現(xiàn)更快完成任務(wù)但略低成功率，適用于高風(fēng)險、時間敏感任務(wù)；當(dāng) 進一步降低時，CVaR-Dyn 更容易陷入局部最優(yōu)，因為使用最壞牽引力后 rollout 過短；CVaR-Cost 的性能下降也明顯，原因是 CVaR 目標(biāo)本身估計更難；CVaR-Cost 解算時間約為 60 ms，其他方法約為 5 ms；整體而言，沒有方法完全優(yōu)于其他，需依據(jù)場景做決策。

實踐建議與結(jié)論：在有領(lǐng)域知識時，可將 OOD 植被設(shè)為懲罰區(qū)域，配合 CVaR 規(guī)劃器提升性能（見 Section VIII）；雖然仿真中 CVaR-Dyn 與 CVaR-Cost 表現(xiàn)接近，但在實際硬件測試中（見 Section IX），CVaR-Dyn 展現(xiàn)出最優(yōu)綜合性能。

圖 12. 提出的 CVaR-Dyn、CVaR-Cost [22] 和 WayFAST [21] 分別使用預(yù)期牽引力和假設(shè)標(biāo)稱牽引力 [11]（即無滑移）的方法所實現(xiàn)的成功率和目標(biāo)時間。需要注意的是，如果機器人達到目標(biāo)，則任務(wù)成功。我們展示了目標(biāo)時間的分布及其平均值?？傮w而言，當(dāng)風(fēng)險承受能力足夠低（例如）時，CVaR-Dyn 的成功率和目標(biāo)時間與 CVaR-Cost 規(guī)劃器相似或更高，并且優(yōu)于 WayFAST 和假設(shè)標(biāo)稱牽引力的方法。

圖 13. 在最具挑戰(zhàn)性的 70% 植被覆蓋場景中，成功率與目標(biāo)達成時間之間的權(quán)衡，如果達到目標(biāo)，則視為成功。CVaR-Dyn 和 CVaR-Cost 均比 WayFAST 實現(xiàn)了更好的權(quán)衡，位于圖的左上角。當(dāng)成功率低于 0.9 時，CVaR-Dyn 和 CVaR-Cost 比假設(shè)名義牽引力，同時對進入植被地形的狀態(tài)施加輔助懲罰的方法實現(xiàn)了更好的權(quán)衡。然而，隨著的減小，CVaR-Dyn 和 CVaR-Cost 的成功率會趨于平穩(wěn)并最終下降，因為規(guī)劃器變得更加規(guī)避風(fēng)險，并且容易受到局部最小值的影響。

Ⅶ 優(yōu)化 EMD2 提升導(dǎo)航性能

為支持本文的關(guān)鍵論點——EMD2 是比 KL 散度更優(yōu)的度量指標(biāo)，更適合評估可通行性模型中牽引力分布的學(xué)習(xí)質(zhì)量，我們對采用不同損失函數(shù)訓(xùn)練的模型進行了導(dǎo)航性能評估，所涉及的模型已在第 V 節(jié)中介紹。這些模型被部署到與圖9 所示相同的測試環(huán)境中：每張地圖為 30×30 米，起點與終點設(shè)在對角線兩端；為簡潔起見，本文只展示 CVaR-Dyn 規(guī)劃器（α=0.4）下的結(jié)果，使用與第 VI-A 節(jié)一致的 MPPI 設(shè)置；但在不同 α值設(shè)定下也可觀察到相似趨勢。與第 V 節(jié)的 benchmark 保持一致：每種損失函數(shù)均使用 5 個隨機種子 + 5 個不同訓(xùn)練數(shù)據(jù)量的設(shè)置；對 20 張測試地圖中的每一張，采樣 5 個牽引力圖并運行 3 次任務(wù)；平均結(jié)果繪制于圖14，因全部成功，故省略成功率。

圖 14. 在圖 9 所示的測試環(huán)境中，使用不同損失設(shè)計訓(xùn)練的學(xué)習(xí)牽引模型的導(dǎo)航性能。結(jié)果顯示了所有測試環(huán)境、采樣牽引圖和隨機種子的平均值和標(biāo)準(zhǔn)差。需要注意的是，所提出的混合損失的導(dǎo)航性能接近于在測試環(huán)境中使用 GT 牽引模型的最佳導(dǎo)航性能，以及在訓(xùn)練環(huán)境中使用 GT 牽引分布訓(xùn)練的最先進的 UCE 損失的最佳導(dǎo)航性能。

關(guān)鍵發(fā)現(xiàn)：在訓(xùn)練數(shù)據(jù)稀缺的情況下，盡管 UEMD2 的 KL 誤差略高于 UCE（如圖10 所示），但 UEMD2 在時間效率上優(yōu)于 UCE；這驗證了我們的直覺：EMD2 能更好捕捉牽引力分布的 cross-bin 結(jié)構(gòu)，在小數(shù)據(jù) regime 中提供更好的泛化能力；數(shù)據(jù)量增加后，我們提出的 UEMD2 + UCE 加權(quán)混合損失在導(dǎo)航性能上全面超越其他方法。然而，如第 V-C 節(jié)所述，當(dāng)訓(xùn)練數(shù)據(jù)過多時，會引發(fā)訓(xùn)練與測試分布之間的偏移，導(dǎo)致牽引力預(yù)測性能下降 → 導(dǎo)航性能下降（見圖14）。但混合損失方法對此不敏感，能更好保持導(dǎo)航性能；此外，混合損失在低數(shù)據(jù)設(shè)置下接近使用 GT traction + UCE 損失的最優(yōu)性能上限；這說明：僅使用訓(xùn)練環(huán)境中圓形路徑采樣到的有限數(shù)據(jù)，混合損失方法就能實現(xiàn)良好的泛化能力。圖中還提供了一個下界（lower bound），即基于測試環(huán)境中 GT traction 模型所計算的最短到達時間。

Ⅷ 避開ODD地形的優(yōu)勢

我們展示了基于密度的置信度分數(shù)（公式 (9)）在檢測高 epistemic 不確定性地形方面的效果，以及在導(dǎo)航過程中避開 OOD 區(qū)域的實際收益。實驗設(shè)置：使用 Clearpath Husky 機器人，在兩個不同的森林區(qū)域采集數(shù)據(jù)；第一個區(qū)域用于訓(xùn)練（見圖5）；第二個區(qū)域為測試場景（語義地圖見圖15）；使用語義八叉樹 [50] 構(gòu)建環(huán)境模型，將 LiDAR 與語義分割 RGB 圖融合，語義分割基于 RUGD 數(shù)據(jù)集的 24 類（見 [52]）；測試環(huán)境中的地面真實牽引力由另一套神經(jīng)網(wǎng)絡(luò)估計，用作 proxy-GT。我們使用 CVaR-Dyn（α=0.2）來適應(yīng)牽引力預(yù)測的高噪聲，主要研究在具有新穎語義地形特征的區(qū)域中的導(dǎo)航表現(xiàn)。實驗設(shè)計：在測試地圖中設(shè)定兩個具挑戰(zhàn)性的 start-goal 點對；每組點對在不同置信度閾值下重復(fù) 10 次；對比兩種方式避開 OOD 地形：將 OOD 區(qū)域設(shè)為“0 牽引力”；賦予 OOD 區(qū)域高額代價懲罰。若成功抵達目標(biāo)即視為任務(wù)成功。

圖 15. （左）在測試環(huán)境中，模擬機器人必須達到兩個選定的目標(biāo)，以強調(diào)使用不可靠網(wǎng)絡(luò)預(yù)測的危險。（右）基于潛在密度的置信度得分 (9) 表示預(yù)測牽引力分布的認知不確定性程度，其中未知地形和已知地形的負值得分以黑色表示。請注意，由于存在未知單元，頂部的棕色語義區(qū)域（覆蓋物）的置信度低于零，而左側(cè)的棕色語義區(qū)域則包含較少的未知單元。

實驗結(jié)果如圖 16 所示：隨著置信閾值的提高，成功率最多可提升至 30%；這是因為機器人有效地避開了牽引力預(yù)測不可靠區(qū)域。此外，當(dāng)為 OOD 地形使用“軟懲罰”策略（而非直接禁止）時：能夠在保證類似成功率的前提下，顯著提升任務(wù)完成效率（time-to-goal）；原因是懲罰機制引導(dǎo)規(guī)劃器更容易找到避開 OOD 區(qū)域的路徑。因此，當(dāng)可利用場景知識時，將輔助代價項與 CVaR-Dyn 方法聯(lián)合使用：不僅能提升成功率；還可實現(xiàn)更快、更穩(wěn)定的導(dǎo)航；是在實際部署中非常有價值的策略。

圖 16. 通過避開 OOD 地形，導(dǎo)航成功率有所提升。注意，陰影區(qū)域表示標(biāo)準(zhǔn)差。OOD 地形的處理方式為：分配零牽引力（藍色）或施加懲罰（橙色）。圖中包含了使用 GT 牽引力的規(guī)劃器的性能，以展示最佳性能?？傮w而言，更高的值提高了成功率，但代價是縮短了目標(biāo)時間。然而，針對 OOD 地形的輔助懲罰，使規(guī)劃器更容易找到實現(xiàn)目標(biāo)的解決方案。值得注意的是，當(dāng) 時，平均成功率趨近于 1，這表明學(xué)習(xí)到的牽引力模型在測試環(huán)境中能夠很好地推廣到具有高置信度值（低認知不確定性）的地形。

實踐結(jié)論：因此，當(dāng)可利用場景知識時，將輔助代價項與CVaR-Dyn 方法聯(lián)合使用：不僅能提升成功率；還可實現(xiàn)更快、更穩(wěn)定的導(dǎo)航；是在實際部署中非常有價值的策略。

Ⅸ 硬件實驗

為了驗證 EVORA 的有效性與可行性（即本文提出的不確定性感知可通行性學(xué)習(xí)與風(fēng)險感知路徑規(guī)劃的整體框架）在實際中的應(yīng)用效果，我們設(shè)計了兩個實驗場景：一個使用遙控車的室內(nèi)賽道任務(wù)，模擬帶有假植被的環(huán)境（見 Section IX-A）；另一個使用四足機器人的更具挑戰(zhàn)性的室外導(dǎo)航場景（見 Section IX-B）。在兩個場景中，機器人都使用車載傳感器在測試時在線構(gòu)建環(huán)境地圖，這引入了來自運動模糊、光照變化與不完整地圖等問題帶來的更大不確定性。雖然兩個實驗都表明，所提出的 CVaR-Dyn 路徑規(guī)劃器在導(dǎo)航性能上表現(xiàn)最佳，室外實驗場景還進一步展示了避開 OOD 地形的優(yōu)勢。在實際中，由 MPPI 生成的控制信號通常非常嘈雜，因此我們在名義控制 [54] 的導(dǎo)數(shù)空間中進行規(guī)劃，以生成平滑軌跡。

A. 使用遙控車的室內(nèi)競速實驗

本節(jié)實驗的目標(biāo)是展示在控制環(huán)境中，所提出的規(guī)劃器在緩解 aleatoric 不確定性所帶來風(fēng)險方面的性能優(yōu)勢。

圖 17. 用于室內(nèi)賽車實驗的訓(xùn)練和測試環(huán)境。(a) 訓(xùn)練環(huán)境由一塊草坪和兩棵倒下的樹木組成，用于模擬灌木叢。學(xué)習(xí)到的線性和角度牽引力分布在選定區(qū)域可視化，包括 (i) 硬地板、(ii) 倒下的樹木和 (iii) 草坪。需要注意的是，植被上牽引力分布的雙峰性可能會導(dǎo)致機器人速度顯著降低。(b) 測試環(huán)境包含兩塊草坪、三棵倒下的樹木、三棵直立的樹木和虛擬障礙物。機器人的任務(wù)是沿著參考路徑跟隨胡蘿卜目標(biāo)行駛兩圈，同時在無植被的繞行路線和有植被的較短路徑之間做出選擇。(a) 訓(xùn)練環(huán)境中學(xué)習(xí)到的牽引力。(b) 測試環(huán)境。

1)實驗設(shè)置：

如圖17 所示，室內(nèi)環(huán)境占地面積為 9.6 米 × 8 米，為了與 0.33 米 × 0.25 米的 RC 小車一致，場地內(nèi)部設(shè)置了一條由人造草皮與假樹組成的路徑，以模擬戶外的植被區(qū)域。小車上安裝了 RealSense D455 深度攝像頭、Intel Core i7 CPU 與 Nvidia RTX 2060 GPU。機器人在車載平臺上執(zhí)行牽引力預(yù)測、運動規(guī)劃與高程圖建圖，建圖分辨率為 0.1 米，但實際位姿與速度估計由 Vicon 完成。植被識別方式為：提取圖像中綠色像素點，而不是使用單獨的語義分割網(wǎng)絡(luò)，以節(jié)省 GPU 資源。路徑傳播模型使用公式 (3) 所示的 bicycle 模型，牽引力由命令線速度、轉(zhuǎn)向角與 Vicon 所提供的 GT 實際速度進行標(biāo)定計算得出。

我們基于 10 分鐘的駕駛數(shù)據(jù)對牽引力模型進行訓(xùn)練，使用的是所提出的聯(lián)合損失函數(shù) (19)，即加權(quán)組合的 UEMD2 和 UCE：兩者的加權(quán)系數(shù)均設(shè)為 1；熵項加權(quán)系數(shù)為 1e-5（經(jīng)驗調(diào)優(yōu)得出）；所學(xué)習(xí)得到的牽引力分布如圖17(a) 所示，呈現(xiàn)多峰性（multimodality）。在部署時，機器人需在賽道上繞跑兩圈，并根據(jù)下述兩條路徑進行決策：一條路徑較短，但包含植被；另一條路徑較長，但風(fēng)險較低，如圖17(b) 所示。我們設(shè)計了一個動態(tài)目標(biāo)區(qū)沿著橢圓形參考軌跡運動，該目標(biāo)點被稱為“胡蘿卜目標(biāo)（carrot goal）”，它與機器人在參考路徑上的投影點保持 75° 的固定偏移角。

在方法對比方面，我們考慮：CVaR-Cost；本文提出的 CVaR-Dyn；一個基線方法：假設(shè)使用名義牽引力，但對高度在 5 cm 到 15 cm 之間的低矮植被區(qū)域引入輔助懲罰項，因為這些區(qū)域可能導(dǎo)致駕駛困難。所有方法都通過輔助懲罰機制避開植被區(qū)域。所有規(guī)劃器均執(zhí)行：在 20 Hz 下進行規(guī)劃；展望步長為 5 步；每次生成 1024 個 rollout；CVaR-Cost 由于計算成本更高，僅使用 400 個牽引力圖樣本；最大速度設(shè)為 1.5 m/s，最大轉(zhuǎn)向角設(shè)為 30°。

圖 18. 室內(nèi)實驗的代表性試驗，用于突出規(guī)劃器的故障模式。上行顯示自上而下的語義地圖，下行顯示延時照片。為了清晰起見，我們僅顯示兩圈中的第一圈。（a）隨著的減小，提出的 CVaR-Dyn 變得更加規(guī)避風(fēng)險，并采取更大的轉(zhuǎn)彎以進入捷徑。（b）WayFAST（的 CVaR-Dyn）沒有考慮轉(zhuǎn)向不足的風(fēng)險，因此它總是轉(zhuǎn)彎太晚而無法走捷徑。（c）CVaR-Cost 始終繞道行駛以避開植被地形。隨著的減小，規(guī)劃器變得更加規(guī)避風(fēng)險，有時會在障礙物附近停止。（d）當(dāng)軟懲罰較低時，基線更具風(fēng)險承受能力并會選擇捷徑，但實際牽引力與標(biāo)稱牽引力存在顯著差異，導(dǎo)致更多碰撞。隨著軟懲罰的增加，規(guī)劃器變得更加保守并繞道而行，但使用標(biāo)稱牽引力進行規(guī)劃會導(dǎo)致嚴(yán)重的轉(zhuǎn)向不足，從而限制性能。

圖 19. 室內(nèi)實驗 5 次試驗的結(jié)果和任務(wù)時間。我們展示了任務(wù)時間的分布以及最大值、平均值和最小值。提出的 CVaR-Dyn 在時實現(xiàn)了最佳目標(biāo)時間，成功率為 100%。隨著的減小，CVaR-Dyn 和 CVaR-Cost 都會導(dǎo)致目標(biāo)時間縮短。需要注意的是，當(dāng) 時，CVaR-Cost 在許多情況下會在障礙物附近停止。相比之下，基線和 WayFAST 會導(dǎo)致更差的目標(biāo)時間，并且發(fā)生碰撞的可能性更高。

2)Aleatoric 不確定性結(jié)果分析：

我們對比了各個規(guī)劃器在緩解由于 aleatoric 不確定性引起的導(dǎo)航風(fēng)險方面的能力，定性與定量結(jié)果見圖18 和圖19?？疾炝巳N風(fēng)險容忍度；輔助懲罰項設(shè)定為；對于名義牽引力規(guī)劃器，將所有進入植被區(qū)域的狀態(tài)都視為“高風(fēng)險”狀態(tài)；WayFAST 方法單獨呈現(xiàn)，作為 CVaR-Dyn（）的一種特例。我們對每組設(shè)置進行五次重復(fù)實驗，每次包括兩圈比賽。整體結(jié)果表明：CVaR-Dyn（）在平均成功率與最短時間到達方面均表現(xiàn)最佳。圖18 中的定性可視化表明：基線方法與 WayFAST 在現(xiàn)實世界的牽引力噪聲下容易偏離軌跡、轉(zhuǎn)向發(fā)散；而 CVaR-Cost 與 CVaR-Dyn 能夠通過生成平滑軌跡更好地應(yīng)對該噪聲；CVaR-Cost 更容易繞遠路，并在障礙物附近容易陷入局部極小值。

B. 使用腿式機器人進行戶外導(dǎo)航

與室內(nèi)環(huán)境相比，戶外實驗中地形類型更加多樣，感知中的不確定性也更大，這主要是由于光照變化和劇烈運動所引起的。除了評估規(guī)劃器處理阿列阿不確定性（aleatoric uncertainty）的能力之外，戶外測試還展示了通過避免 OOD 地形（分布外地形）來減緩認知不確定性（epistemic uncertainty）帶來的風(fēng)險的好處，同時也驗證了我們方法在腿式機器人上的適用性。

圖 20. 腿式機器人的戶外訓(xùn)練和測試環(huán)境。(a) 戶外環(huán)境由不同高度和密度的植被地形組成?？梢暬诉x定區(qū)域的預(yù)測線性和角度牽引力分布，這些區(qū)域包括 (i) 高草、(ii) 短草和 (iii) 茂密的灌木叢。與輪式機器人不同，腿式機器人在穿過植被時通常具有良好的線性牽引力，但由于轉(zhuǎn)彎難度較大，角度牽引力可能表現(xiàn)出多模態(tài)性。(b) 使用兩對起始-目標(biāo)樣本對規(guī)劃器進行基準(zhǔn)測試，并分析避開 OOD 地形的優(yōu)勢。(a) 在訓(xùn)練環(huán)境中學(xué)習(xí)到的牽引力。(b)測試環(huán)境。

1）實驗設(shè)置

圖20 展示了戶外實驗的整體設(shè)置概況。一臺 Boston Dynamics 的 Spot 機器人被裝備了 RealSense D455 深度相機、Ouster OS0 激光雷達，以及 Nvidia Jetson AGX Orin（該設(shè)備在功耗效率上優(yōu)越，但計算能力較我們前面實驗中使用的計算平臺要低）。本實驗采用了單輪車模型（unicycle model，參見公式 (2)），牽引力的數(shù)值是通過比較機器人的控制指令與其內(nèi)置里程計輸出的實際運動結(jié)果計算得出的。環(huán)境地圖是通過構(gòu)建語義八叉樹（semantic octomap）得到的，八叉樹以 0.2 m 的分辨率將激光雷達點云和基于 RUGD 數(shù)據(jù)集 [52] 提取的 24 類語義標(biāo)簽的 RGB 圖像融合而成。牽引力模型基于 5 分鐘的行走數(shù)據(jù)進行訓(xùn)練，使用的是我們提出的損失函數(shù)（19），其權(quán)重與室內(nèi)實驗中的設(shè)置相同。所學(xué)習(xí)到的牽引力分布在圖20(a) 中可視化展示，用以突顯其多模態(tài)特性。如圖20(b) 所示，我們選擇了兩個起點-目標(biāo)點對，以測試不同規(guī)劃器在避開 OOD 地形方面的效果及其帶來的好處。所有規(guī)劃器都會通過附加代價機制避免進入海拔高于 1.4 m 的地形區(qū)域；而基線方法（baseline）還會對高度低于 1.4 m 的草地與灌木類語義類型地形附加軟代價（soft cost）。盡管 1.4 m 的高度閾值遠高于機器人的步高，但所選測試環(huán)境中并不包含短小且剛性的障礙物，這是為了分析各類規(guī)劃器在應(yīng)對高植被環(huán)境方面的能力。由于語義分類、牽引力預(yù)測與運動規(guī)劃模塊需共享 GPU 資源，規(guī)劃器只能以 5 Hz 的頻率進行規(guī)劃，并能提前預(yù)測 8 秒路徑，共執(zhí)行 800 次控制采樣。CVaR-Cost 方法由于計算限制僅允許使用 200 張牽引力地圖采樣。最大線速度和角速度分別為 1 m/s 與 90°/s。

圖 21. 戶外實驗的代表性試驗。上行顯示自上而下的語義地圖，下行顯示延時照片。（a）與其他方法相比，提出的 CVaR-Dyn（）能夠很好地處理嘈雜的地形牽引力，并且產(chǎn)生的軌跡波動更小。（b）WayFAST（時的 CVaR-Dyn）依賴于預(yù)期牽引力，這無法很好地指示實際軌跡結(jié)果，導(dǎo)致航向不斷修正。（c）與 CVaR-Dyn 相比，CVaR-Cost 更為保守，因為它遠離灌木叢并實現(xiàn)了更長的目標(biāo)時間。（d）基線假設(shè)標(biāo)稱牽引力，這會導(dǎo)致轉(zhuǎn)向不足。隨著軟懲罰的增加，機器人越來越不愿意面對高高的草叢和灌木叢。由于大部分測試區(qū)域都被草叢或灌木叢覆蓋，因此具有較大軟懲罰的基線在后續(xù)試驗中難以找到可行的計劃來實現(xiàn)目標(biāo)。

圖 22. 局部規(guī)劃器基準(zhǔn)測試的目標(biāo)時間分布，包含最大值、平均值和最小值。每個規(guī)劃器總共完成三次往返，即六次試驗。提出的的 CVaR-Dyn 性能優(yōu)于需要更多計算的 CVaR-Cost、使用預(yù)期牽引力進行規(guī)劃的 WayFAST（的 CVaR-Dyn）以及使用標(biāo)稱牽引力進行規(guī)劃并對草地和灌木叢施加軟懲罰的基線。

2）阿列阿不確定性結(jié)果

圖 21 和圖 22 展示了在應(yīng)對阿列阿不確定性風(fēng)險方面，各類規(guī)劃器的定性與定量比較結(jié)果。我們每個方法都重復(fù)執(zhí)行三次往返路徑（共六次試驗）。整體而言，CVaR-Dyn 在設(shè)置下取得了最佳的耗時與成功率表現(xiàn)，與第 IX-A 節(jié)中的室內(nèi)實驗結(jié)果一致。CVaR-Cost 的策略更保守，常常會遠離草叢區(qū)域。相比之下，基線方法與 WayFAST 都受到真實牽引力噪聲的影響，軌跡彎折嚴(yán)重。特別地，當(dāng)對草地與灌木地形的軟懲罰設(shè)置得過高時，基線方法容易陷入局部最小值（local minima），需要人工干預(yù)，導(dǎo)致任務(wù)耗時變長。

圖 23. 規(guī)劃器規(guī)避 OOD 地形的典型行為，其中語義自上向下地圖和延時照片分別顯示在頂部和底部。如果沒有 OOD 規(guī)避功能，機器人容易因在線地圖不完善和地形牽引噪聲而陷入局部極小值，需要人工干預(yù)才能遠程操作機器人到達可行目標(biāo)規(guī)劃區(qū)域。相比之下，為 OOD 地形分配輔助懲罰項，則使規(guī)劃器更容易找到到達目標(biāo)的軌跡。

圖 24. 六次試驗（三次往返）OOD 避讓測試的目標(biāo)時間分布，包括最大值、平均值和最小值。通過避開 OOD 地形，規(guī)劃器不易受到局部極小值的影響，并通過避開訓(xùn)練期間未見過的特征地形，實現(xiàn)了更佳的目標(biāo)時間。

3）認知不確定性結(jié)果

與前面的實驗不同，OOD 地形規(guī)避實驗的目標(biāo)是展示在面臨認知不確定性風(fēng)險時采取緩解措施的效果。因此，我們僅使用 CVaR-Dyn（）進行評估，但如果將底層的局部規(guī)劃器替換為 CVaR-Cost 或其他用于緩解阿列阿不確定性的方法，也能得出相似結(jié)論。我們總共執(zhí)行三次往返路徑實驗。圖 23 和圖 24 展示了 OOD 規(guī)避實驗的定性與定量結(jié)果。我們將某一地形視為 OOD，當(dāng)其牽引力預(yù)測器的 latent 特征密度歸一化后低于 0（即低于訓(xùn)練數(shù)據(jù)中所有特征密度的 0 百分位）。更保守的閾值可以基于經(jīng)驗調(diào)節(jié)獲得。與圖20 中的訓(xùn)練環(huán)境相比，圖23 中的測試環(huán)境包含大量訓(xùn)練集中未見的高植被區(qū)域。因此，這些高植被區(qū)域會產(chǎn)生較高的認知不確定性，對應(yīng)的地形將被標(biāo)記為 OOD。如果不避開 OOD 地形，機器人容易陷入局部極小點，需要人為干預(yù)才能將其移至可行軌跡區(qū)域以繼續(xù)前往目標(biāo)點。相比之下，避開 OOD 地形的規(guī)劃器能在不依賴人工干預(yù)的情況下獲得更短的時間開銷。

C. 硬件實驗總結(jié)

總的來說，硬件實驗已經(jīng)證明，所提出的 CVaR-Dyn 方法在實際應(yīng)用中是一個有吸引力的選擇。它避免了 CVaR-Cost 方法所需的額外計算開銷，例如對附加牽引力圖的采樣，或者需要人類專家為多種地形類型設(shè)計語義驅(qū)動的代價函數(shù)。

此外，估計認知不確定性（epistemic uncertainty）的能力使我們能夠識別并規(guī)避具有不可靠牽引預(yù)測的 OOD 地形，從而提升導(dǎo)航成功率并減少人工干預(yù)。

Ⅹ 局限性與未來工作

從建模角度來看，本工作聚焦于二維機器人模型，但面對更具挑戰(zhàn)性的地形時，六自由度（6-DoF）模型是必要的 [36], [55], [56]。此外，我們使用語義八叉樹（semantic octomap） [50] 來建模環(huán)境，但也可以采用計算成本更低的替代方法 [10], [57]。此外，我們的系統(tǒng)依賴于語義分割模塊的精度，因此當(dāng)測試環(huán)境與訓(xùn)練環(huán)境差異較大（例如光照或季節(jié)變化導(dǎo)致）時，所提出的管線可能會失效。因此，感知模塊中不確定性帶來的風(fēng)險需要單獨研究 [41]。從數(shù)據(jù)采集角度來看，本研究依賴于用于訓(xùn)練的真實牽引分布，而這種分布對于高維特征（如 RGB 圖像）可能難以獲取。雖然我們提出的損失函數(shù)可用于直接訓(xùn)練即時牽引測量，但使用 EMD2 損失所帶來的性能提升仍需進一步評估。此外，也可以使用基于不確定性的主動采集方法 [37], [58] 來收集更具信息量的訓(xùn)練樣本。從規(guī)劃角度來看，本研究提出了使用牽引 CVaR 來模擬狀態(tài)軌跡的方法，但仍需要進一步研究將該思想推廣至更多系統(tǒng)參數(shù)與性能指標(biāo)的通用性。此外，我們的規(guī)劃器能夠在新環(huán)境中避免 OOD 地形，但只能在有人工干預(yù)時進行在線適應(yīng) [12]。最后，所提出的方法也可以與利用遠場信息的全局規(guī)劃器 [59] 結(jié)合使用。

XI 結(jié)論

本工作提出了 EVORA，這是一個統(tǒng)一的框架，用于基于證據(jù)深度學(xué)習(xí)的不確定性感知可通行性學(xué)習(xí)，以及基于 CVaR 的風(fēng)險感知規(guī)劃。EVORA 通過經(jīng)驗分布（代表 aleatoric 不確定性）建模地形牽引力的不確定性，并基于牽引預(yù)測器潛在特征的密度（代表 epistemic 不確定性）識別 OOD 地形。通過利用我們提出的不確定性感知的平方 EMD 損失函數(shù)，我們提升了神經(jīng)網(wǎng)絡(luò)的預(yù)測準(zhǔn)確率、OOD 檢測性能以及下游導(dǎo)航性能。為應(yīng)對 aleatoric 不確定性，所提出的風(fēng)險感知規(guī)劃器基于牽引分布的左尾 CVaR 來模擬狀態(tài)軌跡。為應(yīng)對 epistemic 不確定性，我們提出為那些潛在特征密度較低的地形分配輔助代價，從而提升導(dǎo)航成功率。整個系統(tǒng)通過大量仿真實驗和硬件實驗進行了分析，展示了其在不同地面機器人平臺上的導(dǎo)航性能提升。

附錄 A：UCE 損失與 Dirichlet 熵（參考 [16]）

給定和目標(biāo) ，

其中是 digamma 函數(shù)，?β 是整體證據(jù)。此外，的熵為：

其中表示 beta 函數(shù)。

附錄 B：定理 1 的證明

我們從 UEMD2的定義出發(fā)（參考式 (17)），并通過使期望中變得隱式來簡化記號。記為目標(biāo) PMF，為累積求和算子，記為累積求和向量的第項。

將恒定項單獨分出后，整理剩余項，并將期望移入求和內(nèi)部，得到：

公式 (42)–(47) 給出了對 Dirichlet 分布的標(biāo)準(zhǔn)性質(zhì)（均值、方差和協(xié)方差）的封閉形式：

最終帶入公式 (41)，得：

其中?，見公式 (16)。

參考文獻

分享到：

微信“掃一掃”
分享到朋友圈

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護	• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬	• 即刻探索8臺機器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學(xué)習(xí)增強運	• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

EVORA：面向風(fēng)險感知越野自主系統(tǒng)的深度證據(jù)可通行性學(xué)習(xí)

微信公眾號

Ⅰ 引言

Ⅱ 問題概述

Ⅲ 不確定性感知的可通行性建模

Ⅳ 基于學(xué)習(xí)牽引力分布的風(fēng)險感知規(guī)劃

Ⅴ 可通行性學(xué)習(xí)管線的評估

Ⅵ 風(fēng)險感知規(guī)劃器的評估

Ⅶ 優(yōu)化 EMD2 提升導(dǎo)航性能

Ⅷ 避開ODD地形的優(yōu)勢

Ⅸ 硬件實驗

Ⅹ 局限性與未來工作

XI 結(jié)論

參考文獻

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工