基于模型的自動駕駛汽車端到端深度強化學習策略

2024-03-19 08:17:25· 來源：焉知汽車

真實駕駛場景中，通過觀察和互動，使智能駕駛汽車能夠積累知識并應對不可預測的情況。我們將智駕汽車的這種對世界運作方式稱為“常規(guī)認知”，它使智能汽車能夠找到自己的方向。對周邊環(huán)境目標的觀察也使自車能夠學習并遵守規(guī)則。機器學習中的一個類似概念是一種稱為模仿學習的方法，它允許模型學習模仿人類在給定任務中的行為。

Wayve作為最先發(fā)布最先進的端到端模型的公司，用基于CARLA的模擬數據學習世界模型和車輛駕駛策略，從而使汽車無需高清地圖即可實現自動駕駛。其中，基于模型的模仿學習 (MILE) 作為一種新的機器學習模型，更具體地說是一種強化學習架構，可以在離線訓練期間學習世界模型和駕駛策略。MILE 可以采用“泛化推理算法”對智駕汽車未來行駛環(huán)境進行合理且可視化的想象和預測，并利用這種能力來規(guī)劃其未來的行動。

前言

由于實際過程中感知到的信息流通常是不完整且嘈雜的，因此AI大模型的應用大腦通過“想象學習”可以來填補這些缺失的信息。這也就解釋了為什么AI大模型下的智駕汽車能夠在被陽光致盲等情況下仍可以繼續(xù)駕駛。即使短時間內無法進行視覺觀察，仍然可以可靠地預測其下一個狀態(tài)和行動，以表現出安全的駕駛行為。

類似地，基于模型的駕駛行為學習MILE 可以執(zhí)行完全根據想象預測的準確駕駛計劃，而無需依靠實時的對環(huán)境進行視覺觀察。實際上MILE通過使用模型中的想象規(guī)劃，可以執(zhí)行復雜的駕駛操作，例如駛過環(huán)島、標記停車標志或轉向為了避開摩托車手。

從數量上來說，通過在完全循環(huán)的設置中運行來衡量預測計劃的準確性。在模型可以看到圖像觀察結果的觀察模式和模型必須想象下一個狀態(tài)和動作的想象模式之間切換，類似于由于陽光眩光而暫時失明的駕駛員。

通過自動駕駛的動態(tài)代理和靜態(tài)環(huán)境在 3D 幾何中進行推理，MILE 使用每個圖像特征的深度概率分布以及深度箱、相機內在和外在的預定義網格，可以將汽車捕獲的圖像轉換到3D空間。這些 3D 特征體素可以通過使用預定義網格操作轉換為鳥瞰圖，最后一步是映射到一維向量從而壓縮有關世界模型的信息，這也是定義編碼器過程的一部分。

觀察的下一部分將演化出一個與 StyleGAN 架構中發(fā)生的情況非常相似的解碼器。它是一種應用于編碼器輸出、鳥瞰圖和圖像潛在向量不同分辨率的上采樣方法。此外，解碼器還輸出車輛控制。對于時間建模而言，MILE 使用循環(huán)神經網絡對潛在狀態(tài)動態(tài)進行建模，根據前一個潛在狀態(tài)預測下一個潛在狀態(tài)。

環(huán)境和其中作用的動態(tài)代理的精確模型為改進運動規(guī)劃提供了巨大的潛力。MILE模型可以根據過去的上下文想象未來的潛在狀態(tài)，并使用它們來利用學習到的駕駛策略來規(guī)劃和預測行動。未來狀態(tài)也可以通過解碼器可視化和解釋。

在本文中，將介紹基于模型的模仿學習 MILE。該模型可用于學習自動駕駛車輛的協同控制并對世界環(huán)境進行動態(tài)建模。

基于端到端模型學習概述

端到端的學習過程可以僅根據高維視覺觀察預測駕駛命令來提高性能。有條件的模仿學習是學習端到端駕駛策略的一種有效方法，這種方法可以部署在模擬和現實城市駕駛場景中。盡管如此，從高維視覺觀察和專家軌跡中學習端到端策略仍然是相對非常困難的。已有一些算法試圖通過超越純粹的模仿學習來克服這些困難。比如提出迭代數據集聚合，其方法是在部署期間可能經歷的軌跡收集相應的數據。其次，還可以使用 BeV 語義分割來監(jiān)督模型，讓學習者接觸專家數據的綜合擾動，以產生更穩(wěn)健的駕駛策略。從所有車輛中學習（LAV）中不僅可以學習自車行為，還可以學習場景中其他所有車輛的行為，從而提高了樣本效率。此外，通過構建一個在強化學習教練來監(jiān)督和訓練相應的智能體。

1）城市場景學習

駕駛本質上需要對環(huán)境有幾何理解，MILE 首先將圖像特征提升到 3D 空間并將其匯集到鳥瞰圖 (BeV) 表示中，從而利用 3D 幾何作為重要的歸納偏差。世界的演化是通過潛在動力學模型來建模的，該模型從觀察和專家行為中推斷出緊湊的潛在狀態(tài)。學習到的潛在狀態(tài)是輸出車輛控制的駕駛策略的輸入，并且還可以解碼為 BeV 分段以進行可視化并作為監(jiān)督信號。

相應提升至3D空間的操作可以詳細描述如下：

使用逆內函數 K?1和預測深度，像素圖像空間中的特征在相機坐標中被改進為 3D針孔相機模型；以自車的慣性中心點，設置剛體運動M將3D相機坐標轉換為3D車輛坐標；

剝離不匹配點。在訓練時，先驗信息被訓練為通過 KL 匹配后驗信息分歧，但是它們不一定針對穩(wěn)健的長期未來預測進行優(yōu)化。通過迭代應用轉換模型并整合中間狀態(tài)，優(yōu)化狀態(tài)以實現穩(wěn)健的多步預測。監(jiān)督隨機展開的先驗時間范圍（即預測 t + k 處的狀態(tài)，其中 k ≥ 1）。更準確地說，在訓練期間，以概率 pdrop 從先驗而不是后驗中采樣隨機狀態(tài)st，稱這種現象為觀察丟失。如果將 X 表示為表示先驗 k 次的隨機變量展開后，X 遵循成功概率 (1 ? pdrop) 的幾何分布。后驗分布被建模為兩個高斯分布的混合，其中一個來自先驗分布。在訓練過程中，一些后驗變量被隨機丟棄，迫使其他后驗變量最大化從輸入圖像中提取信息。觀察 dropout 可以被視為 z-dropout 的全局變體，因為它一起刪除所有后驗變量。

實際上代理及其行為都不影響環(huán)境的這種假設在城市駕駛中很少成立，因此 MILE 使自車能夠模擬其他駕駛主體并規(guī)劃其如何響應自車行動。MILE模型可以根據長期的潛在狀態(tài)和行動來預測合理且多樣化的未來狀態(tài)。甚至可以在想象中預測整個駕駛計劃，以成功執(zhí)行復雜的駕駛操作，例如通過環(huán)島，或轉向避開摩托車手。

MILE使用循環(huán)神經網絡對時間進行建模，這樣可以維護一個總結所有過去觀察結果的單一狀態(tài)，然后在有新觀察結果可用時有效地更新狀態(tài)。這種設計決策對于延遲方面的部署具有重要的好處，而對驅動性能的影響可以忽略不計。

在推理過程中，因為使用循環(huán)神經網絡對時間進行建模，這樣可以維護一個總結所有過去觀察結果的單一狀態(tài)，然后在新觀察結果可用時有效地更新狀態(tài)。這種設計決策對于延遲方面的部署具有重要的好處，而對驅動性能的影響可以忽略不計。

2）3D 場景表示

成功的自動駕駛規(guī)劃需要能夠理解和推理 3D 場景，而這對于單目相機來說可能具有挑戰(zhàn)性。一種常見的解決方案是將多個攝像機的信息壓縮為場景的單個鳥瞰圖。這可以在 3D 中通過學習特征的深度分布提升每個圖像的先驗識別能力，然后將所有視錐體分散到公共光柵化 BeV 網格中來實現。另一種方法是依靠transformers（時空融合）來學習從圖像到鳥瞰圖的直接映射，而不需要顯式地建模深度。

3）世界模型

基于模型的方法主要在強化學習環(huán)境中進行探索，這種方法實際是在完全離線狀態(tài)下強化學習，并假設在與環(huán)境進行在線交互中可以獲得獎勵。基于模型的模仿學習已成為機器人操作和 OpenAI Gym 中強化學習的替代方案。盡管這些方法不需要獲得獎勵，但它們仍然需要與環(huán)境進行在線交互才能獲得良好的性能。

在視頻預測中，首先利用從圖像觀察中學習到的世界模型潛在動態(tài)，額外對獎勵函數進行建模，并優(yōu)化他們在世界模型中的策略。當然，本文這里的算法是不假設訪問獎勵函數，而是直接從離線數據集中吸收學習策略。

此外，以前的方法是對簡單的視覺輸入進行操作。相比之下，MILE 能夠從高分辨率輸入觀察中學習到復雜城市駕駛場景的潛在動態(tài)，這可以很好的確保小細節(jié)的感知性能（例如可靠地感知交通信號燈）。

4）軌跡預測

軌跡預測的目標是使用過去的物理狀態(tài)（例如位置、速度）和場景上下文（例如離線高清地圖）來估計動態(tài)代理的未來軌跡。世界模型構建了環(huán)境的潛在表示，解釋了根據自車行為而獲得感官輸入（例如相機圖像）的觀察結果。軌跡預測方法僅對動態(tài)場景進行建模，而世界模型則對靜態(tài)和動態(tài)場景進行聯合推理。在世界模型的學習模型中可以潛在表示移動代理未來軌跡的隱式編碼，并且如果我們可以訪問未來的軌跡標簽，則可以顯式進行解碼。

這些編碼可以預測移動目標的未來軌跡，但沒有控制自車的主體。實際上，整個軌跡規(guī)劃關注的是預測問題，而不是簡單的從演示中學習專家行為。從專家的演示中推斷出自車代理的未來軌跡，并以某些特定目標為條件來執(zhí)行新任務，這樣也可以共同模擬移動主體和自車的未來軌跡。這里主要通過聯合模擬其他動態(tài)代理的運動、自車代理的行為以及靜態(tài)場景來進行軌跡預測。假設訪問不到地面真實物理狀態(tài)（位置、速度）或場景上下文的離線高清地圖。也就是這樣的先驗真值系統(tǒng)并不存在，這里僅使用攝像頭檢測的方法，可以對城市駕駛環(huán)境中的靜態(tài)場景、動態(tài)場景和自我行為進行建模。

基于模型學習的方法論

MILE方法利用3D幾何作為歸納偏差，并直接從專家演示的高分辨率視頻中學習高度緊湊的潛在空間。MILE 能夠想象合理的未來并相應地計劃行動，使模型能夠在想象中控制車輛。這意味著模型可以在無需訪問世界最新觀測結果的情況下成功控制車輛。

1）概率生成模型

設 o1:T 為 T 視頻幀序列，具有相關的專家動作 a1:T 和地面實況 BeV 語義分割標簽 y1:T。通過引入控制時間動態(tài)的潛在變量 s1:T 來模擬這些動作的演化。

完整的概率模型由如下方程給出。

假設初始分布參數化為 s1 ～N (0, I)，通過引入一個變量 h1 ～δ(0) 作為確定性歷史。該轉換包括取決于過去歷史 ht 和過去狀態(tài) st 的確定性更新 ht+1 = fθ(ht, st)；隨機更新 st+1 ～N(μθ(ht+1, at), σθ(ht+1, at)I)，其中，我們將 st 參數化為具有對角協方差的正態(tài)分布。通過使用神經網絡對這些轉換進行建模：fθ是門控循環(huán)單元，(μθ,σθ) 是多層感知器。δ為 Dirac delta 函數，gθ為圖像解碼器，lθ為 BeV 解碼器，πθ為策略。

2）MILE模型預測架構

整體的MILE的模型預測架構如下圖所示。其中包括了觀測網絡和推理網絡兩部分。下面將針對性的對該整體架構進行詳細分析。

整個推理框架目標是推斷生成觀測值 o1:T 的潛在動態(tài) (h1:T, s1:T )，專家操作a1:T和鳥瞰視圖標簽 y1:T，潛在動態(tài)包含確定性歷史ht和隨機狀態(tài)st。

相應的推理模型是通過設定參數為φ，估計隨機狀態(tài)的后驗分布 q(st|o≤t, a<t) ～N (μφ(ht, at?1, xt),σφ(ht, at?1, xt)I) 且 xt = eφ(ot)。eφ是觀察編碼器，它可以將圖像二維特征提升到3D空間，從而將它們匯集到鳥瞰圖中，并壓縮為1D 向量。

生成模型估計主要是在參數為θ條件下，估計t-1時刻隨機狀態(tài)的先驗分布：p(st|ht?1, st?1)～N (μθ(ht, a?t?1),σθ(ht, a?t?1) )I)。其中，ht = fθ(ht?1,st?1)為確定性轉換，a?t?1 =πθ(ht?1, st?1) 為預測動作。同時，該模型還估計如下三個模型參數：

觀測值 p(ot|ht, st)～N(gθ(ht,st),I)的分布；

鳥瞰圖分割 p(yt|ht, st) ～Categorical(lθ(ht, st))；

執(zhí)行動作 p(at|ht, st) ～Laplace(πθ(ht,st),1)；

最后，是設定推斷時間步長，即通過該模型觀察T = 2個時間步的輸入來推測未來多步的潛在狀態(tài)和動作。

推理網絡框架

MILE實際上是一種基于模型的城市駕駛模仿學習方法，該方法僅從線下專家演示中共同學習駕駛策略和世界模型。利用幾何歸納偏差，對高維視覺輸入進行操作，MILE 可以預測多樣化且合理的未來狀態(tài)和行動，從而使模型能夠按照完全根據想象預測的計劃進行驅動。

一個懸而未決的問題是如何從專家數據中推斷駕駛獎勵函數，因為這將有助于在世界模型中進行明確的規(guī)劃。另一個途徑是自監(jiān)督，以放松對鳥瞰圖分割標簽的依賴。自監(jiān)督可以充分釋放世界模型在現實世界駕駛和其他機器人任務中的潛力。

如下圖所示，對 MILE 進行了完整的描述。其中，該圖中表示狀態(tài)之間條件依賴性的圖形模型。確定性狀態(tài)和隨機狀態(tài)分別用正方形和圓形表示，觀察到的狀態(tài)呈灰色。生成模型和推理模型的圖形模型中顯示了模型每個組件的參數數量及訓練期間使用的所有超參數。

推理網絡是以φ為參數，由兩個元素組成：即觀測編碼器eφ，將輸入圖像、路線圖和車輛控制傳感器數據嵌入到低維向量中；后驗網絡(μφ,σφ)，估計高斯后驗概率分布。通過對q(st|o≤t,a<t) 進行建模，計算近似真實的后驗概率p(st|o≤t, a<t)。

在訓練收斂時，先驗分布應該能夠對專家數據集中的所有動作狀態(tài)轉換進行建模。圖像和 BeV 解碼器具有類似于 StyleGAN的架構。預測從學習的常數張量開始，并逐漸上采樣到最終分辨率。在每個決議中，潛在狀態(tài)通過自適應實例歸一化注入到網絡中。且允許潛在狀態(tài)以不同的分辨率調制預測。

為了以傳統(tǒng)的動力學模型為基礎進行有效地泛化學習，需要設計相應的觀察編碼器。

整個模型狀態(tài)應該是緊湊的和低維的。因此，需要將高分辨率輸入圖像嵌入到低維向量中。與圖像分類任務類似，簡單地將圖像編碼為一維向量可能會導致性能不佳。相反，在模型中顯式編碼3D幾何則可以歸納偏差。

該方法可以基于如下三個步驟實現降維編碼。

1）將圖像特征提升至3D

由于自動駕駛是一個幾何問題，需要在3D中對靜態(tài)場景和動態(tài)代理進行推理。因此需要首先將圖像特征提升到3D。更準確地說，使用圖像編碼器對圖像輸入 ot ∈ R3×H×W 進行編碼，以提取特征 ut ∈ RCe×He×We。然后，沿著深度箱dt∈RD×He×We 的預定義網格預測每個圖像特征的深度概率分布。使用深度概率分布、相機內在參數 K 和外在參數 M生成相機坐標系到世界坐標系的投影矩陣，從而可以將圖像特征提升到3D空間：Lift(ut, dt, K?1 ,M)) ∈ RCe×D×He×De×3。

2）BeV空間中的特征集合

使用具有空間范圍Hb×Wb和空間分辨率bres的預定義網格將3D特征體素匯總到 BeV 空間，可以得到特征標識bt∈ RCe×Hb×Wb。

在傳統(tǒng)的計算機視覺任務中（例如語義分割、深度預測），瓶頸特征通常是空間張量，大約有105-106個特征。對于必須將先驗分布（在執(zhí)行動作的情況下認為會發(fā)生的情況）與后驗分布（通過觀察圖像輸入實際發(fā)生的情況）相匹配的世界模型來說，如此高的維度是令人望而卻步的。因此，使用卷積主干網backbone，可以將 BeV 特征 bt 壓縮為單個向量xt∈RC。同時，我們發(fā)現在BeV空間中壓縮比直接在圖像空間中壓縮顯得更加關鍵。

3）路線圖和速度環(huán)境目標預測建模

以路線圖的形式為智能體提供目標預測基準網絡，生成的是一個輕量化的灰度圖像，可以指示智駕汽車在交叉路口處往何方導航同行。同時，使用卷積模塊對路線圖進行編碼，可以產生1D特征rt；當前速度用全連接層編碼為mt；由此可以得出在每個時間步t，觀察嵌入xt可以表示為圖像特征、路線圖特征和速度特征的串聯：xt=[xt,rt,mt]∈RC，其中C= 512。

4）生成網絡θ

這里的整個網絡數據處理過程是由生成網絡參數θ對潛在動態(tài) (h1:T、s1:T)以及 (o1:T , y1:T, a1:T ) 的生成過程進行建模。其中涉及門控循環(huán)單元fθ、先驗網絡(μθ,σθ)、圖像解碼器gθ、BeV 解碼器lθ和策略πθ。

先驗網絡估計高斯分布的參數為 p(st|ht?1, st?1) ～N (μθ(ht, a?t?1),σθ(ht, a?t?1)I) ，其中 ht = fθ(ht?1, st?1) ，a^t?1=πθ(ht?1, st?1)。由于先驗無法訪問t-1時刻地面真實動作at?1，因此，后驗分布估計則使用了學習策略 a^t?1=πθ(ht?1, st?1) 進行估計。

5）估計散度損失

實際上，無論先驗還是后驗分布估計都存在一定的散度損失，這類損失的由來可以解釋如下。

給定過去的狀態(tài) (ht?1, st?1)，目標是預測下一個狀態(tài)st 的分布。當我們對主動代理進行建模時，這種轉換被分解為（i）動作預測和（ii）下一個狀態(tài)預測。該轉移估計將與 at?1 （可以訪問地面真實動作）和 ot （圖像觀察）的后驗分布進行比較。先驗分布試圖匹配后驗分布的分歧匹配框架可以確保模型預測解釋觀察到的數據行為和未來狀態(tài)。后驗與先驗的差異衡量了在觀察后驗時從先驗中丟失了多少信息，這種信息丟失也就是我們這里所說的散度損失。

6）未來的狀態(tài)和行動預測

如前所述，本文介紹的模型可以通過使用學習到的先驗策略來推斷T+i時刻動作 a^T +i=πθ(hT+i, sT+i)，從而推斷出未來的潛在狀態(tài)，預測下一個確定性狀態(tài) hT +i+1=fθ(hT +i,sT+i) 。同時，從先驗分布 sT+i+1～N (μθ(hT+i+1, a^T+i),σθ(hT+i+1, a^T+i)I)，對于i≥0進行過程迭代，得出的結果可應用于潛在空間中生成的較長未來序列，并且該預測的未來序列可以通過解碼器可視化。

在駕駛過程中的任何給定時間，存在多種可能的有效行為。例如，駕駛員可以稍微調整速度、決定改變車道或決定跟在車輛后面的安全距離是多少。確定性駕駛策略無法模擬這些微妙之處。在可能有多種選擇的模糊情況下，它通常會學習平均行為，這在某些情況下是有效的（例如，平均安全距離和平均巡航速度是合理的選擇），但在其他情況下是不安全的（例如，在變道時：比較老練的方式是可以提早或晚變道，而一般的行為是在車道標記上行駛）。

整個未來狀態(tài)的狀態(tài)和行動閉環(huán)驅動中的完全循環(huán)推理涉及如下兩步：

(i)重置狀態(tài)：對于每個新的觀察，重新初始化潛在狀態(tài)并重新計算新狀態(tài) [hT,sT]，其中T與訓練序列長度匹配。

(ii)完全循環(huán)：潛在狀態(tài)估計是在評估開始時進行初始化的，并且用新的觀察結果遞歸更新。模型必須學習一種表示形式，該表示形式可以概括為比訓練期間使用的 T 多幾個數量級的信息集成步驟。實踐證明，MILE可以在想象模式下以高達 30% 的驅動力保持相同的驅動性能。該模型可以想象足夠準確的閉環(huán)駕駛計劃。此外，世界模型的潛在狀態(tài)可以在觀察模式和想象模式之間無縫切換。當無法進行觀察時，可以通過想象來預測潛在狀態(tài)的演變，并在可以進行觀察時通過圖像觀察進行更新。

總結

MILE是在城市駕駛數據的離線語料庫上進行訓練的，無需與環(huán)境進行任何在線交互?？蚣艿木窒扌灾皇亲赃m應的手動獎勵功能，而不是根據專家駕駛員數據推斷。第二個重要的潛在問題是很大程度上依賴鳥瞰圖像分割來預測未來狀態(tài)。第三個潛在的改進是不同場景的模型泛化。模型可以預測多樣化且合理的狀態(tài)和動作，這些狀態(tài)和動作可以解釋性地解碼為鳥瞰圖語義分割。此外，MILE可以根據完全在想象中預測的計劃執(zhí)行復雜的駕駛操作。因此，整體上MILE模型預測可以對靜態(tài)場景、動態(tài)場景進行建模，以及城市駕駛環(huán)境中的智駕車輛行為。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：基于系統(tǒng)仿真的電動汽車熱管理
上一篇：汽車電子部件及EMC檢測

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網V課堂
微信公眾號
汽車測試網手機站

相關閱讀

0 條相關評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數，而是證據鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預期功能安全應該覆蓋	• 大推力直驅技術助力EPS安全測試，為你的安全出行 “保駕護
• 單機體積，雙倍效能！激光切割機玩轉“降本增效”	• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬
• 即刻探索8臺機器人如何解放數百名工人！	• 考慮驅動單元性能變化的分布式驅動智能車輛強化學習增強運
• eVTOL/飛行汽車→低噪聲氣動設計與主動降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

基于模型的自動駕駛汽車端到端深度強化學習策略

微信公眾號

編輯推薦

最新資訊

國內首個“路空一體”國家質檢中心落戶廣東

全國156個！IAE智行眾維入選！工信部2025年

瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構

是德科技推出適用于AI數據中心的Scale-Up驗

“汽車爬坡試驗方法”將有國家標準

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

基于模型的自動駕駛汽車端到端深度強化學習策略

微信公眾號

編輯推薦

最新資訊

國內首個“路空一體”國家質檢中心落戶廣東

全國156個！IAE智行眾維入選！工信部2025年

瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構

是德科技推出適用于AI數據中心的Scale-Up驗

“汽車爬坡試驗方法”將有國家標準

全國156個！IAE智行眾維入選！工信部2025年