SHAIL：帶安全-覺察的城市環(huán)境自動駕駛分級對抗模仿學習

2022-05-05 16:32:52· 來源：計算機視覺深度學習和自動駕駛作者：黃浴

arXiv上2022年4月上傳論文“SHAIL: Safety-Aware Hierarchical Adversarial Imitation Learning for Autonomous Driving in Urban Environments“，作者來自斯坦

arXiv上2022年4月上傳論文“SHAIL: Safety-Aware Hierarchical Adversarial Imitation Learning for Autonomous Driving in Urban Environments“，作者來自斯坦福大學和德國KIT。

生成模仿學習是通過現(xiàn)實世界和模擬決策來自動制定策略的一種方法。以前生成模仿學習應(yīng)用于自動駕駛策略的工作，側(cè)重于學習簡單設(shè)置的低級控制器。然而，為擴展到復雜設(shè)置，許多自動駕駛系統(tǒng)，將固定、安全、基于優(yōu)化的低級控制器與能選擇適當任務(wù)和相關(guān)控制器的高級決策邏輯相結(jié)合。

本文試圖用Safety-Aware Hierarchical Adversarial Imitation Learning（SHAIL）來彌合這種復雜性差距，SHAIL是一種學習高級策略的方法，以帶策略（on-policy）模仿低級駕駛數(shù)據(jù)的方式從一組低級控制器實例中進行選擇。該文引入一個城市環(huán)形交叉路口模擬器，該模擬器用來自在伯克利開源Interaction數(shù)據(jù)集的真實數(shù)據(jù)來控制非自車。

實現(xiàn)代碼可見在 https://github.com/sisl/InteractionImitation。

下圖是示意圖：通過SHAIL，自車學會從一組安全高級選項中進行選擇，Interaction數(shù)據(jù)集所派生的復雜駕駛環(huán)境進行導航。這里可學習的只有低級專家狀態(tài)和動作。

最優(yōu)決策一般在MDP環(huán)境定義，包括狀態(tài)空間、動作空間和狀態(tài)轉(zhuǎn)移函數(shù)，以及獎勵函數(shù)、初始狀態(tài)分布和discount系數(shù)γ。MDP的策略通過動作影射狀態(tài)到一個分布，一個最優(yōu)策略最大化累計discounted獎勵。在強化學習設(shè)置中，確切的轉(zhuǎn)換和獎勵函數(shù) T 和 R 是未知的，但可以與環(huán)境交互，接收下一狀態(tài)和獎勵生成的樣本。

在模仿學習設(shè)置中，不接收獎勵信號，而是依賴于與環(huán)境交互的專家以軌跡推出的形式提供數(shù)據(jù)。模仿學習問題可以看作是專家和學習者分布之間的時刻匹配（moment matching）問題，方法可以大致描述為以下幾種：無策略（off-policy）的Q-價值時刻，帶策略的Q-價值時刻或獎勵時刻。

在模仿學習設(shè)置中學習策略的最直接方法是通過行為克隆（BC），其中受監(jiān)督的學習者將狀態(tài)回歸動作。這種方法在自動駕駛系統(tǒng)中有著悠久的歷史。行為克隆在測試過程中會有錯誤的累積，因為智體最終會進入訓練期間未見過的狀態(tài)，這種現(xiàn)象通常被稱為協(xié)變量移位（covariance shift）。

在某策略π下的狀態(tài)-動作占用度量，是訪問狀態(tài)和動作的（非規(guī)范化）γ- discounted平穩(wěn)分布。同樣地，也可以定義專家策略的狀態(tài)-行動占用度量。一種觀點將模仿學習表述為專家和學習的占用度量之間的時刻匹配問題，其通過最小化相關(guān)分布之間的一些f-散度來實現(xiàn)。在帶策略獎勵時刻匹配設(shè)置中，這個目標（objective）可以寫成帶策略生成器和觀測-動作鑒別器之間的雙人博弈：

這個優(yōu)化方法可以在優(yōu)化鑒別器參數(shù)的discriminator gradient ascent 步和優(yōu)化隨機策略的policy gradient ascent 步之間切換，后者可以看成是帶獎勵信號的強化學習。而兩個步驟都可以用蒙特卡洛方法（和一個replay buffer）估計其期望。

首先把前面目標函數(shù)定義為一個分層找到生成狀態(tài)和動作的一個策略：將占用度量在選項擴展，這些選項在執(zhí)行期間會引向狀態(tài) s 和動作 a，以及該選項開始執(zhí)行的初始狀態(tài)。擴展在時間 τ 開始執(zhí)行選項 o 的初始狀態(tài) sτ = h，在該初始狀態(tài)下，在時間 t 低級的狀態(tài)s和動作 a可以被觀察：

應(yīng)用這個分層占用度量表征，可以把度量匹配目標函數(shù)定義為一種分層策略數(shù)據(jù)生成的形式：

這里鑒別器更新保持不變，而生成器更新采用策略梯度算法，其中新的“想象”高級獎勵累積執(zhí)行該選項discounted低級“想象”鑒別器獎勵。

許多實際策略梯度的實現(xiàn)，都依賴于固定大小的動作空間?；诖?，這里僅限于一個選項集，其中任何選項都可以從每個狀態(tài)做初始化。就安全性而言，這種假設(shè)可能非常有限。通常，有來自不同狀態(tài)的受限選項信息（例如，Accelerate 選項不應(yīng)從紅燈中獲?。４送?，也許能夠?qū)Σ煌刂破鞯陌踩赃M行預測。例如，通過控制器的可達性（reachability）公式嚴格去做，或者通過場景理解更寬松地完成（例如，“由于有車輛穿過十字路口，因此轉(zhuǎn)彎可能不安全”）。SHAIL設(shè)計一個在選項安全性包含敏感性的高級“選項-選擇（option-selection）”策略，改進了前面的分層對抗模仿學習（hierarchical adversarial imitation learning）公式。

假設(shè)智體可以推斷來自不同狀態(tài)不同選項的安全性或可用性，以此納入安全意識。該文引入一個二進制隨機變量 z，它預測低級控制器的安全性或可用性，表示選項 o 從高級狀態(tài) s 執(zhí)行時是安全的概率。這樣設(shè)計選項就可以根據(jù)此安全預測將控制傳遞回高級選項的選擇器。

基于此控制器安全性，可以設(shè)計高級控制器：

此高級控制器根據(jù)選項的安全預測重新加權(quán)（或掩碼）選項概率。此方案需要至少一個具有非零安全概率的選項（例如，永久的“安全”控制器），否則這個高級策略將不表示在控制器的有效分布。另外，要學習有用選項的選擇器，其應(yīng)該具有一些在不同初始化狀態(tài)下成立的語義意思。

通過策略梯度學習具有此策略的選項選擇器，需要將選項啟動期間看到的安全概率存入replay buffer中。

Interaction仿真器在https://github.com/sisl/InteractionSimulator，是一個開源OpenAI Gym仿真器，取Interaction數(shù)據(jù)集的數(shù)據(jù)。仿真器本身根據(jù)Interaction數(shù)據(jù)集中記錄的數(shù)據(jù)，即車輛路徑和生成時間，并允許控制場景中一個或所有智體做加速。如果僅控制自車，則非自車的策略將從數(shù)據(jù)集中場景重放。

如圖所示是SHAIL與環(huán)境交互時學到的策略在單個時間步長的情況：自車可以獲得自己的運動狀態(tài)和類似激光雷達、最多可以包括五輛周圍車輛的相對狀態(tài)信息。

實驗中專注于單一智體的控制，允許策略確定自車沿其軌道加速。當車輛離開現(xiàn)場時，模擬將終止。自車遵循一個雙積分器轉(zhuǎn)換模型（double integrator transition model）沿著其記錄的路徑移動，而非自車則遵循其記錄的軌跡。

實驗中和其他方法，即Generative Adversarial Imitation Learning (GAIL) ，還有行為克隆、IDM和專家模型（interaction數(shù)據(jù)集），進行比較。

SHAIL的高級控制器從一組選項中進行選擇，這些選項針對特定未來時間的特定速度。每個選項的低級控制器命令固定加速度，車輛在所需時間可達到所需的速度。安全預測器返回一個二進制指示器，用于指示如果該選項保持其速度，是否會與其他車輛碰撞。因此，該實驗的安全層類似于確定性規(guī)劃安全層（deterministic planning safety layer）。此外，重寫最大減速選項，使其始終有效，成為默認的“安全”選項 HardBrake。同樣，用PPO的目標來衡量策略梯度。這里額外學習了一個沒有安全層或者選擇早終止（early termination）的SHAIL版本，即HAIL。

實驗集中在環(huán)形交叉路口的模型性能上，這是自動駕駛導航慣常的棘手場景。有兩個實驗：第一個實驗（ID）在同一環(huán)境訓練和測試模型，該環(huán)境僅從第一個軌道文件中選擇車輛，此實驗目的是比較絕對潛在模型性能；第二個實驗（OOD）選擇做訓練和驗證的環(huán)境，從場景記錄1-4中隨機選擇車輛，并在場景5上報告指標。這種OOD測試評估模型在未見過車輛數(shù)據(jù)上的表現(xiàn)，盡管仍然在相同的駕駛環(huán)境中運行。在這兩個實驗中，超參（例如模型架構(gòu)、選項集等）都是選擇訓練環(huán)境中產(chǎn)生最高成功率的進行優(yōu)化。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：為什么算法這么難？？？
上一篇：基于余熱利用的燃料電池汽車能量管理策略

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護
• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬
• 即刻探索8臺機器人如何解放數(shù)百名工人！	• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學習增強運
• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

SHAIL：帶安全-覺察的城市環(huán)境自動駕駛分級對抗模仿學習

微信公眾號

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

SHAIL：帶安全-覺察的城市環(huán)境自動駕駛分級對抗模仿學習

微信公眾號

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

開年豪擲1.8億搶用戶，又一車企加入“價格

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將