一個基于博弈MPC的交互運動預測-規(guī)劃方法

2022-04-18 13:36:24· 來源：計算機視覺深度學習和自動駕駛作者：黃浴

arXiv論文“Deep Interactive Motion Prediction and Planning: Playing Games with Motion Prediction Models“，ETH、MIT和KU Leuven的科學家一起發(fā)表于2022年

arXiv論文“Deep Interactive Motion Prediction and Planning: Playing Games with Motion Prediction Models“，ETH、MIT和KU Leuven的科學家一起發(fā)表于2022年4月5號。

在大多數(shù)經(jīng)典的自動駕駛車（AV）棧中，預測層和規(guī)劃層是分開的，這限制了規(guī)劃者對自動駕駛車規(guī)劃軌跡不知道的預測做出反應。這項工作提出了一個通過博弈論的模型預測控制器（MPC）將這兩層緊密耦合的模塊，其采用一種新型的交互式多智體神經(jīng)網(wǎng)絡策略，作為預測模型的一部分。在設置中，MPC規(guī)劃器通過將規(guī)劃狀態(tài)序列通知多智體策略來考慮所有周圍的智體。這個方法的基礎是設計了一個新的多智體策略網(wǎng)絡，可以在給定周圍智體的狀態(tài)和地圖信息的情況下駕駛車輛。該策略網(wǎng)絡使用真實觀測數(shù)據(jù)，通過時間反向傳播（BPTT）和可微分動力學模型隱式訓練，在時域向前展開軌跡。最后，多智體策略網(wǎng)絡在與環(huán)境交互時學習駕駛，并且與博弈論的MPC規(guī)劃器結合，成功地生成交互行為。

項目網(wǎng)站是：Deep Interactive Motion Prediction and Planning

作者定義的策略叫做Interactive Multi-Agent Prediction (IMAP) ，為訓練它，采用了一種強化學習和模仿學習所啟發(fā)的方法。

如圖是聯(lián)合預測-規(guī)劃模塊：將場景中所有車輛的過去狀態(tài)緩沖區(qū)和以車道圖表示的高清地圖作為輸入；預測規(guī)劃模塊內的模型預測控制器（MPC）用學習到的預測模塊在內部模擬多智體駕駛場景。

首先定義基于模型的策略訓練方法如下：

采用一個遞推策略結構，基于Gated Recurrent Unit (GRU) 。
另外一個注意機制 multi-headed dot-product attention，建模意圖交互（intent interaction）。
智體物理狀態(tài)之間的交互，則采用GNN建模。
采用VectorNet做編碼器，和地圖的交互通過cross-attention機制建模。

如圖是遞歸IMAP策略π的示意圖：其將物理狀態(tài)ski和地圖信息m融合成共享嵌入表示，然后用于遞歸地控制動力學模型f。單個遞歸模型用于編碼和解碼階段，并通過BPTT用狀態(tài)/觀測值的直接損失進行訓練。IMAP策略還用隱嵌入來生成key，value和query（K，V，Q），在意圖和地圖交互網(wǎng)絡中使用。

InterGNN的架構細節(jié)如下：其中Message Passing Netwotk (MPN) 是一種GNN

下圖是IMAP模型的編碼器架構：其中IntentAttention 和 MapAttention兩個注意機制模塊組合連接在一起。

而其他智體之間的運動規(guī)劃可以理解為一個“非零和”博弈，其中所有智體考慮其獎勵函數(shù)來規(guī)劃軌跡。獎勵函數(shù)特定于智體，涵蓋了駕駛的基本原理，如避撞、路徑跟蹤和舒適性。求解這個博弈有幾個缺點：首先，其他智體的獎勵函數(shù)通常是未知的，其次，找到這個博弈的Nash或其他均衡點可能需要計算。

這個運動規(guī)劃問題定義如下：

用交叉熵法（CEM）等無導優(yōu)化算法來解決這個問題。然而，和博弈論中的通常情況一樣，博弈的順序可能會產生巨大的影響。作者給出兩種方法，一種是導致領導者-追隨者均衡，Iterative Leader-Follower MPC (ILF-MPC) ；另一種是Nash式均衡，Iterative Best-Response MPC (IBR-MPC) 。這些均衡適用于軌跡空間中的游戲，其中每條軌跡都被解釋為參與者的策略。

兩種方法均基于最佳響應迭代法，其中智體根據(jù)其他智體的當前動作，通過最佳可能動作，迭代更新策略。IMAP策略自然會對其他智體做出“最佳”響應，即使其軌跡是事先確定的。在實現(xiàn)中，IMAP策略中添加了自智體，并在展開中通過教師強制（teacher- forcing）使用MPC軌跡。注：IMAP策略的獎勵函數(shù)未知。

兩個算法的偽代碼分別給出如下：

在預測和規(guī)劃任務中對該交互策略進行測試。在預測任務中，根據(jù)標準單模態(tài)預測指標重實現(xiàn)Argoverse冠軍算法SAMPP（Mercat et al.，Multi-Head Attention for Multi-Modal Joint Vehicle Motion Forecasting. 2020），對模型進行消融分析。此外，添加的非線性最小二乘NLS（Bansal et al，ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst. 2019）干擾方法不會影響模型的標稱性能。在規(guī)劃任務中，探索車道合并場景，展示IBP-MPC和ILF-MPC如何規(guī)劃變車道行為，同時最大限度地增加接近車輛的間距。此外，展示ILF-MPC如何利用優(yōu)化中采用反應式預測模型來規(guī)劃高度交互軌跡。

實驗結果如下：

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：乘用車混合動力系統(tǒng)趨勢分析
上一篇：詳解智能駕駛的功能與場景體系

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關閱讀

0 條相關評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預期功能安全應該覆蓋
• 大推力直驅技術助力EPS安全測試，為你的安全出行 “保駕護	• 單機體積，雙倍效能！激光切割機玩轉“降本增效”
• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬	• 即刻探索8臺機器人如何解放數(shù)百名工人！
• 考慮驅動單元性能變化的分布式驅動智能車輛強化學習增強運	• eVTOL/飛行汽車→低噪聲氣動設計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強制新規(guī)來了：標準更嚴,明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

一個基于博弈MPC的交互運動預測-規(guī)劃方法

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標準

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工