日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

首頁 > 汽車技術 > 正文

一個基于博弈MPC的交互運動預測-規(guī)劃方法

2022-04-18 13:36:24·  來源:計算機視覺深度學習和自動駕駛  作者:黃浴  
 
arXiv論文“Deep Interactive Motion Prediction and Planning: Playing Games with Motion Prediction Models“,ETH、MIT和KU Leuven的科學家一起發(fā)表于2022年

arXiv論文“Deep Interactive Motion Prediction and Planning: Playing Games with Motion Prediction Models“,ETH、MIT和KU Leuven的科學家一起發(fā)表于2022年4月5號。

圖片


在大多數(shù)經(jīng)典的自動駕駛車(AV)棧中,預測層和規(guī)劃層是分開的,這限制了規(guī)劃者對自動駕駛車規(guī)劃軌跡不知道的預測做出反應。這項工作提出了一個通過博弈論的模型預測控制器(MPC)將這兩層緊密耦合的模塊,其采用一種新型的交互式多智體神經(jīng)網(wǎng)絡策略,作為預測模型的一部分。在設置中,MPC規(guī)劃器通過將規(guī)劃狀態(tài)序列通知多智體策略來考慮所有周圍的智體。這個方法的基礎是設計了一個新的多智體策略網(wǎng)絡,可以在給定周圍智體的狀態(tài)和地圖信息的情況下駕駛車輛。該策略網(wǎng)絡使用真實觀測數(shù)據(jù),通過時間反向傳播(BPTT)和可微分動力學模型隱式訓練,在時域向前展開軌跡。最后,多智體策略網(wǎng)絡在與環(huán)境交互時學習駕駛,并且與博弈論的MPC規(guī)劃器結合,成功地生成交互行為。


項目網(wǎng)站是:Deep Interactive Motion Prediction and Planning

作者定義的策略叫做Interactive Multi-Agent Prediction (IMAP) ,為訓練它,采用了一種強化學習和模仿學習所啟發(fā)的方法。


如圖是聯(lián)合預測-規(guī)劃模塊:將場景中所有車輛的過去狀態(tài)緩沖區(qū)和以車道圖表示的高清地圖作為輸入;預測規(guī)劃模塊內的模型預測控制器(MPC)用學習到的預測模塊在內部模擬多智體駕駛場景。

圖片


首先定義基于模型的策略訓練方法如下:

圖片


  • 采用一個遞推策略結構,基于Gated Recurrent Unit (GRU) 。

  • 另外一個注意機制 multi-headed dot-product attention,建模意圖交互(intent interaction)。

  • 智體物理狀態(tài)之間的交互,則采用GNN建模。

  • 采用VectorNet做編碼器,和地圖的交互通過cross-attention機制建模。


如圖是遞歸IMAP策略π的示意圖:其將物理狀態(tài)ski和地圖信息m融合成共享嵌入表示,然后用于遞歸地控制動力學模型f。單個遞歸模型用于編碼和解碼階段,并通過BPTT用狀態(tài)/觀測值的直接損失進行訓練。IMAP策略還用隱嵌入來生成key,value和query(K,V,Q),在意圖和地圖交互網(wǎng)絡中使用。

圖片


InterGNN的架構細節(jié)如下:其中Message Passing Netwotk (MPN)  是一種GNN

圖片


下圖是IMAP模型的編碼器架構:其中IntentAttention 和 MapAttention兩個注意機制模塊組合連接在一起。

圖片


而其他智體之間的運動規(guī)劃可以理解為一個“非零和”博弈,其中所有智體考慮其獎勵函數(shù)來規(guī)劃軌跡。獎勵函數(shù)特定于智體,涵蓋了駕駛的基本原理,如避撞、路徑跟蹤和舒適性。求解這個博弈有幾個缺點:首先,其他智體的獎勵函數(shù)通常是未知的,其次,找到這個博弈的Nash或其他均衡點可能需要計算。

這個運動規(guī)劃問題定義如下:

圖片


用交叉熵法(CEM)等無導優(yōu)化算法來解決這個問題。然而,和博弈論中的通常情況一樣,博弈的順序可能會產生巨大的影響。作者給出兩種方法,一種是導致領導者-追隨者均衡,Iterative Leader-Follower MPC (ILF-MPC) ;另一種是Nash式均衡,Iterative Best-Response MPC (IBR-MPC) 。這些均衡適用于軌跡空間中的游戲,其中每條軌跡都被解釋為參與者的策略。


兩種方法均基于最佳響應迭代法,其中智體根據(jù)其他智體的當前動作,通過最佳可能動作,迭代更新策略。IMAP策略自然會對其他智體做出“最佳”響應,即使其軌跡是事先確定的。在實現(xiàn)中,IMAP策略中添加了自智體,并在展開中通過教師強制(teacher- forcing)使用MPC軌跡。注:IMAP策略的獎勵函數(shù)未知。


兩個算法的偽代碼分別給出如下:

圖片


圖片




在預測和規(guī)劃任務中對該交互策略進行測試。在預測任務中,根據(jù)標準單模態(tài)預測指標重實現(xiàn)Argoverse冠軍算法SAMPP(Mercat et al.,Multi-Head Attention for Multi-Modal Joint Vehicle Motion Forecasting. 2020),對模型進行消融分析。此外,添加的非線性最小二乘NLS(Bansal et al,ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst. 2019)干擾方法不會影響模型的標稱性能。在規(guī)劃任務中,探索車道合并場景,展示IBP-MPC和ILF-MPC如何規(guī)劃變車道行為,同時最大限度地增加接近車輛的間距。此外,展示ILF-MPC如何利用優(yōu)化中采用反應式預測模型來規(guī)劃高度交互軌跡。


實驗結果如下:

圖片


圖片



分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25