日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

如何用逆強(qiáng)化學(xué)習(xí)在城市道路自動駕駛

2022-06-09 18:43:39·  來源:計算機(jī)視覺深度學(xué)習(xí)和自動駕駛  作者:黃浴  
 
arXiv論文 “Driving in Real Life with Inverse Reinforcement Learning”,上傳于2022年6月,作者來自Motional。。本文介紹基于學(xué)習(xí)的規(guī)劃,逆強(qiáng)化學(xué)習(xí)(IRL)

arXiv論文 “Driving in Real Life with Inverse Reinforcement Learning”,上傳于2022年6月,作者來自Motional。

圖片


本文介紹基于學(xué)習(xí)的規(guī)劃,逆強(qiáng)化學(xué)習(xí)(IRL)如何在密集的城市交通中駕駛汽車。規(guī)劃器DriveIRL生成一組不同的軌跡提議,用一個輕量級且可解釋的安全濾波器對這些軌跡進(jìn)行過濾,然后一個學(xué)習(xí)模型對每個剩余軌跡進(jìn)行評分。最后自動駕駛車的低級控制器跟蹤最佳軌跡。


在最大熵IRL框架內(nèi),在拉斯維加斯500多小時專家駕駛演示的真實世界數(shù)據(jù)集上訓(xùn)練軌跡評分模型。DriveIRL的優(yōu)點包括:由于只學(xué)習(xí)軌跡評分函數(shù),設(shè)計簡單,功能相對可解釋,強(qiáng)大的真實數(shù)據(jù)駕駛性能。在拉斯維加斯大道驗證了DriveIRL,并演示在交通繁忙的情況下完全自動駕駛,包括切入、前車突然剎車以及酒店接送(dropoff/pickup)區(qū)。該數(shù)據(jù)集打算將公開。

DriveIRL方法產(chǎn)生一組自車運動軌跡,并評估是否安全。仔細(xì)構(gòu)建這些擬定軌跡可確保其a)動態(tài)可行,b)遵循路線,c)滿足車輛控制器的假設(shè),以及d)多樣性。然后,用一個輕量級安全濾波器,確保每條軌跡滿足一個遞歸安全保證:如果執(zhí)行軌跡的第一部分,則存在該軌跡的安全延續(xù)性,從而避免碰撞。


模型的學(xué)習(xí)部分完全側(cè)重于根據(jù)專家演示對這些軌跡進(jìn)行合理的評分。其設(shè)計將模型容量導(dǎo)向行為中難以指定的細(xì)微差別(例如速度曲線、車輛間距),而不是創(chuàng)建“良好”的軌跡,可避免明顯的不安全行為。

如圖是DriveIRL架構(gòu)圖:

圖片


· 輸入

用中級表征對自動駕駛汽車周圍的環(huán)境(或場景)進(jìn)行編碼。假設(shè)自車定位在一個高清地圖中,目標(biāo)被感知系統(tǒng)檢測和跟蹤。其他道路用戶(如汽車、自行車和行人)由目標(biāo)類型、定向邊框和速度表示。高清地圖提供車道中心線、道路邊界、紅綠燈位置、人行橫道、速度限制和其他語義信息。還提供一條路線,指示自車朝目標(biāo)前進(jìn)應(yīng)該穿過的車道。


將給定時間戳的場景上下文稱為a)自車動態(tài)S(速度、加速度、轉(zhuǎn)向),b)其他道路用戶U(類型、定向邊框、速度),c)地圖M,以及d)自車的期望路線R。模型接收當(dāng)前時間戳的場景上下文以及指定數(shù)量的歷史時間戳(例如,過去1秒)作為歷史H。


· 輸出

規(guī)劃器生成多個自車軌跡,并根據(jù)其與專家在給定場景背景駕駛數(shù)據(jù)的匹配程度對每個軌跡進(jìn)行評分。軌跡是自車未來狀態(tài)的離散序列,假設(shè)在所有狀態(tài)之間有一個固定的時間步長。設(shè)st=(x,y,θ,v)表示時間t的狀態(tài),位置(x,y)、航向θ和速度v。所有值都與固定坐標(biāo)系中自車的幾何中心有關(guān)。軌跡表示τ=[s1,…,sT],其中T是一組軌跡中排名最好的規(guī)劃時間范圍,用作車輛跟蹤和執(zhí)行器控制器參考。


· 軌跡生成

軌跡生成模塊用場景上下文為自車合成一組可能的未來運動。自車軌跡的重要考慮因素是:a)動態(tài)可行,b)滿足低水平跟蹤和執(zhí)行器控制的所有要求(即連續(xù)性水平、最小轉(zhuǎn)彎半徑、停車的最小加速度)。次要考慮因素是軌跡符合地圖(例如,停留在道路上)。雖然這些考慮因素并不排除使用一個學(xué)習(xí)軌跡生成模塊,但發(fā)現(xiàn)手動設(shè)計軌跡生成器最能滿足上述考慮因素。


軌跡生成器使用i)當(dāng)前自狀態(tài)S,ii)路徑R,以及iii)地圖M,來創(chuàng)建一組不同的自軌跡T,執(zhí)行器沿自車前方的路線集成所需的加速度曲線。在實驗中,指定一系列恒定加速度曲線,包括硬剎車(?5.0m/s2)至中等加速度(1.5m/s2)。由于自車不總是在車道中心線上(車輛控制器跟蹤錯誤造成的),將初始自車姿勢與Dubins paths(LaVall)平滑連接,其中轉(zhuǎn)彎半徑是一組固定的參數(shù)。在典型場景中,軌跡生成器通常根據(jù)自狀態(tài)和路線創(chuàng)建50-150條軌跡。


如圖顯示了一些示例:

圖片


· 安全濾波器

在對候選軌跡評分之前,用可解釋的安全過濾器來保證基本安全(即無碰撞)。它包括:

  • 一組用于預(yù)測非自車道路使用者行為的世界假設(shè)

  • 一組應(yīng)用于自車軌跡的軌跡修正器

  • 修改后的自車軌跡需要通過的一組安全檢查


為了使候選軌跡視為安全,必須在給定的軌跡修改和對其他道路使用者的假設(shè)下通過所有安全檢查。


如圖所示:

圖片


安全濾波器在精神上類似于后備(fallback)層,不同之處在于1)它直接濾除提議的軌跡,而不是將輸出軌跡投影到特定的軌跡集中;2)軌跡修改器有效地實現(xiàn)遞歸安全保證,假設(shè)和檢查最少,不會影響舒適度。


· 軌跡打分

正確地對軌跡進(jìn)行評分是規(guī)劃方法的核心挑戰(zhàn)。這一困難是因為正確的駕駛行為受到周圍環(huán)境的嚴(yán)重影響,包括其他道路使用者的行為和目標(biāo),對此規(guī)劃器只有部分了解。


軌跡打分由經(jīng)過最大熵IRL損失訓(xùn)練的深層神經(jīng)網(wǎng)絡(luò)計算。從駕駛車輛的熟練司機(jī)那里收集專家演示數(shù)據(jù)。損失傾向于在特征空間中最接近專家演示的軌跡。特別地,讓r(τ)表示軌跡τ的回報∈ T,軌跡被選擇的概率根據(jù)最大熵原理得到:

圖片


而NLL(negative log-likelihood)損失則是

圖片


最后采用focal loss增強(qiáng)得到:

圖片


每個提議軌跡的特征可計算作為神經(jīng)網(wǎng)絡(luò)的輸入。這些特征可以基于擬定軌跡τ、自狀態(tài)S、其他道路使用者U、地圖M、路線R和歷史H的任意組合。特征包括:

  1. 碰撞時間(TTC):自車在(預(yù)測的)未來與其他道路使用者碰撞之前的最短秒計量。在多點進(jìn)行評估。

  2. ACCInfo:自速度、與前方道路使用者的距離、前方道路使用者的速度以及前方道路使用者的相對速度。在多點進(jìn)行評估。

  3. MaxJerk:沿軌跡的最大抖動(m/s3)。

  4. MaxLateralAccel:沿軌跡的最大橫向加速度(m/s2)。

  5. PastCoupling:未來軌跡與過去一秒鐘自車姿態(tài)的串聯(lián),保持過去、現(xiàn)在和未來軌跡之間的一致性。

  6. SpeedLimit:軌跡遵守速度限制的程度。在多點進(jìn)行評估。


如圖是軌跡打分的架構(gòu)圖:

圖片


· 軌跡預(yù)測

每個擬定軌跡的某些特征計算需要估計其他道路使用者未來的位置,例如碰撞時間(TTC)和ACCInfo。用智能駕駛員模型(IDM)作為其他汽車的預(yù)測模型,采用保守加速度值,避免認(rèn)為靜止車輛會加速。對行人和無附近車道的車輛使用恒速模型。


· 模型體系結(jié)構(gòu)

為了給一條軌跡打分,在一種體系結(jié)構(gòu)中通過掩碼自注意機(jī)制,在提取的特征發(fā)生交互之前進(jìn)行單獨處理。


在該體系結(jié)構(gòu)下,每個輸入特征fi作為相關(guān)車輛-環(huán)境交互數(shù)據(jù)的時間序列,首先通過一個BatchNormalD層進(jìn)行規(guī)范化,然后再饋送到一個LSTM模塊。LSTM的輸出成為前饋模塊的輸入,接著是一個具有兩個頭部和120嵌入維度的自注意機(jī)制。這里用查詢的零掩碼(zero-masking)來編碼位置。


通過自注意考慮其他特征,該模型為每個特征生成一個“校正”的輸出嵌入,傳遞給前饋網(wǎng)絡(luò),該網(wǎng)絡(luò)將其轉(zhuǎn)換為標(biāo)量,然后激活tanh生成特征打分yi。軌跡的最終得分是這些特征得分乘以相應(yīng)的可學(xué)習(xí)特征權(quán)重參數(shù)wi后的總和??偟膩碚f,基本(最佳)模型有約88700個訓(xùn)練參數(shù)。

作者創(chuàng)建了一個自動駕駛汽車數(shù)據(jù)集,該數(shù)據(jù)集捕獲了拉斯維加斯市中心的真實城市駕駛情況。其作為nuPlan數(shù)據(jù)集的一部分,將公開。包括目標(biāo)標(biāo)注和高清地圖。車輛、行人和騎自行車人使用離線感知系統(tǒng)進(jìn)行自動標(biāo)注(類似于谷歌waymo的AutoLabeling),并被視為真值。濾波并提取182032個場景,每個場景持續(xù)11秒(過去1秒,未來10秒),總計約556小時。


工作感興趣是學(xué)習(xí)良好的ACC性能。因此,過濾掉了自變道或偏離車道很遠(yuǎn)的場景。過濾后,對train、val和test集執(zhí)行了3:1:1分割。如表1按場景標(biāo)記顯示數(shù)據(jù)集的詳細(xì)分布:表中的標(biāo)記不是互斥的,一個場景可以屬于多個標(biāo)記。

圖片

特征重要性分析:

圖片


數(shù)據(jù)增強(qiáng)分析:

圖片

模型架構(gòu)比較:

圖片

損失函數(shù)比較:

圖片


真實駕駛實驗結(jié)果:

在公路部署之前,DriveIRL在模擬和私人封閉路線上都經(jīng)過了嚴(yán)格測試。模擬測試包括與部署目標(biāo)相同的拉斯維加斯大道路線,并涉及自車的高保真動力學(xué)模型和存在各種行為的眾多參與者。當(dāng)部署在狹長地帶時,車輛由一名司機(jī)駕駛,其經(jīng)過培訓(xùn),能夠接管操作領(lǐng)域以外的不安全行為和情況,包括施工區(qū)、公共汽車站和應(yīng)急車輛。


在大道上,規(guī)劃器處理了各種具有挑戰(zhàn)性的場景,如交通擁擠、強(qiáng)行切入、不可預(yù)測的司機(jī)以及酒店賭場附近繁忙的乘客上下車區(qū)。


在沒有安全濾波器的情況下,車輛在11英里路線的8.8英里內(nèi)保持自動模式。強(qiáng)制接管區(qū)域直接放棄,意外行為發(fā)生了兩次。


有了安全濾波器,車輛在8.5英里中的6.9英里內(nèi)保持自動模式,只有在強(qiáng)制接管地區(qū)才會發(fā)生接管。


如圖顯示了一個典型的機(jī)動動作,其中自動駕駛車輛在被多輛車包圍的情況下平穩(wěn)地停在前面的一輛車后面。

圖片

還有不少視頻剪輯,基本按以下類別進(jìn)行分組:切入、在乘客上下車區(qū)周圍駕駛、在前方有車的時候駕駛和在車輛后方停車。

圖片


圖片


圖片



分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25