如何用逆強(qiáng)化學(xué)習(xí)在城市道路自動駕駛

2022-06-09 18:43:39· 來源：計算機(jī)視覺深度學(xué)習(xí)和自動駕駛作者：黃浴

arXiv論文 “Driving in Real Life with Inverse Reinforcement Learning”，上傳于2022年6月，作者來自Motional。。本文介紹基于學(xué)習(xí)的規(guī)劃，逆強(qiáng)化學(xué)習(xí)（IRL）

arXiv論文 “Driving in Real Life with Inverse Reinforcement Learning”，上傳于2022年6月，作者來自Motional。。

本文介紹基于學(xué)習(xí)的規(guī)劃，逆強(qiáng)化學(xué)習(xí)（IRL）如何在密集的城市交通中駕駛汽車。規(guī)劃器DriveIRL生成一組不同的軌跡提議，用一個輕量級且可解釋的安全濾波器對這些軌跡進(jìn)行過濾，然后一個學(xué)習(xí)模型對每個剩余軌跡進(jìn)行評分。最后自動駕駛車的低級控制器跟蹤最佳軌跡。

在最大熵IRL框架內(nèi)，在拉斯維加斯500多小時專家駕駛演示的真實世界數(shù)據(jù)集上訓(xùn)練軌跡評分模型。DriveIRL的優(yōu)點包括：由于只學(xué)習(xí)軌跡評分函數(shù)，設(shè)計簡單，功能相對可解釋，強(qiáng)大的真實數(shù)據(jù)駕駛性能。在拉斯維加斯大道驗證了DriveIRL，并演示在交通繁忙的情況下完全自動駕駛，包括切入、前車突然剎車以及酒店接送（dropoff/pickup）區(qū)。該數(shù)據(jù)集打算將公開。

DriveIRL方法產(chǎn)生一組自車運動軌跡，并評估是否安全。仔細(xì)構(gòu)建這些擬定軌跡可確保其a）動態(tài)可行，b）遵循路線，c）滿足車輛控制器的假設(shè)，以及d）多樣性。然后，用一個輕量級安全濾波器，確保每條軌跡滿足一個遞歸安全保證：如果執(zhí)行軌跡的第一部分，則存在該軌跡的安全延續(xù)性，從而避免碰撞。

模型的學(xué)習(xí)部分完全側(cè)重于根據(jù)專家演示對這些軌跡進(jìn)行合理的評分。其設(shè)計將模型容量導(dǎo)向行為中難以指定的細(xì)微差別（例如速度曲線、車輛間距），而不是創(chuàng)建“良好”的軌跡，可避免明顯的不安全行為。

如圖是DriveIRL架構(gòu)圖：

· 輸入

用中級表征對自動駕駛汽車周圍的環(huán)境（或場景）進(jìn)行編碼。假設(shè)自車定位在一個高清地圖中，目標(biāo)被感知系統(tǒng)檢測和跟蹤。其他道路用戶（如汽車、自行車和行人）由目標(biāo)類型、定向邊框和速度表示。高清地圖提供車道中心線、道路邊界、紅綠燈位置、人行橫道、速度限制和其他語義信息。還提供一條路線，指示自車朝目標(biāo)前進(jìn)應(yīng)該穿過的車道。

將給定時間戳的場景上下文稱為a）自車動態(tài)S（速度、加速度、轉(zhuǎn)向），b）其他道路用戶U（類型、定向邊框、速度），c）地圖M，以及d）自車的期望路線R。模型接收當(dāng)前時間戳的場景上下文以及指定數(shù)量的歷史時間戳（例如，過去1秒）作為歷史H。

· 輸出

規(guī)劃器生成多個自車軌跡，并根據(jù)其與專家在給定場景背景駕駛數(shù)據(jù)的匹配程度對每個軌跡進(jìn)行評分。軌跡是自車未來狀態(tài)的離散序列，假設(shè)在所有狀態(tài)之間有一個固定的時間步長。設(shè)st=（x，y，θ，v）表示時間t的狀態(tài)，位置（x，y）、航向θ和速度v。所有值都與固定坐標(biāo)系中自車的幾何中心有關(guān)。軌跡表示τ=[s1，…，sT]，其中T是一組軌跡中排名最好的規(guī)劃時間范圍，用作車輛跟蹤和執(zhí)行器控制器參考。

· 軌跡生成

軌跡生成模塊用場景上下文為自車合成一組可能的未來運動。自車軌跡的重要考慮因素是：a）動態(tài)可行，b）滿足低水平跟蹤和執(zhí)行器控制的所有要求（即連續(xù)性水平、最小轉(zhuǎn)彎半徑、停車的最小加速度）。次要考慮因素是軌跡符合地圖（例如，停留在道路上）。雖然這些考慮因素并不排除使用一個學(xué)習(xí)軌跡生成模塊，但發(fā)現(xiàn)手動設(shè)計軌跡生成器最能滿足上述考慮因素。

軌跡生成器使用i）當(dāng)前自狀態(tài)S，ii）路徑R，以及iii）地圖M，來創(chuàng)建一組不同的自軌跡T，執(zhí)行器沿自車前方的路線集成所需的加速度曲線。在實驗中，指定一系列恒定加速度曲線，包括硬剎車(?5.0m/s2）至中等加速度（1.5m/s2）。由于自車不總是在車道中心線上（車輛控制器跟蹤錯誤造成的），將初始自車姿勢與Dubins paths（LaVall）平滑連接，其中轉(zhuǎn)彎半徑是一組固定的參數(shù)。在典型場景中，軌跡生成器通常根據(jù)自狀態(tài)和路線創(chuàng)建50-150條軌跡。

如圖顯示了一些示例：

· 安全濾波器

在對候選軌跡評分之前，用可解釋的安全過濾器來保證基本安全（即無碰撞）。它包括：

一組用于預(yù)測非自車道路使用者行為的世界假設(shè)
一組應(yīng)用于自車軌跡的軌跡修正器
修改后的自車軌跡需要通過的一組安全檢查

為了使候選軌跡視為安全，必須在給定的軌跡修改和對其他道路使用者的假設(shè)下通過所有安全檢查。

如圖所示：

安全濾波器在精神上類似于后備（fallback）層，不同之處在于1）它直接濾除提議的軌跡，而不是將輸出軌跡投影到特定的軌跡集中；2）軌跡修改器有效地實現(xiàn)遞歸安全保證，假設(shè)和檢查最少，不會影響舒適度。

· 軌跡打分

正確地對軌跡進(jìn)行評分是規(guī)劃方法的核心挑戰(zhàn)。這一困難是因為正確的駕駛行為受到周圍環(huán)境的嚴(yán)重影響，包括其他道路使用者的行為和目標(biāo)，對此規(guī)劃器只有部分了解。

軌跡打分由經(jīng)過最大熵IRL損失訓(xùn)練的深層神經(jīng)網(wǎng)絡(luò)計算。從駕駛車輛的熟練司機(jī)那里收集專家演示數(shù)據(jù)。損失傾向于在特征空間中最接近專家演示的軌跡。特別地，讓r（τ）表示軌跡τ的回報∈ T，軌跡被選擇的概率根據(jù)最大熵原理得到：

而NLL（negative log-likelihood）損失則是

最后采用focal loss增強(qiáng)得到：

每個提議軌跡的特征可計算作為神經(jīng)網(wǎng)絡(luò)的輸入。這些特征可以基于擬定軌跡τ、自狀態(tài)S、其他道路使用者U、地圖M、路線R和歷史H的任意組合。特征包括：

碰撞時間（TTC）：自車在（預(yù)測的）未來與其他道路使用者碰撞之前的最短秒計量。在多點進(jìn)行評估。
ACCInfo：自速度、與前方道路使用者的距離、前方道路使用者的速度以及前方道路使用者的相對速度。在多點進(jìn)行評估。
MaxJerk：沿軌跡的最大抖動（m/s3）。
MaxLateralAccel：沿軌跡的最大橫向加速度（m/s2）。
PastCoupling：未來軌跡與過去一秒鐘自車姿態(tài)的串聯(lián)，保持過去、現(xiàn)在和未來軌跡之間的一致性。
SpeedLimit：軌跡遵守速度限制的程度。在多點進(jìn)行評估。

如圖是軌跡打分的架構(gòu)圖：

· 軌跡預(yù)測

每個擬定軌跡的某些特征計算需要估計其他道路使用者未來的位置，例如碰撞時間（TTC）和ACCInfo。用智能駕駛員模型（IDM）作為其他汽車的預(yù)測模型，采用保守加速度值，避免認(rèn)為靜止車輛會加速。對行人和無附近車道的車輛使用恒速模型。

· 模型體系結(jié)構(gòu)

為了給一條軌跡打分，在一種體系結(jié)構(gòu)中通過掩碼自注意機(jī)制，在提取的特征發(fā)生交互之前進(jìn)行單獨處理。

在該體系結(jié)構(gòu)下，每個輸入特征fi作為相關(guān)車輛-環(huán)境交互數(shù)據(jù)的時間序列，首先通過一個BatchNormalD層進(jìn)行規(guī)范化，然后再饋送到一個LSTM模塊。LSTM的輸出成為前饋模塊的輸入，接著是一個具有兩個頭部和120嵌入維度的自注意機(jī)制。這里用查詢的零掩碼（zero-masking）來編碼位置。

通過自注意考慮其他特征，該模型為每個特征生成一個“校正”的輸出嵌入，傳遞給前饋網(wǎng)絡(luò)，該網(wǎng)絡(luò)將其轉(zhuǎn)換為標(biāo)量，然后激活tanh生成特征打分yi。軌跡的最終得分是這些特征得分乘以相應(yīng)的可學(xué)習(xí)特征權(quán)重參數(shù)wi后的總和?？偟膩碚f，基本（最佳）模型有約88700個訓(xùn)練參數(shù)。

作者創(chuàng)建了一個自動駕駛汽車數(shù)據(jù)集，該數(shù)據(jù)集捕獲了拉斯維加斯市中心的真實城市駕駛情況。其作為nuPlan數(shù)據(jù)集的一部分，將公開。包括目標(biāo)標(biāo)注和高清地圖。車輛、行人和騎自行車人使用離線感知系統(tǒng)進(jìn)行自動標(biāo)注（類似于谷歌waymo的AutoLabeling），并被視為真值。濾波并提取182032個場景，每個場景持續(xù)11秒（過去1秒，未來10秒），總計約556小時。

工作感興趣是學(xué)習(xí)良好的ACC性能。因此，過濾掉了自變道或偏離車道很遠(yuǎn)的場景。過濾后，對train、val和test集執(zhí)行了3:1:1分割。如表1按場景標(biāo)記顯示數(shù)據(jù)集的詳細(xì)分布：表中的標(biāo)記不是互斥的，一個場景可以屬于多個標(biāo)記。

特征重要性分析：

數(shù)據(jù)增強(qiáng)分析：

模型架構(gòu)比較：

損失函數(shù)比較：

真實駕駛實驗結(jié)果：

在公路部署之前，DriveIRL在模擬和私人封閉路線上都經(jīng)過了嚴(yán)格測試。模擬測試包括與部署目標(biāo)相同的拉斯維加斯大道路線，并涉及自車的高保真動力學(xué)模型和存在各種行為的眾多參與者。當(dāng)部署在狹長地帶時，車輛由一名司機(jī)駕駛，其經(jīng)過培訓(xùn)，能夠接管操作領(lǐng)域以外的不安全行為和情況，包括施工區(qū)、公共汽車站和應(yīng)急車輛。

在大道上，規(guī)劃器處理了各種具有挑戰(zhàn)性的場景，如交通擁擠、強(qiáng)行切入、不可預(yù)測的司機(jī)以及酒店賭場附近繁忙的乘客上下車區(qū)。

在沒有安全濾波器的情況下，車輛在11英里路線的8.8英里內(nèi)保持自動模式。強(qiáng)制接管區(qū)域直接放棄，意外行為發(fā)生了兩次。

有了安全濾波器，車輛在8.5英里中的6.9英里內(nèi)保持自動模式，只有在強(qiáng)制接管地區(qū)才會發(fā)生接管。

如圖顯示了一個典型的機(jī)動動作，其中自動駕駛車輛在被多輛車包圍的情況下平穩(wěn)地停在前面的一輛車后面。

還有不少視頻剪輯，基本按以下類別進(jìn)行分組：切入、在乘客上下車區(qū)周圍駕駛、在前方有車的時候駕駛和在車輛后方停車。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：通用技術(shù)中國汽研與歐洲汽車工業(yè)協(xié)會開展線上交流
上一篇：康耐視In-Sight 9912 視覺系統(tǒng)幫助中外運解決輪胎檢測問題

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運	• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

如何用逆強(qiáng)化學(xué)習(xí)在城市道路自動駕駛

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機(jī)動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工