日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車(chē)測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車(chē)測(cè)試網(wǎng)

    • 在線(xiàn)課堂

    • 電車(chē)測(cè)試

ICCV‘21論文:模仿一個(gè)強(qiáng)化學(xué)習(xí)教練的端到端城市駕駛

2022-01-18 23:28:58·  來(lái)源:計(jì)算機(jī)視覺(jué)深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
arXiv于2021.8.26上傳的ICCV‘21論文 “End-to-End Urban Driving by Imitating a Reinforcement Learning Coach“,作者主要來(lái)自瑞士蘇黎世ETH的Luc Van Gool組
arXiv于2021.8.26上傳的ICCV‘21論文 “End-to-End Urban Driving by Imitating a Reinforcement Learning Coach“,作者主要來(lái)自瑞士蘇黎世ETH的Luc Van Gool組。


自動(dòng)駕駛的端到端方法,通常依賴(lài)于專(zhuān)家演示。對(duì)帶策略(on-policy)密集監(jiān)督的端到端算法來(lái)說(shuō),人盡管是優(yōu)秀的司機(jī),但并不是很好的教練。相反,靠特別提供信息的自動(dòng)化專(zhuān)家可以有效地生成大規(guī)模帶策略(on-policy)和不帶策略(off-policy)演示。
然而,現(xiàn)有的城市駕駛自動(dòng)化專(zhuān)家使用大量手工制定的規(guī)則,即使在有真值信息的駕駛模擬器上也表現(xiàn)不佳。為了解決這些問(wèn)題,作者訓(xùn)練了一個(gè)強(qiáng)化學(xué)習(xí)(RL)專(zhuān)家,將鳥(niǎo)瞰圖(BEV)圖像映射到連續(xù)的低層動(dòng)作。
該專(zhuān)家在為開(kāi)源仿真器 CARLA 設(shè)置新的性能上限的同時(shí),還是一位更佳的教練,為模仿學(xué)習(xí)(IL)智體提供學(xué)習(xí)的信息化監(jiān)督信號(hào)。在這個(gè)強(qiáng)化學(xué)習(xí)(RL)教練的監(jiān)督下,一個(gè)單目攝像頭端到端的基準(zhǔn)智體實(shí)現(xiàn)了專(zhuān)家級(jí)性能。
該端到端智體實(shí)現(xiàn)了 78% 的成功率,在更具挑戰(zhàn)性的 CARLA LeaderBoard,獲得了最佳的性能。另外,代碼上線(xiàn):https://github.com/zhejz/carla-roach。

雖然模仿學(xué)習(xí) (IL) 方法直接模仿專(zhuān)家的行為,但強(qiáng)化學(xué)習(xí) (RL) 方法通常用專(zhuān)家演示的監(jiān)督學(xué)習(xí)對(duì)模型的一部分進(jìn)行預(yù)訓(xùn)練,這樣提高樣本效率。一般來(lái)說(shuō),專(zhuān)家演示可以分為兩類(lèi):
  • (i)不帶策略(off-policy),專(zhuān)家直接控制系統(tǒng),狀態(tài)/觀(guān)測(cè)分布隨專(zhuān)家。自動(dòng)駕駛的無(wú)策略數(shù)據(jù)包括一些公共駕駛數(shù)據(jù)集,如nuScenes,Lyft level 5,Bdd100k;
  • (ii) 帶策略(on-policy),系統(tǒng)由所需的智體控制,專(zhuān)家對(duì)數(shù)據(jù)進(jìn)行“標(biāo)記”;在這種情況下,狀態(tài)/觀(guān)測(cè)分布隨智體,但可以接觸專(zhuān)家演示數(shù)據(jù);有策略數(shù)據(jù)是緩解協(xié)變量遷移(covariate shift)現(xiàn)象的基礎(chǔ),因?yàn)樗试S智體從自己的錯(cuò)誤中學(xué)習(xí),而不帶策略數(shù)據(jù)的專(zhuān)家沒(méi)有出現(xiàn)這種錯(cuò)誤。
然而,從人那里收集足夠的帶策略演示并非易事。雖然可以在不帶策略數(shù)據(jù)收集過(guò)程中直接記錄人類(lèi)專(zhuān)家采取的軌跡和行動(dòng),但在給定傳感器測(cè)量值的情況下標(biāo)記這些專(zhuān)家給出的目標(biāo),對(duì)人來(lái)說(shuō)還是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。在實(shí)踐中,只有稀疏事件,比如人為干預(yù)等被記錄,由于其包含的信息有限,難以訓(xùn)練,更加適合強(qiáng)化學(xué)習(xí)(RL)而不是模仿學(xué)習(xí)(IL)。
該工作專(zhuān)注于自動(dòng)化專(zhuān)家,與人類(lèi)專(zhuān)家相比,無(wú)論是帶策略還是不帶策略,自動(dòng)化專(zhuān)家可以生成大規(guī)模密集標(biāo)注數(shù)據(jù)集。為了達(dá)到專(zhuān)家級(jí)的性能,自動(dòng)化專(zhuān)家可能依賴(lài)詳盡的計(jì)算、昂貴的傳感器甚至真值信息,因此直接部署是不可取的。
盡管一些模仿學(xué)習(xí)(IL) 方法不需要帶策略(on-policy)標(biāo)注,例如 生成對(duì)抗模仿學(xué)習(xí)(Generative adversarial imitation learning,GAIL)和逆強(qiáng)化學(xué)習(xí)(IRL),但與環(huán)境的帶策略(on-policy)交互,效率不高。相反,自動(dòng)化專(zhuān)家可以減少昂貴的帶策略(on-policy)交互,這使模仿學(xué)習(xí)(IL)能夠成功地將自動(dòng)化專(zhuān)家應(yīng)用于自動(dòng)駕駛的不同方面。
自動(dòng)駕駛仿真器CARLA 的“專(zhuān)家”,通常稱(chēng)為 Autopilot(或漫游智體)。Autopilot 可以訪(fǎng)問(wèn)真實(shí)模擬狀態(tài),但由于用了手工制定的規(guī)則,其駕駛技能無(wú)法與人類(lèi)專(zhuān)家相提并論。模仿學(xué)習(xí)(IL)可以看成是知識(shí)遷移,但是只是從專(zhuān)家行動(dòng)中學(xué)習(xí)是不夠有效的。
Autopilot 由兩個(gè)軌跡跟蹤的 PID 控制器和緊急制動(dòng)的危害(hazard)檢測(cè)器組成。危害包括
  • 前方檢測(cè)到行人/車(chē)輛;
  • 前方檢測(cè)到紅燈/停車(chē)信號(hào);
  • 自車(chē)負(fù)速度,用于處理斜坡。
如果自車(chē)前方的觸發(fā)區(qū)域出現(xiàn)任何危害,Autopilot 會(huì)緊急剎車(chē):油門(mén)=0,轉(zhuǎn)向 = 0,剎車(chē) = 1;如果沒(méi)有檢測(cè)到危險(xiǎn),自車(chē)通過(guò)兩個(gè) PID 控制器沿著所需路徑行駛,一個(gè)用于速度控制,另一個(gè)用于轉(zhuǎn)向控制;PID 控制器將自車(chē)的位置、旋轉(zhuǎn)和速度作為輸入,指定的路線(xiàn)是密集(1 米間隔)的航路點(diǎn);速度 的PID 產(chǎn)生油門(mén),轉(zhuǎn)向的 PID 產(chǎn)生轉(zhuǎn)向;手動(dòng)調(diào)整PID 控制器和危害檢測(cè)器的參數(shù), 使得Autopilot 作為一個(gè)強(qiáng)大的基準(zhǔn)方法(目標(biāo)速度為 6 m/s)。
從頭開(kāi)始訓(xùn)練10M步之后,Roach超越基于規(guī)則的Autopilot,為CARLA設(shè)定了新的性能上限。從Roach專(zhuān)家進(jìn)行學(xué)習(xí)時(shí),可以訓(xùn)練模仿學(xué)習(xí)(IL)智體,并研究更有效的訓(xùn)練技術(shù)。鑒于神經(jīng)網(wǎng)絡(luò)的策略采用,Roach可以當(dāng)同樣基于神經(jīng)網(wǎng)絡(luò)的模仿學(xué)習(xí)(IL)智體更好的教練。
Roach為模仿學(xué)習(xí)(IL)智體提供了許多可供學(xué)習(xí)的信息化目標(biāo),這遠(yuǎn)遠(yuǎn)超出了其他專(zhuān)家提供的確定性動(dòng)作。文章中展示了動(dòng)作分布、價(jià)值估計(jì)和潛在特征為監(jiān)督的有效性。
如圖就是作者提出的Roach (RL coach):這是一個(gè)在CARLA仿真器上Roach 標(biāo)注的帶策略(on-policy)監(jiān)督進(jìn)行學(xué)習(xí)的方案。Roach 的輸出在 CARLA 上可驅(qū)動(dòng)車(chē)輛去記錄來(lái)自 Roach 的不帶策略數(shù)據(jù)。除了利用 3D 檢測(cè)算法和其他傳感器來(lái)合成 BEV之外,Roach 還可以解決現(xiàn)實(shí)世界中帶策略監(jiān)督稀缺的問(wèn)題。

作者認(rèn)為這個(gè)方法是可行的,因?yàn)橐环矫鍮EV作為一種強(qiáng)大的抽象表示減少了仿真到真實(shí)的差距,另一方面策略標(biāo)注不必實(shí)時(shí)或甚至在線(xiàn)(onboard)產(chǎn)生。給定完整的序列,3D 檢測(cè)變得更容易。
Roach具有三個(gè)特點(diǎn):
  • 首先,與之前的強(qiáng)化學(xué)習(xí)( RL )智體相比,Roach 不依賴(lài)于其他專(zhuān)家的數(shù)據(jù);
  • 其次,與CARLA仿真器基于規(guī)則的Autopilot 不同,Roach 是端到端可訓(xùn)練的,因此可通過(guò)少量的工程工作推廣到新的場(chǎng)景;
  • 第三,采樣效率高,基于輸入/輸出表證和探索(exploration)損失,在單個(gè)GPU機(jī)器從頭開(kāi)始訓(xùn)練 Roach不到一周的時(shí)間,在 CARLA的六個(gè)LeaderBoard地圖獲得頂級(jí)專(zhuān)家性能。
Roach由一個(gè)策略網(wǎng)絡(luò)和一個(gè)價(jià)值網(wǎng)絡(luò)組成。策略網(wǎng)絡(luò)將 BEV 圖像和測(cè)量向量 映射到一個(gè)動(dòng)作分布。最后,價(jià)值網(wǎng)絡(luò)用和策略網(wǎng)絡(luò)相同的輸入估計(jì)一個(gè)標(biāo)量值輸出。
如圖是Roach的每個(gè)BEV表證通道:(有些相似谷歌waymo之前的工作)


可行駛區(qū)域和預(yù)期路線(xiàn)分別在圖( a )和 (b )中呈現(xiàn)。在圖 (c )中,實(shí)線(xiàn)為白色,虛線(xiàn)為灰色。圖( d )是 K 個(gè)灰度圖像的時(shí)間序列,其中自行車(chē)和車(chē)輛被渲染為白色邊框。圖( e )與圖 (d )相同,但針對(duì)行人。類(lèi)似地,交通燈處的停止線(xiàn)和停止標(biāo)志的觸發(fā)區(qū)域在圖(f )中呈現(xiàn)。紅燈和停車(chē)標(biāo)志按最亮的級(jí)別著色,黃燈按中間級(jí)別著色,綠燈按較暗級(jí)別著色。如果停車(chē)標(biāo)志處于活動(dòng)狀態(tài),則呈現(xiàn)停車(chē)標(biāo)志,即自車(chē)進(jìn)入其附近并在自車(chē)完全停止后消失。
通過(guò)BEV 表證記住自車(chē)是否停止,用無(wú)循環(huán)結(jié)構(gòu)的網(wǎng)絡(luò)架構(gòu),減少 Roach 的模型大小。前面的圖示給出了所有通道的彩色組合。給Roach 提供一個(gè)測(cè)量向量,其中包含 BEV未表證的自車(chē)狀態(tài),包括轉(zhuǎn)向、油門(mén)、制動(dòng)、閘門(mén)、橫向和橫向速度。
為了避免做參數(shù)調(diào)整和系統(tǒng)識(shí)別,Roach 直接預(yù)測(cè)動(dòng)作分布。其動(dòng)作空間主要是轉(zhuǎn)向和加速,加速度正值對(duì)應(yīng)油門(mén),負(fù)值對(duì)應(yīng)剎車(chē)。這里用Beta分布描述動(dòng)作。

與無(wú)模型強(qiáng)化學(xué)習(xí)(model-free RL)常常采用的高斯分布相比,Beta 分布的支持是有界的,避免了強(qiáng)制輸入約束的裁剪(clipping)或壓扁(squashing)操作。
這個(gè)會(huì)帶來(lái)表現(xiàn)更好的學(xué)習(xí)(better behaved learning)問(wèn)題,因?yàn)椴恍枰?tanh 層并且熵和 KL 散度可以明確計(jì)算。此外,Beta 分布的模態(tài)也適用于經(jīng)常進(jìn)行極端操作的駕駛動(dòng)作,例如緊急制動(dòng)或急轉(zhuǎn)彎。
訓(xùn)練采用帶裁剪的proximal policy optimization (PPO)方法訓(xùn)練策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)(見(jiàn)論文“Proximal policy optimization algorithms“. arXiv:1707.06347, 2017)。
價(jià)值網(wǎng)絡(luò)訓(xùn)練回歸期望回報(bào),而策略網(wǎng)絡(luò)更新通過(guò)以下公式:

第一個(gè)目標(biāo) Lppo 是裁剪策略的梯度損失,采用廣義優(yōu)勢(shì)估計(jì)(generalized advantage estimation)估計(jì)其優(yōu)勢(shì)(見(jiàn)論文“High-dimensional continuous control using generalized advantage estimation“. ICLR, 2016)。第二個(gè)目標(biāo) Lent 是通常用于鼓勵(lì)探索(exploration)的最大熵?fù)p失直觀(guān)地講,Lent 將動(dòng)作分布推向一個(gè)均勻先驗(yàn)形式,因?yàn)樽畲蠡氐刃в谧钚』疜L散度的均勻分布目標(biāo),如果二者共享同一支持的話(huà)。

這使得作者提出一種廣義形式,它鼓勵(lì)在合理的、符合基本交通規(guī)則的方向上進(jìn)行探索,稱(chēng)之為探索損失,定義為

其中終止條件集 (terminal condition set)Z 包括碰撞、運(yùn)行交通紅綠燈/標(biāo)志、路線(xiàn)偏離和阻塞等插曲(episode)結(jié)束事件。
最大熵?fù)p失Lent在所有時(shí)間步都對(duì)動(dòng)作施加統(tǒng)一的先驗(yàn)分布,而不管哪個(gè)事件 z 被觸發(fā);而探索損失Lexp在一個(gè)情節(jié)的最后 Nz (實(shí)踐中取100)步驟中把動(dòng)作轉(zhuǎn)移到一個(gè)預(yù)定的探索先驗(yàn)分布 pz,該探索先驗(yàn)編碼了一個(gè)“建議(advice)”,防止觸發(fā)事件 z 再次發(fā)生。
如果 z 與碰撞或交通紅綠燈/標(biāo)志有關(guān),加速度先驗(yàn) pz = B(1,2.5) 以鼓勵(lì) Roach 在不影響轉(zhuǎn)向的情況下減速。相反,如果汽車(chē)被阻擋,加速度先驗(yàn) pz=B(2.5,1)。對(duì)路線(xiàn)偏離,轉(zhuǎn)向的統(tǒng)一先驗(yàn)pz= B(1,1)。盡管這種情況下等效于最大化熵,但探索損失在路線(xiàn)偏離前的最后 10 秒進(jìn)一步鼓勵(lì)探索轉(zhuǎn)向角。
為了讓模仿學(xué)習(xí)( IL )智體從 Roach 生成的信息化監(jiān)督中受益,作者為每個(gè)監(jiān)督制定一個(gè)損失,這樣Roach 的訓(xùn)練方案可用于提高現(xiàn)有模仿學(xué)習(xí)(IL)智體的性能。
本文以DA-RB為例( 論文“Exploring data aggregation in policy learning for vision-based urban autonomous driving“,CVPR, 2020)它是CILRS(論文“Exploring the limitations of behavior cloning for autonomous driving“. ICCV, 2019)和DAGGER(論文“A reduction of imitation learning and structured prediction to no-regret online learning“. AISTATS, 2011)的結(jié)合。
整個(gè)網(wǎng)絡(luò)架構(gòu)如圖:包括(a)Roach和(b)CILRS

在(a)Roach架構(gòu)中,用六個(gè)卷積層對(duì) BEV 進(jìn)行編碼,兩個(gè)全連接 (FC) 層對(duì)測(cè)量向量進(jìn)行編碼;兩個(gè)編碼器的輸出連接在一起,由另外兩個(gè) FC 層處理產(chǎn)生潛在特征 jRL,然后輸入到價(jià)值頭和策略頭中,每個(gè)頭都有兩個(gè) FC 隱藏層;軌跡以 10 FPS 頻率從六個(gè) CARLA 服務(wù)器收集,每個(gè)服務(wù)器對(duì)應(yīng)六個(gè)LeaderBoard地圖的一個(gè);在每一插曲的開(kāi)始,隨機(jī)選擇一對(duì)起始位置和目標(biāo)(target)位置,并使用 A* 搜索算法計(jì)算所需的路線(xiàn);一旦達(dá)到目標(biāo),就選擇一個(gè)新的隨機(jī)目標(biāo);除非滿(mǎn)足 Z 的終止條件之一,否則該插曲不會(huì)結(jié)束。這里額外懲罰大的轉(zhuǎn)向變化以防止振蕩操作。為了避免高速違規(guī),添加與自車(chē)速度成正比的額外懲罰。
在(b)CILRS架構(gòu)中,包括一個(gè)相機(jī)圖像編碼的感知模塊和一個(gè)測(cè)量向量編碼的測(cè)量模塊;兩個(gè)模塊的輸出由 FC 層連接和處理,生成瓶頸(bottleneck)潛在特征;導(dǎo)航指令作為離散的高級(jí)命令給出,并且為每種命令構(gòu)造一個(gè)分支;所有分支共享相同的架構(gòu),而每個(gè)分支包含一個(gè)預(yù)測(cè)連續(xù)動(dòng)作的動(dòng)作頭和一個(gè)預(yù)測(cè)自車(chē)當(dāng)前速度的速度頭;潛在特征由命令選擇的分支處理。
CILRS 的模仿目標(biāo)包括 L1 動(dòng)作損失

和速度預(yù)測(cè)的正則化

專(zhuān)家動(dòng)作可能來(lái)自CARLA的Autopilot,它直接輸出確定性動(dòng)作,或者來(lái)自 Roach,其將分布模態(tài)作為確定性輸出。除了確定性動(dòng)作,Roach 還預(yù)測(cè)動(dòng)作分布、價(jià)值和潛在特征。
動(dòng)作分布損失:兩個(gè)分別被Roach和CILRS智體預(yù)測(cè)的動(dòng)作分布之間KL-散度

特征損失:Roach的潛在特征

價(jià)值損失:用價(jià)值頭和回歸價(jià)值作為副任務(wù)來(lái)增強(qiáng)CILRS,其中價(jià)值損失是 Roach 估計(jì)和 CILRS 預(yù)測(cè)之間的均方誤差
采用CARLA的NoCrash和LeaderBoard做實(shí)驗(yàn)評(píng)估算法。NoCrash 基準(zhǔn)測(cè)試考慮從Town1(一個(gè)僅由單車(chē)道路和丁字路口組成的歐洲城鎮(zhèn))到Town2(具有不同紋理的Town1 較小版本)的泛化。相比之下,LeaderBoard在六張地圖中考慮了一個(gè)更困難的泛化任務(wù),涵蓋不同的交通情況,包括高速公路、美式路口、環(huán)形交叉路口、停車(chē)標(biāo)志、車(chē)道變換和合并。
按照NoCrash 基準(zhǔn),測(cè)試了四種訓(xùn)練天氣類(lèi)型到兩種新天氣類(lèi)型的泛化。為了節(jié)省計(jì)算資源,四種訓(xùn)練天氣類(lèi)型只評(píng)估了兩種。NoCrash 基準(zhǔn)具有三個(gè)級(jí)別的交通密度(空曠、常規(guī)和密集),定義了每張地圖的行人和車(chē)輛數(shù)量。該文專(zhuān)注于 NoCrash-密集,并在常規(guī)和密集交通之間引入一個(gè)新的級(jí)別 NoCrash-繁忙(busy),以避免在密集交通環(huán)境經(jīng)常出現(xiàn)的擁堵。
對(duì)CARLA LeaderBoard,每張地圖的交通密度都經(jīng)過(guò)調(diào)整,與繁忙的交通設(shè)置有可比性。
一些實(shí)驗(yàn)結(jié)果如下:

注:LBC來(lái)自論文“Learning by cheating“. CoRL, 2020. DARB來(lái)自論文“Exploring data aggregation in policy learning for vision-based urban autonomous driving“. CVPR, 2020。

注:SAM來(lái)自論文“Sam: Squeeze-and-mimic networks for conditional visual driving policy learning”,CoRL'20。LSD來(lái)自論文“Learning situational driving”,CVPR‘20。

未來(lái)的工作包括改進(jìn)仿真基準(zhǔn)測(cè)試和實(shí)際部署的性能。為使LeaderBoard飽和,模型容量應(yīng)增加。為用 Roach 標(biāo)記真實(shí)世界的帶策略駕駛數(shù)據(jù),除了照片真實(shí)感之外,還必須解決幾個(gè)模擬到真實(shí)的差距,BEV 部分緩解了這一差距。對(duì)于城市駕駛模擬器,道路使用者(包括行人和車(chē)輛)的真實(shí)行為至關(guān)重要。
分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25