日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

谷歌ChauffeurNet:訓(xùn)練能夠魯棒地駕駛實(shí)車的網(wǎng)絡(luò)

2019-03-27 23:14:05·  來(lái)源:同濟(jì)智能汽車研究所  
 
編者按:Waymo于2018年底發(fā)表了本論文,介紹如何利用并改進(jìn)模仿學(xué)習(xí)以獲得能夠較為魯棒的駕駛模型ChaufferNet。它與典型的端到端學(xué)習(xí)不同,采用的是mid-mid的方
編者按:Waymo于2018年底發(fā)表了本論文,介紹如何利用并改進(jìn)模仿學(xué)習(xí)以獲得能夠較為魯棒的駕駛模型ChaufferNet。它與典型的端到端學(xué)習(xí)不同,采用的是mid-mid的方式,在仿真環(huán)境和實(shí)車測(cè)試中都有不錯(cuò)的表現(xiàn)。模型一方面基于大量數(shù)據(jù)模仿學(xué)習(xí)合理的駕駛行為,另一方面通過(guò)在合理駕駛軌跡上附加擾動(dòng)以制造各種特殊的駕駛情形,結(jié)合對(duì)應(yīng)的附加損失函數(shù),訓(xùn)練網(wǎng)絡(luò)如何應(yīng)對(duì)擾動(dòng)和避免不良行為。ChaufferNet駕駛模型具有較好的魯棒性,雖然目前還不能夠和運(yùn)動(dòng)規(guī)劃方法競(jìng)爭(zhēng),但的確是機(jī)器學(xué)習(xí)駕駛模型前進(jìn)的一大步。

摘要:我們的目標(biāo)是通過(guò)模仿學(xué)習(xí)訓(xùn)練出能足夠魯棒地駕駛真實(shí)車輛的網(wǎng)絡(luò)。我們發(fā)現(xiàn)單純的行為模仿不能應(yīng)對(duì)復(fù)雜的駕駛場(chǎng)景,即使我們利用感知系統(tǒng)預(yù)處理傳感器輸入,同時(shí)利用控制器在車輛上執(zhí)行模型輸出:3000萬(wàn)量級(jí)的學(xué)習(xí)樣本仍然不夠。我們嘗試?yán)迷诤侠眈{駛的數(shù)據(jù)上附加擾動(dòng)得到的合成數(shù)據(jù)來(lái)輔助學(xué)習(xí),創(chuàng)造出一些特別的駕駛情形,如車輛發(fā)生碰撞或駛離道路。我們不是純粹模仿所有合理駕駛的數(shù)據(jù),而是在模仿?lián)p失上增加了一些損失,用于懲罰不良的行為并鼓勵(lì)學(xué)習(xí)的進(jìn)展。在合理駕駛的數(shù)據(jù)上增加的擾動(dòng)為這些損失提供了重要信號(hào),并導(dǎo)致學(xué)習(xí)得到的模型具有魯棒性。我們證明了ChauffeurNet模型可以應(yīng)付仿真環(huán)境中的復(fù)雜情形且能夠合理地應(yīng)對(duì)隨機(jī)因素,同時(shí)進(jìn)行了實(shí)驗(yàn)對(duì)本文提出的各項(xiàng)改進(jìn)的重要性加以說(shuō)明。最后我們展示了使用訓(xùn)練得到的模型在現(xiàn)實(shí)世界中駕駛汽車的效果。

關(guān)鍵詞:
深度學(xué)習(xí) mid-mid駕駛 駕駛行為學(xué)習(xí) 軌跡預(yù)測(cè)

1.介紹
駕駛員在駕駛時(shí)需要觀察和理解環(huán)境中的各種物體,預(yù)測(cè)它們未來(lái)可能的行為和交互情況,然后思考如何控制汽車,在遵從道路交通規(guī)則的條件下安全到達(dá)目標(biāo)位置。這項(xiàng)任務(wù)對(duì)于機(jī)器來(lái)說(shuō)是很有挑戰(zhàn)性,人類卻可以很好地完成,因此模仿學(xué)習(xí)是解決這個(gè)問(wèn)題的一種很有前景的方法。我們工作的目標(biāo)就是使得模仿學(xué)習(xí)得到的模型能夠達(dá)到可用于駕駛真實(shí)車輛的水平。我們?cè)诶么罅坑?xùn)練數(shù)據(jù)(3000萬(wàn)現(xiàn)實(shí)世界中合理駕駛的樣本,相當(dāng)于持續(xù)駕駛約60天)的基礎(chǔ)上盡可能高效地構(gòu)建了我們的系統(tǒng)。的確,端到端的駕駛行為學(xué)習(xí)有很多令人興奮的地方。它們通常致力于通過(guò)學(xué)習(xí),在相機(jī)或激光雷達(dá)數(shù)據(jù)等原始傳感器輸入數(shù)據(jù)的基礎(chǔ)上,直接預(yù)測(cè)諸如轉(zhuǎn)向或制動(dòng)等原始控制輸出。但為了降低樣本的復(fù)雜性,我們選擇了建立在感知和控制組件之上的中級(jí)輸入和中級(jí)輸出表示。我們使用能夠加工處理原始傳感器信息的感知系統(tǒng)來(lái)產(chǎn)生這種中級(jí)輸入:俯視的環(huán)境表達(dá)和目標(biāo)路線,車輛等物體被繪制為有向的邊界框,道路信息和交通信號(hào)燈狀態(tài)也在其中。我們將這種中級(jí)輸入注入到一個(gè)名為ChauffeurNet的循環(huán)神經(jīng)網(wǎng)絡(luò)中,由這個(gè)網(wǎng)絡(luò)輸出一條駕駛軌跡,再由控制器將此駕駛軌跡轉(zhuǎn)換為轉(zhuǎn)向和加速度控制指令。使用這些中級(jí)表示的另一個(gè)優(yōu)點(diǎn)是:網(wǎng)絡(luò)既可以使用實(shí)際數(shù)據(jù),也可以使用模擬數(shù)據(jù)來(lái)訓(xùn)練,且可以在部署到實(shí)車之前在閉環(huán)仿真中輕松完成測(cè)試和驗(yàn)證工作。

我們的第一個(gè)發(fā)現(xiàn)是,即使在擁有3000萬(wàn)個(gè)駕駛樣本并使用中級(jí)輸入和中級(jí)輸出表示減輕感知與控制負(fù)擔(dān)的條件下,單純的模仿學(xué)習(xí)依然不能達(dá)到目標(biāo)。例如我們發(fā)現(xiàn)這種情形:本車會(huì)與一輛停在狹窄街道一側(cè)的車發(fā)生碰撞或者卡在這輛車后不動(dòng),然而此時(shí)避讓和超車都是完全可行的。關(guān)鍵的挑戰(zhàn)是我們需要閉環(huán)地運(yùn)行系統(tǒng),而誤差的累積將會(huì)導(dǎo)致駕駛情形偏離訓(xùn)練時(shí)的分布。這一結(jié)果是單純的模仿學(xué)習(xí)在驅(qū)動(dòng)車輛駕駛領(lǐng)域具有局限性的很有價(jià)值的證據(jù)。此外我們還發(fā)現(xiàn)在模仿?lián)p失的基礎(chǔ)上,增加一些抑制不良行為并鼓勵(lì)學(xué)習(xí)進(jìn)展的損失,同時(shí)增加附加了擾動(dòng)的合成駕駛軌跡可以克服這一挑戰(zhàn)。這些改進(jìn)使得模型能夠接觸到發(fā)生碰撞和駛出道路等非常規(guī)行為,同時(shí)損失函數(shù)的增大將引導(dǎo)模型避免這些行為。正是由于采用中級(jí)的輸入輸出表示,我們才能得到大量這樣的合成駕駛軌跡。這些擾動(dòng)很難從原始傳感器輸入或直接饋送到車輛的控制器輸出中生成。

我們首先在仿真中評(píng)估整個(gè)系統(tǒng)以及進(jìn)行損失函數(shù)擴(kuò)增和數(shù)據(jù)擴(kuò)增的重要性,之后展示最終模型如何在現(xiàn)實(shí)世界中駕駛汽車,并協(xié)調(diào)處理涉及其他交通參與者、轉(zhuǎn)彎、停車標(biāo)志和交通信號(hào)燈等對(duì)象的駕駛情形。變道等具有高度互動(dòng)性的駕駛情形,仍然需要在強(qiáng)化學(xué)習(xí)的框架內(nèi)進(jìn)行大量的探索。這就要求實(shí)現(xiàn)對(duì)其他交通參與者例如行人的模擬,而這種模擬也是一個(gè)正在迅速發(fā)展的值得探索的研究領(lǐng)域。本文的貢獻(xiàn)可以理解為:在沒有使用強(qiáng)化學(xué)習(xí)的條件下,我們?nèi)匀豢梢杂眉兇獾碾x線數(shù)據(jù)來(lái)完成更多的駕駛學(xué)習(xí)任務(wù)。

2. 相關(guān)工作

ALVINN上數(shù)十年的工作(Pomerleau(1989))揭示了淺層神經(jīng)網(wǎng)絡(luò)如何直接利用相機(jī)數(shù)據(jù)和激光測(cè)距數(shù)據(jù)使車輛沿著道路行駛。以端到端的方式學(xué)習(xí)自主駕駛在近些年掀起新的熱潮。Chen等人最近的工作(2015)展示了使用一個(gè)卷積網(wǎng)絡(luò)來(lái)預(yù)測(cè)可行駛空間,例如和前方車輛的距離。預(yù)測(cè)的可行駛空間可用于控制器的編程,控制在高速公路上行駛的車輛。NVIDIA的研究者們(Bojarski等人(2016,2017))展示了如何訓(xùn)練一個(gè)端到端的深度卷積神經(jīng)網(wǎng)絡(luò),利用相機(jī)輸出的數(shù)據(jù)作為輸入,控制車輛的轉(zhuǎn)向。Xu等人同樣利用相機(jī)輸出的數(shù)據(jù),訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)用于預(yù)測(cè)離散的或連續(xù)的動(dòng)作。Codevilla等人(2018)也訓(xùn)練了一個(gè)網(wǎng)絡(luò),使用相機(jī)的輸出作為輸入,使用高級(jí)的控制指令來(lái)輸出對(duì)轉(zhuǎn)向和加速度的控制。Kuefler等人(2017)使用生成對(duì)抗模仿學(xué)習(xí)(GAIL),使用簡(jiǎn)單的affordance-style特征作為輸入,以克服基于行為復(fù)制策略得到的模型中經(jīng)常出現(xiàn)的過(guò)大誤差,因而對(duì)于擾動(dòng)有更好的魯棒性。Hecker等人最近(2018)訓(xùn)練了一個(gè)使用360度環(huán)視相機(jī)輸出作為輸入,包含目標(biāo)路線規(guī)劃模塊的駕駛模型,可以預(yù)測(cè)轉(zhuǎn)向和車速。CARLA模擬器(Dosovitskiy等人(2017))在Sauer等人的工作(2018)中都有用到,它可以基于傳感器數(shù)據(jù)估計(jì)若干個(gè)可行駛空間并在仿真的城市環(huán)境中駕駛車輛。Muller等人(2018)利用和本文思路相似的中級(jí)表示,在仿真環(huán)境中使用CARLA訓(xùn)練了一個(gè)系統(tǒng)。具體的方法是從一個(gè)場(chǎng)景分割網(wǎng)絡(luò)中訓(xùn)練駕駛策略,并輸出高級(jí)的控制指令,方便了后續(xù)基于遷移學(xué)習(xí)的方法利用現(xiàn)實(shí)世界駕駛數(shù)據(jù)訓(xùn)練得到的一個(gè)不同的場(chǎng)景分割網(wǎng)絡(luò)。Pan等人(2017)同樣描述了如何利用基于學(xué)習(xí)的intermediate場(chǎng)景標(biāo)注方法,將仿真環(huán)境中訓(xùn)練得到的模型向真實(shí)世界中遷移。Shalev-Shwartz等人(2016)提到在模擬器中使用強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器完成諸如變道等復(fù)雜的且具有高度交互性駕駛?cè)蝿?wù)。目前已經(jīng)有機(jī)器學(xué)習(xí)之外的大量的車輛運(yùn)動(dòng)規(guī)劃方面的工作,Parden等人(2016)對(duì)此給出了一個(gè)很好的調(diào)研。

3.模型架構(gòu)

3.1輸入輸出表示

首先描述網(wǎng)絡(luò)如何處理俯視的輸入表示,進(jìn)而輸出可行駛的軌跡。在任何時(shí)間t,本車狀態(tài)可以俯視坐標(biāo)系中的坐標(biāo)pt,θt,st來(lái)表示,其中pt=(xt,yt)表示位置,θt表示航向角或行駛方向,st表示速度。俯視的坐標(biāo)系按照以下規(guī)則選定:本車在當(dāng)前時(shí)刻t=0的位置p0始終位于圖像中的固定位置(u0,v0)。為了在訓(xùn)練階段擴(kuò)增數(shù)據(jù),每一個(gè)訓(xùn)練樣本都在θ0±Δ的角度范圍內(nèi)隨機(jī)選擇坐標(biāo)系的方向,其中θ0表示本車在當(dāng)前時(shí)刻t=0的航向角或行駛方向。俯視圖由一組分辨率為W×H的圖像表示,地面的采樣分辨率為φ米/像素。隨著本車的移動(dòng),這些環(huán)境視圖也發(fā)生移動(dòng),因此本車總是觀察一個(gè)固定前視范圍內(nèi)的環(huán)境,即[Rforward=(H-v0)φ]米。這樣就模擬出了車載的傳感器只觀察車輛前方Rforward米范圍內(nèi)的環(huán)境的情形。

圖1:駕駛模型的輸入(a-g)和輸出(h)

如圖1所示,模型的輸入由幾個(gè)大小為W×H,并且調(diào)整到俯視坐標(biāo)系的圖像組成。(a)路線圖:一幅3通道彩色圖像,包含各種地圖特征如車道、停車標(biāo)志、人行橫道和路緣等。(b)交通信號(hào)燈:灰度圖像的時(shí)間序列,序列中的每一幀表示一個(gè)過(guò)去時(shí)間步的交通信號(hào)燈狀態(tài)。我們?cè)诿恳粠袨槊總€(gè)車道的中心線著色,最亮的灰度級(jí)對(duì)應(yīng)紅燈,中間灰度級(jí)對(duì)應(yīng)黃燈,較暗的灰度級(jí)對(duì)應(yīng)綠燈或未知信號(hào)燈。(c)限速:?jiǎn)瓮ǖ缊D像,車道中心的著色灰度與本車道對(duì)應(yīng)的限制車速成比例。(d)路線:駕駛的目標(biāo)路線,它由一個(gè)路線規(guī)劃模塊產(chǎn)生。(e)本車邊界框:顯示了本車在當(dāng)前時(shí)間t=0的完整邊界框。(f)環(huán)境中的動(dòng)態(tài)對(duì)象:圖像的時(shí)間序列,序列中用有向邊界框的形式顯示所有的動(dòng)態(tài)物體(車輛,騎自行車者,行人等)。(g)本車的歷史位姿:本車的在各個(gè)歷史時(shí)刻的位姿,用單個(gè)灰度圖像中某個(gè)點(diǎn)的運(yùn)動(dòng)軌跡表示。

圖2:駕駛模型的訓(xùn)練 (a)ChauffeurNet的模型核心是一個(gè)FeatureNet網(wǎng)絡(luò)和一個(gè)AgentRNN網(wǎng)絡(luò) (b)共同訓(xùn)練的路標(biāo)預(yù)測(cè)網(wǎng)絡(luò)和PerceptionRNN (c)訓(xùn)練的損失函數(shù)以藍(lán)色顯示,綠色部分代表真值。虛線箭頭表示從一次迭代到下一次迭代的預(yù)測(cè)值的循環(huán)反饋。

我們使用δt的固定時(shí)間間隔,來(lái)采樣過(guò)去或者未來(lái)時(shí)間點(diǎn)上的信息,例如上述輸入中的交通信號(hào)燈狀態(tài)和動(dòng)態(tài)對(duì)象狀態(tài)。在過(guò)去的Tscene秒內(nèi)對(duì)交通信號(hào)燈和動(dòng)態(tài)對(duì)象進(jìn)行采樣,在過(guò)去的Tpose秒甚至更長(zhǎng)的時(shí)間間隔內(nèi)對(duì)本車的位姿進(jìn)行采樣。這種簡(jiǎn)單的輸入表示,特別是用邊界框表示其他動(dòng)態(tài)對(duì)象,使得從仿真或?qū)嶋H感知系統(tǒng)記錄的檢測(cè)和跟蹤對(duì)象日志中生成輸入數(shù)據(jù)變得更加容易。這樣在實(shí)車運(yùn)行之前,就可以在閉環(huán)仿真中完成測(cè)試和驗(yàn)證的工作。仿真數(shù)據(jù)的利用,使得模型可以充分探索現(xiàn)實(shí)中較少發(fā)生的駕駛情形,從而改進(jìn)模型。例如在現(xiàn)實(shí)世界中,我們很難獲得與發(fā)生碰撞相關(guān)的數(shù)據(jù)。使用二維的俯視圖還意味著可以實(shí)現(xiàn)有效的卷積輸入,允許以靈活且易讀的方式表示各種數(shù)據(jù)以及它們的空間關(guān)系。使用I表示上面列舉的輸入圖像的集合,ChauffeurNet模型便以這些輸入為基礎(chǔ)反復(fù)預(yù)測(cè)本車的未來(lái)位姿,如圖1(h)中綠色的點(diǎn)所示。

圖3:(a)ChauffeurNet概覽   (b)多次迭代中的存儲(chǔ)單元更新

公式1中,當(dāng)前位姿p0是已知的輸入,然后ChauffeurNet執(zhí)行N次迭代并輸出預(yù)測(cè)的未來(lái)軌跡{ pδt,p2δt,…,pNδt }和如未來(lái)速度等一些其他的屬性。該軌跡可以輸入到優(yōu)化控制器內(nèi),以計(jì)算出具體的駕駛控制指令(例如轉(zhuǎn)向和制動(dòng)命令)。當(dāng)然,這些控制指令要滿足車輛動(dòng)力學(xué)約束。不同類型的車輛可能利用不同的控制輸出來(lái)實(shí)現(xiàn)相同的駕駛軌跡,這也印證了訓(xùn)練網(wǎng)絡(luò)直接輸出低層次的轉(zhuǎn)向和加速度控制指令在這里是不太合適的。

3.2 模型設(shè)計(jì)

概括地說(shuō),駕駛模型由如圖2所示的若干部分組成。圖中(a)部分是ChauffeurNet模型的主要部分,由特征提取卷積網(wǎng)絡(luò)(FeatureNet)組成。FeatureNet使用中級(jí)輸入數(shù)據(jù)來(lái)創(chuàng)建可由其他網(wǎng)絡(luò)共享的特征表示。這些特征被本車的循環(huán)神經(jīng)網(wǎng)絡(luò)(AgentRNN)使用,以迭代地預(yù)測(cè)駕駛軌跡中的后繼點(diǎn)。軌跡中時(shí)刻t對(duì)應(yīng)的點(diǎn)用位置pt=(xt,yt),航向角θt和速度st來(lái)描述。AgentRNN還在未來(lái)的每個(gè)時(shí)間步上,以heatmap的形式預(yù)測(cè)車輛的邊界框。圖的(b)部分可以看到另外兩個(gè)網(wǎng)絡(luò),它們使用相同的特征表示作為輸入共同訓(xùn)練。Road Mask網(wǎng)絡(luò)預(yù)測(cè)視野中的可駕駛區(qū)域(道路與非道路),感知循環(huán)網(wǎng)絡(luò)(PerceptionRNN)迭代地預(yù)測(cè)描述空間分布的heatmap。利用和主要任務(wù)共享的特征表示來(lái)很好地完成這些附加任務(wù),改進(jìn)了模型在完成主要任務(wù)基礎(chǔ)上的泛化能力。圖2(c)顯示了訓(xùn)練模型過(guò)程中使用的各種損失,這些損失將在下面詳細(xì)討論。
圖4:信息流圖表示的端到端駕駛軟件架構(gòu)

圖3更詳細(xì)地說(shuō)明了ChauffeurNet模型。圖1中的輸入傳遞給具有skip-connections結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)FeatureNet。FeatureNet輸出的特征表示F中包含了環(huán)境的上下文信息。這些特征被提供給AgentRNN,并由AgentRNN基于一系列條件預(yù)測(cè)駕駛軌跡的下一個(gè)點(diǎn)pk以及預(yù)測(cè)本車邊界框的heapmap:Bk。這些條件包括FeatureNet得到的特征表示F,迭代次數(shù)k:{1,…,N},對(duì)AgentRNN的過(guò)去獲得的預(yù)測(cè)結(jié)果的記憶Mk-1,以及在前一次迭代中預(yù)測(cè)的本車邊界框heatmap:Bk-1。


存儲(chǔ)單元Mk是由單通道圖像組成的疊加式存儲(chǔ)單元。AgentRNN的第k次迭代中,存儲(chǔ)單元(單通道圖像)在AgentRNN預(yù)測(cè)的圖像位置pk處增加1個(gè)點(diǎn),然后此存儲(chǔ)單元傳遞給下一次迭代。AgentRNN在heatmap上輸出對(duì)本車下一位姿的預(yù)測(cè),使用arg-max操作可從heatmap中獲取位姿的粗略估計(jì)pk。AgentRNN采用一個(gè)較淺的且具有一個(gè)全連接層的卷積網(wǎng)絡(luò),對(duì)姿勢(shì)δpk進(jìn)行亞像素級(jí)別的細(xì)化,并估計(jì)出航向θk和速度sk。在訓(xùn)練時(shí)AgentRNN會(huì)展開固定次數(shù)的迭代,下面要描述的損失將在這些展開的迭代步中進(jìn)行累加。這樣之所以可行,是因?yàn)槲覀兪褂玫氖欠莻鹘y(tǒng)的RNN,采用的存儲(chǔ)單元是顯式設(shè)計(jì)的而不是通過(guò)學(xué)習(xí)產(chǎn)生的。

3.3系統(tǒng)架構(gòu)

圖4表示的是在自動(dòng)駕駛系統(tǒng)中如何使用神經(jīng)網(wǎng)絡(luò)的系統(tǒng)層面的概述。通過(guò)感知系統(tǒng)處理真實(shí)世界傳感器輸出或者從仿真環(huán)境獲取,更新本車和環(huán)境狀態(tài)。目標(biāo)路徑從路徑規(guī)劃模塊獲得,且根據(jù)本車是否能夠跟隨過(guò)去的目標(biāo)路徑駕駛進(jìn)行動(dòng)態(tài)更新。環(huán)境信息被整合到圖1所示的輸入圖像中并傳遞給RNN,由RNN輸出未來(lái)的軌跡并送到優(yōu)化控制器,進(jìn)而輸出驅(qū)動(dòng)車輛的低級(jí)控制信號(hào)(在現(xiàn)實(shí)世界或仿真環(huán)境中)。

4. 模仿合理行為

4.1 模仿?lián)p失

4.1.1本車位置,航向角和邊界框預(yù)測(cè)AgentRNN在每次迭代k產(chǎn)生三個(gè)輸出:(1)基于空間softmax得到的預(yù)測(cè)路點(diǎn)在空間坐標(biāo)系中的概率分布Pk(x,y)。(2)當(dāng)前時(shí)間步k對(duì)應(yīng)的預(yù)測(cè)本車邊界框heatmap: Bk(x,y),基于逐像素的sigmoid激活函數(shù)生成,表示本車占據(jù)特定像素的概率。(3)回歸獲得的邊界框航向角輸出θk。掌握上述預(yù)測(cè)量真值的條件下,我們可以為每次迭代定義相應(yīng)的損失:


其中上標(biāo)gt表示對(duì)應(yīng)的真值,而H(a,b)是交叉熵?fù)p失函數(shù)。注意[Pgtk]是二值圖像,只有對(duì)應(yīng)目標(biāo)真值坐標(biāo)的像素的值才被設(shè)置為1。

4.1.2本車預(yù)測(cè)預(yù)測(cè)網(wǎng)絡(luò)在每一次迭代中,基于特征并且使用回歸的方式,對(duì)粗略的路點(diǎn)估計(jì)結(jié)果生成亞像素級(jí)別細(xì)化的δpk以及每個(gè)點(diǎn)的速度估計(jì)sk。我們對(duì)這兩種輸出均采用L1損失函數(shù):


4.2 對(duì)過(guò)去運(yùn)動(dòng)行為的dropout

訓(xùn)練過(guò)程中,過(guò)去的運(yùn)動(dòng)歷史被作為輸入之一提供給模型。訓(xùn)練過(guò)程中的運(yùn)動(dòng)歷史來(lái)自合理駕駛的示范,因此網(wǎng)絡(luò)可以基于過(guò)去作出僵化的推斷而不是發(fā)現(xiàn)行為背后的具體原因,類似“欺騙”。在進(jìn)行閉環(huán)推理時(shí)這種“欺騙“就會(huì)崩潰,因?yàn)檫\(yùn)動(dòng)歷史來(lái)自于網(wǎng)絡(luò)本身在過(guò)去的預(yù)測(cè)。這樣訓(xùn)練出來(lái)的網(wǎng)絡(luò),也許會(huì)只有在過(guò)去運(yùn)動(dòng)歷史中發(fā)現(xiàn)減速時(shí),才在停車標(biāo)志前停車,永遠(yuǎn)不會(huì)在閉環(huán)推理時(shí)在停車標(biāo)志前停車。為了解決這個(gè)問(wèn)題,我們引入了一個(gè)針對(duì)運(yùn)動(dòng)歷史的dropout機(jī)制:對(duì)于50%的樣本,在輸入數(shù)據(jù)中的本車歷史位姿這一通道中,僅僅保留本車當(dāng)前位姿(u0,v0)。這一點(diǎn)迫使網(wǎng)絡(luò)尋找環(huán)境中的其他線索,來(lái)解釋訓(xùn)練樣本中的提供的未來(lái)運(yùn)動(dòng)數(shù)據(jù)。

圖5:軌跡的擾動(dòng)。(a)原始記錄的訓(xùn)練樣例,其中智能體沿著車道的中心行駛。 (b)擾動(dòng)樣例,通過(guò)擾動(dòng)原始記錄中當(dāng)前智能體的位置(紅色點(diǎn))使其遠(yuǎn)離車道中心,然后擬合新的平滑軌跡,該軌跡使智能體沿車道中心返回到原始目標(biāo)位置。

5. 在純模仿之外的工作

5.1合成擾動(dòng)

將模型作為閉環(huán)系統(tǒng)的一部分運(yùn)行,隨著時(shí)間的推移,輸入數(shù)據(jù)會(huì)偏離訓(xùn)練時(shí)的分布。為了防止這種情況出現(xiàn),我們?cè)谟?xùn)練模型時(shí)對(duì)一部分本車軌跡的樣本,附加現(xiàn)實(shí)中可能出現(xiàn)的各種擾動(dòng)。軌跡的起點(diǎn)和終點(diǎn)保持不變,擾動(dòng)施加在軌跡中點(diǎn)的周圍,且在周圍的多個(gè)軌跡點(diǎn)上得到平滑。定量地來(lái)看,各個(gè)軸上產(chǎn)生在[-0.5,0.5]m范圍內(nèi)均勻分布的隨機(jī)抖動(dòng),航向角產(chǎn)生在[-π/3,π/3]弧度范圍內(nèi)的隨機(jī)抖動(dòng)。我們用平滑的軌跡擬合擾動(dòng)后的點(diǎn)和原始的起點(diǎn)與終點(diǎn)。這類附加擾動(dòng)的訓(xùn)練樣本,使汽車在受到擾動(dòng)后能夠回到原來(lái)的行駛軌跡上。我們通過(guò)設(shè)置軌跡曲率的閾值,濾除了一些實(shí)際中不太可能出現(xiàn)的擾動(dòng)后的軌跡。我們?cè)试S擾動(dòng)后的軌跡與其他車輛發(fā)生碰撞或駛離道路,因?yàn)橹挥羞@樣,網(wǎng)絡(luò)才能在原有樣本中沒有類似情況出現(xiàn)的條件下,也能經(jīng)歷并且學(xué)會(huì)如何避免這樣的行為。訓(xùn)練過(guò)程中我們給附加了擾動(dòng)的樣本的權(quán)重是真實(shí)樣本的權(quán)重的1/10,避免學(xué)到的模型有始終在擾動(dòng)狀態(tài)下駕駛的傾向。

5.2 模仿?lián)p失之外的損失

5.2.1 碰撞損失

由于我們的訓(xùn)練數(shù)據(jù)沒有任何實(shí)際碰撞,因此避免碰撞的想法是隱式的,不能很好地泛化。為了緩和這個(gè)問(wèn)題我們?cè)黾恿艘粋€(gè)專門的損失函數(shù),直接度量在每一個(gè)時(shí)間步上預(yù)測(cè)的邊界框Bk與場(chǎng)景中所有物體的邊界框真值的重疊率。


其中Bk是輸出本車邊界框預(yù)測(cè)的似然圖,Objgtk是時(shí)間k對(duì)應(yīng)的二值化的掩模圖像,所有被其他動(dòng)態(tài)物體(其他車輛,行人等)占據(jù)的像素的值都為1。訓(xùn)練過(guò)程中的任何時(shí)候,如果模型預(yù)測(cè)到將會(huì)發(fā)生碰撞,大的重疊率會(huì)造成的損失增加,進(jìn)一步影響到模型更新的梯度,從而糾正這種錯(cuò)誤。但是這種損失僅在訓(xùn)練的初始階段有效,也就是在模型還沒有能夠預(yù)測(cè)出接近真值的位置時(shí)。在軌跡上附加擾動(dòng)之后,這個(gè)問(wèn)題得到了緩和。這是因?yàn)樵诟郊訑_動(dòng)的樣本中,人為制造出來(lái)的碰撞情形使得上述損失函數(shù)在訓(xùn)練過(guò)程中能夠發(fā)揮出作用,影響模型更新的梯度。此外這種方法還達(dá)到了類似在強(qiáng)化學(xué)習(xí)中設(shè)置在線探索的效果。

5.2.2 駛離路面損失

軌跡擾動(dòng)同時(shí)會(huì)產(chǎn)生車輛駛離道路或駛上路緣的情形。為了訓(xùn)練網(wǎng)絡(luò)避免車輛駛上道路邊緣,我們?cè)黾恿艘粋€(gè)專門的損失函數(shù),在每一個(gè)時(shí)間步k上度量預(yù)測(cè)的本車邊界框和表示視野中的道路和非道路區(qū)域二值掩模圖像Roadgt的重疊率。


5.2.3 目標(biāo)軌跡幾何損失

我們希望顯式地約束本車,使其沿著獨(dú)立于速度曲線的目標(biāo)軌跡行駛。通過(guò)用平滑曲線擬合目標(biāo)路點(diǎn),并將此曲線調(diào)整為俯視坐標(biāo)系中的二值化圖像,來(lái)對(duì)目標(biāo)軌跡幾何形狀進(jìn)行建模。該曲線的寬度被設(shè)定為和本車寬度相等。我們用類似定義碰撞損失的方式,通過(guò)預(yù)測(cè)的本車邊界框和二值化的目標(biāo)軌跡幾何圖像Geomgt的重疊率,度量這種與目標(biāo)軌跡幾何形狀相關(guān)的損失。邊界框的任何不與目標(biāo)幾何軌跡重疊的部分,都將被轉(zhuǎn)化為懲罰值并加入損失函數(shù)中。


圖6:在樣例輸入上將預(yù)測(cè)和損失函數(shù)可視化。上面一行是輸入的分辨率,而下面一行是當(dāng)前智能體位置周圍的放大視圖。

5.2.4 附加損失

與預(yù)測(cè)本車軌跡類似,循環(huán)網(wǎng)絡(luò)也可以用來(lái)預(yù)測(cè)其他交通參與者。因此我們添加了一個(gè)感知循環(huán)網(wǎng)絡(luò)PerceptionRNN,它使用FeatureNet創(chuàng)建的共享特征F和它自己在前一次迭代預(yù)測(cè)的heatmap:Objk-1作為輸入,并預(yù)測(cè)每次迭代的heatmap:Objk。Objk(x,y)表示k時(shí)刻位置(x,y)被動(dòng)態(tài)物體占據(jù)的概率。對(duì)于k=0的迭代步,使用動(dòng)態(tài)對(duì)象的真值數(shù)據(jù)輸入到PerceptionRNN中。
表1:本文中進(jìn)行的實(shí)驗(yàn)的參數(shù)值
表2:在NVIDIA Tesla P100 GPU 上的運(yùn)行表現(xiàn)

5.3 Imitation Dropout

總的來(lái)說(shuō)我們的損失可能分為兩組。模仿?lián)p失如下:

環(huán)境損失如下:

模仿?lián)p失導(dǎo)致模型模仿合理駕駛的示范行為,而環(huán)境損失抑制了諸如碰撞等不良行為。為了進(jìn)一步增加環(huán)境損失的有效性,我們?cè)囼?yàn)時(shí)使用了具有隨機(jī)退出機(jī)制的模仿?lián)p失,稱為"imitation dropout"。在實(shí)驗(yàn)中我們證明"imitation dropout"相比于簡(jiǎn)單地降低模仿?lián)p失的權(quán)重,可以得到更好的駕駛模型。在"imitation dropout"過(guò)程中,每個(gè)訓(xùn)練樣本的模仿?lián)p失wimit被按照一定的概率隨機(jī)置為0或1。整體損失由下式給出:

6. 總結(jié)

在本文中,我們介紹了讓模仿學(xué)習(xí)在現(xiàn)實(shí)世界的完成駕駛?cè)蝿?wù)也能擁有良好表現(xiàn)的研究經(jīng)驗(yàn)。我們發(fā)現(xiàn)成功的關(guān)鍵在于,在合理駕駛行為的基礎(chǔ)上附加擾動(dòng)合成出各種駕駛情形,并增加適當(dāng)?shù)膿p失來(lái)抑制不良的行為。這些改進(jìn)可以使模型學(xué)會(huì)如何避免發(fā)生碰撞和駛離道路,即使這些情形在合理駕駛的樣本中很少出現(xiàn)。為了支持這一點(diǎn),并更好地利用合理駕駛的數(shù)據(jù),我們使用了中級(jí)的輸入和輸出表示,從而輕松混合真實(shí)和仿真數(shù)據(jù)并減輕學(xué)習(xí)感知和控制的負(fù)擔(dān)。基于這些要素我們得到了一個(gè)足以駕駛真實(shí)車輛的模型。雖然該模型還沒有完全實(shí)現(xiàn)與運(yùn)動(dòng)規(guī)劃方法展開競(jìng)爭(zhēng),但我們認(rèn)為這是機(jī)器學(xué)習(xí)駕駛模型邁出的一大步。通過(guò)在模擬中探索罕見和困難的情景,對(duì)合理的駕駛行為進(jìn)行徹底的增強(qiáng)(也許是在強(qiáng)化學(xué)習(xí)框架中完成),將是提高這些模型的性能并將其用于具有高度交互性的交通場(chǎng)景的關(guān)鍵。
 
 
分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25