谷歌ChauffeurNet:訓(xùn)練能夠魯棒地駕駛實(shí)車的網(wǎng)絡(luò)

2019-03-27 23:14:05· 來(lái)源：同濟(jì)智能汽車研究所

編者按：Waymo于2018年底發(fā)表了本論文，介紹如何利用并改進(jìn)模仿學(xué)習(xí)以獲得能夠較為魯棒的駕駛模型ChaufferNet。它與典型的端到端學(xué)習(xí)不同，采用的是mid-mid的方

編者按：Waymo于2018年底發(fā)表了本論文，介紹如何利用并改進(jìn)模仿學(xué)習(xí)以獲得能夠較為魯棒的駕駛模型ChaufferNet。它與典型的端到端學(xué)習(xí)不同，采用的是mid-mid的方式，在仿真環(huán)境和實(shí)車測(cè)試中都有不錯(cuò)的表現(xiàn)。模型一方面基于大量數(shù)據(jù)模仿學(xué)習(xí)合理的駕駛行為，另一方面通過(guò)在合理駕駛軌跡上附加擾動(dòng)以制造各種特殊的駕駛情形，結(jié)合對(duì)應(yīng)的附加損失函數(shù)，訓(xùn)練網(wǎng)絡(luò)如何應(yīng)對(duì)擾動(dòng)和避免不良行為。ChaufferNet駕駛模型具有較好的魯棒性，雖然目前還不能夠和運(yùn)動(dòng)規(guī)劃方法競(jìng)爭(zhēng)，但的確是機(jī)器學(xué)習(xí)駕駛模型前進(jìn)的一大步。

摘要：我們的目標(biāo)是通過(guò)模仿學(xué)習(xí)訓(xùn)練出能足夠魯棒地駕駛真實(shí)車輛的網(wǎng)絡(luò)。我們發(fā)現(xiàn)單純的行為模仿不能應(yīng)對(duì)復(fù)雜的駕駛場(chǎng)景，即使我們利用感知系統(tǒng)預(yù)處理傳感器輸入，同時(shí)利用控制器在車輛上執(zhí)行模型輸出：3000萬(wàn)量級(jí)的學(xué)習(xí)樣本仍然不夠。我們嘗試?yán)迷诤侠眈{駛的數(shù)據(jù)上附加擾動(dòng)得到的合成數(shù)據(jù)來(lái)輔助學(xué)習(xí)，創(chuàng)造出一些特別的駕駛情形，如車輛發(fā)生碰撞或駛離道路。我們不是純粹模仿所有合理駕駛的數(shù)據(jù)，而是在模仿?lián)p失上增加了一些損失，用于懲罰不良的行為并鼓勵(lì)學(xué)習(xí)的進(jìn)展。在合理駕駛的數(shù)據(jù)上增加的擾動(dòng)為這些損失提供了重要信號(hào)，并導(dǎo)致學(xué)習(xí)得到的模型具有魯棒性。我們證明了ChauffeurNet模型可以應(yīng)付仿真環(huán)境中的復(fù)雜情形且能夠合理地應(yīng)對(duì)隨機(jī)因素，同時(shí)進(jìn)行了實(shí)驗(yàn)對(duì)本文提出的各項(xiàng)改進(jìn)的重要性加以說(shuō)明。最后我們展示了使用訓(xùn)練得到的模型在現(xiàn)實(shí)世界中駕駛汽車的效果。

關(guān)鍵詞：深度學(xué)習(xí) mid-mid駕駛駕駛行為學(xué)習(xí) 軌跡預(yù)測(cè)

1.介紹

駕駛員在駕駛時(shí)需要觀察和理解環(huán)境中的各種物體，預(yù)測(cè)它們未來(lái)可能的行為和交互情況，然后思考如何控制汽車，在遵從道路交通規(guī)則的條件下安全到達(dá)目標(biāo)位置。這項(xiàng)任務(wù)對(duì)于機(jī)器來(lái)說(shuō)是很有挑戰(zhàn)性，人類卻可以很好地完成，因此模仿學(xué)習(xí)是解決這個(gè)問(wèn)題的一種很有前景的方法。我們工作的目標(biāo)就是使得模仿學(xué)習(xí)得到的模型能夠達(dá)到可用于駕駛真實(shí)車輛的水平。我們?cè)诶么罅坑?xùn)練數(shù)據(jù)（3000萬(wàn)現(xiàn)實(shí)世界中合理駕駛的樣本，相當(dāng)于持續(xù)駕駛約60天）的基礎(chǔ)上盡可能高效地構(gòu)建了我們的系統(tǒng)。的確，端到端的駕駛行為學(xué)習(xí)有很多令人興奮的地方。它們通常致力于通過(guò)學(xué)習(xí)，在相機(jī)或激光雷達(dá)數(shù)據(jù)等原始傳感器輸入數(shù)據(jù)的基礎(chǔ)上，直接預(yù)測(cè)諸如轉(zhuǎn)向或制動(dòng)等原始控制輸出。但為了降低樣本的復(fù)雜性，我們選擇了建立在感知和控制組件之上的中級(jí)輸入和中級(jí)輸出表示。我們使用能夠加工處理原始傳感器信息的感知系統(tǒng)來(lái)產(chǎn)生這種中級(jí)輸入：俯視的環(huán)境表達(dá)和目標(biāo)路線，車輛等物體被繪制為有向的邊界框，道路信息和交通信號(hào)燈狀態(tài)也在其中。我們將這種中級(jí)輸入注入到一個(gè)名為ChauffeurNet的循環(huán)神經(jīng)網(wǎng)絡(luò)中，由這個(gè)網(wǎng)絡(luò)輸出一條駕駛軌跡，再由控制器將此駕駛軌跡轉(zhuǎn)換為轉(zhuǎn)向和加速度控制指令。使用這些中級(jí)表示的另一個(gè)優(yōu)點(diǎn)是：網(wǎng)絡(luò)既可以使用實(shí)際數(shù)據(jù)，也可以使用模擬數(shù)據(jù)來(lái)訓(xùn)練，且可以在部署到實(shí)車之前在閉環(huán)仿真中輕松完成測(cè)試和驗(yàn)證工作。

我們的第一個(gè)發(fā)現(xiàn)是，即使在擁有3000萬(wàn)個(gè)駕駛樣本并使用中級(jí)輸入和中級(jí)輸出表示減輕感知與控制負(fù)擔(dān)的條件下，單純的模仿學(xué)習(xí)依然不能達(dá)到目標(biāo)。例如我們發(fā)現(xiàn)這種情形：本車會(huì)與一輛停在狹窄街道一側(cè)的車發(fā)生碰撞或者卡在這輛車后不動(dòng)，然而此時(shí)避讓和超車都是完全可行的。關(guān)鍵的挑戰(zhàn)是我們需要閉環(huán)地運(yùn)行系統(tǒng)，而誤差的累積將會(huì)導(dǎo)致駕駛情形偏離訓(xùn)練時(shí)的分布。這一結(jié)果是單純的模仿學(xué)習(xí)在驅(qū)動(dòng)車輛駕駛領(lǐng)域具有局限性的很有價(jià)值的證據(jù)。此外我們還發(fā)現(xiàn)在模仿?lián)p失的基礎(chǔ)上，增加一些抑制不良行為并鼓勵(lì)學(xué)習(xí)進(jìn)展的損失，同時(shí)增加附加了擾動(dòng)的合成駕駛軌跡可以克服這一挑戰(zhàn)。這些改進(jìn)使得模型能夠接觸到發(fā)生碰撞和駛出道路等非常規(guī)行為，同時(shí)損失函數(shù)的增大將引導(dǎo)模型避免這些行為。正是由于采用中級(jí)的輸入輸出表示，我們才能得到大量這樣的合成駕駛軌跡。這些擾動(dòng)很難從原始傳感器輸入或直接饋送到車輛的控制器輸出中生成。

我們首先在仿真中評(píng)估整個(gè)系統(tǒng)以及進(jìn)行損失函數(shù)擴(kuò)增和數(shù)據(jù)擴(kuò)增的重要性，之后展示最終模型如何在現(xiàn)實(shí)世界中駕駛汽車，并協(xié)調(diào)處理涉及其他交通參與者、轉(zhuǎn)彎、停車標(biāo)志和交通信號(hào)燈等對(duì)象的駕駛情形。變道等具有高度互動(dòng)性的駕駛情形，仍然需要在強(qiáng)化學(xué)習(xí)的框架內(nèi)進(jìn)行大量的探索。這就要求實(shí)現(xiàn)對(duì)其他交通參與者例如行人的模擬，而這種模擬也是一個(gè)正在迅速發(fā)展的值得探索的研究領(lǐng)域。本文的貢獻(xiàn)可以理解為：在沒有使用強(qiáng)化學(xué)習(xí)的條件下，我們?nèi)匀豢梢杂眉兇獾碾x線數(shù)據(jù)來(lái)完成更多的駕駛學(xué)習(xí)任務(wù)。

2. 相關(guān)工作

ALVINN上數(shù)十年的工作（Pomerleau(1989)）揭示了淺層神經(jīng)網(wǎng)絡(luò)如何直接利用相機(jī)數(shù)據(jù)和激光測(cè)距數(shù)據(jù)使車輛沿著道路行駛。以端到端的方式學(xué)習(xí)自主駕駛在近些年掀起新的熱潮。Chen等人最近的工作(2015)展示了使用一個(gè)卷積網(wǎng)絡(luò)來(lái)預(yù)測(cè)可行駛空間，例如和前方車輛的距離。預(yù)測(cè)的可行駛空間可用于控制器的編程，控制在高速公路上行駛的車輛。NVIDIA的研究者們(Bojarski等人(2016,2017))展示了如何訓(xùn)練一個(gè)端到端的深度卷積神經(jīng)網(wǎng)絡(luò)，利用相機(jī)輸出的數(shù)據(jù)作為輸入，控制車輛的轉(zhuǎn)向。Xu等人同樣利用相機(jī)輸出的數(shù)據(jù)，訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)用于預(yù)測(cè)離散的或連續(xù)的動(dòng)作。Codevilla等人(2018)也訓(xùn)練了一個(gè)網(wǎng)絡(luò)，使用相機(jī)的輸出作為輸入，使用高級(jí)的控制指令來(lái)輸出對(duì)轉(zhuǎn)向和加速度的控制。Kuefler等人(2017)使用生成對(duì)抗模仿學(xué)習(xí)(GAIL),使用簡(jiǎn)單的affordance-style特征作為輸入，以克服基于行為復(fù)制策略得到的模型中經(jīng)常出現(xiàn)的過(guò)大誤差，因而對(duì)于擾動(dòng)有更好的魯棒性。Hecker等人最近(2018)訓(xùn)練了一個(gè)使用360度環(huán)視相機(jī)輸出作為輸入，包含目標(biāo)路線規(guī)劃模塊的駕駛模型，可以預(yù)測(cè)轉(zhuǎn)向和車速。CARLA模擬器(Dosovitskiy等人(2017))在Sauer等人的工作（2018）中都有用到，它可以基于傳感器數(shù)據(jù)估計(jì)若干個(gè)可行駛空間并在仿真的城市環(huán)境中駕駛車輛。Muller等人(2018)利用和本文思路相似的中級(jí)表示，在仿真環(huán)境中使用CARLA訓(xùn)練了一個(gè)系統(tǒng)。具體的方法是從一個(gè)場(chǎng)景分割網(wǎng)絡(luò)中訓(xùn)練駕駛策略，并輸出高級(jí)的控制指令，方便了后續(xù)基于遷移學(xué)習(xí)的方法利用現(xiàn)實(shí)世界駕駛數(shù)據(jù)訓(xùn)練得到的一個(gè)不同的場(chǎng)景分割網(wǎng)絡(luò)。Pan等人(2017)同樣描述了如何利用基于學(xué)習(xí)的intermediate場(chǎng)景標(biāo)注方法，將仿真環(huán)境中訓(xùn)練得到的模型向真實(shí)世界中遷移。Shalev-Shwartz等人(2016)提到在模擬器中使用強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器完成諸如變道等復(fù)雜的且具有高度交互性駕駛?cè)蝿?wù)。目前已經(jīng)有機(jī)器學(xué)習(xí)之外的大量的車輛運(yùn)動(dòng)規(guī)劃方面的工作，Parden等人(2016)對(duì)此給出了一個(gè)很好的調(diào)研。

3.模型架構(gòu)

3.1輸入輸出表示

首先描述網(wǎng)絡(luò)如何處理俯視的輸入表示，進(jìn)而輸出可行駛的軌跡。在任何時(shí)間t，本車狀態(tài)可以俯視坐標(biāo)系中的坐標(biāo)pt，θt，st來(lái)表示，其中pt=(xt,yt)表示位置，θt表示航向角或行駛方向，st表示速度。俯視的坐標(biāo)系按照以下規(guī)則選定：本車在當(dāng)前時(shí)刻t=0的位置p0始終位于圖像中的固定位置(u0,v0)。為了在訓(xùn)練階段擴(kuò)增數(shù)據(jù)，每一個(gè)訓(xùn)練樣本都在θ0±Δ的角度范圍內(nèi)隨機(jī)選擇坐標(biāo)系的方向，其中θ0表示本車在當(dāng)前時(shí)刻t=0的航向角或行駛方向。俯視圖由一組分辨率為W×H的圖像表示，地面的采樣分辨率為φ米/像素。隨著本車的移動(dòng)，這些環(huán)境視圖也發(fā)生移動(dòng)，因此本車總是觀察一個(gè)固定前視范圍內(nèi)的環(huán)境，即[Rforward=(H-v0)φ]米。這樣就模擬出了車載的傳感器只觀察車輛前方Rforward米范圍內(nèi)的環(huán)境的情形。

圖1：駕駛模型的輸入(a-g)和輸出(h)

如圖1所示，模型的輸入由幾個(gè)大小為W×H，并且調(diào)整到俯視坐標(biāo)系的圖像組成。(a)路線圖：一幅3通道彩色圖像，包含各種地圖特征如車道、停車標(biāo)志、人行橫道和路緣等。(b)交通信號(hào)燈：灰度圖像的時(shí)間序列，序列中的每一幀表示一個(gè)過(guò)去時(shí)間步的交通信號(hào)燈狀態(tài)。我們?cè)诿恳粠袨槊總€(gè)車道的中心線著色，最亮的灰度級(jí)對(duì)應(yīng)紅燈，中間灰度級(jí)對(duì)應(yīng)黃燈，較暗的灰度級(jí)對(duì)應(yīng)綠燈或未知信號(hào)燈。(c)限速：?jiǎn)瓮ǖ缊D像，車道中心的著色灰度與本車道對(duì)應(yīng)的限制車速成比例。(d)路線：駕駛的目標(biāo)路線，它由一個(gè)路線規(guī)劃模塊產(chǎn)生。(e)本車邊界框：顯示了本車在當(dāng)前時(shí)間t=0的完整邊界框。(f)環(huán)境中的動(dòng)態(tài)對(duì)象：圖像的時(shí)間序列，序列中用有向邊界框的形式顯示所有的動(dòng)態(tài)物體(車輛，騎自行車者，行人等)。(g)本車的歷史位姿：本車的在各個(gè)歷史時(shí)刻的位姿，用單個(gè)灰度圖像中某個(gè)點(diǎn)的運(yùn)動(dòng)軌跡表示。

圖2：駕駛模型的訓(xùn)練 (a)ChauffeurNet的模型核心是一個(gè)FeatureNet網(wǎng)絡(luò)和一個(gè)AgentRNN網(wǎng)絡(luò) (b)共同訓(xùn)練的路標(biāo)預(yù)測(cè)網(wǎng)絡(luò)和PerceptionRNN (c)訓(xùn)練的損失函數(shù)以藍(lán)色顯示，綠色部分代表真值。虛線箭頭表示從一次迭代到下一次迭代的預(yù)測(cè)值的循環(huán)反饋。

我們使用δt的固定時(shí)間間隔，來(lái)采樣過(guò)去或者未來(lái)時(shí)間點(diǎn)上的信息，例如上述輸入中的交通信號(hào)燈狀態(tài)和動(dòng)態(tài)對(duì)象狀態(tài)。在過(guò)去的Tscene秒內(nèi)對(duì)交通信號(hào)燈和動(dòng)態(tài)對(duì)象進(jìn)行采樣，在過(guò)去的Tpose秒甚至更長(zhǎng)的時(shí)間間隔內(nèi)對(duì)本車的位姿進(jìn)行采樣。這種簡(jiǎn)單的輸入表示，特別是用邊界框表示其他動(dòng)態(tài)對(duì)象，使得從仿真或?qū)嶋H感知系統(tǒng)記錄的檢測(cè)和跟蹤對(duì)象日志中生成輸入數(shù)據(jù)變得更加容易。這樣在實(shí)車運(yùn)行之前，就可以在閉環(huán)仿真中完成測(cè)試和驗(yàn)證的工作。仿真數(shù)據(jù)的利用，使得模型可以充分探索現(xiàn)實(shí)中較少發(fā)生的駕駛情形，從而改進(jìn)模型。例如在現(xiàn)實(shí)世界中，我們很難獲得與發(fā)生碰撞相關(guān)的數(shù)據(jù)。使用二維的俯視圖還意味著可以實(shí)現(xiàn)有效的卷積輸入，允許以靈活且易讀的方式表示各種數(shù)據(jù)以及它們的空間關(guān)系。使用I表示上面列舉的輸入圖像的集合，ChauffeurNet模型便以這些輸入為基礎(chǔ)反復(fù)預(yù)測(cè)本車的未來(lái)位姿，如圖1(h)中綠色的點(diǎn)所示。

圖3：(a)ChauffeurNet概覽 (b)多次迭代中的存儲(chǔ)單元更新

公式1中，當(dāng)前位姿p0是已知的輸入，然后ChauffeurNet執(zhí)行N次迭代并輸出預(yù)測(cè)的未來(lái)軌跡{ pδt,p2δt,…,pNδt }和如未來(lái)速度等一些其他的屬性。該軌跡可以輸入到優(yōu)化控制器內(nèi)，以計(jì)算出具體的駕駛控制指令(例如轉(zhuǎn)向和制動(dòng)命令)。當(dāng)然，這些控制指令要滿足車輛動(dòng)力學(xué)約束。不同類型的車輛可能利用不同的控制輸出來(lái)實(shí)現(xiàn)相同的駕駛軌跡，這也印證了訓(xùn)練網(wǎng)絡(luò)直接輸出低層次的轉(zhuǎn)向和加速度控制指令在這里是不太合適的。

3.2 模型設(shè)計(jì)

概括地說(shuō)，駕駛模型由如圖2所示的若干部分組成。圖中（a）部分是ChauffeurNet模型的主要部分，由特征提取卷積網(wǎng)絡(luò)(FeatureNet)組成。FeatureNet使用中級(jí)輸入數(shù)據(jù)來(lái)創(chuàng)建可由其他網(wǎng)絡(luò)共享的特征表示。這些特征被本車的循環(huán)神經(jīng)網(wǎng)絡(luò)(AgentRNN)使用，以迭代地預(yù)測(cè)駕駛軌跡中的后繼點(diǎn)。軌跡中時(shí)刻t對(duì)應(yīng)的點(diǎn)用位置pt=(xt，yt)，航向角θt和速度st來(lái)描述。AgentRNN還在未來(lái)的每個(gè)時(shí)間步上，以heatmap的形式預(yù)測(cè)車輛的邊界框。圖的(b)部分可以看到另外兩個(gè)網(wǎng)絡(luò)，它們使用相同的特征表示作為輸入共同訓(xùn)練。Road Mask網(wǎng)絡(luò)預(yù)測(cè)視野中的可駕駛區(qū)域(道路與非道路)，感知循環(huán)網(wǎng)絡(luò)(PerceptionRNN)迭代地預(yù)測(cè)描述空間分布的heatmap。利用和主要任務(wù)共享的特征表示來(lái)很好地完成這些附加任務(wù)，改進(jìn)了模型在完成主要任務(wù)基礎(chǔ)上的泛化能力。圖2(c)顯示了訓(xùn)練模型過(guò)程中使用的各種損失，這些損失將在下面詳細(xì)討論。

圖4：信息流圖表示的端到端駕駛軟件架構(gòu)

圖3更詳細(xì)地說(shuō)明了ChauffeurNet模型。圖1中的輸入傳遞給具有skip-connections結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)FeatureNet。FeatureNet輸出的特征表示F中包含了環(huán)境的上下文信息。這些特征被提供給AgentRNN，并由AgentRNN基于一系列條件預(yù)測(cè)駕駛軌跡的下一個(gè)點(diǎn)pk以及預(yù)測(cè)本車邊界框的heapmap:Bk。這些條件包括FeatureNet得到的特征表示F，迭代次數(shù)k:{1,…,N}，對(duì)AgentRNN的過(guò)去獲得的預(yù)測(cè)結(jié)果的記憶Mk-1，以及在前一次迭代中預(yù)測(cè)的本車邊界框heatmap:Bk-1。

存儲(chǔ)單元Mk是由單通道圖像組成的疊加式存儲(chǔ)單元。AgentRNN的第k次迭代中，存儲(chǔ)單元（單通道圖像）在AgentRNN預(yù)測(cè)的圖像位置pk處增加1個(gè)點(diǎn)，然后此存儲(chǔ)單元傳遞給下一次迭代。AgentRNN在heatmap上輸出對(duì)本車下一位姿的預(yù)測(cè)，使用arg-max操作可從heatmap中獲取位姿的粗略估計(jì)pk。AgentRNN采用一個(gè)較淺的且具有一個(gè)全連接層的卷積網(wǎng)絡(luò)，對(duì)姿勢(shì)δpk進(jìn)行亞像素級(jí)別的細(xì)化，并估計(jì)出航向θk和速度sk。在訓(xùn)練時(shí)AgentRNN會(huì)展開固定次數(shù)的迭代，下面要描述的損失將在這些展開的迭代步中進(jìn)行累加。這樣之所以可行，是因?yàn)槲覀兪褂玫氖欠莻鹘y(tǒng)的RNN，采用的存儲(chǔ)單元是顯式設(shè)計(jì)的而不是通過(guò)學(xué)習(xí)產(chǎn)生的。

3.3系統(tǒng)架構(gòu)

圖4表示的是在自動(dòng)駕駛系統(tǒng)中如何使用神經(jīng)網(wǎng)絡(luò)的系統(tǒng)層面的概述。通過(guò)感知系統(tǒng)處理真實(shí)世界傳感器輸出或者從仿真環(huán)境獲取，更新本車和環(huán)境狀態(tài)。目標(biāo)路徑從路徑規(guī)劃模塊獲得，且根據(jù)本車是否能夠跟隨過(guò)去的目標(biāo)路徑駕駛進(jìn)行動(dòng)態(tài)更新。環(huán)境信息被整合到圖1所示的輸入圖像中并傳遞給RNN，由RNN輸出未來(lái)的軌跡并送到優(yōu)化控制器，進(jìn)而輸出驅(qū)動(dòng)車輛的低級(jí)控制信號(hào)（在現(xiàn)實(shí)世界或仿真環(huán)境中）。

4. 模仿合理行為

4.1 模仿?lián)p失

4.1.1本車位置，航向角和邊界框預(yù)測(cè)AgentRNN在每次迭代k產(chǎn)生三個(gè)輸出：(1)基于空間softmax得到的預(yù)測(cè)路點(diǎn)在空間坐標(biāo)系中的概率分布Pk(x,y)。(2)當(dāng)前時(shí)間步k對(duì)應(yīng)的預(yù)測(cè)本車邊界框heatmap: Bk(x,y)，基于逐像素的sigmoid激活函數(shù)生成，表示本車占據(jù)特定像素的概率。(3)回歸獲得的邊界框航向角輸出θk。掌握上述預(yù)測(cè)量真值的條件下，我們可以為每次迭代定義相應(yīng)的損失：

其中上標(biāo)gt表示對(duì)應(yīng)的真值，而H(a,b)是交叉熵?fù)p失函數(shù)。注意[Pgtk]是二值圖像，只有對(duì)應(yīng)目標(biāo)真值坐標(biāo)的像素的值才被設(shè)置為1。

4.1.2本車預(yù)測(cè)預(yù)測(cè)網(wǎng)絡(luò)在每一次迭代中，基于特征并且使用回歸的方式，對(duì)粗略的路點(diǎn)估計(jì)結(jié)果生成亞像素級(jí)別細(xì)化的δpk以及每個(gè)點(diǎn)的速度估計(jì)sk。我們對(duì)這兩種輸出均采用L1損失函數(shù)：

4.2 對(duì)過(guò)去運(yùn)動(dòng)行為的dropout

訓(xùn)練過(guò)程中，過(guò)去的運(yùn)動(dòng)歷史被作為輸入之一提供給模型。訓(xùn)練過(guò)程中的運(yùn)動(dòng)歷史來(lái)自合理駕駛的示范，因此網(wǎng)絡(luò)可以基于過(guò)去作出僵化的推斷而不是發(fā)現(xiàn)行為背后的具體原因，類似“欺騙”。在進(jìn)行閉環(huán)推理時(shí)這種“欺騙“就會(huì)崩潰，因?yàn)檫\(yùn)動(dòng)歷史來(lái)自于網(wǎng)絡(luò)本身在過(guò)去的預(yù)測(cè)。這樣訓(xùn)練出來(lái)的網(wǎng)絡(luò)，也許會(huì)只有在過(guò)去運(yùn)動(dòng)歷史中發(fā)現(xiàn)減速時(shí)，才在停車標(biāo)志前停車，永遠(yuǎn)不會(huì)在閉環(huán)推理時(shí)在停車標(biāo)志前停車。為了解決這個(gè)問(wèn)題，我們引入了一個(gè)針對(duì)運(yùn)動(dòng)歷史的dropout機(jī)制：對(duì)于50％的樣本，在輸入數(shù)據(jù)中的本車歷史位姿這一通道中，僅僅保留本車當(dāng)前位姿(u0，v0)。這一點(diǎn)迫使網(wǎng)絡(luò)尋找環(huán)境中的其他線索，來(lái)解釋訓(xùn)練樣本中的提供的未來(lái)運(yùn)動(dòng)數(shù)據(jù)。

圖5：軌跡的擾動(dòng)。(a)原始記錄的訓(xùn)練樣例，其中智能體沿著車道的中心行駛。 (b)擾動(dòng)樣例，通過(guò)擾動(dòng)原始記錄中當(dāng)前智能體的位置（紅色點(diǎn)）使其遠(yuǎn)離車道中心，然后擬合新的平滑軌跡，該軌跡使智能體沿車道中心返回到原始目標(biāo)位置。

5. 在純模仿之外的工作

5.1合成擾動(dòng)

將模型作為閉環(huán)系統(tǒng)的一部分運(yùn)行，隨著時(shí)間的推移，輸入數(shù)據(jù)會(huì)偏離訓(xùn)練時(shí)的分布。為了防止這種情況出現(xiàn)，我們?cè)谟?xùn)練模型時(shí)對(duì)一部分本車軌跡的樣本，附加現(xiàn)實(shí)中可能出現(xiàn)的各種擾動(dòng)。軌跡的起點(diǎn)和終點(diǎn)保持不變，擾動(dòng)施加在軌跡中點(diǎn)的周圍，且在周圍的多個(gè)軌跡點(diǎn)上得到平滑。定量地來(lái)看，各個(gè)軸上產(chǎn)生在[-0.5,0.5]m范圍內(nèi)均勻分布的隨機(jī)抖動(dòng)，航向角產(chǎn)生在[-π/3,π/3]弧度范圍內(nèi)的隨機(jī)抖動(dòng)。我們用平滑的軌跡擬合擾動(dòng)后的點(diǎn)和原始的起點(diǎn)與終點(diǎn)。這類附加擾動(dòng)的訓(xùn)練樣本，使汽車在受到擾動(dòng)后能夠回到原來(lái)的行駛軌跡上。我們通過(guò)設(shè)置軌跡曲率的閾值，濾除了一些實(shí)際中不太可能出現(xiàn)的擾動(dòng)后的軌跡。我們?cè)试S擾動(dòng)后的軌跡與其他車輛發(fā)生碰撞或駛離道路，因?yàn)橹挥羞@樣，網(wǎng)絡(luò)才能在原有樣本中沒有類似情況出現(xiàn)的條件下，也能經(jīng)歷并且學(xué)會(huì)如何避免這樣的行為。訓(xùn)練過(guò)程中我們給附加了擾動(dòng)的樣本的權(quán)重是真實(shí)樣本的權(quán)重的1/10，避免學(xué)到的模型有始終在擾動(dòng)狀態(tài)下駕駛的傾向。

5.2 模仿?lián)p失之外的損失

5.2.1 碰撞損失

由于我們的訓(xùn)練數(shù)據(jù)沒有任何實(shí)際碰撞，因此避免碰撞的想法是隱式的，不能很好地泛化。為了緩和這個(gè)問(wèn)題我們?cè)黾恿艘粋€(gè)專門的損失函數(shù)，直接度量在每一個(gè)時(shí)間步上預(yù)測(cè)的邊界框Bk與場(chǎng)景中所有物體的邊界框真值的重疊率。

其中Bk是輸出本車邊界框預(yù)測(cè)的似然圖，Objgtk是時(shí)間k對(duì)應(yīng)的二值化的掩模圖像，所有被其他動(dòng)態(tài)物體（其他車輛，行人等）占據(jù)的像素的值都為1。訓(xùn)練過(guò)程中的任何時(shí)候，如果模型預(yù)測(cè)到將會(huì)發(fā)生碰撞，大的重疊率會(huì)造成的損失增加，進(jìn)一步影響到模型更新的梯度，從而糾正這種錯(cuò)誤。但是這種損失僅在訓(xùn)練的初始階段有效，也就是在模型還沒有能夠預(yù)測(cè)出接近真值的位置時(shí)。在軌跡上附加擾動(dòng)之后，這個(gè)問(wèn)題得到了緩和。這是因?yàn)樵诟郊訑_動(dòng)的樣本中，人為制造出來(lái)的碰撞情形使得上述損失函數(shù)在訓(xùn)練過(guò)程中能夠發(fā)揮出作用，影響模型更新的梯度。此外這種方法還達(dá)到了類似在強(qiáng)化學(xué)習(xí)中設(shè)置在線探索的效果。

5.2.2 駛離路面損失

軌跡擾動(dòng)同時(shí)會(huì)產(chǎn)生車輛駛離道路或駛上路緣的情形。為了訓(xùn)練網(wǎng)絡(luò)避免車輛駛上道路邊緣，我們?cè)黾恿艘粋€(gè)專門的損失函數(shù)，在每一個(gè)時(shí)間步k上度量預(yù)測(cè)的本車邊界框和表示視野中的道路和非道路區(qū)域二值掩模圖像Roadgt的重疊率。

5.2.3 目標(biāo)軌跡幾何損失

我們希望顯式地約束本車，使其沿著獨(dú)立于速度曲線的目標(biāo)軌跡行駛。通過(guò)用平滑曲線擬合目標(biāo)路點(diǎn)，并將此曲線調(diào)整為俯視坐標(biāo)系中的二值化圖像，來(lái)對(duì)目標(biāo)軌跡幾何形狀進(jìn)行建模。該曲線的寬度被設(shè)定為和本車寬度相等。我們用類似定義碰撞損失的方式，通過(guò)預(yù)測(cè)的本車邊界框和二值化的目標(biāo)軌跡幾何圖像Geomgt的重疊率，度量這種與目標(biāo)軌跡幾何形狀相關(guān)的損失。邊界框的任何不與目標(biāo)幾何軌跡重疊的部分，都將被轉(zhuǎn)化為懲罰值并加入損失函數(shù)中。

圖6：在樣例輸入上將預(yù)測(cè)和損失函數(shù)可視化。上面一行是輸入的分辨率，而下面一行是當(dāng)前智能體位置周圍的放大視圖。

5.2.4 附加損失

與預(yù)測(cè)本車軌跡類似，循環(huán)網(wǎng)絡(luò)也可以用來(lái)預(yù)測(cè)其他交通參與者。因此我們添加了一個(gè)感知循環(huán)網(wǎng)絡(luò)PerceptionRNN，它使用FeatureNet創(chuàng)建的共享特征F和它自己在前一次迭代預(yù)測(cè)的heatmap:Objk-1作為輸入，并預(yù)測(cè)每次迭代的heatmap:Objk。Objk(x,y)表示k時(shí)刻位置(x,y)被動(dòng)態(tài)物體占據(jù)的概率。對(duì)于k=0的迭代步，使用動(dòng)態(tài)對(duì)象的真值數(shù)據(jù)輸入到PerceptionRNN中。

表1：本文中進(jìn)行的實(shí)驗(yàn)的參數(shù)值

表2：在NVIDIA Tesla P100 GPU 上的運(yùn)行表現(xiàn)

5.3 Imitation Dropout

總的來(lái)說(shuō)我們的損失可能分為兩組。模仿?lián)p失如下：

環(huán)境損失如下：

模仿?lián)p失導(dǎo)致模型模仿合理駕駛的示范行為，而環(huán)境損失抑制了諸如碰撞等不良行為。為了進(jìn)一步增加環(huán)境損失的有效性，我們?cè)囼?yàn)時(shí)使用了具有隨機(jī)退出機(jī)制的模仿?lián)p失，稱為"imitation dropout"。在實(shí)驗(yàn)中我們證明"imitation dropout"相比于簡(jiǎn)單地降低模仿?lián)p失的權(quán)重，可以得到更好的駕駛模型。在"imitation dropout"過(guò)程中，每個(gè)訓(xùn)練樣本的模仿?lián)p失wimit被按照一定的概率隨機(jī)置為0或1。整體損失由下式給出：

6. 總結(jié)

在本文中，我們介紹了讓模仿學(xué)習(xí)在現(xiàn)實(shí)世界的完成駕駛?cè)蝿?wù)也能擁有良好表現(xiàn)的研究經(jīng)驗(yàn)。我們發(fā)現(xiàn)成功的關(guān)鍵在于，在合理駕駛行為的基礎(chǔ)上附加擾動(dòng)合成出各種駕駛情形，并增加適當(dāng)?shù)膿p失來(lái)抑制不良的行為。這些改進(jìn)可以使模型學(xué)會(huì)如何避免發(fā)生碰撞和駛離道路，即使這些情形在合理駕駛的樣本中很少出現(xiàn)。為了支持這一點(diǎn)，并更好地利用合理駕駛的數(shù)據(jù)，我們使用了中級(jí)的輸入和輸出表示，從而輕松混合真實(shí)和仿真數(shù)據(jù)并減輕學(xué)習(xí)感知和控制的負(fù)擔(dān)。基于這些要素我們得到了一個(gè)足以駕駛真實(shí)車輛的模型。雖然該模型還沒有完全實(shí)現(xiàn)與運(yùn)動(dòng)規(guī)劃方法展開競(jìng)爭(zhēng)，但我們認(rèn)為這是機(jī)器學(xué)習(xí)駕駛模型邁出的一大步。通過(guò)在模擬中探索罕見和困難的情景，對(duì)合理的駕駛行為進(jìn)行徹底的增強(qiáng)（也許是在強(qiáng)化學(xué)習(xí)框架中完成），將是提高這些模型的性能并將其用于具有高度交互性的交通場(chǎng)景的關(guān)鍵。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：碰撞=罰分！
上一篇：用戶滿意度提升 | NVH提升大作戰(zhàn)

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測(cè)試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)
• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬
• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！	• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)
• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

谷歌ChauffeurNet:訓(xùn)練能夠魯棒地駕駛實(shí)車的網(wǎng)絡(luò)

微信公眾號(hào)

編輯推薦

最新資訊

國(guó)內(nèi)首個(gè)“路空一體”國(guó)家質(zhì)檢中心落戶廣東

全國(guó)156個(gè)！IAE智行眾維入選！工信部2025年

瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)

是德科技推出適用于AI數(shù)據(jù)中心的Scale-Up驗(yàn)

“汽車爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

谷歌ChauffeurNet:訓(xùn)練能夠魯棒地駕駛實(shí)車的網(wǎng)絡(luò)

微信公眾號(hào)

編輯推薦

最新資訊

國(guó)內(nèi)首個(gè)“路空一體”國(guó)家質(zhì)檢中心落戶廣東

全國(guó)156個(gè)！IAE智行眾維入選！工信部2025年

瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)

是德科技推出適用于AI數(shù)據(jù)中心的Scale-Up驗(yàn)

“汽車爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

全國(guó)156個(gè)！IAE智行眾維入選！工信部2025年