駕駛模擬器之CARLA篇：An Open Urban Driving Simulator

2020-10-26 10:38:01· 來(lái)源：自動(dòng)駕駛仿真作者：Dosovitskiy等

對(duì)于自動(dòng)駕駛仿真，CARLA是主流的模擬器之一。本文《CARLA: An Open Urban Driving Simulator 》，由CARLA開(kāi)發(fā)者（Intel、Toyota、巴塞羅那計(jì)算機(jī)視覺(jué)中心）撰寫(xiě)

對(duì)于自動(dòng)駕駛仿真，CARLA是主流的模擬器之一。本文《CARLA: An Open Urban Driving Simulator 》，由CARLA開(kāi)發(fā)者（Intel、Toyota、巴塞羅那計(jì)算機(jī)視覺(jué)中心）撰寫(xiě)，對(duì)CARLA做了詳細(xì)介紹。

摘要：本文介紹了用于自動(dòng)駕駛研究的開(kāi)源模擬器CARLA。CARLA的開(kāi)發(fā)從一開(kāi)始就是為了支持城市自動(dòng)駕駛系統(tǒng)的開(kāi)發(fā)、訓(xùn)練和驗(yàn)證。除了開(kāi)源代碼和協(xié)議之外，CARLA還提供了為此目的而創(chuàng)建的開(kāi)源數(shù)字資產(chǎn)（城市布局、建筑、車(chē)輛）。仿真平臺(tái)支持對(duì)傳感器和環(huán)境條件的靈活定義。我們使用CARLA研究了三種自動(dòng)駕駛算法的性能：a classic modular pipeline、通過(guò)模仿學(xué)習(xí)訓(xùn)練的端到端模型和通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的端到端模型。這些算法在難度不斷增加的場(chǎng)景中進(jìn)行評(píng)估，通過(guò)CARLA提供的指標(biāo)來(lái)測(cè)試其性能，表明該平臺(tái)對(duì)自動(dòng)駕駛研究的實(shí)用性。

1 簡(jiǎn)介

三維環(huán)境中的感知-運(yùn)動(dòng)控制仍然是機(jī)器學(xué)習(xí)和機(jī)器人學(xué)的一個(gè)主要挑戰(zhàn)。自動(dòng)駕駛車(chē)輛的發(fā)展是這個(gè)問(wèn)題長(zhǎng)期研究的一個(gè)實(shí)例[22，26]。它最困難的形式是在人口稠密的城市環(huán)境中導(dǎo)航[21]。這種場(chǎng)景帶來(lái)更多的挑戰(zhàn)，是因?yàn)椋航煌ń徊婵谔帍?fù)雜的多智能體動(dòng)態(tài)；需要跟蹤和響應(yīng)幾十個(gè)甚至數(shù)百個(gè)其他參與者的運(yùn)動(dòng)；需要識(shí)別街道標(biāo)志、路燈以及道路標(biāo)線，并區(qū)分多種類型的其他車(chē)輛；罕見(jiàn)事件的長(zhǎng)尾——道路施工、兒童沖上道路、前方發(fā)生事故、其他車(chē)輛誤入錯(cuò)誤車(chē)道；以及迅速協(xié)調(diào)沖突目標(biāo)的必要性。例如，當(dāng)一個(gè)心不在焉的行人誤入前面的道路，而另一輛車(chē)正從后面快速駛來(lái)，如果剎車(chē)過(guò)猛，可能會(huì)追尾。

城市自動(dòng)駕駛的研究受到基礎(chǔ)設(shè)施成本和現(xiàn)實(shí)世界中訓(xùn)練和測(cè)試系統(tǒng)的后勤困難的阻礙。一輛自動(dòng)駕駛汽車(chē)的檢測(cè)和操作也需要大量的資金和人力。而且，單輛車(chē)遠(yuǎn)遠(yuǎn)不足以收集必要的數(shù)據(jù)，這些數(shù)據(jù)涵蓋了為訓(xùn)練和驗(yàn)證而必須處理的大量corner case。對(duì)于classic modular pipeline來(lái)說(shuō)是如此，對(duì)于需要大量數(shù)據(jù)的深度學(xué)習(xí)技術(shù)更是如此。在現(xiàn)實(shí)世界中對(duì)城市駕駛的自動(dòng)駕駛模型的訓(xùn)練和驗(yàn)證是大多數(shù)研究小組無(wú)法實(shí)現(xiàn)的。

另一種方法是在仿真中訓(xùn)練和驗(yàn)證駕駛策略。在自動(dòng)駕駛研究的早期，仿真就被用于訓(xùn)練駕駛模型[22]。最近，賽車(chē)模擬器被用做評(píng)估自動(dòng)駕駛的新方法[28，3]。自定義的仿真模擬也被用于訓(xùn)練和bench mark視覺(jué)感知系統(tǒng)[2，9，10，11，20，25，27，29]。商業(yè)游戲已經(jīng)被用于獲取高質(zhì)量的數(shù)據(jù)，用于訓(xùn)練和bench mark視覺(jué)感知系統(tǒng)[23，24]。

雖然仿真在自主駕駛研究中的應(yīng)用非常廣泛，但現(xiàn)有的仿真平臺(tái)有限。開(kāi)源的賽車(chē)模擬器，如TORCS[28]并沒(méi)有表現(xiàn)出城市駕駛的復(fù)雜性：它們?nèi)狈π腥?、交叉口、交通?guī)則以及其他區(qū)分城市駕駛和賽車(chē)賽道的復(fù)雜因素。高保真度模擬城市環(huán)境的商業(yè)游戲，如《俠盜獵車(chē)手5》[23，24]，可自定義的部分很有限。

本文介紹了一種開(kāi)源的城市駕駛模擬器CARLA（Car Learning to Act）。CARLA從一開(kāi)始就是為了支持自動(dòng)駕駛模型的訓(xùn)練、原型設(shè)計(jì)和驗(yàn)證，包括感知和控制。CARLA是一個(gè)開(kāi)源的平臺(tái)。獨(dú)一無(wú)二的是，CARLA提供的城市環(huán)境內(nèi)容也是免費(fèi)的。它包括城市布局、多種車(chē)輛模型、建筑物、行人、路標(biāo)等。該仿真平臺(tái)支持傳感器套件的靈活設(shè)置，并提供可用于訓(xùn)練駕駛策略的信號(hào)，例如GPS坐標(biāo)、速度、加速度以及碰撞和其他違規(guī)行為的詳細(xì)數(shù)據(jù)。CARLA可以定義廣泛的環(huán)境條件，包括天氣和時(shí)間。多種環(huán)境條件如下圖所示。

圖1 CARLA構(gòu)建的四種天氣(Town2)

我們使用CARLA來(lái)研究三種自動(dòng)駕駛方法的性能。第一個(gè)是一個(gè)經(jīng)典的modular pipeline，包括基于視覺(jué)的感知模塊、基于規(guī)則的規(guī)劃器和控制器。第二個(gè)是一個(gè)深層網(wǎng)絡(luò)，將傳感器輸入映射到駕駛指令，通過(guò)模仿學(xué)習(xí)進(jìn)行端到端的訓(xùn)練。第三個(gè)也是一個(gè)深度網(wǎng)絡(luò)，通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行端到端的訓(xùn)練。我們使用CARLA來(lái)模擬難度不斷增加的場(chǎng)景。我們?cè)O(shè)定必須穿越的路線的復(fù)雜性、交通流和環(huán)境條件。實(shí)驗(yàn)結(jié)果揭示了這三種方法的性能特點(diǎn)。

2 仿真引擎

CARLA是為了在渲染和物理模擬方面的靈活性和真實(shí)性而設(shè)計(jì)的。它相當(dāng)于在Unreal Engine 4（UE4）[7]之上涉及了一個(gè)開(kāi)源層，支持未來(lái)的擴(kuò)展。該引擎提供最先進(jìn)的渲染質(zhì)量、逼真的物理效果、基本的NPC邏輯和可互操作插件的生態(tài)系統(tǒng)。針對(duì)非商業(yè)用途，該引擎是免費(fèi)的。

環(huán)境。環(huán)境由靜態(tài)對(duì)象（如建筑物、植被、交通標(biāo)志和基礎(chǔ)設(shè)施）以及動(dòng)態(tài)對(duì)象（如車(chē)輛和行人）的三維模型組成。所有模型都經(jīng)過(guò)精心設(shè)計(jì)，以平衡視覺(jué)質(zhì)量和渲染速度：我們使用低重量的幾何模型和紋理，但通過(guò)精心制作材質(zhì)和使用可變細(xì)節(jié)級(jí)別來(lái)保持視覺(jué)真實(shí)感。所有的三維模型都有一個(gè)共同的比例，它們的大小反映了真實(shí)物體的大小。在撰寫(xiě)本文時(shí)，我們的資產(chǎn)庫(kù)包括40個(gè)不同的建筑、16個(gè)動(dòng)畫(huà)車(chē)輛模型和50個(gè)動(dòng)畫(huà)行人模型。

圖2 CARLA現(xiàn)有的車(chē)輛及行人模型

我們通過(guò)以下步驟使用這些資源來(lái)構(gòu)建城市環(huán)境：（a）規(guī)劃道路和人行道；（b）手動(dòng)放置房屋、植被、地形和交通基礎(chǔ)設(shè)施；（c）指定動(dòng)態(tài)對(duì)象可以出現(xiàn)（生成）的位置。這樣，我們?cè)O(shè)計(jì)了兩個(gè)城鎮(zhèn)：Town1的可行駛道路總長(zhǎng)度為2.9 km，用于訓(xùn)練；Town2的可行駛道路為1.4 km，用于測(cè)試。這兩個(gè)城鎮(zhèn)見(jiàn)下圖。

圖3 本文創(chuàng)建的兩個(gè)城鎮(zhèn)，Town1（左）和Town2（右）

開(kāi)發(fā)CARLA的一個(gè)挑戰(zhàn)是非玩家角色的配置（這對(duì)仿真的保真度而言非常重要）。我們基于標(biāo)準(zhǔn)的UE4車(chē)型（PhysXVehicles）來(lái)設(shè)計(jì)非玩家車(chē)輛，其運(yùn)動(dòng)學(xué)參數(shù)調(diào)整為現(xiàn)實(shí)模式。我們還實(shí)現(xiàn)了一個(gè)控制非玩家車(chē)輛行為的基本控制器：車(chē)道跟隨、遵守紅綠燈、速度限制和交叉路口決策。車(chē)輛和行人可以相互察覺(jué)和避開(kāi)。更先進(jìn)的非玩家車(chē)輛控制器將被集成到未來(lái)的版本中[1]。

行人根據(jù)特定城鎮(zhèn)的導(dǎo)航地圖在鎮(zhèn)上游蕩，相互避開(kāi)，盡量避開(kāi)車(chē)輛。如果汽車(chē)與行人相撞，行人將從仿真世界中刪除，并在短暫的時(shí)間間隔后在不同的位置生成新的行人。

為了增加視覺(jué)多樣性，我們?cè)趯⒎峭婕医巧砑拥椒抡嬷袝r(shí)對(duì)其外觀進(jìn)行隨機(jī)化。每個(gè)行人都穿著從預(yù)先指定的衣柜中隨機(jī)抽取的一套衣服，并可選擇配備以下一種或多種物品：智能手機(jī)、購(gòu)物袋、吉他盒、手提箱、雨傘等。每輛車(chē)都是根據(jù)特定車(chē)型的一組材料隨機(jī)噴漆的。

我們還實(shí)現(xiàn)了各種大氣條件和照明條件。它們?cè)谔?yáng)的位置和顏色、天空漫射的強(qiáng)度和顏色以及環(huán)境遮擋、大氣霧、云量和降水量等方面存在差異。目前，CARLA支持兩種照明條件（正午和日落）以及9種天氣條件（不同的云量、降水量和街道上是否有水坑）。這將實(shí)現(xiàn)總共18種照明天氣組合（為了簡(jiǎn)潔起見(jiàn)，我們將其稱為天氣。）

傳感器。CARLA允許靈活配置傳感器套件。在撰寫(xiě)本文時(shí)，傳感器僅限于RGB攝像頭和提供地面真實(shí)深度和語(yǔ)義分割的傳感器。如圖2所示。攝像頭的數(shù)量及其類型和位置可由用戶指定。攝像頭參數(shù)包括三維位置、相對(duì)于汽車(chē)坐標(biāo)系的三維方向、視野和景深。我們的語(yǔ)義分割偽傳感器提供了12個(gè)語(yǔ)義類：道路、車(chē)道標(biāo)線、交通標(biāo)志、人行道、圍欄、標(biāo)桿、墻、建筑、植被、車(chē)輛、行人和其他。

圖4 CARLA傳感器模型，從左到右依次是常規(guī)RGB攝像頭、深度傳感器和語(yǔ)義分割傳感器

除了上述傳感器模型，CARLA還提供了一系列針對(duì)車(chē)輛和交通規(guī)則的測(cè)量值。與車(chē)輛相關(guān)的測(cè)量包括車(chē)輛相對(duì)于世界坐標(biāo)系（類似于GPS和羅盤(pán)）的位置和方向、速度、加速度矢量和碰撞累積的影響。與交通規(guī)則相關(guān)的測(cè)量包括進(jìn)入到錯(cuò)誤車(chē)道或人行道的車(chē)輛足跡百分比，以及交通燈狀態(tài)和車(chē)輛當(dāng)前位置的速度限制。最后，CARLA提供對(duì)環(huán)境中所有動(dòng)態(tài)對(duì)象的精確位置和邊界框的訪問(wèn)。這些信號(hào)在駕駛策略的訓(xùn)練和評(píng)估中起著重要作用。

3 自動(dòng)駕駛

CARLA支持自動(dòng)駕駛系統(tǒng)的開(kāi)發(fā)、訓(xùn)練和詳細(xì)的性能分析。我們使用CARLA評(píng)估了三種自動(dòng)駕駛方法。第一種是一種modular pipeline，它依賴于視覺(jué)感知、規(guī)劃和控制的專用子系統(tǒng)。這種結(jié)構(gòu)符合大多數(shù)現(xiàn)有的自動(dòng)駕駛系統(tǒng)[21,8]。第二種方法基于通過(guò)模擬學(xué)習(xí)進(jìn)行端到端訓(xùn)練的深度網(wǎng)絡(luò)[4]。這種方法最近引起了新的興趣[22，16，4]。第三種方法基于通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行端到端訓(xùn)練的深度網(wǎng)絡(luò)[19]。

3.1 modular pipeline

我們的第一種方法是一個(gè)modular pipeline，它將駕駛?cè)蝿?wù)分解到以下子系統(tǒng)中：（i）感知；（ii）規(guī)劃；（iii）持續(xù)控制。由于沒(méi)有提供幾何地圖作為輸入，視覺(jué)感知成為一項(xiàng)關(guān)鍵任務(wù)。局部規(guī)劃完全依賴于感知模塊估計(jì)的場(chǎng)景布局。

感知部分使用語(yǔ)義分割來(lái)估計(jì)車(chē)道、道路限制、動(dòng)態(tài)對(duì)象和其他危險(xiǎn)。此外，還使用分類模型來(lái)確定交叉口的接近度。規(guī)劃器使用基于規(guī)則的狀態(tài)機(jī)。持續(xù)控制由PID控制器執(zhí)行，該控制器驅(qū)動(dòng)轉(zhuǎn)向、節(jié)氣門(mén)和制動(dòng)機(jī)構(gòu)。現(xiàn)在我們將更詳細(xì)地描述這些模塊。

感知。我們?cè)谶@里描述的感知是建立在基于RefineNet的語(yǔ)義分割網(wǎng)絡(luò)上的[17]。訓(xùn)練網(wǎng)絡(luò)將圖像中的每個(gè)像素分為以下語(yǔ)義類別之一：C=froad、sidewalk、lane marking、dynamic object、misscellaneous staticg。該網(wǎng)絡(luò)使用CARLA在訓(xùn)練環(huán)境中生成的2500張標(biāo)注圖像進(jìn)行訓(xùn)練。根據(jù)道路面積和車(chē)道標(biāo)線，利用網(wǎng)絡(luò)提供的概率分布來(lái)估算車(chē)道。

此外，我們使用基于AlexNet的二元場(chǎng)景分類器（交叉/無(wú)交叉）來(lái)估計(jì)到達(dá)交叉路口的可能性[15]。這個(gè)網(wǎng)絡(luò)是在兩個(gè)類之間平衡的500幅圖像上訓(xùn)練的。

規(guī)劃器。規(guī)劃器通過(guò)生成一組路徑點(diǎn)來(lái)實(shí)現(xiàn)低級(jí)別導(dǎo)航：近期目標(biāo)狀態(tài)表示車(chē)輛在不久的將來(lái)所需的位置和方向。規(guī)劃器的目標(biāo)是合成使汽車(chē)保持在道路上并防止碰撞的路徑點(diǎn)。規(guī)劃器基于狀態(tài)機(jī)，狀態(tài)機(jī)具有以下?tīng)顟B(tài)：（i）道路跟隨，（ii）左轉(zhuǎn)，（iii）右轉(zhuǎn)，（iv）交叉路口向前和（v）危險(xiǎn)停車(chē)。狀態(tài)之間的轉(zhuǎn)換基于感知模塊提供的估計(jì)值和全局規(guī)劃器提供的拓?fù)湫畔?lái)執(zhí)行。路徑點(diǎn)連同車(chē)輛當(dāng)前的姿態(tài)和速度一起傳送給控制器。

持續(xù)控制器。我們使用比例-積分-微分（PID）控制器[6]，因?yàn)樗?jiǎn)單、靈活，并且對(duì)慢響應(yīng)時(shí)間具有相對(duì)的魯棒性。每個(gè)控制器接收當(dāng)前姿態(tài)、速度和路徑點(diǎn)列表，并分別驅(qū)動(dòng)轉(zhuǎn)向、油門(mén)和制動(dòng)機(jī)構(gòu)。我們的目標(biāo)巡航速度為20公里/小時(shí)。

3.2 模仿學(xué)習(xí)

我們的第二種方法是條件模仿學(xué)習(xí)，這是一種除了感知輸入外還使用高級(jí)命令的模擬學(xué)習(xí)[4]。該方法利用城鎮(zhèn)中人類駕駛員記錄的一個(gè)駕駛軌跡數(shù)據(jù)集。Thedataset D = fhoi; ci; aiig consists of tuples, each of which contains anobservation oi, a command ci, and an action ai. 這些命令由駕駛員在數(shù)據(jù)采集過(guò)程中提供，并指示他們的意圖，類似于轉(zhuǎn)向信號(hào)燈。我們使用一組四個(gè)命令：沿車(chē)道行駛（默認(rèn)），在下一個(gè)十字路口直行，在下一個(gè)十字路口左轉(zhuǎn)，在下一個(gè)十字路口右轉(zhuǎn)。觀察結(jié)果是來(lái)自前向攝像機(jī)的圖像。為了提高學(xué)習(xí)策略的魯棒性，我們?cè)跀?shù)據(jù)采集過(guò)程中加入了噪聲。

我們已經(jīng)收集了大約14個(gè)小時(shí)的駕駛數(shù)據(jù)用于訓(xùn)練。使用Adam優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練[14]。為了提高泛化能力，我們進(jìn)行了數(shù)據(jù)擴(kuò)充和刪除。

3.3 強(qiáng)化學(xué)習(xí)

我們的第三種方法是深度強(qiáng)化學(xué)習(xí)，它基于環(huán)境提供的獎(jiǎng)勵(lì)信號(hào)訓(xùn)練一個(gè)深度網(wǎng)絡(luò)，沒(méi)有人類駕駛軌跡。我們使用A3C[19]。該算法在仿真的三維環(huán)境中表現(xiàn)良好，例如賽車(chē)[19]和三維迷宮中的導(dǎo)航[19,13,5]。該方法的異步特性使多個(gè)線程能夠并行運(yùn)行，這對(duì)于深度強(qiáng)化學(xué)習(xí)的高樣本復(fù)雜度非常重要。

我們訓(xùn)練A3C進(jìn)行目標(biāo)導(dǎo)向的導(dǎo)航。在每一次訓(xùn)練中，車(chē)輛必須在拓?fù)湟?guī)劃器的高級(jí)命令指導(dǎo)下達(dá)到目標(biāo)。當(dāng)車(chē)輛到達(dá)目標(biāo)時(shí)，當(dāng)車(chē)輛與障礙物相撞時(shí)，或當(dāng)時(shí)間預(yù)算用盡時(shí)，事件終止。獎(jiǎng)勵(lì)是五項(xiàng)的加權(quán)和：朝目標(biāo)行駛的速度和距離（正加權(quán)）、碰撞（負(fù)加權(quán)）、與人行道重疊（負(fù)加權(quán)）、與對(duì)面車(chē)道重疊（負(fù)加權(quán)）。

該網(wǎng)絡(luò)使用10個(gè)并行線程進(jìn)行訓(xùn)練，總共進(jìn)行1000萬(wàn)個(gè)simulation steps。因?yàn)榉抡嫠鶐?lái)的計(jì)算成本，我們將訓(xùn)練限制在1000萬(wàn)個(gè)simulation steps。這相當(dāng)于以每秒10幀的速度連續(xù)駕駛12天。

4 實(shí)驗(yàn)

我們?cè)u(píng)估了三種方法——模塊化流水線（MP）、模擬學(xué)習(xí)（IL）和強(qiáng)化學(xué)習(xí)（RL），在六種天氣條件下，在兩個(gè)可用城鎮(zhèn)中的每一個(gè)進(jìn)行四項(xiàng)越來(lái)越困難的駕駛?cè)蝿?wù)。我們按照增加難度的順序組織任務(wù)如下：

•直線：目的地位于起點(diǎn)正前方，環(huán)境中沒(méi)有動(dòng)態(tài)對(duì)象。到目標(biāo)的平均行駛距離，Town1為200米，Town 2為100米。

•一個(gè)轉(zhuǎn)彎：目的地離出發(fā)點(diǎn)只有一個(gè)轉(zhuǎn)彎；沒(méi)有動(dòng)態(tài)物體。到目標(biāo)的平均行駛距離, Town1為400米，Town 2為170米。

•導(dǎo)航：不限制目的地相對(duì)于起點(diǎn)的位置，無(wú)動(dòng)態(tài)物體。到目標(biāo)的平均行駛距離, Town1為170米，Town 2為360米。

•存在動(dòng)態(tài)障礙物的導(dǎo)航：與上一個(gè)任務(wù)相同，但使用動(dòng)態(tài)對(duì)象（汽車(chē)和行人）。

實(shí)驗(yàn)在兩個(gè)城鎮(zhèn)進(jìn)行。Town1用于培訓(xùn)，Town2用于測(cè)試。我們考慮六種天氣條件進(jìn)行實(shí)驗(yàn)，分成兩組。訓(xùn)練用的天氣集包括晴天、晴朗的日落、下雨的白天和雨后的白天。測(cè)試集的天氣是訓(xùn)練集不包含的，包括多云的白天和細(xì)雨的日落。

對(duì)于一個(gè)任務(wù)、一個(gè)城鎮(zhèn)和一個(gè)天氣集合的每一個(gè)組合，都要進(jìn)行超過(guò)25次的測(cè)試。在每一次測(cè)試中，目標(biāo)是到達(dá)指定的目標(biāo)位置。如果在預(yù)定時(shí)間內(nèi)達(dá)到目標(biāo)，則認(rèn)為事件成功。預(yù)定時(shí)間為以10 km/h的速度沿著最佳路徑達(dá)到目標(biāo)所需的時(shí)間。違規(guī)行為：如在人行道上駕駛或產(chǎn)生碰撞，不會(huì)導(dǎo)致事件終止，但會(huì)記錄和報(bào)告。

5 結(jié)果

表1報(bào)告了在四種不同情況下成功完成任務(wù)的百分比。

表1 三種自動(dòng)駕駛方法在四種不同情況下成功完成任務(wù)的百分比。

表1中的結(jié)果表明了幾個(gè)一般性結(jié)論?？偟膩?lái)說(shuō)，即使是在最簡(jiǎn)單的直線駕駛?cè)蝿?wù)中，所有方法的性能都不完美，對(duì)于更困難的任務(wù)，成功率進(jìn)一步下降。對(duì)新天氣的泛化要比對(duì)一個(gè)新城鎮(zhèn)的泛化容易得多。模塊化流水線和模擬學(xué)習(xí)在大多數(shù)任務(wù)和條件下都能達(dá)到同等水平。強(qiáng)化學(xué)習(xí)相對(duì)于其他兩種方法表現(xiàn)不佳?，F(xiàn)在我們將更詳細(xì)地討論這四個(gè)關(guān)鍵發(fā)現(xiàn)。

四項(xiàng)任務(wù)的表現(xiàn)。令人驚訝的是，在訓(xùn)練條件下，即使是在空曠的街道上筆直行駛這一最簡(jiǎn)單的任務(wù)，也沒(méi)有一種方法能完美地發(fā)揮作用。我們認(rèn)為，這一現(xiàn)象的根本原因是：輸入的可變性。訓(xùn)練條件包括四種不同的天氣條件。在訓(xùn)練過(guò)程中的精確軌跡不會(huì)在測(cè)試中重現(xiàn)。因此，完美地完成這項(xiàng)任務(wù)需要魯棒的泛化，這對(duì)現(xiàn)有的深度學(xué)習(xí)方法是有挑戰(zhàn)的。

對(duì)于更高級(jí)的任務(wù)，所有方法的性能都會(huì)下降。在人口稠密的城市環(huán)境中的導(dǎo)航任務(wù)，兩種最好的方法（模塊化流水線和模擬學(xué)習(xí)）在所有條件下的成功率都低于90%。這些結(jié)果清楚地表明，即使在訓(xùn)練條件下，性能也遠(yuǎn)未達(dá)到飽和，并且在新環(huán)境下的泛化是一個(gè)嚴(yán)重的挑戰(zhàn)。

泛化。我們研究?jī)煞N類型的泛化：對(duì)以前沒(méi)遇到的天氣條件和以前沒(méi)遇到的環(huán)境。有趣的是，這兩者的結(jié)果截然不同。對(duì)于模塊化流水線和模擬學(xué)習(xí)來(lái)說(shuō)，“新天氣”條件下的性能與訓(xùn)練條件下的性能非常接近，有時(shí)甚至更好。然而，推廣到一個(gè)新城鎮(zhèn)對(duì)這三種方法都提出了挑戰(zhàn)。在兩個(gè)最具挑戰(zhàn)性的導(dǎo)航任務(wù)中，當(dāng)切換到測(cè)試城鎮(zhèn)時(shí)，所有方法的性能下降了很多。這種現(xiàn)象可以解釋為這樣一個(gè)事實(shí)，即模型已經(jīng)在多種天氣條件下訓(xùn)練，但只在一個(gè)城鎮(zhèn)訓(xùn)練。不同天氣下的訓(xùn)練結(jié)果可以支持對(duì)以前沒(méi)遇到的天氣進(jìn)行泛化，但對(duì)使用不同紋理和3D模型的新城鎮(zhèn)則不適用。通過(guò)在不同的環(huán)境中進(jìn)行訓(xùn)練，這個(gè)問(wèn)題可能會(huì)得到改善?？偟膩?lái)說(shuō)，我們的結(jié)果強(qiáng)調(diào)了泛化對(duì)基于學(xué)習(xí)的感覺(jué)運(yùn)動(dòng)控制方法的重要性。

模塊化流水線vs端到端學(xué)習(xí)。分析模塊化流水線和模擬學(xué)習(xí)方法的相對(duì)性能具有一定的指導(dǎo)意義。令人驚訝的是，在大多數(shù)測(cè)試條件下，這兩種系統(tǒng)的性能非常接近：這兩種方法的性能相差不到10%。這個(gè)結(jié)論有兩個(gè)例外：一是模塊化流水線在“新天氣”條件下比在訓(xùn)練條件下表現(xiàn)更好。這是由于訓(xùn)練和測(cè)試天氣的特定選擇：感知系統(tǒng)恰好在測(cè)試天氣下表現(xiàn)更好。另一個(gè)是，模塊化流水線在“新城鎮(zhèn)”條件下的導(dǎo)航任務(wù)表現(xiàn)不佳，在“新城鎮(zhèn)和新天氣”下的直線任務(wù)表現(xiàn)不佳。這是因?yàn)楦兄惴ㄔ谛颅h(huán)境的復(fù)雜天氣條件下系統(tǒng)性地失效。如果感知算法無(wú)法可靠地找到可駕駛路徑，則基于規(guī)則的規(guī)劃器和經(jīng)典控制器將無(wú)法以一致的方式導(dǎo)航到目的地。因此，如果感知算法正常工作，整個(gè)系統(tǒng)工作正常；否則它將完全失敗。從這個(gè)意義上說(shuō)，模塊化流水線比端到端方法更脆弱。

模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)。我們現(xiàn)在對(duì)比兩個(gè)端到端訓(xùn)練系統(tǒng)的表現(xiàn)：模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。在所有任務(wù)中，強(qiáng)化學(xué)習(xí)訓(xùn)練的表現(xiàn)都比模仿學(xué)習(xí)的要差。盡管如此，強(qiáng)化學(xué)習(xí)的訓(xùn)練使用的數(shù)據(jù)量要大得多：強(qiáng)化學(xué)習(xí)的數(shù)據(jù)是駕駛12天的，而模仿學(xué)習(xí)的僅是14小時(shí)的。為什么這一次強(qiáng)化學(xué)習(xí)表現(xiàn)不佳，而在Atari游戲[18,19]和迷宮導(dǎo)航[19,5]等任務(wù)上取得了很好的成績(jī)？一個(gè)原因是眾所周知強(qiáng)化學(xué)習(xí)是脆弱的[12]，并且it is common to perform extensivetask-specific hyperparameter search，例如Mnih等人報(bào)告的每個(gè)環(huán)境50次試驗(yàn)[19] 。當(dāng)使用模擬器時(shí)，這種extensive hyperparameter search變得不可行。我們根據(jù)文獻(xiàn)證據(jù)和迷宮導(dǎo)航的探索性實(shí)驗(yàn)選擇hyperparameters。另一種解釋是，城市駕駛比以前用強(qiáng)化學(xué)習(xí)解決的大多數(shù)任務(wù)更困難。例如，與迷宮導(dǎo)航相比，在駕駛場(chǎng)景中必須處理混亂動(dòng)態(tài)環(huán)境中的車(chē)輛動(dòng)態(tài)和更復(fù)雜的視覺(jué)感知。最后，強(qiáng)化學(xué)習(xí)泛化能力差的原因可能是：與模擬學(xué)習(xí)相比，強(qiáng)化學(xué)習(xí)的訓(xùn)練沒(méi)有數(shù)據(jù)擴(kuò)充或規(guī)則化。

違規(guī)分析。CARLA支持駕駛策略的細(xì)粒度分析。現(xiàn)在，我們將研究三個(gè)系統(tǒng)在最困難的任務(wù)上的行為：存在動(dòng)態(tài)對(duì)象的導(dǎo)航。我們通過(guò)以下五種違規(guī)行為中任意兩種行為之間的平均行駛距離來(lái)評(píng)價(jià)這三個(gè)系統(tǒng)：在相反車(chē)道上行駛、在人行道上行駛、與其他車(chē)輛相撞、與行人相撞和撞擊靜止物體。

表2報(bào)告了兩次違規(guī)之間的平均行駛距離（以公里為單位）。所有的方法在訓(xùn)練中都表現(xiàn)得更好。在所有情況下，模仿學(xué)習(xí)最不常進(jìn)入相反車(chē)道，而強(qiáng)化學(xué)習(xí)在該指標(biāo)中最差。令人驚訝的是，強(qiáng)化學(xué)習(xí)與行人碰撞的次數(shù)最少，這可以解釋為這種碰撞所產(chǎn)生的巨大的負(fù)回報(bào)。然而，強(qiáng)化學(xué)習(xí)在避免與汽車(chē)和靜態(tài)物體的碰撞方面并不成功，而模塊化流水線通常在這方面表現(xiàn)最好。

表2 兩次違規(guī)之間的平均行駛距離（以公里為單位）

6 結(jié)論

我們介紹了CARLA，一個(gè)開(kāi)源的自動(dòng)駕駛模擬器。除了開(kāi)源代碼和協(xié)議外，CARLA還提供了專門(mén)為此目的創(chuàng)建的數(shù)字資產(chǎn)，并且可以自由復(fù)用。我們利用CARLA的仿真引擎和內(nèi)容來(lái)測(cè)試三種自主駕駛方法：經(jīng)典的模塊化流水線、通過(guò)模擬學(xué)習(xí)進(jìn)行端到端訓(xùn)練的深度網(wǎng)絡(luò)以及通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的深度網(wǎng)絡(luò)。CARLA為我們提供了對(duì)自動(dòng)駕駛系統(tǒng)進(jìn)行開(kāi)發(fā)和訓(xùn)練的工具，然后在受控場(chǎng)景中對(duì)其進(jìn)行評(píng)估。我們希望CARLA能夠幫助大家積極參與自動(dòng)駕駛駕駛研究。模擬器和相關(guān)資產(chǎn)將在http://carla.org

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：自動(dòng)駕駛應(yīng)用處理器供應(yīng)商 — 高通
上一篇：逆向在輪胎建模仿真中的應(yīng)用

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

駕駛模擬器 CARLA

汽車(chē)測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車(chē)測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• VI-grade DiM400駕駛模擬器GT3賽車(chē)應(yīng)用案例分享	• 應(yīng)用分享 \| Idiada利用動(dòng)態(tài)駕駛模擬器進(jìn)行L2級(jí)自動(dòng)駕駛駕
• 軟件更新 \| VI-grade駕駛模擬器軟件系列2025.2版本正式發(fā)	• IDIADA駕駛模擬器集成新FTire柔性環(huán)輪胎模型
• 人因工程實(shí)踐 \| VI-grade在國(guó)內(nèi)某駕駛模擬器iMotions案例	• 上新｜VI-grade推出專注汽車(chē)HMI研發(fā)的駕駛模擬器
• BridgeStone采購(gòu)VI-grade駕駛模擬器	• 駕駛模擬器與自動(dòng)化驗(yàn)證工具：智能座艙品質(zhì)提升的雙引擎
• Generic placeholder image 利用IDIADA中國(guó)駕駛模擬器開(kāi)	• 東方中科與高級(jí)駕駛模擬器供應(yīng)商Dynisma達(dá)成戰(zhàn)略合作進(jìn)一

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

駕駛模擬器之CARLA篇：An Open Urban Driving Simulator

微信公眾號(hào)

編輯推薦

最新資訊

“汽車(chē)爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開(kāi)發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車(chē)備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車(chē)前照燈配光性能的工