日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車(chē)測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車(chē)測(cè)試網(wǎng)

    • 在線課堂

    • 電車(chē)測(cè)試

駕駛模擬器之CARLA篇:An Open Urban Driving Simulator

2020-10-26 10:38:01·  來(lái)源:自動(dòng)駕駛仿真  作者:Dosovitskiy等  
 
對(duì)于自動(dòng)駕駛仿真,CARLA是主流的模擬器之一。本文《CARLA: An Open Urban Driving Simulator 》,由CARLA開(kāi)發(fā)者(Intel、Toyota、巴塞羅那計(jì)算機(jī)視覺(jué)中心)撰寫(xiě)
對(duì)于自動(dòng)駕駛仿真,CARLA是主流的模擬器之一。本文《CARLA: An Open Urban Driving Simulator 》,由CARLA開(kāi)發(fā)者(Intel、Toyota、巴塞羅那計(jì)算機(jī)視覺(jué)中心)撰寫(xiě),對(duì)CARLA做了詳細(xì)介紹。

摘要:本文介紹了用于自動(dòng)駕駛研究的開(kāi)源模擬器CARLA。CARLA的開(kāi)發(fā)從一開(kāi)始就是為了支持城市自動(dòng)駕駛系統(tǒng)的開(kāi)發(fā)、訓(xùn)練和驗(yàn)證。除了開(kāi)源代碼和協(xié)議之外,CARLA還提供了為此目的而創(chuàng)建的開(kāi)源數(shù)字資產(chǎn)(城市布局、建筑、車(chē)輛)。仿真平臺(tái)支持對(duì)傳感器和環(huán)境條件的靈活定義。我們使用CARLA研究了三種自動(dòng)駕駛算法的性能:a classic modular pipeline、通過(guò)模仿學(xué)習(xí)訓(xùn)練的端到端模型和通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的端到端模型。這些算法在難度不斷增加的場(chǎng)景中進(jìn)行評(píng)估,通過(guò)CARLA提供的指標(biāo)來(lái)測(cè)試其性能,表明該平臺(tái)對(duì)自動(dòng)駕駛研究的實(shí)用性。
 
1 簡(jiǎn)介
三維環(huán)境中的感知-運(yùn)動(dòng)控制仍然是機(jī)器學(xué)習(xí)和機(jī)器人學(xué)的一個(gè)主要挑戰(zhàn)。自動(dòng)駕駛車(chē)輛的發(fā)展是這個(gè)問(wèn)題長(zhǎng)期研究的一個(gè)實(shí)例[22,26]。它最困難的形式是在人口稠密的城市環(huán)境中導(dǎo)航[21]。這種場(chǎng)景帶來(lái)更多的挑戰(zhàn),是因?yàn)椋航煌ń徊婵谔帍?fù)雜的多智能體動(dòng)態(tài);需要跟蹤和響應(yīng)幾十個(gè)甚至數(shù)百個(gè)其他參與者的運(yùn)動(dòng);需要識(shí)別街道標(biāo)志、路燈以及道路標(biāo)線,并區(qū)分多種類型的其他車(chē)輛;罕見(jiàn)事件的長(zhǎng)尾——道路施工、兒童沖上道路、前方發(fā)生事故、其他車(chē)輛誤入錯(cuò)誤車(chē)道;以及迅速協(xié)調(diào)沖突目標(biāo)的必要性。例如,當(dāng)一個(gè)心不在焉的行人誤入前面的道路,而另一輛車(chē)正從后面快速駛來(lái),如果剎車(chē)過(guò)猛,可能會(huì)追尾。
 
城市自動(dòng)駕駛的研究受到基礎(chǔ)設(shè)施成本和現(xiàn)實(shí)世界中訓(xùn)練和測(cè)試系統(tǒng)的后勤困難的阻礙。一輛自動(dòng)駕駛汽車(chē)的檢測(cè)和操作也需要大量的資金和人力。而且,單輛車(chē)遠(yuǎn)遠(yuǎn)不足以收集必要的數(shù)據(jù),這些數(shù)據(jù)涵蓋了為訓(xùn)練和驗(yàn)證而必須處理的大量corner case。對(duì)于classic modular pipeline來(lái)說(shuō)是如此,對(duì)于需要大量數(shù)據(jù)的深度學(xué)習(xí)技術(shù)更是如此。在現(xiàn)實(shí)世界中對(duì)城市駕駛的自動(dòng)駕駛模型的訓(xùn)練和驗(yàn)證是大多數(shù)研究小組無(wú)法實(shí)現(xiàn)的。
 
另一種方法是在仿真中訓(xùn)練和驗(yàn)證駕駛策略。在自動(dòng)駕駛研究的早期,仿真就被用于訓(xùn)練駕駛模型[22]。最近,賽車(chē)模擬器被用做評(píng)估自動(dòng)駕駛的新方法[28,3]。自定義的仿真模擬也被用于訓(xùn)練和bench mark視覺(jué)感知系統(tǒng)[2,9,10,11,20,25,27,29]。商業(yè)游戲已經(jīng)被用于獲取高質(zhì)量的數(shù)據(jù),用于訓(xùn)練和bench mark視覺(jué)感知系統(tǒng)[23,24]。
 
雖然仿真在自主駕駛研究中的應(yīng)用非常廣泛,但現(xiàn)有的仿真平臺(tái)有限。開(kāi)源的賽車(chē)模擬器,如TORCS[28]并沒(méi)有表現(xiàn)出城市駕駛的復(fù)雜性:它們?nèi)狈π腥?、交叉口、交通?guī)則以及其他區(qū)分城市駕駛和賽車(chē)賽道的復(fù)雜因素。高保真度模擬城市環(huán)境的商業(yè)游戲,如《俠盜獵車(chē)手5》[23,24],可自定義的部分很有限。
 
本文介紹了一種開(kāi)源的城市駕駛模擬器CARLA(Car Learning to Act)。CARLA從一開(kāi)始就是為了支持自動(dòng)駕駛模型的訓(xùn)練、原型設(shè)計(jì)和驗(yàn)證,包括感知和控制。CARLA是一個(gè)開(kāi)源的平臺(tái)。獨(dú)一無(wú)二的是,CARLA提供的城市環(huán)境內(nèi)容也是免費(fèi)的。它包括城市布局、多種車(chē)輛模型、建筑物、行人、路標(biāo)等。該仿真平臺(tái)支持傳感器套件的靈活設(shè)置,并提供可用于訓(xùn)練駕駛策略的信號(hào),例如GPS坐標(biāo)、速度、加速度以及碰撞和其他違規(guī)行為的詳細(xì)數(shù)據(jù)。CARLA可以定義廣泛的環(huán)境條件,包括天氣和時(shí)間。多種環(huán)境條件如下圖所示。
 
 圖1 CARLA構(gòu)建的四種天氣(Town2)
 
我們使用CARLA來(lái)研究三種自動(dòng)駕駛方法的性能。第一個(gè)是一個(gè)經(jīng)典的modular pipeline,包括基于視覺(jué)的感知模塊、基于規(guī)則的規(guī)劃器和控制器。第二個(gè)是一個(gè)深層網(wǎng)絡(luò),將傳感器輸入映射到駕駛指令,通過(guò)模仿學(xué)習(xí)進(jìn)行端到端的訓(xùn)練。第三個(gè)也是一個(gè)深度網(wǎng)絡(luò),通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行端到端的訓(xùn)練。我們使用CARLA來(lái)模擬難度不斷增加的場(chǎng)景。我們?cè)O(shè)定必須穿越的路線的復(fù)雜性、交通流和環(huán)境條件。實(shí)驗(yàn)結(jié)果揭示了這三種方法的性能特點(diǎn)。
 
2 仿真引擎
CARLA是為了在渲染和物理模擬方面的靈活性和真實(shí)性而設(shè)計(jì)的。它相當(dāng)于在Unreal Engine 4(UE4)[7]之上涉及了一個(gè)開(kāi)源層,支持未來(lái)的擴(kuò)展。該引擎提供最先進(jìn)的渲染質(zhì)量、逼真的物理效果、基本的NPC邏輯和可互操作插件的生態(tài)系統(tǒng)。針對(duì)非商業(yè)用途,該引擎是免費(fèi)的。
 
環(huán)境。環(huán)境由靜態(tài)對(duì)象(如建筑物、植被、交通標(biāo)志和基礎(chǔ)設(shè)施)以及動(dòng)態(tài)對(duì)象(如車(chē)輛和行人)的三維模型組成。所有模型都經(jīng)過(guò)精心設(shè)計(jì),以平衡視覺(jué)質(zhì)量和渲染速度:我們使用低重量的幾何模型和紋理,但通過(guò)精心制作材質(zhì)和使用可變細(xì)節(jié)級(jí)別來(lái)保持視覺(jué)真實(shí)感。所有的三維模型都有一個(gè)共同的比例,它們的大小反映了真實(shí)物體的大小。在撰寫(xiě)本文時(shí),我們的資產(chǎn)庫(kù)包括40個(gè)不同的建筑、16個(gè)動(dòng)畫(huà)車(chē)輛模型和50個(gè)動(dòng)畫(huà)行人模型。
圖2 CARLA現(xiàn)有的車(chē)輛及行人模型
我們通過(guò)以下步驟使用這些資源來(lái)構(gòu)建城市環(huán)境:(a)規(guī)劃道路和人行道;(b)手動(dòng)放置房屋、植被、地形和交通基礎(chǔ)設(shè)施;(c)指定動(dòng)態(tài)對(duì)象可以出現(xiàn)(生成)的位置。這樣,我們?cè)O(shè)計(jì)了兩個(gè)城鎮(zhèn):Town1的可行駛道路總長(zhǎng)度為2.9 km,用于訓(xùn)練;Town2的可行駛道路為1.4 km,用于測(cè)試。這兩個(gè)城鎮(zhèn)見(jiàn)下圖。
圖3 本文創(chuàng)建的兩個(gè)城鎮(zhèn),Town1(左)和Town2(右)
 
開(kāi)發(fā)CARLA的一個(gè)挑戰(zhàn)是非玩家角色的配置(這對(duì)仿真的保真度而言非常重要)。我們基于標(biāo)準(zhǔn)的UE4車(chē)型(PhysXVehicles)來(lái)設(shè)計(jì)非玩家車(chē)輛,其運(yùn)動(dòng)學(xué)參數(shù)調(diào)整為現(xiàn)實(shí)模式。我們還實(shí)現(xiàn)了一個(gè)控制非玩家車(chē)輛行為的基本控制器:車(chē)道跟隨、遵守紅綠燈、速度限制和交叉路口決策。車(chē)輛和行人可以相互察覺(jué)和避開(kāi)。更先進(jìn)的非玩家車(chē)輛控制器將被集成到未來(lái)的版本中[1]。
 
行人根據(jù)特定城鎮(zhèn)的導(dǎo)航地圖在鎮(zhèn)上游蕩,相互避開(kāi),盡量避開(kāi)車(chē)輛。如果汽車(chē)與行人相撞,行人將從仿真世界中刪除,并在短暫的時(shí)間間隔后在不同的位置生成新的行人。
為了增加視覺(jué)多樣性,我們?cè)趯⒎峭婕医巧砑拥椒抡嬷袝r(shí)對(duì)其外觀進(jìn)行隨機(jī)化。每個(gè)行人都穿著從預(yù)先指定的衣柜中隨機(jī)抽取的一套衣服,并可選擇配備以下一種或多種物品:智能手機(jī)、購(gòu)物袋、吉他盒、手提箱、雨傘等。每輛車(chē)都是根據(jù)特定車(chē)型的一組材料隨機(jī)噴漆的。
 
我們還實(shí)現(xiàn)了各種大氣條件和照明條件。它們?cè)谔?yáng)的位置和顏色、天空漫射的強(qiáng)度和顏色以及環(huán)境遮擋、大氣霧、云量和降水量等方面存在差異。目前,CARLA支持兩種照明條件(正午和日落)以及9種天氣條件(不同的云量、降水量和街道上是否有水坑)。這將實(shí)現(xiàn)總共18種照明天氣組合(為了簡(jiǎn)潔起見(jiàn),我們將其稱為天氣。)
 
傳感器。CARLA允許靈活配置傳感器套件。在撰寫(xiě)本文時(shí),傳感器僅限于RGB攝像頭和提供地面真實(shí)深度和語(yǔ)義分割的傳感器。如圖2所示。攝像頭的數(shù)量及其類型和位置可由用戶指定。攝像頭參數(shù)包括三維位置、相對(duì)于汽車(chē)坐標(biāo)系的三維方向、視野和景深。我們的語(yǔ)義分割偽傳感器提供了12個(gè)語(yǔ)義類:道路、車(chē)道標(biāo)線、交通標(biāo)志、人行道、圍欄、標(biāo)桿、墻、建筑、植被、車(chē)輛、行人和其他。
圖4 CARLA傳感器模型,從左到右依次是常規(guī)RGB攝像頭、深度傳感器和語(yǔ)義分割傳感器
 
除了上述傳感器模型,CARLA還提供了一系列針對(duì)車(chē)輛和交通規(guī)則的測(cè)量值。與車(chē)輛相關(guān)的測(cè)量包括車(chē)輛相對(duì)于世界坐標(biāo)系(類似于GPS和羅盤(pán))的位置和方向、速度、加速度矢量和碰撞累積的影響。與交通規(guī)則相關(guān)的測(cè)量包括進(jìn)入到錯(cuò)誤車(chē)道或人行道的車(chē)輛足跡百分比,以及交通燈狀態(tài)和車(chē)輛當(dāng)前位置的速度限制。最后,CARLA提供對(duì)環(huán)境中所有動(dòng)態(tài)對(duì)象的精確位置和邊界框的訪問(wèn)。這些信號(hào)在駕駛策略的訓(xùn)練和評(píng)估中起著重要作用。
 
3 自動(dòng)駕駛
CARLA支持自動(dòng)駕駛系統(tǒng)的開(kāi)發(fā)、訓(xùn)練和詳細(xì)的性能分析。我們使用CARLA評(píng)估了三種自動(dòng)駕駛方法。第一種是一種modular pipeline,它依賴于視覺(jué)感知、規(guī)劃和控制的專用子系統(tǒng)。這種結(jié)構(gòu)符合大多數(shù)現(xiàn)有的自動(dòng)駕駛系統(tǒng)[21,8]。第二種方法基于通過(guò)模擬學(xué)習(xí)進(jìn)行端到端訓(xùn)練的深度網(wǎng)絡(luò)[4]。這種方法最近引起了新的興趣[22,16,4]。第三種方法基于通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行端到端訓(xùn)練的深度網(wǎng)絡(luò)[19]。
 
3.1 modular pipeline
我們的第一種方法是一個(gè)modular pipeline,它將駕駛?cè)蝿?wù)分解到以下子系統(tǒng)中:(i)感知;(ii)規(guī)劃;(iii)持續(xù)控制。由于沒(méi)有提供幾何地圖作為輸入,視覺(jué)感知成為一項(xiàng)關(guān)鍵任務(wù)。局部規(guī)劃完全依賴于感知模塊估計(jì)的場(chǎng)景布局。
感知部分使用語(yǔ)義分割來(lái)估計(jì)車(chē)道、道路限制、動(dòng)態(tài)對(duì)象和其他危險(xiǎn)。此外,還使用分類模型來(lái)確定交叉口的接近度。規(guī)劃器使用基于規(guī)則的狀態(tài)機(jī)。持續(xù)控制由PID控制器執(zhí)行,該控制器驅(qū)動(dòng)轉(zhuǎn)向、節(jié)氣門(mén)和制動(dòng)機(jī)構(gòu)。現(xiàn)在我們將更詳細(xì)地描述這些模塊。
 
感知。我們?cè)谶@里描述的感知是建立在基于RefineNet的語(yǔ)義分割網(wǎng)絡(luò)上的[17]。訓(xùn)練網(wǎng)絡(luò)將圖像中的每個(gè)像素分為以下語(yǔ)義類別之一:C=froad、sidewalk、lane marking、dynamic object、misscellaneous staticg。該網(wǎng)絡(luò)使用CARLA在訓(xùn)練環(huán)境中生成的2500張標(biāo)注圖像進(jìn)行訓(xùn)練。根據(jù)道路面積和車(chē)道標(biāo)線,利用網(wǎng)絡(luò)提供的概率分布來(lái)估算車(chē)道。
 
此外,我們使用基于AlexNet的二元場(chǎng)景分類器(交叉/無(wú)交叉)來(lái)估計(jì)到達(dá)交叉路口的可能性[15]。這個(gè)網(wǎng)絡(luò)是在兩個(gè)類之間平衡的500幅圖像上訓(xùn)練的。
 
規(guī)劃器。規(guī)劃器通過(guò)生成一組路徑點(diǎn)來(lái)實(shí)現(xiàn)低級(jí)別導(dǎo)航:近期目標(biāo)狀態(tài)表示車(chē)輛在不久的將來(lái)所需的位置和方向。規(guī)劃器的目標(biāo)是合成使汽車(chē)保持在道路上并防止碰撞的路徑點(diǎn)。規(guī)劃器基于狀態(tài)機(jī),狀態(tài)機(jī)具有以下?tīng)顟B(tài):(i)道路跟隨,(ii)左轉(zhuǎn),(iii)右轉(zhuǎn),(iv)交叉路口向前和(v)危險(xiǎn)停車(chē)。狀態(tài)之間的轉(zhuǎn)換基于感知模塊提供的估計(jì)值和全局規(guī)劃器提供的拓?fù)湫畔?lái)執(zhí)行。路徑點(diǎn)連同車(chē)輛當(dāng)前的姿態(tài)和速度一起傳送給控制器。
 
持續(xù)控制器。我們使用比例-積分-微分(PID)控制器[6],因?yàn)樗?jiǎn)單、靈活,并且對(duì)慢響應(yīng)時(shí)間具有相對(duì)的魯棒性。每個(gè)控制器接收當(dāng)前姿態(tài)、速度和路徑點(diǎn)列表,并分別驅(qū)動(dòng)轉(zhuǎn)向、油門(mén)和制動(dòng)機(jī)構(gòu)。我們的目標(biāo)巡航速度為20公里/小時(shí)。
 
3.2 模仿學(xué)習(xí)
 
我們的第二種方法是條件模仿學(xué)習(xí),這是一種除了感知輸入外還使用高級(jí)命令的模擬學(xué)習(xí)[4]。該方法利用城鎮(zhèn)中人類駕駛員記錄的一個(gè)駕駛軌跡數(shù)據(jù)集。Thedataset D = fhoi; ci; aiig consists of tuples, each of which contains anobservation oi, a command ci, and an action ai. 這些命令由駕駛員在數(shù)據(jù)采集過(guò)程中提供,并指示他們的意圖,類似于轉(zhuǎn)向信號(hào)燈。我們使用一組四個(gè)命令:沿車(chē)道行駛(默認(rèn)),在下一個(gè)十字路口直行,在下一個(gè)十字路口左轉(zhuǎn),在下一個(gè)十字路口右轉(zhuǎn)。觀察結(jié)果是來(lái)自前向攝像機(jī)的圖像。為了提高學(xué)習(xí)策略的魯棒性,我們?cè)跀?shù)據(jù)采集過(guò)程中加入了噪聲。
 
我們已經(jīng)收集了大約14個(gè)小時(shí)的駕駛數(shù)據(jù)用于訓(xùn)練。使用Adam優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練[14]。為了提高泛化能力,我們進(jìn)行了數(shù)據(jù)擴(kuò)充和刪除。
 
3.3 強(qiáng)化學(xué)習(xí)
我們的第三種方法是深度強(qiáng)化學(xué)習(xí),它基于環(huán)境提供的獎(jiǎng)勵(lì)信號(hào)訓(xùn)練一個(gè)深度網(wǎng)絡(luò),沒(méi)有人類駕駛軌跡。我們使用A3C[19]。該算法在仿真的三維環(huán)境中表現(xiàn)良好,例如賽車(chē)[19]和三維迷宮中的導(dǎo)航[19,13,5]。該方法的異步特性使多個(gè)線程能夠并行運(yùn)行,這對(duì)于深度強(qiáng)化學(xué)習(xí)的高樣本復(fù)雜度非常重要。
 
我們訓(xùn)練A3C進(jìn)行目標(biāo)導(dǎo)向的導(dǎo)航。在每一次訓(xùn)練中,車(chē)輛必須在拓?fù)湟?guī)劃器的高級(jí)命令指導(dǎo)下達(dá)到目標(biāo)。當(dāng)車(chē)輛到達(dá)目標(biāo)時(shí),當(dāng)車(chē)輛與障礙物相撞時(shí),或當(dāng)時(shí)間預(yù)算用盡時(shí),事件終止。獎(jiǎng)勵(lì)是五項(xiàng)的加權(quán)和:朝目標(biāo)行駛的速度和距離(正加權(quán))、碰撞(負(fù)加權(quán))、與人行道重疊(負(fù)加權(quán))、與對(duì)面車(chē)道重疊(負(fù)加權(quán))。
 
該網(wǎng)絡(luò)使用10個(gè)并行線程進(jìn)行訓(xùn)練,總共進(jìn)行1000萬(wàn)個(gè)simulation steps。因?yàn)榉抡嫠鶐?lái)的計(jì)算成本,我們將訓(xùn)練限制在1000萬(wàn)個(gè)simulation steps。這相當(dāng)于以每秒10幀的速度連續(xù)駕駛12天。
 
4 實(shí)驗(yàn)
我們?cè)u(píng)估了三種方法——模塊化流水線(MP)、模擬學(xué)習(xí)(IL)和強(qiáng)化學(xué)習(xí)(RL),在六種天氣條件下,在兩個(gè)可用城鎮(zhèn)中的每一個(gè)進(jìn)行四項(xiàng)越來(lái)越困難的駕駛?cè)蝿?wù)。我們按照增加難度的順序組織任務(wù)如下:
•直線:目的地位于起點(diǎn)正前方,環(huán)境中沒(méi)有動(dòng)態(tài)對(duì)象。到目標(biāo)的平均行駛距離,Town1為200米,Town 2為100米。
•一個(gè)轉(zhuǎn)彎:目的地離出發(fā)點(diǎn)只有一個(gè)轉(zhuǎn)彎;沒(méi)有動(dòng)態(tài)物體。到目標(biāo)的平均行駛距離, Town1為400米,Town 2為170米。
•導(dǎo)航:不限制目的地相對(duì)于起點(diǎn)的位置,無(wú)動(dòng)態(tài)物體。到目標(biāo)的平均行駛距離, Town1為170米,Town 2為360米。
•存在動(dòng)態(tài)障礙物的導(dǎo)航:與上一個(gè)任務(wù)相同,但使用動(dòng)態(tài)對(duì)象(汽車(chē)和行人)。
 
實(shí)驗(yàn)在兩個(gè)城鎮(zhèn)進(jìn)行。Town1用于培訓(xùn),Town2用于測(cè)試。我們考慮六種天氣條件進(jìn)行實(shí)驗(yàn),分成兩組。訓(xùn)練用的天氣集包括晴天、晴朗的日落、下雨的白天和雨后的白天。測(cè)試集的天氣是訓(xùn)練集不包含的,包括多云的白天和細(xì)雨的日落。
 
對(duì)于一個(gè)任務(wù)、一個(gè)城鎮(zhèn)和一個(gè)天氣集合的每一個(gè)組合,都要進(jìn)行超過(guò)25次的測(cè)試。在每一次測(cè)試中,目標(biāo)是到達(dá)指定的目標(biāo)位置。如果在預(yù)定時(shí)間內(nèi)達(dá)到目標(biāo),則認(rèn)為事件成功。預(yù)定時(shí)間為以10 km/h的速度沿著最佳路徑達(dá)到目標(biāo)所需的時(shí)間。違規(guī)行為:如在人行道上駕駛或產(chǎn)生碰撞,不會(huì)導(dǎo)致事件終止,但會(huì)記錄和報(bào)告。
 
5 結(jié)果
表1報(bào)告了在四種不同情況下成功完成任務(wù)的百分比。
表1 三種自動(dòng)駕駛方法在四種不同情況下成功完成任務(wù)的百分比。
 
表1中的結(jié)果表明了幾個(gè)一般性結(jié)論??偟膩?lái)說(shuō),即使是在最簡(jiǎn)單的直線駕駛?cè)蝿?wù)中,所有方法的性能都不完美,對(duì)于更困難的任務(wù),成功率進(jìn)一步下降。對(duì)新天氣的泛化要比對(duì)一個(gè)新城鎮(zhèn)的泛化容易得多。模塊化流水線和模擬學(xué)習(xí)在大多數(shù)任務(wù)和條件下都能達(dá)到同等水平。強(qiáng)化學(xué)習(xí)相對(duì)于其他兩種方法表現(xiàn)不佳?,F(xiàn)在我們將更詳細(xì)地討論這四個(gè)關(guān)鍵發(fā)現(xiàn)。
 
四項(xiàng)任務(wù)的表現(xiàn)。令人驚訝的是,在訓(xùn)練條件下,即使是在空曠的街道上筆直行駛這一最簡(jiǎn)單的任務(wù),也沒(méi)有一種方法能完美地發(fā)揮作用。我們認(rèn)為,這一現(xiàn)象的根本原因是:輸入的可變性。訓(xùn)練條件包括四種不同的天氣條件。在訓(xùn)練過(guò)程中的精確軌跡不會(huì)在測(cè)試中重現(xiàn)。因此,完美地完成這項(xiàng)任務(wù)需要魯棒的泛化,這對(duì)現(xiàn)有的深度學(xué)習(xí)方法是有挑戰(zhàn)的。
 
對(duì)于更高級(jí)的任務(wù),所有方法的性能都會(huì)下降。在人口稠密的城市環(huán)境中的導(dǎo)航任務(wù),兩種最好的方法(模塊化流水線和模擬學(xué)習(xí))在所有條件下的成功率都低于90%。這些結(jié)果清楚地表明,即使在訓(xùn)練條件下,性能也遠(yuǎn)未達(dá)到飽和,并且在新環(huán)境下的泛化是一個(gè)嚴(yán)重的挑戰(zhàn)。
 
泛化。我們研究?jī)煞N類型的泛化:對(duì)以前沒(méi)遇到的天氣條件和以前沒(méi)遇到的環(huán)境。有趣的是,這兩者的結(jié)果截然不同。對(duì)于模塊化流水線和模擬學(xué)習(xí)來(lái)說(shuō),“新天氣”條件下的性能與訓(xùn)練條件下的性能非常接近,有時(shí)甚至更好。然而,推廣到一個(gè)新城鎮(zhèn)對(duì)這三種方法都提出了挑戰(zhàn)。在兩個(gè)最具挑戰(zhàn)性的導(dǎo)航任務(wù)中,當(dāng)切換到測(cè)試城鎮(zhèn)時(shí),所有方法的性能下降了很多。這種現(xiàn)象可以解釋為這樣一個(gè)事實(shí),即模型已經(jīng)在多種天氣條件下訓(xùn)練,但只在一個(gè)城鎮(zhèn)訓(xùn)練。不同天氣下的訓(xùn)練結(jié)果可以支持對(duì)以前沒(méi)遇到的天氣進(jìn)行泛化,但對(duì)使用不同紋理和3D模型的新城鎮(zhèn)則不適用。通過(guò)在不同的環(huán)境中進(jìn)行訓(xùn)練,這個(gè)問(wèn)題可能會(huì)得到改善??偟膩?lái)說(shuō),我們的結(jié)果強(qiáng)調(diào)了泛化對(duì)基于學(xué)習(xí)的感覺(jué)運(yùn)動(dòng)控制方法的重要性。
 
模塊化流水線vs端到端學(xué)習(xí)。分析模塊化流水線和模擬學(xué)習(xí)方法的相對(duì)性能具有一定的指導(dǎo)意義。令人驚訝的是,在大多數(shù)測(cè)試條件下,這兩種系統(tǒng)的性能非常接近:這兩種方法的性能相差不到10%。這個(gè)結(jié)論有兩個(gè)例外:一是模塊化流水線在“新天氣”條件下比在訓(xùn)練條件下表現(xiàn)更好。這是由于訓(xùn)練和測(cè)試天氣的特定選擇:感知系統(tǒng)恰好在測(cè)試天氣下表現(xiàn)更好。另一個(gè)是,模塊化流水線在“新城鎮(zhèn)”條件下的導(dǎo)航任務(wù)表現(xiàn)不佳,在“新城鎮(zhèn)和新天氣”下的直線任務(wù)表現(xiàn)不佳。這是因?yàn)楦兄惴ㄔ谛颅h(huán)境的復(fù)雜天氣條件下系統(tǒng)性地失效。如果感知算法無(wú)法可靠地找到可駕駛路徑,則基于規(guī)則的規(guī)劃器和經(jīng)典控制器將無(wú)法以一致的方式導(dǎo)航到目的地。因此,如果感知算法正常工作,整個(gè)系統(tǒng)工作正常;否則它將完全失敗。從這個(gè)意義上說(shuō),模塊化流水線比端到端方法更脆弱。
 
模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)。我們現(xiàn)在對(duì)比兩個(gè)端到端訓(xùn)練系統(tǒng)的表現(xiàn):模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。在所有任務(wù)中,強(qiáng)化學(xué)習(xí)訓(xùn)練的表現(xiàn)都比模仿學(xué)習(xí)的要差。盡管如此,強(qiáng)化學(xué)習(xí)的訓(xùn)練使用的數(shù)據(jù)量要大得多:強(qiáng)化學(xué)習(xí)的數(shù)據(jù)是駕駛12天的,而模仿學(xué)習(xí)的僅是14小時(shí)的。為什么這一次強(qiáng)化學(xué)習(xí)表現(xiàn)不佳,而在Atari游戲[18,19]和迷宮導(dǎo)航[19,5]等任務(wù)上取得了很好的成績(jī)?一個(gè)原因是眾所周知強(qiáng)化學(xué)習(xí)是脆弱的[12],并且it is common to perform extensivetask-specific hyperparameter search,例如Mnih等人報(bào)告的每個(gè)環(huán)境50次試驗(yàn)[19] 。當(dāng)使用模擬器時(shí),這種extensive hyperparameter search變得不可行。我們根據(jù)文獻(xiàn)證據(jù)和迷宮導(dǎo)航的探索性實(shí)驗(yàn)選擇hyperparameters。另一種解釋是,城市駕駛比以前用強(qiáng)化學(xué)習(xí)解決的大多數(shù)任務(wù)更困難。例如,與迷宮導(dǎo)航相比,在駕駛場(chǎng)景中必須處理混亂動(dòng)態(tài)環(huán)境中的車(chē)輛動(dòng)態(tài)和更復(fù)雜的視覺(jué)感知。最后,強(qiáng)化學(xué)習(xí)泛化能力差的原因可能是:與模擬學(xué)習(xí)相比,強(qiáng)化學(xué)習(xí)的訓(xùn)練沒(méi)有數(shù)據(jù)擴(kuò)充或規(guī)則化。
 
違規(guī)分析。CARLA支持駕駛策略的細(xì)粒度分析。現(xiàn)在,我們將研究三個(gè)系統(tǒng)在最困難的任務(wù)上的行為:存在動(dòng)態(tài)對(duì)象的導(dǎo)航。我們通過(guò)以下五種違規(guī)行為中任意兩種行為之間的平均行駛距離來(lái)評(píng)價(jià)這三個(gè)系統(tǒng):在相反車(chē)道上行駛、在人行道上行駛、與其他車(chē)輛相撞、與行人相撞和撞擊靜止物體。
 
表2報(bào)告了兩次違規(guī)之間的平均行駛距離(以公里為單位)。所有的方法在訓(xùn)練中都表現(xiàn)得更好。在所有情況下,模仿學(xué)習(xí)最不常進(jìn)入相反車(chē)道,而強(qiáng)化學(xué)習(xí)在該指標(biāo)中最差。令人驚訝的是,強(qiáng)化學(xué)習(xí)與行人碰撞的次數(shù)最少,這可以解釋為這種碰撞所產(chǎn)生的巨大的負(fù)回報(bào)。然而,強(qiáng)化學(xué)習(xí)在避免與汽車(chē)和靜態(tài)物體的碰撞方面并不成功,而模塊化流水線通常在這方面表現(xiàn)最好。
表2 兩次違規(guī)之間的平均行駛距離(以公里為單位)
 
6 結(jié)論
我們介紹了CARLA,一個(gè)開(kāi)源的自動(dòng)駕駛模擬器。除了開(kāi)源代碼和協(xié)議外,CARLA還提供了專門(mén)為此目的創(chuàng)建的數(shù)字資產(chǎn),并且可以自由復(fù)用。我們利用CARLA的仿真引擎和內(nèi)容來(lái)測(cè)試三種自主駕駛方法:經(jīng)典的模塊化流水線、通過(guò)模擬學(xué)習(xí)進(jìn)行端到端訓(xùn)練的深度網(wǎng)絡(luò)以及通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的深度網(wǎng)絡(luò)。CARLA為我們提供了對(duì)自動(dòng)駕駛系統(tǒng)進(jìn)行開(kāi)發(fā)和訓(xùn)練的工具,然后在受控場(chǎng)景中對(duì)其進(jìn)行評(píng)估。我們希望CARLA能夠幫助大家積極參與自動(dòng)駕駛駕駛研究。模擬器和相關(guān)資產(chǎn)將在http://carla.org
 
 
  
 
 
分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25