日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

前沿 | 車道變換場景下自動車輛的對抗性評估

2021-10-29 20:22:13·  來源:軒轅實驗室  
 
本文來自實驗室符永樂的研究成果和學(xué)習(xí)筆記車道變換場景下自動車輛的對抗性評估參閱論文:「Adversarial Evaluation of Autonomous Vehicles in Lane-Change Sce
本文來自實驗室符永樂的研究成果和學(xué)習(xí)筆記

車道變換場景下自動車輛的對抗性評估
 
參閱論文:「Adversarial evaluation of Autonomous Vehicles in Lane-Change Scenarios」
 
「摘要」:自動駕駛汽車在部署在城市和高速公路之前必須進行綜合評估。然而,大多數(shù)現(xiàn)有的自動駕駛汽車評估方法是靜態(tài)的并且缺乏適應(yīng)性,因此它們通常在為測試車輛生成具有挑戰(zhàn)性的場景方面效率低下?!冈诒疚闹?,作者提出了一個自適應(yīng)評估框架,以在深度強化學(xué)習(xí)生成的對抗性環(huán)境中有效地評估自動駕駛汽車」??紤]到危險場景的多模態(tài)性質(zhì),我們使用集成模型來表示多樣性的不同局部最優(yōu)值。然后我們使用非參數(shù)貝葉斯方法對對抗策略進行聚類。所提出的方法在涉及自我車輛與周圍車輛之間頻繁交互的典型換道場景中得到驗證。結(jié)果表明,我們的方法產(chǎn)生的對抗性場景顯著降低了測試車輛的性能。我們還說明了生成的對抗環(huán)境的不同模式,可用于推斷測試車輛的弱點。
 
「關(guān)鍵詞」—自動駕駛汽車、車輛評估、強化學(xué)習(xí)、無監(jiān)督學(xué)習(xí)。
 
第一章 概述介紹
 
自動駕駛汽車通常被認為是減少未來交通中交通事故的一種有前途的方法,因為它們可以避免可能導(dǎo)致致命事故的人類駕駛員的不合理行為。然而,如何在復(fù)雜環(huán)境中開發(fā)安全的自動駕駛系統(tǒng)仍然是一個懸而未決的問題 。
 
提高自動駕駛汽車安全性的一項基本程序是在部署前進行系統(tǒng)評估。業(yè)內(nèi)最流行的方法是基于數(shù)據(jù)的方法,稱為「自然現(xiàn)場操作測試」 (N-FOT) 。N-FOT的原理是在自然交通環(huán)境中測試自動駕駛汽車,這些環(huán)境是由配備傳感器的車輛長時間收集的駕駛數(shù)據(jù)重建的。這種方法的一個限制是效率低下,因為在自然環(huán)境中風(fēng)險場景很少見。根據(jù)美國國家公路交通安全管理局 (NHTSA) 的數(shù)據(jù),2018 年美國有 6,734,000 起警方報告的機動車交通事故和 33,654 起致命事故,而車輛行駛的總距離為 32375 億英里 ,這使得每次碰撞的平均距離為 48 萬英里,每次致命碰撞的平均距離為 9620 萬英里。風(fēng)險事件的罕見性使得評估過程非常緩慢,即使在模擬中。
 
N-FOT 的另一個弱點是它通常是靜態(tài)的,這意味著測試環(huán)境的分布是固定的,不能根據(jù)被測試車輛的行為而演變。在這種情況下,評估不僅效率低下而且不完整——如果某些風(fēng)險場景模式從未出現(xiàn)在數(shù)據(jù)集中,它們將在評估過程中被忽略。換句話說,評估結(jié)果嚴重依賴于交通數(shù)據(jù)集的完整性,這是非常難以驗證的?!改M測試的方法弊端顯著,非常依賴風(fēng)險場景數(shù)據(jù)集的完整性,但往往這類數(shù)據(jù)庫很難完善」
 
近年來,已經(jīng)提出了幾種方法來提高 N-FOT 的效率。趙[7]等人,引入了交叉熵方法的重要性采樣技術(shù)來加速換道場景中的評估過程。在保持準確性的同時,評估速度比模擬中的自然駕駛測試快 2,000 到 20,000 倍。馮等人,[8] 提出了一種用于測試場景生成的自適應(yīng)框架。從貝葉斯的角度來看,他們根據(jù)被測車輛的行為迭代更新風(fēng)險場景的分布。他們還利用探索策略來模擬看不見的場景。然而,這些方法仍然嚴重依賴初始數(shù)據(jù)集。此外,他們專注于生成初始條件,而不是對自我車輛與其周圍車輛之間的時序交互進行建模。
 
生成風(fēng)險環(huán)境的另一個有希望的方向是通過對抗性學(xué)習(xí),它最近已被廣泛用于開發(fā)強大的智能 。例如,Pinto 等人, [10] 提出了魯棒對抗強化學(xué)習(xí) (RARL) 來訓(xùn)練最佳對抗代理,以對零和游戲中的干擾進行建模。李等人, [11] 將適當(dāng)?shù)慕普_(PAC)學(xué)習(xí)用于智力測試。丁等人,[12], [13] 利用基于學(xué)習(xí)的方法來生成安全關(guān)鍵場景。班薩爾等人, [14] 提出一個高能力的代理需要足夠復(fù)雜的訓(xùn)練環(huán)境。然而,直接將現(xiàn)有的對抗學(xué)習(xí)算法應(yīng)用于自動駕駛汽車的評估會存在問題。一個問題是在交通場景中,自我車輛與其周圍的車輛不完全競爭,這打破了交通交互的「零和假設(shè)」。此外,大多數(shù)當(dāng)前方法僅搜索最佳對抗環(huán)境,這是低效的,因為需要各種風(fēng)險模式來測試自動駕駛代理的魯棒性。據(jù)我們所知,對抗性學(xué)習(xí)框架尚未完全用于評估自動駕駛汽車。
 
為了解決上述挑戰(zhàn),作者構(gòu)建了一個自適應(yīng)框架,使用深度強化學(xué)習(xí)來為測試車輛生成對抗性環(huán)境。具體來說,將環(huán)境車輛視為試圖干擾被測車輛的對手,并為其時序決策訓(xùn)練對抗策略。通過這種方式,旨在找到被測車輛的弱點并學(xué)習(xí)如何利用這些弱點。為了更好地模擬自我車輛和環(huán)境車輛之間的混合合作和競爭交互,首先設(shè)計了基于領(lǐng)域知識和交通規(guī)則的「非零和獎勵函數(shù)」,并將場景制定為「馬爾可夫決策過程 (MDP)」。然后,在訓(xùn)練階段,利用集成強化學(xué)習(xí)來收集生成多樣性的對抗策略的局部最優(yōu)值。訓(xùn)練后,使用非參數(shù)貝葉斯方法對生成的風(fēng)險場景進行聚類,因為潛在局部最優(yōu)值的數(shù)量是未知的。當(dāng)前主流評估方法與所提出方法的比較如圖1所示。
 
本篇論文的主要貢獻可總結(jié)為如下幾點:
  • 建立了一個有效的自適應(yīng)框架,以生成時間順序的對抗環(huán)境,用于評估自動駕駛汽車。
  • 設(shè)計了非零和獎勵函數(shù)來模擬自我車輛與環(huán)境車輛之間的混合合作與競爭互動。
  • 利用集成訓(xùn)練來收集各種風(fēng)險場景,并使用非參數(shù)貝葉斯方法對其進行聚類。
  • 一個典型的變道場景被用來評估提出的框架。結(jié)果表明,對抗性環(huán)境顯著提高了基于規(guī)則和基于學(xué)習(xí)的變道模型的碰撞率。
第二章 變道場景
 
以換道場景為例說明了所提出的對抗評估方法的優(yōu)越性。我們選擇變道場景有幾個原因。首先,2010 - 2017年的交通事故數(shù)據(jù)顯示,突然變道事故約占嚴重交通事故的17.0%,其次是超速事故(12.8%)和追尾事故(11.2%),表明變道機動是造成交通事故的最主要原因之一。此外,自動變道是一種頻繁的駕駛動作,被認為是自動駕駛的一項重要且具有挑戰(zhàn)性的任務(wù),近年來受到了學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。此外,它是微觀交通模擬的重要組成部分,對這些模型[18]的分析結(jié)果有相當(dāng)大的影響。綜上所述,我們認為評價自動駕駛汽車的變道行為是一個重要的課題。
我們使用如圖2所示的典型變道場景。在這個場景中有四輛車,包括三輛周圍的車(跟隨車、引導(dǎo)車和目標車)和一輛試圖左變道的自我車。此外,我們簡化了環(huán)境,假設(shè)只有自我車輛在變道時進行橫向運動,而其他三輛環(huán)境車輛在車道上直線行駛,這是文獻[19],[20]中常用的設(shè)置。車道寬度為3.2米,車輛寬度為1.85米,長度為4.83米。這些數(shù)據(jù)稍后將用于碰撞檢測。
 
為了生成模擬真實交通的真實場景,我們使用了安全試驗?zāi)P筒渴?SPMD)計劃[21]發(fā)布的自然數(shù)據(jù)庫中的指導(dǎo)。SPMD項目記錄了密歇根州安阿伯市2842輛裝備車輛兩年多的自然駕駛數(shù)據(jù)。安裝在車輛上的MobilEye攝像機提供了自我車輛和前面車輛之間的相對距離。相對速度是根據(jù)時間差計算的。
我們使用「SPMD數(shù)據(jù)庫」(上一段提到的兩年多來多輛車輛所收集的自然駕駛數(shù)據(jù))來幫助設(shè)置每次試驗的初始條件。首先,從數(shù)據(jù)庫計算得到的經(jīng)驗分布中采樣自我車輛和引導(dǎo)車輛之間的初始縱向距離(圖3)。然后,跟隨車輛和目標車輛之間的縱向距離從相同的分布中采樣。由于數(shù)據(jù)集中沒有提供自我車輛和跟隨車輛之間的縱向距離,因此將其設(shè)置為服從于高斯分布:~μ,σ,其中μ和σ。自我車輛和目標車輛之間的縱向距離就等于。四輛車在場景中的初始速度均服從于高斯分布:~μ,σ。其中μσ。
 
基于上述初始設(shè)置,換道實驗可以被描述為一個情景式游戲。自我車輛試圖在限定的距離和時間完成內(nèi)「左變道」。參照NHTSA[22]發(fā)布的測試協(xié)議,如果自我車輛的整個車身都在目標的左車道上,則判斷變道成功(不發(fā)生任何事故意外)。
基于智能駕駛員模型(IDM)來控制周圍車輛的初始縱向行為。在IDM的條件下,車輛α的縱向加速度為
 
本文中IDM所用參數(shù)的描述和取值如表所示。
 
第三章 對抗性評估方法
 
在本章中介紹了提出的對抗性評估框架。為了評估自動駕駛代理,我們首先生成對抗環(huán)境,在這個環(huán)境中,周圍的車輛(對手)試圖阻止自我車輛完成任務(wù)。然后,我們對生成的環(huán)境進行聚類,并為測試自我車輛提供風(fēng)險模式。提出的對抗性評價方法可以大大加快和補充傳統(tǒng)的評價方法。
「A」.對抗性環(huán)境生成
 
自動駕駛系統(tǒng)的開發(fā)和評估通?;谧匀粩?shù)據(jù)。然
  • 是狀態(tài)空間(state space)
  • 是自我車輛的行動空間(action space)
  • 是場景中其他對抗車輛的行動空間(adversaries)
  • :即物理環(huán)境的狀態(tài)轉(zhuǎn)移概率(動態(tài)特性)
  • and 是自我車輛和周圍車輛的即時獎勵

 
馬爾可夫決策(MDP)資料:
1.百度百科
2.CSDN博客

 
在馬爾可夫博弈中,每個代理i力求使用策略π最大化它們的總預(yù)期收益γ,其中是時間
從對手的角度來看,自我車輛可以被視為環(huán)境的一一部分,然后馬爾可夫博弈便退化成為了馬爾可夫決策過程。在這里,我們將多個對手視為一個單一的代理,這意味著他們共享相同的獎勵功能,并完全合作來挑戰(zhàn)自我車輛。多虧了V2X基礎(chǔ)設(shè)施(vehicle to everything),這一假設(shè)在智能交通系統(tǒng)中是可以實現(xiàn)的。
強化學(xué)習(xí)是解決MDP和為學(xué)習(xí)代理尋找最優(yōu)或次優(yōu)策略的強大工具。具體而言,「深度確定性策略梯度」(DDPG)已被廣泛用于求解具有連續(xù)動作空間的MDP。許多研究人員還將其用于開發(fā)自動駕駛代理。因此,在本文中,我們還使用DDPG來訓(xùn)練對手并生成風(fēng)險場景。然而,連續(xù)控制任務(wù)的其他算法也直接適用于我們的框架。DDPG具有actor-critic體系結(jié)構(gòu)。其中的「actor」 μθμ是一個參數(shù)化函數(shù),用于指定當(dāng)前策略,該策略確定的將狀態(tài)映射到指定的操作?!竎ritic」 是一個動作值函數(shù),它描述了在狀態(tài)下采取了行動能夠獲得的遵循策略μ的預(yù)期獎勵。

 
DDPG資料:
1.知乎博客
2.簡書博客(Actor-critic算法原理)
3.知乎博客(Actor-critic算法原理)

 
「critic」在基于貝爾曼方程的Q學(xué)習(xí)之后更新??紤]
θ
參數(shù)化的函數(shù)逼近器,通過最小化損失對批評者進行優(yōu)化:
其中:
這里面,β表示不同的行為策略,表示狀態(tài)分布。這表明Q-學(xué)習(xí)是一種非策略算法。因此,可以使用經(jīng)驗重放緩沖區(qū)來消除時間相關(guān)性并提高采樣效率。
「actor」通過遵循策略梯度進行更新:為了是更新能夠穩(wěn)定迭代,需要創(chuàng)建一個actor和critic網(wǎng)絡(luò)的副本:μθμ和θ。這些目標網(wǎng)絡(luò)的參數(shù)將緩慢更新以跟蹤學(xué)習(xí)模型:θτθτθ
獎勵函數(shù)是一個重要部分,直接決定敵方車輛的行為。以往的對抗性學(xué)習(xí)研究通常假設(shè)游戲是零和游戲(即上文提到的你死我活),其中對手和自我主體的獎勵功能是相反的。
其中,是自我車輛的駕駛性能表現(xiàn)。然而,將這種獎勵函數(shù)直接應(yīng)用于對手會導(dǎo)致不合理的行為。例如,周圍車輛可能會學(xué)習(xí)直接沖向ego車輛并造成碰撞,從而降低ego車輛的駕駛性能。這些不合理的情況對于自動駕駛汽車的評估并不是很有用,因為它們在現(xiàn)實世界中不太可能經(jīng)常發(fā)生。因此,為了產(chǎn)生更合理的風(fēng)險場景,我們放松了零和假設(shè),并在對抗性獎勵函數(shù)中添加了另一個項:
β
其中,是對違反交通規(guī)則的懲罰,防止對手失去理智做出不合理的舉動。β是一個超參數(shù),它決定了環(huán)境車輛的合理性。通過這種增強改進過的獎勵函數(shù),環(huán)境中的敵對車輛將在遵守交通規(guī)則的同時試圖干擾自我車輛。實驗部分將介紹獎勵函數(shù)的具體設(shè)置。
目前大多數(shù)強化學(xué)習(xí)算法的目標是為學(xué)習(xí)主體尋找全局最優(yōu)策略。為了避免陷入局部最優(yōu),他們通常會花費大量的計算精力進行探索。然而,這一原則對于生成不同的對抗場景來說效率低下。對于自動駕駛車輛的評估,我們傾向于收集不同的局部最優(yōu)值,因為它們可能代表測試車輛的各種弱點。因此,為了提高效率和多樣性,我們在本文中采用了局部最優(yōu),而不是避免局部最優(yōu)。我們提出了用于局部最優(yōu)解的集成DDPG(算法1)。我們不是訓(xùn)練一個代理,而是隨機初始化「actor」和「critic」。為了快速收斂到局部最優(yōu),省略了探索。對于每個代理(agent),如果已經(jīng)達到了局部最優(yōu)或者是一個連續(xù)事件的累積獎勵γ已經(jīng)達到某個邊界「c」我們則會停止訓(xùn)練,這表明已經(jīng)為測試的車輛找到了具有挑戰(zhàn)性的環(huán)境。
 
B.環(huán)境聚類
 
訓(xùn)練后,集合中的每個引導(dǎo)都可以代表測試車輛的一種風(fēng)險場景。然而,其中一些可能代表類似的場景。為了更好地從集合中提取不同類型的對手,我們建議對訓(xùn)練結(jié)果進行無監(jiān)督聚類。
學(xué)習(xí)的敵對策略μθμ的直接聚類是不可行的,因為它們是高維的深層神經(jīng)網(wǎng)絡(luò)。受到產(chǎn)生的對抗性模仿學(xué)習(xí)的啟發(fā),我們通過它們產(chǎn)生的狀態(tài)分布來對不同的策略進行聚類,這些狀態(tài)分布由蒙特卡洛抽樣逼近。其中,表示自我車輛處于第i個對抗性情景中的狀態(tài)分布。
另一個技術(shù)問題是,我們不知道集群的明確數(shù)量。傳統(tǒng)的機器學(xué)習(xí)模型通常需要通過超參數(shù)明確選擇模型容量。例如,在交通仿真中廣泛使用的K-Means聚類中,聚類的個數(shù)必須是先驗的,這在本文中是沒有的。為了解決這個問題,我們求助于貝葉斯非參數(shù)模型,它可以從數(shù)據(jù)中自動推斷模型的復(fù)雜性。具體來說,我們考慮了DP-Means,一個典型的Dirichlet過程混合模型,它導(dǎo)致了一個類似于K-Means目標[37]的硬聚類算法。DP-Means在圖像、地質(zhì)數(shù)據(jù)、生物數(shù)據(jù)、音樂等數(shù)據(jù)的聚類中得到了廣泛的應(yīng)用。與K-Means相比,DP-Means聚類允許任意數(shù)量的聚類。為了使用DP-Means,我們必須首先找到一個合適的超參數(shù)λ,它表示不同簇之間的近似距離。我們用[37]中提出的啟發(fā)式方法尋找它:給定期望的簇的近似數(shù)目,我們首先用的平均分布初始化一個集合T。然后,迭代添加具有距離集合T最遠的分布。重復(fù)此次,并將λ設(shè)置為最后一輪的最大距離。為了計算兩個分布的距離,我們使用「Jensen-Shannon」散度:
其中,以及是KL散度:
然后利用λ和距離函數(shù),利用DP-Means對對抗性環(huán)境進行聚類。環(huán)境聚類的整體算法如算法2所示。聚類過程完成后,可以提取被測車輛的對抗模式。

 
 

第四章 模擬
 
本文采用CARLA進行仿真。CARLA是一個用于自動駕駛研究的開源模擬器。它提供了現(xiàn)實的車輛動力學(xué)模型,并支持靈活的傳感器配置和場景生成。我們在CARLA中構(gòu)建的變道場景如圖4所示,其中共有四輛車:一輛被測試的自我車,三輛對抗車,分別是跟隨車、領(lǐng)導(dǎo)車和目標車。我們使用這個仿真環(huán)境來證明所提出的對抗性評估方法的有效性。
 
A.自我車輛變道控制器
 
本文建立了兩種典型的變道模型進行評價。一種是傳統(tǒng)的基于規(guī)則的gap接受模型,另一種是通過強化學(xué)習(xí)進行訓(xùn)練。我們將這兩個變道模型分別表示為和。
1)「可接受間隙模型」(Gap Acceptance Model):可接受間隙模型是大多數(shù)變道模型中的一個重要概念。在實施變道前,駕駛員評估目標車輛和跟隨車輛在目標車道上的位置和速度(如圖2所示),判斷兩者之間的距離是否足以進行變道行為。自我車輛和領(lǐng)先車輛之間的前方距離對于避免正面碰撞也是至關(guān)重要的。在[41]和SPMD數(shù)據(jù)庫的基礎(chǔ)上,建立了可接受間隙變道模型。
2)「強化學(xué)習(xí)模型」(Reinfocement Learning Model):強化學(xué)習(xí)可能是開發(fā)具有進化學(xué)習(xí)能力的自動駕駛汽車的強大工具,這是未來自動駕駛的一個重要特征。然而,端到端強化學(xué)習(xí)需要較長的時間才能收斂到最優(yōu)策略。對于自主駕駛來說,開發(fā)一個層次框架是一種很好的方法,其中強化學(xué)習(xí)僅用于高層決策部分,而運動規(guī)劃和控制部分采用硬編碼開發(fā)。具體而言,本文在決策部分使用深度Q-learning來決定是否開始變道。通過最優(yōu)格規(guī)劃器生成所需的變道軌跡,通過模型預(yù)測控制器實現(xiàn)車輛的縱向和橫向控制。
訓(xùn)練過程中的成功率和碰撞率如圖5所示。因為是基于規(guī)則的模型,所以它具有靜態(tài)性能。經(jīng)過500輪的訓(xùn)練后,也收斂到了一個穩(wěn)定的模型。兩種模型在自然環(huán)境下的換道成功率均高于99%,是一種可靠的換道模型。然而,這也表明,在這些自然環(huán)境中直接評價他們將是低效的。接下來,我們將為他們生成對抗場景,并測試他們在這些具有挑戰(zhàn)性的環(huán)境中的表現(xiàn)。
 
B.對抗性的馬爾可夫決策過程設(shè)置
 
如第三節(jié)所述,DDPG用于訓(xùn)練自我車輛的對抗環(huán)境。我們首先介紹了變道MDP和DDPG代理的設(shè)置。
MDP的狀態(tài)空間是一個9維向量空間:,其中為對抗車輛與自我車輛的距離,為車輛的速度,φ為自我車輛的偏航角,為自我車輛的橫向位置。由于這是一個近場場景,我們假設(shè)所有參與者都對狀態(tài)信息有完美的觀察情況。
敵對車輛只有縱向的運動,所以說敵對車輛的狀態(tài)空間A是一個三維向量:。a是一個取值范圍在內(nèi)的浮點數(shù),+1和-1分別代表著滿油狀態(tài)和全剎車狀態(tài)。因為DDPG已經(jīng)可以處理連續(xù)的動作空間,所以不需要離散化。
對抗代理的獎勵機制是β,如第三節(jié)A部分中所介紹。其中,是自我車輛的獎勵函數(shù),應(yīng)表明它的駕駛表現(xiàn)。在變道場景中,
車輛代理完成變道任務(wù)可獲得獎勵,相對的如果發(fā)生碰撞,則會獲得懲罰。速度項(也就是上方公式中的)提供了一個密集的獎勵用于鼓勵自我車輛開的更快一些。對對抗車輛來說,如果不顧交通規(guī)則,則,規(guī)則允許的情況下行駛,則。我們將β設(shè)置為默認值,并且會在后面的部分介紹它的影響。
C.對抗訓(xùn)練的結(jié)果
 
通過算法1和算法2,我們分別使用了和兩種模型訓(xùn)練了對抗代理。用于訓(xùn)練的超參數(shù)如表2所示。
 
DDPG中使用的「actor」模型是一個三層全連接神經(jīng)網(wǎng)絡(luò),隱含單元數(shù)為:[64,64,3]。激活函數(shù)為前兩層的ReLU和輸出層的Tanh,從而得到輸出?!竎ritic」模型是一個具有隱藏單元數(shù)的四層全連接神經(jīng)網(wǎng)絡(luò)[64,64,32,1]。激活函數(shù)為前三層的ReLU和輸出層的Identity。每個變道模型的集合尺寸是100,也就是說我們分別使用和兩種模型訓(xùn)練100個對抗代理。
在圖6中展示了4組學(xué)習(xí)曲線,其中表現(xiàn)代表了對抗代理所獲得的情景累積獎勵。根據(jù)該圖,當(dāng)停止訓(xùn)練時,集合中的每個引導(dǎo)對抗策略都已轉(zhuǎn)換為穩(wěn)定模型,這表明他們已成功地按計劃找到局部最優(yōu)。此外,不同的收斂表現(xiàn)表明對手已經(jīng)學(xué)會了不同的方式來挑戰(zhàn)自我車輛。我們將在后面的部分中對它們進行聚類并說明生成的風(fēng)險場景。
 
圖6中一個有趣的觀察結(jié)果是,對手對基于規(guī)則的模型的性能低于對基于學(xué)習(xí)的模型。也就是說,與相比,對對抗性挑戰(zhàn)更具魯棒性。為了更好地說明這一點,我們使用所有學(xué)習(xí)到的敵對策略運行蒙特卡羅模擬,并在圖7中繪制成功率和崩潰率的直方圖。
 
這清楚地表明,兩種換道模式在敵對環(huán)境中的成功率都很低。然而,基于碰撞率,是比更安全的控制器。結(jié)果表明,在大多數(shù)對抗場景中,能夠浸在與對抗車輛的對抗之中,而則未能保持安全而發(fā)成了碰撞事件。結(jié)果并不意外:基于規(guī)則的模型是基于人類知識經(jīng)驗構(gòu)建的,因此,它對看不見的環(huán)境更加健壯。相反,基于學(xué)習(xí)的模型只在自然場景中訓(xùn)練,因此很難推廣到對抗性代理產(chǎn)生的風(fēng)險更大的場景。
最后,我們在圖8中比較了和在自然環(huán)境和對抗環(huán)境中的總體性能。很明顯,生成的對抗性環(huán)境會顯著降低和的性能。特別是對于來說,在自然環(huán)境中的99.2%成功率,而在對抗環(huán)境中則變成了90.6%的碰撞率,這是一個災(zāi)難性的變化。
D.聚類與可視化
 
在本節(jié)中,將重點關(guān)注前一節(jié)中介紹的統(tǒng)計結(jié)果的聚類和可視化。由于原始狀態(tài)空間是9維的,因此我們使用主成分分析進行降維以實現(xiàn)可視化。自然場景和生成的對抗場景的簡化二維狀態(tài)分布如圖9所示。
 
基于這些直方圖,生成的對抗分布(圖9b,9c)比自然分布(圖9a)要窄得多。此外,在大多數(shù)情況下,對抗性分布集中于自然分布所罕見的狀態(tài)。鑒于性能的統(tǒng)計結(jié)果,與自然分布相比,對抗分布也代表了更危險的場景。因此,這些數(shù)字清楚地表明,我們的方法可以有效地找到評估自主車輛的罕見風(fēng)險場景。從這個意義上說,我們的方法可以看作是在高維策略空間中的一種高效搜索算法。
接下來,我們將和生成的對抗模式可視化,如圖10所示。
 
對來說,大多數(shù)模式中的對手都已經(jīng)學(xué)會了在自我車輛前面進行阻攔來阻止成功的變道行為,如圖10a所示。當(dāng)跟車試圖最小化換道間隙時,阻攔通常由先導(dǎo)車輛和目標車輛完成。面對這些挑戰(zhàn),基于規(guī)則的車道變換模型能夠在大多數(shù)實驗中避免碰撞,但變道的成功率較低,為7.1%,如圖8所示。
對來說,對抗性場景如圖10b所示。自我車輛的行為有時候太過于強勢而導(dǎo)致和目標車輛或者引導(dǎo)車輛發(fā)生碰撞。它也可能過于保守以至于沒有使用安全的變道空間。自我車輛的不一致不可預(yù)測行為可以通過生成的對抗環(huán)境與圖9所示的訓(xùn)練環(huán)境之間的不匹配來解釋:自我車輛無法處理在訓(xùn)練過程中從未出現(xiàn)過的對抗場景。因此,對抗代理很容易利用的規(guī)則,從而導(dǎo)致了90.6%的車禍率。
E.獎勵結(jié)構(gòu)的影響
 
在這個部分主要討論超參數(shù)β的影響,它在對抗獎勵函數(shù)結(jié)構(gòu)中扮演了一個重要的角色:β,其中代表了自我車輛的駕駛表現(xiàn),而是對違反交通規(guī)則的懲罰。設(shè)定了這個懲罰機制,環(huán)境中的敵對車輛就會盡可能的遵守交通規(guī)則。
車禍率隨著β的變化的變化如統(tǒng)計結(jié)果圖11。
 
根據(jù)結(jié)果,車禍率隨著β的提升而下降,當(dāng)β取到一個比較小的值「0.1」時車禍率非常高。這是一個比較合理的結(jié)果,β代表對抗車輛的合理性:β值很小,對抗性代理將盡其所能制造碰撞,而不考慮交通法規(guī)。為了更好地說明這一點,我們比較了圖12中不同β的典型場景。當(dāng)β時,跟隨車輛(粉色)學(xué)會突然加速并沖向自我車輛進行碰撞,即使它是負責(zé)此次事故的車輛。因此,可以通過調(diào)節(jié)β來控制環(huán)境車輛的合理性。在本文中,我們設(shè)置β,因為我們發(fā)現(xiàn)它能夠產(chǎn)生既不太激進也不太保守的各種對抗行為(數(shù)值比較適中,不會造成車輛太過于極端)。然而,對獎勵函數(shù)配置進行更深入的研究是有潛在價值的。
第六章 結(jié)論
 
在本文中,我們提出了一個對抗的框架來評估自動駕駛汽車的效率。仿真結(jié)果表明,對抗性環(huán)境會顯著降低基于規(guī)則和基于學(xué)習(xí)的變道模型的性能。因此,該方法可以作為一種很有前景的方法來補充現(xiàn)有的自動駕駛汽車評估框架。
從對抗評估中提取出的弱點指導(dǎo)自主駕駛策略的改進是未來一個很有前景的方向。更現(xiàn)實的假設(shè),如部分可觀察的狀態(tài),觀察信號的丟失,和人類的情緒,也可以加入,以豐富這個框架。 

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25