日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

用于虛擬里程測(cè)試的NPC 模型生成方法

2025-07-16 09:17:44·  來(lái)源:汽車測(cè)試網(wǎng)  
 

智能汽車是汽車?電子?信息通信?道路交通運(yùn)輸?shù)刃袠I(yè)深度融合的新型產(chǎn)業(yè)形態(tài)?當(dāng)前, 我國(guó)智能汽車產(chǎn)業(yè)進(jìn)入快車道, 技術(shù)創(chuàng)新日益活躍, 新型應(yīng)用蓬勃發(fā)展, 產(chǎn)業(yè)規(guī)模不斷擴(kuò)大,而相應(yīng)的測(cè)試技術(shù)體系也在不斷完善, 推動(dòng)產(chǎn)業(yè)進(jìn)步?本書首先立足于整體現(xiàn)狀對(duì)智能汽車測(cè)試體系架構(gòu)進(jìn)行綜述, 并針對(duì)測(cè)試技術(shù)的發(fā)展趨勢(shì)和整個(gè)核心技術(shù)進(jìn)行詳細(xì)描述;然后, 針對(duì)測(cè)試體系中每一測(cè)試過(guò)程的概念?核心思想?關(guān)鍵技術(shù)?測(cè)試方法?發(fā)展趨勢(shì)等進(jìn)行詳細(xì)描述?

注:本文節(jié)選自《智能汽車測(cè)試技術(shù)》第五章節(jié),由機(jī)械工業(yè)出版社于2025年6月份出版


本書可供智能汽車設(shè)計(jì)人員及測(cè)試人員閱讀使用, 也可供車輛工程專業(yè)及相關(guān)專業(yè)師生閱讀參考?點(diǎn)擊下方鏈接直播購(gòu)買此書。


https://mp.weixin.qq.com/s/MlQwkx8HzGRqa4meVhUteQ

《智能汽車測(cè)試技術(shù)》目錄 

第1 章

導(dǎo)論

1.1 背景與需求/ 001

1.2 基本概念/ 003

1.2.1 測(cè)試與評(píng)價(jià)的基本概念/ 003

1.2.2 產(chǎn)品全生命周期中的測(cè)評(píng)技術(shù)/ 004

1.3 現(xiàn)狀與挑戰(zhàn)/ 005

1.4 本書章節(jié)安排/ 006

第2 章

智能汽車

測(cè)評(píng)概述

 2.1 測(cè)評(píng)需求分析/ 009

2.1.1 安全性測(cè)試與驗(yàn)證/ 009

2.1.2 智能性測(cè)試與評(píng)價(jià)/ 012

2.2 測(cè)試方法論/ 015

2.2.1 安全性測(cè)試驗(yàn)證框架/ 015

2.2.2 智能性測(cè)試評(píng)估框架和體系/ 017

2.3 測(cè)試工具鏈及應(yīng)用要求/ 023

2.3.1 測(cè)試工具鏈/ 023

2.3.2 測(cè)試需求與測(cè)試工具的適配性/ 027

2.4 本章小結(jié)/ 029

參考文獻(xiàn)/ 030

第3 章

智能汽車

測(cè)試場(chǎng)景

3.1 場(chǎng)景基本概念/ 031

3.2 場(chǎng)景體系/ 033

3.2.1 場(chǎng)景要素與屬性/ 033

3.2.2 場(chǎng)景層級(jí)/ 035

3.2.3 場(chǎng)景分類/ 036

3.3 場(chǎng)景生成方法/ 037

3.3.1 基于形式化描述的場(chǎng)景生成方法/ 037

3.3.2 基于駕駛員模型的場(chǎng)景生成方法/ 040

3.3.3 安全關(guān)鍵場(chǎng)景生成方法/ 048

3.4 場(chǎng)景采集與利用/ 051

3.4.1 場(chǎng)景采集技術(shù)/ 051

3.4.2 場(chǎng)景庫(kù)搭建/ 052

3.5 本章小結(jié)/ 052

參考文獻(xiàn)/ 053

第4 章

環(huán)境感知

系統(tǒng)的測(cè)試

技術(shù)與方法

4.1 環(huán)境感知系統(tǒng)測(cè)試需求分析/ 055

4.2 環(huán)境感知系統(tǒng)介紹/ 057

4.2.1 感知系統(tǒng)/ 057

4.2.2 硬件模組/ 058

4.2.3 認(rèn)知算法/ 058

4.3 環(huán)境感知系統(tǒng)測(cè)試技術(shù)框架/ 059

4.4 各類感知環(huán)境介紹/ 060

4.4.1 封閉場(chǎng)地環(huán)境/ 060

4.4.2 道路交通環(huán)境/ 064

4.4.3 虛擬仿真環(huán)境/ 066

4.5 數(shù)據(jù)生成模型介紹/ 069

4.5.1 降雨圖像生成方法概述/ 070

4.5.2 降雨圖像生成模型介紹/ 071

4.5.3 降雨圖像生成模型結(jié)果/ 075

4.6 具體測(cè)試案例/ 076

4.6.1 案例一:基于封閉場(chǎng)地環(huán)境的感知系統(tǒng)測(cè)試/ 076

4.6.2 案例二:基于虛擬仿真環(huán)境的硬件模組測(cè)試/ 078

4.6.3 案例三:基于虛擬仿真環(huán)境的感知系統(tǒng)測(cè)試/ 081

4.6.4 案例四:基于三類感知環(huán)境和數(shù)據(jù)生成模型的

認(rèn)知算法測(cè)試/ 083

4.7 本章小結(jié)/ 086

參考文獻(xiàn)/ 087

第5 章

決策規(guī)劃

系統(tǒng)的測(cè)試

技術(shù)與方法

 5.1 決策規(guī)劃系統(tǒng)的測(cè)試需求與挑戰(zhàn)/ 089

5.1.1 測(cè)試需求/ 089

5.1.2 測(cè)試挑戰(zhàn)/ 090

5.2 基于場(chǎng)景的測(cè)試技術(shù)與方法/ 092

5.2.1 靜態(tài)試驗(yàn)設(shè)計(jì)測(cè)試方法/ 092

5.2.2 動(dòng)態(tài)試驗(yàn)設(shè)計(jì)測(cè)試方法/ 094

5.3 基于真實(shí)里程的測(cè)試技術(shù)與方法/ 101

5.3.1 開放道路測(cè)試技術(shù)/ 101

5.3.2 重要度采樣加速測(cè)試方法/ 103

5.4 基于虛擬里程的測(cè)試技術(shù)與方法/ 104

5.4.1 虛擬里程測(cè)試系統(tǒng)組成框架/ 105

5.4.2 用于虛擬里程測(cè)試的NPC 模型生成方法/ 106

5.4.3 用于虛擬里程測(cè)試的NPC 模型性能驗(yàn)證/ 113

5.4.4 虛擬里程測(cè)試的應(yīng)用/ 118

5.4.5 小結(jié)/ 130

5.5 其他測(cè)試技術(shù)/ 131

5.5.1 自動(dòng)化測(cè)試技術(shù)/ 131

5.5.2 錯(cuò)誤注入測(cè)試技術(shù)/ 139

5.5.3 分布式自動(dòng)化測(cè)試技術(shù)/ 152

5.6 本章小結(jié)/ 157

參考文獻(xiàn)/ 157

第6 章

整車測(cè)試

技術(shù)與方法

6.1 整車測(cè)評(píng)需求分析/ 159

6.2 封閉測(cè)試場(chǎng)地平臺(tái)/ 160

6.2.1 封閉測(cè)試場(chǎng)/ 160

6.2.2 動(dòng)態(tài)模擬目標(biāo)物系統(tǒng)/ 162

6.2.3 定位與數(shù)據(jù)采集系統(tǒng)/ 163

6.3 開放道路測(cè)試系統(tǒng)/ 164

6.3.1 測(cè)試方案制定/ 165

6.3.2 數(shù)據(jù)采集與數(shù)據(jù)閉環(huán)系統(tǒng)/ 165

6.4 本章小結(jié)/ 166

第7 章

智能汽車

安全性評(píng)估

7.1 基于具體場(chǎng)景的安全性評(píng)估/ 169

7.1.1 場(chǎng)景瞬時(shí)風(fēng)險(xiǎn)評(píng)估方法/ 170

7.1.2 多階段安全評(píng)估/ 180

7.1.3 單個(gè)測(cè)試場(chǎng)景結(jié)果外推/ 181

7.2 基于邏輯場(chǎng)景的安全性評(píng)估/ 182

7.2.1 評(píng)估要求/ 182

7.2.2 面向邏輯場(chǎng)景評(píng)價(jià)的危險(xiǎn)域識(shí)別方法/ 183

7.3 針對(duì)被測(cè)功能的安全性評(píng)估/ 192

7.4 本章小結(jié)/ 192

參考文獻(xiàn)/ 193

第8 章

智能汽車

綜合行駛

性能評(píng)估

 8.1 測(cè)評(píng)需求與研究現(xiàn)狀/ 195

8.1.1 測(cè)評(píng)需求/ 195

8.1.2 研究現(xiàn)狀/ 195

8.2 測(cè)評(píng)基本流程/ 197

8.3 典型測(cè)試場(chǎng)景矩陣/ 198

8.4 測(cè)試方法與流程/ 199

8.4.1 測(cè)試方案/ 199

8.4.2 背景車跟馳模型/ 199

8.4.3 測(cè)試數(shù)據(jù)輸出/ 201

8.5 評(píng)價(jià)方法與流程/ 202

8.5.1 評(píng)價(jià)體系/ 202

8.5.2 評(píng)價(jià)流程/ 204

8.6 測(cè)評(píng)示例/ 206

8.7 本章小結(jié)/ 209

參考文獻(xiàn)/ 209

附 錄

附錄A 測(cè)試工況參數(shù)設(shè)置/ 210

附錄B 背景車跟馳模型/ 212

附錄C 歸一化方法/ 214

附錄D 常見縮寫詞/ 216


用于虛擬里程測(cè)試的NPC 模型生成方法

虛擬里程測(cè)試的測(cè)試性主要來(lái)源于被測(cè)系統(tǒng)與背景車輛的交互, 用于背景車行為決策的NPC 模型的性能直接決定了虛擬里程測(cè)試的效果。因此需要通過(guò)合理的模型生成方法完成NPC 模型的構(gòu)建, 使其具備真實(shí)性、測(cè)試性等性能,從而保證虛擬里程測(cè)試系統(tǒng)的測(cè)試效果。

能夠用于NPC 模型構(gòu)建的方法有很多, 可以通過(guò)規(guī)則或效用函數(shù)構(gòu)建模型, 也可以采用模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等機(jī)器學(xué)習(xí)方法, 采用不同方法生成的模型可以根據(jù)其行為能力進(jìn)行分級(jí)?;谝?guī)則的駕駛員模型以及各類模型的分級(jí)方法已經(jīng)在本書的3.3.2 節(jié)中進(jìn)行了介紹, 在本節(jié)中將對(duì)機(jī)器學(xué)習(xí)方法中的強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)進(jìn)行簡(jiǎn)單的介紹, 并對(duì)各類方法的優(yōu)劣勢(shì)進(jìn)行簡(jiǎn)單分析。

1 . 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)問(wèn)題可以簡(jiǎn)述為, 通過(guò)獎(jiǎng)勵(lì)函數(shù)設(shè)定目標(biāo)讓智能體在環(huán)境中進(jìn)行策

略優(yōu)化, 使得執(zhí)行策略獲得的長(zhǎng)期獎(jiǎng)勵(lì)值達(dá)到最優(yōu)。在虛擬里程測(cè)試系統(tǒng)的NPC模型訓(xùn)練過(guò)程中, NPC 模型即為被訓(xùn)練的智能體, 其首先對(duì)環(huán)境進(jìn)行觀測(cè), 獲得當(dāng)前觀測(cè)狀態(tài)si , 然后根據(jù)當(dāng)前策略選定并執(zhí)行動(dòng)作ai , 并計(jì)算獎(jiǎng)勵(lì)ri 反饋給智能體, 最后根據(jù)獎(jiǎng)勵(lì)對(duì)智能體策略進(jìn)行更新, 使得策略收斂到接近最優(yōu), 如圖5 -18 所示。這一過(guò)程可以用公式表示為

圖片

圖片

圖5 -18 強(qiáng)化學(xué)習(xí)框架

式中,k為訓(xùn)練過(guò)程中的迭代步數(shù);γ為獎(jiǎng)勵(lì)折扣因子;rk為第k步迭代獲得的獎(jiǎng)勵(lì)值。

獎(jiǎng)勵(lì)函數(shù)是根據(jù)模型的訓(xùn)練目標(biāo)進(jìn)行設(shè)計(jì)的,反映了模型所具有的目標(biāo)特征。而用于強(qiáng)化學(xué)習(xí)模型訓(xùn)練的數(shù)據(jù)來(lái)自訓(xùn)練過(guò)程自身,因此其對(duì)數(shù)據(jù)的依賴性很低。在用于訓(xùn)練的數(shù)據(jù)中,模型行為的評(píng)價(jià)是通過(guò)對(duì)獎(jiǎng)勵(lì)函數(shù)的計(jì)算進(jìn)行的,因此模型的性能與獎(jiǎng)勵(lì)函數(shù)的設(shè)定緊密相關(guān),具有較強(qiáng)的可解釋性。然而由于僅采用獎(jiǎng)勵(lì)函數(shù)的設(shè)定較難覆蓋所有駕駛工況,無(wú)法對(duì)駕駛行為進(jìn)行100%還原,因此采用強(qiáng)化學(xué)習(xí)方法生成的駕駛員模型在真實(shí)性上的表現(xiàn)相對(duì)較差。

根據(jù)訓(xùn)練環(huán)境和獎(jiǎng)勵(lì)函數(shù)的設(shè)置不同,強(qiáng)化學(xué)習(xí)生成的模型又可以分為對(duì)抗模型和非對(duì)抗模型,二者在模型特征上具備一定的區(qū)別。

(1)對(duì)抗模型

NPC模型與SUT的交互是關(guān)鍵場(chǎng)景的生成來(lái)源,而其中NPC模型的對(duì)抗性行為可以提升交互過(guò)程中關(guān)鍵場(chǎng)景的出現(xiàn)概率。為了提升關(guān)鍵場(chǎng)景的生成效率,通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練NPC模型時(shí),可以對(duì)模型的對(duì)抗行為進(jìn)行訓(xùn)練,獲得的模型可以稱為對(duì)抗模型。

通常通過(guò)對(duì)訓(xùn)練環(huán)境和獎(jiǎng)勵(lì)函數(shù)進(jìn)行對(duì)抗性設(shè)定以獲取對(duì)抗模型。在訓(xùn)練對(duì)抗模型時(shí),通常將SUT接入訓(xùn)練環(huán)境中進(jìn)行訓(xùn)練,使得在訓(xùn)練過(guò)程中就存在NPC模型和SUT的交互行為;在獎(jiǎng)勵(lì)函數(shù)上,通過(guò)設(shè)定與模型對(duì)抗相關(guān)的獎(jiǎng)勵(lì)函數(shù),對(duì)與關(guān)鍵場(chǎng)景生成相關(guān)的對(duì)抗行為給予正獎(jiǎng)勵(lì)反饋,會(huì)使得NPC模型有更大的概率選擇這部分對(duì)抗行為,從而提升虛擬里程測(cè)試過(guò)程中背景車與SUT對(duì)抗行為的出現(xiàn)概率,加速關(guān)鍵場(chǎng)景的生成。

根據(jù)上述內(nèi)容可知,由于對(duì)抗性設(shè)定的存在,對(duì)抗模型在測(cè)試性上的表現(xiàn)最好;但由于訓(xùn)練時(shí)在訓(xùn)練環(huán)境和獎(jiǎng)勵(lì)函數(shù)的設(shè)定具有一定的局限性,因此對(duì)抗模型在真實(shí)性和演化性的表現(xiàn)上相對(duì)較差,部分模型可能只在特定場(chǎng)景下具有較好的測(cè)試效果。

對(duì)基于強(qiáng)化學(xué)習(xí)的對(duì)抗模型,代表性的研究見表5-3。

表5-3 強(qiáng)化學(xué)習(xí)對(duì)抗模型論文


圖片圖片 (2)非對(duì)抗模型


通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練NPC模型時(shí),如果獎(jiǎng)勵(lì)函數(shù)中只包含對(duì)模型自身駕駛特性的獎(jiǎng)勵(lì),且訓(xùn)練環(huán)境中不包含SUT,則在進(jìn)行仿真時(shí)此類模型與SUT的對(duì)抗特性較弱,可以把這類模型叫作非對(duì)抗模型。

此類模型在訓(xùn)練過(guò)程中不存在與SUT的交互,在模型訓(xùn)練完成后再接入SUT進(jìn)行在環(huán)仿真測(cè)試,獎(jiǎng)勵(lì)函數(shù)也不會(huì)對(duì)于車輛之間的對(duì)抗行為給予正獎(jiǎng)勵(lì),因此其在決策時(shí)只會(huì)考慮自車的行駛特征收益。在訓(xùn)練時(shí)自車行駛特征通??梢园ǜ?、換道行為的真實(shí)性,以及自車對(duì)于行駛空間的追求程度等信息,所有的獎(jiǎng)勵(lì)都是服務(wù)于自車的行駛能力,所以通常模型具有很強(qiáng)的演化性和一定的真實(shí)性,能夠在多種道路拓?fù)浜筒煌瑘?chǎng)景中表現(xiàn)出良好的適應(yīng)性;而由于沒(méi)有對(duì)抗性的特殊設(shè)定,因此其作為背景車時(shí)的測(cè)試能力通常不夠強(qiáng)。

對(duì)于非對(duì)抗模型,可以對(duì)其特性進(jìn)行差異化設(shè)計(jì),獲取具有異質(zhì)特性的模型。由于人類的操縱決定了其駕駛車輛的行駛特征,因此不同駕駛員的駕駛特征存在差異。異質(zhì)化的駕駛員模型設(shè)定可以更好地模擬真實(shí)交通環(huán)境,并可以通過(guò)修改模型占比,提升虛擬里程測(cè)試系統(tǒng)的測(cè)試效果。

從駕駛風(fēng)格上,可以將模型分為普通型、保守型、激進(jìn)型。對(duì)于保守型駕駛員模型,通常代表駕駛能力較弱、駕駛經(jīng)驗(yàn)欠缺的駕駛員,該類駕駛員較少做出換道或急加減速等動(dòng)作。激進(jìn)型駕駛員模型通常是造成危險(xiǎn)場(chǎng)景的原因,因此受到了較多研究者的關(guān)注。該類駕駛員模型通常傾向于做出有一定風(fēng)險(xiǎn)性的駕駛行為,具有較高的平均車速、平均加速度和較短的跟車車頭間距;高頻的急加/減速和換道動(dòng)作。

從交互屬性上,可以將模型分為中立型、合作型、競(jìng)爭(zhēng)型。對(duì)于中立型駕駛員模型,只關(guān)注自車的行駛收益,因此建模目標(biāo)只包含對(duì)自身行駛質(zhì)量的量化指標(biāo)。合作型駕駛員模型在關(guān)注自身行駛收益的前提下,會(huì)考慮可視范圍內(nèi)其他車輛的行駛收益,以體現(xiàn)合作特性。競(jìng)爭(zhēng)型駕駛員模型在關(guān)注自身行駛收益的前提下,會(huì)壓縮周圍其他車輛的行駛收益,以體現(xiàn)競(jìng)爭(zhēng)特性。

對(duì)基于強(qiáng)化學(xué)習(xí)的非對(duì)抗模型,代表性的研究見表5-4。

表5-4 強(qiáng)化學(xué)習(xí)非對(duì)抗模型論文


圖片


2. 模仿學(xué)習(xí)

模仿學(xué)習(xí)(ImitationLearning),顧名思義,就是要通過(guò)訓(xùn)練讓模型學(xué)習(xí)專家數(shù)據(jù)的動(dòng)作,使得模型能夠面對(duì)環(huán)境狀態(tài)輸入做出與人類駕駛員相似的動(dòng)作,從而達(dá)到模仿的目的。在難以設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),但具備專家示范數(shù)據(jù)的訓(xùn)練場(chǎng)景下,采用模仿學(xué)習(xí)的方法通??梢垣@得較好的NPC模型訓(xùn)練效果。

常見的模仿學(xué)習(xí)方法主要有兩種:行為克隆(BehaviorCloning)和逆強(qiáng)化學(xué)習(xí)(InverseReinforcementLearning,IRL)。行為克隆是一種直接從專家數(shù)據(jù)中學(xué)習(xí)策略模型的方法;而逆強(qiáng)化學(xué)習(xí)從專家數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)背后隱含的獎(jiǎng)勵(lì)函數(shù)(RewardFunction),并根據(jù)獎(jiǎng)勵(lì)函數(shù)來(lái)訓(xùn)練最優(yōu)的駕駛策略,這是兩種方法的主要區(qū)別。

(1)行為克隆

采用行為克隆方法進(jìn)行訓(xùn)練時(shí),專家數(shù)據(jù)通常會(huì)被以“狀態(tài)-動(dòng)作”對(duì)的形式進(jìn)行輸入。其中狀態(tài)通常為NPC模型周圍的環(huán)境觀測(cè)信息,作為模型的輸入信息。在NPC模型根據(jù)狀態(tài)做出決策之后,決策結(jié)果會(huì)與專家數(shù)據(jù)中的動(dòng)作信息共同輸入到損失函數(shù)中,并通過(guò)策略梯度更新策略模型,從而不斷逼近損失函數(shù)的最小值,實(shí)現(xiàn)模型決策對(duì)專家數(shù)據(jù)的“克隆”。

圖片

式中,π為訓(xùn)練的NPC模型策;θ為策略參數(shù);s和a分別為專家數(shù)據(jù)中的狀態(tài)和動(dòng)作信息;loss為損失函數(shù)。通過(guò)對(duì)比策略π對(duì)狀態(tài)s的輸出動(dòng)作和專家數(shù)據(jù)中的動(dòng)作a之間的差異,對(duì)策略不斷進(jìn)行更新,從而使得損失函數(shù)達(dá)到最小值。

由于訓(xùn)練數(shù)據(jù)完全來(lái)自輸入的專家數(shù)據(jù),因此行為克隆能夠很好地學(xué)習(xí)到專家數(shù)據(jù)的行為,生成的模型具備很好的真實(shí)性;且由于數(shù)據(jù)均為訓(xùn)練前處理好的,因此在訓(xùn)練過(guò)程中不再需要收集和處理數(shù)據(jù)的工作,生成效率較高。但這項(xiàng)特征也同時(shí)導(dǎo)致了其演化性和測(cè)試性差的特點(diǎn):一旦模型遇到?jīng)]有經(jīng)過(guò)專家數(shù)據(jù)訓(xùn)練的狀態(tài),將可能會(huì)做出不安全的駕駛行為;與關(guān)鍵場(chǎng)景生成相關(guān)駕駛行為的專家數(shù)據(jù)也很難獲取,因此訓(xùn)練獲取的模型用于測(cè)試的效果通常欠佳。

對(duì)于行為克隆訓(xùn)練生成NPC模型,代表性的研究見表5-5。

表5-5 行為克隆模型論文


圖片


(2)逆強(qiáng)化學(xué)習(xí)

逆強(qiáng)化學(xué)習(xí)也是一種典型的模仿學(xué)習(xí)方法,其學(xué)習(xí)過(guò)程與強(qiáng)化學(xué)習(xí)利用獎(jiǎng)勵(lì)函數(shù)訓(xùn)練策略相反,不需要對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行設(shè)計(jì),而是通過(guò)對(duì)專家數(shù)據(jù)的學(xué)習(xí)獲取一個(gè)獎(jiǎng)勵(lì)函數(shù),并可以進(jìn)而利用獎(jiǎng)勵(lì)函數(shù)對(duì)NPC模型進(jìn)行訓(xùn)練。

IRL的基本準(zhǔn)則是:通過(guò)迭代獎(jiǎng)勵(lì)函數(shù)R來(lái)優(yōu)化策略,并且使得任何不同于專家數(shù)據(jù)策略πE的動(dòng)作決策a∈A\aE都盡可能產(chǎn)生更大損失,從而實(shí)現(xiàn)對(duì)專家數(shù)據(jù)的最大化模仿。該準(zhǔn)則用公式可以表示為

圖片

但采用上述方法時(shí),如果需要在學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)的同時(shí)獲取NPC模型,還需要使用強(qiáng)化學(xué)習(xí)對(duì)模型進(jìn)行訓(xùn)練優(yōu)化,這要求迭代優(yōu)化獎(jiǎng)勵(lì)函數(shù)的內(nèi)循環(huán)中解決一個(gè)馬爾可夫決策過(guò)程(MarkovDecisionProcess,MDP)的問(wèn)題,會(huì)帶來(lái)極大的時(shí)間消耗成本。

對(duì)抗逆強(qiáng)化學(xué)習(xí)(AdversarialInverseReinforcementLearning,AIRL)算法中引入了對(duì)抗生成網(wǎng)絡(luò)(GenerativeAdversarialNetwork,GAN),能夠有效提升訓(xùn)練效率。該算法背后的基本概念是同時(shí)訓(xùn)練代表駕駛員模型策略的生成器和學(xué)習(xí)目標(biāo)獎(jiǎng)勵(lì)函數(shù)的判別器,當(dāng)輸入的狀態(tài)-動(dòng)作對(duì)更有可能來(lái)自專家數(shù)據(jù)演示時(shí),判別器會(huì)給予策略模型更高的獎(jiǎng)勵(lì)。AIRL算法能夠在判別器和生成器進(jìn)行對(duì)抗的過(guò)程中達(dá)到博弈均衡,從而同時(shí)完成對(duì)兩個(gè)網(wǎng)絡(luò)的訓(xùn)練并達(dá)到相互統(tǒng)一,在時(shí)間效率和訓(xùn)練效果上得到顯著提升。

在AIRL中,判別器是其中最關(guān)鍵的組成部分,通??梢詫⑴袆e器表達(dá)成

圖片

經(jīng)過(guò)AIRL的訓(xùn)練,可以在獲得與專家數(shù)據(jù)相符的獎(jiǎng)勵(lì)函數(shù)的同時(shí),獲得一個(gè)經(jīng)過(guò)充分訓(xùn)練的NPC模型,有效提升訓(xùn)練效率。

與行為克隆相同,由于訓(xùn)練數(shù)據(jù)中存在專家數(shù)據(jù),因此IRL方法訓(xùn)練的模型能夠很好地學(xué)習(xí)到專家數(shù)據(jù)的行為,生成的模型具備很好的真實(shí)性,且由于對(duì)抗生成網(wǎng)絡(luò)的存在,其真實(shí)性通常比行為克隆還略高一些。此外,除了專家數(shù)據(jù),IRL也會(huì)利用仿真過(guò)程中生成的數(shù)據(jù)進(jìn)行訓(xùn)練,因此數(shù)據(jù)量高于行為克隆,具備較強(qiáng)的演化性。但I(xiàn)RL由于其訓(xùn)練過(guò)程較復(fù)雜,所以模型生成效率在幾種方法中是最低的;而且訓(xùn)練過(guò)程中沒(méi)有對(duì)抗性設(shè)定,測(cè)試性也相對(duì)較低。

對(duì)于IRL訓(xùn)練生成NPC模型,代表性的研究見表5-6。

表5-6 逆強(qiáng)化學(xué)習(xí)模型論文


圖片


3. 方法對(duì)比

從真實(shí)性、測(cè)試性、演化性、進(jìn)化性、生成效率五個(gè)維度對(duì)常見的NPC模型生成方法進(jìn)行對(duì)比分析,分析結(jié)果如圖5-19所示。


圖片


圖5 -19 不同模型構(gòu)建方法特性對(duì)比

總體來(lái)看,強(qiáng)化學(xué)習(xí)和逆強(qiáng)化學(xué)習(xí)在各個(gè)維度上的表現(xiàn)都相對(duì)較為均衡,是比較理想的NPC模型構(gòu)建方法。強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)在于具有最強(qiáng)的演化性;逆強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)在于可以較好地還原出人類駕駛員的駕駛行為,具有最強(qiáng)的真實(shí)性。IDM等基于規(guī)則或效用函數(shù)的模型生成場(chǎng)景的不確定性較低,模擬車輛特征的真實(shí)性有限,現(xiàn)在常作為其他方法的對(duì)比基準(zhǔn)。

4. 模型生成示例

下面以基于強(qiáng)化學(xué)習(xí)的模型生成為例,展示NPC模型的具體生成方法和流程。

在NPC模型設(shè)計(jì)階段,首先根據(jù)不同的交互屬性,對(duì)模型的特征進(jìn)行定義。對(duì)于交互屬性,選擇前面所述的中立型、合作型、競(jìng)爭(zhēng)型模型作為設(shè)計(jì)目標(biāo)。對(duì)于中立型模型,只關(guān)注自車的行駛收益,在進(jìn)行建模時(shí),將自身的行駛收益目標(biāo)量化為:①無(wú)碰撞行駛;②最大化可行駛區(qū)域;③最大化行駛速度。對(duì)于合作型和競(jìng)爭(zhēng)型模型,其考慮的周圍車輛包括后觀測(cè)空間內(nèi)的所有車輛。對(duì)于合作型模型,在中立型對(duì)自車行駛收益的考慮之外,還要最大化后觀測(cè)空間所有車輛的平均速度,以此體現(xiàn)模型的合作特性。對(duì)于競(jìng)爭(zhēng)型模型,還要最小化后觀測(cè)空間所有車輛的平均速度,以此體現(xiàn)模型的競(jìng)爭(zhēng)特性。NPC模型的設(shè)計(jì)方案如圖5-20所示。


圖片

圖5 -20 NPC 模型的設(shè)計(jì)方案


完成模型設(shè)計(jì)之后,根據(jù)設(shè)計(jì)目標(biāo),需要對(duì)模型訓(xùn)練使用的獎(jiǎng)勵(lì)函數(shù)進(jìn)行設(shè)計(jì)。對(duì)于中立型、合作型、競(jìng)爭(zhēng)型NPC模型的設(shè)計(jì),獎(jiǎng)勵(lì)函數(shù)可以統(tǒng)一設(shè)計(jì)為

圖片

式中,R為獎(jiǎng)勵(lì)的計(jì)算結(jié)果;C、S、V分別對(duì)應(yīng)自車的三項(xiàng)行駛收益反饋;A對(duì)應(yīng)合作型和競(jìng)爭(zhēng)型模型對(duì)周圍車輛收益影響效果的不同獎(jiǎng)勵(lì)反饋。

在完成獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)后,采用強(qiáng)化學(xué)習(xí)的方法完成對(duì)NPC模型的訓(xùn)練?;贏ctor?Critic架構(gòu)的深度強(qiáng)化學(xué)習(xí)(DeepReinforcementLearning,DRL)是當(dāng)前常用的強(qiáng)化學(xué)習(xí)方法,Actor?Critic框架中有Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)兩個(gè)部分,其中Actor網(wǎng)絡(luò)可以對(duì)高維、連續(xù)動(dòng)作空間中的動(dòng)作進(jìn)行選取,Critic網(wǎng)絡(luò)用于對(duì)動(dòng)作的價(jià)值進(jìn)行判斷,可以單步更新,更新訓(xùn)練速度更快、學(xué)習(xí)效率更高。在這種方法中,神經(jīng)網(wǎng)絡(luò)作為強(qiáng)大的非線性表達(dá)單元被引入強(qiáng)化學(xué)習(xí)算法中,更適用于駕駛員模型的訓(xùn)練。在本書的示例中,采用了雙延遲深度確定性策略梯度(TwinDelayedDeepDeterministicPolicyGradient,TD3)算法進(jìn)行模型訓(xùn)練,TD3算法是一種常用的強(qiáng)化學(xué)習(xí)算法,其算法流程圖如圖5-21所示。


圖片


圖5-21 基于Actor-Critic架構(gòu)的TD3算法流程圖


本書首先立足于整體現(xiàn)狀對(duì)智能汽車測(cè)試體系架構(gòu)進(jìn)行綜述, 并針對(duì)測(cè)試技術(shù)的發(fā)展趨勢(shì)和整個(gè)核心技術(shù)進(jìn)行詳細(xì)描述;然后, 針對(duì)測(cè)試體系中每一測(cè)試過(guò)程的概念、核心思想、關(guān)鍵技術(shù)、測(cè)試方法、發(fā)展趨勢(shì)等進(jìn)行詳細(xì)描述。

本書可供智能汽車設(shè)計(jì)人員及測(cè)試人員閱讀使用, 也可供車輛工程專業(yè)及相關(guān)專業(yè)師生閱讀參考。


點(diǎn)擊以下鏈接購(gòu)買https://mp.weixin.qq.com/s/MlQwkx8HzGRqa4meVhUteQ


作者簡(jiǎn)介:

陳君毅,2009年畢業(yè)于同濟(jì)大學(xué)汽車學(xué)院,獲工學(xué)博士學(xué)位,任職于同濟(jì)大學(xué)汽車學(xué)院?長(zhǎng)期從事自動(dòng)駕駛汽車測(cè)試與評(píng)價(jià)方向研究工作,先后主持和參與國(guó)家級(jí)?省部級(jí)項(xiàng)目共11項(xiàng),并與華為?路特斯?上汽大眾?蔚來(lái)等企業(yè)開展了深度校企合作研究?近5年,在國(guó)內(nèi)外學(xué)術(shù)期刊和國(guó)際會(huì)議上共發(fā)表SCI/EI檢索論文近30篇,其中以第一作者或及通訊作者發(fā)表的為20余篇;申請(qǐng)發(fā)明專利30余項(xiàng)(已授權(quán)7項(xiàng))?擔(dān)任SAE汽車安全和網(wǎng)絡(luò)安全技術(shù)委員會(huì)秘書?功能安全和預(yù)期功能安全分委會(huì)主席;是自動(dòng)駕駛測(cè)試場(chǎng)景國(guó)際標(biāo)準(zhǔn)(ISO3450X)支撐專家組成員,以及CAICV聯(lián)盟預(yù)期功能安全工作組核心成員;擔(dān)任《汽車工程》和《汽車工程學(xué)報(bào)》青年編委委員,IEEE Transactions on Intelligent Vehicles?Proceedings of the Institution of Mechanical Engineers, Part D: Journal of Automobile Engineering?《中國(guó)公路學(xué)報(bào)》?《汽車工程》?IEEE Intelligent Transportation Systems Conference?IEEE Intelligent Vehicles Symposium等國(guó)內(nèi)外期刊和國(guó)際會(huì)議審稿人,曾于多項(xiàng)國(guó)際學(xué)術(shù)會(huì)議擔(dān)任分論壇主席?

版權(quán)信息:

智能汽車測(cè)試技術(shù) / 陳君毅等著. -- 北京 : 機(jī)械工業(yè)出版社, 2025. 5. -- (智能汽車關(guān)鍵技術(shù)叢書).ISBN 978-7-111-77871-4 Ⅰ. U467 中國(guó)國(guó)家版本館CIP數(shù)據(jù)核字第2025X8D229號(hào)

本書由機(jī)械工業(yè)出版社出版,本文經(jīng)出版方授權(quán)發(fā)布。 

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25