日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

綜述-圖強(qiáng)化學(xué)習(xí)在混合自動(dòng)化交通中的協(xié)同決策應(yīng)用

2022-11-24 20:57:36·  來(lái)源:計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
論文“Graph Reinforcement Learning Application to Co-operative Decision-Making in Mixed Autonomy Traffic: Framework, Survey, and Challenges“,作者來(lái)自北理工、德國(guó)德累斯頓大學(xué)、新加坡南洋理工和瑞士ETH。智能網(wǎng)聯(lián)車(CAV)的正常運(yùn)行對(duì)于未來(lái)智

論文“Graph Reinforcement Learning Application to Co-operative Decision-Making in Mixed Autonomy Traffic: framework, Survey, and Challenges“,作者來(lái)自北理工、德國(guó)德累斯頓大學(xué)、新加坡南洋理工和瑞士ETH。

智能網(wǎng)聯(lián)車(CAV)的正常運(yùn)行對(duì)于未來(lái)智能運(yùn)輸系統(tǒng)的安全和效率至關(guān)重要。同時(shí),過渡到全自動(dòng)駕駛之前需要長(zhǎng)時(shí)間的混合自動(dòng)化交通,包括CAV(AV)和人類駕駛車輛(HV)。因此,CAV的協(xié)同決策,對(duì)于生成適當(dāng)?shù)鸟{駛行為,和提高混合自動(dòng)化交通的安全性和效率,是至關(guān)重要的。近年來(lái),深度強(qiáng)化學(xué)習(xí)(DRL)被廣泛應(yīng)用于解決決策問題。然而,現(xiàn)有的基于DRL的方法主要集中于解決單個(gè)CAV的決策。

在混合自動(dòng)化交通中,現(xiàn)有的基于DRL的方法不能準(zhǔn)確地表示車輛的交互影響以及對(duì)動(dòng)態(tài)交通環(huán)境進(jìn)行建模。為了解決這些缺點(diǎn),本文提出一種用于混合自動(dòng)化交通中CAV的多智體決策的圖強(qiáng)化學(xué)習(xí)(GRL)方法。首先,設(shè)計(jì)了通用的模塊化GRL框架。然后,對(duì)DRL和GRL方法進(jìn)行了系統(tǒng)綜述,重點(diǎn)介紹了最近研究遇到的問題。此外,基于所設(shè)計(jì)的框架,進(jìn)一步對(duì)不同的GRL方法進(jìn)行比較研究,驗(yàn)證GRL方法的有效性。結(jié)果表明,與DRL方法相比,GRL方法可以很好地優(yōu)化CAV在混合自動(dòng)化交通中的多智體決策性能。最后,總結(jié)挑戰(zhàn)和未來(lái)的研究方向。

源代碼下載可以在https://github.com/Jacklinkk/GraphCAV。


伯克利分校的開源軟件Flow是一個(gè)基于DRL的混合自動(dòng)化交通框架,它充當(dāng)交通模擬器(例如Sumo和Aimsun)和RL庫(kù)之間的接口。Flow框架不僅提供典型的交通場(chǎng)景,還為RL算法的開發(fā)和驗(yàn)證創(chuàng)建幾個(gè)基準(zhǔn);它還支持道路網(wǎng)絡(luò)文件(例如OpenStreetMap)的導(dǎo)入操作,模擬真實(shí)世界條件下的交通操作。

基于GRL的方法的主要特征可以概括如下:1)將混合自動(dòng)化交通建模為圖架構(gòu)。特別地,車輛被視為圖節(jié)點(diǎn),而車輛的交互被視為圖邊。2) 采用GNN進(jìn)行特征提??;提取的特征被饋送到策略網(wǎng)絡(luò)以生成CAV的駕駛行為。許多研究用基于GRL的方法來(lái)生成協(xié)作行為。

圖片

根據(jù)輸出水平,駕駛行為可分為兩類:高級(jí)行為和低級(jí)控制命令。高級(jí)行為主要包括并線、超車和車道保持,而低級(jí)控制命令包括各種車輛控制方向的速度和加速度等。駕駛行為表現(xiàn)為一個(gè)動(dòng)作空間,可分為離散動(dòng)作空間和連續(xù)動(dòng)作空間。

高級(jí)行為只能表示為離散的行為空間;而低級(jí)控制命令可以表示為離散的動(dòng)作空間。DRL模塊的不同策略生成方法,生成不同的行動(dòng)空間,進(jìn)而生成不同類別的駕駛行為。

連續(xù)動(dòng)作空間由控制命令的特定值組成。例如,在高速公路場(chǎng)景中,連續(xù)動(dòng)作空間可以定義為a = [at,t] ,其中at表示縱向加速度,t表示轉(zhuǎn)向角。使用多維(或一維)向量對(duì)連續(xù)動(dòng)作空間進(jìn)行編碼,其中每個(gè)編碼位置表示控制命令??刂泼钔ǔ1幌拗圃谀硞€(gè)數(shù)值范圍內(nèi),并且控制命令的特定值基于所采用的控制策略而定。連續(xù)動(dòng)作空間可以以一定粒度離散化,但在這種情況下,必須考慮控制精度和動(dòng)作空間維度之間的權(quán)衡。

GRL模塊包含兩個(gè)子模塊:GNN模塊和DRL模塊。該模型使用圖特征作為輸入,輸出策略作為動(dòng)作選擇的基礎(chǔ)。

圖片

不同類型的DRL方法產(chǎn)生不同的駕駛策略類別。DRL方法可分為基于價(jià)值的方法和基于策略的方法?;趦r(jià)值的方法僅適用于離散動(dòng)作空間;這些方法旨在生成由不同動(dòng)作價(jià)值組成的駕駛策略,然后根據(jù)每個(gè)可用動(dòng)作的價(jià)值選擇駕駛行為?;诓呗缘姆椒ㄟm用于離散和連續(xù)動(dòng)作空間??梢陨蛇@兩種隨機(jī)確定性駕駛策略,然后相應(yīng)地選擇駕駛行為。

基于DRL的方法在混合自動(dòng)化交通的決策中非常流行。然而,當(dāng)僅使用DRL來(lái)解決多智體決策和協(xié)同駕駛時(shí),系統(tǒng)復(fù)雜性顯著增加,并且難以對(duì)智體之間的關(guān)系進(jìn)行建模。由于GNN可以獲得拓?fù)潢P(guān)系,并有助于對(duì)多智體的相互影響進(jìn)行建模,因此它在提高混合自動(dòng)化交通中的決策性能方面具有巨大潛力。基于GRL的方法的詳細(xì)結(jié)構(gòu)如圖所示:

圖片

在一個(gè)“高速公路閘道”場(chǎng)景中,輸出駕駛行為表示為 一個(gè)用于控制自動(dòng)駕駛車輛橫向運(yùn)動(dòng)的高級(jí)變道命令列表。HVs和AVs的縱向控制均通過智能駕駛員模型(IDM)實(shí)現(xiàn),而HVs的橫向控制則通過SUMO的LC2013變道模型實(shí)現(xiàn)。

高速公路閘道方案是一種開環(huán)(非封閉)方案。除了節(jié)點(diǎn)特征矩陣和鄰接矩陣之外,場(chǎng)景還包括索引矩陣(標(biāo)注HV或者AV)。因此,圖表征由節(jié)點(diǎn)特征矩陣、鄰接矩陣和索引矩陣組成。

其駕駛行為被表征為離散的動(dòng)作空間。在每個(gè)時(shí)間步,行動(dòng)空間包括不同的變道指令。

車輛駕駛的目標(biāo)是高效、安全地退出相應(yīng)的匝道,同時(shí)將對(duì)HVs的影響降至最低。獎(jiǎng)勵(lì)函數(shù)由四部分組成:平均速度獎(jiǎng)勵(lì)、意圖獎(jiǎng)勵(lì)、變道懲罰和碰撞懲罰。

在一個(gè)“8字形”場(chǎng)景中,輸出駕駛行為是一個(gè)用于控制自動(dòng)駕駛車縱向運(yùn)動(dòng)的低級(jí)控制命令列表,而HVs的縱向控制由IDM實(shí)現(xiàn)。

該場(chǎng)景作為由兩個(gè)單車道環(huán)形網(wǎng)絡(luò)組成交叉口的封閉表征。當(dāng)車輛同時(shí)到達(dá)十字路口時(shí),必須減速以遵守通行規(guī)則。這樣降低網(wǎng)絡(luò)中車輛的平均速度。在這種情況下,需要協(xié)同駕駛提高車輛的平均速度,同時(shí)確保安全,以優(yōu)化交叉口通行能力。

8字形場(chǎng)景是一個(gè)閉環(huán)場(chǎng)景,因此不需要索引矩陣。其鄰接矩陣的推導(dǎo)方式與高速公路匝道場(chǎng)景相同,但節(jié)點(diǎn)特征矩陣不同。

駕駛行為表現(xiàn)為連續(xù)動(dòng)作空間。在每個(gè)時(shí)間步,動(dòng)作空間由縱向加速度組成。

在所考慮的高速公路閘道和8字形兩個(gè)場(chǎng)景中,獎(jiǎng)勵(lì)的定義受場(chǎng)景和任務(wù)績(jī)效的影響(例如,總體交通效率、特定車道的交通效率、場(chǎng)景中特定類型車輛通行時(shí)間的縮短)。此外,對(duì)于混合自動(dòng)駕駛交通中的多智體協(xié)同決策問題,必須考慮整體回報(bào)和個(gè)體回報(bào)之間的沖突。這包括具有不同主動(dòng)性水平的人類駕駛員之間的社會(huì)交互和隱性協(xié)同作用。獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)過程還需要考慮HVs和AVs的優(yōu)先級(jí),在設(shè)計(jì)損失函數(shù)時(shí)需要考慮這些優(yōu)先級(jí),以及涉及自動(dòng)駕駛的法律法規(guī)的制定和穩(wěn)健性。

未來(lái)智能網(wǎng)聯(lián)車的研究應(yīng)該集中在以下三點(diǎn):(1)如何設(shè)計(jì)智能聯(lián)網(wǎng)車隊(duì)的軌跡控制算法和策略,以便車輛在紅燈信號(hào)面前能夠平穩(wěn)減速,實(shí)現(xiàn)最小的停車次數(shù)、油耗和尾氣排放量;(2) 如何充分利用車隊(duì)信息優(yōu)化信號(hào)時(shí)間方案,實(shí)現(xiàn)最小延誤和最優(yōu)交通效率的控制目標(biāo);(3) 如何與上下游交叉口兼容,將優(yōu)化控制擴(kuò)展到路網(wǎng),并實(shí)時(shí)解決優(yōu)化問題。

應(yīng)考慮更復(fù)雜的車輛運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)模型,因?yàn)榈缆窏l件和車輛模型的參數(shù)對(duì)于準(zhǔn)確評(píng)估車輛運(yùn)動(dòng)至關(guān)重要。 

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25