綜述-圖強(qiáng)化學(xué)習(xí)在混合自動(dòng)化交通中的協(xié)同決策應(yīng)用

2022-11-24 20:57:36· 來(lái)源：計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛作者：黃浴

論文“Graph Reinforcement Learning Application to Co-operative Decision-Making in Mixed Autonomy Traffic: Framework, Survey, and Challenges“，作者來(lái)自北理工、德國(guó)德累斯頓大學(xué)、新加坡南洋理工和瑞士ETH。智能網(wǎng)聯(lián)車（CAV）的正常運(yùn)行對(duì)于未來(lái)智

論文“Graph Reinforcement Learning Application to Co-operative Decision-Making in Mixed Autonomy Traffic: framework, Survey, and Challenges“，作者來(lái)自北理工、德國(guó)德累斯頓大學(xué)、新加坡南洋理工和瑞士ETH。

智能網(wǎng)聯(lián)車（CAV）的正常運(yùn)行對(duì)于未來(lái)智能運(yùn)輸系統(tǒng)的安全和效率至關(guān)重要。同時(shí)，過渡到全自動(dòng)駕駛之前需要長(zhǎng)時(shí)間的混合自動(dòng)化交通，包括CAV（AV）和人類駕駛車輛（HV）。因此，CAV的協(xié)同決策，對(duì)于生成適當(dāng)?shù)鸟{駛行為，和提高混合自動(dòng)化交通的安全性和效率，是至關(guān)重要的。近年來(lái)，深度強(qiáng)化學(xué)習(xí)（DRL）被廣泛應(yīng)用于解決決策問題。然而，現(xiàn)有的基于DRL的方法主要集中于解決單個(gè)CAV的決策。

在混合自動(dòng)化交通中，現(xiàn)有的基于DRL的方法不能準(zhǔn)確地表示車輛的交互影響以及對(duì)動(dòng)態(tài)交通環(huán)境進(jìn)行建模。為了解決這些缺點(diǎn)，本文提出一種用于混合自動(dòng)化交通中CAV的多智體決策的圖強(qiáng)化學(xué)習(xí)（GRL）方法。首先，設(shè)計(jì)了通用的模塊化GRL框架。然后，對(duì)DRL和GRL方法進(jìn)行了系統(tǒng)綜述，重點(diǎn)介紹了最近研究遇到的問題。此外，基于所設(shè)計(jì)的框架，進(jìn)一步對(duì)不同的GRL方法進(jìn)行比較研究，驗(yàn)證GRL方法的有效性。結(jié)果表明，與DRL方法相比，GRL方法可以很好地優(yōu)化CAV在混合自動(dòng)化交通中的多智體決策性能。最后，總結(jié)挑戰(zhàn)和未來(lái)的研究方向。

源代碼下載可以在https://github.com/Jacklinkk/GraphCAV。

伯克利分校的開源軟件Flow是一個(gè)基于DRL的混合自動(dòng)化交通框架，它充當(dāng)交通模擬器（例如Sumo和Aimsun）和RL庫(kù)之間的接口。Flow框架不僅提供典型的交通場(chǎng)景，還為RL算法的開發(fā)和驗(yàn)證創(chuàng)建幾個(gè)基準(zhǔn)；它還支持道路網(wǎng)絡(luò)文件（例如OpenStreetMap）的導(dǎo)入操作，模擬真實(shí)世界條件下的交通操作。

基于GRL的方法的主要特征可以概括如下：1）將混合自動(dòng)化交通建模為圖架構(gòu)。特別地，車輛被視為圖節(jié)點(diǎn)，而車輛的交互被視為圖邊。2）采用GNN進(jìn)行特征提??；提取的特征被饋送到策略網(wǎng)絡(luò)以生成CAV的駕駛行為。許多研究用基于GRL的方法來(lái)生成協(xié)作行為。

根據(jù)輸出水平，駕駛行為可分為兩類：高級(jí)行為和低級(jí)控制命令。高級(jí)行為主要包括并線、超車和車道保持，而低級(jí)控制命令包括各種車輛控制方向的速度和加速度等。駕駛行為表現(xiàn)為一個(gè)動(dòng)作空間，可分為離散動(dòng)作空間和連續(xù)動(dòng)作空間。

高級(jí)行為只能表示為離散的行為空間；而低級(jí)控制命令可以表示為離散的動(dòng)作空間。DRL模塊的不同策略生成方法，生成不同的行動(dòng)空間，進(jìn)而生成不同類別的駕駛行為。

連續(xù)動(dòng)作空間由控制命令的特定值組成。例如，在高速公路場(chǎng)景中，連續(xù)動(dòng)作空間可以定義為a = [at，t] ，其中at表示縱向加速度，t表示轉(zhuǎn)向角。使用多維（或一維）向量對(duì)連續(xù)動(dòng)作空間進(jìn)行編碼，其中每個(gè)編碼位置表示控制命令?？刂泼钔ǔ１幌拗圃谀硞€(gè)數(shù)值范圍內(nèi)，并且控制命令的特定值基于所采用的控制策略而定。連續(xù)動(dòng)作空間可以以一定粒度離散化，但在這種情況下，必須考慮控制精度和動(dòng)作空間維度之間的權(quán)衡。

GRL模塊包含兩個(gè)子模塊：GNN模塊和DRL模塊。該模型使用圖特征作為輸入，輸出策略作為動(dòng)作選擇的基礎(chǔ)。

不同類型的DRL方法產(chǎn)生不同的駕駛策略類別。DRL方法可分為基于價(jià)值的方法和基于策略的方法?；趦r(jià)值的方法僅適用于離散動(dòng)作空間；這些方法旨在生成由不同動(dòng)作價(jià)值組成的駕駛策略，然后根據(jù)每個(gè)可用動(dòng)作的價(jià)值選擇駕駛行為?；诓呗缘姆椒ㄟm用于離散和連續(xù)動(dòng)作空間?？梢陨蛇@兩種隨機(jī)確定性駕駛策略，然后相應(yīng)地選擇駕駛行為。

基于DRL的方法在混合自動(dòng)化交通的決策中非常流行。然而，當(dāng)僅使用DRL來(lái)解決多智體決策和協(xié)同駕駛時(shí)，系統(tǒng)復(fù)雜性顯著增加，并且難以對(duì)智體之間的關(guān)系進(jìn)行建模。由于GNN可以獲得拓?fù)潢P(guān)系，并有助于對(duì)多智體的相互影響進(jìn)行建模，因此它在提高混合自動(dòng)化交通中的決策性能方面具有巨大潛力。基于GRL的方法的詳細(xì)結(jié)構(gòu)如圖所示：

在一個(gè)“高速公路閘道”場(chǎng)景中，輸出駕駛行為表示為一個(gè)用于控制自動(dòng)駕駛車輛橫向運(yùn)動(dòng)的高級(jí)變道命令列表。HVs和AVs的縱向控制均通過智能駕駛員模型（IDM）實(shí)現(xiàn)，而HVs的橫向控制則通過SUMO的LC2013變道模型實(shí)現(xiàn)。

高速公路閘道方案是一種開環(huán)（非封閉）方案。除了節(jié)點(diǎn)特征矩陣和鄰接矩陣之外，場(chǎng)景還包括索引矩陣（標(biāo)注HV或者AV）。因此，圖表征由節(jié)點(diǎn)特征矩陣、鄰接矩陣和索引矩陣組成。

其駕駛行為被表征為離散的動(dòng)作空間。在每個(gè)時(shí)間步，行動(dòng)空間包括不同的變道指令。

車輛駕駛的目標(biāo)是高效、安全地退出相應(yīng)的匝道，同時(shí)將對(duì)HVs的影響降至最低。獎(jiǎng)勵(lì)函數(shù)由四部分組成：平均速度獎(jiǎng)勵(lì)、意圖獎(jiǎng)勵(lì)、變道懲罰和碰撞懲罰。

在一個(gè)“8字形”場(chǎng)景中，輸出駕駛行為是一個(gè)用于控制自動(dòng)駕駛車縱向運(yùn)動(dòng)的低級(jí)控制命令列表，而HVs的縱向控制由IDM實(shí)現(xiàn)。

該場(chǎng)景作為由兩個(gè)單車道環(huán)形網(wǎng)絡(luò)組成交叉口的封閉表征。當(dāng)車輛同時(shí)到達(dá)十字路口時(shí)，必須減速以遵守通行規(guī)則。這樣降低網(wǎng)絡(luò)中車輛的平均速度。在這種情況下，需要協(xié)同駕駛提高車輛的平均速度，同時(shí)確保安全，以優(yōu)化交叉口通行能力。

8字形場(chǎng)景是一個(gè)閉環(huán)場(chǎng)景，因此不需要索引矩陣。其鄰接矩陣的推導(dǎo)方式與高速公路匝道場(chǎng)景相同，但節(jié)點(diǎn)特征矩陣不同。

其駕駛行為表現(xiàn)為連續(xù)動(dòng)作空間。在每個(gè)時(shí)間步，動(dòng)作空間由縱向加速度組成。

在所考慮的高速公路閘道和8字形兩個(gè)場(chǎng)景中，獎(jiǎng)勵(lì)的定義受場(chǎng)景和任務(wù)績(jī)效的影響（例如，總體交通效率、特定車道的交通效率、場(chǎng)景中特定類型車輛通行時(shí)間的縮短）。此外，對(duì)于混合自動(dòng)駕駛交通中的多智體協(xié)同決策問題，必須考慮整體回報(bào)和個(gè)體回報(bào)之間的沖突。這包括具有不同主動(dòng)性水平的人類駕駛員之間的社會(huì)交互和隱性協(xié)同作用。獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)過程還需要考慮HVs和AVs的優(yōu)先級(jí)，在設(shè)計(jì)損失函數(shù)時(shí)需要考慮這些優(yōu)先級(jí)，以及涉及自動(dòng)駕駛的法律法規(guī)的制定和穩(wěn)健性。

未來(lái)智能網(wǎng)聯(lián)車的研究應(yīng)該集中在以下三點(diǎn)：（1）如何設(shè)計(jì)智能聯(lián)網(wǎng)車隊(duì)的軌跡控制算法和策略，以便車輛在紅燈信號(hào)面前能夠平穩(wěn)減速，實(shí)現(xiàn)最小的停車次數(shù)、油耗和尾氣排放量；（2）如何充分利用車隊(duì)信息優(yōu)化信號(hào)時(shí)間方案，實(shí)現(xiàn)最小延誤和最優(yōu)交通效率的控制目標(biāo)；（3）如何與上下游交叉口兼容，將優(yōu)化控制擴(kuò)展到路網(wǎng)，并實(shí)時(shí)解決優(yōu)化問題。

應(yīng)考慮更復(fù)雜的車輛運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)模型，因?yàn)榈缆窏l件和車輛模型的參數(shù)對(duì)于準(zhǔn)確評(píng)估車輛運(yùn)動(dòng)至關(guān)重要。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：車輛架構(gòu)的變化對(duì)雷達(dá)系統(tǒng)的挑戰(zhàn)
上一篇：軟包裝鋰電池的短路失效分析

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測(cè)試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)
• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬
• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！	• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)
• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

綜述-圖強(qiáng)化學(xué)習(xí)在混合自動(dòng)化交通中的協(xié)同決策應(yīng)用

微信公眾號(hào)

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

綜述-圖強(qiáng)化學(xué)習(xí)在混合自動(dòng)化交通中的協(xié)同決策應(yīng)用

微信公眾號(hào)

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將