日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

首頁 > 汽車技術 > 正文

自動駕駛車輛的社會交互:回顧與展望

2022-10-28 23:25:17·  來源:智能運載裝備研究所  作者:王文碩劉暢流等  
 
CMetric使用中心性函數(shù),結合了計算圖論和社會交通心理學,能實現(xiàn)實時的社會偏好估計。相比于基于博弈論的方法,CMetric不需要依賴本車知道其他人類駕駛員的代價函數(shù)這樣的假設。 

圖片

圖8 評估博弈論架構下人類駕駛員間社會偏好的方法。(a) 線性加和為1 (b) 社會價值的環(huán)形測量 (c)  CMetric測量

除了通過上述提到的函數(shù)量化社會因素外,一些研究者還通過調整每個博弈智能體的行動集和相關決策模型,考慮人類的其他社會因素(如禮貌水平、有限的感知能力)。

在現(xiàn)實交通中,許多不同的駕駛行為因素會影響人類駕駛員的合作程度。這便引出一個問題 ‘how to leverage these factors into computational models and ensure their fidelity?’ 。答案在于行為理論描述的是怎么假設一個人類駕駛員對路上其他人類駕駛員做出的行動和反應。Hoogendoorn和Bovy總結了一系列由來源不同的經(jīng)驗依據(jù)支持的行為假設,為高級交互模型的推導提供了基礎。作者還提出了一種主觀努力最小化,在此基礎上使用微分博弈論建模通用駕駛行為。

(3)智能體自適應性的博弈

人類是適應性的智能體,能夠通過獎勵強化機制學習駕駛。受此啟發(fā),結合強化學習和博弈論架構,可以設計與其他駕駛員交互的學習程序。把本智能體外的其他智能體視為環(huán)境的一部分,建模交互的博弈架構可分為兩類:異步方案、同步方案。

  • 異步方案

該方案中,每個駕駛員都將周圍其他所有駕駛員視為環(huán)境的一部分,如圖9(a)所示??梢酝ㄟ^特定的博弈論方案(如level-k game)實現(xiàn)駕駛員之間的動態(tài)交互,人類駕駛員的行為以迭代的方式被預測(圖9(c)),而不是被同時評估。具體來說,為了獲得一個level-k智能體的策略,其他所有智能體的策略都被設置為level-(k?1),使它們成為環(huán)境的一部分,而環(huán)境的動態(tài)性是已知的。因此,level-k智能體的策略作為對其他智能體動作的最佳響應被估計出來,如圖9(b)所示。注意,所有智能體的策略推理層可以保持相同、也可以彼此不同(動態(tài)level-k策略),在策略空間上其可以是離散的、也可以是連續(xù)的。上述博弈問題的解法是通過正確地定義狀態(tài)、行動、獎勵功能和環(huán)境動態(tài),將迭代策略學習任務視為強化學習問題,稱為單智能體強化學習。這種單智能體強化學習架構往往導致控制策略不穩(wěn)定;即使經(jīng)過訓練的策略收斂了,它們仍然缺乏性能保證。另外,由于其他駕駛員的策略行為沒有改變,在每一層迭代時將不會影響本智能體的行為,使得單智能體強化學習方案可能導致冒險行為甚至發(fā)生碰撞。

  • 同步方案

在多駕駛員交互的場景中,每個駕駛員都試圖通過反復試錯的過程同時地解決順序決策問題。環(huán)境狀態(tài)的演化和每個駕駛員獲得的獎勵函數(shù)是由所有駕駛員的聯(lián)合動作決定。因此,人類駕駛員需要考慮環(huán)境和其他人類駕駛員,并與之交互。同步方案可以通過馬爾可夫博弈(或隨機博弈)捕捉到包含多個人類駕駛員的決策過程。每個智能體被視為一個基于馬爾科夫決策過程的代理,基于此構成多智能體強化學習(MARL)問題。針對不同的交互任務,可以設計多種不同的MARL算法學習范式。現(xiàn)有部分研究中,所提方法被限制在預定義的交通場景中,每個交互駕駛員的社會偏好是預定義好的。而現(xiàn)實中,人類駕駛員可以利用其他駕駛員的社會合作來避免僵局,并主動說服他人改變自己的行為。受此啟發(fā),Hu基于帶課程學習策略的馬爾可夫博弈,開發(fā)了的MARL,以考慮合作程度和模擬匯入場景中道路通行權的社會優(yōu)先性。一旦Level-k博弈的單次交互level被視為RL任務,現(xiàn)有很多算法都可以使用,如Q-learning。RL還可以預測動態(tài)博弈中智能體的時間持續(xù)的交互動態(tài)性。 

圖片

圖9 (a)RL (b)level-k博弈 (c)迭代學習角度下的異步方案與(d)同步方法

(4)非完全信息博弈最常用的博弈模型是完全信息博弈,其假設每個人類駕駛員是理性的,彼此之間的信息(如效用函數(shù)、駕駛意圖或駕駛風格)是可知的。然而在實際交通中,這些信息往往是無法獲得的,導致智能體間信息不對稱。所以,人們需要對他人的駕駛行為及對非理性行為進行非同理心的評估。為了在與不理性的人類駕駛員交互時,自動駕駛汽車能做出一個有安全保障的決策,Tian等人引入了一對社會參數(shù)(β,λ)來表征人類駕駛員的理性水平和角色,并在觀察到新信息后通過貝葉斯規(guī)則進行更新。此外,當環(huán)境狀態(tài)部分可觀時,相互作用可通過部分可觀隨機博弈(POSG)和部分可觀馬爾可夫決策過程(POMDP)表示,該問題可以使用Q-learning等強化學習算法求解。(5)估計其他智能體信息的博弈可以參數(shù)化交互智能體的社會偏好,再將其嵌入到博弈中每個智能體的代價函數(shù)中。為了在決策時利用另一個人類智能體的行為,研究人員基于兩個假設建立了人類駕駛員之間的交互模型:所有的智能體都是理性的,都以尋找效用最大化的控制行為為目標;本智能體可以得到另一個人類智能體的獎勵/成本函數(shù)。然而,在現(xiàn)實環(huán)境中,上述假設難以直接獲得,所以使用可得到的數(shù)據(jù)估計更多的信息就變得很有必要。

  • 獎勵函數(shù)估計

第一個假設允許將另一個人類駕駛員的決策過程轉化為最優(yōu)最大化問題。通常,研究人員將其他人類駕駛員的獎勵函數(shù)作為當前狀態(tài)的線性結構加權特征。相關的權重向量

圖片

可以通過逆最優(yōu)控制理論(如IRL)和最大熵原理從交互范例中估計出來。IRL旨在學習在駕駛范例中編碼人類駕駛員駕駛偏好的基本代價函數(shù)。

圖片

  • 未來行為預測

每個智能體的獎勵函數(shù)可以在固定時域內累積,而不是僅考慮未來的一步。這個操作需要本車在進行交互時預測其他人類智能體在預測域內可能的動作和狀態(tài)。Level-k博弈論假設其他所有參與者都可以被建模為level-(k?1)推理者并采取相應地動作,使得在預測固定時域內未來車輛動作和狀態(tài)時,能夠考慮車輛對車輛的相互依賴性。3.單智能體馬爾科夫決策過程另外一種建立本智能體如何學習與他人交互的方法是采用單智能體MDPs方案。單智能體假設包含其他智能體的環(huán)境是靜止的,進而可以用MDP構建交互問題。本智能體在與環(huán)境交互時,通過在腦海中動態(tài)展開交互軌跡來考慮自身行為的影響,試圖選擇最優(yōu)規(guī)劃來最大化相關獎勵。因此,可以把本車的駕駛任務構建為關于策略的最優(yōu)化問題,選擇使從環(huán)境狀態(tài)s開始的未來固定時間域內的值函數(shù)最大的策略。 

圖片

單智能體理MDPs用于對本智能體(固定的)和其他智能體之間的交互進行建模,許多現(xiàn)有的RL算法都可以用來求解。然而,基于異步方案的隨機博弈在每個階段博弈中交替地只將一個駕駛員作為本智能體。在真實的交通中,人類駕駛員可以在他們的頭腦中預測其他人類智能體的可能輸出,然后將這些潛在的可能整合到他們的實時規(guī)劃中,在交互場景中產(chǎn)生與社會兼容的決策和行動。使用馬爾科夫決策過程構建交互問題會產(chǎn)生兩個基本問題,即‘How does the ego agent make predictions of other agents’ future behavior?’和‘How does the ego agent utilize these predictions, i.e., integrate these estimated predictions into their planning? ’本智能體如何預測其他智能體的未來行為?又如何在未來的規(guī)劃中整合預測到的信息?對于行為如何預測的問題,基于本智能體如何考慮其與其他智能體之間的影響,有反應式和交互式兩種預測方法。單向影響:本車預測其他人類駕駛員行為時,不考慮本車當前和未來動作對其他智能體的影響,把其他智能體視為無反應的智能體。其他智能體的行為既可以是確定的、也可以是隨機的,行為確定的智能體僅按照預定義的規(guī)則和情況(如固定的規(guī)劃速度、已知的先前狀態(tài)/意圖)行駛。對于行為隨機的智能體,本智能體無法明確地知道和預測其行為,但知道他們的意圖和目標的不確定性的概率分布。簡單來說,在考慮單向影響的行為預測中,他車未來的行為只與自身有關,本車可以知道他車未來的行為/運動/意圖??紤]了單向影響,本車可以做反應式規(guī)劃reactive planning。 

圖片

雙向影響:本車預測他車未來行為時,考慮本車當前和未來的動作對周圍車輛的影響,即假設其他智能體會對本車潛在的未來狀態(tài)做出理性的回應。簡單來說,他車未來的行為除了與自身有關外,還受到本車過去、現(xiàn)在及未來動作/狀態(tài)的影響。在這種考慮了不確定性的交互問題中,廣泛采用的方法是POMDP。考慮了雙向影響,本車可以做交互式規(guī)劃interactive planning。 

圖片

  • 部分可觀MDP

不確定性信息(其他智能體的意圖和重新規(guī)劃過程、觀測不確定性和遮擋)等通常是不可觀察的。一種常用的方法是建立當前狀態(tài)的概率分布,形成一個可用的置信狀態(tài)。POMDP可以是離線的,也可以是在線的。離線意味著解決POMDP問題關心最佳可能行動,不是針對當前、而是針對每一個可以想象的信念狀態(tài)。為了使問題在計算上可解,POMDP都是在離散空間中(離散的狀態(tài)、離散的動作、離散的觀測、或它們的組合)構建的。

  • Q-學習

人類在自然界中的行為是通過強化而非自由意志塑造的,交互遵循這一規(guī)則。因為人類智能體通過與環(huán)境的持續(xù)交互來學習在動態(tài)和不確定的環(huán)境中駕駛,因此,具有MDP形式的強化學習能夠制定交互問題。因此,接下來的問題將是‘How do we integrate the interactive influences between agents into RL algorithms?’ 我們如何將智能體之間的交互影響集成到RL算法中?。在規(guī)劃時,可以通過相關的值迭代過程考慮其他智能體對本智能體的影響。已有研究采用Double Q-Learning(DQL)算法來考慮其他智能體的行為和狀態(tài)對智能體價值評價的影響。

  • 隨機博弈

單智能體MDPs和隨機博弈可以捕獲多個智能體之間的相互作用,但它們之間存在一些區(qū)別。通常有兩種方式可以得到隨機博弈。一是將單智能體MDPs擴展到多智能體MDPs,二者的區(qū)別在于每個駕駛員在做決策時是否必須考慮其他駕駛員來采取戰(zhàn)略行動。二是將矩陣博弈擴展到多個狀態(tài),隨機博弈中每個狀態(tài)都可以看成是一個矩陣博弈,其獎勵是所有人類駕駛員的聯(lián)合動作產(chǎn)生的。在進行完矩陣博弈、得到獎勵后,所有智能體的狀態(tài)根據(jù)他們的聯(lián)合動作轉移到另一個狀態(tài)(進入另一個矩陣博弈)。因此,隨機博弈的架構中包含了MDPs和矩陣博弈。4.從人類范例中學習群優(yōu)化和基于博弈論的方法均是事先設計好的,它們憑借認知洞察力分析場景,然后設計一個與之相關的成本/目標函數(shù)來模擬人類駕駛員之間的交互行為,通過啟發(fā)式地設置超參數(shù)方法來求解優(yōu)化問題,而非用數(shù)據(jù)進行優(yōu)化。這兩種方法把成本/目標函數(shù)是作為待優(yōu)化的先驗知識,然而人類駕駛員間社會交互背后的決策與運動機制是復雜的,難以用簡單的、人為設置的規(guī)則描述。通常,展示交互行為比確定產(chǎn)生同樣行為的獎勵函數(shù)要更容易。這就為建模和學習人類駕駛員間的交互提供了一種方法,即通過模仿學習直接從人類示例中學習交互行為?;趯W習到的是行為軌跡還是效用,分為行為克隆和效用復現(xiàn)兩種方法,前者直接學習從觀測(如圖像)到動作(轉向角、油門)的映射,后者間接使用數(shù)據(jù)檢索獎勵函數(shù),用于規(guī)劃的交互行為盡可能接近地模仿范例。 

  • 行為克隆

行為克隆是最簡單的模仿學習形式,專注于使用監(jiān)督學習復制智能體的策略。行為克隆旨在解決一個回歸問題,在這個問題中,優(yōu)化是通過最大化目標函數(shù)(如訓練數(shù)據(jù)中所采取行動的可能性)或最小化損失(如模擬(即模型輸出)和真實數(shù)據(jù)(即演示)之間的行為派生)來實現(xiàn)的。行為克隆的成功依賴于足夠多的、能夠充分覆蓋訓練和測試數(shù)據(jù)集的狀態(tài)和動作空間的數(shù)據(jù)。然而行為克隆在訓練過程中沒有利用級聯(lián)學習錯誤。由行為克隆學到的模型在復雜的交互場景中通常表現(xiàn)的較差。

  • 效用復現(xiàn)

IRL逆強化學習假定獎勵函數(shù)在不同交通場景中是最簡潔、魯棒性、可移植性的,其依賴從觀測到的交互行為/軌跡中提取/檢索代價函數(shù)。復現(xiàn)智能體間的交互過程通常假定環(huán)境的狀態(tài)要具有馬爾科夫性質,這樣就可以將學習任務構建為馬爾科夫過程。因此,用一個參數(shù)化模型去描述駕駛員的交互過程,模型中的參數(shù)可以通過一個設計好的目標函數(shù)估計得到。標準的MDP:其他人類駕駛員作為環(huán)境中的一部分;部分可觀MDP:人類駕駛員感知能力受限、無法準確感知到他們需要的信息。在該架構下,可以用IRL或IOC逆最優(yōu)控制學習人類駕駛員的交互過程;值得提的一點是,在模仿學習與在基于博弈論的模型中,IRL的角色是不同的。前者中,IRL算法是學習本智能體的獎勵函數(shù)、以模仿本智能體的駕駛行為,而在博弈論模型中,IRL用來學習其他智能體的獎勵函數(shù),以作為本智能體的輸入??偨Y:理性的人類駕駛行為是在回應動態(tài)環(huán)境的所有可能答案中近最優(yōu)的或最優(yōu)的結果,這就可以將人類交互問題構建為數(shù)值可計算的最優(yōu)化模型,最大化某個目標函數(shù)。然而,對于如此復雜的優(yōu)化問題,實時求解的難度很大。參考文獻:

Wenshuo Wang, Letian Wang, Chengyuan Zhang, Changliu Liu and Lijun Sun (2022), “Social Interactions for Autonomous Driving: A Review and Perspectives”, Foundations and Trends® in Robotics: Vol. xx, No. xx, pp 1–183. DOI: 10.48550/arXiv.2208.07541.

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
廣告
滬ICP備11026917號-25