日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

自動駕駛車輛的社會交互:回顧與展望

2022-10-28 23:25:17·  來源:智能運載裝備研究所  作者:王文碩劉暢流等  
 
(2)概率生成模型

社會交互情景描述的是一種條件,個體駕駛員的行為由其自身特征和由其他駕駛員的行為組成的環(huán)境決定,反之亦然。從條件概率的角度來看,人類駕駛員間的交互影響可以解釋為一個駕駛員在感知到周圍其他車輛的狀態(tài)后采取某個動作的可能性有多大。這個問題可以用條件概率分布或條件行為預(yù)測來表示,此概念是貝葉斯網(wǎng)絡(luò)的基礎(chǔ)。此外,Tolstaya等人用一種耳目一新的交互來量化智能體間的交互性,在這種交互中,智能體B由于觀測到智能體A的軌跡發(fā)生行為變化,計算公式為

圖片

圖片

變化較大代表智能體B很大程度上受到智能體A動作的影響。如果在A的軌跡下,B的軌跡更可能發(fā)生,則

圖片

;如果不可能發(fā)生,則

圖片

;如果不變,

圖片

;這一思想使得在信息論中常用的相似性度量方法(如KL-divergence)變得容易應(yīng)用。

另一方面,可將交互視為潛在的概率生成過程或條件概率模型。如Anderson et al.提出一個概率圖模型,以捕捉前車未來狀態(tài)和動態(tài)系統(tǒng)歷史狀態(tài)間的交互。但是該方法無法考慮匯入車輛對前后車交互的影響。González提出一個感知交互的概率駕駛員模型,以捕捉駕駛員的交互偏好,人類駕駛員基于對周圍駕駛員行為的預(yù)測,將在當(dāng)前時間步內(nèi)執(zhí)行動作。在逆優(yōu)化框架下,通過加權(quán)特征(如導(dǎo)航和風(fēng)險特征)的組合來表征交互偏好。

(3) 勢/風(fēng)險場

基于人類駕駛行為源自于基于風(fēng)險場的假設(shè),提出了勢/風(fēng)險場。采用勢函數(shù)建立交互模型已經(jīng)廣泛的應(yīng)用于人機交互、多車間的交互。與物理距離有關(guān)的指標(biāo)能有效地用某個可學(xué)習(xí)、可解釋的函數(shù)表征交互。該函數(shù)被稱為勢函數(shù),其中還可以加入交通規(guī)則和駕駛場景信息。另外,勢函數(shù)對坐標(biāo)系x/y的導(dǎo)數(shù)即為虛擬力,推、拉車輛以實現(xiàn)交互過程中局部規(guī)劃成本最小化。還有研究者基于本車與周圍車輛的相對距離(通常是兩車軌跡的最小值或最近點)設(shè)計能量函數(shù)以捕捉車間交互?;谙鄬嚯x的量化方法無法保證始終正確捕捉人類駕駛員間的交互。當(dāng)智能體間存在物理約束(高速隔離帶)時,即使人類駕駛員距離很近,但其交互很少或甚至沒有交互。

(4)認(rèn)知模型

研究人員基于心理理論、信息累計度量理論,使用相對距離表征駕駛風(fēng)格和解釋交互過程。研究者還從行為科學(xué)和心理學(xué)的角度出發(fā),開發(fā)出其他類型的交互模型以模仿人類駕駛行為。

3. 建模社會交互中的影響因素

人類可以通過利用交通場景中的顯式傳感器信息和對其他駕駛員行為的隱式社會推理來做出安全和社會可接受的動作,從而非常出色地駕駛。將社會偏好、社會模仿和社會推理等因素賦予信息吸收能力和行為預(yù)期能力是人類的天性,這是社會兼容駕駛行為的核心。對這些社會因素的定量評估需要計算認(rèn)知科學(xué)和技術(shù)。

(1)駕駛偏好中的社會價值取向SVO

SVO模型衡量一個駕駛員如何權(quán)衡自己的獎勵與其他駕駛員的獎勵,在逆強化學(xué)習(xí)(IRL)的結(jié)構(gòu)下,它可以從觀察到的軌跡中學(xué)習(xí),再將可在線學(xué)習(xí)駕駛風(fēng)格的SVO模型整合到博弈場景中。

(2) 社會駕駛模仿中的社會凝聚力

人類駕駛車輛的行為具有社會凝聚力,即駕駛員會采取與周圍駕駛員相似的動作。受人類駕駛員的社會凝聚力的啟發(fā),Landolfi和Dragan設(shè)計了一種凝聚力增強獎勵函數(shù),使自動駕駛汽車能夠通過確定跟隨其他車輛哪一方面、跟隨誰以及何時跟隨來保證安全,從而自動進行社會性跟隨。

(3) 提高情景感知的社會感知

人類可以積極地收集和提取有關(guān)環(huán)境的附加信息,從而創(chuàng)造一個相對完全的交通場景,從而提供足夠的信息,提高環(huán)境意識,從而進行安全高效的動作。例如,當(dāng)駕駛員感知到相鄰車輛的減速和停車行為時,無論他的視野是否被遮擋,他都能推斷出潛在的行人正在過馬路。人類將其他駕駛員視為傳感器的這種社交能力已經(jīng)被制定并集成到自動駕駛汽車中,以增強駕駛員的情景感知能力。Sun et al.和Afolabi et al.通過置信空間上的條件分布,形成對環(huán)境遮擋的認(rèn)知理解。

(4)駕駛風(fēng)格中的社會交互風(fēng)格

人類駕駛員通過評估和平衡未來不同的獎勵項來制定計劃并采取行動。根據(jù)人類的內(nèi)在模型、駕駛?cè)蝿?wù)和動機,人類可能會對不同的獎勵項給予不同的關(guān)注。這種方式就體現(xiàn)出他們與周圍環(huán)境互動的不同風(fēng)格,如激進、保守、禮貌、自私和非理性。因此,交互風(fēng)格可以表述為在生成軌跡時不同特征的加權(quán)結(jié)果。例如,研究人員將這些由社會因素誘發(fā)的互動風(fēng)格量化為獎勵特征。然后使用逆強化學(xué)習(xí)(IRL)來學(xué)習(xí)這些特征的權(quán)重或從軌跡中學(xué)習(xí)目標(biāo)函數(shù)排序。

五、建模和學(xué)習(xí)交互的方法

如圖5所示,常用的量化模型有五種:基于理性效用函數(shù)的模型、基于深度神經(jīng)網(wǎng)絡(luò)的模型、基于圖的模型、社會場/力、計算認(rèn)知模型。本文主要介紹基于理性效用函數(shù)的模型。

日常中最常遇到的交互場景是在城市環(huán)境和高速公路上的跟車、匯入/出與換道。研究人員將人類駕駛員視為已知目標(biāo)函數(shù)的最優(yōu)控制器,以實現(xiàn)以預(yù)定義目標(biāo)為導(dǎo)向的任務(wù),從而決定在這些場景中的行為。然而,在自然交通場景中,駕駛員或其他人類智能體間的交互受物理(如運動學(xué)和幾何)和社會(如意圖、注意力和責(zé)任)的約束。Luo等人開發(fā)了一種通用的智能體交互模型(GAMMA),通過將交互運動視為帶有速度障礙的約束幾何優(yōu)化問題,來預(yù)測人類智能體的行為。該交互模型在高保真模擬器(SUMMIT)中得以實現(xiàn),用于模擬大規(guī)?;旌铣鞘薪煌?。此外,Lee et al.認(rèn)為人類智能體在短期未來的交互中應(yīng)該獲得最優(yōu)的累積獎勵。作者在一個優(yōu)化架構(gòu)下構(gòu)建了運動預(yù)測問題,最大化一組預(yù)測假設(shè)的潛在未來獎勵。通常,基于優(yōu)化的方法需要一個待優(yōu)化的特定目標(biāo)(車間期望間距和時距)和目標(biāo)函數(shù)。下面,將討論一些基于優(yōu)化某個成本函數(shù)或目標(biāo)函數(shù)思想而建立的模型,本文選擇了一些主流的方法,包括基于群的模型、博弈論模型、模仿學(xué)習(xí)和馬爾可夫決策過程。

圖片

5 建模和學(xué)習(xí)人類駕駛員間交互的方法匯總

1.基于生物種群的仿生模型

應(yīng)用Reynolds規(guī)則的大多數(shù)實例是基于牛頓運動定律傳播的動態(tài)模型,因此需要開發(fā)一套反映Reynolds規(guī)則的完整分力集合,各分力(即凝聚力、分離力和一致力)與用于模擬行人交互的各部分社會力理論完全匹配。Reynolds規(guī)則揭示了交互的基本機制,比基于社會力的理論更具普遍性。盡管受群啟發(fā)的規(guī)則成功地揭示了動物(如鳥類、魚類和羊群)之間的群體交互機制,但它們只能在自由空間或有靜態(tài)障礙物的空間(如天空中的鳥類和海洋中的魚類)中很好地工作。在交互式交通中,這些規(guī)則可能由于交通環(huán)境的約束和智能體本身的約束而失效。

圖片

圖6  自然界中的生物群聚現(xiàn)象

2.基于博弈論的模型

人類駕駛行為本質(zhì)上是一個博弈問題,人類駕駛員通過相互耦合不斷地做出決策。因此,考慮基于優(yōu)化的狀態(tài)反饋策略,駕駛員之間的交互可以形成閉環(huán)動態(tài)博弈??梢詫⑷祟愸{駛員間的交互建模為動態(tài)馬爾可夫博弈,每個智能體都能適應(yīng)其他智能體的行為,以合作或競爭的方式完成任務(wù),這種情況就形成了多智能體強化學(xué)習(xí)(MARL)。模仿人類駕駛員交互的博弈論方法通常用于設(shè)計多自動駕駛汽車間或自動駕駛汽車與人駕駛汽車之間的交互策略。一些研究者僅用博弈論來建模交互過程中的離散決策過程,另外,一些研究人員將博弈論方法與其他學(xué)習(xí)方法(如強化學(xué)習(xí),逆強化學(xué)習(xí)、模仿學(xué)習(xí))、控制理論和線性二次高斯控制結(jié)合,以模擬由決策和控制組成的整個交互過程。

(1)博弈論智能體間如何影響

目前,研究者大多選擇動態(tài)博弈將交互行為轉(zhuǎn)化為迭代優(yōu)化問題。在博弈問題中,人類駕駛員角色的分配會影響模型性能。因此,動態(tài)博弈中第一個問題就是 ‘How should the ego vehicle consider the effects and roles of other human drivers in one single stage of sequential games?’ 通常有3種:視他車為障礙物、視他車為理智的跟隨者、相互影響的執(zhí)行者。

  • 視他車為障礙物

大多數(shù)早期研究都遵循一個流程:首先,預(yù)測其他人類駕駛員的行駛軌跡,將其視為不變的運動障礙物,再將預(yù)測結(jié)果反饋給本車的規(guī)劃模塊。圖7解釋了本車和其他智能體之間的關(guān)系,值得一提的是,在自動駕駛汽車與人類駕駛汽車間的交互中,這種假設(shè)通常是有效的,因為相比于自動駕駛汽車,人類可能擁有更少的信息和更長的反應(yīng)時間。因此,與機器人的規(guī)劃和控制頻率相比,人類的行為不會突然改變,因此可以視為障礙。然而,對于同類智能體間的交互,這種方法可能會導(dǎo)致過于保守的行為,甚至在某些情況(如僵局情形)下會導(dǎo)致不安全的行為。這種交互方案本質(zhì)上是一種單向互動,只有本車受到其他車輛的影響。

  • 理性的跟隨者

為了解決保守行為和僵局的情況,研究人員將其他人類駕駛員視為理性的效用驅(qū)使智能體,他們會積極規(guī)劃自己的軌跡,以響應(yīng)(而不是影響)本車在序列博弈單階段中的內(nèi)部規(guī)劃,如圖7(b)所示。本車可以選擇一個禮貌的行為,從而引起其他人類駕駛員的最佳行為/反應(yīng),這就是典型的Stackelberg game,因此,領(lǐng)導(dǎo)者對跟隨者的行為有間接的控制。Stackelberg game假設(shè)其他人類駕駛員是理性的,通過考慮本車的規(guī)劃不變,采取其最佳動作;本車知道其他人類駕駛員的代價函數(shù)。在該架構(gòu)下,本車將其他人類駕駛員視為被動的追隨者,而不是主動的追隨者。Stackelberg game被構(gòu)建為一個雙層優(yōu)化問題,其有3種求解方法:將其重新表述為局部單層優(yōu)化問題;近似跟隨者的最優(yōu)解;為每個優(yōu)化器的唯一性設(shè)置假設(shè),該方法的缺點為忽略了車間動態(tài)相互影響,本車需要知道其他人類駕駛員的內(nèi)部函數(shù),并且人類駕駛員只是計算最佳的反應(yīng)而非試圖影響本車;在實際中,沒有統(tǒng)一的方法確定leader和follower的角色。

  • 相互影響的執(zhí)行者

在每個時間步長上,智能體間的交互都是彼此相互依賴的,如圖7(c)所示。這種動態(tài)相互依賴性可通過由strategic和tactical規(guī)劃器組成的分層博弈架構(gòu)實現(xiàn),strategic planner被建模為閉環(huán)的動態(tài)博弈,tactical planner被建模為開環(huán)的軌跡優(yōu)化器。此外,還可以使用同時博弈來捕捉動態(tài)交互依賴性,該博弈中所有車輛遵循同樣的推理策略,但每個車在選擇動作時不知道其他智能體選擇的動作。

博弈論框架為人類駕駛員之間的動態(tài)交互提供了一個可解釋的顯式解決方案。然而,盡管在簡化系統(tǒng)動力學(xué)和信息結(jié)構(gòu)方面做了很多努力,但仍難以滿足連續(xù)狀態(tài)空間和動作空間上的計算可處理性、實時性難保證。大部分基于博弈論的模型都受限于智能體數(shù)目,所以被限制在雙智能體的模擬實驗或兩兩處理多智能體場景。為了解決這個問題,Liu等人提出了兩個實用、可靠、魯棒的框架,利用帶兩種求解算法的潛在博弈實現(xiàn)自動駕駛汽車實時決策。

圖片

單階段博弈中兩智能體間的三種關(guān)系:將其他智能體視為(a) 障礙物, (b) 理性跟隨者, (c) 相互影響的執(zhí)行者

(2)考慮社會因素的博弈

社會價值反映了個體在交互過程中的經(jīng)驗,它可嵌入到智能體的效用函數(shù)中。每個駕駛員通過評估每個動作組合來獲得獎勵,該獎勵通常是自身獎勵與其他智能體獎勵的權(quán)重組合,即

圖片

其中,

圖片

表示駕駛員的社會偏好,社會偏好的平衡可以通過調(diào)整指標(biāo)

圖片

圖片

來反映。如圖8展示了評估人類駕駛員社會偏好的方法:線性加和為1、社會價值的環(huán)形測量、CMetric。

  • 線性加和為1

圖片

如果

圖片

接近1,會導(dǎo)致本車的自私行為。該結(jié)構(gòu)已被應(yīng)用于自動駕駛汽車在匯入行為等交互場景下的社會決策設(shè)計中。

  • 社會價值的環(huán)形測量

用環(huán)形測量將社會價值投射在二維空間上,這種方法是衡量個人人際效用最可靠的模型之一?;谶@一定義,Schwarting等人通過使用SVO角度偏好來評估社會價值,角度偏好與社會價值關(guān)系為

圖片

其中,

圖片

表示本車的社會價值取向。然而,這些模型無法實時估計人類的社交偏好,而是為每個智能體選擇并學(xué)習(xí)一個固定的參數(shù)。

  • CMetric

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25