日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號(hào)
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

用于軌跡預(yù)測的多模態(tài)深度生成模型:一種條件變分自編碼器方法

2022-10-18 19:35:28·  來源:同濟(jì)智能汽車研究所  
 
編者按:自動(dòng)駕駛需要在動(dòng)態(tài)和不確定的環(huán)境中做出決策。其中不確定性包含了1) 其他交通參與者的未知意圖;2) 未知的未來軌跡;3) 與主車的交互。針對交通參與者

編者按:自動(dòng)駕駛需要在動(dòng)態(tài)和不確定的環(huán)境中做出決策。其中不確定性包含了1) 其他交通參與者的未知意圖;2) 未知的未來軌跡;3) 與主車的交互。針對交通參與者的軌跡預(yù)測可用于降低上述不確定性,更好的了解交通環(huán)境,從而實(shí)現(xiàn)更安全高效的自動(dòng)駕駛。監(jiān)督深度學(xué)習(xí)已成功應(yīng)用于軌跡預(yù)測問題,但缺乏概率推理的方法難以對復(fù)雜的結(jié)構(gòu)化輸出進(jìn)行建模。本文采用的條件變分自編碼器方法對環(huán)境中未知的隱變量建模,強(qiáng)調(diào)特征設(shè)計(jì),通過隨機(jī)前饋推理進(jìn)行預(yù)測。

本文譯自:

《Multimodal Deep Generative Models for Trajectory Prediction: A Conditional Variational Autoencoder Approach》

文章來源:IEEE ROBOTICS AND AUTOMATION LETTERS, VOL. 6, NO. 2, APRIL 2021

作者:

Boris Ivanovic; Karen Leung; Edward Schmerling; Marco Pavone

原文鏈接:

https://ieeexplore.ieee.org/abstract/document/9286482


摘要:基于人類行為預(yù)測模型,機(jī)器人能夠預(yù)測人類的反應(yīng),這有助于設(shè)計(jì)安全、主動(dòng)的機(jī)器人規(guī)劃算法。然而,對復(fù)雜的交互動(dòng)力學(xué)進(jìn)行建模,并在這種交互環(huán)境中捕獲多種可能性是非常具有挑戰(zhàn)性的。在這項(xiàng)工作中,我們提供了一個(gè)用于人類行為預(yù)測的條件變分自編碼器(CVAE)方法,該方法的核心是根據(jù)過去的交互和機(jī)器人未來的候選動(dòng)作,在未來的人類軌跡上產(chǎn)生多模態(tài)概率分布。本論文的目標(biāo)是回顧人類行為預(yù)測中的最先進(jìn)方法,從基于物理的方法到純粹數(shù)據(jù)驅(qū)動(dòng)的方法,提供一個(gè)嚴(yán)格但易懂的描述,以數(shù)據(jù)驅(qū)動(dòng)、基于CVAE的方法,強(qiáng)調(diào)重要的特征設(shè)計(jì),使其成為在基于模型的人機(jī)交互規(guī)劃環(huán)境中有吸引力的模型,并在使用此類模型時(shí)提供重要的設(shè)計(jì)考慮。


關(guān)鍵詞:自動(dòng)駕駛汽車,深度學(xué)習(xí)方法,社會(huì)人機(jī)交互

I.引言

人類的行為在人群、環(huán)境甚至不同的瞬間都是不一致的,解決這種固有的不確定性是人機(jī)交互(HRI)的基本挑戰(zhàn)之一。即使當(dāng)一個(gè)人的意圖是已知的,往往有多個(gè)不同的行動(dòng)過程,人們可以追求實(shí)現(xiàn)他們的目標(biāo)。例如,在圖1中,穿過道路的行人可以通過迎面而來的行人的左側(cè)或右側(cè);關(guān)于這種情況的推理不能簡化為“一般”情況,即行人相撞。對觀察者來說,選擇似乎有隨機(jī)性,但也取決于環(huán)境的演化。賦予機(jī)器人考慮人類對其行為做出反應(yīng)的能力,是實(shí)現(xiàn)前瞻性和主動(dòng)性機(jī)器人決策策略的關(guān)鍵組成部分,該策略可以實(shí)現(xiàn)更安全、更高效的交互。
為了創(chuàng)造能夠與人類智能交互的機(jī)器人,觀察于人類交互的數(shù)據(jù)為建模交互動(dòng)力學(xué)提供了有用的思路(參見[1]中的綜述)。機(jī)器人可能會(huì)根據(jù)在類似環(huán)境中看到的人類行為,對人類的行為和相應(yīng)的概率進(jìn)行推理。為了實(shí)現(xiàn)機(jī)器人的控制策略,無模型方法以端到端的方式解決這個(gè)問題。人類行為預(yù)測隱含在機(jī)器人的策略中,該策略直接從數(shù)據(jù)中學(xué)習(xí)。另一方面,基于模型的方法將模型學(xué)習(xí)和策略構(gòu)建解耦——對交互動(dòng)態(tài)的概率被用作策略構(gòu)建的基礎(chǔ)。通過將行動(dòng)/反應(yīng)預(yù)測與策略解耦,基于模型的方法通常為規(guī)劃器的決策提供一定程度的透明度,這在無模型方法中通常是不可行的。在本文中,我們采用一種基于模型的方法來研究HRI,重點(diǎn)是學(xué)習(xí)人類行為的模型,或者更具體地說,學(xué)習(xí)未來人類行為的分布(例如軌跡)。

圖片

圖1 一種互動(dòng)(例如,過馬路的行人)可能會(huì)演變成許多不同的方式。為了實(shí)現(xiàn)安全的人機(jī)交互,機(jī)器人(如自動(dòng)駕駛汽車)需要考慮多種結(jié)果的可能性(用彩色陰影箭頭表示),并了解其行為如何影響其他人的行為。插圖:交互的圖形表示。

在基于模型的HRI方法中,有許多現(xiàn)有的人類行為建模方法,它們可以大致分為基于本體的或基于現(xiàn)象的。為了將我們的工作與其他方法進(jìn)行對比,我們將建立一個(gè)關(guān)于該領(lǐng)域不同類型的本體和現(xiàn)象最新方法的分類。我們注意到,這些方法可以在其他維度上進(jìn)行不同的分類(例如,模型是否產(chǎn)生概率或確定性預(yù)測)。在高層次上,本體論方法(有時(shí)被稱為“心理理論”)假設(shè)了一個(gè)關(guān)于主體行為的核心底層結(jié)構(gòu),并在此基礎(chǔ)上建立了一個(gè)數(shù)學(xué)模型。例如,他們可能會(huì)制定一套智能體必須遵循的規(guī)則,或者一個(gè)描述智能體內(nèi)部決策方案的分析模型。相比之下,現(xiàn)象學(xué)方法并沒有做出如此強(qiáng)大的建模假設(shè),而是依賴大量數(shù)據(jù)來建模智能體行為,而沒有明確地對潛在動(dòng)機(jī)進(jìn)行推理。

我們從現(xiàn)象學(xué)的角度來處理這個(gè)問題,特別是關(guān)注使用條件變分自動(dòng)編碼器(CVAE)[2]來學(xué)習(xí)一個(gè)非常適合基于模型的規(guī)劃和控制的人類行為預(yù)測模型[3]。我們試圖明確描述人類行為在每個(gè)時(shí)間步的多模態(tài)不確定性,這取決于交互歷史以及未來的機(jī)器人行為選擇。對交互歷史的條件反射允許機(jī)器人對可能影響分布的經(jīng)驗(yàn)、情緒或參與程度等隱藏因素進(jìn)行推理,而對機(jī)器人下一個(gè)動(dòng)作選擇的條件反射則考慮了反應(yīng)動(dòng)力學(xué)。特別是由于后一種能力,條件行為預(yù)測模型在交互場景中的規(guī)劃中取得了巨大成功,然而,這種模型普遍存在的一個(gè)問題是,當(dāng)從離線數(shù)據(jù)中學(xué)習(xí)時(shí),它們可能無法區(qū)分相關(guān)性和因果關(guān)系。

本文目標(biāo):本文的主要目標(biāo)是提供一個(gè)關(guān)于[3]、[6]、[7]和[8]中提出和開發(fā)的基于CVAE的人體軌跡預(yù)測模型的完整教程。在深入研究我們方法的細(xì)節(jié)之前,我們建立了一個(gè)在交互環(huán)境中預(yù)測人類行為的最先進(jìn)方法的分類,以便深入了解我們的工作最適合的問題設(shè)置和系統(tǒng)設(shè)計(jì)目標(biāo)。因此,本文的貢獻(xiàn)有五個(gè)方面:我們(i)提供了交互環(huán)境中人類行為預(yù)測的本體論和現(xiàn)象學(xué)方法的簡明分類,并進(jìn)行了專門的討論,以提出我們的方法(第二節(jié)),(ii)介紹CVAE,并詳細(xì)介紹了人類軌跡預(yù)測的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)(第三節(jié)),(iii)展示該模型的優(yōu)點(diǎn),重點(diǎn)在于其對多智能體設(shè)置的可擴(kuò)展性、異構(gòu)數(shù)據(jù)的使用,以及生成基于動(dòng)力學(xué)模型的輸出軌跡分布的分析表示的能力(第四節(jié)和第五節(jié)),(iv)將這種方法的性能與其他最先進(jìn)的現(xiàn)象學(xué)方法進(jìn)行比較,并討論使用該模型的重要注意事項(xiàng)(第六節(jié))。



II.相關(guān)工作

預(yù)測人類行為的方法可以分為本體論方法和現(xiàn)象學(xué)方法。本體論模型對智能體的動(dòng)力學(xué)或動(dòng)機(jī)做出假設(shè)。一個(gè)方向是對系統(tǒng)的基本物理模型進(jìn)行假設(shè),然后導(dǎo)出狀態(tài)空間模型。例如,社會(huì)力模型[9]通過對主體之間的吸引力和排斥力進(jìn)行假設(shè),來制定交互動(dòng)力學(xué)。類似地,智能駕駛員模型(IDM)[10]推導(dǎo)出了一個(gè)連續(xù)跟車微分方程模型。由于這些模型的簡單性,它們在模擬大規(guī)模交互時(shí)非常有用,例如人群動(dòng)力學(xué)[11]或交通流[12]。盡管這些方法捕捉了智能體之間的耦合,但它們基本上是交互的單峰表示(即不考慮多個(gè)不同未來的可能性),并且不利用過去交互的知識(shí)。

我們可以對人類的內(nèi)部決策過程進(jìn)行假設(shè),而不是明確地制定交互動(dòng)力學(xué)。博弈論方法通過假設(shè)另一個(gè)智能體是合作的[13]還是對抗的[14]來建模交互動(dòng)力學(xué),并利用這些信息進(jìn)行機(jī)器人規(guī)劃。對于具有社會(huì)意識(shí)的機(jī)器人導(dǎo)航,[15]、[16]可以推斷出人類的情緒或支配地位,并將其告知機(jī)器人規(guī)劃器。一種流行的方法是將人類建模為最優(yōu)規(guī)劃器,并將其在每個(gè)時(shí)間步的動(dòng)機(jī)表示為依賴于狀態(tài)/行動(dòng)的獎(jiǎng)勵(lì)(相當(dāng)于負(fù)成本)函數(shù)。最大化這個(gè)函數(shù),例如,通過跟隨它的梯度來選擇下一個(gè)動(dòng)作,可以被認(rèn)為是人類決策。

逆強(qiáng)化學(xué)習(xí)(IRL)[17],[18]是這一思想的推廣。獎(jiǎng)勵(lì)函數(shù)通常表示為可能的非線性特征r(x, u)=θTφ(x, u)的線性組合,其中權(quán)重參數(shù)θ適用于最小化優(yōu)化r的動(dòng)作和真實(shí)人類動(dòng)作之間的誤差度量。IRL的一個(gè)典型優(yōu)勢是它的可解釋性,包括手工制作的特征,以及學(xué)習(xí)到的線性權(quán)重揭示的特征重要性。最大熵(MaxEnt)IRL[19]以概率的方式應(yīng)用這一原理;人類行為的概率分布與獎(jiǎng)勵(lì)的指數(shù)成正比,即p(u)∝exp(r(x, u))。該框架已被用于模擬駕駛[20]和社交導(dǎo)航[21]環(huán)境中的人類行為,然后用于告知機(jī)器人的規(guī)劃策略。理論上,由于獎(jiǎng)勵(lì)函數(shù)中有足夠復(fù)雜和眾多的特征,MaxEnt-IRL可以任意很好地逼近任何(包括多峰)分布,這使得它成為我們應(yīng)用HRI的一個(gè)很有吸引力的候選者。然而,Max Erl的典型應(yīng)用有兩個(gè)主要缺點(diǎn),這促使我們考慮另一種方法。首先,盡管學(xué)習(xí)到的分布可能是多模態(tài)的,但如果它被表示為非標(biāo)準(zhǔn)化對數(shù)概率密度函數(shù)(即r(x, u)),則在規(guī)劃時(shí)(例如,通過采樣),可能沒有一種計(jì)算上易于理解的方法來解釋這種多模態(tài)。之前的工作依賴于搜索顯式模式枚舉[21],或者在[20]的情況下,它為智能車輛基于最大IRL的預(yù)測和策略構(gòu)建開發(fā)了一個(gè)統(tǒng)一且易于處理的框架,由此產(chǎn)生的策略采用基于梯度的局部優(yōu)化,盡管學(xué)習(xí)了名義上的多峰分布,最終導(dǎo)致對交互結(jié)果的單峰假設(shè)。其次,IRL通常用于學(xué)習(xí)少數(shù)人類可解釋特征的重要性權(quán)重。使用更復(fù)雜、可能更深入的特征來提高模型的表達(dá)能力,消除了IRL的一個(gè)關(guān)鍵好處,反而促進(jìn)了現(xiàn)象學(xué)方法的使用。例如,雖然這不是IRL的一個(gè)基本限制,但為了最大限度地提高可解釋性,現(xiàn)有工作通常在構(gòu)建僅依賴于當(dāng)前狀態(tài)的特征時(shí)做出馬爾可夫假設(shè)[20],因此在對未來行為進(jìn)行推理時(shí),不會(huì)捕捉交互歷史。一般來說,基于獎(jiǎng)勵(lì)的方法在數(shù)據(jù)有限的情況下是有效的,因?yàn)橹挥猩贁?shù)幾個(gè)參數(shù)需要學(xué)習(xí),并且可以轉(zhuǎn)移到新的和看不見的任務(wù)[22]。然而,在大量數(shù)據(jù)的存在下,在交互歷史的條件下,考慮現(xiàn)象學(xué)方法是很自然的。

現(xiàn)象學(xué)方法是不對交互動(dòng)力學(xué)和智能體決策過程的結(jié)構(gòu)進(jìn)行固有假設(shè)的方法。相反,他們依靠強(qiáng)大的建模技術(shù)和豐富的觀測數(shù)據(jù)來推斷和復(fù)制復(fù)雜的相互作用。最近,隨著長短期記憶(LSTM)網(wǎng)絡(luò)[25]的成功,出現(xiàn)了大量基于深度學(xué)習(xí)的回歸模型,用于預(yù)測未來的人類軌跡(例如[23],[24])。長短期記憶(LSTM)網(wǎng)絡(luò)是一種專門構(gòu)建的用于建模時(shí)間序列數(shù)據(jù)的深度學(xué)習(xí)體系結(jié)構(gòu)。然而,這種方法只產(chǎn)生單一的確定性軌跡輸出,因此忽略了捕捉人類行為固有的不確定性。安全關(guān)鍵系統(tǒng)需要對許多可能的未來結(jié)果進(jìn)行推理,以防止出現(xiàn)最壞情況,最好是考慮到每種情況發(fā)生的可能性,從而實(shí)現(xiàn)安全決策。因此,最近人們對同時(shí)預(yù)測多個(gè)可能的未來或產(chǎn)生未來可能結(jié)果分布的方法產(chǎn)生了興趣。

由于生成性建模[2],[26]的最新進(jìn)展,已經(jīng)出現(xiàn)了從確定性回歸到生成性模型的范式轉(zhuǎn)變,即生成未來可能行為分布的模型。特別是,深度生成方法(基于神經(jīng)網(wǎng)絡(luò)的模型,從中學(xué)習(xí)數(shù)據(jù)集采樣的真實(shí)潛在概率分布的近似值)已成為最先進(jìn)的方法。有兩種主要的深層生成方法在該領(lǐng)域占據(jù)主導(dǎo)地位,(條件)生成對抗網(wǎng)絡(luò)((C)GANs)[26],[27]和(條件)變分自動(dòng)編碼器((C)VAEs)[2],[28]。這兩種方法已廣泛應(yīng)用于交互式環(huán)境(例如[29]–[32])中的未來人體軌跡預(yù)測。GAN由生成器和鑒別器網(wǎng)絡(luò)組成,以產(chǎn)生真實(shí)的輸出,生成器輸出樣本,然后由鑒別器“判斷”。盡管基于GAN的模型顯示了有希望的結(jié)果,但存在兩個(gè)主要局限性。首先,GAN學(xué)習(xí)經(jīng)常遭受模式崩潰的影響,這種現(xiàn)象是模型收斂到分布模式,無法捕獲和產(chǎn)生不同的輸出[33]。這與安全型應(yīng)用不兼容,在這些應(yīng)用程序中,捕獲罕見但潛在的災(zāi)難性后果非常重要。其次,眾所周知,GAN很難訓(xùn)練,因?yàn)樯善骱丸b別器之間的沖突會(huì)導(dǎo)致訓(xùn)練過程不穩(wěn)定[34],[35]。此外,盡管在目標(biāo)函數(shù)的定義方面提供了靈活性,但GANs基本上輸出了樣本的經(jīng)驗(yàn)分布,這可能會(huì)限制可使用的基于模型的規(guī)劃器/控制器的類型(例如,依賴參數(shù)化分布的規(guī)劃器)。

(C)VAEs采用變分貝葉斯方法;他們通過將隱藏屬性提取為概率分布,然后從潛在分布中“解碼”樣本,以產(chǎn)生所需的輸出,從而學(xué)習(xí)真實(shí)潛在概率分布的近似值。與GANs相比,CVAEs優(yōu)化了訓(xùn)練集中所有示例的可能性,這意味著考慮了分布的所有模式,并且不太可能出現(xiàn)模式崩潰和缺乏GANs多樣性的問題。此外,CVAE可以從分布中生成經(jīng)驗(yàn)樣本,也可以生成分布的分析表示,這使得它們在基于模型的規(guī)劃和控制環(huán)境中可能比GANs更通用。

因此,在選擇一種建模交互動(dòng)力學(xué)和執(zhí)行人類行為預(yù)測的方法時(shí),需要考慮很多因素。在具有大量可用數(shù)據(jù)的HRI環(huán)境中,以及需要高表達(dá)能力來捕捉交互細(xì)微差別和輸出空間上的多模態(tài)分布覆蓋,我們將這項(xiàng)工作的剩余部分集中在使用CVAEs進(jìn)行人體軌跡預(yù)測上。

圖片


圖2  CVAE的圖模型,以及用于人類行為預(yù)測的CVAE的神經(jīng)網(wǎng)絡(luò)架構(gòu)。實(shí)線表示生成過程(預(yù)測過程),虛線表示用于變分推理(訓(xùn)練過程)。


 III. 用于交互感知行為預(yù)測的條件變分自編碼器

A 條件變分自編碼器

給定數(shù)據(jù)集

圖片

,條件生成建模的目標(biāo)是擬合條件概率分布p(y|x)的模型,該模型可用于下游應(yīng)用,例如推理(即給定x,計(jì)算觀察特定樣本y的概率),或者生成給定x的新樣本y。因此,我們考慮在由一組固定的參數(shù)定義的分布族內(nèi)的p(y|x),我們適合于以最大化觀測數(shù)據(jù)的似然為目標(biāo)的數(shù)據(jù)集。由于其表達(dá)能力,神經(jīng)網(wǎng)絡(luò)通常用于表示復(fù)雜的高維分布。CVAE[2]是一種條件生成模型。目標(biāo)仍然是近似p(y|x),但在輸出p(y|x)之前,模型首先將輸入投影到一個(gè)稱為隱空間的低維空間,該空間使模型發(fā)現(xiàn)顯著特征,以達(dá)到提高性能的預(yù)期目的,并可能有助于解釋性。圖2(a)示出了CVAE的圖模型。由θ參數(shù)化的編碼器接收輸入x并產(chǎn)生分布pθ(z | x),其中z是隱變量,可以是連續(xù)的或離散的[36],[37]。由φ參數(shù)化的解碼器使用x和來自pθ(z | x)的樣本來產(chǎn)生pφ(y | x, z)。實(shí)際上,編碼器和解碼器都是神經(jīng)網(wǎng)絡(luò)。然后將隱變量z邊緣化,得到p(y | x),


圖片


為了有效地執(zhí)行(1)中的邊緣化,我們需要可能產(chǎn)生y的z值,否則pθ(z | x)≈ 0對p(y | x)幾乎沒有貢獻(xiàn)。為此,我們通過從q(z | x, y)進(jìn)行抽樣來執(zhí)行重要性抽樣,這是一種提議分布,這將幫助我們選擇可能產(chǎn)生y的z值。由于我們可以自由選擇q(z | x, y),我們用ψ對其進(jìn)行參數(shù)化(通常作為神經(jīng)網(wǎng)絡(luò)),用qψ(z | x, y)表示。我們可以重寫(1),

圖片


目標(biāo)是擬合參數(shù)φ,θ和ψ,以最大化數(shù)據(jù)集上p(y | x)的對數(shù)似然。通過取雙方的對數(shù),使用Jensen不等式,并重新排列這些項(xiàng),得出了證據(jù)下限(ELBO),

圖片


其中

圖片

是Kullback-Liebler散度,ELBO是對數(shù)p(y | x)上的一個(gè)下界,我們試圖最大化這個(gè)量,但直接用(1)來計(jì)算它往往很困難。相反,我們最大化ELBO作為代理。通過使用重新參數(shù)化技巧[28]、[36]、[37],ELBO易于計(jì)算,并且可以通過隨機(jī)梯度下降進(jìn)行優(yōu)化。單個(gè)訓(xùn)練示例(x,y)的損失為,

圖片


在訓(xùn)練期間,我們最小化訓(xùn)練集上的蒙特卡羅估計(jì)的期望損失。

B 交互感知人類行為預(yù)測

我們感興趣的是學(xué)習(xí)一個(gè)模型,該模型能夠預(yù)測智能體(即,我們假設(shè)這些代理是人類或人類控制的)與環(huán)境中其他智能代理交互的未來軌跡。具體來說,我們需要一個(gè)模型,該模型(i)依賴于歷史,以便捕捉行為趨勢或意圖,(ii)考慮所有代理之間的耦合交互動(dòng)力學(xué),(iii)在未來的人類軌跡上產(chǎn)生多模態(tài)分布,因?yàn)槿祟愒诮换キh(huán)境中可能有許多不同的行為方式,(iv)非常適合基于模型的規(guī)劃,因?yàn)槲覀兊淖罱K目標(biāo)是設(shè)計(jì)能夠利用這些預(yù)測與人類無縫互動(dòng)的機(jī)器人。我們提出的序列到序列CVAE軌跡預(yù)測架構(gòu),如圖2(b)所示,能夠通過以下方式解決這些需求。

為了解決上述(i)和(ii),輸入條件變量x由表示交互歷史的特征、自交互開始以來所有代理的一系列特征(例如位置、速度、動(dòng)作)以及未來機(jī)器人軌跡、機(jī)器人計(jì)劃在規(guī)劃范圍內(nèi)遵循的一系列狀態(tài)和/或動(dòng)作組成。此外,我們還可以包括其他可能與應(yīng)用相關(guān)的功能,例如環(huán)境地圖或機(jī)器人的攝像頭圖像(見第五節(jié))。輸出y是我們感興趣的所有人類代理的未來狀態(tài)/動(dòng)作序列。由于輸出部分取決于機(jī)器人將來將做什么,因此該模型學(xué)習(xí)耦合交互動(dòng)力學(xué)。我們將在第五節(jié)稍后討論如何整合預(yù)測的動(dòng)作分布,以生成完整的動(dòng)態(tài)可行軌跡預(yù)測。

為了解決(iii),通過使用離散的隱空間來構(gòu)造多峰分布。z的每個(gè)隱向量實(shí)例化對應(yīng)于離散模式(即混合分量),其概率pθ(z | x)由編碼器產(chǎn)生(對應(yīng)于混合權(quán)重)。例如,其中一種離散模式可能對應(yīng)于人類駕駛員的制動(dòng),而另一種可能對應(yīng)于右轉(zhuǎn)。請注意,并不能保證對每個(gè)隱變量賦予語義,這是一個(gè)活躍的研究領(lǐng)域[38]??梢允褂眠B續(xù)的隱空間,但在我們的工作中,我們發(fā)現(xiàn)離散的隱空間更有效。對于給定的模式,這種行為的發(fā)生方式可能會(huì)有所不同(例如,右轉(zhuǎn)的方式略有不同)。為了適應(yīng)這些變化并考慮連續(xù)狀態(tài)或動(dòng)作中的依賴性,解碼器輸出高斯混合模型(GMM)的自回歸序列。我們想強(qiáng)調(diào)的是,在這里使用GMM并不是在軌跡上創(chuàng)建多模式分布的主要機(jī)制;這就是隱空間的作用。在預(yù)測時(shí)域的每個(gè)時(shí)間步,解碼器輸出描述輸出特征分布的GMM分量,然后從GMM中提取樣本,并用于在下一個(gè)時(shí)間步生成GMM。重復(fù)此過程將創(chuàng)建從p(y | x)中提取的樣本。對于單個(gè)GMM分量(即高斯分量)的情況,可以傳播每個(gè)時(shí)間步的均值和方差,而不是樣本,從而實(shí)現(xiàn)輸出分布的分析表示(見第五節(jié))。

輸出分布表示方式的靈活性(iv);我們可以根據(jù)基于模型的規(guī)劃器的需求定制輸出。具體來說,我們可以選擇以經(jīng)驗(yàn)(即直接輸出樣本)或分析(即分布的輸出參數(shù))來描述學(xué)習(xí)到的分布。此外,對于如何構(gòu)造編碼器和解碼器,還有許多選項(xiàng)。我們主要利用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來處理具有可變長度的時(shí)間序列數(shù)據(jù),而不增加問題的規(guī)模。正如我們將在第四和第五節(jié)中描述的,我們可以增加模型來考慮多個(gè)代理和異構(gòu)數(shù)據(jù)輸入之間的時(shí)空關(guān)系(例如,狀態(tài)軌跡、圖像和地圖)。

C 案例研究

我們重現(xiàn)了[3]中研究的交通場景,以說明我們方法的關(guān)鍵特征。在場景中,最初并排行駛的兩輛車必須在短時(shí)間和短距離內(nèi)交換車道,模擬汽車在高速公路上/下合流。這是一個(gè)具有挑戰(zhàn)性的場景,因?yàn)檎l將通過誰的固有多模式不確定性。在開始之前,我們要說兩句話。首先,我們將LSTM用于編碼器和解碼器網(wǎng)絡(luò),因?yàn)槲覀儼l(fā)現(xiàn)這種RNN架構(gòu)在評(píng)估損失方面提供了最佳性能。其次,我們選擇預(yù)測未來的人類動(dòng)作序列,并使用未來的機(jī)器人動(dòng)作序列作為輸入,因?yàn)檫@與我們的案例研究一致。但是,對于其他應(yīng)用,可以使用狀態(tài)來代替操作。

交互歷史被定義為自交互開始以來兩個(gè)代理的狀態(tài)和動(dòng)作序列。我們認(rèn)為未來的機(jī)器人動(dòng)作序列作為一個(gè)額外的輸入;這與交互歷史一起形成條件變量x。學(xué)習(xí)CVAE模型定義了隱變量z上的分布pθ(z | x),該分布與x一起輸入解碼器pψ(y | x, z),以生成預(yù)測的人類動(dòng)作序列y。LSTM解碼器生成描述每個(gè)時(shí)間步人類動(dòng)作分布的GMM分量;為了產(chǎn)生序列y,從GMM中采樣一個(gè)動(dòng)作,并將其反饋到LSTM單元以產(chǎn)生下一個(gè)動(dòng)作,依此類推。

在圖3中,當(dāng)機(jī)器人決定要采取的下一個(gè)動(dòng)作時(shí),它可以預(yù)測人類可能對其每個(gè)候選未來動(dòng)作序列做出的反應(yīng)(藍(lán)色虛線)。預(yù)測中的不同顏色(細(xì)線)展示了輸出分布中的不同模式,即離散隱變量z。例如,淺藍(lán)色軌跡對應(yīng)于人類加速,而深黃色軌跡對應(yīng)于人類減速。根據(jù)這個(gè)交互模型,機(jī)器人可以通過搜索一組可能的未來動(dòng)作序列并選擇一個(gè)能產(chǎn)生最高預(yù)期回報(bào)的動(dòng)作序列來選擇下一個(gè)動(dòng)作。該基于模型的規(guī)劃器在模擬器[3]和全尺寸試驗(yàn)車輛[5]上進(jìn)行了測試和驗(yàn)證。

圖片


圖3 未來人類動(dòng)作序列的預(yù)測取決于機(jī)器人的未來動(dòng)作序列(藍(lán)色虛線)。未來人類行為序列的不同顏色對應(yīng)于不同的離散隱變量實(shí)例化(即多模態(tài)輸出分布中的不同模式)。該圖改編自[3]。


 IV. 擴(kuò)展到多智能體交互

在現(xiàn)實(shí)世界中,智能體同時(shí)與許多其他智能體交互,例如行人穿過人群、車輛穿過十字路口或高速公路上的合流。因此,在前一節(jié)中討論的模型需要擴(kuò)展以考慮一般的智能體數(shù)量以及它們之間的時(shí)空關(guān)系。

A 對一般數(shù)量的智能體進(jìn)行建模

建模此類交互的自然方法是將場景抽象為時(shí)空圖(STG)G=(V, E),之所以這樣命名,是因?yàn)樗鼘⒅悄荏w表示為節(jié)點(diǎn),將其交互表示為邊,邊隨時(shí)間演化。邊(u, v)∈E表示如果代理u與代理v“交互”。作為學(xué)習(xí)交互模型的輸入,空間接近度是兩個(gè)智能體是否可以直接交互[23]、[24]、[30]、[31]。具體來說,如果||pu-pv||2<d,則兩個(gè)節(jié)點(diǎn)u和v存在交互。以這種方式抽象場景的一個(gè)好處是,它可以將任何類似結(jié)構(gòu)的方法應(yīng)用于各種環(huán)境,甚至不同的問題領(lǐng)域(例如,在計(jì)算機(jī)視覺中建模人機(jī)交互[24])。圖1顯示了自動(dòng)駕駛場景的STG抽象示例。

這將軌跡預(yù)測問題從一個(gè)建模智能體及其交互轉(zhuǎn)變?yōu)橐粋€(gè)建模節(jié)點(diǎn)及邊。這里的關(guān)鍵挑戰(zhàn)是,一個(gè)代理可以有一般數(shù)量的鄰居,這些鄰居會(huì)隨著場景的變化而變化。因此,生成的模型需要能夠處理固定體系結(jié)構(gòu)的一般數(shù)量的輸入(因?yàn)樯窠?jīng)網(wǎng)絡(luò)權(quán)重具有固定的大?。?。為此,可以擴(kuò)展第III-C節(jié)中討論的架構(gòu),使其模擬場景STG的結(jié)構(gòu)。特別是,為連接到節(jié)點(diǎn)的每條邊(直接建模邊)添加一個(gè)LSTM,并使用中間聚合步驟,以便組合來自相同類型的相鄰節(jié)點(diǎn)的影響。這是[6]中采用的方法,證明了這種結(jié)構(gòu)可以模擬相鄰代理的影響。

雖然這使我們能夠?qū)σ话銛?shù)量的代理進(jìn)行建模,但還需要考慮一個(gè)事實(shí),即V和E是時(shí)變的。這在自動(dòng)駕駛中尤其明顯,因?yàn)檐囕v傳感器的范圍有限。因此,代理可以在每一個(gè)時(shí)間步出現(xiàn)和消失,例如,由于在靠近ego車輛的高速公路上或高速公路下合并。即使智能體的數(shù)量是恒定的,它們之間的相互作用也必然是時(shí)變的,因?yàn)橹悄荏w在移動(dòng)時(shí)與其他代理的空間接近度會(huì)發(fā)生變化。因此,本小節(jié)中討論的邊緣編碼方案需要進(jìn)一步擴(kuò)展,以捕獲時(shí)變結(jié)構(gòu)。

B 建模時(shí)變交互

引入時(shí)變將STG表示從G=(V, E)修改為Gt=(Vt, Et)。不幸的是,簡單地按照每個(gè)時(shí)間步重新創(chuàng)建一個(gè)新的STG并應(yīng)用上述建模方法將是昂貴且低效的,因?yàn)樗粫?huì)回收可能在多個(gè)時(shí)間步中持續(xù)存在的信息(例如,跟蹤哪些邊是新的、已建立的或最近刪除的)。

另一種方法是引入一個(gè)標(biāo)量,該標(biāo)量根據(jù)邊添加或刪除的最近時(shí)間來調(diào)制每個(gè)邊緣編碼LSTM的輸出。這是[7]中采用的方法,其中標(biāo)量在0到1之間變化,并在模型的其余部分包含邊影響充當(dāng)附加權(quán)重因子。這種輸出重新加權(quán)還可以作為一個(gè)低通濾波器,以便新添加或刪除的邊緣不會(huì)使模型輸出從一個(gè)時(shí)間步劇烈擺動(dòng)到另一個(gè)時(shí)間步,從而抑制上游感知系統(tǒng)產(chǎn)生的高頻噪聲(例如,當(dāng)車輛在傳感器范圍限值附近抖動(dòng)時(shí))。這種方法的一個(gè)主要優(yōu)點(diǎn)是在線更新速度快,因?yàn)槟P偷臓顟B(tài)表示只需要幾次矩陣乘法運(yùn)算就可以捕捉到新的觀察結(jié)果[7]。這在機(jī)器人用例中尤其重要,因?yàn)闄C(jī)器人用例通常需要實(shí)時(shí)從流數(shù)據(jù)在線運(yùn)行。我們將在第VI-C節(jié)中進(jìn)一步討論運(yùn)行時(shí)注意事項(xiàng)。


 V . 結(jié)合智能體動(dòng)力學(xué)和異構(gòu)輸入數(shù)據(jù)

到目前為止,我們已經(jīng)了解了如何在場景中概率地建模一般的、時(shí)變數(shù)量的交互智能體。在本節(jié)中,我們將深入探討輸出結(jié)構(gòu)的考慮因素,特別是那些確保輸出軌跡可行性的結(jié)構(gòu),以及包括現(xiàn)代機(jī)器人平臺(tái)上常見的額外信息源的方法,例如周圍環(huán)境的高清(HD)地圖。

A 生成動(dòng)力學(xué)可行的輸出

在行為預(yù)測中,大多數(shù)方法的共同點(diǎn)是最終需要在空間坐標(biāo)中產(chǎn)生輸出,因?yàn)檫@是施加許多規(guī)劃約束的地方;事實(shí)上,學(xué)術(shù)行為預(yù)測文獻(xiàn)中的大部分評(píng)估指標(biāo)都是在空間坐標(biāo)上定義的[1]。因此,大多數(shù)方法要么直接生成軌跡樣本(例如,GANs),要么利用中間模型將內(nèi)部表示轉(zhuǎn)換為具有不確定性的位置(例如,基于CVAE的方法,帶有輸出雙變量GMM的解碼器),如前幾節(jié)討論的體系結(jié)構(gòu)。然而,這兩種輸出結(jié)構(gòu)都很難實(shí)施動(dòng)力學(xué)約束,例如非完整約束,例如由無滑移條件產(chǎn)生的約束。如果不考慮這些因素,可能會(huì)導(dǎo)致潛在行為無法實(shí)現(xiàn)的預(yù)測(例如,預(yù)測汽車將側(cè)向移動(dòng))。

為了解決這個(gè)問題,我們可以利用動(dòng)力學(xué)建模中的已有思想。在選擇要實(shí)施的動(dòng)力學(xué)模型時(shí),人們通常會(huì)在建模復(fù)雜性和計(jì)算效率之間找到折衷。然而,在自動(dòng)駕駛的情況下,感知要求的形式還有一個(gè)額外的復(fù)雜因素。理想情況下,選擇的智能體模型將最好地匹配它們的語義類型。例如,人們通常會(huì)使用自行車模型在路上模擬汽車[39]。然而,估計(jì)另一輛車的自行車模型參數(shù)或動(dòng)作非常困難,因?yàn)樗枰烙?jì)車輛的質(zhì)心、軸距和前輪轉(zhuǎn)向角。一個(gè)沒有如此高估計(jì)要求的相關(guān)模型是動(dòng)態(tài)擴(kuò)展的獨(dú)輪車模型[40]。它在精度(考慮關(guān)鍵的車輛非完整約束,例如無滑移約束)和效率(只有四個(gè)狀態(tài)和兩個(gè)動(dòng)作)之間取得了很好的平衡,不需要復(fù)雜的在線參數(shù)估計(jì)程序(只需要估計(jì)車輛的位置和速度)。這種動(dòng)力學(xué)模型的選擇遵循了[8]中的選擇,通過實(shí)驗(yàn)表明,這種簡化模型已經(jīng)對提高預(yù)測精度產(chǎn)生了相當(dāng)大的影響。

為了考慮這些動(dòng)力學(xué)因素,我們應(yīng)該將他們的學(xué)習(xí)體系結(jié)構(gòu)視為在智能體的動(dòng)作而不是位置上產(chǎn)生分布,并通過智能體的動(dòng)力學(xué)關(guān)注從動(dòng)作到位置的過程。值得注意的是,該方案還可以將模型在其生成動(dòng)作中的不確定性傳播到結(jié)果位置上的不確定性,尤其是如果每個(gè)時(shí)間步的輸出動(dòng)作不確定性具有簡單的參數(shù)化,例如高斯分布。在這種情況下,對于線性底層代理動(dòng)力學(xué)(例如,經(jīng)常用于模擬行人的單個(gè)積分器),具有不確定性的整個(gè)系統(tǒng)動(dòng)力學(xué)是線性高斯的。形式上,對于動(dòng)作u(t)=dp(t)/dt的單個(gè)積分器,t+1處的位置平均值為p(t+1)=p(t)+u(t)δt,其中u(t)由學(xué)習(xí)架構(gòu)產(chǎn)生。在非線性動(dòng)力學(xué)的情況下(例如,用于模擬車輛的單輪模型),仍然可以(近似地)通過線性化有關(guān)代理當(dāng)前狀態(tài)和行為的動(dòng)力學(xué)來使用這種不確定性傳播方案。[8]中使用了這種動(dòng)力學(xué)積分方案,使模型能夠產(chǎn)生解析輸出分布。重要的是,即使包含了額外的動(dòng)力學(xué),訓(xùn)練也不需要額外的數(shù)據(jù)(例如,損失沒有修正為行動(dòng)過度)。該模型仍然直接學(xué)習(xí)匹配數(shù)據(jù)集的地面真值位置,梯度通過智能體的動(dòng)力學(xué)反向傳播到模型的其余部分。因此,在沒有任何額外數(shù)據(jù)的情況下,這種動(dòng)力學(xué)的包含使模型能夠生成明確的動(dòng)作序列,從而實(shí)現(xiàn)動(dòng)態(tài)可行的軌跡預(yù)測??偟膩碚f,與直接輸出位置的方法相比,這種輸出方案能夠保證其軌跡樣本在動(dòng)力學(xué)上是可行的。

B 結(jié)合異構(gòu)數(shù)據(jù)

現(xiàn)代機(jī)器人系統(tǒng)擁有大量先進(jìn)的傳感器,這些傳感器為下游用戶提供各種各樣的輸出和數(shù)據(jù)模式。然而,當(dāng)前的許多行為預(yù)測方法僅利用其他主體的跟蹤軌跡作為輸入,而忽略了來自現(xiàn)代感知系統(tǒng)的這些其他信息源。

值得注意的是,許多現(xiàn)實(shí)世界的系統(tǒng)都使用高清地圖來幫助定位和導(dǎo)航。根據(jù)傳感器的可用性和復(fù)雜程度,地圖的保真度可以從簡單的二進(jìn)制障礙物地圖,即M∈{0, 1}H×W×1,到多層語義映射,例如M∈{0, 1}H×W×L,其中每層1≤l≤ L表示具有特定語義類型的區(qū)域(例如道路、人行道)。選擇這種地圖格式的一個(gè)主要原因是,它與圖像非常相似,圖像也有高度、寬度和通道尺寸。因此,卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以有效地進(jìn)行在線評(píng)估,并將其納入行為預(yù)測模型中。這是在[8]中做出的選擇,它使用一個(gè)相對較小的CNN對被建模的代理周圍的本地場景上下文進(jìn)行編碼。

更一般地,通過經(jīng)由適當(dāng)?shù)哪P蛯⑵浔硎緸橄蛄坎⒔Y(jié)果輸出連接到編碼器的整體場景表示向量,可以類似地在建筑的編碼器中包括進(jìn)一步的附加信息(例如,原始激光雷達(dá)數(shù)據(jù)、相機(jī)圖像、行人骨架或凝視方向估計(jì))。


 VI . 實(shí)驗(yàn)和實(shí)踐考慮

在本節(jié)中,我們將第五節(jié)中描述的方法與最先進(jìn)的方法進(jìn)行定量比較,以解決行人和車輛運(yùn)動(dòng)預(yù)測這一具有挑戰(zhàn)性的問題。此外,我們還討論了一些重要的實(shí)施注意事項(xiàng),供尋求采用本文中介紹的方法的研究者參考。

A 定量性能

我們將Trajectron++[8]與Social GAN[29]和Social BiGAT[32]進(jìn)行比較,它們都使用類似的基于RNN的架構(gòu)來建模時(shí)間序列。這些方法是在現(xiàn)實(shí)世界的ETH[43]和UCY[44]行人數(shù)據(jù)集上進(jìn)行評(píng)估的,這是由具有挑戰(zhàn)性的多人交互場景組成的領(lǐng)域的標(biāo)準(zhǔn)基準(zhǔn)。我們使用[29]中提出的最佳N(BoN)平均和最終位移誤差(ADE和FDE)指標(biāo)以及[7]中提出的基于核密度估計(jì)的負(fù)對數(shù)似然(KDE NLL)來評(píng)估它們的性能。如表1所示,基于CVAE的Trajectron++在三個(gè)指定指標(biāo)上的表現(xiàn)明顯優(yōu)于其他產(chǎn)品。此外,表II顯示了我們的方法在大規(guī)模nuScenes數(shù)據(jù)集上針對各種方法的強(qiáng)大車輛建模性能[45]。進(jìn)一步的實(shí)驗(yàn)和燒蝕研究見[8]。更廣泛地說,現(xiàn)象學(xué)方法在大數(shù)據(jù)領(lǐng)域的成功已經(jīng)反映在現(xiàn)代軌跡預(yù)測競賽中。例如,最近的ICRA 2020 nuScenes[45]預(yù)測挑戰(zhàn)賽的所有獲獎(jiǎng)?wù)撸ㄆ渲幸粋€(gè)是Trajectron++[8])都是現(xiàn)象學(xué)的,使用了深度編碼器-解碼器架構(gòu),除了過去的軌跡歷史,還利用了異構(gòu)輸入數(shù)據(jù)。

表1 比較基于CVAE的行人建模方法和基于GAN的行人建模方法。黑體是最好的

圖片

表2 比較基于CVAE的車輛建模方法與其他方法。黑體是最好的

圖片


B 隱空間維度

隱空間的大?。礉撛谧兞康臄?shù)量)是本研究中尚未討論的問題。雖然找到“最佳”規(guī)模最終是一個(gè)超參數(shù)搜索,但人們通常應(yīng)該為他們希望建模的每個(gè)高級(jí)行為或效果分配一個(gè)潛在變量。在(常見)情況下,很難確切知道有多少(例如,在駕駛員建模中),應(yīng)該從高開始,讓CVAE通過分配非常低的概率來刪減冗余模式。例如,在[3]、[6]–[8]中,我們使用了25個(gè)潛在變量(即z可以取25個(gè)值)。其中,CVAE一次只為幾個(gè)模式分配顯著概率,例如直線移動(dòng)、左轉(zhuǎn)、右轉(zhuǎn)、停車。

為了確定使用了多少個(gè)模式,可以通過證據(jù)理論的視角分析CVAE的學(xué)習(xí)權(quán)重,如[46]所述。具體來說,我們可以確定哪些潛在變量有直接證據(jù)支持它們的存在,并在不損失任何性能的情況下刪減其他變量。例如,[46]發(fā)現(xiàn)只有2?12個(gè)隱變量在[8]中用到,其余變量可以在不損失性能的情況下進(jìn)行刪減。

C 模型在線運(yùn)行

機(jī)器人應(yīng)用模型開發(fā)中的一個(gè)關(guān)鍵考慮因素是運(yùn)行時(shí)的復(fù)雜性。為了實(shí)現(xiàn)實(shí)時(shí)性能,可以利用時(shí)空圖提供的狀態(tài)表示。具體來說,模型可以在線更新新信息,而無需完全執(zhí)行正向傳遞。例如,由于我們的方法使用LSTM,只有編碼器中最后的LSTM單元需要輸入新的觀察數(shù)據(jù)。然后,可以使用更新的編碼器表示執(zhí)行模型的其余部分。[7]、[8]中應(yīng)用了這種更新和預(yù)測方案,這兩種方案都實(shí)現(xiàn)了實(shí)時(shí)在線性能。


 VII.結(jié)論和未來工作

我們提供了一個(gè)關(guān)于CVAE方法的完整教程,該方法用于多智能體交互的多模態(tài)軌跡預(yù)測。此外,我們還對現(xiàn)有最先進(jìn)的方法進(jìn)行了分類,從而確定了主要的方法考慮因素,并對我們提出的方法進(jìn)行了展望。在存在大量具有潛在異構(gòu)數(shù)據(jù)類型(例如,空間特征、圖像、地圖)的數(shù)據(jù),以及未來行為取決于交互歷史的非馬爾可夫環(huán)境中,我們提出的CVAE方法是一個(gè)有吸引力的模型,用于預(yù)測多智能體交互環(huán)境中未來的人類軌跡。特別是,我們的CVAE方法非常靈活,可以輕松地包含異構(gòu)數(shù)據(jù),考慮智能體動(dòng)力學(xué),并根據(jù)不同類型的基于模型的規(guī)劃算法進(jìn)行調(diào)整。

未來的工作包括對模型的進(jìn)一步改進(jìn),例如開發(fā)使隱空間更具可解釋性的方法,例如,通過時(shí)序邏輯的視角,對上游傳感器噪聲進(jìn)行魯棒性驗(yàn)證,并應(yīng)用學(xué)習(xí)的模型生成更真實(shí)的模擬代理,以進(jìn)行測試和驗(yàn)證。更廣泛地說,由于未來與下游規(guī)劃和控制算法的集成,在評(píng)估指標(biāo)和體系結(jié)構(gòu)方面仍有許多懸而未決的問題。這些問題現(xiàn)在變得越來越重要,因?yàn)楝F(xiàn)象學(xué)軌跡預(yù)測方法在原始性能方面已經(jīng)超過了其他方法,并且目標(biāo)是部署在現(xiàn)實(shí)世界的安全關(guān)鍵機(jī)器人系統(tǒng)上。


 參考文獻(xiàn)

圖片


圖片


圖片
分享到:
 
反對 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25