日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

交通場景的真實性駕駛行為仿真方法

2022-12-21 09:14:13·  來源:計算機視覺深度學習和自動駕駛  作者:黃浴  
 
仿真是自動駕駛車輛等機器人系統(tǒng)擴大驗證和確認(VV)的關鍵。盡管在高保真的物理模型和傳感器仿真方面取得了進展,但在模擬道路使用者真實行為的方面仍存在嚴重差距。AdvSim【1】是Uber提出的一種對抗性框架,為激光雷達自動駕駛系統(tǒng)生成安全關鍵場景。如圖

仿真是自動駕駛車輛等機器人系統(tǒng)擴大驗證和確認(V&V)的關鍵。盡管在高保真的物理模型和傳感器仿真方面取得了進展,但在模擬道路使用者真實行為的方面仍存在嚴重差距。

AdvSim1】是Uber提出的一種對抗性框架,為激光雷達自動駕駛系統(tǒng)生成安全關鍵場景。

如圖所示:目標是在現(xiàn)有場景中干擾交互參與者的機動,對抗性行為會導致現(xiàn)實的自動駕駛系統(tǒng)出現(xiàn)故障;給定初始交通場景,AdvSim以物理合理的方式修改參與者的軌跡,并更新激光雷達傳感器數(shù)據(jù);通過從傳感器數(shù)據(jù)進行模擬,獲得對全自主駕駛安全-緊要的對抗場景。

圖片

場景擾動的真實激光雷達模擬如圖所示:給定參與者動作的場景擾動,修改先前記錄的激光雷達數(shù)據(jù)以準確反映更新的場景配置;在確保傳感器真實性的同時,移除原始的參與者激光雷達觀測數(shù)據(jù),并在擾動位置用模擬的參與者激光雷達觀測數(shù)據(jù)代替。

圖片

為了產(chǎn)生物理上可行的參與者行為,將軌跡參數(shù)化為自行車模型(bicycle model)狀態(tài)序列,包括受擾動參與者的中心位置、航向、前進速度和加速度、以及車輛路徑的曲率。通過在不同時間步長設定邊界內(nèi)擾動曲率和加速度值的變化,并用運動學自行車模型計算其他狀態(tài),可以生成候選對抗軌跡。此外,為了擴大采樣對抗行為的空間,還允許初始狀態(tài)在設定邊界內(nèi)擾動。

為了增加擾動軌跡的合理性,要確保它不會與其他參與者或自動駕駛車的原始專家軌跡發(fā)生碰撞。在實踐中,首先執(zhí)行拒絕采樣來創(chuàng)建一組物理可行的軌跡,然后將生成的軌跡投影到物理可行的集合上,以L2距離測量。搜索空間是低維的,有利于基于查詢的黑盒子優(yōu)化,同時仍允許細粒度的參與者運動控制。

在論文【2Uber提出一個交通場景的神經(jīng)自回歸(AR)模型SceneGen,避免對規(guī)則和啟發(fā)式方式的需要。其有助于解決建模真實交通場景的復雜性和多樣性這一限制。特別是,考慮到自車狀態(tài)和周圍區(qū)域的高清地圖,SceneGen將不同類別的參與者插入場景中,并合成其大小、朝向和速度。

SceneGen與傳感器仿真相結合,可用于訓練適用于現(xiàn)實世界解決方案的感知模型。

自回歸交通場景生成方法如圖所示:給定自車狀態(tài)和周圍環(huán)境的高清地圖,SceneGen通過一次插入一個參與者來生成交通場景。

圖片

神經(jīng)AR模型用遞歸神經(jīng)網(wǎng)絡(RNN)來捕獲自回歸生成過程中的長期相關性。該模型的基礎是ConvLSTM架構,每次迭代中,模型輸入的是一幅BEV多通道圖像編碼,包括自動駕駛車a0、、HD地圖和迄今為止生成的其他交通參與者{a1,,ai?1 }。

如圖所示,多通道圖像包括:車道多邊形(直車道、專用右車道、專用左車道、專用公交車道和專用自行車道)、車道中心線和分隔線(允許跨線,禁止跨線,可能允許跨線);車道線(直行車道、專用右車道和專用左車道)、可行駛區(qū)域和道路多邊形,以及人行橫道多邊形。此外將每個車道的紅綠燈狀態(tài)(綠色、黃色、紅色、閃爍黃色、閃爍紅色和未知)、速度限制和方向編碼為填充的車道多邊形??偟膩碚f,這產(chǎn)生了24通道圖像。

圖片

每個參與者由其類標簽、BEV位置、定向邊界和速度。為了捕獲這些屬性之間的依賴關系,對其聯(lián)合分布進行因子分解。如圖是參與者概率模型示意圖:對每個參與者進行概率建模,作為其類別、位置、邊框和速度分布的乘積。

圖片

其意思就是參與者位置的分布取決于其類別;其邊框取決于其類別和位置;其速度取決于類別、位置和邊框。

在每個生成步驟中,從SceneGen的輸出分布中采樣M次,并保留最可能的樣本。這有助于避免退化的交通場景,同時保持樣本多樣性。此外,拒絕那些邊框與目前采樣的參與者邊框發(fā)生碰撞的車輛和自行車。

論文【3】是之前Lyft Level 5團隊的工作,提出一個端到端可訓練機器學習系統(tǒng),真實地模擬駕駛體驗。模擬問題構建為馬爾可夫過程(MP),利用深度神經(jīng)網(wǎng)絡對狀態(tài)分布和轉移函數(shù)進行建模。直接從現(xiàn)有的原始數(shù)據(jù)中進行訓練,即行為克?。?/strong>behavioural cloning,無需在運動模型中進行任何手工設計,所需要的只是一個具有歷史交通事件(traffic episodes)的數(shù)據(jù)集。

它允許系統(tǒng)構建從未見過的場景,這些場景對自駕車的行為真實地做出反應。實際上直接用1000小時的駕駛數(shù)據(jù)訓練系統(tǒng),模擬的真實性和反應性是測量的兩個關鍵屬性。同時,該方法可評估通過專家駕駛數(shù)據(jù)訓練的最新機器學習(ML)規(guī)劃系統(tǒng)性能,這個規(guī)劃系統(tǒng)容易出現(xiàn)因果混淆(causal confusion問題,很難通過非反應性模擬(non-reactive simulation方法進行測試。

如圖是提出的可訓練仿真系統(tǒng)框圖:

圖片

如圖是仿真采樣的流程:

圖片

為了生成新的駕駛事件,首先選擇并采樣一個初始狀態(tài),捕獲所有交通參與者的位置。 接下來,神經(jīng)網(wǎng)絡控制的交通參與者和自駕控制回路(control loop)控制的自動駕駛車行為對狀態(tài)進行前向模擬。包括步驟如下:

  • 1)從所有允許的地圖位置選擇初始自駕車的位置;

  • 2)初始狀態(tài)是從所有可行狀態(tài)的分布得到,該狀態(tài)捕獲交通參與者的數(shù)目和初始姿勢;

  • 3)駕駛事件是通過參與者駕駛策略和自駕車控制系統(tǒng)的逐步前向模擬生成。


該模擬具備的特性包括:

  • 完全模擬:執(zhí)行上述所有步驟,從所有位置生成新的、從未體驗過的駕駛場景。

  • 旅程模擬:保持初始自駕車位置固定,合成許多不同的初始條件,得到從該位置開始的駕駛事件。

  • 場景模擬:現(xiàn)有的歷史感興趣狀態(tài)作為 初始狀態(tài),生成許多可能的未來結果。

  • 行為模擬:通過硬編碼特定路徑來遵循,可替換轉向角,迫使交通參與者采取特定的高級行為,但在執(zhí)行中仍會留下某種反應性模擬結果。 對于模擬自駕車行為,這點兒很有用。


如圖是仿真系統(tǒng)交互式狀態(tài)展開的詳細信息:

圖片

該狀態(tài)的所有智體,獨立運行一步預測來推進,自駕車由控制算法控制,新位置形成一個新狀態(tài),然后重復該過程。

論文【4】介紹STRIVEStress-Test dRIVE,一種自動生成具有挑戰(zhàn)性場景的方法,該場景會讓給定規(guī)劃器產(chǎn)生不希望的行為,如碰撞。

為了保持場景的合理性,關鍵思想是以基于圖條件VAE的形式采用已學習的交通運動模型。場景生成是在該交通模型的潛空間進行優(yōu)化,擾動初始真實場景產(chǎn)生與給定規(guī)劃器發(fā)生碰撞的軌跡。隨后的優(yōu)化用于找到場景的解決方案,確保它有助于改進給定的規(guī)劃器。

進一步的分析,基于碰撞類型,聚類這些場景。實驗中攻擊了兩個規(guī)劃器,并證明在這兩種情況下,STRIVE成功地生成了真實具有挑戰(zhàn)性的場景。此外,實現(xiàn)閉環(huán),并用這些場景優(yōu)化一個基于規(guī)則的規(guī)劃器超參數(shù)。

如圖所示:STRIVE為給定的規(guī)劃器生成具有挑戰(zhàn)性的場景。對抗優(yōu)化會擾亂所學習交通模型潛空間的真實場景,導致對抗(紅色)與規(guī)劃器(綠色)發(fā)生碰撞。后續(xù)的解決方案優(yōu)化會找到規(guī)劃器的軌跡避免碰撞,而驗證場景有助于確定規(guī)劃器的改進。

圖片

核心思想是,通過學習生成的交通運動模型可能性,衡量優(yōu)化過程中場景的合理性,該模型鼓勵場景具有挑戰(zhàn)性,但又真實。因此,STRIVE不會提前選擇特定的對抗,而是聯(lián)合優(yōu)化所有場景智體,從而產(chǎn)生多種多樣的場景。此外,為了適應實踐中廣泛使用的不可微(或不可訪問)規(guī)劃器,所提出的優(yōu)化在學習的運動模型中使用規(guī)劃器的可微智體表征,從而允許用標準的基于梯度方法進行優(yōu)化。

STRIVE不了解規(guī)劃器的內(nèi)部結構,也無法通過它計算梯度。不可取行為包括與其他車輛發(fā)生碰撞、不能駕駛地形、駕駛不舒適(如高加速)以及違反交通法規(guī)。雖然公式是一般性的,原則上可以處理其他目標(objective)函數(shù)優(yōu)化,但重點是與規(guī)劃器一起生成車輛碰撞相關的事故多發(fā)場景。

如圖是學習的交通模型測試架構:為了對場景所有智體未來軌跡進行聯(lián)合采樣,首先對每個智體分別處理過去的運動和局部地圖環(huán)境信息。然后,計算條件先驗,輸出每個節(jié)點的潛分布,該分布可通過auto regressiveAR)解碼器進行采樣饋入,預測未來的智體軌跡。

圖片

為了在測試時對未來運動進行采樣,使用條件先驗網(wǎng)絡解碼器;兩者都是圖神經(jīng)網(wǎng)絡(GNN,在所有智體全連接的場景圖運行。先驗模型,包括一組智體的潛向量。輸入場景圖的每個節(jié)點都包含從該智體過去軌跡提取的上下文特征、局部光柵化地圖、邊界框大小和語義類等。消息傳遞(message passing)后,先驗網(wǎng)絡輸出場景中每個智體的高斯分布參數(shù),形成分布潛表征,捕捉未來可能的變化。

確定性解碼器在場景圖操作,每個節(jié)點都有采樣的潛向量和過去軌跡上下文。解碼是自回歸(AR)方式執(zhí)行的:在時間步t,一輪消息傳遞在預測每個智體加速之前解決交互;通過運動自行車模型,加速度立即獲得下一個狀態(tài),該狀態(tài)在繼續(xù)展開之前更新軌跡上下文。解碼器的可決定性和圖結構鼓勵場景一致的未來,即使在智體獨立采樣時也是如此。重要的是,對于潛向量優(yōu)化,即使輸入潛向量不太可能,解碼器通過動態(tài)自行車模型確保合理的車輛動力學。

與場景交互模塊一樣,先驗網(wǎng)絡、后驗(編碼器)網(wǎng)絡和解碼器都是圖神經(jīng)網(wǎng)絡(GNN),包括edge network, aggregation function,  update network。解碼器會加入一個RNNGRU)架構。

如圖所示:在對抗性優(yōu)化的每個步驟,規(guī)劃器和非自車的潛表征都用學習的解碼器進行解碼,非自車軌跡提供給規(guī)劃器在場景中展開。最后,計算各個損失。

圖片

論文【5】是英偉達的工作,采用一種數(shù)據(jù)驅動的方法,并提出了一種可以學習真實駕駛日志生成交通行為的方法。該方法將交通模擬問題解耦為高級意圖推理和低級駕駛行為模擬,利用駕駛行為的雙層結構,實現(xiàn)了高采樣效率和行為多樣性。

該方法還結合一個規(guī)劃模型,獲得穩(wěn)定的長期行為效果。用兩個大規(guī)模駕駛數(shù)據(jù)集場景對方法進行經(jīng)驗驗證,該方法稱為BITSBi-level Simulation for Traffic Simulation,并表明BITS在真實性、多樣性和長時穩(wěn)定性方面實現(xiàn)了平衡的交通模擬性能。

如圖是BITS的框架:決策上下文ct是一個張量,包含語義圖和光柵化智體歷史,按通道連接在一起。給定ct作為輸入,(1)空間目標網(wǎng)絡產(chǎn)生短視野目標的2D空間分布,(2)目標條件(goal-conditioned)策略為每個采樣目標(goal)生成一組動作,(3)軌跡預測模型預測相鄰智體的未來運動,以及最后(4)基于預測的未來狀態(tài),該框架選擇讓基于規(guī)則的成本函數(shù)最小化的一組動作。

圖片

交通模擬可以描述為有監(jiān)督的模仿學習問題。然而,城市駕駛的性質帶來了重大的技術挑戰(zhàn)。首先,由于模型無法訪問演示者的潛在意圖和其他與決策相關的線索,例如其他車輛的轉向信號,因此是一個部分觀察的決策過程。因此,動作監(jiān)督本質上是模糊的,通常用概率分布建模。

雖然這種模糊性使訓練復雜化,但有效地建模動作分布也可以生成不同的反事實(counterfactual)交通模擬。其次,由于每個智體的行為沒有明確的協(xié)調,它們的聯(lián)合行為生成了一個可能未來狀態(tài)的組合空間。這種不確定性使得生成穩(wěn)定的交通模擬非常具有挑戰(zhàn)性。

交通模仿模型的目標,是通過學習真實世界的駕駛日志(作為演示),來產(chǎn)生各種各樣的合理行為。軌跡預測中的大多數(shù)現(xiàn)有方法用深度潛變量模型(例如VAE)來捕獲行為分布。然而,學習生成穩(wěn)定的長視野行為需要大量的訓練數(shù)據(jù)。相反,這里提出的方法將學習問題分解為(1)訓練高層目標網(wǎng)絡,捕獲可能的短期目標空間分布,以及(2)訓練確定性目標條件策略,學習如何達到預測目標。

空間目標網(wǎng)絡(goal network)利用駕駛運動的2D BEV結構,并用2D網(wǎng)格高效地表示空間目標分布。這種分解將多模態(tài)軌跡建模的負擔,轉移到高級目標預測器,使低級目標條件策略能夠重用達成目標的技能,提高樣本效率。

這樣一個雙層模擬學習方法,可以從有限的數(shù)據(jù)中生成合理的交通模仿。該策略可以從多模態(tài)空間目標預測器中采樣,綜合各種行為。然而,該策略的執(zhí)行仍然受到訓練數(shù)據(jù)規(guī)模和覆蓋范圍的限制。

駕駛日志偏向于正常行為,幾乎不包含碰撞或越野駕駛等安全-緊要情況。生成多樣行為的目標進一步放大了這一挑戰(zhàn),因為鼓勵智體進入地圖上未見過的區(qū)域并創(chuàng)建新的交互。因此,為了實現(xiàn)穩(wěn)定的長時間模擬,即使在缺乏訓練數(shù)據(jù)指導的狀態(tài)下,智體也必須生成合理的行為。

為此,建議使用預測和規(guī)劃模塊來增強策略,以穩(wěn)定長期軌跡展開。

該方法類似于典型的模塊化AV堆棧中的運動規(guī)劃流水線,重要的區(qū)別在于,用學習的策略生成類人運動軌跡候選。關鍵思想是,策略πθ可以直接跟蹤分布內(nèi)狀態(tài)下的數(shù)據(jù)似然,其中大多數(shù)行為樣本都遵循規(guī)則,在最可能的動作可能導致不良后果的狀態(tài)下,接受糾正指導。此外,采樣模塊允許在無需再訓練的情況下對模擬器進行靈活調整(例如,多樣性水平、多個目標的強調)。

參考文獻

【1】“Advsim: Generating safety-critical scenarios for self-driving vehicles“, CVPR 2021

【2】“SceneGen: Learning to Generate Realistic Traffic Scenes”,arXiv 2101.06541,2021

【3】“SimNet: Learning Reactive Self-driving Simulations from Real-world Observations”,arXiv 2105.12332,2021

【4】“Generating Useful Accident-Prone Driving Scenarios via a Learned Traffic Prior”,CVPR,2022

【5】“BITS: Bi-level Imitation for Traffic Simulation“,arXiv 2208.12403,2022 

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25