預研 | 基于場景的自動駕駛評估方法

2022-11-10 11:17:01· 來源：軒轅實驗室

摘要：過去十年，工業(yè)界和學術(shù)界對自動駕駛功能的開發(fā)力度不夠。由于操作空間大，各種復雜的場景和自動駕駛功能都需要應對，預計評估工作將大幅增加。為了有效量化這些功能的收益和風險，本文描述了一種使用真實世界駕駛數(shù)據(jù)評估自動駕駛的整體方法。基于場景

摘要：

過去十年，工業(yè)界和學術(shù)界對自動駕駛功能的開發(fā)力度不夠。由于操作空間大，各種復雜的場景和自動駕駛功能都需要應對，預計評估工作將大幅增加。為了有效量化這些功能的收益和風險，本文描述了一種使用真實世界駕駛數(shù)據(jù)評估自動駕駛的整體方法。

基于場景定義，描述了一種從真實世界駕駛數(shù)據(jù)中識別相關(guān)場景的合適方法，該方法能夠處理場景特定特征，例如所有交通參與者的時間和空間依賴性。為了量化在考慮的駕駛場景中自動駕駛的影響，應用了統(tǒng)計指標“影響大小”。自動駕駛需要在混合交通中運行的基本要求意味著評估的參考必須是人工駕駛行為。

1.介紹

由于過去幾十年微電子和計算能力方面的技術(shù)進步，用于支持駕駛員的各種汽車功能已經(jīng)開發(fā)并引入市場。這些所謂的高級駕駛員輔助系統(tǒng)（ADAS）具有越來越高的自動化程度，以實現(xiàn)舒適和安全的旅行[4]。在環(huán)境感知技術(shù)和復雜決策算法不斷發(fā)展的推動下，車輛自動化的最終目標似乎是一個可解決的挑戰(zhàn)，過去幾年的各種原型車輛都證明了這一點[1,2,3]。

然而，正如Winnerin所描述的那樣，隨著系統(tǒng)算法和覆蓋場景的復雜性不斷增加，這些系統(tǒng)的測試和評估工作正在急劇增加[5]。因此，驗證自動化駕駛功能的新概念是必要的，例如“基于場景”的評估高維場景空間，如[6,7]。除了建立新的評估框架，還必須確定適當?shù)暮饬繕藴?，特別是評估的參考。

為此，應考慮自動駕駛功能的基本要求，即在混合交通中的安全駕駛和功能操作，同時不對其他交通產(chǎn)生負面影響。這些基本要求意味著自動駕駛功能需要在正常駕駛行為的范圍內(nèi)運行，并且至少應該與非自動駕駛一樣安全。因此，評估的參考應該是人類駕駛員或人類駕駛行為。由于每個駕駛員的駕駛行為是不同的，用分布來描述似乎是有用的。在進行自動駕駛功能的評估之前，需要獲得駕駛行為的這些分布。這項工作通過使用時間序列分類技術(shù)來描述人類駕駛行為的綜合框架。

2.背景

在之前的歐洲項目中開發(fā)的評估框架，如PReval [9]、eIMPACT [10]、assesse[11]、interactIVe[12]和美國研究項目(如[13])主要涉及主動安全功能或相應的ADAS，其中評估主要集中在功能用例的測試上。對于自動駕駛，需要擴展評估方法，以確保涵蓋該功能所涉及的整個情境空間。

已經(jīng)定義了評估自動駕駛的不同方法[8]。然而，這些方法主要集中在功能安全驗證方面或確定這些功能對交通安全的影響。這些方法既考慮了真實世界的測試，也考慮了通過模擬進行的虛擬評估。例如，在[6]中提出了利用不同測試工具進行驗證的綜合評估框架，其目標是實現(xiàn)有效的評估。在這種情況下，提出了一組相關(guān)駕駛情況，即所謂的“相關(guān)情況圈”,這些情況被不同的測試工具所利用——從模擬到現(xiàn)場測試。[14]中提出了另一種通過功能運行期間的安全性來評估自動駕駛功能的功能安全性的方法。這里，類似于特洛伊木馬方法，自動駕駛功能在“循環(huán)之外”執(zhí)行，以便在真實駕駛情況下測試該功能而沒有任何潛在危險。

為了評估輔助和自動駕駛功能的交通安全性能，在[7]中定義了一種方法。這種方法的基礎(chǔ)是使用虛擬實驗。在此，建議通過結(jié)合來自現(xiàn)場操作試驗(FOT)、自然駕駛研究(NDS)、實驗室和駕駛模擬器實驗的知識，量化評估功能的收益和風險。

建議的評估方法的共同點是，在相關(guān)的場景下評估被測試的功能。

在過去的幾年中，已經(jīng)為相關(guān)的場景導出了幾個定義。Reichart[15]描述了一個駕駛場景的分類方案，用于分析基于交通參與者的時間和空間組合的車輛引導中的人類表現(xiàn)。Domschet al.在[16]中引入了一個駕駛情況的定義，包括駕駛員、環(huán)境和車輛方面，其中作者引入了變量，以進一步規(guī)范駕駛情況的各個部分。

根據(jù)場景定義，必須確定應評估功能的相關(guān)場景。對于基于用例派生的測試用例來說，這項任務(wù)微不足道。對于在一次試駕中包含不同場景的公共道路上分別進行的現(xiàn)場測試，需要一種分類方法。

原則上，用于檢測場景的分類方法可以基于三種不同的方法：不同尺度上基于模型的足跡、系統(tǒng)暴露度量或機器學習[8]

在[18]中，提出了一種基于模型足跡的場景分類算法，用于對ADAS影響評估相關(guān)場景中的FOT數(shù)據(jù)進行分類。在此方法中，基于決策樹檢測相關(guān)駕駛情況。在這種情況下，特征選擇和檢測閾值由專家知識設(shè)置。而檢測閾值設(shè)置在非常保守的水平上，以確保對所有事件的可靠檢測。通過視頻幀的專家評審來評估最終分類器的性能。根據(jù)專家評審的結(jié)果，對分類器進行了調(diào)整。這個迭代過程一直進行到分類結(jié)果令人滿意為止。由于手動調(diào)整決策樹參數(shù)的過程非常耗時，因此使用數(shù)學運算調(diào)整決策樹是很有前途的。

[19]中介紹了建模和識別駕駛情況的概率方法。與前面描述的方法不同，使用貝葉斯網(wǎng)絡(luò)和模糊特征作為輸入?yún)?shù)，對態(tài)勢和傳感器測量中的不確定性進行建模。在此，情況和機動決策的價值可以視為一種質(zhì)量度量。

在[20]中，提出了一種利用機器學習技術(shù)進行車隊合并態(tài)勢方面建模和分類的方法。這種方法的重點是分類器的在線性能，特別是處理駕駛場景中典型的特征集。由于這些通常是隨著時間的推移而發(fā)展的，所以只使用單一時間快照的分類算法將是不合適的。因此，作者將駕駛場景分解為稱為場景切片的可分析子集，并采用時間序列分類來識別相關(guān)場景。

3.自動駕駛評估場景的定義

為了能夠評估相關(guān)駕駛場景中的自動駕駛功能，術(shù)語場景和情景的定義至關(guān)重要。根據(jù)第二節(jié)中的文獻調(diào)查和[21]中的定義，駕駛場景是對駕駛情況的抽象和一般描述，沒有對駕駛情況參數(shù)進行任何說明。此外，這些場景包括對相關(guān)參與者意圖的語義描述，并受到自動駕駛功能系統(tǒng)狀態(tài)的啟發(fā)，如[1]中提出的。與駕駛場景相反，根據(jù)[21]，駕駛情況是駕駛場景的具體發(fā)展。因此，駕駛情況詳細描述了可以模擬和分析的情況。

根據(jù)之前的定義，測試和參考數(shù)據(jù)中包含的駕駛情況通過分類算法分配給定義的場景。為了對測試和參考數(shù)據(jù)進行分析和分類，所有場景方面的時間和空間序列，例如自我車輛、動態(tài)對象和環(huán)境，必須分別用信號時間序列描述，如圖1所示。

然而，分類算法并不能同時對多個場景進行分類。由于可能同時發(fā)生多種情況（例如，變道和車輛跟馳），分類方法的設(shè)計必須允許同時對幾種情況進行分類。因此，對于每個場景，應用并訓練一個分類器，將數(shù)據(jù)分類到適當?shù)膱鼍邦愔?。表一概述了所有定義的場景。

4.自動駕駛評估方法

A.方法論

在下一節(jié)中，給出了在某些情況下評估自動駕駛功能性能的方法。它以前面描述的方法論和情景分類方法為基礎(chǔ)。由于自動駕駛功能的操作模式覆蓋了高維操作空間，包括許多不同的駕駛場景，因此需要考慮各種變化。

因此，需要一種涵蓋盡可能多的不同駕駛場景的整體評估方法。作者提出了一種基于場景的評估方法，該方法分別基于真實駕駛現(xiàn)場數(shù)據(jù)。現(xiàn)實世界駕駛的使用已經(jīng)隱含了某些駕駛場景的大量變化。如圖2所示，所開發(fā)的方法預見了測試和參考駕駛行為數(shù)據(jù)的分類，以作為相關(guān)場景評估的第一步。

然后，通過使用相關(guān)場景中的參考數(shù)據(jù)評估自動駕駛功能，將功能的性能與每個場景中的人的表現(xiàn)進行比較。

B.測試工作量估算

由于交通的隨機性，測試方法必須確保有足夠的測試數(shù)據(jù)和參考數(shù)據(jù)可用。為此目的，euroFOT數(shù)據(jù)庫的部分被認為是[22]，用于估計相關(guān)駕駛場景的平均頻率。為了計算發(fā)生k = 30個駕駛場景的最小測試距離，這是評估函數(shù)所必需的，根據(jù)Winnerin[23]所描述的方法，假設(shè)一個累積泊松分布。根據(jù)單個事件發(fā)生所需的平均距離sref，計算k個事件發(fā)生所需的距離，概率為P= 95%。

最小距離的計算依據(jù)如下描述泊松分布的方程，而發(fā)生駕駛情況的概率則由

對評估方法中考慮到的所有情況估計總必要的測試距離(參見實例表iv)。

C.相關(guān)駕駛場景的分類

如前一節(jié)所述，自動駕駛功能是在基于場景的方法中進行評估的。為了對參考和測試數(shù)據(jù)中的這些場景進行分類，分析了幾種分類器，以找到對駕駛場景進行分類的最佳解決方案。

為了考慮到之前列出的所有駕駛場景和情境參與者的時間和空間依賴性，該方法還包括時間序列分類。第五節(jié)詳細概述了分類方法。

D.自動化效果的統(tǒng)計估計

為了確定自動駕駛功能的行為是否在正常駕駛行為的范圍內(nèi)，并進一步量化與正常駕駛行為的偏差，必須確定一個適當?shù)姆椒āＲ虼?，根?jù)[24]的說法，這是一種量化兩組之間差異的簡單方法，與單獨使用統(tǒng)計顯著性檢驗相比，它顯示出許多優(yōu)點。正如[24]中所描述的，效應量是兩組之間的標準化平均差異，強調(diào)差異的大小，而不是將其與樣本量混淆。

然而，為了估計自動駕駛功能的行為與人類駕駛行為的偏差，通過使用以下等式計算了效應大小:

5.利用時間序列分類方法對相關(guān)場景進行分類

在之前的相關(guān)場景分類框架中，如[18]，分類器的特征選擇和擬合是通過專家知識完成的，而本文提出的分類方法通過使用過濾器和包裝器函數(shù)實現(xiàn)自動特征選擇。此外，該方法利用分割算法考慮場景的時間序列特征。下面將介紹特征提取、特征選擇和分類算法選擇的方法。

A.特征提取

在對訓練和測試數(shù)據(jù)中從車輛感知傳感器獲得的數(shù)據(jù)集進行適當劃分的基礎(chǔ)上，計算出合適的特征和指標。這些特性可以分為三組:

1）擴展特征

第一組將車輛數(shù)據(jù)和傳感器的不同信號與專家知識結(jié)合起來，生成新的特征。一個很好的例子是臨界指標，如時間到碰撞(TTC)或估計時間到下一個Cut-In機動的交通參與者。

2）拓展特征的導數(shù)

在第二組特征中，計算第一組特征的所有特征的導數(shù)。

3）擴展特征的分割

在第三組中，計算第一組特征的分段。由于時間序列是駕駛場景的基本組成部分，在分類方法中必須使用這些時間關(guān)系。在這種方法中，由于使用這種方法產(chǎn)生的低數(shù)據(jù)量，使用了[19]中提出的底部向上分割算法。利用斜率、均值和回歸線的長度計算信號時變區(qū)間的分段。對每個時間步計算基于分割的特征，而對每個時間步存儲前一個、當前和分割元素的分割數(shù)據(jù)。余量平方和用于測量近似誤差的余量平方和圖3顯示了特征“距離左車道”的信號分割示例。

B.特征選擇

在數(shù)據(jù)特征提取的基礎(chǔ)上，選擇和訓練相應的分類算法。首先，將帶有人類專家知識標記的駕駛場景數(shù)據(jù)集分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集。訓練數(shù)據(jù)集用于基于過濾器和包裝器方法的自動特征選擇。最初的特征選擇是通過[27]中提出的幾種濾波方法完成的。為了找到特征的最終選擇，使用了包裝器函數(shù)。這些功能能夠?qū)μ卣髯蛹M行評估，因此，由于從選擇中添加和排除特征，在特征之間進行互動。通過剔除特征后的剩余分類誤差來分析特征子集的性能。這里使用正向選擇包裝器，因為該方法從單個特征的最小特征集開始，而向后選擇則從所有特征開始。由于這兩種方法的性能根據(jù)[26]是相同的，正向選擇包裝更有效。對于場景“Cut In”，表2中顯示的特征被選中。

C.分類算法的選擇

在特征選擇之后，可以使用訓練數(shù)據(jù)集訓練每個場景的分類器。分類器的性能通過其在測試數(shù)據(jù)集中正確檢測場景的能力來評估。由于給定的場景在給定的數(shù)據(jù)集中分布不均勻，F(xiàn)1Score被視為評估分類器性能的主要指標。下表顯示了自動化車輛測試數(shù)據(jù)和駕駛員參考數(shù)據(jù)集的選定分類算法及其在各個場景中的性能。然而，由于信號可用性和質(zhì)量較低，駕駛員參考數(shù)據(jù)集的性能低于測試數(shù)據(jù)集。

6.結(jié)果

本節(jié)介紹了建議評估方法的結(jié)果。首先，給出了所用分類方法的結(jié)果和優(yōu)點。之后，評估方法用于評估縱向自動化功能，重點是車輛在以下場景中的性能。

A.分類器的性能

通過分析所使用的分段分類技術(shù)對F1Score績效指標的影響，評估分類器性能。因此，作為基線，根據(jù)F1Score計算分類器的性能，而不考慮分割元素。沒有分割的結(jié)果與有分割的F1Score結(jié)果進行了比較。結(jié)果表明，特別是對于變道場景，分割對分類器性能有很大影響。與細分的F1得分指標相比，F(xiàn)1得分指標下降約ΔF1得分=-26.09%。關(guān)于cut-in和free driving/vehicle following場景，細分的影響可以忽略不計。（F1分數(shù)（F1 Score），是統(tǒng)計學中用來衡量二分類模型精確度的一種指標。它同時兼顧了分類模型的精確率和召回率。F1分數(shù)可以看作是模型精確率和召回率的一種加權(quán)平均，它的最大值是1，最小值是0。）

B.自動駕駛功能評估

為了確定自動駕駛功能的性能是否偏離人類駕駛行為，必須在規(guī)定的場景中對測試和參考數(shù)據(jù)進行分類。根據(jù)評估重點，分別針對應評估自動駕駛功能的場景，必須估計實際測試的測試距離。表IV中概述了使用第四節(jié)B中給出的方法估計的測試距離。

為了演示測試長度的估計方法，選擇了變道場景，而實際交通中275km的測試行駛是針對k=30變道情況進行的。對測試數(shù)據(jù)的分析證明，在260公里的試駕過程中發(fā)生了23次換道情況，因此測試長度足夠。

對于人類駕駛行為參考數(shù)據(jù)，考慮了euroFOT數(shù)據(jù)集[18]。使用的參考和測試數(shù)據(jù)集如下表所示。

總共，在參考數(shù)據(jù)集中檢測到n=50827條分類車道變更情況。圖4顯示了所有分類平面變化情況的側(cè)向位移Sy的時間序列。此外，擬合的7階多項式回歸軌跡和95%的預測區(qū)間也得到了很好的計算。

為了演示駕駛場景中功能性能的評估，由于只考慮了縱向自動化功能，因此選擇了車輛跟車場景。選擇用于評估的指標是縱向加速度軸和時間間隔THW。車輛跟馳/自由駕駛場景中橫向和縱向加速度的人駕駛參考數(shù)據(jù)如圖5所示，以對數(shù)標度表示。

1）縱向加速度

為了評估縱向加速度方面的功能是否偏離人類駕駛行為，按照第IV.D節(jié)中的建議計算影響大小。參考和試驗數(shù)據(jù)的分布如圖6所示。

通過使用等式（3）計算車輛跟馳情況下縱向加速度ax的影響大小，計算出的影響大小dFollow,ax=0.1284。根據(jù)[24]，小于dsmall=0.2的效應大小可視為“小”影響。

2）時間間隔

為了評估指示時間間隔，還確定了圖7所示參考和試驗分布的影響大小。

這里，計算了以下效應大小，THW=0.1019。由于時間間隔和縱向加速度的影響大小可被視為“小”，因此自動化在車輛跟馳場景中的影響也可以被視為是“小”。

7.結(jié)論

本文提出了一種基于情景的方法，以利用人類駕駛行為評估自動駕駛。在分析駕駛場景特征的基礎(chǔ)上，提出了一種適用的場景分類方法，該方法同時具有場景分類和時間序列分段技術(shù)。通過使用衍生分類方法，將待評估的駕駛數(shù)據(jù)分類到相關(guān)駕駛場景中，其中通過計算統(tǒng)計指標“影響大小”來評估自動駕駛功能。使用泊松分布預先計算獲得足夠行駛數(shù)據(jù)所需的試驗工作量。結(jié)果表明，該分類方法能夠以足夠的性能檢測相關(guān)場景。最后，證明了所選縱向自動化示例的行為與人類參考行為僅存在“小”偏差。在進一步的研究中，作者計劃通過額外的模擬來分析自動駕駛，以涵蓋復雜自動駕駛功能運行的高維情況空間。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：結(jié)構(gòu)動力學修改在整車轟鳴控制中的應用
上一篇：自動駕駛決策規(guī)劃中的問題與挑戰(zhàn)

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預期功能安全應該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護
• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬
• 即刻探索8臺機器人如何解放數(shù)百名工人！	• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學習增強運
• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

預研 | 基于場景的自動駕駛評估方法

微信公眾號

摘要：

1.介紹

2.背景

3.自動駕駛評估場景的定義