日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

用于高性能自動駕駛的神經(jīng)網(wǎng)絡(luò)車輛模型

2025-02-26 08:21:39·  來源:同濟(jì)智能汽車研究所  
 

編者按:該論文研究了自動駕駛車輛在各種條件下的軌跡跟蹤控制問題,提出結(jié)合簡單物理模型的前饋-反饋控制結(jié)構(gòu),在極限工況下能夠達(dá)到甚至超過人類駕駛員的性能。盡管基于物理的模型具有優(yōu)勢,但在實際應(yīng)用中,常常無法充分利用自動駕駛車輛在行駛過程中積累的大量數(shù)據(jù)。為此,研究者提出了一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過物理模型驅(qū)動的歷史狀態(tài)量和輸入序列進(jìn)行建模,且在實驗中表現(xiàn)優(yōu)于傳統(tǒng)物理模型。更為重要的是,當(dāng)使用混合路面數(shù)據(jù)訓(xùn)練時,該神經(jīng)網(wǎng)絡(luò)能夠無須顯式估計路面摩擦系數(shù),準(zhǔn)確預(yù)測路面情況。這些結(jié)果為神經(jīng)網(wǎng)絡(luò)在自動駕駛車輛基于模型控制中的應(yīng)用提供了新思路,具有進(jìn)一步研究的潛力。

本文譯自:

《Neural network vehicle models for high-performance automated driving》

文章來源:


Science Robotics, 2019,4(28):eaaw1975.


作者:

Nathan A. Spielberg, Matthew Brown, Nitin R. Kapania, John C. Kegelman, J. Christian Gerdes

作者單位:

斯坦福大學(xué)機械工程系

原文鏈接:

https://www.science.org/doi/10.1126/scirobotics.aaw1975


摘要:自動駕駛車輛在行駛時,首先規(guī)劃并遵循一條安全的軌跡。為了確保它們的安全性優(yōu)于人類駕駛員,它們必須在各種條件和關(guān)鍵場景下達(dá)到或超過人類駕駛員的水平。研究表明,結(jié)合簡單物理模型的前饋-反饋控制結(jié)構(gòu),可以用于極限工況下的軌跡跟蹤,性能甚至可以與業(yè)余冠軍賽車手媲美,其關(guān)鍵在于擁有合適的車輛模型。盡管基于物理的模型在透明性和直觀性上具有優(yōu)勢,但它們通常需要在特定操作點附近進(jìn)行顯式建模,且無法充分利用自動駕駛車輛在行駛過程中積累的大量數(shù)據(jù)。為了解決這些問題,研究者提出了一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用物理模型驅(qū)動的過去的狀態(tài)量和輸入量序列來進(jìn)行建模。在實驗車輛上采用相同的前饋-反饋控制結(jié)構(gòu)時,神經(jīng)網(wǎng)絡(luò)的表現(xiàn)優(yōu)于傳統(tǒng)物理模型。更為重要的是,當(dāng)使用來自干燥路面和雪地的混合數(shù)據(jù)進(jìn)行訓(xùn)練時,該神經(jīng)網(wǎng)絡(luò)能夠正確預(yù)測車輛行駛的路面情況,而無需顯式估計路面摩擦系數(shù)。這些結(jié)果表明,該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作為自動駕駛車輛基于模型控制的基礎(chǔ),具有進(jìn)一步研究的潛力。



Ⅰ引言 

自動駕駛車輛有望徹底改變?nèi)祟惖某鲂蟹绞胶蛙囕v安全性。這一前景源自其能夠消除對人類駕駛員的依賴,顯著降低出行成本,并在理想情況下消除94%因人類識別、決策或操作失誤導(dǎo)致的交通事故[1]。然而,要實現(xiàn)這一目標(biāo),自動駕駛車輛必須能夠在各種環(huán)境下,尤其是在極端條件下,比人類駕駛員更熟練地進(jìn)行操縱。為此,許多自動駕駛系統(tǒng)采用了一個通用架構(gòu),其中上層規(guī)劃層負(fù)責(zé)生成安全的無碰撞軌跡,而下層控制器則負(fù)責(zé)跟蹤這些軌跡[2-5]。因此,安全行駛不僅要求生成無碰撞的軌跡,還需要控制系統(tǒng)能夠高精度地跟蹤目標(biāo)軌跡,理想情況下精度達(dá)到幾厘米。隨著自動駕駛車輛應(yīng)用范圍的擴大,這些軌跡跟蹤控制器必須能夠應(yīng)對多種路況,包括低摩擦條件下,如冰雪路面上的安全行駛,或在緊急情況下進(jìn)行避障操作。所有這些情況都源自日常駕駛,特別是在車輛極限條件下,操作的精確性變得至關(guān)重要。

盡管在開發(fā)自動駕駛控制技術(shù)方面已有大量研究,但大多數(shù)工作集中在如何控制車輛在正常駕駛條件下進(jìn)行溫和操控,通常是在高摩擦、干燥的路面上進(jìn)行[6,7]。針對車輛在接近摩擦極限時的控制研究揭示了許多挑戰(zhàn)[8-11]。根本問題在于,當(dāng)車輛接近輪胎與路面之間的摩擦極限時,車輛可能會變得不穩(wěn)定(若后輪達(dá)到摩擦極限),或完全失控(若前輪達(dá)到極限)。要在這些極限條件下精確跟蹤路徑,就需要對輪胎與路面之間的摩擦系數(shù)進(jìn)行估算,以便進(jìn)行軌跡設(shè)計并發(fā)出合適的轉(zhuǎn)向指令。獲取這一估計通常十分困難,且由于摩擦力在不同路面條件下波動,問題變得更加復(fù)雜。除了這一關(guān)鍵參數(shù)的估算難度,開發(fā)一個在極限條件下依然有效的動態(tài)模型同樣充滿挑戰(zhàn),因為此時車輛的運動方程呈現(xiàn)高度非線性。設(shè)計者還需要在保持模型準(zhǔn)確度與可操作性之間做出權(quán)衡,考慮是否需要包括諸如加速引起的重量轉(zhuǎn)移或快速轉(zhuǎn)向下輪胎力生成的滯后效應(yīng)等因素。

 對于控制系統(tǒng)設(shè)計者而言,操控車輛至極限狀態(tài)是一大挑戰(zhàn),但對于普通駕駛員來說,這種情況更具挑戰(zhàn)性,并且是許多事故的主要因素。盡管如此,經(jīng)驗豐富的駕駛員,特別是那些有賽車經(jīng)驗的駕駛員,即便是業(yè)余水平,也能在車輛的極限性能下安全駕駛[13]。在賽車中,這種能力表現(xiàn)在低且一致的圈速上;而在關(guān)鍵操控時,這種能力則表現(xiàn)為能夠在極限條件下充分利用輪胎與路面的摩擦力,以避免碰撞。如果我們希望自動駕駛車輛在關(guān)鍵時刻的操控超過經(jīng)驗豐富的駕駛員,那么對控制器的性能要求非常高。 

本文提出,采用簡單的路徑跟蹤架構(gòu)可以使自動駕駛車輛在利用輪胎與路面摩擦力方面,達(dá)到與業(yè)余賽車冠軍相同的路徑跟蹤能力。關(guān)鍵在于選擇合適的模型。通過使用基于物理的動力學(xué)模型進(jìn)行前饋控制、簡單的線性反饋控制器,并根據(jù)車輛模型的摩擦極限設(shè)計軌跡,車輛能夠在摩擦極限條件下,保持低于40厘米的平均路徑跟蹤誤差。由于模型本身僅是對實際極限的估計,我們將自動駕駛車輛的性能與業(yè)余賽車冠軍進(jìn)行了基準(zhǔn)測試,比較了賽道中不同段落的圈速。通過這一新的對比方式,我們發(fā)現(xiàn),在摩擦極限下操作的控制器與經(jīng)驗豐富的賽車手在實際道路中利用摩擦的能力相當(dāng)。 

為了實現(xiàn)這一性能,基于物理的簡單模型必須在干燥且高摩擦的賽道條件下進(jìn)行精確建模。那么,如何為道路上的自動駕駛車輛開發(fā)具有可比性的模型,便成了一個關(guān)鍵問題。雖然獲取不同車輛的參數(shù)作為開發(fā)過程的一部分是可行的,但隨著道路條件的變化,一些關(guān)鍵參數(shù)會發(fā)生劇烈變化[14-16]。雖然已有研究提出了可以適應(yīng)不同道路條件的在線參數(shù)估計技術(shù),但這些技術(shù)尚未成熟到可以在實際汽車中商用,或滿足安全關(guān)鍵系統(tǒng)的要求。此外,實時估計并未有效利用當(dāng)前車輛生成的大量數(shù)據(jù),且未來的自動駕駛車輛可能會共享這些數(shù)據(jù)。它也未能解決模型保真度問題,因為隨著模型復(fù)雜度的提高,參數(shù)估算變得更加困難。理想情況下,模型生成過程應(yīng)該能夠利用不同摩擦條件下的數(shù)據(jù),減少先驗建模的復(fù)雜性,同時保持基于物理的模型在特定條件下的準(zhǔn)確性和性能。 

這些挑戰(zhàn)促使我們研究用于車輛控制的神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)因其強大的函數(shù)逼近能力,在圖像識別和圍棋等領(lǐng)域取得了顯著成就[17-19]。早期的研究表明,神經(jīng)網(wǎng)絡(luò)能夠用于車輛控制和動態(tài)建模[20,21]。神經(jīng)網(wǎng)絡(luò)模型在從四旋翼飛行器控制到小型拉力賽車控制的多種機器人應(yīng)用中取得了成功[22,23]。雖然這些模型在車輛動態(tài)識別中取得了一定進(jìn)展,但尚未應(yīng)用于捕捉在多種摩擦表面上極限駕駛時車輛動態(tài)的變化[24,25]。此外,神經(jīng)網(wǎng)絡(luò)還能夠利用歷史信息捕捉時變效應(yīng)或高階動態(tài)行為,正如在直升機和機器人控制中的應(yīng)用所示[26-28]。 

為驗證這一方向的可行性,我們開發(fā)了一種兩層前饋神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠?qū)W習(xí)在不同路面條件下的車輛動態(tài)行為,且其輸入包括來自前三個時間步的歷史信息。通過這些歷史數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)可以在不同摩擦水平下預(yù)測車輛的動態(tài)行為,而無需明確估算摩擦系數(shù)。當(dāng)使用來自高摩擦和低摩擦路面的數(shù)據(jù)進(jìn)行訓(xùn)練時,網(wǎng)絡(luò)能夠根據(jù)歷史信息有效預(yù)測不同表面的動態(tài)行為。通過省略摩擦估計步驟,神經(jīng)網(wǎng)絡(luò)模型融合了預(yù)測和估算能力,簡化了車輛控制任務(wù),而不損失性能。仿真結(jié)果表明,與調(diào)整后的基于物理的模型相比,神經(jīng)網(wǎng)絡(luò)在極限條件下的路徑跟蹤性能顯著提高。此外,仿真研究還驗證了神經(jīng)網(wǎng)絡(luò)能夠捕捉基于物理模型中未能包含的多種動態(tài)行為。



Ⅱ 結(jié)果

為了研究車輛在極限操控條件下的路徑跟蹤性能,我們設(shè)計了一個與經(jīng)驗豐富的賽車手的對比實驗。在該實驗中,自動駕駛車輛的合適基準(zhǔn)是一個熟練的人類駕駛員,他不僅具有豐富的駕駛經(jīng)驗,還擁有業(yè)余賽車經(jīng)驗,并且對測試賽道非常熟悉。在實驗中,我們使用了一個基于物理的前饋-反饋控制器(如圖1所示)[29],該控制器被應(yīng)用于一輛自動化改裝的2009年奧迪TTS(Shelley)(圖2A)。該控制器的任務(wù)是跟蹤預(yù)設(shè)路徑,同時另一個控制器通過調(diào)整剎車、油門和換擋指令來控制車速,以達(dá)到期望的速度。路徑和速度剖面通過優(yōu)化方法設(shè)計,以基于車輛模型最小化完成賽道的時間[30]。

圖片

圖1 用于自動駕駛汽車路徑跟蹤的簡單前饋反饋控制結(jié)構(gòu)。用于生成前饋轉(zhuǎn)向命令的模型包括基于物理的模型和神經(jīng)網(wǎng)絡(luò)模型。

用于反饋-前饋控制的模型生成適當(dāng)?shù)霓D(zhuǎn)向角度,具體取決于給定的路徑曲率和車輛的縱向速度。輸入的準(zhǔn)確性對路徑跟蹤誤差和所需反饋控制量有著重要影響。前饋轉(zhuǎn)向指令是從平面單軌或“自行車”模型的運動方程中推導(dǎo)而來,這是車輛動力學(xué)領(lǐng)域常用的模型,也是通過牛頓定律推導(dǎo)而得的。在本文中,所謂的“基于物理的模型”特指平面自行車模型。為了從這些運動方程計算前饋轉(zhuǎn)向輸入,我們假設(shè)車輛在穩(wěn)態(tài)運行條件下,從而推導(dǎo)出所需的前饋輪胎力。這些穩(wěn)態(tài)輪胎力隨后通過基于物理的輪胎模型轉(zhuǎn)換為轉(zhuǎn)向輸入,該模型明確考慮了輪胎力生成與飽和效應(yīng)的影響。為了補償前饋命令的潛在不準(zhǔn)確性和外界干擾,我們使用了一個簡單的基于路徑的轉(zhuǎn)向反饋控制器來精準(zhǔn)跟蹤期望軌跡。該反饋控制器通過車輛與期望軌跡之間的橫向偏差和航向偏差來進(jìn)行調(diào)整,如圖1所示?;谖锢淼哪P偷妮喬?shù)是通過對實驗車輛數(shù)據(jù)進(jìn)行非線性最小二乘擬合得到的。 

為了將自動化控制方法與經(jīng)驗豐富的駕駛員的表現(xiàn)進(jìn)行比較,我們設(shè)計了一個封閉賽道的賽車性能測試,選取了加利福尼亞州威爾洛斯的雷霆山賽車公園前五個彎道作為測試場地。自動駕駛車輛和人類駕駛員都試圖以最短時間完成賽道。這一過程中,車輛需要在接近0.95g的加速度下行駛,同時在輪胎附著力的物理極限下,精準(zhǔn)跟蹤最短時間的賽車軌跡。在這種縱向和橫向加速度的組合條件下,車輛能夠在賽道部分區(qū)域達(dá)到95英里每小時(mph)的速度。自動駕駛車輛和人類駕駛員分別進(jìn)行了10次圍繞封閉賽道的駕駛實驗。測試在相同的條件下進(jìn)行,包括對車輛進(jìn)行配重,以確保自動駕駛和人類駕駛測試中車輛的質(zhì)量相等。即便在這些極限駕駛條件下,控制器依然能夠穩(wěn)定地跟蹤賽車線路,整個賽道的平均路徑跟蹤誤差始終低于40厘米(圖2D)。

圖片

圖2. 自動駕駛和人工駕駛。(A) “Shelley”,斯坦福大學(xué)的自動駕駛奧迪TTS旨在以車輛極限操縱能力進(jìn)行賽車。(B)人類駕駛員的MAD中間路徑投影到加利福尼亞州威爾洛斯的雷霆山賽車公園的前五個轉(zhuǎn)彎處。(C)Shelley的MAD 中位數(shù)路徑縮放了4倍以突出相對差異。(D)人類駕駛員和Shelley的MA 中位路徑(紅色)以及Shelley與預(yù)期路徑的平均絕對偏差(藍(lán)色)。(E)以Shelley為基準(zhǔn)的業(yè)余冠軍賽車手的分段時間。

為了研究路徑跟蹤的一致性,我們使用了中位數(shù)的平均絕對偏差(MAD median)路徑分散度,這是一種衡量每次駕駛軌跡偏離賽道中心線的穩(wěn)健指標(biāo)。實驗結(jié)果顯示,經(jīng)驗豐富的駕駛員在各圈之間的平均路徑分散度明顯大于自動駕駛車輛(圖2D)。這些數(shù)據(jù)也以投影形式展示在圖2(B和C)的賽道地圖上,其中表示測試賽道的北方方向。控制器的路徑偏差一致性表明,所采用的控制方法不僅準(zhǔn)確,而且精確。自動駕駛車輛較低的路徑分散度歸因于其使用高精度的基于GPS的定位系統(tǒng)來跟蹤預(yù)計算的軌跡。正如后文所討論的,較高的路徑分散度表明人類駕駛員采用了與自動駕駛車輛不同的策略。因此,雖然人類和自動駕駛車輛的跟蹤精度和變異性難以直接比較,但它們可以在時間方面進(jìn)行對比。

圖片

圖3 神經(jīng)網(wǎng)絡(luò)動力學(xué)模型,具有基于物理模型的輸入設(shè)計。FC1 和 FC2 表示我們的兩層前饋神經(jīng)網(wǎng)絡(luò)動力學(xué)模型中的全連接層。

為了比較自動駕駛車輛和人類駕駛員的表現(xiàn),我們使用了分段時間這一指標(biāo),這是賽車手和自動駕駛車輛都試圖最小化的目標(biāo)。為了進(jìn)行比較,我們將賽道分為三個部分。圖2E展示了在雷霆山賽車公園進(jìn)行的聯(lián)合試驗中記錄的分段時間,涵蓋了人類駕駛員和自動駕駛車輛的表現(xiàn)。正如帶缺口的箱線圖所示,Shelley在賽道每個部分的用時均落在熟練人類駕駛員的分段時間范圍內(nèi),這表明基于模型的控制器在車輛能力極限下的表現(xiàn)與經(jīng)驗豐富的賽車手相當(dāng)。在每個箱體上,中位線代表中位數(shù),黑色菱形標(biāo)記表示平均值,箱體的邊緣為第25和第75百分位數(shù),須線延伸至不超過四分位距(IQR)1.5倍的相鄰樣本之外,超出部分被標(biāo)為“異常值”。缺口部分提供了一個視覺對比區(qū)間,計算為中位數(shù)。圈速相當(dāng)?shù)慕Y(jié)果表明,簡單的前饋-反饋控制器與其基于物理的模型具有相當(dāng)?shù)哪Σ晾媚芰?。與人類駕駛員相比,低路徑分散度和相當(dāng)?shù)姆侄螘r間是基于針對特定路面調(diào)整的模型的結(jié)果。在與經(jīng)驗豐富的駕駛員的性能對比基準(zhǔn)建立后,我們可以將這種控制器的性能作為神經(jīng)網(wǎng)絡(luò)模型的參考基準(zhǔn)。

圖片

圖4 實驗?zāi)P捅容^。(A)實驗軌跡圖,在實驗數(shù)據(jù)圖中顯示相應(yīng)的第1、2和3部分。(B)大眾GTI實驗性自動駕駛賽車的圖片。(C)基于物理的控制器和神經(jīng)網(wǎng)絡(luò)控制器之間的實驗比較顯示,在橢圓形測試軌道的限制下跟蹤誤差較低。(D)直方圖顯示橢圓形測試跑道上神經(jīng)網(wǎng)絡(luò)和基于物理的控制器的橫向誤差分布的差異。

受到基于物理模型中狀態(tài)和控制啟發(fā)的影響,我們選擇使用圖3所示的前饋神經(jīng)網(wǎng)絡(luò)作為輸入。該神經(jīng)網(wǎng)絡(luò)模型包含兩個隱藏層,每層128個單元,并且每個狀態(tài)或控制輸入都使用三個延遲輸入狀態(tài)。與基于物理的模型相似,該網(wǎng)絡(luò)能夠預(yù)測車輛的偏航率和側(cè)向速度的導(dǎo)數(shù)。該網(wǎng)絡(luò)最初通過監(jiān)督學(xué)習(xí)的方式進(jìn)行訓(xùn)練,旨在復(fù)制基于物理的模型。在基于物理模型的輸入空間范圍內(nèi),我們使用200,000條軌跡進(jìn)行訓(xùn)練,并使用從高摩擦和低摩擦測試中收集的實驗車輛數(shù)據(jù)來更新神經(jīng)網(wǎng)絡(luò)。高摩擦測試在雷霆山賽車公園進(jìn)行,低摩擦測試則是在北極圈附近的冰雪混合跑道上進(jìn)行。

雖然神經(jīng)網(wǎng)絡(luò)模型可以應(yīng)用于各種控制方案,但我們希望將其與基于物理的前饋-反饋控制器提供的基準(zhǔn)進(jìn)行比較。因此,我們使用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型生成前饋指令,假設(shè)與基于物理的模型相同的穩(wěn)態(tài)條件。為了生成前饋轉(zhuǎn)向命令,我們利用二階非線性優(yōu)化方法,求解神經(jīng)網(wǎng)絡(luò)動力學(xué)模型的平衡點。測量的速度和路徑曲率作為優(yōu)化的輸入,來指定正確的前饋命令。該優(yōu)化過程在線進(jìn)行,每秒20次,從神經(jīng)網(wǎng)絡(luò)中計算前饋轉(zhuǎn)向命令。為了補償干擾和模型失配,我們在兩種控制方案中都使用了相同的基于路徑的簡單反饋控制器結(jié)構(gòu)進(jìn)行控制器之間的比較。

圖片

圖 5.訓(xùn)練和測試。(A)模擬數(shù)據(jù)的訓(xùn)練過程,包括數(shù)據(jù)生成和優(yōu)化模型之間模型不匹配的多重影響。(B)模擬數(shù)據(jù)的測試過程,顯示學(xué)習(xí)模型的泛化能力。(C)在各種摩擦條件下對真實采集的車輛數(shù)據(jù)的訓(xùn)練過程。(D)顯示學(xué)習(xí)模型的泛化能力的真實車輛數(shù)據(jù)的測試過程。

我們通過在一輛自動駕駛的大眾GTI(圖4B)上實施這兩種控制器進(jìn)行比較,并利用這輛具有自動駕駛功能的車獲取雪地數(shù)據(jù)。圖4A展示了在雷霆山賽車公園的滑行墊上用于評估這兩種控制器的橢圓形賽道。兩種控制方案使用相同的縱向速度剖面和縱向控制器,并在車輛能力的極限下進(jìn)行了測試。比較結(jié)果表明,在轉(zhuǎn)彎入口處(圖4C中標(biāo)記為“1”),神經(jīng)網(wǎng)絡(luò)控制器相較于基于物理的模型,學(xué)會了更多的轉(zhuǎn)向量,從而在轉(zhuǎn)彎中間的跟蹤誤差更低。在轉(zhuǎn)彎中,跟蹤誤差受到可用路面-輪胎摩擦力的影響,負(fù)誤差表示車輛超出了抓地力極限。此外,由于更接近期望路徑,神經(jīng)網(wǎng)絡(luò)控制器在轉(zhuǎn)彎出口處(“3”)命令的轉(zhuǎn)向較少。圖中顯示的出口和直道部分的峰值則受轉(zhuǎn)向反饋參數(shù)的影響,例如控制器增益和前瞻距離。我們發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)控制器在極限條件下,能夠顯著改變一圈內(nèi)側(cè)向誤差的分布(圖4D)。該分布顯示的計數(shù)是基于2.4厘米的箱體大小,所選的箱體數(shù)量為25。上述結(jié)果表明,在相同穩(wěn)態(tài)假設(shè)和控制架構(gòu)下,神經(jīng)網(wǎng)絡(luò)模型能夠提供比基于物理模型更高的模型保真度,滿足該賽道的期望性能基準(zhǔn)。 

數(shù)據(jù)驅(qū)動模型的真正優(yōu)勢不僅在于提供與基于物理方法相當(dāng)?shù)男阅?。神?jīng)網(wǎng)絡(luò)模型還具有整合更高階動態(tài)效應(yīng)的潛力,并能夠?qū)W習(xí)不同路面條件下的車輛行為。為了驗證我們的學(xué)習(xí)模型(圖3)是否具備這些特性,我們在兩項額外的研究中檢驗了其預(yù)測能力,這些研究結(jié)合了更高保真度的車輛動力學(xué)建模以及多個路面摩擦值。

 為了展示神經(jīng)網(wǎng)絡(luò)相對于簡化物理模型的建模能力,我們使用不同保真度的動態(tài)模型基于均勻隨機控制策略生成訓(xùn)練數(shù)據(jù)。這些數(shù)據(jù)不僅用于訓(xùn)練網(wǎng)絡(luò),還用于識別基于物理模型的最佳擬合參數(shù),以便進(jìn)行比較。在第一次比較中,物理模型本身生成了數(shù)據(jù),因此模擬數(shù)據(jù)的物理模型與學(xué)習(xí)到的物理模型之間不存在模型失配。在這種情況下,圖5A中的“無失配”結(jié)果顯示,基于物理的模型顯著優(yōu)于神經(jīng)網(wǎng)絡(luò)模型,并恢復(fù)了用于模擬的參數(shù)集。這是可以理解的,因為基于物理的模型代表了數(shù)據(jù)背后的真實模型形式,而神經(jīng)網(wǎng)絡(luò)則嘗試學(xué)習(xí)一個近似模型。 

然而,當(dāng)不同保真度的模型生成訓(xùn)練數(shù)據(jù)時,情況發(fā)生了變化。我們使用經(jīng)過增強的基于物理的模型生成了模擬數(shù)據(jù),這些模型考慮了縱向重量轉(zhuǎn)移、輪胎松弛長度以及多個路面摩擦值的影響(圖5A)。當(dāng)這些數(shù)據(jù)擬合到簡單的基于物理的模型時,額外的模型失配效應(yīng)導(dǎo)致了有偏的參數(shù)值。我們發(fā)現(xiàn),在所有這些模型失配的情況下,神經(jīng)網(wǎng)絡(luò)模型在預(yù)測方面優(yōu)于基于物理的模型(圖5A)。此外,我們還發(fā)現(xiàn)這些結(jié)果可以擴展到保留的模擬數(shù)據(jù)(圖5B)。這些結(jié)果與用于設(shè)計神經(jīng)網(wǎng)絡(luò)預(yù)測模型的物理見解一致。例如,在學(xué)習(xí)輪胎松弛效應(yīng)時,神經(jīng)網(wǎng)絡(luò)能夠通過包括多個延遲階段的狀態(tài)和輸入來捕捉變化的滑移角動態(tài),而基于物理的模型僅使用當(dāng)前輸入和狀態(tài)來預(yù)測車輛的動力學(xué)。 

受到神經(jīng)網(wǎng)絡(luò)在模擬中捕捉豐富動態(tài)能力的啟發(fā),我們設(shè)計了另一項研究,以評估模型在現(xiàn)實條件下對不同路面預(yù)測的能力。為此,我們使用大眾GTI平臺(圖4B)收集了手動駕駛和自動駕駛的數(shù)據(jù)。此外,我們還收集了在干燥瀝青上的高摩擦駕駛數(shù)據(jù),以及在雪地和冰面上的低摩擦駕駛數(shù)據(jù)。為了驗證神經(jīng)網(wǎng)絡(luò)在低摩擦和高摩擦條件下學(xué)習(xí)動態(tài)模型的能力,我們分別對每種條件單獨進(jìn)行了訓(xùn)練和驗證(圖5C)。結(jié)果表明,無論是在高摩擦還是低摩擦情況下,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)都優(yōu)于基于物理的模型。這兩種條件的數(shù)據(jù)還可以進(jìn)一步結(jié)合,用于訓(xùn)練單一神經(jīng)網(wǎng)絡(luò)或基于物理的模型。我們發(fā)現(xiàn),由于基于物理的模型無法捕捉這兩種不同摩擦條件的變化,導(dǎo)致其訓(xùn)練和測試誤差最高(圖5C)。識別出的基于物理的模型特征大致代表了平均路面條件,而神經(jīng)網(wǎng)絡(luò)模型的隱藏節(jié)點能夠隱式表示和應(yīng)用不同的路面條件。因此,神經(jīng)網(wǎng)絡(luò)在訓(xùn)練和測試中都優(yōu)于基于物理的模型一個數(shù)量級以上。更重要的是,這些結(jié)果表明,神經(jīng)網(wǎng)絡(luò)模型在混合和孤立的路面數(shù)據(jù)上均表現(xiàn)出更好的預(yù)測性能,這一特性也適用于保留的測試數(shù)據(jù)(圖5D)。



Ⅲ 討論

結(jié)果表明,有了合適的模型,簡單的前饋-反饋控制器可以在車輛摩擦能力的極限下提供路徑跟蹤性能,其摩擦利用與經(jīng)驗豐富的賽車手相當(dāng)。此外,我們的可行性研究證明,神經(jīng)網(wǎng)絡(luò)可以為這種方法提供必要的模型,其性能優(yōu)于簡單但精心調(diào)整的靜態(tài)基于物理的模型。最值得注意的是,這種模型可以在不明確識別摩擦的情況下預(yù)測不同摩擦表面的性能,并在考慮更高保真度的車輛動力學(xué)特性時表現(xiàn)出魯棒性。這里展示的測試表明,這樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是自動駕駛車輛動態(tài)模型的可行候選,并值得進(jìn)一步研究。 

將本文介紹的路徑跟蹤控制器與人類駕駛員的表現(xiàn)進(jìn)行基準(zhǔn)測試是充滿挑戰(zhàn)的。正如路徑分散度所示,人類駕駛員并非精確地進(jìn)行路徑跟蹤。相反,他們通常傾向于在某些關(guān)鍵點,例如彎道頂點,錨定期望路徑,并專注于將車輛推向摩擦極限。由于人類駕駛員的方法與典型的自動駕駛架構(gòu)截然不同,分段時間成為兩者比較的一個更公平的標(biāo)準(zhǔn)。無論是人類駕駛員還是期望軌跡,二者的目標(biāo)都是最小化行駛時間。鑒于分段時間對摩擦利用的極端敏感性,合理的分段時間可以推斷出相當(dāng)?shù)哪Σ晾贸潭取?nbsp;

此外,盡管我們的冠軍業(yè)余賽車手表現(xiàn)出色,但專業(yè)賽車手的速度更快,表明他們具備更強的摩擦力利用能力。因此,雖然我們展示了與經(jīng)驗豐富的賽車手相當(dāng)?shù)谋憩F(xiàn),但尚未展示出超越人類表現(xiàn)的高端能力。要實現(xiàn)這一點,可能需要采用賽車手更傾向于偏離路徑,以更充分地利用摩擦力和減少時間的策略。 

比較神經(jīng)網(wǎng)絡(luò)模型與基于物理模型控制性能的結(jié)果顯示,神經(jīng)網(wǎng)絡(luò)控制器在選定的測試路徑上具有更優(yōu)的路徑跟蹤性能。基于物理模型的控制器在轉(zhuǎn)彎時出現(xiàn)較大的側(cè)向誤差,接近50厘米。然而,考慮到典型車道寬度在2.7到3.6米之間,車輛寬度為2米,兩種控制器即便在摩擦極限下也能保持車輛在車道邊界內(nèi)(31)。在測試路徑上,轉(zhuǎn)彎速度未超過26英里每小時,因此該實驗反映了城市或郊區(qū)駕駛中緊急操作的合理模型。盡管部署前還需要通過其他操作進(jìn)行驗證,但這些結(jié)果證明了神經(jīng)網(wǎng)絡(luò)方法在極限條件下進(jìn)行車輛控制的可行性。 

當(dāng)使用神經(jīng)網(wǎng)絡(luò)模型時,控制器的前饋計算僅依賴于模型狀態(tài)空間的一部分(車輛處于穩(wěn)態(tài))。然而,神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)瞬態(tài)動態(tài)效應(yīng)的能力,這一點通過其一步預(yù)測誤差得到了體現(xiàn)。因此,在這種特定的控制架構(gòu)下,神經(jīng)網(wǎng)絡(luò)在控制方面的真正潛力尚未完全發(fā)揮。此外,由于前饋控制器僅在穩(wěn)態(tài)假設(shè)下生成命令,網(wǎng)絡(luò)的狀態(tài)歷史受到限制。當(dāng)前的前饋控制器未能充分利用神經(jīng)網(wǎng)絡(luò)同時估計和預(yù)測可變摩擦表面特性的能力。其他控制結(jié)構(gòu),如模型預(yù)測控制,可以充分利用網(wǎng)絡(luò)的估計能力,提供將估計和控制結(jié)合的簡單方法。另一個選擇是使用更復(fù)雜的物理模型或在線估計參數(shù)。然而,這一系列比較為建立神經(jīng)網(wǎng)絡(luò)模型的質(zhì)量提供了一個清晰的基準(zhǔn),相較于傳統(tǒng)方法和人類表現(xiàn)。 

在學(xué)習(xí)車輛動態(tài)的神經(jīng)網(wǎng)絡(luò)模型時,學(xué)習(xí)過程非常高效,所需的物理車輛數(shù)據(jù)僅為35分鐘。因此,收集其他路面、條件和輪胎的數(shù)據(jù)成本較低,且具備可行性。未來的研究可以進(jìn)一步探討是否能夠?qū)⒉煌窙r和條件有效編碼到該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中。


 Ⅳ 材料和方法


A. 基于物理的模型

所提出的基于物理的控制設(shè)計結(jié)構(gòu)基于平面單軌模型(即自行車模型)來假設(shè)車輛動力學(xué),如圖6A所示,相關(guān)參數(shù)在表1中進(jìn)行描述。平面自行車模型的核心假設(shè)是左右輪胎產(chǎn)生一個單一的組合側(cè)向力,從而僅在前后軸上產(chǎn)生兩個側(cè)向力,分別為。施加在前輪胎上的轉(zhuǎn)向角會引起通過滑移角產(chǎn)生的側(cè)向輪胎力。由此產(chǎn)生的兩個關(guān)鍵狀態(tài)是車輛的偏航率(描述車輛的角旋轉(zhuǎn))和側(cè)滑角(即側(cè)向速度與縱向速度的比值)。鑒于我們主要關(guān)注車輛的橫向控制,縱向速度被視為時變參數(shù),而不作為車輛狀態(tài)的一部分。

表1. 物理模型定義

圖片圖片

圖6 .基于物理的模型和輪胎模型。(A)平面自行車模型示意圖,包括誤差狀態(tài),在本文中稱為基于物理的模型。(B)前后輪胎曲線,使用刷子 Fiala 模型擬合經(jīng)驗輪胎數(shù)據(jù)。

除了兩個車輛狀態(tài)之外,還需要兩個額外的狀態(tài)來描述車輛相對于期望路徑的位置,如圖6A所示。橫向路徑偏差(即橫向誤差)表示車輛質(zhì)心到期望路徑上最近點的距離;而車輛航向誤差則是車輛中心線與期望路徑切線之間的角度差。 

圖6A中所示狀態(tài)的運動方程由以下給出:

圖片

為了獲得以誤差狀態(tài)導(dǎo)數(shù)表示的前饋控制器設(shè)計的運動方程,我們可以對取時間導(dǎo)數(shù),設(shè),并從方程1A和1B中代入,得到:

圖片

自行車模型的動力學(xué)簡化為方程3B所示的形式,用于描述向量值學(xué)習(xí)自行車模型。模型中的輪胎參數(shù)(如、)通過學(xué)習(xí)來預(yù)測,并由從實驗數(shù)據(jù)中獲得的車輛測量值進(jìn)行估算。在時刻,輸入到橫向自行車模型的變量記作,如方程3A所示。

圖片

B. Lookahead 控制器

作為控制基準(zhǔn),基于物理的控制器采用前饋-反饋架構(gòu)(如圖1所示)。前饋轉(zhuǎn)向角的輸入為當(dāng)前路徑曲率和前進(jìn)速度,反饋轉(zhuǎn)向角的輸入為誤差狀態(tài)。最終的轉(zhuǎn)向指令是反饋與前饋輸入的加權(quán)和。

轉(zhuǎn)向前饋的目標(biāo)是提供一個估計的轉(zhuǎn)向角,用于穿越具有已知路徑曲率和速度剖面的路徑。這可以最小化轉(zhuǎn)向反饋所需的補償量,減少跟蹤誤差。前饋轉(zhuǎn)向角應(yīng)僅依賴于期望的軌跡,而與實際車輛狀態(tài)無關(guān)。 

為了從基于物理的模型設(shè)計前饋轉(zhuǎn)向控制器,我們做出了簡化假設(shè),即車輛在穩(wěn)態(tài)轉(zhuǎn)彎條件下運行。此假設(shè)已被證明[32]有助于減少控制器偏航率響應(yīng)的振蕩。在方程2中設(shè)置,得到以下穩(wěn)態(tài)前輪和后輪的輪胎力公式:

圖片

在穩(wěn)態(tài)條件下,假設(shè)角度較小,車輛的前饋轉(zhuǎn)向角與前輪和后輪的側(cè)向輪胎滑移角以及路徑曲率通過車輛運動學(xué)關(guān)聯(lián)。

圖片

具體地,前饋轉(zhuǎn)向角與前輪和后輪的綜合前饋輪胎滑移角相關(guān)。 

前饋輪胎滑移角的選擇與方程4中的輪胎力通過輪胎模型相關(guān)。為了考慮輪胎力隨輪胎滑移幅度增加而飽和的情況,采用單摩擦系數(shù)刷子模型[33]將側(cè)向輪胎滑移角映射為輪胎力,具體如下:

圖片

其中符號表示前輪或后輪,是路面摩擦系數(shù),是對應(yīng)的轉(zhuǎn)向剛度和法向載荷參數(shù)。轉(zhuǎn)向剛度和摩擦系數(shù)是通過使用非線性最小二乘法擬合實驗數(shù)據(jù)得到的,如圖6B所示。 

隨著前饋設(shè)計的完成,剩下的步驟是設(shè)計反饋控制器。反饋控制器的目標(biāo)是最小化一個前瞻距離誤差,這是車輛跟蹤誤差投影到車輛前方距離處的誤差(圖6A)。 前瞻誤差和相應(yīng)的反饋控制律如下所示:

圖片

式中具有比例增益。注意這個反饋控制器的一個關(guān)鍵特點是包含了穩(wěn)態(tài)側(cè)滑信息。文獻(xiàn)[32]指出,考慮反饋控制律中的側(cè)滑信息能夠消除穩(wěn)態(tài)路徑跟蹤誤差,前提是沒有模型與實際情況的不匹配。此外,線性系統(tǒng)的分析表明,使用穩(wěn)態(tài)側(cè)滑信息,而非測量的車輛側(cè)滑,可以使控制器在穩(wěn)態(tài)下保持足夠的穩(wěn)定性裕度。

C. 與人類駕駛員對比

為了提供一個基準(zhǔn)來評估基于物理的控制器,我們將Shelley的性能與一位熟練的駕駛員進(jìn)行了比較。該駕駛員擁有多年的業(yè)余賽車經(jīng)驗,并且曾與研究團(tuán)隊合作。此外,這位駕駛員對賽道非常熟悉。基于物理的前瞻控制器被實現(xiàn)在Shelley上,這是一輛2009年的奧迪TTS。Shelley配備了主動剎車助力器、電子油門和電子助力轉(zhuǎn)向系統(tǒng),能夠?qū)崿F(xiàn)完全的自動駕駛控制。此外,Shelley使用了差分全球?qū)Ш叫l(wèi)星系統(tǒng)(DGPS)信號輔助的集成導(dǎo)航系統(tǒng),提供厘米級精度的位置測量。該系統(tǒng)包括一個dSPACE MicroAutoBoxII,用于記錄車輛數(shù)據(jù),并以200Hz的頻率執(zhí)行控制命令。 

為了比較基于物理的前瞻控制器與熟練駕駛員在賽車性能上的差異,我們通過比較分段時間和路徑分散度來展示實驗結(jié)果。實驗測試在位于加利福尼亞州威爾洛斯的雷霆山賽車公園進(jìn)行。人類參與者和Shelley分別進(jìn)行了東賽道2至6號彎道的10次連續(xù)試驗。在每次試驗中,車輛的總質(zhì)量保持一致。我們使用GPS標(biāo)記將每次試驗分割成三部分進(jìn)行分析。對于兩位參與者,從GPS記錄的行駛路徑被用來計算橫向偏差和沿賽道中心線的距離。為了描述每位參與者軌跡的分散度,我們選擇了中位數(shù)的平均絕對偏差(MAD median)。

D. 學(xué)習(xí)全局神經(jīng)網(wǎng)絡(luò)模型

與在基于物理的模型中學(xué)習(xí)參數(shù)不同,我們學(xué)習(xí)了一個神經(jīng)網(wǎng)絡(luò)模型,該模型能夠省略建模和識別潛在狀態(tài)(例如車輛與路面摩擦的相互作用)的步驟。在建模未知或變化的動力學(xué)時,設(shè)計者通常需要將所有未知或未建模的效應(yīng)壓縮到一個預(yù)定義維度的給定參數(shù)集中。通過使用一個既包含控制又包含狀態(tài)歷史的向量表示的神經(jīng)網(wǎng)絡(luò)模型,我們對系統(tǒng)識別任務(wù)施加了較少的結(jié)構(gòu),允許網(wǎng)絡(luò)模型識別其自身對時變動力學(xué)的內(nèi)部表示。在擴展的網(wǎng)絡(luò)輸入空間中,給定點可以用來完整地構(gòu)建系統(tǒng)的潛在狀態(tài),前提是延遲階段的數(shù)量足夠長。這一點通過Takens定理得到了證明,并在學(xué)習(xí)復(fù)雜的直升機動力學(xué)模型中得到了進(jìn)一步驗證[27,34]。 

我們學(xué)習(xí)了一個形式如方程9所示的神經(jīng)網(wǎng)絡(luò)動力學(xué)模型,其中表示學(xué)習(xí)到的網(wǎng)絡(luò)權(quán)重參數(shù),表示每個階段的延遲狀態(tài)和控制輸入,表示狀態(tài)和控制輸入的歷史,是使用softplus激活函數(shù)的雙隱藏層神經(jīng)網(wǎng)絡(luò)動力學(xué)模型的縮寫。在網(wǎng)絡(luò)方程中,表示層激活,表示給定層的加權(quán)輸入。

圖片

網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是預(yù)測下一個測量的偏航率()和側(cè)向速度()狀態(tài)。網(wǎng)絡(luò)的測量輸入每步延遲10毫秒。為了預(yù)測目標(biāo)狀態(tài),我們使用網(wǎng)絡(luò)學(xué)習(xí)了狀態(tài)導(dǎo)數(shù),然后使用10毫秒的時間步長()進(jìn)行歐拉積分,如下所示?;谖锢淼哪P偷念A(yù)測目標(biāo)也使用10毫秒的時間步長進(jìn)行歐拉積分,其中表示下一個采樣時間步長。

圖片

E. 仿真數(shù)據(jù)

為了研究神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這些效應(yīng)表示的能力,我們設(shè)計了一個使用基于物理模型的模擬研究,該模型具有不同程度的額外模型復(fù)雜性。為了展示神經(jīng)網(wǎng)絡(luò)模型對車輛動力學(xué)建模的能力,我們使用了之前描述的單軌車輛模型和Fiala輪胎模型。為了使用基于物理的模型生成數(shù)據(jù)集,如方程1所示,我們首先在穩(wěn)定初始狀態(tài)的空間中均勻隨機地采樣初始條件()。我們還在可能的輸入空間中均勻隨機地采樣初始控制()。為了創(chuàng)建一個長度為的單一軌跡,用作網(wǎng)絡(luò)訓(xùn)練的輸入,我們使用了均勻隨機控制策略,對于,,使用基于物理模型的動力學(xué)來確定剩余控制軌跡的下一個狀態(tài)。除了使用高摩擦的基于物理的模型生成訓(xùn)練數(shù)據(jù)外,我們還模擬了以下額外的動態(tài)效應(yīng)。

F. 載荷轉(zhuǎn)移

在高性能駕駛中,影響車輛動力學(xué)的一個常見效應(yīng)是縱向載荷轉(zhuǎn)移。該效應(yīng)通過增加或減少每個輪胎所經(jīng)歷的法向力,進(jìn)而影響車輛的動力學(xué),通常是由于加速或制動所導(dǎo)致。方程11顯示了載荷轉(zhuǎn)移的影響,其中是車輛質(zhì)心的高度,是車輛質(zhì)量,是重力加速度。與Fiala輪胎模型結(jié)合時,縱向載荷轉(zhuǎn)移會導(dǎo)致給定輪胎的力能力增加或減少。我們采用一個包含基于物理的模型,并結(jié)合縱向載荷轉(zhuǎn)移效應(yīng)的動力學(xué)模型,生成了一個模擬數(shù)據(jù)集。

圖片

E. 輪胎松弛

在低速駕駛中,另一個需要建模的主要效應(yīng)是輪胎松弛長度。輪胎松弛長度可以被建模為每個輪胎所經(jīng)歷的側(cè)向力的延遲,如下方程12[35]所示。延遲的量由輪胎松弛長度決定,這是輪胎的一個屬性,以及車輛速度的大小。我們使用一個包含輪胎松弛長度效應(yīng)的基于物理的模型生成了一個模擬數(shù)據(jù)集。

圖片

G. 摩擦力驗證

為了驗證神經(jīng)網(wǎng)絡(luò)模型在多種環(huán)境條件下具有高預(yù)測性能的能力,我們生成了一個包含高摩擦和低摩擦數(shù)據(jù)的模擬數(shù)據(jù)集。通過在Fiala輪胎模型的摩擦參數(shù)中明確建模高摩擦和低摩擦表面,我們生成了數(shù)據(jù)集,其中高摩擦和低摩擦表面的摩擦值分別如方程13所示。這個數(shù)據(jù)集包含了200,000條采樣軌跡用于訓(xùn)練,其中一半數(shù)據(jù)是在高摩擦條件下收集的,另一半則是在低摩擦條件下收集的。

圖片

最終,我們將所有這些效應(yīng)合并到一個基于物理的模型中,生成了一個包含200,000個樣本的模擬數(shù)據(jù)集,用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。

H. 實驗數(shù)據(jù)

為了展示神經(jīng)網(wǎng)絡(luò)模型在真實預(yù)測測試中的能力,我們在高摩擦和低摩擦駕駛條件下收集了車輛數(shù)據(jù)。所收集的數(shù)據(jù)涵蓋了模擬中展示的所有建模效應(yīng),包括高摩擦和低摩擦情況,以及一些難以建模的效應(yīng),如懸掛幾何形狀和內(nèi)部控制回路??偣灿?14,629個軌跡樣本,約35分鐘的駕駛數(shù)據(jù),數(shù)據(jù)大致均勻分布在高摩擦和低摩擦駕駛之間。這些數(shù)據(jù)是通過使用類似于Shelley平臺的自動化大眾GTI車輛收集的。低摩擦數(shù)據(jù)是在北極圈附近的測試跑道上收集的,覆蓋了不同速度范圍,直到車輛在低摩擦測試跑道上的極限。高摩擦數(shù)據(jù)則是在雷霆山賽車公園收集的,涉及各種操作的極限數(shù)據(jù)。 

一個集成導(dǎo)航系統(tǒng)被用來測量,,,,其中表示車輛的縱向加速度。車輛的轉(zhuǎn)向角度測量值通過車輛控制器局域網(wǎng)(CAN)獲得。所有數(shù)據(jù)以100Hz的頻率記錄在dSPACE MicroAutoBox上。在學(xué)習(xí)任務(wù)中,為了僅學(xué)習(xí)相關(guān)的車輛動力學(xué),我們使用一個6Hz截止頻率的二階巴特沃斯低通濾波器對記錄的數(shù)據(jù)進(jìn)行了濾波,以避免包含高頻效應(yīng),如懸掛振動。

I. 優(yōu)化與訓(xùn)練

在準(zhǔn)備學(xué)習(xí)數(shù)據(jù)時,每個實驗數(shù)據(jù)集被分為70%用于訓(xùn)練,15%用于開發(fā),15%用于模型測試。為了打破數(shù)據(jù)集內(nèi)的時序相關(guān)性,我們隨機化了數(shù)據(jù),確保每個樣本由一個時間相關(guān)軌跡組成,但任意兩個樣本之間不相關(guān)。為了比較基于物理模型和神經(jīng)網(wǎng)絡(luò)模型的能力,我們優(yōu)化了這兩個模型,使其能夠擬合觀測到的動力學(xué)訓(xùn)練數(shù)據(jù)。我們使用均方誤差(MSE)作為訓(xùn)練目標(biāo),如下所示,其中表示模型預(yù)測的量,是測量的目標(biāo)量,表示訓(xùn)練樣本的數(shù)量。通過訓(xùn)練網(wǎng)絡(luò),我們解決了如方程14所示的優(yōu)化問題,其中表示網(wǎng)絡(luò)的權(quán)重。

圖片

為了將基于物理的模型優(yōu)化到觀測數(shù)據(jù),我們同樣形成了一個優(yōu)化問題來訓(xùn)練模型參數(shù)?;谖锢砟P偷膮?shù)包括輪胎摩擦系數(shù)()和輪胎前、后輪的轉(zhuǎn)向剛度()。由于存在模型失配,任何觀測到的模型失配都會導(dǎo)致模型參數(shù)的變化。同樣,在從包含額外未建模效應(yīng)的基于物理的模型生成的數(shù)據(jù)中,模型失配也會導(dǎo)致參數(shù)變化。因此,我們解決了優(yōu)化問題(方程15)來訓(xùn)練基于物理模型以擬合記錄數(shù)據(jù)。

圖片

基于物理模型的參數(shù)是從隨機高斯分布初始化,而神經(jīng)網(wǎng)絡(luò)模型的參數(shù)使用Xavier均勻初始化方法進(jìn)行初始化。我們使用Adam優(yōu)化方法,并采用默認(rèn)參數(shù)初始化,執(zhí)行基于物理模型和神經(jīng)網(wǎng)絡(luò)模型中學(xué)習(xí)參數(shù)的一階優(yōu)化[36]。訓(xùn)練過程使用每批1000個樣本的迷你批次進(jìn)行每次更新。學(xué)習(xí)框架是在Python中使用TensorFlow實現(xiàn),并通過圖形處理單元(GPU)并行化進(jìn)行訓(xùn)練。訓(xùn)練使用的計算集群配備了Intel i7處理器和Nvidia 1080顯卡[37]。對于單個訓(xùn)練數(shù)據(jù)集,整個學(xué)習(xí)過程大約需要25分鐘。

J. 使用基于學(xué)習(xí)的模型進(jìn)行控制

為了使用學(xué)習(xí)到的神經(jīng)網(wǎng)絡(luò)模型控制車輛,我們開發(fā)了一種基于前饋-反饋控制架構(gòu)的方法。在這種方法中,學(xué)習(xí)到的神經(jīng)網(wǎng)絡(luò)模型用于生成近似的前饋轉(zhuǎn)向和側(cè)滑命令。首先,我們在來自自行車模型模擬的高摩擦數(shù)據(jù)上訓(xùn)練神經(jīng)網(wǎng)絡(luò),這些數(shù)據(jù)在模型的狀態(tài)空間中采樣了200,000條軌跡。初步訓(xùn)練完成后,我們使用真實實驗數(shù)據(jù)進(jìn)一步訓(xùn)練模型,這一過程受逐步提高模型保真度模擬器技術(shù)的啟發(fā)[38]。我們補充了來自高摩擦和低摩擦實驗測試的真實數(shù)據(jù),并從基于前饋-反饋控制器跟蹤橢圓形測試賽道的數(shù)據(jù)中獲取了額外的實驗數(shù)據(jù)。將這些數(shù)據(jù)合并后,神經(jīng)網(wǎng)絡(luò)車輛模型重新訓(xùn)練以擬合新的真實數(shù)據(jù),如圖7所示。一旦模型在真實數(shù)據(jù)上優(yōu)化完畢,它便用于生成前饋轉(zhuǎn)向和側(cè)滑命令。 

從神經(jīng)網(wǎng)絡(luò)動力學(xué)模型中未學(xué)習(xí)到的運動學(xué)來看,我們發(fā)現(xiàn)在穩(wěn)態(tài)時,可以得到:

圖片

穩(wěn)態(tài)值被用作優(yōu)化問題的輸入,以找到前饋控制的駐點。尋找駐點的條件是通過找到一個狀態(tài)導(dǎo)數(shù)為零的點來實現(xiàn)。在具有歷史信息的神經(jīng)網(wǎng)絡(luò)中,這意味著每個延遲的狀態(tài)和控制輸入被約束為相同,如方程17B所示。

圖片

為了像基于物理的控制器那樣計算前饋值,控制器需要知道速度和路徑曲率。速度是車輛傳感器測量并作為網(wǎng)絡(luò)的輸入,而曲率是從預(yù)計算的軌跡提供的。在實際控制過程中,曲率是通過車輛上的地圖匹配算法在線計算的。 

最后,控制器計算前饋命令,這些命令在執(zhí)行限制()內(nèi)最好地實現(xiàn)平衡。這個解是使用約束的二階內(nèi)點優(yōu)化方法優(yōu)化的。這個過程使用了CasADi和IPOPT來解決如方程18所示的以下非線性優(yōu)化問題[39, 40]。

圖片

該優(yōu)化問題旨在以最小二乘法的意義找到與學(xué)習(xí)模型穩(wěn)態(tài)最接近的控制輸入。在實踐中,優(yōu)化結(jié)果在車輛測試期間的最大成本函數(shù)值為。每50毫秒,優(yōu)化問題將在配備Intel i7處理器的計算機上重新求解。運動學(xué)轉(zhuǎn)向角被用作優(yōu)化的初始猜測,盡管該問題對初始猜測并不十分敏感。 

在獲得用于控制的轉(zhuǎn)向值時,我們結(jié)合穩(wěn)態(tài)側(cè)向速度和當(dāng)前速度來計算前饋側(cè)滑角,如方程19A所示。一旦計算出前饋側(cè)滑命令,它將與前饋轉(zhuǎn)向命令一起,作為車道保持反饋控制方案的一部分,進(jìn)行進(jìn)一步的控制計算,如方程19B所示。最終的轉(zhuǎn)向命令由前饋網(wǎng)絡(luò)的駐點解和路徑基反饋轉(zhuǎn)向附加項共同決定。與基于物理的控制器類似,轉(zhuǎn)向反饋包括前饋側(cè)滑項,這一項基于從網(wǎng)絡(luò)計算出的最佳穩(wěn)態(tài)側(cè)向速度解。

圖片

最終計算出的轉(zhuǎn)向命令通過車輛的CAN接口發(fā)送,并通過一個低級轉(zhuǎn)向控制器進(jìn)行跟蹤,后者向車輛的轉(zhuǎn)向系統(tǒng)施加扭矩,以達(dá)到期望的車輪角度。 

基于物理的前饋控制器和神經(jīng)網(wǎng)絡(luò)前饋控制器的比較在一輛自動化的大眾GTI上進(jìn)行。兩個控制器均在雷霆山賽車公園的瀝青高摩擦滑行墊上的橢圓形測試軌道上進(jìn)行了測試。實驗中,兩種控制器均使用了一個前饋-反饋的縱向控制器。兩種控制器的跟蹤誤差在車輛測試期間進(jìn)行了比較,數(shù)據(jù)分析在MATLAB 2016b中完成。


參考文獻(xiàn)


圖片圖片圖片圖片


圖片 

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25