日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

融合時空特征的端到端自動駕駛車輛轉(zhuǎn)向角預(yù)測

2022-05-07 10:08:44·  來源:中國公路學(xué)報  作者:呂宜生,等  
 
呂宜生中國科學(xué)院自動化研究所復(fù)雜系統(tǒng)管理與控制國家重點實驗室副研究員。IEEE智能交通學(xué)會管理委員會(BoG)成員,IEEE Transactions on Intelligent Transpor

呂宜生

中國科學(xué)院自動化研究所復(fù)雜系統(tǒng)管理與控制國家重點實驗室副研究員。IEEE智能交通學(xué)會管理委員會(BoG)成員,IEEE Transactions on Intelligent Transportation Systems、IEEE Intelligent Transportation Systems Magazine、自動化學(xué)報、智能科學(xué)與技術(shù)學(xué)報編委。主要從事人工智能、交通大數(shù)據(jù)、智能網(wǎng)聯(lián)交通、智能交通、無人駕駛方向。獲得5次會議/期刊優(yōu)秀論文,獲得中國自動化學(xué)會自然科學(xué)一等獎、IEEE 智能交通系統(tǒng)杰出應(yīng)用獎、中國自動化學(xué)會科學(xué)技術(shù)進(jìn)步獎特等獎、北京市科學(xué)技術(shù)進(jìn)步獎二等獎。                           


0自動駕駛是指通過在車輛上加裝感知設(shè)備和運算單元,提高車輛本身的感知、決策和控制能力,使其達(dá)到甚至超越人類的駕駛水平。目前對自動駕駛的研究可分為兩種方法:模塊化和端到端方法。模塊化方法由獨立但相互連接的模塊構(gòu)成,每個子模塊完成特定的功能;端到端方法可完成從感知輸入到車輛控制的直接映射,不同于模塊化學(xué)習(xí)中需要優(yōu)化人工選擇的中間標(biāo)準(zhǔn)如車道線檢測,端到端方法可以自我優(yōu)化以最大程度地提高整體系統(tǒng)性能,是探索自動駕駛技術(shù)的一種重要途徑。

圖片

圖1. 自動駕駛軟件系統(tǒng)

 

從某種意義上來說,端到端自動駕駛更接近于人類駕駛行為,比如:對于熟悉的道路和路況,人們?nèi)菀子?xùn)練出固定的大腦工作模式,足以應(yīng)對常規(guī)的駕駛?cè)蝿?wù),即處于典型的端到端駕駛狀態(tài)。端到端自動駕駛方法有基于模仿學(xué)習(xí)的方法和基于強化學(xué)習(xí)的方法。在基于模仿學(xué)習(xí)的端到端自動駕駛?cè)蝿?wù)中,可借助人類專家給出的決策數(shù)據(jù),利用深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)從感知到控制的映射函數(shù)。車輛控制指令一般包含轉(zhuǎn)向角和速度(或者油門和剎車)。但由于車輛行駛速度與駕駛員的個人習(xí)慣密切相關(guān),同時攝像頭采集幀率也是影響速度預(yù)測的關(guān)鍵因素,故本文主要研究基于模仿學(xué)習(xí)的端到端自動駕駛中車輛轉(zhuǎn)向角預(yù)測問題。

圖片

圖2. 基于模仿學(xué)習(xí)的端到端自動駕駛轉(zhuǎn)向角預(yù)測

 

1相關(guān)工作


近年來,比較有影響力的工作是2017NVIDIA開發(fā)的端到端深度卷積神經(jīng)網(wǎng)絡(luò)PilotNet,該工作通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型完成從圖像到車輛轉(zhuǎn)向角的映射。在NVIDIA的后續(xù)工作中,他們構(gòu)建了可視化工具,可視化結(jié)果顯示,PilotNet能夠自發(fā)地學(xué)會識別車道標(biāo)記、道路邊緣等對駕駛至關(guān)重要的道路特征。

圖片

圖3.  NVIDIA PilotNet系統(tǒng)平臺

 

駕駛行為是動態(tài)的,而只包含靜態(tài)空間特征的單幀圖像丟掉了動態(tài)的時間特征。因此,在動態(tài)實時環(huán)境中自主駕駛的車輛需要具有時空感知能力,綜合考慮時間與空間信息對于精確的車輛運動控制至關(guān)重要。目前,端到端自動駕駛領(lǐng)域的時空模型研究工作主要集中在使用循環(huán)神經(jīng)網(wǎng)絡(luò)和3D卷積網(wǎng)絡(luò)。此外,有研究將雙流卷積網(wǎng)絡(luò)(廣泛應(yīng)用在視頻行為識別領(lǐng)域)應(yīng)用到端到端自動駕駛,發(fā)現(xiàn)從基于運動的光流中學(xué)習(xí)自動駕駛車輛控制能夠取得較好的效果。光流(Optical Flow)定義為視頻圖像中某個位置的像素點在相鄰兩幀圖像之間的位移矢量,它可以捕獲視頻中相鄰幀之間的時間動態(tài),是一種強大的視覺表征,且時間流特征易于解碼。

圖片

圖4. 相鄰兩幀RGB圖像提取光流圖像

 

但光流圖像的時間信息僅來自于當(dāng)前幀與上一幀圖像,沒有解決駕駛運動過程中連續(xù)多幀駕駛場景之間的時間建模問題。為此,本文提出一種時空融合的端到端自動駕駛車輛轉(zhuǎn)向角預(yù)測模型,在雙流卷積網(wǎng)絡(luò)(Two-Stream CNN)的基礎(chǔ)上引入門控循環(huán)單元(GRU)網(wǎng)絡(luò),利用RGB圖像、基于運動的光流圖像和門控循環(huán)單元網(wǎng)絡(luò)來融合連續(xù)多幀駕駛場景的空間特征與時間特征。


2方法介紹


本文提出的結(jié)合門控循環(huán)單元的雙流卷積模型(Two-StreamC-GRU)可以拆解為基本的雙流卷積網(wǎng)絡(luò)和門控循環(huán)單元網(wǎng)絡(luò)?;倦p流卷積網(wǎng)絡(luò)將RGB圖像和光流圖像作為多模態(tài)輸入數(shù)據(jù),首先利用兩組卷積網(wǎng)絡(luò)分支提取特征,一組分支從RGB圖像中提取空間特征,另一組分支從光流中學(xué)習(xí)時間特征;然后利用門控循環(huán)單元網(wǎng)絡(luò)對具有短時依賴關(guān)系的特征進(jìn)行建模,以更好地提取、分析時間特征;最后,融合時間與空間特征,饋入全連接層輸出轉(zhuǎn)向指令。

圖片

圖5. Two-Stream C-GRU模型系統(tǒng)整體框圖

圖片

圖6. Two-Stream  C-GRU模型網(wǎng)絡(luò)結(jié)構(gòu)

 本文卷積網(wǎng)絡(luò)層仿照PilotNet結(jié)構(gòu)進(jìn)行構(gòu)建,分別在空間卷積網(wǎng)絡(luò)分支和時間卷積網(wǎng)絡(luò)分支的最后添加GRU網(wǎng)絡(luò)。GRU控制著以隱藏狀態(tài)編碼的前一幀圖像特征以及后一幀圖像特征的信息流向。最后將兩個分支輸出的當(dāng)前狀態(tài)進(jìn)行融合,完成對三幀RGB圖像以及對應(yīng)兩幀光流圖像的時間關(guān)系建模。相比基本的雙流卷積網(wǎng)絡(luò),本文提出的Two-Stream C-GRU網(wǎng)絡(luò)模型獲取的時間動態(tài)不僅依賴于表示前后兩幀圖像位移的光流,也與連續(xù)多幀圖像相關(guān),能夠進(jìn)一步強化連續(xù)三幀圖像之間的時間特征。

圖片

圖7. 添加門控循環(huán)單元網(wǎng)絡(luò)的模型結(jié)構(gòu)

 

3模型可視化


為了深入了解端到端自動駕駛系統(tǒng)內(nèi)部如何做出決策以及進(jìn)一步改進(jìn)系統(tǒng),NVIDIA和Google聯(lián)合開發(fā)了一種VisualBackProp算法,VisualBackProp能夠突出顯示原始圖像中對確定預(yù)測轉(zhuǎn)向角作用最顯著的部分,將這些顯著圖像部分稱為顯著對象。不同于以往需要求解梯度的可視化卷積網(wǎng)絡(luò)算法,該算法依據(jù)卷積神經(jīng)網(wǎng)絡(luò)隨著網(wǎng)絡(luò)層數(shù)的加深提取到的信息越關(guān)鍵,但特征圖分辨率也隨之下降這一特點,采用將最深層平均化之后的特征圖,通過反卷積進(jìn)行放大操作,然后與上一層平均化的特征圖點乘得到中間掩膜,再重復(fù)之前的反卷積與點乘操作,不斷繼續(xù)下去,直到可視化的掩膜大小與輸入圖像的大小相等。

本文對PilotNet、基本雙流卷積網(wǎng)絡(luò)以及結(jié)合GRU的雙流卷積網(wǎng)絡(luò)的空間卷積網(wǎng)絡(luò)分支和時間卷積網(wǎng)絡(luò)分支分別使用VisualBackProp算法進(jìn)行可視化,并對其進(jìn)行熱力圖處理,以直觀地比較分析卷積網(wǎng)絡(luò)內(nèi)部如何做出決策,如下圖所示。

圖片

圖8. 空間卷積網(wǎng)絡(luò)分支可視化圖

圖片

圖9. 時間卷積網(wǎng)絡(luò)分支可視化圖

 

觀察發(fā)現(xiàn):

(1)無論是單流網(wǎng)絡(luò)還是雙流網(wǎng)絡(luò),對于地面道路、車道線均有明顯關(guān)注,這表明神經(jīng)網(wǎng)絡(luò)在僅以圖像和轉(zhuǎn)向角作為訓(xùn)練信號的情況下,學(xué)會了自主檢測有用的道路特征;

(2)對比單流網(wǎng)絡(luò)和雙流的兩個分支網(wǎng)絡(luò)發(fā)現(xiàn),提取光流圖像特征的時間卷積網(wǎng)絡(luò)分支比提取RGB圖像特征的空間卷積網(wǎng)絡(luò)分支更能捕捉道路邊界和車道線等特征點,這也側(cè)面說明雙流卷積網(wǎng)絡(luò)確實優(yōu)于單流網(wǎng)絡(luò),能夠增強端到端學(xué)習(xí);

(3)相較于基本雙流卷積網(wǎng)絡(luò),本文提出的Two-Stream C-GRU模型的空間卷積網(wǎng)絡(luò)分支與時間卷積網(wǎng)絡(luò)分支關(guān)注部分更接近,反映出添加的GRU網(wǎng)絡(luò)可以使得雙流網(wǎng)絡(luò)的兩個分支的時空特征更好地融合。


4實 驗

本實驗采用由美國南加州大學(xué)研究人員在洛杉磯郊區(qū)駕駛采集得到的數(shù)據(jù)集。不同于自動駕駛領(lǐng)域的其他真實數(shù)據(jù)集如Udacity、DeepDriveComma-ai等,該數(shù)據(jù)集的駕駛場景出現(xiàn)人類規(guī)劃的駕駛行為的頻率較少,更有利于端到端網(wǎng)絡(luò)訓(xùn)練。此數(shù)據(jù)集包含以20Hz采集到的視頻幀共十萬余張,以及對應(yīng)的方向盤轉(zhuǎn)角。本實驗從第一次采集的數(shù)據(jù)集中選取了連續(xù)的約4.5萬張視頻幀用于網(wǎng)絡(luò)訓(xùn)練及參數(shù)調(diào)整,另外從第二次采集的數(shù)據(jù)集中選取兩段分別作為測試集1和測試集2,每個測試集約2萬張視頻幀。

圖片

圖10. 數(shù)據(jù)集部分駕駛場景

5評價指標(biāo)

對于轉(zhuǎn)向角預(yù)測問題,預(yù)測值與真實值的偏差是衡量模型好壞的重要標(biāo)準(zhǔn),且需要警惕較大的偏差,因此本文選擇均方根誤差(Root Mean Square Error, RMSE)用于衡量預(yù)測精度。同時,使用另一個指標(biāo)Whiteness來度量預(yù)測轉(zhuǎn)向信號的穩(wěn)定度。Whiteness的值越小,預(yù)測的轉(zhuǎn)向變化越緩慢,平穩(wěn)性越好。

圖片


將訓(xùn)練好的模型分別在測試集1和測試集2上進(jìn)行測試,表2給出了模型的測試結(jié)果。相比基本的雙流卷積網(wǎng)絡(luò),Two-Stream C-GRU模型在測試集1上精度提高20%,穩(wěn)定度提高6%,在測試集2上精度提高5%,穩(wěn)定度提高10%。這表明當(dāng)雙流卷積網(wǎng)絡(luò)結(jié)合GRU時可以使模型融合更多的時間信息,獲得更強大的運動感知和時序依賴關(guān)系提取能力。相較于其他時空模型,Two-Stream C-GRU模型利用RGB圖像、光流圖像和GRU網(wǎng)絡(luò)融合駕駛場景的空間特征與時間特征,提高了模型預(yù)測精確度與信號穩(wěn)定度。

圖片


從測試集中隨機選取一部分視頻幀,將預(yù)測的方向盤轉(zhuǎn)角值與真實值繪成曲線圖,黃線代表真實值,藍(lán)線代表預(yù)測值,如下圖所示。

圖片

圖11. 轉(zhuǎn)向角度預(yù)測曲線(部分)

6消融試驗


為了驗證綜合處理空間與時間信息能夠提升動態(tài)環(huán)境中自主駕駛車輛的轉(zhuǎn)向角預(yù)測精度以及選擇出模型的最佳輸入圖像幀數(shù),本節(jié)圍繞模型的時間特征提取網(wǎng)絡(luò)的不同組成部分(光流和GRU)設(shè)計了2組消融實驗:

(1)針對光流的消融實驗

表3給出了兩種不同的網(wǎng)絡(luò)結(jié)構(gòu)在有無光流條件下的實驗對比結(jié)果,其中加粗部分為Two-Stream C-GRU模型。結(jié)果表明:引入光流的雙流卷積網(wǎng)絡(luò)在預(yù)測精度方面相比單流卷積網(wǎng)絡(luò)模型得到大幅度提升,說明包含時間動態(tài)的光流是一種強大的視覺表征,且容易被卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),證明了雙流卷積網(wǎng)絡(luò)是一種利用時空信息增強端到端自動駕駛的有效方法。

圖片


(2)針對循環(huán)神經(jīng)網(wǎng)絡(luò)的消融實驗

表4給出了單流與雙流模型的循環(huán)神經(jīng)網(wǎng)絡(luò)分別為LSTM和GRU的實驗對比結(jié)果,其中加粗部分為Two-Stream C-GRU模型。結(jié)果表明:雖然LSTM與GRU網(wǎng)絡(luò)均可以有效地建模動態(tài)的時間行為,但除了單流模型且處理三幀圖像的情況,其余情況下GRU的預(yù)測精確度均優(yōu)于LSTM。

圖片

基于以上消融實驗,發(fā)現(xiàn)綜合空間與時間序列信息,可實現(xiàn)對端到端自動駕駛車輛的準(zhǔn)確控制。但值得注意的是,對于本文所提出的模型,輸入圖像的幀數(shù)并不是越多越好。隨著模型的輸入圖像幀數(shù)的增加,轉(zhuǎn)向信號的平穩(wěn)性得到進(jìn)一步提升,但預(yù)測準(zhǔn)確度有所下降。本文實驗表明對于實時動態(tài)的自動駕駛場景,三幀圖像即可滿足對時間信息的需求。

7結(jié) 語

本文提出了一種融合時空特征的端到端自動駕駛車輛轉(zhuǎn)向角預(yù)測模型Two-Stream C-GRU。主要結(jié)論如下:

(1)融合原始圖像空間信息與光流圖像時間信息的雙流模型可以顯著提高自動駕駛車輛轉(zhuǎn)向角預(yù)測的準(zhǔn)確性,然而僅使用單幀光流圖像并不足以分析動態(tài)駕駛場景的時間相關(guān)性。因此本文設(shè)計了一個與GRU網(wǎng)絡(luò)相關(guān)聯(lián)的端到端雙流網(wǎng)絡(luò)結(jié)構(gòu),利用RGB圖像、基于運動的光流圖像和GRU來融合連續(xù)多幀駕駛場景的空間特征與時間特征。實驗結(jié)果表明本文提出的Two-Stream C-GRU模型比現(xiàn)有其他時空模型有了顯著的改進(jìn)。

(2)在端到端自動駕駛車輛轉(zhuǎn)向角預(yù)測方面,雙流模型采用GRU的效果優(yōu)于LSTM,且GRU參數(shù)量和計算量更少。對于模型的輸入幀數(shù)而言,圖像幀數(shù)并不是越多越好。在本文的實驗中,三幀圖像即可滿足對時間信息的需求。

(3)采用VisualBackProp算法分別對雙流卷積網(wǎng)絡(luò)的空間流分支網(wǎng)絡(luò)和時間流分支網(wǎng)絡(luò)進(jìn)行可視化,發(fā)現(xiàn)相較于基本雙流卷積網(wǎng)絡(luò),本文提出的Two-Stream C-GRU模型的空間卷積網(wǎng)絡(luò)分支與時間卷積網(wǎng)絡(luò)分支關(guān)注部分更接近,反映出添加的GRU網(wǎng)絡(luò)可以使得雙流網(wǎng)絡(luò)的兩個分支的時空特征更好地融合。

(4)未來可以進(jìn)一步探討時空特征融合的方式,對模型性能進(jìn)行優(yōu)化。需要指出的是,本文所用于模型輸入的光流圖像是額外計算的,未來的工作應(yīng)采用端到端網(wǎng)絡(luò)實時有效地估計光流,此外,還可以集成專門的傳感器從而直接獲得實時光流。

 

本文主要內(nèi)容出自于《中國公路學(xué)報》2022年第3期 AI賦能網(wǎng)聯(lián)車輛·大數(shù)據(jù)驅(qū)動智能交通???

點擊題目查看全文:

呂宜生, 劉雅慧, 陳圓圓, 朱鳳華. 融合時空特征的端到端自動駕駛車輛轉(zhuǎn)向角預(yù)測[J]. 中國公路學(xué)報, 2022, 35(3): 263-272.

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25