日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

人工智能技術(shù)在智能駕駛控制中的應(yīng)用

2022-08-09 10:37:21·  來源:智能汽車設(shè)計(jì)  作者:潘峰  
 
1 引言智能駕駛汽車是一個(gè)集環(huán)境感知、規(guī)劃決策、多等級(jí)輔助駕駛等功能于一體的綜合系統(tǒng),是各國(guó)重點(diǎn)發(fā)展的智能交通系統(tǒng)中一個(gè)重要組成部分,也是世界車輛工程智

1 引言


智能駕駛汽車是一個(gè)集環(huán)境感知、規(guī)劃決策、多等級(jí)輔助駕駛等功能于一體的綜合系統(tǒng),是各國(guó)重點(diǎn)發(fā)展的智能交通系統(tǒng)中一個(gè)重要組成部分,也是世界車輛工程智能化領(lǐng)域研究的熱點(diǎn)和汽車工業(yè)增長(zhǎng)的新動(dòng)力。智能駕駛汽車的控制技術(shù)是整個(gè)自動(dòng)駕駛系統(tǒng)中的關(guān)鍵環(huán)節(jié),也是國(guó)內(nèi)外廣大學(xué)者重點(diǎn)研究的領(lǐng)域。在智能駕駛系統(tǒng)的分層結(jié)構(gòu)中,控制層的功能是將來自決策系統(tǒng)的產(chǎn)生的路徑規(guī)劃轉(zhuǎn)化為各執(zhí)行機(jī)構(gòu)動(dòng)作,并控制各執(zhí)行機(jī)構(gòu)完成相應(yīng)的動(dòng)作,以此實(shí)現(xiàn)對(duì)路徑的準(zhǔn)確跟蹤和速度的合理控制。傳統(tǒng)的智能駕駛橫/ 縱向控制的方法大多需要精確的數(shù)學(xué)解析模型,并對(duì)受控系統(tǒng)進(jìn)行精確的數(shù)值求解,然而精度較高的模型一般也比較復(fù)雜,參數(shù)較多。復(fù)雜的模型也造成了較高的計(jì)算代價(jià),使得求解困難,往往難以保證實(shí)時(shí)性。近年來,隨著人工智能的迅速發(fā)展,研究人員開始基于人工智能的方法開發(fā)智能汽車決策和控制算法,開辟了一條不同于汽車工程專家的研究思路。


人工智能通常是只通過計(jì)算機(jī)技術(shù)來呈現(xiàn)人類智能,涵蓋了計(jì)算機(jī)、仿生學(xué)、心理學(xué)、統(tǒng)計(jì)學(xué)等多門學(xué)科。目前,越來越多的基于人工智能的方法被應(yīng)用到智能駕駛系統(tǒng)中來。李德毅院士認(rèn)為基于自學(xué)習(xí)的“駕駛腦”是中國(guó)智能車實(shí)現(xiàn)對(duì)國(guó)外彎道超車的關(guān)鍵所在。2019 年,專業(yè)研發(fā)自動(dòng)駕駛的公司W(wǎng)aymo 收購了專門研究模仿學(xué)習(xí)在自動(dòng)駕駛中應(yīng)用的Latent Logic 公司,這意味著Waymo 將在機(jī)器學(xué)習(xí)在智能駕駛中的應(yīng)用領(lǐng)域展開更加深入的研究和開發(fā)。目前,國(guó)內(nèi)的各大IT 也紛紛開展與傳統(tǒng)汽車廠家的合作,共通開發(fā)智能汽車。百度公司自2014 年啟動(dòng)“百度自動(dòng)駕駛汽車”研發(fā)計(jì)劃以來,已經(jīng)推出了Apollo自動(dòng)駕駛系統(tǒng), 并于2016 年取得了加州的自動(dòng)駕駛牌照。百度還將自動(dòng)駕駛汽車結(jié)合百度大腦,通過人工智能技術(shù)進(jìn)一步推動(dòng)智能駕駛汽車的進(jìn)步。


傳統(tǒng)控制器利用由固定參數(shù)組成的先驗(yàn)?zāi)P?。?dāng)機(jī)器人用于復(fù)雜環(huán)境,如真實(shí)環(huán)境中的智能駕駛時(shí),傳統(tǒng)控制器無法預(yù)見系統(tǒng)必須應(yīng)對(duì)的所有可能情況,而引入人工智能技術(shù)后,學(xué)習(xí)型控制器會(huì)利用訓(xùn)練信息來逐步學(xué)習(xí)并完善其模型。同時(shí)人工智能還可以和傳統(tǒng)控制方法想結(jié)合,如學(xué)習(xí)模型預(yù)測(cè)控制(model predictive control,MPC)的代價(jià)函數(shù),使人們更好地預(yù)測(cè)車輛的干擾和行為。由于智能駕駛控制問題具有高維度,狀態(tài)和動(dòng)作空間連續(xù),非線性等特點(diǎn)。在自動(dòng)駕駛中,人工智能領(lǐng)域中的深度學(xué)習(xí)的引入賦予了智能車輛較強(qiáng)的感知能力,但是缺乏一定的決策控制能力;然而深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合起來的深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)則可以形成優(yōu)勢(shì)互補(bǔ),為復(fù)雜系統(tǒng)的決策控制問題提供了解決思路。DRL 將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,可以直接根據(jù)輸入的圖像(或雷達(dá)數(shù)據(jù))進(jìn)行控制,是一種更接近人類思維方式的人工智能方法。人工智能方

法的引入使得智能駕駛控制問題得到了更多的解決方案。


2 傳統(tǒng)智能駕駛控制技術(shù)現(xiàn)狀


2.1 智能駕駛系統(tǒng)架構(gòu)


智能駕駛車輛系統(tǒng)架構(gòu)可分為分層架構(gòu)和端到端架構(gòu)兩種。大部分智能駕駛系統(tǒng)采用分層架構(gòu),即整個(gè)系統(tǒng)劃分為感知層,決策層(含運(yùn)動(dòng)規(guī)劃),控制層和車輛線控層四個(gè)層次,如圖 1 所示。端到端架構(gòu)則通過深度學(xué)習(xí)等人工智能方法,直接將圖像等傳感器數(shù)據(jù)映射為控制器輸出,如圖2 所示。


圖片


2.2 傳統(tǒng)智能駕駛控制方法


大部分智能駕駛系統(tǒng)采用分層架構(gòu),其中控制系統(tǒng)作為智能車輛的底層,也是最重要的一個(gè)環(huán)節(jié),一直是智能駕駛技術(shù)研究的重點(diǎn)領(lǐng)域之一。智能駕駛的控制技術(shù)主要包括橫向控制和縱向控制。橫向控制指的是車輛通過執(zhí)行合適的轉(zhuǎn)向運(yùn)動(dòng)引導(dǎo)車輛沿一個(gè)全局的幾何路徑行駛。路徑跟蹤控制器的目標(biāo)就是最小化車輛和路徑之間的橫向距離,最小化車輛方向和路徑方向的偏差,約束轉(zhuǎn)向輸入來平滑運(yùn)動(dòng)以維持穩(wěn)定性。縱向控制則是根據(jù)道路形狀,在滿足車輛動(dòng)力學(xué)和運(yùn)動(dòng)學(xué)約束以及安全車距的前提下,計(jì)算出期望的速度和加速度,并控制油門和制動(dòng)系統(tǒng)加以實(shí)現(xiàn)。


2.2.1 傳統(tǒng)縱向控制方法


縱向控制系統(tǒng)主要控制的對(duì)象是速度和加速度,執(zhí)行機(jī)構(gòu)為油門和制動(dòng)系統(tǒng)。智能駕駛車輛的縱向控制系統(tǒng)本質(zhì)上就是一個(gè)自適應(yīng)巡航系統(tǒng)(adaptive cruise control,ACC),其作用是保持安全車距和合理的車速。


傳統(tǒng)的縱向控制器只是簡(jiǎn)單的速度控制,方法大多采用PID 或改進(jìn)的PI 控制。如斯坦福大學(xué)在2005 年參加DARPA 的參賽車輛——Stanley 就是使用的簡(jiǎn)單PI 控制。傳統(tǒng)的PID 方法雖然可以達(dá)到較高的速度控制精度,但是往往都存在超調(diào)、執(zhí)行延遲等問題,而且PID 方法需要根據(jù)不同的工況和駕駛風(fēng)格對(duì)參數(shù)進(jìn)行調(diào)校,往往存在某些工況下表現(xiàn)良好,在另一些工況下卻性能下降的現(xiàn)象。


為了增強(qiáng)ACC 系統(tǒng)對(duì)復(fù)雜環(huán)境的適應(yīng)性,現(xiàn)有的ACC 系統(tǒng)大多采用分工況控制。分工況控制是根據(jù)不同的車輛跟隨場(chǎng)景進(jìn)行細(xì)分,在不同的場(chǎng)景下設(shè)計(jì)相應(yīng)的控制算法。如分為距離控制模式和速度控制模式,工況的切換邏輯是基于車間距與相對(duì)速度的變化設(shè)計(jì),最早由美國(guó)密歇根大學(xué)的Fancher 等人提出,并被廣泛采用。韓國(guó)首爾國(guó)立大學(xué)Moon 等人采集了數(shù)百名駕駛者的跟車數(shù)據(jù)并對(duì)其進(jìn)行分析,根據(jù)加速度的取值將跟隨工況劃分為急減速、普通和舒適三個(gè)工況,并基于碰撞時(shí)間和警報(bào)指標(biāo)將ACC 工作區(qū)域分為安全、危險(xiǎn)、高速警報(bào)和低速警報(bào)。北京理工大學(xué)裴曉飛等將車輛縱向運(yùn)動(dòng)狀態(tài)劃分為八種工況和六種控制模式,由系統(tǒng)根據(jù)實(shí)際路況切換控制模式。清華大學(xué)的張德兆等人將控制模式進(jìn)一步細(xì)分,提出了接近前車和超車兩種額外的控制模式,以及基于零期望加速度切換策略。


2.2.2 傳統(tǒng)的橫向控制方法


橫向控制又稱為路徑跟蹤控制,其目標(biāo)就是最小化車輛和路徑之間的橫向偏差,最小化車輛方向和路徑方向的角度偏差,保證車輛跟蹤精度的同時(shí),提高轉(zhuǎn)向運(yùn)動(dòng)的平滑和穩(wěn)定。學(xué)者們對(duì)駕駛員的駕駛行為進(jìn)行分析,并建立駕駛員橫向控制的建模來完成實(shí)現(xiàn)對(duì)道路的跟隨控制。從80 年代早期到本世紀(jì)初期,最有影響力的研究是MacAdam和郭孔輝院士 等提出的最優(yōu)預(yù)瞄控制理論。


傳統(tǒng)的橫向控制器設(shè)計(jì)主要可分為基于經(jīng)典控制理論方法和基于幾何的方法兩類。其中基于經(jīng)典控制理論的方法又可以分為基于車輛模型和基于誤差反饋的兩大類。


基于車輛模型的方法本質(zhì)上是利用車輛動(dòng)力學(xué)和運(yùn)動(dòng)學(xué)方程并在各種約束條件下使用優(yōu)化方法求解橫向控制的最優(yōu)解。在此類方法中,MPC 是運(yùn)用較為廣

泛的。除此之外,Huang S J 等人還提出了基于模糊控制的停車路徑跟蹤方法。線性二次型調(diào)節(jié)器(linearquadratic regulator,LQR)也是此類中經(jīng)常被使用的方法。Levinson 等參加DARPA 比賽的車輛就使用了LQR 方法,該方法利用底層反饋信息求解最佳轉(zhuǎn)向角實(shí)現(xiàn)車輛的橫向控制。孫正平等提出了Ribbon 模型,解決了預(yù)瞄距離、車輛速度相對(duì)于方向控制耦合度高的問題。王家恩等使用車輛狀態(tài)信息以及車路相對(duì)位置來生成期望的擺角速度。百度的Apollo 項(xiàng)目中的路徑跟蹤控制方法則綜合使用了LQR 和MPC 兩種方法。


基于誤差反饋的方法大多基于PID 框架。此類方法的創(chuàng)新點(diǎn)大多集中于如何進(jìn)行參數(shù)的整定和自適應(yīng)上。趙盼等提出了一種自適應(yīng)PID 方法實(shí)現(xiàn)車輛的橫向控制。Chatzikomis 等使用基于橫向誤差和方向誤差進(jìn)行PD 控制,其控制器的比例系數(shù)能夠根據(jù)車速進(jìn)行動(dòng)態(tài)調(diào)整以協(xié)調(diào)側(cè)向和縱向控制的耦合關(guān)系。Saurav T 等使用了神經(jīng)網(wǎng)絡(luò)來優(yōu)化PID 的增益,使其在不同的速度下能夠自適應(yīng)。高振海等通過簡(jiǎn)化的車輛動(dòng)力學(xué)模型,對(duì)模型參數(shù)進(jìn)行辨識(shí),實(shí)現(xiàn)對(duì)PID 控制器的參數(shù)整定。陳煥明等引入了遺傳算法實(shí)現(xiàn)PID 控制器的參數(shù)優(yōu)化。丁海濤等使用了預(yù)瞄——跟隨模型,根據(jù)加速度反饋實(shí)現(xiàn)車輛的橫縱向

控制。


基于幾何方法的控制器是目前智能駕駛橫向控制領(lǐng)域較為流行的方法。該類控制器通過車輛和預(yù)設(shè)路徑之間的幾何關(guān)系來計(jì)算理想的控制量。在這類控制器中,PurePursuit 和 Stanley 方法是應(yīng)用較早,使用最廣泛的兩種。


Wallace R 等于1985 年首先提出了純跟蹤的基本原理并將其應(yīng)用在無人駕駛車輛的橫向控制中,該方法利用車輛與道路中線的橫向偏差來計(jì)算前輪的轉(zhuǎn)角。Amidi O等在Wallace 的方法的基礎(chǔ)上提出了正式的純跟蹤理論并討論了這種方法的應(yīng)用。隨后Coulter R C 詳細(xì)描述了純跟蹤的應(yīng)用細(xì)節(jié)并將其應(yīng)用到室內(nèi)外的機(jī)器人的橫向控制中。RanKin A L 等將PID 方法和純跟蹤方法結(jié)合設(shè)計(jì)了一個(gè)控制器,并通過仿真和真實(shí)道路測(cè)試證明了該方法的有效性。Morales J 等利用純跟蹤方法對(duì)人、墻壁、走廊等進(jìn)行跟蹤,并應(yīng)用于室內(nèi)導(dǎo)航環(huán)境。段建明等使用了純跟蹤方法控制無人駕駛車輛以實(shí)現(xiàn)對(duì)GPS 軌跡的準(zhǔn)確跟蹤。名古屋大學(xué)的Autoware 項(xiàng)目中也使用了純跟蹤方法。


Stanley 方法是基于幾何模型的另一種廣泛應(yīng)用的方法。該方法使用了2006 年DARPA 的斯坦福大學(xué)的冠軍車輛命名。該方法綜合考慮了方向誤差和橫向偏差,并基于車輛前軸的中心和預(yù)設(shè)軌跡上的最近點(diǎn)來計(jì)算誤差。Snider 等使用了Stanley 方法取得了很好的實(shí)驗(yàn)效果,然而該方法要求預(yù)設(shè)軌跡足夠平滑,且該方法的魯棒性相對(duì)于純跟蹤差一些。


3 基于AI 的智能駕駛控制方法


3.1 學(xué)習(xí)型控制器


與具有固定參數(shù)的控制器不同,學(xué)習(xí)控制器利用訓(xùn)練信息隨著時(shí)間的推移學(xué)習(xí)其模型。隨著每批收集的訓(xùn)練數(shù)據(jù),真實(shí)系統(tǒng)模型的近似值變得更加準(zhǔn)確。


在先前很多工作中已經(jīng)引入了簡(jiǎn)單的函數(shù)逼近器用于訓(xùn)練學(xué)習(xí)型控制器,例如高斯過程建?;蛑С窒蛄炕貧w等。人工智能中的機(jī)器學(xué)習(xí)技術(shù)也通常用于學(xué)習(xí)動(dòng)力學(xué)模型,從而改進(jìn)迭代學(xué)習(xí)控制和模型預(yù)測(cè)控制中的先驗(yàn)系統(tǒng)模型。


迭代學(xué)習(xí)控制是一種控制以重復(fù)模式工作的系統(tǒng)的方法,如智能控制的路徑跟蹤,并成功應(yīng)用于越野地形導(dǎo)航,自動(dòng)泊車和轉(zhuǎn)向動(dòng)力學(xué)建模等。


模型預(yù)測(cè)控制一般通過解決優(yōu)化問題來計(jì)算控制動(dòng)作,能夠處理具有狀態(tài)和輸入約束的復(fù)雜非線性系統(tǒng)。Lefvre等人使用機(jī)器學(xué)習(xí)與MPC 結(jié)合使用來學(xué)習(xí)駕駛模型,而Drews 等人則在使用機(jī)器學(xué)習(xí)技術(shù)學(xué)習(xí)極限駕駛下的賽車的駕駛動(dòng)力學(xué),Brunner 等人則使用MPC 結(jié)合人工智能用于提高路徑跟蹤精度。這些方法使人們能夠更好地預(yù)測(cè)車輛的干擾和行為,從而將最佳舒適度和安全性約束應(yīng)用于控制輸入。


學(xué)習(xí)控制器的主要優(yōu)點(diǎn)是,它們將傳統(tǒng)的基于模型的控制理論與學(xué)習(xí)算法完美地結(jié)合在一起。這使得仍然可以使用已建立的方法進(jìn)行控制器設(shè)計(jì)和穩(wěn)定性分析,以及在系統(tǒng)識(shí)別和預(yù)測(cè)級(jí)別應(yīng)用強(qiáng)大的學(xué)習(xí)組件。


3.2 端到端的智能駕駛控制


和傳統(tǒng)的智能駕駛系統(tǒng)的分層架構(gòu)不同,端到端的智能駕駛控制通過將原始圖像等傳感器輸入直接映射到底層的控制命令,取消了感知層和決策規(guī)劃層,如圖 2 所示。圖中的控制模型大多由深度神經(jīng)網(wǎng)絡(luò)構(gòu)成,根據(jù)其訓(xùn)練方法不同,大致可以分為基于監(jiān)督式學(xué)習(xí)的模仿學(xué)習(xí)方法和基于強(qiáng)化學(xué)習(xí)的方法,這一類方法大多使用深度神經(jīng)網(wǎng)絡(luò),而且研究趨勢(shì)逐漸由單一的圖像傳感器的映射向多傳感器數(shù)據(jù)融合的方向發(fā)展。Sallab 使用了深度強(qiáng)化學(xué)習(xí)DQN和DDAC 方法基于TORCS 模擬器實(shí)現(xiàn)了車道保持任務(wù)。Bojarski 使用深度學(xué)習(xí)技術(shù)來實(shí)現(xiàn)端到端的無人駕駛,即直接將感知層的圖像映射到執(zhí)行機(jī)構(gòu)的動(dòng)。Zhou, Y.和Tuzel 則使用了深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)了從3D 點(diǎn)云到控制命令的端到端控制[58]。Eraqi H M 等使用了C_LSTM 方法結(jié)合機(jī)器視覺訓(xùn)練無人駕駛橫向控制模型。Chi L 等使用了真實(shí)的圖像數(shù)據(jù)并通過深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練車輛的橫向控制模型。BJ Lee 等使用了監(jiān)督式學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的方法訓(xùn)練模型完成了車輛跟馳和換道任務(wù)。Yi Xiao 等人使用深度RGB 數(shù)據(jù)并整合了多種傳感器信息作為神經(jīng)網(wǎng)絡(luò)輸入,基于CARLA 模擬器解決智能駕駛的控制任務(wù)。Haris 等人也使用RGB 圖像和Lidar 數(shù)據(jù)融合的方法實(shí)現(xiàn)了端到端的智能駕駛控制,并基于CARLA 模擬器進(jìn)行了仿真。


3.3 強(qiáng)化學(xué)習(xí)


機(jī)器學(xué)習(xí)作為人工智能的一個(gè)重要分支,可分為監(jiān)督式學(xué)習(xí)、非監(jiān)督式學(xué)習(xí)和強(qiáng)化學(xué)習(xí)三大類。近年來深度學(xué)習(xí)的引入大大推動(dòng)了監(jiān)督式學(xué)習(xí)在智能駕駛感知領(lǐng)域的應(yīng)用,使得監(jiān)督式學(xué)習(xí)被廣泛應(yīng)用于行人識(shí)別,交通標(biāo)志識(shí)別等感知問題。除了目標(biāo)識(shí)別,深度學(xué)習(xí)也大量使用在駕駛場(chǎng)景理解,駕駛場(chǎng)景語義分割,車輛定位等方面。同時(shí)基于模仿學(xué)習(xí)的端到端智能駕駛控制主要也是基于監(jiān)督式學(xué)習(xí)方法。


機(jī)器學(xué)習(xí)的另一個(gè)主要類型是強(qiáng)化學(xué)習(xí)。和監(jiān)督式學(xué)習(xí)主要應(yīng)用于無人駕駛的感知層不同,強(qiáng)化學(xué)習(xí)更多使用在決策和控制層。國(guó)際上最早將深度強(qiáng)化學(xué)習(xí)

應(yīng)用在車輛控制領(lǐng)域?yàn)長(zhǎng)ange 等人與2012 年使用深度擬合Q 學(xué)習(xí)的方法在微型賽車模擬器下進(jìn)行訓(xùn)練并取得了良好的效果,其控制水平甚至超出了人類玩家。然而該方法仍停留在模擬器仿真階段,其實(shí)時(shí)性難以達(dá)到實(shí)際應(yīng)用的要求,而且只能應(yīng)用于離散的低維動(dòng)作空間。2016年,Sallab AE 等人使用深度強(qiáng)化學(xué)習(xí)方法在開源賽車模擬器(TORCS)上實(shí)現(xiàn)了車道保持控制,并對(duì)比了離散空間的DQN 方法和連續(xù)動(dòng)作空間的DDAC 方法,證明了DDAC 方法能夠得到很好的控制效果和平滑的運(yùn)行軌跡。由于引入了深度學(xué)習(xí)方法,Sallab 提出了端到端深度強(qiáng)化學(xué)習(xí)的思想。歸功于深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力,再結(jié)合強(qiáng)化學(xué)習(xí)的方法對(duì)智能體加以訓(xùn)練,可以直接將原始的圖像映射為執(zhí)行器的輸出,而且在魯棒性上超過了簡(jiǎn)單的監(jiān)督式學(xué)習(xí)型的端到端控制。深度強(qiáng)化學(xué)習(xí)也逐漸代替了傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法。2017 年,Hynmin Chae等人使用DQN 算法訓(xùn)練智能體學(xué)習(xí)處理行人橫穿馬路的場(chǎng)景,實(shí)現(xiàn)了車輛的自主制動(dòng)控制。Zong XiaoPeng等人使用DDPG 算法對(duì)智能體的加速度和轉(zhuǎn)向控制進(jìn)行訓(xùn)練以實(shí)現(xiàn)自主避障,并在TORCS 環(huán)境中進(jìn)行了測(cè)試。Shalevshwartz 等人使用強(qiáng)化學(xué)習(xí)結(jié)合LSTM 算法在游戲環(huán)境中解決自動(dòng)駕駛的縱向控制以及匯入環(huán)島的控制問題。吉林大學(xué)的楊順使用深度學(xué)習(xí)結(jié)合DDPG 算法提出了基于視覺場(chǎng)景理解的深度強(qiáng)化學(xué)習(xí)控制方法。隨著強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛中的應(yīng)用研究逐漸升溫,為了提高強(qiáng)化學(xué)習(xí)的訓(xùn)練效率,微軟與2018 年提出了分布式云端深度強(qiáng)化學(xué)習(xí)的框架,大大縮減了訓(xùn)練的時(shí)間。參考人類學(xué)習(xí)的過程,卡內(nèi)基梅隆大學(xué)的Xiaodan Liang 等人將模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合,提出了可控模仿強(qiáng)化學(xué)習(xí)(CIRL)的方法,并在CARLA 模擬器中取得了良好的控制效果。這種方法先通過模仿學(xué)習(xí)對(duì)控制網(wǎng)絡(luò)的權(quán)重進(jìn)行初始化,然后通過DDPG 方法進(jìn)行強(qiáng)化訓(xùn)練。這樣不但可以解決DDPG 的參數(shù)脆性問題,而且比單獨(dú)的模仿學(xué)習(xí)能夠更好適應(yīng)復(fù)雜環(huán)境。北京聯(lián)合大學(xué)的韓向敏使用DDPG 算法實(shí)現(xiàn)了自動(dòng)駕駛的縱向自動(dòng)控制,而且使智能車輛可以在自學(xué)習(xí)過程中完成自適應(yīng)巡航并不斷改進(jìn),結(jié)果達(dá)到了人類駕駛員的控制水平。北京聯(lián)合大學(xué)的智能駕駛團(tuán)隊(duì)對(duì)駕駛數(shù)據(jù)進(jìn)行分析得到人類駕駛員的特征并設(shè)計(jì)強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)無人駕駛的縱向控制,使得智能體在縱向控制方面更加符合人類駕駛習(xí)慣。


3.4 多智能體強(qiáng)化學(xué)習(xí)


多智能體強(qiáng)化學(xué)習(xí)(MARL) 是專注于實(shí)現(xiàn)具有多個(gè)智能體的自主、自學(xué)習(xí)系統(tǒng)的領(lǐng)域,是強(qiáng)化學(xué)習(xí)算法在多智能體系統(tǒng)上的延伸,已經(jīng)成為人工智能學(xué)習(xí)研究的一大熱點(diǎn),在智能駕駛控制中具有豐富的研究成果。Chu 等人通過將交通網(wǎng)格動(dòng)態(tài)劃分為更小的區(qū)域,并在每個(gè)區(qū)域部署一個(gè)本地代理來減少行動(dòng)空間。他們將多智能體強(qiáng)化學(xué)習(xí)應(yīng)用于用于中大型交通燈控制。Li等人利用深度

Q-learning (DQL) 來控制交通燈,并提出部署深層堆疊自編碼器(SAE) 神經(jīng)網(wǎng)絡(luò)來減少表格Q 學(xué)習(xí)方法帶來的巨大狀態(tài)空間。Zhou 等人提出了一種基于邊緣的分散強(qiáng)化學(xué)習(xí)方法,用于車內(nèi)交通燈控制。DRLE 利用車聯(lián)網(wǎng)的普遍性,加速交通數(shù)據(jù)的收集和解釋,以更好地控制交通燈和緩解擁堵。文獻(xiàn)采用多目標(biāo)強(qiáng)化學(xué)習(xí)框架解決車輛超車問題,根據(jù)每個(gè)目標(biāo)的重要性構(gòu)造一個(gè)融合函數(shù),最終得出一個(gè)整體的一致的行動(dòng)決策。Jing Wu等人提出了一種基于多智能體的深度強(qiáng)化學(xué)習(xí)(DRL) 方法,允許智能體對(duì)非結(jié)構(gòu)化輸入數(shù)據(jù)做出動(dòng)態(tài)決策,旨在解決車聯(lián)網(wǎng)中邊緣節(jié)點(diǎn)的資源分配問題( 如通信資源、計(jì)算資源、頻譜資源等的分配)。Tong Wang 等人提出了一種新的基于協(xié)作群的多智能體強(qiáng)化學(xué)習(xí)框架-ATSC (CGBMATSC),基于協(xié)作車輛的基礎(chǔ)設(shè)施系統(tǒng)(CVIS) 實(shí)現(xiàn)對(duì)大規(guī)模路網(wǎng)的有效控制。C. Choe 等人 提出一種基于協(xié)同強(qiáng)化學(xué)習(xí)(RL) 的智能信道接入算法,該算法中車輛以完全分布式的協(xié)調(diào)信道接入。Kui K 等人提出了一種基于分布式多智能體強(qiáng)化學(xué)習(xí)的高速公路交通流時(shí)空控制方法。Monireh Abdoos 等人利用博弈和強(qiáng)化學(xué)習(xí)開發(fā)用于多個(gè)交叉口的交通信號(hào)控制器,提出了一種雙模式智能體系結(jié)構(gòu),通過獨(dú)立和協(xié)作的過程有效地控制交通擁塞問題。Mohamed A.Khamis 等人開發(fā)了一個(gè)多智能體多目標(biāo)強(qiáng)化學(xué)習(xí)(RL) 交通信號(hào)控制框架,在空間和時(shí)間維度上連續(xù)模擬駕駛員的加減速行為。類似地,Balaji P G 等人提出一種基于分布式多智能體強(qiáng)化學(xué)習(xí)的交通信號(hào)控制方法,用于優(yōu)化城市主干道網(wǎng)絡(luò)的綠色配時(shí),以減少車輛的總行駛時(shí)間和延誤。Jiachen Yang 等人 提出了基于software defined Internet of things(SD-IoT)采集的數(shù)據(jù),在全球范圍內(nèi)對(duì)交通燈和車輛進(jìn)行控制,來提高城市交通控制的性能,該方法具有較好的競(jìng)爭(zhēng)性能和穩(wěn)定性。針對(duì)隨機(jī)到達(dá)和不完全觀察環(huán)境而對(duì)智能體產(chǎn)生噪聲的自動(dòng)公交車隊(duì)控制問題,Sung-Jung Wang 等人提出了一種結(jié)合高級(jí)策略梯度算法的多智能體強(qiáng)化學(xué)習(xí)方法。


4 AI 方法在智能駕駛控制中的挑戰(zhàn)


智能駕駛實(shí)驗(yàn)具有極大的危險(xiǎn)性,所以當(dāng)前的基于人工智能方法訓(xùn)練的模型大多使用視頻游戲模擬引擎進(jìn)行訓(xùn)練和仿真,如TORCS、GAT5 和CARLA 等。然而真實(shí)環(huán)境和虛擬環(huán)境之間存在較大的差異,往往只能采用數(shù)據(jù)集驗(yàn)證或離線數(shù)據(jù)回放等方式來驗(yàn)證模型的穩(wěn)定性和魯棒性,而基于模擬器的訓(xùn)練往往因?yàn)榇嬖诮U`差而導(dǎo)致將訓(xùn)練好的模型遷移到真實(shí)環(huán)境中的時(shí)候可靠性不佳。生成對(duì)抗網(wǎng)絡(luò)的出現(xiàn)提供了解決這一問題的一個(gè)思路。美國(guó)弗吉尼亞理工大學(xué)電氣與計(jì)算機(jī)工程系的Aidin Ferdowsi 和Walid Saad 教授, 以及瑞典愛立信研究院和美國(guó)羅格斯大學(xué)的兩位教授, 針對(duì)自動(dòng)駕駛汽車系統(tǒng)中的" 安全性" 問

題, 提出了一種新型對(duì)抗深度強(qiáng)化學(xué)習(xí)框架, 以解決智能駕駛汽車的安全性問題。


深度強(qiáng)化學(xué)習(xí)作為智能駕駛控制中較為常見的一種人工智能方法也存在較多的挑戰(zhàn)。


首先雖然強(qiáng)化學(xué)習(xí)在智能駕駛控制領(lǐng)域多智能體強(qiáng)化學(xué)習(xí)也是強(qiáng)化學(xué)習(xí)目前發(fā)展的一個(gè)方向。在真實(shí)的交通環(huán)境中,交通的參與者并非只有一個(gè),駕駛者的決策和控制往往是多個(gè)交通參與者互相博弈的結(jié)果。強(qiáng)化學(xué)習(xí)是基于馬爾科夫決策過程的理論,然而,很多強(qiáng)化學(xué)習(xí)算法只是對(duì)馬爾科夫過程的近似。在自動(dòng)駕駛應(yīng)用中,狀態(tài)的轉(zhuǎn)換并不一定只依賴于智能體采取的動(dòng)作,也包括環(huán)境中其它參與者采取的動(dòng)作。多智能體強(qiáng)化學(xué)習(xí)正是為了解決這一問題,如minimax-Q learning,Nash-Qlearning等方法。不可否認(rèn)的是,在多智能體環(huán)境中的訓(xùn)練比單智能體更加復(fù)雜。


深度強(qiáng)化學(xué)習(xí)方法的另一挑戰(zhàn)就是強(qiáng)化學(xué)習(xí)中獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的問題。獎(jiǎng)勵(lì)函數(shù)的作用就是引導(dǎo)智能體不斷優(yōu)化其策略以獲得期待的未來累積的獎(jiǎng)勵(lì)最大化。大部分強(qiáng)化學(xué)習(xí)的范例中的獎(jiǎng)勵(lì)函數(shù)通常是由系統(tǒng)設(shè)計(jì)人員手動(dòng)編碼。對(duì)于某些強(qiáng)化學(xué)習(xí)問題,通??梢哉业揭恍┟黠@的獎(jiǎng)勵(lì)函數(shù),比如游戲中的得分,財(cái)務(wù)問題中的利潤(rùn)等等。但是對(duì)于某些實(shí)際應(yīng)用中的強(qiáng)化學(xué)習(xí)問題,其獎(jiǎng)勵(lì)函數(shù)不但是未知的,而且需要權(quán)衡很多不同方面的需求。如果獎(jiǎng)勵(lì)函數(shù)設(shè)置不合理,則智能體就有可能收斂到錯(cuò)誤的方向或者學(xué)到的是次優(yōu)的策略。在智能駕駛應(yīng)用中,獎(jiǎng)勵(lì)函數(shù)的設(shè)定不但要考慮到安全性和舒適性,還需要考慮如何讓智能體更加符合人類駕駛員的駕駛習(xí)慣。然而,人類駕駛的控制行為比較復(fù)雜,在駕駛過程中需要權(quán)衡多方面的需求和約束,所以難以手動(dòng)指定一個(gè)合理的獎(jiǎng)勵(lì)函數(shù)來引導(dǎo)智能體訓(xùn)練。而一個(gè)不合理的獎(jiǎng)勵(lì)函數(shù)會(huì)造成訓(xùn)練好的模型收斂到局部最小值甚至?xí)霈F(xiàn)糟糕的表現(xiàn)。北京聯(lián)合大學(xué)的智能駕駛團(tuán)隊(duì)對(duì)駕駛數(shù)據(jù)進(jìn)行分析得到人類駕駛員的特征并設(shè)計(jì)強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)無人駕駛的縱向控制,使得智能體在縱向控制方面更加符合人類駕駛習(xí)慣。模仿學(xué)習(xí)和反向強(qiáng)化學(xué)習(xí)對(duì)于真實(shí)獎(jiǎng)勵(lì)函數(shù)的獲取以及如何讓智能體的表現(xiàn)更加接近人類表現(xiàn)提供了一個(gè)有效的解決方案并成為無人駕駛中的另一個(gè)研究熱點(diǎn)。


5 結(jié)論


智能駕駛技術(shù)是世界車輛工程領(lǐng)域研究的熱點(diǎn)和汽車工業(yè)增長(zhǎng)的新動(dòng)力,也是目前各國(guó)重點(diǎn)發(fā)展的智能交通系統(tǒng)中一個(gè)重要的組成部分。智能駕駛車輛的控制系統(tǒng)作為車輛行為層的關(guān)鍵環(huán)節(jié)對(duì)于車輛行駛的安全性和舒適性至關(guān)重要。傳統(tǒng)的控制方法大多基于精確的數(shù)學(xué)模型或者基于規(guī)則設(shè)計(jì)。真實(shí)交通環(huán)境中復(fù)雜多變的交通場(chǎng)景使得難以設(shè)計(jì)精確的數(shù)學(xué)模型,而規(guī)則的數(shù)目也會(huì)隨著交通場(chǎng)景復(fù)雜程度呈指數(shù)增長(zhǎng)。大量基于人工智能方法的出現(xiàn)使得設(shè)計(jì)以數(shù)據(jù)驅(qū)動(dòng)或與環(huán)境交互進(jìn)行自主學(xué)習(xí)的控制系統(tǒng)成為可能,經(jīng)過充分訓(xùn)練的學(xué)習(xí)型控制器也能夠更好的應(yīng)對(duì)復(fù)雜工況。我們對(duì)人工智能方法在只能駕駛控制領(lǐng)域的應(yīng)用進(jìn)行了充分調(diào)研和實(shí)驗(yàn),并在本團(tuán)隊(duì)研發(fā)的“京龍”和“聯(lián)合彩虹”無人駕駛智能車和仿真系統(tǒng)上進(jìn)行了測(cè)試和比賽,取得了較好的效果和成績(jī)。人工智能技術(shù)目前已經(jīng)成為智能駕駛控制中的熱門研究領(lǐng)域并展示了光明的應(yīng)用前景。然而,各種人工智能方法在自動(dòng)駕駛中的應(yīng)用仍然面臨諸多的挑戰(zhàn),也是未來這一領(lǐng)域進(jìn)一步的研究方向,包括在真實(shí)交通環(huán)境中的部署和測(cè)試問題,在多個(gè)交通參與者環(huán)境下的多智能體強(qiáng)化學(xué)習(xí)問題以及針對(duì)人類駕駛員特性的獎(jiǎng)勵(lì)函數(shù)的塑造問題。

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25