日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

基于策略的方法在自動(dòng)駕駛中的優(yōu)勢(shì)

2023-04-20 10:57:46·  來源:汽車測(cè)試網(wǎng)  
 
基于策略的方法在自動(dòng)駕駛中的優(yōu)勢(shì)

近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展和智能車輛技術(shù)的日益成熟,基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛技術(shù)備受關(guān)注。在強(qiáng)化學(xué)習(xí)中,基于策略的方法在處理連續(xù)控制命令時(shí)表現(xiàn)更為優(yōu)秀,而基于價(jià)值的方法則更適用于提供離散命令。因此,針對(duì)自動(dòng)駕駛這一連續(xù)控制過程,基于策略的方法更能發(fā)揮其優(yōu)勢(shì),具有在高維動(dòng)作空間中實(shí)現(xiàn)高天花板的潛力,表現(xiàn)出更好的收斂性和探索性。


針對(duì)自動(dòng)駕駛的挑戰(zhàn),學(xué)者們進(jìn)行了大量的研究。例如,Kendall等人利用深度確定性策略梯度(DDPG)算法在實(shí)際的智能車輛上進(jìn)行探索和優(yōu)化,在車上執(zhí)行所有任務(wù),并且通過學(xué)習(xí)車道跟隨策略,成功地實(shí)現(xiàn)了人類水平的性能。而Wang等人則提出了一種基于人類專家的車道變更政策的創(chuàng)新方法,以幫助車輛順利變道,無需V2X通信支持。


為了緩解自動(dòng)駕駛在擁堵道路上的挑戰(zhàn),Saxena等人采用近端策略優(yōu)化(PPO)算法來學(xué)習(xí)連續(xù)運(yùn)動(dòng)規(guī)劃空間中的控制策略。他們的模型隱含地模擬了與其他車輛的互動(dòng),以避免碰撞并提高乘客的舒適度。Ye等人則利用PPO在真實(shí)的高速公路場(chǎng)景中學(xué)習(xí)自動(dòng)變道策略。以自車及其周圍的車輛狀態(tài)為輸入,智能體學(xué)會(huì)避免碰撞并以平穩(wěn)的方式駕駛。而其他研究則證明了基于PPO的RL算法在端到端自動(dòng)駕駛策略學(xué)習(xí)中的有效性。


雖然從頭開始訓(xùn)練自動(dòng)駕駛的策略通常是耗時(shí)且困難的,但與模仿學(xué)習(xí)(IL)和課程學(xué)習(xí)等其他方法相結(jié)合,可以獲得更好的效果。例如,Liang等人將IL和DDPG結(jié)合在一起,以緩解在探索連續(xù)空間時(shí)效率低的問題,并引入了一種可調(diào)節(jié)的門控機(jī)制來選擇性地激活四個(gè)不同的控制信號(hào),這使得模型可以由中央控制信號(hào)控制。而Tian等人則利用從專家經(jīng)驗(yàn)中學(xué)習(xí)的RL方法來實(shí)現(xiàn)軌跡跟蹤任務(wù),該任務(wù)分兩步進(jìn)行訓(xùn)練,即中采用的IL方法和連續(xù)的、確定性的、無模型的RL算法來進(jìn)一步改進(jìn)該方法。


另一方面,為了提高RL方法的學(xué)習(xí)效率,學(xué)者們開始將人類先驗(yàn)知識(shí)納入RL方法中。例如,Huang等人設(shè)計(jì)了一種新方法,將人類先驗(yàn)知識(shí)納入RL方法,以解決自動(dòng)駕駛的長(zhǎng)尾問題。而Wu等人提出了一種基于人工引導(dǎo)的RL方法,該方法利用一種新的優(yōu)先體驗(yàn)重放機(jī)制來提高RL算法在極端場(chǎng)景下的效率和性能。該方法在兩個(gè)具有挑戰(zhàn)性的自動(dòng)駕駛?cè)蝿?wù)中得到了驗(yàn)證,并取得了有競(jìng)爭(zhēng)力的結(jié)果。


綜上所述,基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛技術(shù)是當(dāng)前的研究熱點(diǎn)之一。在此過程中,基于策略的方法更適用于連續(xù)控制命令,具有更好的表現(xiàn)和潛力。針對(duì)自動(dòng)駕駛的挑戰(zhàn),學(xué)者們采用各種算法和方法來實(shí)現(xiàn)自動(dòng)駕駛。從模仿學(xué)習(xí)到課程學(xué)習(xí),再到結(jié)合人類先驗(yàn)知識(shí)的RL方法,這些技術(shù)都有望提高自動(dòng)駕駛的效率和性能。未來,隨著技術(shù)的不斷發(fā)展和完善,基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛技術(shù)將會(huì)得到更廣泛的應(yīng)用和推廣。

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25