基于策略的方法在自動(dòng)駕駛中的優(yōu)勢(shì)
近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展和智能車輛技術(shù)的日益成熟,基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛技術(shù)備受關(guān)注。在強(qiáng)化學(xué)習(xí)中,基于策略的方法在處理連續(xù)控制命令時(shí)表現(xiàn)更為優(yōu)秀,而基于價(jià)值的方法則更適用于提供離散命令。因此,針對(duì)自動(dòng)駕駛這一連續(xù)控制過程,基于策略的方法更能發(fā)揮其優(yōu)勢(shì),具有在高維動(dòng)作空間中實(shí)現(xiàn)高天花板的潛力,表現(xiàn)出更好的收斂性和探索性。
針對(duì)自動(dòng)駕駛的挑戰(zhàn),學(xué)者們進(jìn)行了大量的研究。例如,Kendall等人利用深度確定性策略梯度(DDPG)算法在實(shí)際的智能車輛上進(jìn)行探索和優(yōu)化,在車上執(zhí)行所有任務(wù),并且通過學(xué)習(xí)車道跟隨策略,成功地實(shí)現(xiàn)了人類水平的性能。而Wang等人則提出了一種基于人類專家的車道變更政策的創(chuàng)新方法,以幫助車輛順利變道,無需V2X通信支持。
為了緩解自動(dòng)駕駛在擁堵道路上的挑戰(zhàn),Saxena等人采用近端策略優(yōu)化(PPO)算法來學(xué)習(xí)連續(xù)運(yùn)動(dòng)規(guī)劃空間中的控制策略。他們的模型隱含地模擬了與其他車輛的互動(dòng),以避免碰撞并提高乘客的舒適度。Ye等人則利用PPO在真實(shí)的高速公路場(chǎng)景中學(xué)習(xí)自動(dòng)變道策略。以自車及其周圍的車輛狀態(tài)為輸入,智能體學(xué)會(huì)避免碰撞并以平穩(wěn)的方式駕駛。而其他研究則證明了基于PPO的RL算法在端到端自動(dòng)駕駛策略學(xué)習(xí)中的有效性。
雖然從頭開始訓(xùn)練自動(dòng)駕駛的策略通常是耗時(shí)且困難的,但與模仿學(xué)習(xí)(IL)和課程學(xué)習(xí)等其他方法相結(jié)合,可以獲得更好的效果。例如,Liang等人將IL和DDPG結(jié)合在一起,以緩解在探索連續(xù)空間時(shí)效率低的問題,并引入了一種可調(diào)節(jié)的門控機(jī)制來選擇性地激活四個(gè)不同的控制信號(hào),這使得模型可以由中央控制信號(hào)控制。而Tian等人則利用從專家經(jīng)驗(yàn)中學(xué)習(xí)的RL方法來實(shí)現(xiàn)軌跡跟蹤任務(wù),該任務(wù)分兩步進(jìn)行訓(xùn)練,即中采用的IL方法和連續(xù)的、確定性的、無模型的RL算法來進(jìn)一步改進(jìn)該方法。
另一方面,為了提高RL方法的學(xué)習(xí)效率,學(xué)者們開始將人類先驗(yàn)知識(shí)納入RL方法中。例如,Huang等人設(shè)計(jì)了一種新方法,將人類先驗(yàn)知識(shí)納入RL方法,以解決自動(dòng)駕駛的長(zhǎng)尾問題。而Wu等人提出了一種基于人工引導(dǎo)的RL方法,該方法利用一種新的優(yōu)先體驗(yàn)重放機(jī)制來提高RL算法在極端場(chǎng)景下的效率和性能。該方法在兩個(gè)具有挑戰(zhàn)性的自動(dòng)駕駛?cè)蝿?wù)中得到了驗(yàn)證,并取得了有競(jìng)爭(zhēng)力的結(jié)果。
綜上所述,基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛技術(shù)是當(dāng)前的研究熱點(diǎn)之一。在此過程中,基于策略的方法更適用于連續(xù)控制命令,具有更好的表現(xiàn)和潛力。針對(duì)自動(dòng)駕駛的挑戰(zhàn),學(xué)者們采用各種算法和方法來實(shí)現(xiàn)自動(dòng)駕駛。從模仿學(xué)習(xí)到課程學(xué)習(xí),再到結(jié)合人類先驗(yàn)知識(shí)的RL方法,這些技術(shù)都有望提高自動(dòng)駕駛的效率和性能。未來,隨著技術(shù)的不斷發(fā)展和完善,基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛技術(shù)將會(huì)得到更廣泛的應(yīng)用和推廣。
廣告 編輯推薦
最新資訊
-
開年豪擲1.8億搶用戶,又一車企加入“價(jià)格
2026-03-04 16:05
-
聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車操縱件與指示裝置的
2026-03-04 12:08
-
標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能
2026-03-04 11:40
-
“汽車大角度座椅 第1部分:通用要求”將有
2026-03-04 11:39
-
“汽車大角度座椅 第2部分:可靠性要求”將
2026-03-04 11:39





廣告


























































