基于策略的方法在自動(dòng)駕駛中的優(yōu)勢(shì)

2023-04-20 10:57:46· 來源：汽車測(cè)試網(wǎng)

基于策略的方法在自動(dòng)駕駛中的優(yōu)勢(shì)

近年來，隨著深度學(xué)習(xí)技術(shù)的發(fā)展和智能車輛技術(shù)的日益成熟，基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛技術(shù)備受關(guān)注。在強(qiáng)化學(xué)習(xí)中，基于策略的方法在處理連續(xù)控制命令時(shí)表現(xiàn)更為優(yōu)秀，而基于價(jià)值的方法則更適用于提供離散命令。因此，針對(duì)自動(dòng)駕駛這一連續(xù)控制過程，基于策略的方法更能發(fā)揮其優(yōu)勢(shì)，具有在高維動(dòng)作空間中實(shí)現(xiàn)高天花板的潛力，表現(xiàn)出更好的收斂性和探索性。

針對(duì)自動(dòng)駕駛的挑戰(zhàn)，學(xué)者們進(jìn)行了大量的研究。例如，Kendall等人利用深度確定性策略梯度（DDPG）算法在實(shí)際的智能車輛上進(jìn)行探索和優(yōu)化，在車上執(zhí)行所有任務(wù)，并且通過學(xué)習(xí)車道跟隨策略，成功地實(shí)現(xiàn)了人類水平的性能。而Wang等人則提出了一種基于人類專家的車道變更政策的創(chuàng)新方法，以幫助車輛順利變道，無需V2X通信支持。

為了緩解自動(dòng)駕駛在擁堵道路上的挑戰(zhàn)，Saxena等人采用近端策略優(yōu)化（PPO）算法來學(xué)習(xí)連續(xù)運(yùn)動(dòng)規(guī)劃空間中的控制策略。他們的模型隱含地模擬了與其他車輛的互動(dòng)，以避免碰撞并提高乘客的舒適度。Ye等人則利用PPO在真實(shí)的高速公路場(chǎng)景中學(xué)習(xí)自動(dòng)變道策略。以自車及其周圍的車輛狀態(tài)為輸入，智能體學(xué)會(huì)避免碰撞并以平穩(wěn)的方式駕駛。而其他研究則證明了基于PPO的RL算法在端到端自動(dòng)駕駛策略學(xué)習(xí)中的有效性。

雖然從頭開始訓(xùn)練自動(dòng)駕駛的策略通常是耗時(shí)且困難的，但與模仿學(xué)習(xí)（IL）和課程學(xué)習(xí)等其他方法相結(jié)合，可以獲得更好的效果。例如，Liang等人將IL和DDPG結(jié)合在一起，以緩解在探索連續(xù)空間時(shí)效率低的問題，并引入了一種可調(diào)節(jié)的門控機(jī)制來選擇性地激活四個(gè)不同的控制信號(hào)，這使得模型可以由中央控制信號(hào)控制。而Tian等人則利用從專家經(jīng)驗(yàn)中學(xué)習(xí)的RL方法來實(shí)現(xiàn)軌跡跟蹤任務(wù)，該任務(wù)分兩步進(jìn)行訓(xùn)練，即中采用的IL方法和連續(xù)的、確定性的、無模型的RL算法來進(jìn)一步改進(jìn)該方法。

另一方面，為了提高RL方法的學(xué)習(xí)效率，學(xué)者們開始將人類先驗(yàn)知識(shí)納入RL方法中。例如，Huang等人設(shè)計(jì)了一種新方法，將人類先驗(yàn)知識(shí)納入RL方法，以解決自動(dòng)駕駛的長(zhǎng)尾問題。而Wu等人提出了一種基于人工引導(dǎo)的RL方法，該方法利用一種新的優(yōu)先體驗(yàn)重放機(jī)制來提高RL算法在極端場(chǎng)景下的效率和性能。該方法在兩個(gè)具有挑戰(zhàn)性的自動(dòng)駕駛?cè)蝿?wù)中得到了驗(yàn)證，并取得了有競(jìng)爭(zhēng)力的結(jié)果。

綜上所述，基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛技術(shù)是當(dāng)前的研究熱點(diǎn)之一。在此過程中，基于策略的方法更適用于連續(xù)控制命令，具有更好的表現(xiàn)和潛力。針對(duì)自動(dòng)駕駛的挑戰(zhàn)，學(xué)者們采用各種算法和方法來實(shí)現(xiàn)自動(dòng)駕駛。從模仿學(xué)習(xí)到課程學(xué)習(xí)，再到結(jié)合人類先驗(yàn)知識(shí)的RL方法，這些技術(shù)都有望提高自動(dòng)駕駛的效率和性能。未來，隨著技術(shù)的不斷發(fā)展和完善，基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛技術(shù)將會(huì)得到更廣泛的應(yīng)用和推廣。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：多智能體強(qiáng)化學(xué)習(xí)（MARL）的應(yīng)用領(lǐng)域
上一篇：基于價(jià)值的強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛中的應(yīng)用

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 亦莊：自動(dòng)駕駛之城	• 智能網(wǎng)聯(lián)汽車仿真測(cè)試標(biāo)準(zhǔn)體系研究
• 汽車自動(dòng)駕駛仿真：場(chǎng)景呈現(xiàn)的技術(shù)深度探討	• 汽車自動(dòng)駕駛感知模塊的開發(fā)與驗(yàn)證：技術(shù)挑戰(zhàn)與未來展望
• 汽車自動(dòng)駕駛感知模塊開發(fā)與驗(yàn)證中的場(chǎng)景仿真技術(shù)探析	• 智能網(wǎng)聯(lián)不確定路口場(chǎng)景下汽車駕駛性能的實(shí)驗(yàn)與評(píng)價(jià)研究
• 智能網(wǎng)聯(lián)汽車產(chǎn)品模擬仿真測(cè)試可信度評(píng)估方法	• 智能網(wǎng)聯(lián)汽車產(chǎn)品模擬仿真測(cè)試可信度評(píng)估框架
• 智能網(wǎng)聯(lián)汽車產(chǎn)品測(cè)試策略：確保安全可靠的駕駛體驗(yàn)	• 智能網(wǎng)聯(lián)汽車視覺感知系統(tǒng)測(cè)評(píng)驗(yàn)證：性能評(píng)估與未來展望

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

基于策略的方法在自動(dòng)駕駛中的優(yōu)勢(shì)

微信公眾號(hào)

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

基于策略的方法在自動(dòng)駕駛中的優(yōu)勢(shì)

微信公眾號(hào)

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將