日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

一種基于注意力機(jī)制的無人機(jī)自主導(dǎo)航分層強(qiáng)化學(xué)習(xí)算法

2024-05-22 20:55:53·  來源:同濟(jì)智能汽車研究所  
 

本文提出了HTARADrQ算法,該算法通過平均估計(jì)函數(shù)、循環(huán)機(jī)制、時(shí)間關(guān)注和分層框架,使無人機(jī)能夠更好地在連續(xù)動(dòng)作空間中進(jìn)行動(dòng)作。通過仿真和實(shí)際測(cè)試,驗(yàn)證了算法的可行性和有效性。

本文譯自:

《A Hierarchical Reinforcement Learning Algorithm based on Attention Mechanism for UAV Autonomous Navigation》


文章來源:

IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS


作者:

Zun Liu , Yuanqiang Cao, Jianyong Chen , and Jianqiang Li


作者單位:

中國(guó)大數(shù)據(jù)系統(tǒng)計(jì)算技術(shù)國(guó)家工程實(shí)驗(yàn)室


原文鏈接:

https://ieeexplore.ieee.org/document/9990583


摘要:無人駕駛飛行器(uav)越來越多地應(yīng)用于許多具有挑戰(zhàn)性和多樣化的應(yīng)用中。同時(shí),無人機(jī)的自主導(dǎo)航和避障能力也變得越來越重要。本文旨在通過引入注意機(jī)制和層次機(jī)制,填補(bǔ)深度強(qiáng)化學(xué)習(xí)理論與實(shí)際應(yīng)用之間的空白,解決深度強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用中遇到的一些嚴(yán)重問題。更具體地說,為了提高DRL的魯棒性,我們使用平均估計(jì)函數(shù)代替正態(tài)值估計(jì)函數(shù)。然后,我們?cè)O(shè)計(jì)了一個(gè)循環(huán)網(wǎng)絡(luò)和一個(gè)時(shí)間注意機(jī)制來提高算法的性能。第三,我們提出了一個(gè)分層框架,以提高其在長(zhǎng)期任務(wù)中的表現(xiàn)。利用仿真環(huán)境和實(shí)際環(huán)境對(duì)無人機(jī)自主導(dǎo)航方法進(jìn)行了評(píng)價(jià)。結(jié)果表明,基于DRL的導(dǎo)航方法在不同的環(huán)境下都具有良好的性能,優(yōu)于原始DrQ算法。


關(guān)鍵詞:無人機(jī),自主導(dǎo)航,深度強(qiáng)化學(xué)習(xí),分層強(qiáng)化學(xué)習(xí)


1 引言


近年來,無人機(jī)以其機(jī)動(dòng)性好、成本低等優(yōu)點(diǎn),在民用和軍用領(lǐng)域得到了廣泛的應(yīng)用。其中,結(jié)合計(jì)算機(jī)視覺的無人機(jī)已先后應(yīng)用于視頻監(jiān)控[1]、智能交通[2]、[3]、災(zāi)后搜救[4]、情報(bào)采集[5]、[6]等場(chǎng)景。然而,上述場(chǎng)景對(duì)常規(guī)操作任務(wù)(如起飛、導(dǎo)航、目標(biāo)探測(cè)和環(huán)境交互,特別是避障)施加了一些限制。結(jié)合人工智能技術(shù),利用無人機(jī)有限的傳感器收集到的信息,提高自主導(dǎo)航能力是非常必要的。


傳統(tǒng)技術(shù)曾在無人機(jī)自主導(dǎo)航中發(fā)揮重要作用,從非學(xué)習(xí)到基于學(xué)習(xí)。感知和回避是最普遍的非學(xué)習(xí)型技巧之一。這些技術(shù)可以避免碰撞,并通過將車輛轉(zhuǎn)向相反的方向來進(jìn)行導(dǎo)航。Odelga等[7]設(shè)計(jì)了集成慣性和光流距離測(cè)量的傳感器,其中使用卡爾曼濾波估計(jì)無人機(jī)線速度。為了避免碰撞,他們還使用RGB-D攝像機(jī)為操作員提供視覺輸入,以及構(gòu)建以機(jī)器人為中心的概率障礙模型的數(shù)據(jù)。對(duì)于無人機(jī)導(dǎo)航,Wang等[8]提出了一種非線性信號(hào)校正觀測(cè)器(NSCO)方法來估計(jì)無人機(jī)的位置和飛行速度。Tiemann等[9]為了使無人機(jī)能夠在沒有無線定位的地方獨(dú)立飛行,開發(fā)了一種將超寬帶定位與單目SLAM增強(qiáng)融合的技術(shù)。Kim等[10]提出了一種獨(dú)特的全源導(dǎo)航濾波器,稱為壓縮偽SLAM。它可以以一種計(jì)算效率高的方式順利地組合所有可用的信息。


為了降低避障算法對(duì)環(huán)境的依賴性,增強(qiáng)其適用性,許多研究者開始結(jié)合強(qiáng)化學(xué)習(xí)(RL)來處理自主導(dǎo)航問題。已經(jīng)做了一些工作,并取得了良好的效果。Imanberdiyev等[11]提出了一種基于模型的DRL算法TEXPLORE,用于無人機(jī)在無阻礙網(wǎng)格地圖中導(dǎo)航,作為一種增強(qiáng)的控制方法。Wang等[12] 開發(fā)了一種非專家輔助(LwH)的DRL方法。該方法采用具有稀疏獎(jiǎng)勵(lì)的馬爾可夫決策過程(MDP)來框架大規(guī)模復(fù)雜環(huán)境下自主無人機(jī)導(dǎo)航的挑戰(zhàn)。He等[13]提出了一種基于rl的方法來解決無人機(jī)自主導(dǎo)航問題。該方法與仿生單目視覺感知方法相結(jié)合。與基于SLAM和光流的導(dǎo)航方法相比,該方法的計(jì)算效率更高。Tong等[14]提出了一種分布式DRL架構(gòu)。該體系結(jié)構(gòu)將無人機(jī)導(dǎo)航問題劃分為兩個(gè)子任務(wù)。每個(gè)子任務(wù)通過基于長(zhǎng)短期記憶(LSTM)技術(shù)的DRL網(wǎng)絡(luò)與數(shù)據(jù)交互,并開發(fā)了一個(gè)損失函數(shù)來整合兩個(gè)子任務(wù)。為了在動(dòng)態(tài)和多障礙物環(huán)境下成功進(jìn)行導(dǎo)航,Zhang等[15]開發(fā)了一種基于drl的方法,并取得了良好的性能。此外,Xin等[16]提出了一種基于經(jīng)驗(yàn)回放的DRL方法來進(jìn)行自主導(dǎo)航。[3]提出了一種新的基于深度Q學(xué)習(xí)的空氣輔助車輛緩存方案,以響應(yīng)車輛用戶的駕駛安全相關(guān)請(qǐng)求。[17]為無人機(jī)設(shè)計(jì)了一種導(dǎo)航策略,以提高數(shù)據(jù)新鮮度和與物聯(lián)網(wǎng)(IoT)設(shè)備的連通性。[2]采用具有時(shí)間關(guān)注的遞歸神經(jīng)網(wǎng)絡(luò)來解決無人機(jī)的導(dǎo)航問題。在沒有碰撞的情況下覆蓋的距離方面,與之前的工作相比,它提供了更好的結(jié)果。為了實(shí)現(xiàn)無人機(jī)的自主性,Chansuparp等[18]采用了簡(jiǎn)化點(diǎn)云數(shù)據(jù)和增強(qiáng)后向獎(jiǎng)勵(lì)函數(shù)的TD3算法


分層強(qiáng)化學(xué)習(xí) (HRL)是一種針對(duì)大規(guī)模問題的重要計(jì)算方法。它可以進(jìn)行不同程度的時(shí)間抽象,大大降低了維數(shù)和訓(xùn)練難度。Rafati等[19]提出了一種高效而通用的子目標(biāo)發(fā)現(xiàn)方法。該方法基于無模型HRL框架。采用無監(jiān)督學(xué)習(xí)方法,可以自動(dòng)學(xué)習(xí)子目標(biāo)來解決大規(guī)模強(qiáng)化學(xué)習(xí)問題。Florensa等[20]使用隨機(jī)神經(jīng)網(wǎng)絡(luò)(SNNs)提供了一個(gè)廣泛的框架,SNNs是一種由計(jì)算圖中的隨機(jī)單元組成的神經(jīng)網(wǎng)絡(luò)。該框架可以為一系列具有稀疏獎(jiǎng)勵(lì)的任務(wù)訓(xùn)練策略。


對(duì)于真實(shí)環(huán)境中的強(qiáng)化學(xué)習(xí),強(qiáng)化學(xué)習(xí)在真實(shí)環(huán)境中的應(yīng)用面臨的主要挑戰(zhàn)之一是由于過多的動(dòng)作狀態(tài)對(duì)導(dǎo)致的“維度詛咒”,這使得它難以收斂或?qū)W習(xí)有效的策略。例如,在無人機(jī)的自主避障中,直接輸入照片和傳感器信息會(huì)導(dǎo)致算法缺乏通用性和魯棒性,阻礙了算法在實(shí)踐中的應(yīng)用。


以往的無人機(jī)自主導(dǎo)航研究經(jīng)常遇到訓(xùn)練不穩(wěn)定、收斂速度慢、狀態(tài)空間過大等問題。為了解決這些問題,我們引入了關(guān)注和分層機(jī)制,并提出了一個(gè)無人機(jī)自主導(dǎo)航和避障的DRL框架。導(dǎo)航和避障問題被描述為MDP,并以一種新穎的在線DRL算法解決。本研究的重點(diǎn)是填補(bǔ)強(qiáng)化學(xué)習(xí)中虛擬環(huán)境與真實(shí)環(huán)境之間的空白。算法的設(shè)計(jì)思想和訓(xùn)練過程的隨機(jī)性保證了模型的輸入盡可能豐富。它可以覆蓋無人機(jī)在真實(shí)飛行過程中獲取的深度圖。它還可以進(jìn)行動(dòng)作和子策略的選擇,從而保證無人機(jī)在真實(shí)環(huán)境中的有效性。該算法基于DrQ[21],包括均值估計(jì)函數(shù)、時(shí)間注意機(jī)制、分層框架和遞歸。本文的主要貢獻(xiàn)有:


1) 我們提出了分層時(shí)間注意循環(huán)平均DrQ (HTARADrQ)。HTARADrQ可以學(xué)習(xí)在不同的時(shí)間抽象層次上操作。它可以大大降低狀態(tài)-動(dòng)作對(duì)的維數(shù)和訓(xùn)練難度。


2) 提出的時(shí)間注意循環(huán)平均DrQ (TARADrQ)包括估計(jì)函數(shù)、時(shí)間注意機(jī)制和循環(huán)。在訓(xùn)練中表現(xiàn)出更強(qiáng)的穩(wěn)定性。它還展示了在處理較長(zhǎng)的輸入序列和探索時(shí)間依賴性方面的更強(qiáng)能力。


3) 通過仿真和實(shí)際測(cè)試,驗(yàn)證了該算法的可行性和有效性。

本文的其余部分組織如下:第二節(jié)介紹了基于學(xué)習(xí)的無人機(jī)導(dǎo)航的相關(guān)工作。第三節(jié)介紹了我們提出的算法。第四節(jié)進(jìn)行了基準(zhǔn)測(cè)試和分析。第五節(jié)展示了我們提出的HTARADrQ算法在現(xiàn)實(shí)世界中的測(cè)試結(jié)果。最后,第六節(jié)是本文的結(jié)論。


2 相關(guān)工作


A. 基于學(xué)習(xí)的無人機(jī)導(dǎo)航


障礙物檢測(cè)和避障任務(wù)得益于自主導(dǎo)航。在文獻(xiàn)中,單目障礙物檢測(cè)方法要么基于使用傳統(tǒng)機(jī)器學(xué)習(xí)的場(chǎng)景檢測(cè),要么基于使用深度學(xué)習(xí)的計(jì)算機(jī)視覺。Smolyansky等人[22]開發(fā)了一種微型飛行器(MAV)系統(tǒng),可以在森林等非結(jié)構(gòu)化室外環(huán)境中自動(dòng)跟蹤路徑。該系統(tǒng)采用了一種名為TrailNet的深度神經(jīng)網(wǎng)絡(luò)(DNN)。它可以估計(jì)視覺方向和MAV相對(duì)于軌跡中心的橫向偏移量。Korris等[23]提供了一種基于CNN的自監(jiān)督室內(nèi)無人機(jī)導(dǎo)航技術(shù)。這種方法通過使用回歸CNN來解決實(shí)時(shí)避障問題。數(shù)據(jù)來自機(jī)載單目攝像機(jī)。Loquercio等[24]開發(fā)了一種基于CNN的名為DroNet的網(wǎng)絡(luò),可以讓無人機(jī)安全地通過城市街道。DroNet是一個(gè)八層剩余網(wǎng)絡(luò),有兩個(gè)輸出。其中一個(gè)輸出是操縱角度,允許無人機(jī)在避開障礙物的同時(shí)保持導(dǎo)航。另一個(gè)輸出是碰撞的可能性,使無人機(jī)能夠識(shí)別危險(xiǎn)情況并迅速做出反應(yīng)。Kaufmann等[25]研究了一些動(dòng)態(tài)情況下自主無人機(jī)競(jìng)速的問題。他們還提出了一種將控制系統(tǒng)和CNN與尖端路徑規(guī)劃相結(jié)合的方法。這種方法完全依賴于不需要任何顯式的環(huán)境映射。Lee等人[26]提供了一種新的方法,通過單個(gè)相機(jī)在種植森林中自主導(dǎo)航微型無人機(jī)。由于單目視覺缺乏深度信息,他們提出了一種名為Faster Region-based Convolutional Neural Network (Faster R-CNN)的深度學(xué)習(xí)模型來識(shí)別樹干。


最近,研究人員試圖利用深度學(xué)習(xí)算法為無人機(jī)尋找一種穩(wěn)定的控制方法。Hii等[27]提出了一種基于DRL的無人機(jī)投遞優(yōu)化系統(tǒng)。根據(jù)該研究,無人機(jī)交付是無人機(jī)在避開各種障礙物的情況下到達(dá)某個(gè)位置的路徑,它還采用了多種DRL算法來幫助無人機(jī)實(shí)現(xiàn)目標(biāo)。Shin等人[28]使用各種強(qiáng)化學(xué)習(xí)算法(如無監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí))對(duì)無人機(jī)進(jìn)行了實(shí)驗(yàn)研究。Hodge等人[29]開發(fā)了一種通用導(dǎo)航算法,通過無人機(jī)機(jī)載傳感器的數(shù)據(jù)引導(dǎo)無人機(jī)到達(dá)問題地點(diǎn)。為了構(gòu)建通用的自適應(yīng)導(dǎo)航系統(tǒng),本研究采用了一種結(jié)合增量課程學(xué)習(xí)和LSTM的近端策略優(yōu)化DRL算法。Li等[30]提出了一種獨(dú)特的DRL框架來幫助復(fù)雜情況下的自主導(dǎo)航。該框架考慮了時(shí)間抽象和策略效率。它采用效率正則化的方法動(dòng)態(tài)地選擇動(dòng)作決策的頻率。Chikhaoui等[31]為基于DRL的無人機(jī)導(dǎo)航提供了自主框架。該框架以PPO算法為基礎(chǔ),考慮了無人機(jī)的能量限制。


B. 分層強(qiáng)化學(xué)習(xí)


HRL是一種探索高級(jí)對(duì)象空間以解決稀疏獎(jiǎng)勵(lì)或長(zhǎng)期挑戰(zhàn)的方法。由于子目標(biāo)、備選方案、技能和宏觀動(dòng)作的概念是相互關(guān)聯(lián)的,因此,HRL技術(shù)的模塊化結(jié)構(gòu)總體上促進(jìn)了遷移和多任務(wù)學(xué)習(xí)。分層規(guī)劃是一個(gè)眾所周知的人工智能話題。Kulkarni等[32]開發(fā)了在不同時(shí)間尺度上運(yùn)行的分層DQN (h-DQN)。它可以分層組織目標(biāo)驅(qū)動(dòng)和內(nèi)在激勵(lì)DRL模塊。h-DQN結(jié)合了頂層和底層的行動(dòng)價(jià)值功能。前者獲得內(nèi)在子目標(biāo)或選擇的技巧,后者學(xué)習(xí)原始行動(dòng)的策略以實(shí)現(xiàn)每個(gè)子目標(biāo)的目標(biāo)。Vezhnevets等[33]開發(fā)了HRL的封建網(wǎng)絡(luò)(FuNs)。它包含一個(gè)管理模塊和一個(gè)工作模塊。管理模塊為長(zhǎng)周期設(shè)置抽象操作和子目標(biāo),工作模塊在每個(gè)時(shí)間步選擇原子動(dòng)作來實(shí)現(xiàn)管理器的子目標(biāo)。Bacon等[34]發(fā)展了option-criticism體系結(jié)構(gòu),建立了option的策略梯度定理。該方法通過從策略到option逐步學(xué)習(xí)option內(nèi)策略和終止條件。它還集成了option發(fā)現(xiàn)和option學(xué)習(xí)。Harutyunyan等人[35]通過option-criticism的棱鏡考察了短期option的靈活性和長(zhǎng)期option的效率之間存在的困境。與非策略學(xué)習(xí)算法類似,將行為與終止?fàn)顟B(tài)解耦,將option學(xué)習(xí)轉(zhuǎn)化為多步策略學(xué)習(xí)。


智能體有能力在沒有人類干預(yù)的情況下探索他們的環(huán)境并獲得重要的能力。Eysenbach等[36]開發(fā)了一種稱為DIAYN的算法。這是一種在沒有獎(jiǎng)勵(lì)功能的情況下獲得有價(jià)值技能的策略。DIAYN在決策過程中采用最小熵原則,對(duì)信息理論目標(biāo)進(jìn)行優(yōu)化以獲取知識(shí)。Li等人[37]開發(fā)了一種具有無偏隱依賴基線的新型分層策略梯度,稱為分層近端策略優(yōu)化(hierarchical Proximal policyOptimization, HiPPO)。HiPPO是一種同時(shí)有效訓(xùn)練所有層次的機(jī)制。他們還設(shè)計(jì)了一種訓(xùn)練時(shí)間抽象的方法,以增加獲得的能力對(duì)環(huán)境變化的適應(yīng)能力。為了促進(jìn)探索和分層技能獲取,Chuck等人[38]創(chuàng)建了一種被稱為假設(shè)提議和評(píng)估(HyPE)的方法,并在軟件中實(shí)現(xiàn)。HyPE的樣本效率來源于對(duì)現(xiàn)實(shí)世界和模擬環(huán)境中行為的隱含假設(shè)。Zhang等[39]介紹了一種稱為HIDIO的分層強(qiáng)化學(xué)習(xí)方法。該技術(shù)用于以自我監(jiān)督的方式學(xué)習(xí)任務(wù)不可知選項(xiàng)。這些選項(xiàng)可以同時(shí)用于解決稀疏獎(jiǎng)勵(lì)問題。在這項(xiàng)工作中,我們將分層框架與DRL算法相結(jié)合,以提高算法在長(zhǎng)期任務(wù)上的性能


C. DrQ算法


為了優(yōu)化最大熵策略和基于能量的策略,Haarnoja等[40]設(shè)計(jì)了一種軟Q學(xué)習(xí)算法。在軟Q學(xué)習(xí)中,將最優(yōu)策略指定為玻爾茲曼分布,并采用變分方法構(gòu)建采樣網(wǎng)絡(luò)。它可以從理想策略描述的分布中近似出樣本。為了提高遷移能力,可以通過軟Q學(xué)習(xí)來增強(qiáng)勘探,并輔助基于能量的隨機(jī)策略來實(shí)現(xiàn)組合性。第二年,Haarnoja等人[41]基于[40]中的最大能量強(qiáng)化學(xué)習(xí)框架,開發(fā)了一種名為soft actor-critic (SAC)的算法。行為人試圖最大化預(yù)測(cè)熵和獎(jiǎng)勵(lì)。SAC是一種連接確定性策略梯度和隨機(jī)策略優(yōu)化的非策略方法。利用截?cái)嗟碾pQ技術(shù)和目標(biāo)函數(shù)中的熵正則化,SAC訓(xùn)練策略優(yōu)化熵和預(yù)期回報(bào)之間的權(quán)衡,同時(shí)仍保持合理的熵水平。從本質(zhì)上講,熵是衡量策略隨機(jī)化程度的指標(biāo)。這個(gè)過程類似于開發(fā)和探索之間的權(quán)衡。此外,它有可能防止學(xué)習(xí)策略收斂到次優(yōu)的局部最優(yōu)。DrQ[21]在圖片輸入上使用數(shù)據(jù)增強(qiáng)來提供更可靠的輸出。有兩種方法來正則化DrQ中的值函數(shù)。它可以提供一種自然的方式來使用MDP結(jié)構(gòu),通過一種直接的無模型DRL學(xué)習(xí)方法。在我們的工作中,我們提出了基于DrQ的無人機(jī)自主導(dǎo)航方法。仿真結(jié)果表明,與其他最先進(jìn)的方法相比,該方法有明顯的改進(jìn)。


3 無人機(jī)自主導(dǎo)航


在本節(jié)中,提出了一種基于DRL的響應(yīng)式框架,用于無人機(jī)在未知環(huán)境下的自主導(dǎo)航。該框架不依賴SLAM,而是利用當(dāng)前可用的傳感器數(shù)據(jù)對(duì)無人機(jī)進(jìn)行導(dǎo)航。此外,我們的框架不需要大量的機(jī)載優(yōu)化,這對(duì)于計(jì)算資源有限的小型無人機(jī)來說是有利的。系統(tǒng)框架如圖1所示。


圖片

圖1 基于DRL的無人機(jī)自主導(dǎo)航系統(tǒng)


A. 問題表述


無人機(jī)在陌生環(huán)境下的自主導(dǎo)航將面臨順序決策的挑戰(zhàn)。根據(jù)合適的獎(jiǎng)勵(lì)函數(shù)的定義,這個(gè)問題可以描述為一個(gè)MDP。其中表示下一狀態(tài),當(dāng)前狀態(tài)為。本文將無人機(jī)自主導(dǎo)航的挑戰(zhàn)用MDP來表述。MDP可以用元組<>來定義。這個(gè)元組由一組狀態(tài)、一組動(dòng)作、一個(gè)獎(jiǎng)勵(lì)函數(shù)、一個(gè)轉(zhuǎn)移函數(shù)和一個(gè)折扣因子組成。有許多方法可以用來求解具有有限狀態(tài)和動(dòng)作空間的MDP,例如動(dòng)態(tài)規(guī)劃。另一方面,轉(zhuǎn)移概率和獎(jiǎng)勵(lì)函數(shù)在大多數(shù)MDP中是無法獲得的。RL算法的目的是識(shí)別一個(gè)將狀態(tài)映射到動(dòng)作的最佳策略。假設(shè)無人機(jī)從地心坐標(biāo)系的三維點(diǎn)出發(fā),飛向的目標(biāo)點(diǎn)。時(shí)刻的狀態(tài)由一些原始深度圖片以及無人機(jī)的各種狀態(tài)特征組成,其表達(dá)式為:,。無人機(jī)狀態(tài)特征可以定義為:,,,其中表示無人機(jī)當(dāng)前位置與目標(biāo)位置之間的歐氏距離,表示無人機(jī)的偏航角,表示無人機(jī)的前向夾角和目標(biāo)位置。無人機(jī)的偏航角速度由策略網(wǎng)絡(luò)產(chǎn)生的動(dòng)作表示。


B. HTARADrQ


原有的DrQ方法存在訓(xùn)練過程不穩(wěn)定、對(duì)時(shí)間序列數(shù)據(jù)處理能力不足、對(duì)長(zhǎng)期任務(wù)性能不佳等問題。這些問題導(dǎo)致DrQ在無人機(jī)自主導(dǎo)航任務(wù)中表現(xiàn)不佳。為了提高算法在無人機(jī)自主導(dǎo)航任務(wù)中的性能,我們提出了分層時(shí)間注意力遞歸平均DrQ (HTARADrQ)。HTARADrQ將DrQ與平均估計(jì)函數(shù)、時(shí)間注意力和分層框架相結(jié)合。平均估計(jì)函數(shù)使訓(xùn)練過程更加穩(wěn)定。采用時(shí)間注意機(jī)制的算法可以更好地處理時(shí)間序列數(shù)據(jù)。分層框架可以將長(zhǎng)期任務(wù)劃分為子任務(wù)層次結(jié)構(gòu)。高級(jí)策略可以識(shí)別出最佳子任務(wù),并通過學(xué)習(xí)將其作為高級(jí)行動(dòng)。子任務(wù)本身可能更容易學(xué)習(xí),從而進(jìn)一步提高算法的性能。改進(jìn)的細(xì)節(jié)如下所述。


1. 平均估計(jì)函數(shù): DrQ采用軟策略迭代優(yōu)化agent與環(huán)境交互獲得的獎(jiǎng)勵(lì)。軟政策迭代的目的是在政策審查和政策改進(jìn)之間交替進(jìn)行,但它只能在最大熵范式中發(fā)揮作用。DrQ代理的網(wǎng)絡(luò)由三部分組成:演員網(wǎng)絡(luò)、評(píng)論家網(wǎng)絡(luò)和目標(biāo)評(píng)論家網(wǎng)絡(luò)。行動(dòng)者網(wǎng)絡(luò)可以根據(jù)代理人的當(dāng)前狀態(tài)預(yù)測(cè)代理人的行為。狀態(tài)-作用對(duì)的值由估計(jì)。與相同,可用來估計(jì)狀態(tài)-作用對(duì)的目標(biāo)值。軟Q學(xué)習(xí)和Q學(xué)習(xí)一樣,有Q值高估的問題。在我們的工作中,我們通過平均估計(jì)策略來緩解軟Q學(xué)習(xí)的高估。這樣可以使訓(xùn)練過程更加穩(wěn)定,提高性能。平均估計(jì)函數(shù)如下式所示:



其中為損失函數(shù),為期望值算子,為存儲(chǔ)過往經(jīng)驗(yàn)的重播緩沖區(qū),為無人機(jī)在時(shí)刻的狀態(tài),為無人機(jī)在t時(shí)刻的動(dòng)作,為Q值函數(shù),為折現(xiàn)因子,為獎(jiǎng)勵(lì)函數(shù),為值函數(shù),為溫度因子,為先前學(xué)習(xí)到的動(dòng)作狀態(tài)估計(jì)的個(gè)數(shù)。此外,如圖2所示,我們將CNN模塊的最后一個(gè)全連接層替換為global average pooling(GAP)。與全連接層相比,優(yōu)勢(shì)在于GAP沒有需要優(yōu)化的參數(shù),可以避免這一層的過擬合。此外,GAP對(duì)空間信息進(jìn)行了總結(jié),對(duì)輸入的空間變換具有更強(qiáng)的魯棒性。


圖片

圖2 TARADrQ的Actor架構(gòu)


2. 時(shí)間注意:在無人機(jī)的自主導(dǎo)航任務(wù)中,由于傳感器的部分可觀測(cè)性導(dǎo)致的感知信息不完整和附帶噪聲非常普遍。因此,無人機(jī)無法收集足夠的環(huán)境信息來發(fā)展適當(dāng)?shù)膶?dǎo)航行為。為了處理這個(gè)問題,引入了遞歸的概念,以便更好地評(píng)估環(huán)境的潛在狀態(tài)。我們?cè)贒rQ中提出了一種遞歸機(jī)制來改善無人機(jī)的自主導(dǎo)航,并在CNN模塊的輸出中增加了一個(gè)額外的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。RNN模塊分析網(wǎng)絡(luò)中包含的時(shí)間信息,而不是單一的歷史數(shù)據(jù)集作為輸入。此外,由于RNN提供的跨時(shí)間的連通性,可以集成和研究更長(zhǎng)的歷史數(shù)據(jù)序列,使生成的策略更可信。更具體地說,我們使用LSTM單元作為RNN架構(gòu)的基礎(chǔ),并將其與DrQ算法相結(jié)合,該算法被稱為平均DrQ (ADrQ)。


此外,為了識(shí)別先驗(yàn)狀態(tài)下最重要的幀,我們提出了時(shí)間注意循環(huán)平均DrQ (TARADrQ)。TARADrQ可以在LSTM細(xì)胞層的輸出上納入時(shí)間注意力,如圖2所示。時(shí)間注意機(jī)制為L(zhǎng)STM單元的輸出提供標(biāo)量權(quán)重。這些權(quán)重是在不同的時(shí)間步長(zhǎng)學(xué)習(xí)的。如公式4所示,Wi為每個(gè)LSTM單元輸出的權(quán)重,為L(zhǎng)STM單元隱藏向量,和為可學(xué)習(xí)參數(shù),激活函數(shù)為ReLU,然后是softmax函數(shù)。根據(jù)這個(gè)概念,每個(gè)習(xí)得的權(quán)重依賴于前一個(gè)時(shí)間步長(zhǎng)的信息和當(dāng)前狀態(tài)信息,如公式4所示。在下一步中,我們計(jì)算組合上下文向量,如圖5所示,上下文向量是LSTM單元輸出在個(gè)時(shí)間步長(zhǎng)的加權(quán)和。在計(jì)算動(dòng)作之前,與無人機(jī)狀態(tài)數(shù)據(jù)連接,并通過actor網(wǎng)絡(luò)的三個(gè)完全連接層發(fā)送。學(xué)習(xí)到的權(quán)重是LSTM輸出的相關(guān)性。因此,優(yōu)化過程的目標(biāo)是最大化導(dǎo)航成功率的可能性。為了學(xué)習(xí)適當(dāng)?shù)男袨?,?yōu)化過程可以學(xué)習(xí)選擇哪些狀態(tài)相對(duì)更重要。這是因?yàn)楫?dāng)注意力計(jì)算動(dòng)作輸出時(shí),時(shí)間注意力可以顯式地考慮來自前T幀的LSTM輸出特征。與原來的DrQ和ADrQ相比,TARADrQ在處理時(shí)間序列數(shù)據(jù)和時(shí)間關(guān)系的能力上有了很多改進(jìn)。


圖片


3. 分層框架: 自主導(dǎo)航任務(wù)是一項(xiàng)長(zhǎng)期任務(wù),HRL可以將一項(xiàng)困難的任務(wù)分解成更容易的子任務(wù)來執(zhí)行。它使用了通過強(qiáng)化學(xué)習(xí)學(xué)到的規(guī)則層次結(jié)構(gòu)。在分層結(jié)構(gòu)中,最高級(jí)別的策略通常選擇主任務(wù)的子任務(wù)作為當(dāng)前操作。該策略被訓(xùn)練成按順序完成子任務(wù),然后產(chǎn)生激勵(lì)獎(jiǎng)勵(lì)并發(fā)送給該策略。通過與該子任務(wù)相關(guān)的內(nèi)部獎(jiǎng)勵(lì),較低級(jí)別的策略可以學(xué)習(xí)完成同一級(jí)別的子任務(wù)。最低級(jí)別的策略響應(yīng)于識(shí)別最基本的活動(dòng),這些活動(dòng)被稱為原始操作。現(xiàn)在我們提出HTARADrQ,如圖3所示,它由一個(gè)主策略ψ和M個(gè)子策略組成。在每個(gè)時(shí)間步,主策略將根據(jù)當(dāng)前狀態(tài)st預(yù)測(cè)一個(gè)主操作,如公式6所示。子策略的索引是從0到。然后,算法根據(jù)主動(dòng)作選擇子策略。所選擇的子策略將根據(jù)當(dāng)前狀態(tài)分N步預(yù)測(cè)無人機(jī)的控制動(dòng)作。對(duì)于當(dāng)前狀態(tài),agent可以學(xué)習(xí)從個(gè)子策略中選擇一個(gè),并應(yīng)用該子策略來預(yù)測(cè)動(dòng)作。


圖片

圖片

圖3 分層結(jié)構(gòu)框架


C. 獎(jiǎng)勵(lì)函數(shù)


公式7和公式8分別是子策略和主策略的獎(jiǎng)勵(lì)函數(shù)。是無人機(jī)前一位置與目標(biāo)位置之間的歐氏距離。是當(dāng)前位置與目標(biāo)位置之間的歐氏距離。如果無人機(jī)崩潰或超時(shí),子策略將獲得負(fù)獎(jiǎng)勵(lì)-1,以降低模型在該狀態(tài)下選擇操作的概率。當(dāng)無人機(jī)到達(dá)目標(biāo)點(diǎn)時(shí),子策略將獲得1的正獎(jiǎng)勵(lì),以增加模型在該狀態(tài)下選擇動(dòng)作的概率。在其他情況下,無人機(jī)將獲得獎(jiǎng)勵(lì)。當(dāng)無人機(jī)接近終點(diǎn)時(shí),獎(jiǎng)勵(lì)為正。否則,獎(jiǎng)勵(lì)是消極的。式8是總體政策的獎(jiǎng)勵(lì)函數(shù)。是總體政策的回報(bào)。是子策略在第i步的獎(jiǎng)勵(lì)。


圖片



D. 分層時(shí)間注意遞歸平均DrQ


在本節(jié)中,我們將描述HTARADrQ算法的訓(xùn)練過程。首先,我們需要初始化所需的參數(shù),包括主策略,子策略,主緩沖區(qū)和子緩沖區(qū)。主策略網(wǎng)絡(luò)由網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)組成。子策略網(wǎng)絡(luò)由行動(dòng)者網(wǎng)絡(luò)、批評(píng)家網(wǎng)絡(luò)和目標(biāo)批評(píng)家網(wǎng)絡(luò)組成。然后,在執(zhí)行任務(wù)之前將重置環(huán)境。在任務(wù)期間,如果當(dāng)前步驟少于種子步驟,主策略和子策略將隨機(jī)選擇一個(gè)操作。否則,它們將根據(jù)當(dāng)前狀態(tài)預(yù)測(cè)動(dòng)作。子策略由主動(dòng)作選擇,分步執(zhí)行。在每個(gè)子步驟中,代理將執(zhí)行子操作并更新子策略。當(dāng)任務(wù)完成或終止時(shí),主策略將被更新。完整的算法組織為算法1。


圖片


4 仿真結(jié)果及討論


在本部分中,我們?cè)诜抡姝h(huán)境中測(cè)試了HTARADrQ算法,以評(píng)估其自主導(dǎo)航和避障能力。根據(jù)環(huán)境的實(shí)際狀態(tài)分配大量參數(shù),訓(xùn)練agent在100,000個(gè)環(huán)境中學(xué)習(xí)策略步驟。為了提供一個(gè)比較點(diǎn),SAC[41]、DrQ[21]、ADrQ和TARADrQ算法都是針對(duì)無人機(jī)自主導(dǎo)航任務(wù)進(jìn)行訓(xùn)練的。在無人機(jī)仿真環(huán)境Airsim中對(duì)該方法進(jìn)行了驗(yàn)證。


A. 訓(xùn)練環(huán)境與設(shè)置


為了驗(yàn)證HTARADrQ在無人機(jī)導(dǎo)航任務(wù)中的性能,我們首先進(jìn)行了仿真實(shí)驗(yàn)。我們構(gòu)建了三個(gè)環(huán)境,如圖4所示。環(huán)境A是一個(gè)精心設(shè)計(jì)的場(chǎng)景,帶有難度和一般障礙。環(huán)境B是室內(nèi)走廊環(huán)境,白色的建筑和周圍的墻壁是障礙物。環(huán)境C是核電站的模擬環(huán)境,被認(rèn)為是下一個(gè)現(xiàn)實(shí)世界的應(yīng)用。將歸一化范圍[0,1]應(yīng)用于所有感官輸入。主策略網(wǎng)絡(luò)和子策略網(wǎng)絡(luò)的權(quán)值初始化均為均勻分布。


圖片

圖4 實(shí)驗(yàn)環(huán)境


在訓(xùn)練時(shí),無人機(jī)的飛行速度保持在1.0 m/s。為了增加隨機(jī)性,在訓(xùn)練過程中隨機(jī)初始化每集的起始點(diǎn)和結(jié)束點(diǎn)。該算法的輸入包含無人機(jī)的深度圖像和狀態(tài)。深度圖像大小為144×256。所有輸入數(shù)據(jù)歸一化為[0,1]。算法的輸出為[- 60,60]范圍內(nèi)的偏航角速度。在訓(xùn)練過程中,前1000步的動(dòng)作選擇由隨機(jī)化算法進(jìn)行。HTARADrQ的每個(gè)子策略模型將在與環(huán)境交互后進(jìn)行訓(xùn)練。每一集結(jié)束后,總體政策模型將被訓(xùn)練30次。對(duì)于每5000次交互,訓(xùn)練模型將用40集進(jìn)行測(cè)試。每個(gè)測(cè)試集的起始點(diǎn)和結(jié)束點(diǎn)也是隨機(jī)初始化的。當(dāng)測(cè)試過程完成后,培訓(xùn)過程將繼續(xù)。當(dāng)交互次數(shù)達(dá)到10萬次時(shí),訓(xùn)練階段結(jié)束。表1總結(jié)了所有的hyper-parameters。將參數(shù)設(shè)置如表1所示,可以穩(wěn)定模型訓(xùn)練,加快收斂速度。


表1 參數(shù)設(shè)置

圖片


B. 培訓(xùn)結(jié)果及分析


首先,我們?cè)u(píng)估了最終的HTARADrQ模型在這三種環(huán)境下的性能,并將其與SAC、DrQ、ADrQ和TARADrQ進(jìn)行了比較。它們的參數(shù)設(shè)置和訓(xùn)練過程是相同的。圖5描述了他們?cè)谟?xùn)練期間的平均劇集回報(bào)。使用三個(gè)隨機(jī)種子來訓(xùn)練五種算法中的每一種。在每5000步中,每個(gè)算法將執(zhí)行一次評(píng)估rollout。實(shí)線代表三種種子的平均值,陰影區(qū)代表三種種子的變異。實(shí)線曲線顯示HTARADrQ在無人機(jī)自主導(dǎo)航任務(wù)上優(yōu)于其他無人機(jī),包括學(xué)習(xí)速度和整體性能。陰影區(qū)域表示HTARADrQ在訓(xùn)練過程中比其他的更穩(wěn)定。根據(jù)HTRADrQ,平均估計(jì)函數(shù)降低了錯(cuò)誤Q值的可能性和參數(shù)傳遞過程的方差。通過用GAP代替全連接層來減小模型的參數(shù)。循環(huán)機(jī)制使DrQ能夠處理時(shí)間序列數(shù)據(jù)并從中提取時(shí)間序列信息。時(shí)間注意機(jī)制可以決定每個(gè)輸入幀的重要性。它會(huì)導(dǎo)致更準(zhǔn)確的預(yù)測(cè)。分層框架將長(zhǎng)期學(xué)習(xí)任務(wù)分解為多個(gè)子問題或子任務(wù)層次。高級(jí)策略通過選擇最佳子任務(wù)作為高級(jí)操作來執(zhí)行任務(wù)。在子任務(wù)的序列上,任務(wù)分解可以有效地縮短原任務(wù)的視界。學(xué)習(xí)子任務(wù)更容易。因此,與其他算法相比,HTARADrQ在訓(xùn)練過程中更加穩(wěn)定,收斂速度更快。


圖片

圖片

圖片


圖5 訓(xùn)練期間的平均情節(jié)獎(jiǎng)勵(lì)曲線。(a)為各算法在環(huán)境a中的訓(xùn)練結(jié)果;(b)為各算法在環(huán)境b中的訓(xùn)練結(jié)果;(c)為各算法在環(huán)境c中的訓(xùn)練結(jié)果


其次,我們比較了HTARADrQ與SAC、DrQ、ADrQ和TARADrQ的避碰性能。結(jié)果見表2。我們發(fā)現(xiàn),如果加入平均估計(jì)函數(shù)、時(shí)間關(guān)注和層次框架,平均碰撞步長(zhǎng)會(huì)增加。換句話說,agent的避障能力得到了提高。采用平均估計(jì)函數(shù)和全局平均池化操作使算法的訓(xùn)練過程更加穩(wěn)定。這可以在一定程度上提高智能體的避障能力。由于具有周期性和暫時(shí)性的注意機(jī)制,智能體能夠從其周圍環(huán)境中處理和提取更豐富、更重要的信息。因此,智能體可以避開障礙物,提高預(yù)測(cè)的準(zhǔn)確性。分層框架有利于子任務(wù)的學(xué)習(xí)。它允許智能體獲得更有效的避障策略。


表2 碰撞情況下每個(gè)模型的平均飛行步數(shù)


圖片


為了檢驗(yàn)SAC、DrQ、ADrQ、TARADrQ和HTARADrQ之間的性能差異,我們?cè)诿總€(gè)環(huán)境中測(cè)試了這些模型。在每個(gè)環(huán)境中,我們測(cè)試了100輪,其中每個(gè)測(cè)試的起點(diǎn)和終點(diǎn)是隨機(jī)生成的。圖6顯示了導(dǎo)航任務(wù)的平均成功率、平均碰撞率和平均超時(shí)率。圖中的藍(lán)條表示平均成功率。圖中的橙色條表示平均碰撞率。圖中的綠色條表示平均超時(shí)率??梢钥闯?,自主導(dǎo)航模型結(jié)合注意機(jī)制和層次機(jī)制可以學(xué)習(xí)到更好的導(dǎo)航策略。因此,與SAC、DrQ、ADrQ和TARADrQ相比,HTARADrQ可以更好地學(xué)習(xí)自主導(dǎo)航策略,并且具有更高的成功率和更低的碰撞率。


圖片

圖片

圖片

圖6 測(cè)試結(jié)果。(a)為各算法在環(huán)境a中的測(cè)試結(jié)果。(b)為各算法在環(huán)境b中的測(cè)試結(jié)果。(c)為各算法在環(huán)境c下的測(cè)試結(jié)果


C. 注意機(jī)制


為了驗(yàn)證時(shí)間注意機(jī)制的有效性,本節(jié)使用訓(xùn)練好的模型進(jìn)行模擬環(huán)境B中的各種實(shí)驗(yàn),如直飛實(shí)驗(yàn)、轉(zhuǎn)彎實(shí)驗(yàn)、避障實(shí)驗(yàn)等。圖7為該導(dǎo)航模型在直飛實(shí)驗(yàn)中的預(yù)測(cè)結(jié)果。第一行是環(huán)境的俯視圖,綠點(diǎn)表示無人機(jī)的位置。第二行是環(huán)境的RGB圖像。第三行是環(huán)境的深度圖像。第四行是每幀深度圖像對(duì)應(yīng)的注意權(quán)值。從圖中可以看出,從第一幀到第四幀,注意力權(quán)重不斷增加。注意模塊認(rèn)為第四幀的深度圖像比其他三幀更重要,因此給予第四幀最大的權(quán)重。然后,基于四幀深度圖像的注意權(quán)值,導(dǎo)航模型的預(yù)測(cè)值為0.15?/s。在這個(gè)偏航角速度下,無人機(jī)可以向前飛行。上述實(shí)驗(yàn)結(jié)果表明,該導(dǎo)航模型學(xué)習(xí)到了較好的直航策略。


圖片

圖7 導(dǎo)航模型在直飛試驗(yàn)中的預(yù)測(cè)結(jié)果


圖8為轉(zhuǎn)彎試驗(yàn)中導(dǎo)航模型的預(yù)測(cè)結(jié)果。從圖中可以看出,第一幀和第四幀的注意權(quán)重大于第二幀和第三幀。注意模塊認(rèn)為第四框架提供的信息是最重要的,但是第一框架提供的信息也應(yīng)該被考慮。在第一張深度圖像中,幾乎一半的區(qū)域是黑色的。它表明無人機(jī)此時(shí)非常接近左墻。因此,注意力模塊給予第一幀更大的權(quán)重。然后,基于四幀深度圖像的注意權(quán)值,導(dǎo)航模型的預(yù)測(cè)值為-37.23?/s。實(shí)驗(yàn)結(jié)果表明,該導(dǎo)航模型學(xué)習(xí)了較好的轉(zhuǎn)向策略。


圖片

圖8 導(dǎo)航模型在轉(zhuǎn)彎試驗(yàn)中的預(yù)測(cè)結(jié)果


圖9為避障實(shí)驗(yàn)中導(dǎo)航模型的預(yù)測(cè)結(jié)果。從圖中可以看出,從第一幀到第四幀的注意權(quán)重差異不是很大。這意味著注意模塊認(rèn)為這四個(gè)框架提供的信息都是重要的。然后,基于四幀深度圖像的關(guān)注權(quán)重,導(dǎo)航模型的預(yù)測(cè)值為59.68?/s。在這個(gè)偏航角速度下,無人機(jī)將向右轉(zhuǎn)以避開左邊的墻壁,以防止碰撞事件。實(shí)驗(yàn)結(jié)果表明,該導(dǎo)航模型學(xué)習(xí)了較好的避障策略。


圖片

圖9 避障實(shí)驗(yàn)中導(dǎo)航模型的預(yù)測(cè)結(jié)果


D. 消融實(shí)驗(yàn)


為了說明分級(jí)機(jī)制對(duì)性能的影響,以及分級(jí)機(jī)制與其他改進(jìn)方法相結(jié)合的效果,我們?cè)诒竟?jié)進(jìn)行了消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果見表3。從表中可以看出,每個(gè)模型的平均成功率加入分層機(jī)制后,環(huán)境改善了2% ~ 4%。與只加入層次機(jī)制的算法相比,加入層次機(jī)制等方法后,模型的平均成功率提高了2% ~ 8%。當(dāng)算法中加入四種改進(jìn)方法時(shí),模型的平均成功率最高??梢姡謱訖C(jī)制可以在一定程度上提高性能。同時(shí),層次機(jī)制可以與循環(huán)機(jī)制、注意機(jī)制、平均值函數(shù)相結(jié)合,相互促進(jìn),進(jìn)一步提高模型性能。


表3 各模型在各環(huán)境下導(dǎo)航任務(wù)的平均成功率結(jié)果


圖片


5 真實(shí)世界飛行測(cè)試


在本節(jié)中,進(jìn)行了一些真實(shí)世界的測(cè)試,以驗(yàn)證我們訓(xùn)練的無人機(jī)自主導(dǎo)航模型的性能,以及一般的實(shí)際結(jié)果。


A. 飛行平臺(tái)


無人機(jī)飛行平臺(tái)基于大疆F550搭建,如圖10所示,配備CUAV V5自動(dòng)駕駛儀。我們?cè)O(shè)計(jì)并為Manifold 2C車載計(jì)算機(jī)配備了深度傳感器,并集成了SLAM算法進(jìn)行定位和導(dǎo)航。形成了一個(gè)組裝方便、結(jié)構(gòu)清晰、具有自主飛行能力、可根據(jù)不同實(shí)驗(yàn)任務(wù)進(jìn)行異化的多功能實(shí)驗(yàn)平臺(tái)。開發(fā)了基于QGroundControl的地面站平臺(tái),實(shí)現(xiàn)了航路規(guī)劃和無人機(jī)狀態(tài)實(shí)時(shí)監(jiān)控。


圖片

圖10 飛行平臺(tái)。(a)為我司自組裝無人機(jī)。(b)為導(dǎo)航系統(tǒng)框架。(c)為地面站平臺(tái)。(d)為SLAM系統(tǒng)的測(cè)試結(jié)果


B. 在真實(shí)世界中的評(píng)估


首先,在辦公環(huán)境中進(jìn)行了模擬實(shí)驗(yàn)。辦公環(huán)境平面圖如圖11所示,其中陰影區(qū)域代表障礙物,粗線代表周圍的墻壁。本實(shí)驗(yàn)的起始和結(jié)束位置也顯示在圖中。圖11中有數(shù)字標(biāo)記的位置與圖12中的位置相對(duì)應(yīng)。在飛行過程中持續(xù)采集環(huán)境深度圖像和無人機(jī)狀態(tài)信息。將采集到的環(huán)境深度圖像和無人機(jī)狀態(tài)信息輸入到導(dǎo)航模型中,由導(dǎo)航模型預(yù)測(cè)無人機(jī)的偏航角速度。


圖片圖11 測(cè)試環(huán)境的俯視圖

圖片

圖12 導(dǎo)航模型預(yù)測(cè)結(jié)果


實(shí)驗(yàn)中使用的模型是經(jīng)過訓(xùn)練的HTARADrQ模型。模型預(yù)測(cè)結(jié)果如圖12所示。第一列是無人機(jī)的位置號(hào),第二列是原始環(huán)境圖像,第三列是環(huán)境的深度圖像,第四列是導(dǎo)航模型的預(yù)測(cè)偏航率。負(fù)偏航角速度表示向左偏航,而正的意思是向右偏航。從圖中可以看出,第一到第三個(gè)位置的預(yù)測(cè)偏航率在[?10,10]之間,因?yàn)闊o人機(jī)在這些位置不需要進(jìn)行大的偏轉(zhuǎn)角,只需要向前移動(dòng)。在第四個(gè)和第五個(gè)位置,可以看到無人機(jī)在這些位置應(yīng)該向左轉(zhuǎn)彎,并且偏航角速度的預(yù)測(cè)值都是大負(fù)值。第六次偏航率預(yù)測(cè)介于[?10,10]之間,因?yàn)樵谶@個(gè)位置,無人機(jī)應(yīng)該向前飛行。在第7和第8個(gè)位置,無人機(jī)應(yīng)該在這些位置向左偏轉(zhuǎn)。此時(shí)預(yù)測(cè)值為較大的負(fù)值,使無人機(jī)向左轉(zhuǎn),避免碰撞。在第9個(gè)位置,可以看到左邊有障礙物,此時(shí)預(yù)測(cè)的偏航率為正,這樣無人機(jī)可以稍微偏轉(zhuǎn)到右邊,避開障礙物。在最后一個(gè)位置,可以看到結(jié)束位置在前方不遠(yuǎn),無人機(jī)只需要向前飛行。此時(shí),偏航角速度的預(yù)測(cè)值在[?10,10]之間


6 結(jié)論與未來工作

本文研究了無人機(jī)在陌生環(huán)境下的自主導(dǎo)航問題,并采用DRL方法解決了這一問題。我們提出了HTARADrQ算法,該算法通過平均估計(jì)函數(shù)、循環(huán)機(jī)制、時(shí)間關(guān)注和分層框架,使無人機(jī)能夠更好地在連續(xù)動(dòng)作空間中進(jìn)行動(dòng)作。通過實(shí)時(shí)仿真驗(yàn)證了該方法的有效性,其中無人機(jī)試圖在不與任何障礙物發(fā)生碰撞的情況下實(shí)現(xiàn)目標(biāo)。我們的測(cè)試結(jié)果證明了本文所描述的技術(shù)可用于無人機(jī)自主導(dǎo)航,并且優(yōu)于原有的DrQ算法。對(duì)于今后的工作,可以構(gòu)建更加逼真的仿真環(huán)境,縮小仿真環(huán)境與真實(shí)環(huán)境之間的差距。在計(jì)算獎(jiǎng)勵(lì)時(shí),也可以考慮飛行過程中的能量消耗??紤]飛行過程中的速度和角速度,可以進(jìn)一步提高算法在復(fù)雜環(huán)境和路徑下的導(dǎo)航性能。


參考文獻(xiàn)


圖片

圖片

圖片

圖片

圖片



分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25