一種基于注意力機(jī)制的無人機(jī)自主導(dǎo)航分層強(qiáng)化學(xué)習(xí)算法

2024-05-22 20:55:53· 來源：同濟(jì)智能汽車研究所

本文提出了HTARADrQ算法，該算法通過平均估計(jì)函數(shù)、循環(huán)機(jī)制、時(shí)間關(guān)注和分層框架，使無人機(jī)能夠更好地在連續(xù)動(dòng)作空間中進(jìn)行動(dòng)作。通過仿真和實(shí)際測(cè)試，驗(yàn)證了算法的可行性和有效性。

本文譯自：

《A Hierarchical Reinforcement Learning Algorithm based on Attention Mechanism for UAV Autonomous Navigation》

文章來源：

IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS

作者：

Zun Liu , Yuanqiang Cao, Jianyong Chen , and Jianqiang Li

作者單位：

中國(guó)大數(shù)據(jù)系統(tǒng)計(jì)算技術(shù)國(guó)家工程實(shí)驗(yàn)室

原文鏈接：

https://ieeexplore.ieee.org/document/9990583

摘要：無人駕駛飛行器(uav)越來越多地應(yīng)用于許多具有挑戰(zhàn)性和多樣化的應(yīng)用中。同時(shí)，無人機(jī)的自主導(dǎo)航和避障能力也變得越來越重要。本文旨在通過引入注意機(jī)制和層次機(jī)制，填補(bǔ)深度強(qiáng)化學(xué)習(xí)理論與實(shí)際應(yīng)用之間的空白，解決深度強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用中遇到的一些嚴(yán)重問題。更具體地說，為了提高DRL的魯棒性，我們使用平均估計(jì)函數(shù)代替正態(tài)值估計(jì)函數(shù)。然后，我們?cè)O(shè)計(jì)了一個(gè)循環(huán)網(wǎng)絡(luò)和一個(gè)時(shí)間注意機(jī)制來提高算法的性能。第三，我們提出了一個(gè)分層框架，以提高其在長(zhǎng)期任務(wù)中的表現(xiàn)。利用仿真環(huán)境和實(shí)際環(huán)境對(duì)無人機(jī)自主導(dǎo)航方法進(jìn)行了評(píng)價(jià)。結(jié)果表明，基于DRL的導(dǎo)航方法在不同的環(huán)境下都具有良好的性能，優(yōu)于原始DrQ算法。

關(guān)鍵詞：無人機(jī)，自主導(dǎo)航，深度強(qiáng)化學(xué)習(xí)，分層強(qiáng)化學(xué)習(xí)

1 引言

近年來，無人機(jī)以其機(jī)動(dòng)性好、成本低等優(yōu)點(diǎn)，在民用和軍用領(lǐng)域得到了廣泛的應(yīng)用。其中，結(jié)合計(jì)算機(jī)視覺的無人機(jī)已先后應(yīng)用于視頻監(jiān)控[1]、智能交通[2]、[3]、災(zāi)后搜救[4]、情報(bào)采集[5]、[6]等場(chǎng)景。然而，上述場(chǎng)景對(duì)常規(guī)操作任務(wù)(如起飛、導(dǎo)航、目標(biāo)探測(cè)和環(huán)境交互，特別是避障)施加了一些限制。結(jié)合人工智能技術(shù)，利用無人機(jī)有限的傳感器收集到的信息，提高自主導(dǎo)航能力是非常必要的。

傳統(tǒng)技術(shù)曾在無人機(jī)自主導(dǎo)航中發(fā)揮重要作用，從非學(xué)習(xí)到基于學(xué)習(xí)。感知和回避是最普遍的非學(xué)習(xí)型技巧之一。這些技術(shù)可以避免碰撞，并通過將車輛轉(zhuǎn)向相反的方向來進(jìn)行導(dǎo)航。Odelga等[7]設(shè)計(jì)了集成慣性和光流距離測(cè)量的傳感器，其中使用卡爾曼濾波估計(jì)無人機(jī)線速度。為了避免碰撞，他們還使用RGB-D攝像機(jī)為操作員提供視覺輸入，以及構(gòu)建以機(jī)器人為中心的概率障礙模型的數(shù)據(jù)。對(duì)于無人機(jī)導(dǎo)航，Wang等[8]提出了一種非線性信號(hào)校正觀測(cè)器(NSCO)方法來估計(jì)無人機(jī)的位置和飛行速度。Tiemann等[9]為了使無人機(jī)能夠在沒有無線定位的地方獨(dú)立飛行，開發(fā)了一種將超寬帶定位與單目SLAM增強(qiáng)融合的技術(shù)。Kim等[10]提出了一種獨(dú)特的全源導(dǎo)航濾波器，稱為壓縮偽SLAM。它可以以一種計(jì)算效率高的方式順利地組合所有可用的信息。

為了降低避障算法對(duì)環(huán)境的依賴性，增強(qiáng)其適用性，許多研究者開始結(jié)合強(qiáng)化學(xué)習(xí)(RL)來處理自主導(dǎo)航問題。已經(jīng)做了一些工作，并取得了良好的效果。Imanberdiyev等[11]提出了一種基于模型的DRL算法TEXPLORE，用于無人機(jī)在無阻礙網(wǎng)格地圖中導(dǎo)航，作為一種增強(qiáng)的控制方法。Wang等[12] 開發(fā)了一種非專家輔助(LwH)的DRL方法。該方法采用具有稀疏獎(jiǎng)勵(lì)的馬爾可夫決策過程(MDP)來框架大規(guī)模復(fù)雜環(huán)境下自主無人機(jī)導(dǎo)航的挑戰(zhàn)。He等[13]提出了一種基于rl的方法來解決無人機(jī)自主導(dǎo)航問題。該方法與仿生單目視覺感知方法相結(jié)合。與基于SLAM和光流的導(dǎo)航方法相比，該方法的計(jì)算效率更高。Tong等[14]提出了一種分布式DRL架構(gòu)。該體系結(jié)構(gòu)將無人機(jī)導(dǎo)航問題劃分為兩個(gè)子任務(wù)。每個(gè)子任務(wù)通過基于長(zhǎng)短期記憶(LSTM)技術(shù)的DRL網(wǎng)絡(luò)與數(shù)據(jù)交互，并開發(fā)了一個(gè)損失函數(shù)來整合兩個(gè)子任務(wù)。為了在動(dòng)態(tài)和多障礙物環(huán)境下成功進(jìn)行導(dǎo)航，Zhang等[15]開發(fā)了一種基于drl的方法，并取得了良好的性能。此外，Xin等[16]提出了一種基于經(jīng)驗(yàn)回放的DRL方法來進(jìn)行自主導(dǎo)航。[3]提出了一種新的基于深度Q學(xué)習(xí)的空氣輔助車輛緩存方案，以響應(yīng)車輛用戶的駕駛安全相關(guān)請(qǐng)求。[17]為無人機(jī)設(shè)計(jì)了一種導(dǎo)航策略，以提高數(shù)據(jù)新鮮度和與物聯(lián)網(wǎng)(IoT)設(shè)備的連通性。[2]采用具有時(shí)間關(guān)注的遞歸神經(jīng)網(wǎng)絡(luò)來解決無人機(jī)的導(dǎo)航問題。在沒有碰撞的情況下覆蓋的距離方面，與之前的工作相比，它提供了更好的結(jié)果。為了實(shí)現(xiàn)無人機(jī)的自主性，Chansuparp等[18]采用了簡(jiǎn)化點(diǎn)云數(shù)據(jù)和增強(qiáng)后向獎(jiǎng)勵(lì)函數(shù)的TD3算法

分層強(qiáng)化學(xué)習(xí) (HRL)是一種針對(duì)大規(guī)模問題的重要計(jì)算方法。它可以進(jìn)行不同程度的時(shí)間抽象，大大降低了維數(shù)和訓(xùn)練難度。Rafati等[19]提出了一種高效而通用的子目標(biāo)發(fā)現(xiàn)方法。該方法基于無模型HRL框架。采用無監(jiān)督學(xué)習(xí)方法，可以自動(dòng)學(xué)習(xí)子目標(biāo)來解決大規(guī)模強(qiáng)化學(xué)習(xí)問題。Florensa等[20]使用隨機(jī)神經(jīng)網(wǎng)絡(luò)(SNNs)提供了一個(gè)廣泛的框架，SNNs是一種由計(jì)算圖中的隨機(jī)單元組成的神經(jīng)網(wǎng)絡(luò)。該框架可以為一系列具有稀疏獎(jiǎng)勵(lì)的任務(wù)訓(xùn)練策略。

對(duì)于真實(shí)環(huán)境中的強(qiáng)化學(xué)習(xí)，強(qiáng)化學(xué)習(xí)在真實(shí)環(huán)境中的應(yīng)用面臨的主要挑戰(zhàn)之一是由于過多的動(dòng)作狀態(tài)對(duì)導(dǎo)致的“維度詛咒”，這使得它難以收斂或?qū)W習(xí)有效的策略。例如，在無人機(jī)的自主避障中，直接輸入照片和傳感器信息會(huì)導(dǎo)致算法缺乏通用性和魯棒性，阻礙了算法在實(shí)踐中的應(yīng)用。

以往的無人機(jī)自主導(dǎo)航研究經(jīng)常遇到訓(xùn)練不穩(wěn)定、收斂速度慢、狀態(tài)空間過大等問題。為了解決這些問題，我們引入了關(guān)注和分層機(jī)制，并提出了一個(gè)無人機(jī)自主導(dǎo)航和避障的DRL框架。導(dǎo)航和避障問題被描述為MDP，并以一種新穎的在線DRL算法解決。本研究的重點(diǎn)是填補(bǔ)強(qiáng)化學(xué)習(xí)中虛擬環(huán)境與真實(shí)環(huán)境之間的空白。算法的設(shè)計(jì)思想和訓(xùn)練過程的隨機(jī)性保證了模型的輸入盡可能豐富。它可以覆蓋無人機(jī)在真實(shí)飛行過程中獲取的深度圖。它還可以進(jìn)行動(dòng)作和子策略的選擇，從而保證無人機(jī)在真實(shí)環(huán)境中的有效性。該算法基于DrQ[21]，包括均值估計(jì)函數(shù)、時(shí)間注意機(jī)制、分層框架和遞歸。本文的主要貢獻(xiàn)有:

1）我們提出了分層時(shí)間注意循環(huán)平均DrQ (HTARADrQ)。HTARADrQ可以學(xué)習(xí)在不同的時(shí)間抽象層次上操作。它可以大大降低狀態(tài)-動(dòng)作對(duì)的維數(shù)和訓(xùn)練難度。

2）提出的時(shí)間注意循環(huán)平均DrQ (TARADrQ)包括估計(jì)函數(shù)、時(shí)間注意機(jī)制和循環(huán)。在訓(xùn)練中表現(xiàn)出更強(qiáng)的穩(wěn)定性。它還展示了在處理較長(zhǎng)的輸入序列和探索時(shí)間依賴性方面的更強(qiáng)能力。

3）通過仿真和實(shí)際測(cè)試，驗(yàn)證了該算法的可行性和有效性。

本文的其余部分組織如下:第二節(jié)介紹了基于學(xué)習(xí)的無人機(jī)導(dǎo)航的相關(guān)工作。第三節(jié)介紹了我們提出的算法。第四節(jié)進(jìn)行了基準(zhǔn)測(cè)試和分析。第五節(jié)展示了我們提出的HTARADrQ算法在現(xiàn)實(shí)世界中的測(cè)試結(jié)果。最后，第六節(jié)是本文的結(jié)論。

2 相關(guān)工作

A. 基于學(xué)習(xí)的無人機(jī)導(dǎo)航

障礙物檢測(cè)和避障任務(wù)得益于自主導(dǎo)航。在文獻(xiàn)中，單目障礙物檢測(cè)方法要么基于使用傳統(tǒng)機(jī)器學(xué)習(xí)的場(chǎng)景檢測(cè)，要么基于使用深度學(xué)習(xí)的計(jì)算機(jī)視覺。Smolyansky等人[22]開發(fā)了一種微型飛行器(MAV)系統(tǒng)，可以在森林等非結(jié)構(gòu)化室外環(huán)境中自動(dòng)跟蹤路徑。該系統(tǒng)采用了一種名為TrailNet的深度神經(jīng)網(wǎng)絡(luò)(DNN)。它可以估計(jì)視覺方向和MAV相對(duì)于軌跡中心的橫向偏移量。Korris等[23]提供了一種基于CNN的自監(jiān)督室內(nèi)無人機(jī)導(dǎo)航技術(shù)。這種方法通過使用回歸CNN來解決實(shí)時(shí)避障問題。數(shù)據(jù)來自機(jī)載單目攝像機(jī)。Loquercio等[24]開發(fā)了一種基于CNN的名為DroNet的網(wǎng)絡(luò)，可以讓無人機(jī)安全地通過城市街道。DroNet是一個(gè)八層剩余網(wǎng)絡(luò)，有兩個(gè)輸出。其中一個(gè)輸出是操縱角度，允許無人機(jī)在避開障礙物的同時(shí)保持導(dǎo)航。另一個(gè)輸出是碰撞的可能性，使無人機(jī)能夠識(shí)別危險(xiǎn)情況并迅速做出反應(yīng)。Kaufmann等[25]研究了一些動(dòng)態(tài)情況下自主無人機(jī)競(jìng)速的問題。他們還提出了一種將控制系統(tǒng)和CNN與尖端路徑規(guī)劃相結(jié)合的方法。這種方法完全依賴于不需要任何顯式的環(huán)境映射。Lee等人[26]提供了一種新的方法，通過單個(gè)相機(jī)在種植森林中自主導(dǎo)航微型無人機(jī)。由于單目視覺缺乏深度信息，他們提出了一種名為Faster Region-based Convolutional Neural Network (Faster R-CNN)的深度學(xué)習(xí)模型來識(shí)別樹干。

最近，研究人員試圖利用深度學(xué)習(xí)算法為無人機(jī)尋找一種穩(wěn)定的控制方法。Hii等[27]提出了一種基于DRL的無人機(jī)投遞優(yōu)化系統(tǒng)。根據(jù)該研究，無人機(jī)交付是無人機(jī)在避開各種障礙物的情況下到達(dá)某個(gè)位置的路徑，它還采用了多種DRL算法來幫助無人機(jī)實(shí)現(xiàn)目標(biāo)。Shin等人[28]使用各種強(qiáng)化學(xué)習(xí)算法(如無監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí))對(duì)無人機(jī)進(jìn)行了實(shí)驗(yàn)研究。Hodge等人[29]開發(fā)了一種通用導(dǎo)航算法，通過無人機(jī)機(jī)載傳感器的數(shù)據(jù)引導(dǎo)無人機(jī)到達(dá)問題地點(diǎn)。為了構(gòu)建通用的自適應(yīng)導(dǎo)航系統(tǒng)，本研究采用了一種結(jié)合增量課程學(xué)習(xí)和LSTM的近端策略優(yōu)化DRL算法。Li等[30]提出了一種獨(dú)特的DRL框架來幫助復(fù)雜情況下的自主導(dǎo)航。該框架考慮了時(shí)間抽象和策略效率。它采用效率正則化的方法動(dòng)態(tài)地選擇動(dòng)作決策的頻率。Chikhaoui等[31]為基于DRL的無人機(jī)導(dǎo)航提供了自主框架。該框架以PPO算法為基礎(chǔ)，考慮了無人機(jī)的能量限制。

B. 分層強(qiáng)化學(xué)習(xí)

HRL是一種探索高級(jí)對(duì)象空間以解決稀疏獎(jiǎng)勵(lì)或長(zhǎng)期挑戰(zhàn)的方法。由于子目標(biāo)、備選方案、技能和宏觀動(dòng)作的概念是相互關(guān)聯(lián)的，因此，HRL技術(shù)的模塊化結(jié)構(gòu)總體上促進(jìn)了遷移和多任務(wù)學(xué)習(xí)。分層規(guī)劃是一個(gè)眾所周知的人工智能話題。Kulkarni等[32]開發(fā)了在不同時(shí)間尺度上運(yùn)行的分層DQN (h-DQN)。它可以分層組織目標(biāo)驅(qū)動(dòng)和內(nèi)在激勵(lì)DRL模塊。h-DQN結(jié)合了頂層和底層的行動(dòng)價(jià)值功能。前者獲得內(nèi)在子目標(biāo)或選擇的技巧，后者學(xué)習(xí)原始行動(dòng)的策略以實(shí)現(xiàn)每個(gè)子目標(biāo)的目標(biāo)。Vezhnevets等[33]開發(fā)了HRL的封建網(wǎng)絡(luò)(FuNs)。它包含一個(gè)管理模塊和一個(gè)工作模塊。管理模塊為長(zhǎng)周期設(shè)置抽象操作和子目標(biāo)，工作模塊在每個(gè)時(shí)間步選擇原子動(dòng)作來實(shí)現(xiàn)管理器的子目標(biāo)。Bacon等[34]發(fā)展了option-criticism體系結(jié)構(gòu)，建立了option的策略梯度定理。該方法通過從策略到option逐步學(xué)習(xí)option內(nèi)策略和終止條件。它還集成了option發(fā)現(xiàn)和option學(xué)習(xí)。Harutyunyan等人[35]通過option-criticism的棱鏡考察了短期option的靈活性和長(zhǎng)期option的效率之間存在的困境。與非策略學(xué)習(xí)算法類似，將行為與終止?fàn)顟B(tài)解耦，將option學(xué)習(xí)轉(zhuǎn)化為多步策略學(xué)習(xí)。

智能體有能力在沒有人類干預(yù)的情況下探索他們的環(huán)境并獲得重要的能力。Eysenbach等[36]開發(fā)了一種稱為DIAYN的算法。這是一種在沒有獎(jiǎng)勵(lì)功能的情況下獲得有價(jià)值技能的策略。DIAYN在決策過程中采用最小熵原則，對(duì)信息理論目標(biāo)進(jìn)行優(yōu)化以獲取知識(shí)。Li等人[37]開發(fā)了一種具有無偏隱依賴基線的新型分層策略梯度，稱為分層近端策略優(yōu)化(hierarchical Proximal policyOptimization, HiPPO)。HiPPO是一種同時(shí)有效訓(xùn)練所有層次的機(jī)制。他們還設(shè)計(jì)了一種訓(xùn)練時(shí)間抽象的方法，以增加獲得的能力對(duì)環(huán)境變化的適應(yīng)能力。為了促進(jìn)探索和分層技能獲取，Chuck等人[38]創(chuàng)建了一種被稱為假設(shè)提議和評(píng)估(HyPE)的方法，并在軟件中實(shí)現(xiàn)。HyPE的樣本效率來源于對(duì)現(xiàn)實(shí)世界和模擬環(huán)境中行為的隱含假設(shè)。Zhang等[39]介紹了一種稱為HIDIO的分層強(qiáng)化學(xué)習(xí)方法。該技術(shù)用于以自我監(jiān)督的方式學(xué)習(xí)任務(wù)不可知選項(xiàng)。這些選項(xiàng)可以同時(shí)用于解決稀疏獎(jiǎng)勵(lì)問題。在這項(xiàng)工作中，我們將分層框架與DRL算法相結(jié)合，以提高算法在長(zhǎng)期任務(wù)上的性能

C. DrQ算法

為了優(yōu)化最大熵策略和基于能量的策略，Haarnoja等[40]設(shè)計(jì)了一種軟Q學(xué)習(xí)算法。在軟Q學(xué)習(xí)中，將最優(yōu)策略指定為玻爾茲曼分布，并采用變分方法構(gòu)建采樣網(wǎng)絡(luò)。它可以從理想策略描述的分布中近似出樣本。為了提高遷移能力，可以通過軟Q學(xué)習(xí)來增強(qiáng)勘探，并輔助基于能量的隨機(jī)策略來實(shí)現(xiàn)組合性。第二年，Haarnoja等人[41]基于[40]中的最大能量強(qiáng)化學(xué)習(xí)框架，開發(fā)了一種名為soft actor-critic (SAC)的算法。行為人試圖最大化預(yù)測(cè)熵和獎(jiǎng)勵(lì)。SAC是一種連接確定性策略梯度和隨機(jī)策略優(yōu)化的非策略方法。利用截?cái)嗟碾pQ技術(shù)和目標(biāo)函數(shù)中的熵正則化，SAC訓(xùn)練策略優(yōu)化熵和預(yù)期回報(bào)之間的權(quán)衡，同時(shí)仍保持合理的熵水平。從本質(zhì)上講，熵是衡量策略隨機(jī)化程度的指標(biāo)。這個(gè)過程類似于開發(fā)和探索之間的權(quán)衡。此外，它有可能防止學(xué)習(xí)策略收斂到次優(yōu)的局部最優(yōu)。DrQ[21]在圖片輸入上使用數(shù)據(jù)增強(qiáng)來提供更可靠的輸出。有兩種方法來正則化DrQ中的值函數(shù)。它可以提供一種自然的方式來使用MDP結(jié)構(gòu)，通過一種直接的無模型DRL學(xué)習(xí)方法。在我們的工作中，我們提出了基于DrQ的無人機(jī)自主導(dǎo)航方法。仿真結(jié)果表明，與其他最先進(jìn)的方法相比，該方法有明顯的改進(jìn)。

3 無人機(jī)自主導(dǎo)航

在本節(jié)中，提出了一種基于DRL的響應(yīng)式框架，用于無人機(jī)在未知環(huán)境下的自主導(dǎo)航。該框架不依賴SLAM，而是利用當(dāng)前可用的傳感器數(shù)據(jù)對(duì)無人機(jī)進(jìn)行導(dǎo)航。此外，我們的框架不需要大量的機(jī)載優(yōu)化，這對(duì)于計(jì)算資源有限的小型無人機(jī)來說是有利的。系統(tǒng)框架如圖1所示。

圖1 基于DRL的無人機(jī)自主導(dǎo)航系統(tǒng)

A. 問題表述

無人機(jī)在陌生環(huán)境下的自主導(dǎo)航將面臨順序決策的挑戰(zhàn)。根據(jù)合適的獎(jiǎng)勵(lì)函數(shù)的定義，這個(gè)問題可以描述為一個(gè)MDP。其中表示下一狀態(tài)，當(dāng)前狀態(tài)為。本文將無人機(jī)自主導(dǎo)航的挑戰(zhàn)用MDP來表述。MDP可以用元組<>來定義。這個(gè)元組由一組狀態(tài)、一組動(dòng)作、一個(gè)獎(jiǎng)勵(lì)函數(shù)、一個(gè)轉(zhuǎn)移函數(shù)和一個(gè)折扣因子組成。有許多方法可以用來求解具有有限狀態(tài)和動(dòng)作空間的MDP，例如動(dòng)態(tài)規(guī)劃。另一方面，轉(zhuǎn)移概率和獎(jiǎng)勵(lì)函數(shù)在大多數(shù)MDP中是無法獲得的。RL算法的目的是識(shí)別一個(gè)將狀態(tài)映射到動(dòng)作的最佳策略。假設(shè)無人機(jī)從地心坐標(biāo)系的三維點(diǎn)出發(fā)，飛向的目標(biāo)點(diǎn)。時(shí)刻的狀態(tài)由一些原始深度圖片以及無人機(jī)的各種狀態(tài)特征組成，其表達(dá)式為:，。無人機(jī)狀態(tài)特征可以定義為:，，，其中表示無人機(jī)當(dāng)前位置與目標(biāo)位置之間的歐氏距離，表示無人機(jī)的偏航角，表示無人機(jī)的前向夾角和目標(biāo)位置。無人機(jī)的偏航角速度由策略網(wǎng)絡(luò)產(chǎn)生的動(dòng)作表示。

B. HTARADrQ

原有的DrQ方法存在訓(xùn)練過程不穩(wěn)定、對(duì)時(shí)間序列數(shù)據(jù)處理能力不足、對(duì)長(zhǎng)期任務(wù)性能不佳等問題。這些問題導(dǎo)致DrQ在無人機(jī)自主導(dǎo)航任務(wù)中表現(xiàn)不佳。為了提高算法在無人機(jī)自主導(dǎo)航任務(wù)中的性能，我們提出了分層時(shí)間注意力遞歸平均DrQ (HTARADrQ)。HTARADrQ將DrQ與平均估計(jì)函數(shù)、時(shí)間注意力和分層框架相結(jié)合。平均估計(jì)函數(shù)使訓(xùn)練過程更加穩(wěn)定。采用時(shí)間注意機(jī)制的算法可以更好地處理時(shí)間序列數(shù)據(jù)。分層框架可以將長(zhǎng)期任務(wù)劃分為子任務(wù)層次結(jié)構(gòu)。高級(jí)策略可以識(shí)別出最佳子任務(wù)，并通過學(xué)習(xí)將其作為高級(jí)行動(dòng)。子任務(wù)本身可能更容易學(xué)習(xí)，從而進(jìn)一步提高算法的性能。改進(jìn)的細(xì)節(jié)如下所述。

1. 平均估計(jì)函數(shù): DrQ采用軟策略迭代優(yōu)化agent與環(huán)境交互獲得的獎(jiǎng)勵(lì)。軟政策迭代的目的是在政策審查和政策改進(jìn)之間交替進(jìn)行，但它只能在最大熵范式中發(fā)揮作用。DrQ代理的網(wǎng)絡(luò)由三部分組成:演員網(wǎng)絡(luò)、評(píng)論家網(wǎng)絡(luò)和目標(biāo)評(píng)論家網(wǎng)絡(luò)。行動(dòng)者網(wǎng)絡(luò)可以根據(jù)代理人的當(dāng)前狀態(tài)預(yù)測(cè)代理人的行為。狀態(tài)-作用對(duì)的值由估計(jì)。與相同，可用來估計(jì)狀態(tài)-作用對(duì)的目標(biāo)值。軟Q學(xué)習(xí)和Q學(xué)習(xí)一樣，有Q值高估的問題。在我們的工作中，我們通過平均估計(jì)策略來緩解軟Q學(xué)習(xí)的高估。這樣可以使訓(xùn)練過程更加穩(wěn)定，提高性能。平均估計(jì)函數(shù)如下式所示:

其中為損失函數(shù)，為期望值算子，為存儲(chǔ)過往經(jīng)驗(yàn)的重播緩沖區(qū)，為無人機(jī)在時(shí)刻的狀態(tài)，為無人機(jī)在t時(shí)刻的動(dòng)作，為Q值函數(shù)，為折現(xiàn)因子，為獎(jiǎng)勵(lì)函數(shù)，為值函數(shù)，為溫度因子，為先前學(xué)習(xí)到的動(dòng)作狀態(tài)估計(jì)的個(gè)數(shù)。此外，如圖2所示，我們將CNN模塊的最后一個(gè)全連接層替換為global average pooling(GAP)。與全連接層相比，優(yōu)勢(shì)在于GAP沒有需要優(yōu)化的參數(shù)，可以避免這一層的過擬合。此外，GAP對(duì)空間信息進(jìn)行了總結(jié)，對(duì)輸入的空間變換具有更強(qiáng)的魯棒性。

圖2 TARADrQ的Actor架構(gòu)

2. 時(shí)間注意:在無人機(jī)的自主導(dǎo)航任務(wù)中，由于傳感器的部分可觀測(cè)性導(dǎo)致的感知信息不完整和附帶噪聲非常普遍。因此，無人機(jī)無法收集足夠的環(huán)境信息來發(fā)展適當(dāng)?shù)膶?dǎo)航行為。為了處理這個(gè)問題，引入了遞歸的概念，以便更好地評(píng)估環(huán)境的潛在狀態(tài)。我們?cè)贒rQ中提出了一種遞歸機(jī)制來改善無人機(jī)的自主導(dǎo)航，并在CNN模塊的輸出中增加了一個(gè)額外的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。RNN模塊分析網(wǎng)絡(luò)中包含的時(shí)間信息，而不是單一的歷史數(shù)據(jù)集作為輸入。此外，由于RNN提供的跨時(shí)間的連通性，可以集成和研究更長(zhǎng)的歷史數(shù)據(jù)序列，使生成的策略更可信。更具體地說，我們使用LSTM單元作為RNN架構(gòu)的基礎(chǔ)，并將其與DrQ算法相結(jié)合，該算法被稱為平均DrQ (ADrQ)。

此外，為了識(shí)別先驗(yàn)狀態(tài)下最重要的幀，我們提出了時(shí)間注意循環(huán)平均DrQ (TARADrQ)。TARADrQ可以在LSTM細(xì)胞層的輸出上納入時(shí)間注意力，如圖2所示。時(shí)間注意機(jī)制為L(zhǎng)STM單元的輸出提供標(biāo)量權(quán)重。這些權(quán)重是在不同的時(shí)間步長(zhǎng)學(xué)習(xí)的。如公式4所示，Wi為每個(gè)LSTM單元輸出的權(quán)重，為L(zhǎng)STM單元隱藏向量，和為可學(xué)習(xí)參數(shù)，激活函數(shù)為ReLU，然后是softmax函數(shù)。根據(jù)這個(gè)概念，每個(gè)習(xí)得的權(quán)重依賴于前一個(gè)時(shí)間步長(zhǎng)的信息和當(dāng)前狀態(tài)信息，如公式4所示。在下一步中，我們計(jì)算組合上下文向量，如圖5所示，上下文向量是LSTM單元輸出在個(gè)時(shí)間步長(zhǎng)的加權(quán)和。在計(jì)算動(dòng)作之前，與無人機(jī)狀態(tài)數(shù)據(jù)連接，并通過actor網(wǎng)絡(luò)的三個(gè)完全連接層發(fā)送。學(xué)習(xí)到的權(quán)重是LSTM輸出的相關(guān)性。因此，優(yōu)化過程的目標(biāo)是最大化導(dǎo)航成功率的可能性。為了學(xué)習(xí)適當(dāng)?shù)男袨?，?yōu)化過程可以學(xué)習(xí)選擇哪些狀態(tài)相對(duì)更重要。這是因?yàn)楫?dāng)注意力計(jì)算動(dòng)作輸出時(shí)，時(shí)間注意力可以顯式地考慮來自前T幀的LSTM輸出特征。與原來的DrQ和ADrQ相比，TARADrQ在處理時(shí)間序列數(shù)據(jù)和時(shí)間關(guān)系的能力上有了很多改進(jìn)。

3. 分層框架: 自主導(dǎo)航任務(wù)是一項(xiàng)長(zhǎng)期任務(wù)，HRL可以將一項(xiàng)困難的任務(wù)分解成更容易的子任務(wù)來執(zhí)行。它使用了通過強(qiáng)化學(xué)習(xí)學(xué)到的規(guī)則層次結(jié)構(gòu)。在分層結(jié)構(gòu)中，最高級(jí)別的策略通常選擇主任務(wù)的子任務(wù)作為當(dāng)前操作。該策略被訓(xùn)練成按順序完成子任務(wù)，然后產(chǎn)生激勵(lì)獎(jiǎng)勵(lì)并發(fā)送給該策略。通過與該子任務(wù)相關(guān)的內(nèi)部獎(jiǎng)勵(lì)，較低級(jí)別的策略可以學(xué)習(xí)完成同一級(jí)別的子任務(wù)。最低級(jí)別的策略響應(yīng)于識(shí)別最基本的活動(dòng)，這些活動(dòng)被稱為原始操作。現(xiàn)在我們提出HTARADrQ，如圖3所示，它由一個(gè)主策略ψ和M個(gè)子策略組成。在每個(gè)時(shí)間步，主策略將根據(jù)當(dāng)前狀態(tài)st預(yù)測(cè)一個(gè)主操作，如公式6所示。子策略的索引是從0到。然后，算法根據(jù)主動(dòng)作選擇子策略。所選擇的子策略將根據(jù)當(dāng)前狀態(tài)分N步預(yù)測(cè)無人機(jī)的控制動(dòng)作。對(duì)于當(dāng)前狀態(tài)，agent可以學(xué)習(xí)從個(gè)子策略中選擇一個(gè)，并應(yīng)用該子策略來預(yù)測(cè)動(dòng)作。

圖3 分層結(jié)構(gòu)框架

C. 獎(jiǎng)勵(lì)函數(shù)

公式7和公式8分別是子策略和主策略的獎(jiǎng)勵(lì)函數(shù)。是無人機(jī)前一位置與目標(biāo)位置之間的歐氏距離。是當(dāng)前位置與目標(biāo)位置之間的歐氏距離。如果無人機(jī)崩潰或超時(shí)，子策略將獲得負(fù)獎(jiǎng)勵(lì)-1，以降低模型在該狀態(tài)下選擇操作的概率。當(dāng)無人機(jī)到達(dá)目標(biāo)點(diǎn)時(shí)，子策略將獲得1的正獎(jiǎng)勵(lì)，以增加模型在該狀態(tài)下選擇動(dòng)作的概率。在其他情況下，無人機(jī)將獲得獎(jiǎng)勵(lì)。當(dāng)無人機(jī)接近終點(diǎn)時(shí)，獎(jiǎng)勵(lì)為正。否則，獎(jiǎng)勵(lì)是消極的。式8是總體政策的獎(jiǎng)勵(lì)函數(shù)。是總體政策的回報(bào)。是子策略在第i步的獎(jiǎng)勵(lì)。

D. 分層時(shí)間注意遞歸平均DrQ

在本節(jié)中，我們將描述HTARADrQ算法的訓(xùn)練過程。首先，我們需要初始化所需的參數(shù)，包括主策略，子策略，主緩沖區(qū)和子緩沖區(qū)。主策略網(wǎng)絡(luò)由網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)組成。子策略網(wǎng)絡(luò)由行動(dòng)者網(wǎng)絡(luò)、批評(píng)家網(wǎng)絡(luò)和目標(biāo)批評(píng)家網(wǎng)絡(luò)組成。然后，在執(zhí)行任務(wù)之前將重置環(huán)境。在任務(wù)期間，如果當(dāng)前步驟少于種子步驟，主策略和子策略將隨機(jī)選擇一個(gè)操作。否則，它們將根據(jù)當(dāng)前狀態(tài)預(yù)測(cè)動(dòng)作。子策略由主動(dòng)作選擇，分步執(zhí)行。在每個(gè)子步驟中，代理將執(zhí)行子操作并更新子策略。當(dāng)任務(wù)完成或終止時(shí)，主策略將被更新。完整的算法組織為算法1。

4 仿真結(jié)果及討論

在本部分中，我們?cè)诜抡姝h(huán)境中測(cè)試了HTARADrQ算法，以評(píng)估其自主導(dǎo)航和避障能力。根據(jù)環(huán)境的實(shí)際狀態(tài)分配大量參數(shù)，訓(xùn)練agent在100,000個(gè)環(huán)境中學(xué)習(xí)策略步驟。為了提供一個(gè)比較點(diǎn)，SAC[41]、DrQ[21]、ADrQ和TARADrQ算法都是針對(duì)無人機(jī)自主導(dǎo)航任務(wù)進(jìn)行訓(xùn)練的。在無人機(jī)仿真環(huán)境Airsim中對(duì)該方法進(jìn)行了驗(yàn)證。

A. 訓(xùn)練環(huán)境與設(shè)置

為了驗(yàn)證HTARADrQ在無人機(jī)導(dǎo)航任務(wù)中的性能，我們首先進(jìn)行了仿真實(shí)驗(yàn)。我們構(gòu)建了三個(gè)環(huán)境，如圖4所示。環(huán)境A是一個(gè)精心設(shè)計(jì)的場(chǎng)景，帶有難度和一般障礙。環(huán)境B是室內(nèi)走廊環(huán)境，白色的建筑和周圍的墻壁是障礙物。環(huán)境C是核電站的模擬環(huán)境，被認(rèn)為是下一個(gè)現(xiàn)實(shí)世界的應(yīng)用。將歸一化范圍[0,1]應(yīng)用于所有感官輸入。主策略網(wǎng)絡(luò)和子策略網(wǎng)絡(luò)的權(quán)值初始化均為均勻分布。

圖4 實(shí)驗(yàn)環(huán)境

在訓(xùn)練時(shí)，無人機(jī)的飛行速度保持在1.0 m/s。為了增加隨機(jī)性，在訓(xùn)練過程中隨機(jī)初始化每集的起始點(diǎn)和結(jié)束點(diǎn)。該算法的輸入包含無人機(jī)的深度圖像和狀態(tài)。深度圖像大小為144×256。所有輸入數(shù)據(jù)歸一化為[0,1]。算法的輸出為[- 60,60]范圍內(nèi)的偏航角速度。在訓(xùn)練過程中，前1000步的動(dòng)作選擇由隨機(jī)化算法進(jìn)行。HTARADrQ的每個(gè)子策略模型將在與環(huán)境交互后進(jìn)行訓(xùn)練。每一集結(jié)束后，總體政策模型將被訓(xùn)練30次。對(duì)于每5000次交互，訓(xùn)練模型將用40集進(jìn)行測(cè)試。每個(gè)測(cè)試集的起始點(diǎn)和結(jié)束點(diǎn)也是隨機(jī)初始化的。當(dāng)測(cè)試過程完成后，培訓(xùn)過程將繼續(xù)。當(dāng)交互次數(shù)達(dá)到10萬次時(shí)，訓(xùn)練階段結(jié)束。表1總結(jié)了所有的hyper-parameters。將參數(shù)設(shè)置如表1所示，可以穩(wěn)定模型訓(xùn)練，加快收斂速度。

表1 參數(shù)設(shè)置

B. 培訓(xùn)結(jié)果及分析

首先，我們?cè)u(píng)估了最終的HTARADrQ模型在這三種環(huán)境下的性能，并將其與SAC、DrQ、ADrQ和TARADrQ進(jìn)行了比較。它們的參數(shù)設(shè)置和訓(xùn)練過程是相同的。圖5描述了他們?cè)谟?xùn)練期間的平均劇集回報(bào)。使用三個(gè)隨機(jī)種子來訓(xùn)練五種算法中的每一種。在每5000步中，每個(gè)算法將執(zhí)行一次評(píng)估rollout。實(shí)線代表三種種子的平均值，陰影區(qū)代表三種種子的變異。實(shí)線曲線顯示HTARADrQ在無人機(jī)自主導(dǎo)航任務(wù)上優(yōu)于其他無人機(jī)，包括學(xué)習(xí)速度和整體性能。陰影區(qū)域表示HTARADrQ在訓(xùn)練過程中比其他的更穩(wěn)定。根據(jù)HTRADrQ，平均估計(jì)函數(shù)降低了錯(cuò)誤Q值的可能性和參數(shù)傳遞過程的方差。通過用GAP代替全連接層來減小模型的參數(shù)。循環(huán)機(jī)制使DrQ能夠處理時(shí)間序列數(shù)據(jù)并從中提取時(shí)間序列信息。時(shí)間注意機(jī)制可以決定每個(gè)輸入幀的重要性。它會(huì)導(dǎo)致更準(zhǔn)確的預(yù)測(cè)。分層框架將長(zhǎng)期學(xué)習(xí)任務(wù)分解為多個(gè)子問題或子任務(wù)層次。高級(jí)策略通過選擇最佳子任務(wù)作為高級(jí)操作來執(zhí)行任務(wù)。在子任務(wù)的序列上，任務(wù)分解可以有效地縮短原任務(wù)的視界。學(xué)習(xí)子任務(wù)更容易。因此，與其他算法相比，HTARADrQ在訓(xùn)練過程中更加穩(wěn)定，收斂速度更快。

圖5 訓(xùn)練期間的平均情節(jié)獎(jiǎng)勵(lì)曲線。(a)為各算法在環(huán)境a中的訓(xùn)練結(jié)果;(b)為各算法在環(huán)境b中的訓(xùn)練結(jié)果;(c)為各算法在環(huán)境c中的訓(xùn)練結(jié)果

其次，我們比較了HTARADrQ與SAC、DrQ、ADrQ和TARADrQ的避碰性能。結(jié)果見表2。我們發(fā)現(xiàn)，如果加入平均估計(jì)函數(shù)、時(shí)間關(guān)注和層次框架，平均碰撞步長(zhǎng)會(huì)增加。換句話說，agent的避障能力得到了提高。采用平均估計(jì)函數(shù)和全局平均池化操作使算法的訓(xùn)練過程更加穩(wěn)定。這可以在一定程度上提高智能體的避障能力。由于具有周期性和暫時(shí)性的注意機(jī)制，智能體能夠從其周圍環(huán)境中處理和提取更豐富、更重要的信息。因此，智能體可以避開障礙物，提高預(yù)測(cè)的準(zhǔn)確性。分層框架有利于子任務(wù)的學(xué)習(xí)。它允許智能體獲得更有效的避障策略。

表2 碰撞情況下每個(gè)模型的平均飛行步數(shù)

為了檢驗(yàn)SAC、DrQ、ADrQ、TARADrQ和HTARADrQ之間的性能差異，我們?cè)诿總€(gè)環(huán)境中測(cè)試了這些模型。在每個(gè)環(huán)境中，我們測(cè)試了100輪，其中每個(gè)測(cè)試的起點(diǎn)和終點(diǎn)是隨機(jī)生成的。圖6顯示了導(dǎo)航任務(wù)的平均成功率、平均碰撞率和平均超時(shí)率。圖中的藍(lán)條表示平均成功率。圖中的橙色條表示平均碰撞率。圖中的綠色條表示平均超時(shí)率?？梢钥闯?，自主導(dǎo)航模型結(jié)合注意機(jī)制和層次機(jī)制可以學(xué)習(xí)到更好的導(dǎo)航策略。因此，與SAC、DrQ、ADrQ和TARADrQ相比，HTARADrQ可以更好地學(xué)習(xí)自主導(dǎo)航策略，并且具有更高的成功率和更低的碰撞率。

圖6 測(cè)試結(jié)果。(a)為各算法在環(huán)境a中的測(cè)試結(jié)果。(b)為各算法在環(huán)境b中的測(cè)試結(jié)果。(c)為各算法在環(huán)境c下的測(cè)試結(jié)果

C. 注意機(jī)制

為了驗(yàn)證時(shí)間注意機(jī)制的有效性，本節(jié)使用訓(xùn)練好的模型進(jìn)行模擬環(huán)境B中的各種實(shí)驗(yàn)，如直飛實(shí)驗(yàn)、轉(zhuǎn)彎實(shí)驗(yàn)、避障實(shí)驗(yàn)等。圖7為該導(dǎo)航模型在直飛實(shí)驗(yàn)中的預(yù)測(cè)結(jié)果。第一行是環(huán)境的俯視圖，綠點(diǎn)表示無人機(jī)的位置。第二行是環(huán)境的RGB圖像。第三行是環(huán)境的深度圖像。第四行是每幀深度圖像對(duì)應(yīng)的注意權(quán)值。從圖中可以看出，從第一幀到第四幀，注意力權(quán)重不斷增加。注意模塊認(rèn)為第四幀的深度圖像比其他三幀更重要，因此給予第四幀最大的權(quán)重。然后，基于四幀深度圖像的注意權(quán)值，導(dǎo)航模型的預(yù)測(cè)值為0.15?/s。在這個(gè)偏航角速度下，無人機(jī)可以向前飛行。上述實(shí)驗(yàn)結(jié)果表明，該導(dǎo)航模型學(xué)習(xí)到了較好的直航策略。

圖7 導(dǎo)航模型在直飛試驗(yàn)中的預(yù)測(cè)結(jié)果

圖8為轉(zhuǎn)彎試驗(yàn)中導(dǎo)航模型的預(yù)測(cè)結(jié)果。從圖中可以看出，第一幀和第四幀的注意權(quán)重大于第二幀和第三幀。注意模塊認(rèn)為第四框架提供的信息是最重要的，但是第一框架提供的信息也應(yīng)該被考慮。在第一張深度圖像中，幾乎一半的區(qū)域是黑色的。它表明無人機(jī)此時(shí)非常接近左墻。因此，注意力模塊給予第一幀更大的權(quán)重。然后，基于四幀深度圖像的注意權(quán)值，導(dǎo)航模型的預(yù)測(cè)值為-37.23?/s。實(shí)驗(yàn)結(jié)果表明，該導(dǎo)航模型學(xué)習(xí)了較好的轉(zhuǎn)向策略。

圖8 導(dǎo)航模型在轉(zhuǎn)彎試驗(yàn)中的預(yù)測(cè)結(jié)果

圖9為避障實(shí)驗(yàn)中導(dǎo)航模型的預(yù)測(cè)結(jié)果。從圖中可以看出，從第一幀到第四幀的注意權(quán)重差異不是很大。這意味著注意模塊認(rèn)為這四個(gè)框架提供的信息都是重要的。然后，基于四幀深度圖像的關(guān)注權(quán)重，導(dǎo)航模型的預(yù)測(cè)值為59.68?/s。在這個(gè)偏航角速度下，無人機(jī)將向右轉(zhuǎn)以避開左邊的墻壁，以防止碰撞事件。實(shí)驗(yàn)結(jié)果表明，該導(dǎo)航模型學(xué)習(xí)了較好的避障策略。

圖9 避障實(shí)驗(yàn)中導(dǎo)航模型的預(yù)測(cè)結(jié)果

D. 消融實(shí)驗(yàn)

為了說明分級(jí)機(jī)制對(duì)性能的影響，以及分級(jí)機(jī)制與其他改進(jìn)方法相結(jié)合的效果，我們?cè)诒竟?jié)進(jìn)行了消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果見表3。從表中可以看出，每個(gè)模型的平均成功率加入分層機(jī)制后，環(huán)境改善了2% ~ 4%。與只加入層次機(jī)制的算法相比，加入層次機(jī)制等方法后，模型的平均成功率提高了2% ~ 8%。當(dāng)算法中加入四種改進(jìn)方法時(shí)，模型的平均成功率最高?？梢姡謱訖C(jī)制可以在一定程度上提高性能。同時(shí)，層次機(jī)制可以與循環(huán)機(jī)制、注意機(jī)制、平均值函數(shù)相結(jié)合，相互促進(jìn)，進(jìn)一步提高模型性能。

表3 各模型在各環(huán)境下導(dǎo)航任務(wù)的平均成功率結(jié)果

5 真實(shí)世界飛行測(cè)試

在本節(jié)中，進(jìn)行了一些真實(shí)世界的測(cè)試，以驗(yàn)證我們訓(xùn)練的無人機(jī)自主導(dǎo)航模型的性能，以及一般的實(shí)際結(jié)果。

A. 飛行平臺(tái)

無人機(jī)飛行平臺(tái)基于大疆F550搭建，如圖10所示，配備CUAV V5自動(dòng)駕駛儀。我們?cè)O(shè)計(jì)并為Manifold 2C車載計(jì)算機(jī)配備了深度傳感器，并集成了SLAM算法進(jìn)行定位和導(dǎo)航。形成了一個(gè)組裝方便、結(jié)構(gòu)清晰、具有自主飛行能力、可根據(jù)不同實(shí)驗(yàn)任務(wù)進(jìn)行異化的多功能實(shí)驗(yàn)平臺(tái)。開發(fā)了基于QGroundControl的地面站平臺(tái)，實(shí)現(xiàn)了航路規(guī)劃和無人機(jī)狀態(tài)實(shí)時(shí)監(jiān)控。

圖10 飛行平臺(tái)。(a)為我司自組裝無人機(jī)。(b)為導(dǎo)航系統(tǒng)框架。(c)為地面站平臺(tái)。(d)為SLAM系統(tǒng)的測(cè)試結(jié)果

B. 在真實(shí)世界中的評(píng)估

首先，在辦公環(huán)境中進(jìn)行了模擬實(shí)驗(yàn)。辦公環(huán)境平面圖如圖11所示，其中陰影區(qū)域代表障礙物，粗線代表周圍的墻壁。本實(shí)驗(yàn)的起始和結(jié)束位置也顯示在圖中。圖11中有數(shù)字標(biāo)記的位置與圖12中的位置相對(duì)應(yīng)。在飛行過程中持續(xù)采集環(huán)境深度圖像和無人機(jī)狀態(tài)信息。將采集到的環(huán)境深度圖像和無人機(jī)狀態(tài)信息輸入到導(dǎo)航模型中，由導(dǎo)航模型預(yù)測(cè)無人機(jī)的偏航角速度。

圖11 測(cè)試環(huán)境的俯視圖

圖12 導(dǎo)航模型預(yù)測(cè)結(jié)果

實(shí)驗(yàn)中使用的模型是經(jīng)過訓(xùn)練的HTARADrQ模型。模型預(yù)測(cè)結(jié)果如圖12所示。第一列是無人機(jī)的位置號(hào)，第二列是原始環(huán)境圖像，第三列是環(huán)境的深度圖像，第四列是導(dǎo)航模型的預(yù)測(cè)偏航率。負(fù)偏航角速度表示向左偏航，而正的意思是向右偏航。從圖中可以看出，第一到第三個(gè)位置的預(yù)測(cè)偏航率在[?10,10]之間，因?yàn)闊o人機(jī)在這些位置不需要進(jìn)行大的偏轉(zhuǎn)角，只需要向前移動(dòng)。在第四個(gè)和第五個(gè)位置，可以看到無人機(jī)在這些位置應(yīng)該向左轉(zhuǎn)彎，并且偏航角速度的預(yù)測(cè)值都是大負(fù)值。第六次偏航率預(yù)測(cè)介于[?10,10]之間，因?yàn)樵谶@個(gè)位置，無人機(jī)應(yīng)該向前飛行。在第7和第8個(gè)位置，無人機(jī)應(yīng)該在這些位置向左偏轉(zhuǎn)。此時(shí)預(yù)測(cè)值為較大的負(fù)值，使無人機(jī)向左轉(zhuǎn)，避免碰撞。在第9個(gè)位置，可以看到左邊有障礙物，此時(shí)預(yù)測(cè)的偏航率為正，這樣無人機(jī)可以稍微偏轉(zhuǎn)到右邊，避開障礙物。在最后一個(gè)位置，可以看到結(jié)束位置在前方不遠(yuǎn)，無人機(jī)只需要向前飛行。此時(shí)，偏航角速度的預(yù)測(cè)值在[?10,10]之間

6 結(jié)論與未來工作

本文研究了無人機(jī)在陌生環(huán)境下的自主導(dǎo)航問題，并采用DRL方法解決了這一問題。我們提出了HTARADrQ算法，該算法通過平均估計(jì)函數(shù)、循環(huán)機(jī)制、時(shí)間關(guān)注和分層框架，使無人機(jī)能夠更好地在連續(xù)動(dòng)作空間中進(jìn)行動(dòng)作。通過實(shí)時(shí)仿真驗(yàn)證了該方法的有效性，其中無人機(jī)試圖在不與任何障礙物發(fā)生碰撞的情況下實(shí)現(xiàn)目標(biāo)。我們的測(cè)試結(jié)果證明了本文所描述的技術(shù)可用于無人機(jī)自主導(dǎo)航，并且優(yōu)于原有的DrQ算法。對(duì)于今后的工作，可以構(gòu)建更加逼真的仿真環(huán)境，縮小仿真環(huán)境與真實(shí)環(huán)境之間的差距。在計(jì)算獎(jiǎng)勵(lì)時(shí)，也可以考慮飛行過程中的能量消耗?？紤]飛行過程中的速度和角速度，可以進(jìn)一步提高算法在復(fù)雜環(huán)境和路徑下的導(dǎo)航性能。

參考文獻(xiàn)

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：省時(shí)省力的雙脈沖自動(dòng)測(cè)試方案哪里找？
上一篇：揭秘電機(jī)噪音控制與性能優(yōu)化的20大策略

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

一種基于注意力機(jī)制的無人機(jī)自主導(dǎo)航分層強(qiáng)化學(xué)習(xí)算法

微信公眾號(hào)

參考文獻(xiàn)

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車前照燈配光性能的工