日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

ChatGPT 框架帶給自動(dòng)駕駛規(guī)劃任務(wù)的啟發(fā)

2023-03-30 19:52:51·  來(lái)源:賽目科技  
 
軌跡規(guī)劃是自動(dòng)駕駛算法中的一個(gè)重要任務(wù),其目的是根據(jù)車輛當(dāng)前的狀態(tài)和環(huán)境信息,確定車輛的行駛路線傳遞到控制模塊以實(shí)現(xiàn)自動(dòng)駕駛。而這個(gè)問(wèn)題是非常復(fù)雜的,其難點(diǎn)包括了以下幾個(gè)方面1. 引言01不確定性自動(dòng)駕駛汽車需要在實(shí)時(shí)變化的交通環(huán)境中做出決策,

軌跡規(guī)劃是自動(dòng)駕駛算法中的一個(gè)重要任務(wù),其目的是根據(jù)車輛當(dāng)前的狀態(tài)和環(huán)境信息,確定車輛的行駛路線傳遞到控制模塊以實(shí)現(xiàn)自動(dòng)駕駛。而這個(gè)問(wèn)題是非常復(fù)雜的,其難點(diǎn)包括了以下幾個(gè)方面


1. 引言

01 不確定性

自動(dòng)駕駛汽車需要在實(shí)時(shí)變化的交通環(huán)境中做出決策,但這些環(huán)境是充滿不確定性的。例如,突然出現(xiàn)的障礙物、交通擁堵等情況都可能影響決策的正確性。而車輛駕駛事件具有“長(zhǎng)尾效應(yīng)”和“小概率事件”特點(diǎn),為算法帶來(lái)巨大挑戰(zhàn)。

02 多樣性

不同的駕駛場(chǎng)景、路況和駕駛習(xí)慣會(huì)導(dǎo)致決策的多樣性。例如,在遇到交通堵塞時(shí),有些駕駛員會(huì)選擇等待,而有些則會(huì)選擇繞路。因此,如何處理不同的決策情況成為規(guī)劃問(wèn)題的難點(diǎn)之一。

03 安全性

自動(dòng)駕駛汽車需要保證安全性,如車輛控制系統(tǒng)的故障、路況不良、交通事故等安全問(wèn)題都可能影響到運(yùn)動(dòng)規(guī)劃的準(zhǔn)確性和安全性。因此,開發(fā)算法需要綜合考慮這些因素,并采取相應(yīng)的安全措施和風(fēng)險(xiǎn)管理措施,以確保車輛的安全和可靠性。

04 實(shí)時(shí)性

自動(dòng)駕駛汽車需要在實(shí)時(shí)變化的交通環(huán)境中做出決策,這需要算法能夠快速地響應(yīng),并在短時(shí)間內(nèi)做出正確的決策。

2022 年 11 月 30 日發(fā)布的 ChatGPT 的框架思路為我們的進(jìn)階開發(fā)帶來(lái)了嶄新的思路。Chat-GPT(Chat Generative Pre-trained Transformer) 基于 2017 年提出的 Transformer 結(jié)構(gòu)與大模型的預(yù)訓(xùn)練過(guò)程,通過(guò)人類反饋強(qiáng)化學(xué)習(xí) (RLHF, Reinforcement Learning from Human Feedback)輸出更符合人類偏好的對(duì)話。它在輸出高質(zhì)量的文本內(nèi)容之外,具有很好的上下文語(yǔ)義處理能力能夠根據(jù)連續(xù)對(duì)話內(nèi)容進(jìn)行有效優(yōu)化。

圖片

圖1  ChatGPT的發(fā)展歷程


本文的其余內(nèi)容組織如下:

  • 第2章梳理了 ChatGPT 的人類反饋強(qiáng)化學(xué)習(xí)框架流程和 GPT 各代模型的主要特點(diǎn)。

  • 第3 章比較了自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃算法和 ChatGPT 兩者的異同。

  • 第4章討論了 ChatGPT 給自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃任務(wù)帶來(lái)的啟發(fā)。

  • 第5 章總結(jié)了本文了主要內(nèi)容和觀點(diǎn)。

2.ChatGPT 框架

ChatGPT 通過(guò) RLHF 訓(xùn)練模型。這一訓(xùn)練方式增加了人類對(duì)模型輸出結(jié)果的主觀排序,得到了更符合人類偏好的優(yōu)質(zhì)答案。

RLHF 主要分為三個(gè)階段

第一階段

監(jiān)督學(xué)習(xí)

隨機(jī)采樣請(qǐng)求收集人工撰寫的回答,訓(xùn)練監(jiān)督模型(GPT3.5 based)。

第二階段

訓(xùn)練獎(jiǎng)勵(lì)模型

收集人工標(biāo)注的模型多個(gè)輸出之間的排序數(shù)據(jù)集。并訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型,以預(yù)測(cè)用戶更喜歡哪個(gè)模型輸出。

第三階段

基于強(qiáng)化學(xué)習(xí) loss 持續(xù)迭代生成模型

使用獎(jiǎng)勵(lì)模型作為獎(jiǎng)勵(lì)函數(shù),以 PPO 強(qiáng)化學(xué)習(xí)算法,微調(diào)監(jiān)督學(xué)習(xí)訓(xùn)練出來(lái)的生成模型。


圖片

圖2  RLHF主要流程


2.1

RLHF:監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)過(guò)程通過(guò)提問(wèn) (prompt)-回答 (demonstration) 獲得的數(shù)據(jù)集對(duì) GPT 模型結(jié)構(gòu)進(jìn)行微調(diào)。下面對(duì)不同版本的 GPT 模型做一個(gè)總結(jié)。


GPT3.5 與之前的模型相比:1. 擁有更高質(zhì)量的寫作能力,產(chǎn)出更智能、更有吸引力的內(nèi)容;2. 能夠處理更復(fù)雜的指令,更靈活地使用其各種能力;3. 在較長(zhǎng)形式的文本生成有更好的表現(xiàn),完成過(guò)去難以承擔(dān)的任務(wù)。
近期發(fā)布的 GPT-4.0 的特點(diǎn)包括:1. 支持文本和圖像輸入的多模態(tài)深度學(xué)習(xí)模型;2. 在多個(gè)專業(yè)和學(xué)術(shù)基準(zhǔn)測(cè)試中表現(xiàn)出不低于人類水平的性能;3. 訓(xùn)練效果更加穩(wěn)定;4. 具有更高的可靠性、創(chuàng)造性和能夠處理更加微妙的指令。

2.2

RLHF: 訓(xùn)練獎(jiǎng)勵(lì)模型

訓(xùn)練獎(jiǎng)勵(lì)模型主體流程如下:1. 對(duì)請(qǐng)求收集模型多個(gè)輸出;2. 人工對(duì)不同輸出進(jìn)行排序;3. 訓(xùn)練獎(jiǎng)勵(lì)模型(模型輸出為分?jǐn)?shù))。
獎(jiǎng)勵(lì)模型結(jié)構(gòu)采用階段 1 中的監(jiān)督模型將最后一層移除后添加維度為 1 的全連接層即可得到一個(gè)回歸模型。問(wèn)題:如何從排序得到分?jǐn)?shù)/損失函數(shù)?InstructGPT 給出了如下的損失函數(shù):  
其中 K 為不同回答的個(gè)數(shù),σ sigmoid 函數(shù),  為模型參數(shù)為 θ的獎(jiǎng)勵(lì)模型,  為回答對(duì)  中排序較高的回答。對(duì)于排序較高的回答,最小化損失函數(shù)意味著最大化獎(jiǎng)勵(lì)模型。

此處還有另外一個(gè)思路:ELO 算法是一種綜合評(píng)估玩家實(shí)力的算法,通過(guò)計(jì)算得到一個(gè)代表玩家實(shí)力的數(shù)值。依據(jù)此邏輯把每個(gè)偏序當(dāng)作比賽,把獎(jiǎng)勵(lì)分?jǐn)?shù)看作排位分,就能夠得到獎(jiǎng)勵(lì)分?jǐn)?shù)作為輸出訓(xùn)練上述獎(jiǎng)勵(lì)模型。
假設(shè)條件:一個(gè)答案的分?jǐn)?shù)服從正態(tài)分布  ,其中  是該答案的平均分?jǐn)?shù),  為其波動(dòng)水平。
那么,兩個(gè)答案之間進(jìn)行排序時(shí)均分高的答案排在前邊的概率是:  
其中= μ1 ? μ2 為兩者的平均分?jǐn)?shù)差。利用最小二乘法,對(duì)于某個(gè)給定的  ,我們可以得到與它的函數(shù)圖像相近的另外的一個(gè)函數(shù),這也是實(shí)際運(yùn)時(shí)更常用的函數(shù):  
初始化所有答案的平均分之后,每一對(duì)答案之間的排序可以對(duì)分?jǐn)?shù)進(jìn)行更新,其迭代公式為:  
其中 α 為更新系數(shù),W是排序的結(jié)果 (高位為 1,低位為 0)


2.3

RLHF: 基于強(qiáng)化學(xué)習(xí) loss 持續(xù)迭代

基于強(qiáng)化學(xué)習(xí) loss 持續(xù)迭代的流程如下:1. 從數(shù)據(jù)集中采樣問(wèn)題;2. 初始化 PPO 模型;3. 監(jiān)督模型輸出結(jié)果,獎(jiǎng)勵(lì)模型計(jì)算獎(jiǎng)勵(lì)分?jǐn)?shù);4. 通過(guò)獎(jiǎng)勵(lì)分?jǐn)?shù)利用 PPO 算法更新監(jiān)督模型參數(shù)。
整個(gè)流程的核心點(diǎn)是 PPO 算法,PPO(Proximal Policy Optimization, 近端策略優(yōu)化算法是強(qiáng)化學(xué)習(xí)中對(duì)策略梯度計(jì)算更新的一種改進(jìn)算法,其訓(xùn)練速度與效果在實(shí)驗(yàn)上有明顯的提升。對(duì)一組模型參數(shù) θ,可以得到一組軌跡序列的概率分布   對(duì)一條由多個(gè)狀態(tài)動(dòng)作對(duì)組成的軌跡τ, 有獎(jiǎng)勵(lì)方程:  。
目標(biāo)函數(shù)定義為:  。求解其梯度的過(guò)程:

圖片


圖片


于是可用采樣來(lái)逼近上式,注意到上式中更新時(shí)采用的樣本均來(lái)自于當(dāng)前參數(shù),且更新公式也是基于當(dāng)前參數(shù)的函數(shù),一旦采樣的樣本分布發(fā)生了變化便需要收集新數(shù)據(jù),這導(dǎo)致訓(xùn)練需要大量互動(dòng),降低效率。為了解決這個(gè)問(wèn)題,采用重要性采樣對(duì)用來(lái)更新的樣本來(lái)源進(jìn)行改進(jìn)。    
其中 τ  πθ′可通過(guò)已有采樣逼近,目標(biāo)函數(shù)在重要性采樣參與之下轉(zhuǎn)化為:  
用  替代  ,用  替代  ,PPO算法迭代解決下述問(wèn)題:
  

其中 β 為懲罰參數(shù),   KL 散度用來(lái)約束 θ 更新的速度。


3.自動(dòng)駕駛軌跡規(guī)劃算法和 ChatGPT 兩者的異同

強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛算法中的應(yīng)用相對(duì)較新,但已經(jīng)顯示出了巨大的潛力和前景。自動(dòng)駕駛汽車需要通過(guò)路徑規(guī)劃算法來(lái)找到最佳的駕駛路徑。強(qiáng)化學(xué)習(xí)可以通過(guò)與環(huán)境的交互學(xué)習(xí)到最佳的路徑規(guī)劃策略。例如,可以使用強(qiáng)化學(xué)習(xí)算法來(lái)訓(xùn)練車輛在城市道路上遵守交通規(guī)則,避免碰撞和行人,并優(yōu)化車輛行駛速度和燃油效率。


ChatGPT 算法-RHL

自動(dòng)駕駛規(guī)劃算法-RL

框架

1. 基于Transformer 的自回歸大模型,具有參數(shù)量大、網(wǎng)絡(luò)層數(shù)多的特點(diǎn);2. 基于人工排序訓(xùn)練獎(jiǎng)勵(lì)模型;3. 基于強(qiáng)化學(xué)習(xí)算法微調(diào)大模型;1.基于深度強(qiáng)化學(xué)習(xí)訓(xùn)練獎(jiǎng)勵(lì)函數(shù)和策略;2.基于安全性、舒適性等方面優(yōu)化路徑;

數(shù)據(jù)來(lái)源

GPTX模型數(shù)據(jù)來(lái)自于網(wǎng)絡(luò)文本、對(duì)話數(shù)據(jù)等獲取較為容易;RLHF數(shù)據(jù)來(lái)源于人工標(biāo)注排序,以對(duì)齊語(yǔ)言模型和人類偏好;

在封閉場(chǎng)地/開放路段采集大量的人類駕駛數(shù)據(jù),獲取較為困難并且依賴感知模塊的輸出結(jié)果;

數(shù)據(jù)特點(diǎn)

輸入是任何自然語(yǔ)言文本(新版本支持圖像,多模態(tài)輸入),輸出是響應(yīng)文本;

輸入是環(huán)境車輛和道路交通情況(根據(jù)多種傳感器數(shù)據(jù),由多模態(tài)感知得到),輸出是規(guī)劃軌跡;

目標(biāo)

學(xué)習(xí)人類偏好,微調(diào)GPTX模型參數(shù);

學(xué)習(xí)人類駕駛技術(shù),獲取模型參數(shù);

獎(jiǎng)勵(lì)函數(shù)

基于語(yǔ)法正確性、連貫性和相關(guān)性等方面的人類排序結(jié)果訓(xùn)練獎(jiǎng)勵(lì)函數(shù);

基于平滑性、安全性、舒適性、并道意愿等方面給出的獎(jiǎng)勵(lì)函數(shù)或者通過(guò)逆強(qiáng)化學(xué)習(xí)訓(xùn)練得到;

學(xué)習(xí)算法

PRO;

PPO;
TRPO(Trust Region Policy Opt);
DQN(Deep Q-Network);
Actor-Criti;

容錯(cuò)度

對(duì)于模型訓(xùn)練有一定容錯(cuò)度。

追求功能安全、信息安全等方面的高要求,對(duì)于模型訓(xùn)練的容錯(cuò)度極低。

表2  chatGPT的流程框架與自動(dòng)駕駛規(guī)劃方案的差異對(duì)比

強(qiáng)化學(xué)習(xí)的描述如下:假設(shè)未知環(huán)境 (unknown environment) 中有一個(gè)智能體 (agent),該智能體與環(huán)境互動(dòng)可獲得獎(jiǎng)勵(lì) (reward)。智能體以最大化累計(jì)獎(jiǎng)勵(lì) (maximize cumulative rewards) 為目標(biāo)采取行動(dòng) (action)。
首先定義標(biāo)記如下:狀態(tài):  行為:  策略:  狀態(tài)轉(zhuǎn)移概率:  衰減系數(shù):  回報(bào)函數(shù):  狀態(tài)價(jià)值方程:  行為價(jià)值方程:  強(qiáng)化學(xué)習(xí)的目標(biāo)是尋找最優(yōu)策略:接下來(lái)我們列舉在 chatGPT 的流程框架與自動(dòng)駕駛規(guī)劃方案的差異對(duì)比,具體如表2所示。  接下來(lái)我們列舉在 ChatGPT 的流程框架與自動(dòng)駕駛規(guī)劃方案的差異對(duì)比,具體如表2所示。

4.

規(guī)劃算法優(yōu)化方向-來(lái)自于 ChatGPT 的啟發(fā)

ChatGPT 算法框架是一種基于深度學(xué)習(xí)的模型,其具有以下幾個(gè)特點(diǎn):

基于大數(shù)據(jù)集的預(yù)訓(xùn)練:ChatGPT 使用海量的語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練,從而使得模型具備了更加廣泛的語(yǔ)言理解能力。
自回歸生成:ChatGPT 使用自回歸生成技術(shù)生成文本,最大化下述似然函數(shù),能夠在保持語(yǔ)法、語(yǔ)義正確的前提下,生成具有邏輯性和連貫性的文本。 

圖片

其中  為字符 (token),為文本窗口的尺寸。
多層級(jí)注意力機(jī)制:ChatGPT 使用多層級(jí)的注意力機(jī)制,無(wú)論是從參數(shù)數(shù)量還是網(wǎng)絡(luò)深度的角度來(lái)看遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),能夠在處理輸入序列時(shí)關(guān)注不同層級(jí)的信息,從而提高模型的準(zhǔn)確性和魯棒性。
人類反饋強(qiáng)化學(xué)習(xí)的框架:在模型預(yù)訓(xùn)練完之后,ChatGPT 依賴人類專家提供的大量反饋結(jié)果訓(xùn)練獎(jiǎng)勵(lì)函數(shù),利用強(qiáng)化學(xué)習(xí)迭代微調(diào)模型參數(shù),能夠提高學(xué)習(xí)效率和性能。
這些特點(diǎn)可以為自動(dòng)駕駛規(guī)劃算法框架帶來(lái)以下啟發(fā):? 借鑒大數(shù)據(jù)集的預(yù)訓(xùn)練技術(shù):自動(dòng)駕駛規(guī)劃算法需要處理復(fù)雜的場(chǎng)景和環(huán)境,因此可以通過(guò)利用大規(guī)模的數(shù)據(jù)集 (包括真實(shí)數(shù)據(jù)以及泛化仿真數(shù)據(jù)) 進(jìn)行預(yù)訓(xùn)練,提高算法的智能化程度和適應(yīng)性。
? 借鑒自回歸生成技術(shù):自動(dòng)駕駛規(guī)劃算法需要在復(fù)雜的路況下做出決策,因此可以借鑒自回歸生成技術(shù),學(xué)習(xí)老司機(jī)的駕駛經(jīng)驗(yàn)和技術(shù),從而保證決策的正確性和安全性。? 借鑒多層級(jí)注意力機(jī)制:自動(dòng)駕駛規(guī)劃算法處理關(guān)于空間的時(shí)序信息,需要能夠抓取上下文聯(lián)系的能力,可以借鑒 Transformer 的多層級(jí)注意力機(jī)制,通過(guò)大規(guī)模的網(wǎng)絡(luò)結(jié)構(gòu)提高算法性能,從而能夠在路徑規(guī)劃時(shí)更加準(zhǔn)確、全面。
? 借鑒人類反饋強(qiáng)化學(xué)習(xí)的框架:自動(dòng)駕駛算法需要滿足安全性和合法性等要求,然而深度學(xué)習(xí)算法具有“黑盒性”和“不可解釋性”使得并非所有策略都是可行的,可以借鑒人類反饋強(qiáng)化學(xué)習(xí)的框架將大量基于安全性、合法性等條件的評(píng)價(jià)反饋給自動(dòng)駕駛規(guī)劃算法,通過(guò)強(qiáng)化學(xué)習(xí)模式不斷迭代微調(diào)相關(guān)模型。

圖片

圖3  ChatGPT 的特點(diǎn)及其帶來(lái)的啟發(fā)

總之,ChatGPT 算法框架的特點(diǎn)可以為自動(dòng)駕駛規(guī)劃算法提供啟發(fā),從而幫助其更好地應(yīng)對(duì)復(fù)雜的場(chǎng)景和環(huán)境,提升算法的智能化程度和安全性。

5.總結(jié)

本文主要介紹了 ChatGPT 框架和 GPT 各代模型的主要特點(diǎn),及其引發(fā)的對(duì)自動(dòng)駕駛規(guī)劃

任務(wù)未來(lái)優(yōu)化方向的探討。ChatGPT 的學(xué)習(xí)思維提供了如下可借鑒的方向:

1. 借鑒大數(shù)據(jù)集的預(yù)訓(xùn)練技術(shù);

2. 借鑒自回歸生成技術(shù);

3. 借鑒多層級(jí)注意力機(jī)制以及大模型設(shè)計(jì);

4. 借鑒人類反饋強(qiáng)化學(xué)習(xí)的框架。

參考文獻(xiàn)

[BMR+20] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.


[OWJ+22] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Train-ing language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155, 2022.


[RNS+18] Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever, et al. Improving language understanding by generative pre-training. 2018.


[RWC+19] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.


[SWD+17] John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov.Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25