日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

一文讀懂自動駕駛世界模型

2024-10-23 11:04:54·  來源:汽車未來科技Lab  
 
(2)ADriver-I

DriveDreamer [64] 同樣專注于駕駛場景生成,但與GAIA-1不同的是,它是在nuScenes數(shù)據(jù)集 [92] 上進(jìn)行訓(xùn)練的。它的模型輸入包含了更多元素,如高清地圖和三維框,這使得對駕駛場景生成具有更精確的控制和更深的理解,從而提高了視頻生成的質(zhì)量。此外,DriveDreamer還可以生成未來的駕駛動作及其對應(yīng)的預(yù)測場景,有助于決策制定。

ADriver-I采用當(dāng)前視頻幀和歷史視覺-動作對作為多模態(tài)大型語言模型 (MLLM) [93] [94] 和視頻隱變量擴(kuò)散模型 (VDM) [95] 的輸入。MLLM以自回歸的方式輸出控制信號,這些信號作為VDM預(yù)測后續(xù)視頻輸出的提示。通過連續(xù)的預(yù)測循環(huán),ADriver-I實(shí)現(xiàn)了在預(yù)測世界中的無限駕駛。在ADriver-I中,世界模型與MLLM的結(jié)合顯著提高了預(yù)測和決策的可解釋性,并且也表明了將世界模型作為基礎(chǔ)模型與其他模型相結(jié)合的可行性。

受到大型語言模型成功的啟發(fā),WorldDreamer [79] 將世界建模視為一項(xiàng)無監(jiān)督視覺序列建模挑戰(zhàn)。它利用空間時(shí)間注意轉(zhuǎn)換器 (STPT) 來集中注意力于時(shí)空窗口內(nèi)的局部區(qū)域。這種集中注意力的方式促進(jìn)了視覺信號的動態(tài)學(xué)習(xí)并加速了訓(xùn)練過程的收斂。盡管WorldDreamer是一個(gè)通用的視頻生成模型,但它在生成自動駕駛視頻方面表現(xiàn)出了卓越的性能。

除了視覺信息之外,駕駛場景還包括大量重要的物理數(shù)據(jù)。MUVO [76] 利用世界模型框架來預(yù)測和生成駕駛場景,并將激光雷達(dá)點(diǎn)云和視覺輸入相結(jié)合來預(yù)測未來的視頻、點(diǎn)云和三維占用網(wǎng)格。這種綜合的方法顯著提升了預(yù)測質(zhì)量和生成結(jié)果。特別是,三維占用網(wǎng)格的結(jié)果可以直接應(yīng)用于下游任務(wù)。更進(jìn)一步,OccWorld [78] 和Think2Drive [83] 直接利用三維占用信息作為系統(tǒng)輸入來預(yù)測周圍環(huán)境的變化并規(guī)劃自動駕駛車輛的動作。很明顯,隨著研究的進(jìn)展,自動駕駛領(lǐng)域中用于場景生成的世界模型研究正逐漸向多模態(tài)方法發(fā)展。世界模型已經(jīng)展現(xiàn)出了處理多模態(tài)信息的強(qiáng)大能力。

圖片

6. 世界模型在強(qiáng)化學(xué)習(xí)中的應(yīng)用與進(jìn)展

這一章節(jié)主要介紹了強(qiáng)化學(xué)習(xí)中的世界模型(World Models)及其應(yīng)用。世界模型是一種基于神經(jīng)網(wǎng)絡(luò)的模型,可以將環(huán)境的狀態(tài)、動作和獎勵之間的關(guān)系建模,并用于控制智能體的行為。世界模型的應(yīng)用包括自主駕駛、游戲AI等領(lǐng)域。

在該章節(jié)中,作者列舉了多個(gè)使用世界模型進(jìn)行強(qiáng)化學(xué)習(xí)的研究案例,如“Mastering Atari with Discrete World Models”、“Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving”等。這些研究都取得了很好的效果,證明了世界模型在強(qiáng)化學(xué)習(xí)中的重要性。還介紹了一些世界模型的具體實(shí)現(xiàn)方法,如“Dyna”、“Reinforcement Learning with Continuous State and Action Spaces Using a Convolutional World Model”等。這些方法都是基于深度學(xué)習(xí)技術(shù)的,通過不斷優(yōu)化模型參數(shù)來提高模型的性能??傊?,世界模型是強(qiáng)化學(xué)習(xí)領(lǐng)域的一個(gè)重要分支,其應(yīng)用前景廣闊,未來還有很大的發(fā)展空間。

為了應(yīng)對這一挑戰(zhàn),提出了多種策略,從通過引入溫度變量來增加不確定性[31],到采用結(jié)構(gòu)化的框架,如循環(huán)狀態(tài)空間模型 (RSSM) ,和聯(lián)合嵌入預(yù)測架構(gòu) (JEPA) 。這些方法力求在預(yù)測的精確性和靈活性之間找到最佳平衡。此外,利用Top-k采樣并從基于卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的模型轉(zhuǎn)向變換器架構(gòu),如變換器狀態(tài)空間模型 (TSSM) 或空間時(shí)間塊狀變換器 (STPT),已經(jīng)在通過更好地逼近現(xiàn)實(shí)世界的復(fù)雜性和不確定性來提高模型性能方面顯示出潛力。這些解決方案力求使世界模型的輸出更加接近現(xiàn)實(shí)世界可能的發(fā)展情況。這種一致性至關(guān)重要,因?yàn)榕c游戲環(huán)境相比,現(xiàn)實(shí)世界有著更廣泛的影響因素和對未來結(jié)果更大的隨機(jī)性。過度依賴最高概率的預(yù)測可能會導(dǎo)致長期預(yù)測中的重復(fù)循環(huán)。相反,預(yù)測中過度的隨機(jī)性可能導(dǎo)致與現(xiàn)實(shí)嚴(yán)重偏離的荒謬未來。

特別是在世界模型研究中最常使用的兩種核心結(jié)構(gòu)是RSSM和JEPA

循環(huán)狀態(tài)空間模型 (RSSM) 是Dreamer系列世界模型中的核心模型之一,旨在實(shí)現(xiàn)在潛在空間中的純前向預(yù)測。這種創(chuàng)新結(jié)構(gòu)使模型能夠在潛在狀態(tài)空間中進(jìn)行預(yù)測,其中過渡模型中的隨機(jī)路徑和確定性路徑都發(fā)揮著關(guān)鍵作用,從而成功地進(jìn)行規(guī)劃。

下圖展示了跨越三個(gè)時(shí)間步驟的潛在動力學(xué)模型的示意圖。這些模型最初觀測兩個(gè)時(shí)間步驟,然后預(yù)測第三個(gè)。在這里,隨機(jī)變量(圓形)和確定性變量(方形)在模型架構(gòu)內(nèi)部相互作用——實(shí)線表示生成過程,而虛線則代表推斷路徑。圖3a中的初始確定性推斷方法揭示了其局限性,由于其固定性質(zhì),無法捕獲多樣化的潛在未來。相反,圖3b中的完全隨機(jī)方法在時(shí)間步驟間的信息保留方面存在問題,因?yàn)槠浔举|(zhì)上具有不確定性。

圖片

RSSM的創(chuàng)新之處在于它在圖3c中戰(zhàn)略性地將狀態(tài)分解為隨機(jī)和確定性成分,有效地利用了確定性元素的預(yù)測穩(wěn)定性以及隨機(jī)元素的適應(yīng)潛力。這種混合結(jié)構(gòu)保證了強(qiáng)大的學(xué)習(xí)和預(yù)測能力,既適應(yīng)了現(xiàn)實(shí)世界的不可預(yù)測性,又保持了信息的連續(xù)性。通過結(jié)合RNN的優(yōu)勢與狀態(tài)空間模型 (SSM) [54] 的靈活性,RSSM為世界模型建立了一個(gè)全面的框架,增強(qiáng)了它們在保持精確性和適應(yīng)性的同時(shí)預(yù)測未來狀態(tài)的能力。

圖片

7. 自動駕駛技術(shù)的發(fā)展與挑戰(zhàn)

這一章節(jié)主要介紹了自動駕駛領(lǐng)域的研究進(jìn)展和應(yīng)用現(xiàn)狀。其中提到了許多與自動駕駛相關(guān)的技術(shù)和算法,如3D場景理解、世界模型等,并列舉了一些相關(guān)論文的摘要。此外,還討論了自動駕駛技術(shù)在智能交通系統(tǒng)中的作用以及面臨的挑戰(zhàn)和問題,例如數(shù)據(jù)隱私保護(hù)、道德倫理等方面的問題。最后,文章提出了一些未來的研究方向和發(fā)展趨勢,包括跨模態(tài)感知、多任務(wù)學(xué)習(xí)等。

圖片

(1) 駕駛場景生成

在自動駕駛領(lǐng)域的數(shù)據(jù)獲取面臨著諸多挑戰(zhàn),包括與數(shù)據(jù)收集和標(biāo)注相關(guān)的高昂成本、法律限制以及安全考量。世界模型通過自我監(jiān)督學(xué)習(xí)范式提供了一種有前景的解決方案,它能夠從大量的未標(biāo)記數(shù)據(jù)中提取有價(jià)值的見解,從而以成本效益高的方式增強(qiáng)模型性能。世界模型在駕駛場景生成中的應(yīng)用尤其值得注意,因?yàn)樗龠M(jìn)了多樣化且真實(shí)的駕駛環(huán)境的創(chuàng)建。這種能力顯著豐富了訓(xùn)練數(shù)據(jù)集,使自動駕駛系統(tǒng)具備了應(yīng)對罕見和復(fù)雜駕駛情景的穩(wěn)健性 。

GAIA-1 代表了一種新穎的自主生成式人工智能模型,能夠利用視頻、文本和動作輸入來創(chuàng)建逼真的駕駛視頻。通過Wayve在英國城市廣泛的真實(shí)世界駕駛數(shù)據(jù)進(jìn)行訓(xùn)練,GAIA-1學(xué)會了理解一些現(xiàn)實(shí)世界的規(guī)則和駕駛情景中的關(guān)鍵概念,包括不同類型的車輛、行人、建筑物和基礎(chǔ)設(shè)施。它可以根據(jù)幾秒鐘的視頻輸入預(yù)測并生成后續(xù)的駕駛情景。值得注意的是,生成的未來駕駛情景并不緊密地依賴于提示視頻,而是基于GAIA-1對世界規(guī)則的理解。GAIA-1的核心采用了自回歸變換網(wǎng)絡(luò),根據(jù)輸入的圖像、文本和動作令牌預(yù)測即將出現(xiàn)的圖像令牌,然后將這些預(yù)測解碼回像素空間。

GAIA-1可以預(yù)測多個(gè)潛在的未來,并根據(jù)提示(例如改變天氣、場景、交通參與者、車輛動作)生成多樣化的視頻或特定的駕駛情景,甚至包括超出其訓(xùn)練集的動作和場景(例如強(qiáng)行駛?cè)肴诵械溃?。這展示了它理解并推斷不在其訓(xùn)練集中的駕駛概念的能力,同時(shí)也證明了它的反事實(shí)推理能力。在現(xiàn)實(shí)世界中,由于風(fēng)險(xiǎn)性,很難獲取這類駕駛行為的數(shù)據(jù)。駕駛場景生成允許進(jìn)行模擬測試,豐富數(shù)據(jù)組成,增強(qiáng)系統(tǒng)在復(fù)雜情景下的能力,并更好地評估現(xiàn)有的駕駛模型。

此外,GAIA-1能夠生成連貫的動作,并有效地捕捉三維幾何結(jié)構(gòu)的視角影響,展現(xiàn)了其對上下文信息和物理規(guī)則的理解。結(jié)合其展示出的反事實(shí)推理能力,可以說GAIA-1在自動駕駛的世界模型方面達(dá)到了很高的成就水平,無論是在抽象概念的理解還是因果推理方面。

分享到:
 
反對 0 舉報(bào) 0 收藏 0 評論 0
滬ICP備11026917號-25