一文讀懂自動(dòng)駕駛世界模型

2024-10-23 11:04:54· 來源：汽車未來科技Lab

3. 世界模型在人工智能中的應(yīng)用與進(jìn)展

這一章節(jié)介紹了世界模型（world models）在不同領(lǐng)域的應(yīng)用和研究進(jìn)展。世界模型是一種能夠?qū)Νh(huán)境進(jìn)行建模并預(yù)測(cè)未來狀態(tài)的計(jì)算框架，具有廣泛的應(yīng)用前景。文章列舉了多個(gè)領(lǐng)域中的世界模型應(yīng)用案例，并詳細(xì)介紹了其原理和技術(shù)細(xì)節(jié)。此外，還探討了世界模型在未來的發(fā)展方向和可能面臨的挑戰(zhàn)。

世界模型通過自監(jiān)督學(xué)習(xí)的方式從大量未標(biāo)注的數(shù)據(jù)中提取出有價(jià)值的信息，從而增強(qiáng)模型的性能和效率。在駕駛場(chǎng)景生成方面，世界模型可以創(chuàng)造多樣化、真實(shí)化的駕駛環(huán)境，豐富訓(xùn)練數(shù)據(jù)集，提高自動(dòng)駕駛系統(tǒng)的魯棒性和適應(yīng)性。同時(shí)，在規(guī)劃和控制策略方面，世界模型也可以幫助車輛進(jìn)行未來預(yù)測(cè)和決策制定，提升行駛安全性和穩(wěn)定性。隨著研究的不斷深入，世界模型逐漸向多模態(tài)方向發(fā)展，并與其他模型相結(jié)合，進(jìn)一步拓展了其應(yīng)用場(chǎng)景和效果。

（1）感知模塊

這一基礎(chǔ)組件充當(dāng)系統(tǒng)的感官輸入，類似于人類的感覺器官。采用先進(jìn)的傳感器和編碼模塊，例如變分自動(dòng)編碼器 (VAE) 、遮罩自動(dòng)編碼器 (MAE)和離散自動(dòng)編碼器 (DAE) 來處理和壓縮環(huán)境輸入（如圖像、視頻、文本、控制指令）到一個(gè)更易于管理的格式。該模塊的有效性對(duì)于準(zhǔn)確感知復(fù)雜多變的環(huán)境至關(guān)重要，它能夠促進(jìn)對(duì)環(huán)境的詳細(xì)理解，進(jìn)而指導(dǎo)模型做出后續(xù)預(yù)測(cè)和決策。

（2）記憶模塊

扮演著類似人類海馬體的角色，記憶模塊對(duì)于記錄和管理過去、現(xiàn)在及預(yù)測(cè)的世界狀態(tài)及其相關(guān)成本或獎(jiǎng)勵(lì)至關(guān)重要。它通過重播經(jīng)歷來實(shí)現(xiàn)短期和長(zhǎng)期記憶功能，這一過程通過將過去的洞察融入未來的決策中來增強(qiáng)學(xué)習(xí)和適應(yīng)能力。該模塊合成和保留關(guān)鍵信息的能力對(duì)于隨時(shí)間發(fā)展對(duì)環(huán)境動(dòng)態(tài)的細(xì)致理解至關(guān)重要。

（3）控制/動(dòng)作模塊

這個(gè)模塊直接負(fù)責(zé)通過動(dòng)作與環(huán)境進(jìn)行交互。評(píng)估當(dāng)前狀態(tài)和世界模型提供的預(yù)測(cè)，以確定實(shí)現(xiàn)特定目標(biāo)（如最小化成本或最大化獎(jiǎng)勵(lì)）的最佳動(dòng)作序列。該模塊的精妙之處在于它能夠整合感官數(shù)據(jù)、記憶和預(yù)測(cè)洞察，從而做出明智的戰(zhàn)略決策，以應(yīng)對(duì)真實(shí)世界情景的復(fù)雜性。此模塊將決策過程與復(fù)雜的世界模型模塊區(qū)分開來，并使用最少的參數(shù)集對(duì)其進(jìn)行獨(dú)立訓(xùn)練。這樣的設(shè)計(jì)使得可以應(yīng)用更為非傳統(tǒng)的訓(xùn)練方法，比如進(jìn)化策略，來解決那些在信用分配方面存在重大困難的具有挑戰(zhàn)性的強(qiáng)化學(xué)習(xí)任務(wù)。

在高維感官輸入的情景下，世界模型利用潛在動(dòng)力學(xué)模型來抽象地表示觀察到的信息，從而能夠在潛在狀態(tài)空間內(nèi)實(shí)現(xiàn)緊湊的前向預(yù)測(cè)。這些潛在狀態(tài)比直接預(yù)測(cè)高維數(shù)據(jù)要高效得多，這得益于深度學(xué)習(xí)和潛在變量模型的進(jìn)步，使得可以進(jìn)行大量的并行預(yù)測(cè)。例如，在十字路口汽車的方向具有不確定性，這是現(xiàn)實(shí)世界動(dòng)態(tài)固有的不可預(yù)測(cè)性的一個(gè)典型場(chǎng)景。潛在變量作為表示這些不確定結(jié)果的強(qiáng)大工具，基于當(dāng)前狀態(tài)，為世界模型設(shè)想的一系列未來可能性奠定了基礎(chǔ)。這項(xiàng)努力的關(guān)鍵在于將預(yù)測(cè)的確定性方面與現(xiàn)實(shí)現(xiàn)象的內(nèi)在不確定性相結(jié)合，這種平衡是世界模型效能的核心所在。

4. 世界模型在自動(dòng)駕駛中的應(yīng)用與挑戰(zhàn)

這一章節(jié)主要介紹了世界模型在自動(dòng)駕駛領(lǐng)域的應(yīng)用和發(fā)展現(xiàn)狀。作者提到了多個(gè)世界模型的優(yōu)缺點(diǎn)和應(yīng)用場(chǎng)景，并分析了當(dāng)前面臨的技術(shù)、計(jì)算和理論挑戰(zhàn)以及倫理和安全問題。同時(shí)，文章也指出了未來發(fā)展方向和研究重點(diǎn)，包括長(zhǎng)期可擴(kuò)展記憶集成、仿真到現(xiàn)實(shí)世界的泛化能力和硬件突破等。

其中提到了一些倫理和社會(huì)問題，如隱私保護(hù)、數(shù)據(jù)安全和責(zé)任分配等。此外，還探討了未來可能的發(fā)展方向，包括將人類直覺與人工智能精度相結(jié)合以及將自動(dòng)駕駛車輛融入城市生態(tài)系統(tǒng)中。最后，強(qiáng)調(diào)了需要跨學(xué)科合作來解決這些挑戰(zhàn)，并確保自動(dòng)駕駛技術(shù)符合社會(huì)價(jià)值觀和安全標(biāo)準(zhǔn)。

5.自動(dòng)駕駛場(chǎng)景中的應(yīng)用

自動(dòng)駕駛數(shù)據(jù)的獲取面臨著諸多挑戰(zhàn)，包括與數(shù)據(jù)收集和標(biāo)注相關(guān)的高昂成本、法律限制以及安全考量。世界模型通過自我監(jiān)督學(xué)習(xí)范式提供了一種有前景的解決方案，它能夠從大量的未標(biāo)記數(shù)據(jù)中提取價(jià)值知識(shí)，從而以成本效益高的方式增強(qiáng)模型性能。

世界模型在駕駛場(chǎng)景生成中的應(yīng)用尤其值得注意，因?yàn)樗龠M(jìn)了多樣化且真實(shí)的駕駛環(huán)境的創(chuàng)建。這種能力顯著豐富了訓(xùn)練數(shù)據(jù)集，使自動(dòng)駕駛系統(tǒng)具備了應(yīng)對(duì)罕見和復(fù)雜駕駛情景的魯棒性。

（1）GAIA-1

GAIA-1代表了一種新穎的自主生成式人工智能模型，能夠利用視頻、文本和動(dòng)作輸入來創(chuàng)建逼真的駕駛視頻。通過Wayve在英國(guó)城市廣泛的真實(shí)世界駕駛數(shù)據(jù)進(jìn)行訓(xùn)練，GAIA-1學(xué)會(huì)了理解一些現(xiàn)實(shí)世界的規(guī)則和駕駛情景中的關(guān)鍵概念，包括不同類型的車輛、行人、建筑物和基礎(chǔ)設(shè)施。它可以根據(jù)幾秒鐘的視頻輸入預(yù)測(cè)并生成后續(xù)的駕駛情景。值得注意的是，生成的未來駕駛情景并不緊密地依賴于提示視頻，而是基于GAIA-1對(duì)世界規(guī)則的理解。GAIA-1的核心采用了自回歸變換網(wǎng)絡(luò)，根據(jù)輸入的圖像、文本和動(dòng)作令牌預(yù)測(cè)即將出現(xiàn)的圖像令牌，然后將這些預(yù)測(cè)解碼回像素空間。

GAIA-1可以預(yù)測(cè)多個(gè)潛在的未來，并根據(jù)提示（例如改變天氣、場(chǎng)景、交通參與者、車輛動(dòng)作）生成多樣化的視頻或特定的駕駛情景，甚至包括超出其訓(xùn)練集的動(dòng)作和場(chǎng)景（例如強(qiáng)行駛?cè)肴诵械溃?/span>這展示了它理解并推斷不在其訓(xùn)練集中的駕駛概念的能力，同時(shí)也證明了它的反事實(shí)推理能力。在現(xiàn)實(shí)世界中，由于風(fēng)險(xiǎn)性，很難獲取這類駕駛行為的數(shù)據(jù)。駕駛場(chǎng)景生成允許進(jìn)行模擬測(cè)試，豐富數(shù)據(jù)組成，增強(qiáng)系統(tǒng)在復(fù)雜情景下的能力，并更好地評(píng)估現(xiàn)有的駕駛模型。

此外，GAIA-1能夠生成連貫的動(dòng)作，并有效地捕捉三維幾何結(jié)構(gòu)的視角影響，展現(xiàn)了其對(duì)上下文信息和物理規(guī)則的理解。結(jié)合其展示出的反事實(shí)推理能力，可以說GAIA-1在自動(dòng)駕駛的世界模型方面達(dá)到了很高的成就水平，無論是在抽象概念的理解還是因果推理方面。

第2頁(yè)/共4頁(yè) 首頁(yè) 下一頁(yè) 上一頁(yè) 尾頁(yè)

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：梅賽德斯-奔馳開設(shè)新的電池回收廠，回收“96%”的電池材料
上一篇：蔚來與Monolith合作：基于人工智能的電動(dòng)車電池異常檢測(cè)

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測(cè)試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)
• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬
• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！	• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)
• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

一文讀懂自動(dòng)駕駛世界模型

微信公眾號(hào)

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

一文讀懂自動(dòng)駕駛世界模型

微信公眾號(hào)

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將