基礎(chǔ)模型在推進自動駕駛汽車中的前瞻性作用

2024-11-15 17:05:35· 來源：同濟智能汽車研究所

編者按：該期刊論文圍繞基礎(chǔ)模型(Foundation Model, FM)在自動駕駛技術(shù)中的應(yīng)用展開，論文深入探討了基礎(chǔ)模型在自動駕駛技術(shù)中的多種應(yīng)用，具體分析并總結(jié)了基于大語言模型、視覺語言模型和世界模型對自動駕駛的增強作用，并相應(yīng)提出了當(dāng)前面臨的挑戰(zhàn)以及潛在的研究方向，以期幫助讀者更全面地理解當(dāng)前基礎(chǔ)模型在自動駕駛領(lǐng)域的應(yīng)用現(xiàn)狀。

本文譯自：

《Prospective Role of Foundation Models in Advancing Autonomous Vehicles》

文章來源：

Research 16 Jul 2024 Vol 7 Article ID: 0399

作者：

Jianhua Wu1; Bingzhao Gao1,2; Jincheng Gao1; Jianhao Yu1; Hongqing Chu1*;Qiankun Yu3; Xun Gong4; Yi Chang4; H. Eric Tseng5; Hong Chen6,7*; and Jie Chen2,7.

作者單位：

1.School of Automotive Studies, Tongji University, Shanghai 201804, China; 2. Frontiers Science Center for Intelligent Autonomous Systems, Tongji University, Shanghai 201210, China; 3. SAIC Intelligent Technology, Shanghai 201805, China; 4. College of Artificial Intelligence, Jilin University, Changchun 130012, China; 5. Research and Advanced Engineering, Ford Motor Company, Dearborn, MI 48124, USA; 6. College of Electronic and Information Engineering, Tongji University, Shanghai 201804, China; 7. National Key Laboratory of Autonomous Intelligent Unmanned Systems, Shanghai 201210, China.

原文鏈接：

https://doi.org/10.34133/research.0399

摘要：隨著人工智能的發(fā)展和深度學(xué)習(xí)的突破，大型基礎(chǔ)模型（FMs），如GPT、Sora等，在包括自然語言處理和計算機視覺在內(nèi)的許多領(lǐng)域都取得了顯著成果。FMs在自動駕駛中的應(yīng)用具有相當(dāng)大的前景。例如，它們可以有助于增強場景理解和推理。通過對豐富的語言和視覺數(shù)據(jù)進行預(yù)訓(xùn)練，F(xiàn)Ms可以理解和解釋駕駛場景中的各種元素，并提供認(rèn)知推理，為駕駛決策和規(guī)劃給出語言和行動指令。此外，F(xiàn)Ms可以基于對駕駛場景的理解來增強數(shù)據(jù)，以提供長尾分布中的罕見場景，這些在常規(guī)駕駛和數(shù)據(jù)采集過程中難以覆蓋性挖掘。這種增強可以隨后進一步提高自動駕駛系統(tǒng)準(zhǔn)確性和可靠性。FMs應(yīng)用潛力的另一個證明是世界模型，以DREAMER系列為例，它展示了理解物理定律和動力學(xué)的能力。在自監(jiān)督學(xué)習(xí)范式下，從海量數(shù)據(jù)中學(xué)習(xí)，世界模型可以生成看不見但可信的駕駛環(huán)境，促進道路使用者行為預(yù)測的增強和駕駛策略的離線訓(xùn)練。在本文中，我們綜合了FMs在自動駕駛中的應(yīng)用和未來趨勢。通過利用FMs的強大功能，我們努力解決自動駕駛中長尾分布的潛在問題，從而提高該領(lǐng)域的整體安全性。

1 引言

自動駕駛作為人工智能中最具挑戰(zhàn)性的任務(wù)之一，受到了廣泛關(guān)注。傳統(tǒng)的自動駕駛系統(tǒng)采用模塊化開發(fā)策略[1,2]，即感知、預(yù)測和規(guī)劃被分別開發(fā)并集成到車輛中。然而，模塊之間傳輸?shù)男畔⑹怯邢薜?，并且存在信息缺失。此外，傳播過程中存在累積誤差，模塊化傳輸?shù)挠嬎阈氏鄬^低。這些因素共同導(dǎo)致模型性能不佳。為了進一步減少誤差并提高計算效率，近年來，研究人員嘗試以端到端的方式訓(xùn)練模型[3,4]。端到端意味著模型直接從傳感器數(shù)據(jù)中獲取輸入，然后直接為車輛輸出控制決策。雖然已經(jīng)取得了一些進展，但這些模型仍然主要依靠人工標(biāo)記數(shù)據(jù)的監(jiān)督學(xué)習(xí)（SL）由于現(xiàn)實世界中駕駛場景的千變?nèi)f化，僅用有限的標(biāo)記數(shù)據(jù)覆蓋所有潛在的情況具有挑戰(zhàn)性，這導(dǎo)致模型泛化能力較差，難以適應(yīng)復(fù)雜多變的現(xiàn)實世界極端情況。

近年來，基礎(chǔ)模型（FMs）的出現(xiàn)為解決這一差距提供了新的思路。FMs通常被認(rèn)為是在不同數(shù)據(jù)上訓(xùn)練的大規(guī)模機器學(xué)習(xí)模型，能夠應(yīng)用于各種下游任務(wù)，這可能不一定與其原始訓(xùn)練目標(biāo)直接相關(guān)。該術(shù)語由斯坦福大學(xué)于2021年8月提出，稱為“在廣泛數(shù)據(jù)上訓(xùn)練的任何模型（通常使用大規(guī)模的自我監(jiān)督），可以通過微調(diào)適應(yīng)到廣泛的下游任務(wù)”[5]。FMs的應(yīng)用領(lǐng)域包括自然語言處理（Natural Language Processing，NLP）和計算機視覺（Computer Vision，CV），極具代表性的如BERT[6]和GPT-4[7]，以及Sora[8]等。大多數(shù)FMs是基于一些經(jīng)典網(wǎng)絡(luò)架構(gòu)構(gòu)建的，例如，BERT和GPT-4是Transformer[9]，Sora是基于DiffusionTransformer[10]。

與傳統(tǒng)深度學(xué)習(xí)不同，F(xiàn)Ms可以通過自監(jiān)督預(yù)訓(xùn)練直接從海量未標(biāo)記數(shù)據(jù)（如視頻、圖像、自然語言等）中學(xué)習(xí)，從而獲得更強的泛化能力和涌現(xiàn)能力（被認(rèn)為已經(jīng)出現(xiàn)在大語言模型[LLM]中）。基于此，在使用少量監(jiān)督數(shù)據(jù)進行微調(diào)后，F(xiàn)Ms可以快速適配并遷移到自動駕駛等下游任務(wù)中。憑借自監(jiān)督預(yù)訓(xùn)練賦予的強大理解、推理和泛化能力，F(xiàn)Ms有望打破傳統(tǒng)模型的瓶頸，使自動駕駛系統(tǒng)能夠更好地理解和適應(yīng)復(fù)雜的交通環(huán)境，從而提供更安全、更可靠的自動駕駛體驗。

1.1. 涌現(xiàn)能力

基礎(chǔ)模型（FMs）的一大重要特征是涌現(xiàn)，Bommasani等人[5]將FMs的涌現(xiàn)特征或涌現(xiàn)能力描述為“如果能力不存在于較小的模型中，而是存在于較大的模型中，那么它就是涌現(xiàn)的”。例如，語言模型（LM）對下游任務(wù)多樣化的適應(yīng)性，這是一種與初始訓(xùn)練沒有直接聯(lián)系的新行為，隨著模型擴展超過一個未明確的閾值時突然出現(xiàn)，轉(zhuǎn)變?yōu)長LM[11]。

目前，F(xiàn)Ms的涌現(xiàn)能力主要體現(xiàn)在大語言模型（Large Language Model, LLM）領(lǐng)域，在圖1[12]中可以看出，隨著模型大小、數(shù)據(jù)集大小以及用于訓(xùn)練的計算浮點數(shù)的增加，LLM的損耗減小，為進行大規(guī)模模型訓(xùn)練提供了支持，圖2[11]表明，當(dāng)模型的參數(shù)量達(dá)到一定水平時，LLM的能力將得到質(zhì)的飛躍，在不同的任務(wù)中表現(xiàn)出涌現(xiàn)能力。

圖1 擴展定律

圖2 LLM 的涌現(xiàn)能力[11]。(A)至(H)代表不同的下游任務(wù)。(A) 三位數(shù)加減法和兩位數(shù)乘法；(B) 國際音標(biāo)轉(zhuǎn)寫；(C) 恢復(fù)亂碼單詞；(D) 波斯語答題；(E) 如實回答問題；(F) 映射概念域。(G) 大規(guī)模多任務(wù)語言理解；(H) 上下文詞匯語義理解；每個點都是一個單獨的 LLM，虛線代表隨機表現(xiàn)。

LLM的涌現(xiàn)能力在上下文學(xué)習(xí)（In Context Learning，ICL）[11,13]中得到了很好的體現(xiàn)，嚴(yán)格來說，它可以被視為提示學(xué)習(xí)的子類。上下文學(xué)習(xí)能力是LLM在特定上下文環(huán)境中學(xué)習(xí)的能力，主要思想是來自于類比中學(xué)習(xí)[14]。ICL或提示學(xué)習(xí)使LLM在特定上下文中獲得優(yōu)異的性能，而無需參數(shù)調(diào)整。

一種特殊類型的ICL是思想鏈（Chain-of-Thought, CoT）。用戶可以將復(fù)雜的問題分解為一系列推理步驟作為LLM的輸入。這樣，LLM可以執(zhí)行復(fù)雜的推理任務(wù)[15]。緊急能力在LLM中很常見；目前還沒有令人信服的解釋為什么這些能力會以這樣的方式出現(xiàn)。

Park等人[16]引入了模擬真實人類行為的生成代理，基于預(yù)輸入設(shè)置執(zhí)行日?；顒?，并以自然語言存儲日常記憶。作者將生成代理連接到LLM，創(chuàng)建了一個擁有25個智能代理的小社會，用LLM檢索記憶，并利用其涌現(xiàn)能力來規(guī)劃智能代理的行為。在實驗中，智能代理除了行為之外，還出現(xiàn)了越來越多的社會行為，充分展示了LLM的智能涌現(xiàn)。

1.2. 預(yù)訓(xùn)練

FMs的實現(xiàn)基于遷移學(xué)習(xí)和規(guī)?；痆5]，遷移學(xué)習(xí)的思想[17,18]是將在一個任務(wù)中學(xué)習(xí)到的知識應(yīng)用到另一個任務(wù)中，在深度學(xué)習(xí)中，遷移學(xué)習(xí)分預(yù)訓(xùn)練和微調(diào)兩個階段，F(xiàn)Ms用海量數(shù)據(jù)進行預(yù)訓(xùn)練，得到預(yù)訓(xùn)練模型后，選擇特定的數(shù)據(jù)集進行微調(diào)，以適應(yīng)不同的下游任務(wù)。

預(yù)訓(xùn)練是FMs獲得涌現(xiàn)能力的基礎(chǔ)。通過對海量數(shù)據(jù)進行預(yù)訓(xùn)練，F(xiàn)Ms可以獲得基本的理解和生成能力。預(yù)訓(xùn)練任務(wù)包括監(jiān)督學(xué)習(xí)（Supervised Learning，SL）、自監(jiān)督學(xué)習(xí)（self-supervised learning，SSL）等[19]。早期的預(yù)訓(xùn)練依賴于SL，尤其是在CV中。為了滿足神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需求，構(gòu)建了一些大規(guī)模的監(jiān)督數(shù)據(jù)集，如ImageNet[20]。然而，SL也有一些缺點，即需要大規(guī)模的數(shù)據(jù)標(biāo)注。隨著模型大小和參數(shù)量的逐漸增加，SL的缺點變得更加明顯。在NLP中，由于文本標(biāo)注的難度遠(yuǎn)大于圖像標(biāo)注，SSL因其不需要標(biāo)注的特點逐漸受到學(xué)者們的青睞。

1.2.1.自監(jiān)督學(xué)習(xí)

SSL允許為后續(xù)任務(wù)學(xué)習(xí)未標(biāo)記數(shù)據(jù)中的特征表示。SSL的顯著特點是它們不需要手動標(biāo)記標(biāo)簽，而是從未標(biāo)記的數(shù)據(jù)樣本中自動生成標(biāo)簽。

SSL通常涉及2個主要過程[21]：（a）自監(jiān)督訓(xùn)練階段：訓(xùn)練模型以解決設(shè)計的輔助任務(wù)，并在此階段根據(jù)數(shù)據(jù)屬性自動生成偽標(biāo)簽，旨在讓模型學(xué)習(xí)數(shù)據(jù)的通用表示。（b）下游任務(wù)應(yīng)用階段：經(jīng)過自監(jiān)督訓(xùn)練后，模型學(xué)習(xí)到的知識可以進一步用于實際的下游任務(wù)（Downstream tasks）。下游任務(wù)使用SL方法，其中包括語義分割[22]、目標(biāo)檢測[23]、情感分析[24]。由于自監(jiān)督訓(xùn)練，模型在下游任務(wù)中的泛化能力和收斂速度將大大提高。

SSL方法一般分為3類[25]：基于生成的方法（Generative-based）、基于對比的方法（Contrastive-based）和基于對抗的方法（Adversarial-based）?；谏傻姆椒ǎ核紫仁褂镁幋a器對輸入數(shù)據(jù)進行編碼，然后使用解碼器重新獲得數(shù)據(jù)的原始形式。模型通過最小化誤差來學(xué)習(xí)?；谏傻姆椒òㄗ曰貧w模型（Auto-regressive models）、自編碼模型（Auto-encoding models）等[26]?；趯Ρ鹊姆椒ǎ核ㄟ^輔助任務(wù)構(gòu)造正負(fù)樣本，通過比較與正負(fù)樣本的相似度來學(xué)習(xí)。這樣的方法包括SimCLR[27]等。基于對抗的方法：這種方法由一個生成器和一個鑒別器組成。生成器負(fù)責(zé)生成假樣本，而鑒別器適用于區(qū)分這些假樣本和真實樣本[25]，一個典型的例子是生成對抗網(wǎng)絡(luò)（GANs）[28]。

1.2.2.SSL的輔助任務(wù)

輔助任務(wù)也可以稱為自監(jiān)督任務(wù)，因為它們依賴數(shù)據(jù)本身來生成標(biāo)簽。這些任務(wù)是旨在使模型學(xué)習(xí)與特定任務(wù)相關(guān)的表示，從而更好地處理下游任務(wù)。

在CV中，根據(jù)數(shù)據(jù)屬性設(shè)計輔助任務(wù)的方法主要有4大類[21]：基于生成的方法，基于上下文的方法，基于自由語義標(biāo)簽的方法和跨模態(tài)的方法。其中，基于生成的方法主要涉及圖像或視頻生成任務(wù)[29,30]；基于上下文的輔助任務(wù)主要是利用圖像或視頻的上下文特征設(shè)計的，如上下文相似性、空間結(jié)構(gòu)、時間結(jié)構(gòu)等[31-33]；在基于自由語義標(biāo)簽的輔助任務(wù)中，利用自動生成的語義標(biāo)簽訓(xùn)練網(wǎng)絡(luò)[34]；而基于跨模態(tài)的輔助任務(wù)需要考慮視覺和語音等多種模態(tài)[35]。

在NLP中，最常見的輔助任務(wù)包括[36]中心和鄰近詞預(yù)測（Center and neighbor word prediction）、下一個和鄰近句預(yù)測（Next and neighbor sentence prediction）、自回歸語言建模（Autoregressive Language Modeling）、句子排列（Sentence Permutation）、掩碼語言建模（Masked Language Modeling）等。其中，Word2Vec[37]模型使用中心詞預(yù)測作為輔助任務(wù)，而BERT模型使用下一個句子預(yù)測和掩碼語言建模作為輔助任務(wù)。這些模型被訓(xùn)練來學(xué)習(xí)語料庫的表達(dá)式并應(yīng)用于下游任務(wù)。

1.3. 微調(diào)

微調(diào)是基于已經(jīng)訓(xùn)練好的模型對特定任務(wù)進行進一步訓(xùn)練的過程，以使其適應(yīng)任務(wù)的特定數(shù)據(jù)和要求。通常，已經(jīng)在大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練作為基礎(chǔ)模型，然后在特定任務(wù)上進行微調(diào)以提高性能。目前，在LLM領(lǐng)域，微調(diào)方法包括2種主要方法：指令調(diào)整和對齊調(diào)整[38]。

指令微調(diào)旨在對指令描述的一組數(shù)據(jù)集上的預(yù)訓(xùn)練模型進行微調(diào)[39]。指令微調(diào)一般包括2個階段。首先，需要收集或創(chuàng)建指令格式化的實例。然后，使用這些實例對模型進行微調(diào)。指令微調(diào)允許LLM在以前未見過的任務(wù)上表現(xiàn)出強大的泛化能力。經(jīng)過預(yù)訓(xùn)練和微調(diào)后得到的模型在大多數(shù)情況下都能很好地工作；然而，可能會出現(xiàn)一些特殊情況。例如，在LLM的情況下，訓(xùn)練后的模型可能會出現(xiàn)偽造虛假信息或保留來自語料庫的有偏見的信息。為了避免這樣的問題，提出了人類對齊微調(diào)的概念。目標(biāo)是使模型的行為符合人類的期望[40]。與指令微調(diào)相比，這種對齊需要考慮完全不同的標(biāo)準(zhǔn)。

GPT系列是典型的FM，它的訓(xùn)練過程同樣也包括預(yù)訓(xùn)練和微調(diào)兩階段，以ChatGPT為例，ChatGPT的預(yù)訓(xùn)練過程采用自監(jiān)督預(yù)訓(xùn)練[41]，給定無監(jiān)督語料庫，使用標(biāo)準(zhǔn)語言建模方法優(yōu)化其最大似然估計（MLE），GPT使用了多層Transformer解碼器架構(gòu)[42]，從而產(chǎn)生預(yù)訓(xùn)練模型。

ChatGPT的微調(diào)階段由以下3個步驟組成[40]，首先，對獲得的預(yù)訓(xùn)練模型進行監(jiān)督微調(diào)（Supervised fine-tuning，SFT）；其次，收集比較數(shù)據(jù)以訓(xùn)練獎勵模型（Reward Model, RM）；以及第三，利用近端策略優(yōu)化（PPO）算法對SFT模型進行微調(diào)，使獎勵最大化[43]，后兩個步驟加在一起就是利用人類反饋的強化學(xué)習(xí)（RLHF）[44]。

1.4. FMs在自動駕駛中的應(yīng)用

自動駕駛的最終目標(biāo)是實現(xiàn)能夠完全替代人類駕駛的駕駛系統(tǒng)，而評價的基本標(biāo)準(zhǔn)是像人類駕駛員一樣駕駛，這對自動駕駛模型的推理能力提出了非常高的要求。我們可以看到，基于大規(guī)模數(shù)據(jù)學(xué)習(xí)的FMs具有強大的推理和泛化能力，在自動駕駛中具有巨大的潛力。在為自動駕駛賦能中，可以利用FMs增強場景理解，給出語言引導(dǎo)的命令，生成駕駛動作。此外，還可以通過強大的生成能力來增強FMs，用于數(shù)據(jù)增強，包括擴展現(xiàn)有的自動駕駛數(shù)據(jù)集和直接生成駕駛場景。特別是，世界模型（FMs的一種）可以學(xué)習(xí)物理世界的內(nèi)部運作，并預(yù)測未來的駕駛場景，這對自動駕駛具有實質(zhì)性的重要意義。

因此，有必要對FMs在自動駕駛中的應(yīng)用進行全面審查。本文對此進行了回顧。

在“有監(jiān)督的端到端自動駕駛”部分，提供了最新有監(jiān)督的端到端自動駕駛的簡要概述，以便讀者更好地了解背景。
“基于語言和視覺模型的類人駕駛”部分回顧了語言和視覺FMs在增強自動駕駛方面的應(yīng)用。
“基于世界模型的自動駕駛預(yù)測”部分回顧了世界模型在自動駕駛領(lǐng)域探索中的應(yīng)用。
“基于基礎(chǔ)模型的數(shù)據(jù)增強”部分回顧了FMs在數(shù)據(jù)增強中的應(yīng)用。

在上述概述的基礎(chǔ)上，“結(jié)論和未來方向”部分介紹了使用FMs增強自動駕駛的挑戰(zhàn)和未來方向。

2 有監(jiān)督的端到端自動駕駛

自動駕駛研究中“預(yù)訓(xùn)練+微調(diào)”的研究思路不僅在引入大型模型后才出現(xiàn)，而是已經(jīng)被研究了很長時間。用一個更熟悉的術(shù)語來說，就是端到端自動駕駛。在過去的幾年里，一些學(xué)者已經(jīng)通過各種方式對預(yù)訓(xùn)練骨干進行了優(yōu)化，包括Transformer架構(gòu)和SSL方法。注意，這里的預(yù)訓(xùn)練骨干是指將每個模態(tài)輸入轉(zhuǎn)換為下游任務(wù)（如目標(biāo)檢測、軌跡預(yù)測、決策規(guī)劃等）可用的特征表示的模型。基于Transformer架構(gòu)開發(fā)端到端框架也進行了許多研究嘗試，取得了優(yōu)異的成果。因此，為了更全面地總結(jié)底層模型在自動駕駛中的應(yīng)用，我們認(rèn)為有必要介紹基于預(yù)訓(xùn)練骨干網(wǎng)的端到端自動駕駛相關(guān)研究。在本節(jié)中，我們總結(jié)了關(guān)于端到端自動駕駛解決方案的預(yù)訓(xùn)練骨干網(wǎng)的最新研究。這些方法的流程在圖3中簡要說明。

2.1. 預(yù)訓(xùn)練Backbone

在端到端建模中，從原始數(shù)據(jù)中提取低級信息的特征在一定程度上決定了后續(xù)模型性能的潛力，優(yōu)秀的預(yù)訓(xùn)練Backbone可以賦予模型更強大的特征學(xué)習(xí)能力。

ResNet[45]和VGGNet[46]等預(yù)訓(xùn)練卷積網(wǎng)絡(luò)是端到端模型中使用最廣泛的視覺特征提取骨干。這些預(yù)訓(xùn)練網(wǎng)絡(luò)經(jīng)常被訓(xùn)練為利用目標(biāo)檢測或分割作為提取廣義特征信息的任務(wù)，它們的競爭性能已經(jīng)在許多工作中得到驗證。ViT[47]首先將transformer架構(gòu)應(yīng)用于圖像處理，并取得了出色的分類結(jié)果。Transformer以其更簡單的架構(gòu)和更快的推理速度，具有處理大規(guī)模數(shù)據(jù)的優(yōu)化算法的優(yōu)勢。自注意力機制非常適合處理時間序列數(shù)據(jù)。它能夠?qū)Νh(huán)境中物體的時間運動軌跡進行建模和預(yù)測，有利于融合來自多個來源的異構(gòu)數(shù)據(jù)，如LiDAR點云、圖像、地圖等。

以LSS[48]、BEVDet[49]、BEVformer[50]、BEVerse[51]等為代表的另一類預(yù)訓(xùn)練骨干網(wǎng)，通過提取環(huán)繞攝像頭拍攝的圖像并通過模型學(xué)習(xí)將其轉(zhuǎn)換為鳥瞰圖（BEV）特征，將局部圖像特征從二維（2D）視點索引到3D空間，從而擴展了可用性。近年來，BEV因其能夠更準(zhǔn)確地描述駕駛場景而引起了廣泛的興趣，利用預(yù)訓(xùn)練Backbone輸出等BEV特征的研究不僅限于相機，多模態(tài)感知的提取和融合以BEVFusion[52]為代表的BEV特征進一步為自動駕駛系統(tǒng)提供了更廣闊的視野。然而，需要指出的是，盡管transformer架構(gòu)帶來了巨大的性能增強，但這種Backbone仍然使用SL方法構(gòu)建預(yù)訓(xùn)練模型，這些方法依賴于海量標(biāo)記數(shù)據(jù)，數(shù)據(jù)質(zhì)量也極大地影響了模型的最終結(jié)果。

在相機和點云處理域中，一些工作通過無監(jiān)督或SSL方法實現(xiàn)預(yù)訓(xùn)練Backbone。Wu等[53]提出了PPGeo模型，該模型使用大量未標(biāo)記的駕駛視頻分2個階段完成視覺編碼器的預(yù)訓(xùn)練，并且可以適應(yīng)不同的下游端到端自動駕駛?cè)蝿?wù)。Sautier等[54]提出了BEVContrast，用于汽車LiDAR點云上3D Backbone的自監(jiān)督，它定義了BEV平面中2D單元級別的對比度，保留了PointContrast[55]中的簡單性，同時在下游駕駛?cè)蝿?wù)中保持了良好的性能。特別是，雖然“掩碼+還原”的SSL方法也被認(rèn)為是建模世界的有效方式，Yang等[56]提出了Unipad，它是基于SSL方法實現(xiàn)的，用于掩碼自動編碼和3D渲染。這些多模態(tài)數(shù)據(jù)的一部分被隨機鍵出來進行掩碼并轉(zhuǎn)換到體素空間，其中RGB或深度預(yù)測結(jié)果通過渲染技術(shù)在這樣的3D空間中生成，其余的原始圖像被用作SL的生成數(shù)據(jù)。該方法的靈活性使得能夠很好地集成到2D和3D框架中以及下游任務(wù)，如深度估計、目標(biāo)檢測、分割，以及在模型上進行微調(diào)和訓(xùn)練的許多其他任務(wù)表現(xiàn)出色。

圖3 帶有預(yù)訓(xùn)練Backbone的端到端監(jiān)督式自動駕駛系統(tǒng)。多模態(tài)傳感信息被輸入到預(yù)訓(xùn)練Backbone以提取特征，然后進入由各種方法構(gòu)建的自動駕駛算法框架，以實現(xiàn)規(guī)劃/控制等任務(wù)，從而完成端到端自動駕駛?cè)蝿?wù)。

2.2. 有監(jiān)督的端到端自動駕駛模型

端到端自動駕駛建模的早期工作主要基于各種類型的深度神經(jīng)網(wǎng)絡(luò)，通過模仿學(xué)習(xí)[57-61]或強化學(xué)習(xí)[62-64]的方法構(gòu)建，陳等[3]的工作從方法論的角度分析了端到端自動駕駛面臨的關(guān)鍵挑戰(zhàn)，指出了用Transformer等基礎(chǔ)模型為端到端自動駕駛賦能的未來趨勢，一些學(xué)者嘗試用Transformer構(gòu)建端到端自動駕駛系統(tǒng)，得到了不錯的效果。例如，已經(jīng)有Transfuser[65,66]、NEAT（端到端自動駕駛的神經(jīng)注意力領(lǐng)域）[67]、Scene Transformer[68]、PlanT[69]、Gatform[70]、FusionAD[71]、UniAD[72]、VAD（高效自動駕駛的矢量化場景表示）[73]、GenAD[74]以及許多基于Transformer架構(gòu)開發(fā)的端到端框架。

Chitta等人[65,66]提出了Transfuser，它將來自LiDAR的RGB圖像和BEV視圖作為輸入，使用多個Transformer融合特征圖，并通過單層門控循環(huán)單元（GRU）網(wǎng)絡(luò)預(yù)測接下來4步的軌跡點，隨后通過縱向和橫向比例-積分-微分（PIDs）來控制車輛運行。NEAT[67]進一步將BEV場景映射到軌跡點和語義信息，然后使用中間注意力圖壓縮高維圖像特征，這使得模型可以專注于駕駛相關(guān)區(qū)域，忽略駕駛?cè)蝿?wù)無關(guān)的信息。Renz等人[69]提出的PlanT使用簡單的對象級表示（車輛和道路）作為Transformer編碼器的輸入，并將周圍車輛的速度預(yù)測作為次要任務(wù)來預(yù)測未來的航路點軌跡。Hu等人[72]提出的UniAD增強了解碼器的設(shè)計，并實現(xiàn)了將全棧自動駕駛?cè)蝿?wù)整合到一個統(tǒng)一的框架中，以提高自動駕駛性能，盡管每個任務(wù)仍然依賴不同的子網(wǎng)絡(luò)。這項工作還獲得了CVPR 2023最佳論文獎，這表明了對端到端自動駕駛范式的學(xué)術(shù)認(rèn)可。然而，這些模型往往需要密集的計算。為此，江等人[73]提出了一種方法，將駕駛場景完全向量化，并學(xué)習(xí)實例級結(jié)構(gòu)信息，以提高計算效率。與之前的模塊化端到端規(guī)劃相比，Zheng等人[74]提出了一種生成式端到端，將自動駕駛建模為軌跡生成。

而且，Wang等人[75]提出的Drive Anywhere不僅實現(xiàn)了端到端的多模態(tài)自動駕駛還與LLM相結(jié)合，能夠基于可通過圖像和文本查詢的表示提供駕駛決策。Dong等人[76]生成的基于圖像的動作命令和解釋，并通過構(gòu)建基于Transformer的特征提取模型進行解釋。Jin等人[77]提出了ADAPT模型，通過端到端模型直接輸出帶有推理語言描述的車輛控制信號。這是第一個基于動作感知transformer的駕駛動作字幕架構(gòu)。它在完成駕駛控制任務(wù)的同時，添加了自然語言敘述，以指導(dǎo)自動駕駛控制模塊的決策和行動過程。它還幫助用戶時刻獲取車輛的狀態(tài)和周圍環(huán)境，并更好地了解自動駕駛系統(tǒng)所采取行動的基礎(chǔ)，提高了決策的可解釋性。從中我們亦可窺見Transformer架構(gòu)在增強端到端駕駛決策可解釋性方面的潛力。

3 基于語言和視覺模型的類人駕駛

隨著LLMs BERT、GPT-4和Llama[78]；視覺語言模型（VLMs）CLIP[79]、ALIGN[80]和BLIP-2[81]；和多模態(tài)大語言模型（M-LLMs）GPT-4V[82]、LLaVA[83]和Gemini[84]以及其他FM的顯著研究進展，其強大的推理能力被認(rèn)為為實現(xiàn)人工通用智能迎來了新的曙光[85]，對社會的方方面面產(chǎn)生了顯著而深遠(yuǎn)的影響。在自動駕駛中，語言和視覺等FMs也顯示出巨大的潛力，有望提高自動駕駛模型對駕駛場景的理解和推理能力，為自動駕駛實現(xiàn)類人駕駛。

我們介紹了基于語言和視覺FMs來增強自動駕駛系統(tǒng)對駕駛場景理解，以及推理給出語言引導(dǎo)指令和動作指令的相關(guān)研究，如圖4所示。關(guān)于增強對駕駛場景理解的相關(guān)工作在“駕駛場景理解”部分介紹，關(guān)于給出語言引導(dǎo)指令的推理在“語言引導(dǎo)指令”部分介紹，關(guān)于推理生成駕駛動作在“動作生成”部分介紹。

圖4 利用 FMs 增強自動駕駛，其中 FMs指的是大語言模型和視覺語言模型。FMs可以學(xué)習(xí)感知信息，并利用其強大的理解駕駛場景和推理能力，給出語言指令和駕駛操作，從而增強自動駕駛。

3.1. 駕駛場景理解

Vasudevan等人[86]的研究發(fā)現(xiàn)，通過獲取言語描述和凝視估計可以有效增強模型對場景的理解和對物體的定位能力。Li等人[87]提出了一種生成高級語義信息的圖像字幕模型，以提高其對交通場景的理解。他們的工作驗證了語言和視覺特征可以有效增強對駕駛場景的理解。

Sriram等人[88]提出了一種將語義分割結(jié)果與自然語言命令相結(jié)合的自主導(dǎo)航框架。在CARLA模擬器和KITTI數(shù)據(jù)集[89]中驗證了自然語言命令作為汽車驅(qū)動的有效性。Elhafsi等人[90]通過將觀察到的視覺信息轉(zhuǎn)換為自然語言描述并將其傳遞給LLM，利用其強大的推理能力來識別語義異常。在VLM應(yīng)用的背景下，Chen等人[91]將圖像和文本特征轉(zhuǎn)移到基于CLIP的3D點云網(wǎng)絡(luò)中，以增強模型對3D場景的理解。Romero 等[92]基于CLIP的擴展模型VIVA[93]構(gòu)建了一個視頻分析系統(tǒng)，旨在通過利用VLM的強大理解來提高查詢精度。Tian等人[94]采用VLM來描述和分析駕駛場景，從而增強了對駕駛場景的理解。除了直接對場景數(shù)據(jù)的理解增強，也有學(xué)者探索了對感知特征進行增強。Pan等人[95]設(shè)計了Ego-car提示，以使用CLIP中的LM來增強獲得的BEV特征。Dewangan等人[96]提出了一種增強BEV地圖的方法，通過VLMs（Blip-2[81]、Minigpt-4[97]和Instructblip[98]）檢測BEV中每個對象的特征，并通過語言表征來獲得語言增強的BEV地圖。然而，現(xiàn)有的VLM受限于2D域，缺乏空間感知和長時間域外推的能力。為了解決這個問題，Zhou等人[99]提出了一個模型，即Embodied Language Model（ELM），它增強了對長時間域和跨空間駕駛場景的理解。這是通過使用不同的預(yù)訓(xùn)練數(shù)據(jù)和選擇自適應(yīng)Token來實現(xiàn)的。

3.2. 語言引導(dǎo)指令

在這里，我們回顧了通過FMs給出語言指令的研究，主要是描述性指令，如“前方紅燈，你應(yīng)該減速”、“前方路口，請注意行人”等。Ding等人[100]使用視覺編碼器對視頻數(shù)據(jù)進行編碼，然后將視頻數(shù)據(jù)輸入到LLM中，生成相應(yīng)的駕駛場景描述和建議。特別是，這項工作還提出了一種方法，使高分辨率特征圖和獲得的高分辨率信息融合到M-LLM中，以進一步增強模型的識別、解釋和定位能力。Fu等人[101]探索了利用LLM像人類一樣理解駕駛環(huán)境的潛力，利用LLaMA-Adapter[102]描述場景數(shù)據(jù)，然后通過GPT-3.5給出語言命令。Wen等人[103]提出了DiLu，這是一種基于先前工作的知識驅(qū)動范式，可以基于常識性知識做出決策并積累經(jīng)驗。文章特別指出，DiLu具備指導(dǎo)真實世界數(shù)據(jù)的經(jīng)驗獲取能力，具有自動駕駛系統(tǒng)實際部署的潛力。為了進一步提高基于LLM的自動駕駛的安全性，Wang等人[104]使用基于MPC的驗證器對軌跡規(guī)劃進行評估并提供反饋，然后融合提示學(xué)習(xí)，使LLM能夠進行上下文安全學(xué)習(xí)，這從整體上提高了自動駕駛的安全性和可靠性。為了豐富數(shù)據(jù)輸入以獲得更準(zhǔn)確的場景信息，Wang等人[105]利用多模型LLM使自動駕駛系統(tǒng)能夠獲得語言命令。同時，針對語言命令和車輛控制命令之間的差距，本工作對決策狀態(tài)進行了對齊操作。

前面提到的工作更多的是在數(shù)據(jù)集和仿真環(huán)境的背景下進行的，在實車測試方面已經(jīng)有了一些探索性的工作，Wayve提出了LINGO-1[106]，一種基于視覺-語言-行動的大模型的自動駕駛交互大模型，其中模型可以自我解讀，并在駕駛時進行視覺回答，它引入了人類駕駛體驗，可以通過自然語言描述解釋駕駛場景中的各種因果要素，以類人理解的方式獲取駕駛場景中的特征信息，學(xué)習(xí)并給出交互式語言命令。Cui等人[107]創(chuàng)新性地將LLM置于云端，輸入人類命令，并利用LLM的推理能力生成執(zhí)行代碼。然而，該工作存在延遲問題，在自動駕駛的實時性能要求方面有改進的空間。

當(dāng)前研究中將LLM納入自動駕駛系統(tǒng)的流程如圖4所示，主要通過場景理解、高級語義決策和軌跡規(guī)劃來實現(xiàn)。在本節(jié)中，我們總結(jié)了高級決策應(yīng)用，并認(rèn)為研究過程有一些相似之處。為了更清楚地說明它們是如何工作的，我們使用最近的典型研究工作DriveMLM[105]作為示例在圖5中進一步說明。

DriveMLM通過使用M-LLM模擬模塊化自動駕駛系統(tǒng)的行為規(guī)劃模塊，該模塊基于處理后的感知信息和命令要求，在逼真的模擬器中執(zhí)行閉環(huán)自動駕駛。DriveMLM還生成其駕駛決策的自然語言解釋，從而增加系統(tǒng)的透明度和可信度。

圖5 關(guān)于LLM在自動駕駛系統(tǒng)決策中的應(yīng)用，圖中顯示了一個典型架構(gòu)，參考DriveMLM [105]。

3.3. 動作生成

正如“語言引導(dǎo)指令”部分所描述的，學(xué)術(shù)界和工業(yè)界已經(jīng)嘗試將GPT語言知識嵌入到自動駕駛決策中，以語言指令的形式增強自動駕駛的性能，以促進FMs在自動駕駛中的應(yīng)用。早在FMs在LLM領(lǐng)域取得突破之前，就有一些工作試圖通過類似的研究思路來提高自動駕駛的性能。例如，Casas等人[108]提出的MP3框架使用高層語義信息作為決策訓(xùn)練指導(dǎo)，這些信息與感知數(shù)據(jù)一起構(gòu)成輸入，以構(gòu)建算法來實現(xiàn)運動預(yù)測。

語言大模型在自動駕駛領(lǐng)域的應(yīng)用研究方興未艾，GPT系列作為transformer架構(gòu)目前最為成功的變體，或許能夠在多個層面為提升綜合表現(xiàn)帶來新的突破。從語言知識層面來看，LLM是FMs代表；然而，語言描述和推理并不是自動駕駛系統(tǒng)直接應(yīng)用的?？紤]到大模型有望真正部署在車端，最終需要落在規(guī)劃或控制指令上；即FMs最終應(yīng)該從動作狀態(tài)層面賦能自動駕駛。盡管如此，如何將語言決策量化為自動駕駛系統(tǒng)可用的動作命令，如規(guī)劃和控制，仍然面臨著巨大的挑戰(zhàn)。一些學(xué)者已經(jīng)進行了初步探索，但仍有很大的發(fā)展空間。此外，一些學(xué)者探索了通過類似GPT的方法構(gòu)建自動駕駛模型，該方法直接輸出基于LLM的軌跡甚至控制命令。在表1中，我們簡要概述了一些代表性工作。

表1 利用 LLM 生成自動駕駛規(guī)劃和控制的工作

Sha等人[109]提出了LanguageMPC，它采用GPT-3.5作為需要人類常識理解的復(fù)雜自動駕駛場景的決策模塊。通過設(shè)計認(rèn)知路徑來實現(xiàn)LLM中集成推理的，Sha等人提出了將LLM決策轉(zhuǎn)化為可操作的駕駛控制命令的算法，從而提高了車輛處理復(fù)雜駕駛行為的能力。Jain等人[110]的研究對明確的語言命令借助視覺感知實現(xiàn)導(dǎo)航定位并進一步規(guī)劃軌跡。Omama等人[111]構(gòu)建了一種名為ALT-Pilot的基于多模態(tài)地圖的導(dǎo)航和定位方法，該方法可用于導(dǎo)航到任意目的地，而無需高清LiDAR地圖，證明了現(xiàn)成的視覺LMs可用于構(gòu)建語言增強的地形地圖。Pan等人[95]在訓(xùn)練階段提出了VLP方法，以提高具有LLM強大推理能力的自動駕駛系統(tǒng)視覺感知和運動規(guī)劃的上下文推理，并在開環(huán)端到端運動規(guī)劃任務(wù)中取得了優(yōu)異的性能。

一些學(xué)者還嘗試通過類似GPT的方法直接構(gòu)建自動駕駛模型，即利用LLM構(gòu)建端到端的自動駕駛規(guī)劃器，直接輸出預(yù)測軌跡、路徑規(guī)劃甚至控制命令，旨在有效提高自動駕駛模型對未知駕駛場景的泛化能力。

Pallagani等人[112]構(gòu)建了Plansformer，它既是一個LLM，也是一個規(guī)劃器，顯示了從多種規(guī)劃任務(wù)中展現(xiàn)了大語言模型微調(diào)后作為規(guī)劃器的巨大潛力。Wang等人[113]構(gòu)建了BEVGPT模型，該模型將道路上當(dāng)前環(huán)境信息作為輸入，然后輸出一個序列，其中包括未來的車輛決策指令和自動駕駛車輛可以遵循的空間路徑。

一些工作[114-119]將文本提示和道路上當(dāng)前環(huán)境的信息作為輸入，然后輸出文本響應(yīng)或解釋，以及包括未來車輛決策指令和自動駕駛車輛可以遵循的空間路徑的序列。其中，Cui等人[117]利用GPT-4輸入自然語言描述和環(huán)境感知數(shù)據(jù)，使LLM直接輸出駕駛決策和操作命令。此外，他們在參考文獻[118]中對高速公路超車和變道場景進行了實驗。[118]比較了LLM提供的具有不同提示的駕駛決策，研究表明鏈?zhǔn)剿季S提示有助于LLM做出更好的駕駛決策。

一些學(xué)者也嘗試了不同的想法。Seff等人[120]提出了MotionLM，它將運動預(yù)測作為語言建模任務(wù)，通過將連續(xù)軌跡表示為運動tokens的離散序列來學(xué)習(xí)多模態(tài)分布，利用單一標(biāo)準(zhǔn)語言建模目標(biāo)來預(yù)測路網(wǎng)參與者的未來行為。Mao等人[121]提出了GPT-Driver模型，通過將規(guī)劃者的輸入和輸出表示為語言標(biāo)記，并利用LLM通過坐標(biāo)位置的語言描述來生成駕駛軌跡，從而將運動規(guī)劃任務(wù)重新表述為語言建模問題。此外，他們[122]提出了Agent Driver，它利用LLM引入了可通過函數(shù)調(diào)用訪問的通用工具庫，用于常識的認(rèn)知記憶和用于決策的經(jīng)驗知識，以及能夠進行CoT推理、任務(wù)規(guī)劃、運動規(guī)劃和自我反思的推理機器，以實現(xiàn)更細(xì)致入微的、類似人類的自動駕駛方法。Ma等人[123]提出了Dolphins，它能夠執(zhí)行諸如理解場景、行為預(yù)測和軌跡規(guī)劃等任務(wù)。這項工作證明了視覺LM能夠全面理解復(fù)雜和開放世界長尾駕駛場景，解決一系列自動駕駛?cè)蝿?wù)的能力，以及包括上下文學(xué)習(xí)、無梯度的即時適應(yīng)和反思性錯誤恢復(fù)在內(nèi)的緊急類似人類的能力。

考慮到視覺語言模型（VLM）的規(guī)模挑戰(zhàn)，Chen等人[124]基于數(shù)字矢量模態(tài)比圖像數(shù)據(jù)更緊湊的想法，將矢量化2D場景表示與預(yù)訓(xùn)練的LLM融合，以提高LLM對綜合駕駛情況的解釋和推理能力，給出場景解釋和車輛控制命令。Tian等人[94]提出DriveVLM，它通過CoT機制，不僅能夠生成圖像序列中呈現(xiàn)的場景的描述和分析，以做出駕駛決策指導(dǎo)，還可以進一步實現(xiàn)與傳統(tǒng)自動駕駛流程相結(jié)合的軌跡規(guī)劃。所提出的工作還為VLM在空間推理和計算方面固有的挑戰(zhàn)提供了可能的解決方案，實現(xiàn)了現(xiàn)有自動駕駛方法和基于大型模型的方法之間的有效過渡。

與上一個小節(jié)一樣，對于LLM應(yīng)用于自動駕駛系統(tǒng)軌跡規(guī)劃直接生成的研究工作，我們以圖6中最近的一項典型研究工作LMDrive[119]為例，希望能更清楚地說明它是如何工作的。LMDrive基于Carla模擬器，模型訓(xùn)練由預(yù)訓(xùn)練和命令微調(diào)2個階段組成。在預(yù)訓(xùn)練階段，預(yù)測頭被添加到視覺編碼器中以執(zhí)行預(yù)訓(xùn)練任務(wù)。預(yù)訓(xùn)練完成后，預(yù)測頭被丟棄，視覺編碼器被凍結(jié)。在指令微調(diào)階段，為每個行駛段配置導(dǎo)航指令和通知指令，通過LLaMA指令編碼的時間序列對視覺tokens進行處理，并與文本令牌一起輸入到LLM中，得到預(yù)測tokens。2-MLP適配器之后，輸出的是汽車未來軌跡的規(guī)劃和指令是否完成的標(biāo)志，規(guī)劃的軌跡通過橫向和縱向PID控制器完成閉環(huán)仿真。

圖6 關(guān)于 LLM 在自動駕駛系統(tǒng)規(guī)劃中的應(yīng)用，圖中顯示了一個典型架構(gòu)，參考LMDrive [119]。

這種類型的研究思路比單純的知識嵌入制作自動駕駛模型更接近人類駕駛。隨著大模型的發(fā)展，也許有潛力成為未來的主要發(fā)展方向之一。運動規(guī)劃作為智能機器人領(lǐng)域的基本主題之一[125]，通過LLM將語言決策量化為自動駕駛系統(tǒng)可用的規(guī)劃甚至控制等動作指令意義非凡，例如通過LLM為自動駕駛系統(tǒng)提供規(guī)劃甚至控制。然而，應(yīng)該注意的是，由于大模型本身未解決的陷阱，這些新框架在可靠性方面也存在問題，如“幻覺”（LLM可能會生成與來源或事實信息相沖突的內(nèi)容）。關(guān)于大型模型本身的問題以及自動駕駛中繼承的挑戰(zhàn)的具體細(xì)節(jié)將在“結(jié)論和未來方向”部分詳細(xì)討論

4 基于世界模型的自動駕駛預(yù)測

世界模型（World models,WMs）是指世界的心理模型。它可以被解釋為一種人工智能模型，包含對其運行的環(huán)境的整體理解或表示。這種模型能夠模擬環(huán)境以做出預(yù)測或決策。在最近的文獻[126,127]中，“世界模型”一詞已在與強化學(xué)習(xí)聯(lián)系中被提及。這一概念在自動駕駛中也獲得了關(guān)注，因為它能夠理解和闡明駕駛環(huán)境的動態(tài)，下文將詳細(xì)介紹。LeCun[128]在他的立場文件中指出，人類和動物的學(xué)習(xí)能力可能植根于他們學(xué)習(xí)世界模型的能力，使他們能夠內(nèi)化和理解世界是如何運作的。他指出，人類和動物已經(jīng)展示出一種能力，即通過觀察少量事件，無論與手頭的任務(wù)相關(guān)還是無關(guān)，就能獲得關(guān)于世界運行的大量背景知識。世界模型的思想可以追溯到Dyna，由Sutton[129]在1991年提出，觀察世界的狀態(tài)并相應(yīng)地采取適當(dāng)?shù)男袆优c世界進行交互學(xué)習(xí)[130]。Dyna本質(zhì)上是監(jiān)督條件下的強化學(xué)習(xí)形式。之后，研究人員也進行了許多嘗試。Ha和Schmidhuber [126]試圖通過利用無監(jiān)督方法——變分自編碼器（VAE）對輸入特征進行編碼，并利用循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）來學(xué)習(xí)狀態(tài)的演變。Hafner等人[131]提出了循環(huán)狀態(tài)空間模型（RSSM），該模型結(jié)合強化學(xué)習(xí)實現(xiàn)了融合隨機性和確定性的多步預(yù)測?；赗SSM架構(gòu)，Hafner等人相繼提出了DreamerV1[132]、DreamerV2[133]、DreamerV3[134]，在隱式變量中學(xué)習(xí)實現(xiàn)圖像預(yù)測生成。Gao等人[135]考慮到隱式中存在冗余信息，通過提出語義屏蔽循環(huán)世界模型（SEM2）來擴展Dreamer系列的框架，學(xué)習(xí)相關(guān)驅(qū)動狀態(tài)。Hu等人[136]去除了預(yù)測獎勵，提出了一種基于模型的模仿學(xué)習(xí)（MILE）方法來預(yù)測未來狀態(tài)。

可以看出，世界模型與強化學(xué)習(xí)、模仿學(xué)習(xí)和深度生成模型高度相關(guān)。然而，在強化學(xué)習(xí)和模仿學(xué)習(xí)中利用世界模型一般需要標(biāo)記數(shù)據(jù)，所提到的SEM2和MILE方法都是在監(jiān)督范式內(nèi)進行的。也有人嘗試基于標(biāo)記數(shù)據(jù)的局限性將強化學(xué)習(xí)和無監(jiān)督學(xué)習(xí)（UL）結(jié)合起來[137,138]。由于與SSL的密切關(guān)系，深度生成模型越來越受歡迎，該領(lǐng)域的研究人員進行了許多嘗試。下面，我們將主要回顧生成世界模型在自動駕駛中的探索性應(yīng)用；流程如圖7所示，“深度生成模型”部分介紹了各類深度生成模型的原理及其在生成驅(qū)動場景中的應(yīng)用，“生成方法”部分介紹了生成世界模型在自動駕駛中的應(yīng)用，“非生成方法”部分將介紹一類非生成方法。

圖7 利用世界模型增強自動駕駛。世界模型首先通過觀察交通環(huán)境學(xué)習(xí)內(nèi)在演變規(guī)律，然后通過連接適應(yīng)不同駕駛?cè)蝿?wù)的不同解碼器來增強自動駕駛功能。

4.1. 深度生成模型

深度生成模型通常包括VAEs[139,140]、生成對抗網(wǎng)絡(luò)（GANs）[28,141]、流模型[142,143]和自回歸模型（ARs）[144-146]。

VAEs結(jié)合了自編碼器和概率圖形模型的思想來學(xué)習(xí)底層數(shù)據(jù)結(jié)構(gòu)和生成新樣本。Rempe等人[147]使用VAE學(xué)習(xí)交通場景的先驗分布，并模擬事故多發(fā)場景的生成。GANs由生成器和判別器組成，它們利用對抗性訓(xùn)練相互競爭和增強，最終實現(xiàn)生成逼真樣本的目標(biāo)。Kim等人[148]使用GAN模型觀察未標(biāo)記視頻幀的序列及其關(guān)聯(lián)的動作對，以模擬動態(tài)交通環(huán)境。流模型通過一系列可逆變換，將簡單的先驗分布轉(zhuǎn)換為復(fù)雜的后驗分布，從而生成相似的數(shù)據(jù)樣本。Kumar等人[149]使用流模型實現(xiàn)多幀視頻預(yù)測。ARs是一類序列分析方法，基于序列數(shù)據(jù)之間的自相關(guān)性，描述現(xiàn)在和過去的關(guān)系，模型參數(shù)的估計通常是利用最小二乘法和最大似然估計來完成的。例如，GPT使用最大似然估計進行模型參數(shù)訓(xùn)練。Feng等人[150]實現(xiàn)了基于自回歸迭代的車輛未來軌跡的生成。Swerdlow等人[151]實現(xiàn)了基于自回歸transformer的街景圖像生成。擴散模型是一種典型的自回歸方法，它從純噪聲數(shù)據(jù)中學(xué)習(xí)逐步去噪的過程。擴散模型憑借其強大的生成性能，是當(dāng)前深度生成模型中的新SOTA。[152-154]等工作證明了擴散模型具有很強的理解復(fù)雜場景的能力，視頻擴散模型可以生成更高質(zhì)量的視頻。[155,156]等工作利用擴散模型生成了復(fù)雜多樣的駕駛場景。

4.2. 生成式方法

基于深度生成模型的強大能力，利用深度生成模型作為世界模型來學(xué)習(xí)駕駛場景以增強自動駕駛已成為一種流行趨勢，以下部分將回顧利用深度生成模型作為世界模型，在自動駕駛中的應(yīng)用。在表2中，我們提供了一些代表性工作的簡要概述。

表2 利用世界模型進行預(yù)測的工作

4.2.1.基于點云的模型

Zhang 等人[157]在Maskgit[158]的基礎(chǔ)之上，并將其重構(gòu)(recast)為離散擴散模型，用于點云預(yù)測。該方法利用VQ-VAE[159]對觀測數(shù)據(jù)進行標(biāo)記化，以進行無標(biāo)簽學(xué)習(xí)。Karlsson 等人[160]使用分層VAE構(gòu)建世界模型，使用潛在變量預(yù)測和對抗建模生成偽完整狀態(tài)，將部分觀察與偽完整觀測值匹配以預(yù)測未來的狀態(tài)，并在KITTI-360[161]數(shù)據(jù)集上對其進行評估。特別的，它利用預(yù)訓(xùn)練的基于視覺的語義分割模型從原始圖像中進行推斷。Bogdoll 等人[162]構(gòu)建了多模態(tài)自動駕駛生成式世界模型MUVO，利用原始圖像和LiDAR數(shù)據(jù)來學(xué)習(xí)世界的幾何表示。該模式以動作為條件，實現(xiàn)了3D占用預(yù)測，并可直接應(yīng)用于下游任務(wù)（如規(guī)劃）。類似地，Zheng等人[163]使用VQ-VAE來標(biāo)記3D占用場景，并構(gòu)建3D占用空間來學(xué)習(xí)可以預(yù)測自我意識車輛運動和駕駛場景演變的世界模型。為了獲得更細(xì)粒度的場景信息，Min等人[164]使用的未標(biāo)記image-LiDAR來預(yù)訓(xùn)練，以構(gòu)建可以生成4D幾何占用的世界模型。

4.2.2.基于圖像的模型

為解決預(yù)測駕駛場景未來變化的難題，Wayve提出了一種生成世界模型GAIA-1[165]。GAIA-1使用transformer作為世界模型來學(xué)習(xí)并預(yù)測輸入視頻、文本和動作信號的下一個狀態(tài)，然后生成逼真的駕駛場景。對于視頻流的學(xué)習(xí)，GAIA-1采用了SSL，可以學(xué)習(xí)規(guī)?；臄?shù)據(jù)而獲得全面的環(huán)境理解。Wang 等人[166]設(shè)計了一個2階段訓(xùn)練策略。首先，采用擴散模型來學(xué)習(xí)駕駛場景并獲得對結(jié)構(gòu)化交通的理解。然后利用視頻預(yù)測任務(wù)構(gòu)建了一個世界模型——DriveDreamer。值得注意的是，通過整合歷史駕駛行為，這種方法能夠生成未來的駕駛動作。Zhao等人[167]通過結(jié)合LLM，在DriveDreamer框架之上構(gòu)建了DriveDreamer-2，根據(jù)用戶描述，LLM生成相應(yīng)的Agent軌跡，以及HDMap信息可控地生成駕駛視頻。Wang等人[168]通過聯(lián)合建模未來的多視圖和多幀來生成駕駛視頻。這種方法大大提高了生成結(jié)果的一致性，并在此基礎(chǔ)上生成了端到端的運動規(guī)劃。

在業(yè)內(nèi)，在2023年CVPR自動駕駛研討會上，特斯拉研究員Ashok Elluswamy介紹了他們在利用生成式大模型生成未來駕駛場景方面的工作[169]。在演示中看到，特斯拉生成式大模型生成的視頻與從真實車輛中捕獲的視頻非常接近。它還可以生成類似標(biāo)注的語義信息，表明該模型也具有一些語義層面的理解和推理能力。特斯拉將他們的工作命名為“Learning a General World Model”，可以看出他們的理解是構(gòu)建一個通用的世界模型。通過從真實車輛中采集的大量視頻數(shù)據(jù)中學(xué)習(xí)，特斯拉意在為自動駕駛構(gòu)建一個大型FM，它可以理解世界的動態(tài)演變。

4.2.3.視頻預(yù)測

視覺是人類獲取有關(guān)世界信息的最直接和最有效的手段之一，因為圖像數(shù)據(jù)中包含的特征信息極其豐富。之前的眾多工作[132-134,138,170]都通過世界模型完成了圖像生成的任務(wù)，證明了世界模型對圖像數(shù)據(jù)具有良好的理解和推理能力。然而，這些主要集中在圖像生成上，在能夠更好地體現(xiàn)世界動態(tài)演變的視頻預(yù)測任務(wù)中仍然有所欠缺。視頻預(yù)測任務(wù)需要對世界演化有更深入的理解，也需要對下游任務(wù)有更強的指導(dǎo)意義。在研究工作[160,165]中，它們都有效地預(yù)測了生成的未來交通場景，其中SSL可能是關(guān)鍵。之前的工作也對此進行了探索。Wichers等人[171利用原始圖像]訓(xùn)練了一個模型，并提出了一種結(jié)合低級像素空間和高級特征空間（如，地標(biāo)）的分層長期視頻預(yù)測方法，與工作[134]相比，實現(xiàn)了更長時間的視頻預(yù)測。Endo等人[172]在SSL范式下構(gòu)建了一個模型，用于從單幀圖像中預(yù)測未來的交通場景以預(yù)測未來。Voleti等人[173]基于具有概率條件分?jǐn)?shù)的去噪擴散模型，通過隨機屏蔽未標(biāo)記的過去幀或未來幀來訓(xùn)練模型，這允許逐塊自回歸生成任意長度的視頻。Finn等人[174]提出了在無監(jiān)督條件下與世界進行物理交互，并通過預(yù)測前一幀像素運動的分布來實現(xiàn)視頻預(yù)測。Micheli等人[175]驗證了利用自回歸Transformer作為世界模型的有效性，并通過SSL訓(xùn)練參數(shù)來實現(xiàn)游戲圖像的預(yù)測。Wu等人[176]構(gòu)建了一個以對象為中心的世界模型，以學(xué)習(xí)對象之間復(fù)雜的時空交互，并生成高視覺質(zhì)量的未來預(yù)測。

受到LLM的啟發(fā)，Wang等人[177]將世界建模視為無監(jiān)督的視覺序列建模。使用VQ-GAN將視覺輸入映射為離散的標(biāo)記[178]，然后使用時空轉(zhuǎn)換器預(yù)測掩碼tokens，以學(xué)習(xí)其中的物理演變規(guī)律，從而獲得在各種場景下生成視頻的能力。類似于LLM的tokens，OpenAI研究人員將視覺數(shù)據(jù)轉(zhuǎn)換為patches，以提出視頻生成模型Sora。為了解決視覺數(shù)據(jù)的高維性，他們將視覺數(shù)據(jù)壓縮到一個較低維的潛在空間中，然后在這個潛在空間中進行擴散生成，然后將這個表示映射回像素空間，實現(xiàn)視頻生成。通過從互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)中學(xué)習(xí)，Sora實現(xiàn)了視頻域中的scaling law，Sora可以基于不同的提示生成連貫的高清視頻。同年，谷歌提出了一種生成式交互模型Genie[179]，使用未標(biāo)記的互聯(lián)網(wǎng)游戲視頻進行訓(xùn)練。特別是，Genie提出了一種潛在動作模型來推斷每一幀之間的潛在動作，并通過訓(xùn)練構(gòu)建了潛在動作的碼本。使用時用戶選擇初始幀和指定的潛在動作，并自回歸生成未來幀。隨著模型大小和批量大小的增加，Genie也出現(xiàn)了scaling result。相比之下，Sora旨在生成具有高保真、可變持續(xù)時間和分辨率的視頻內(nèi)容。雖然視頻質(zhì)量不如Sora先進，但Genie針對構(gòu)建生成式交互環(huán)境進行了優(yōu)化，用戶可以在其中逐幀操作以生成視頻。

前面的研究證明了世界模型在增強自動駕駛方面是有效的。世界模型可以直接嵌入到自動駕駛模型中，以完成各種駕駛?cè)蝿?wù)。此外，還探索了學(xué)習(xí)從大規(guī)模視覺數(shù)據(jù)構(gòu)建通用世界模型，如Sora和Genie。這些FMs可以用于數(shù)據(jù)生成（將在“基于基礎(chǔ)模型的數(shù)據(jù)增強”部分討論）。此外，基于FMs的泛化能力，它們可以用于執(zhí)行大量下游任務(wù)，甚至可以用于模擬世界。

4.3. 非生成式方法

與生成式世界模型相比，LeCun[128]通過提出基于能量模型（Energy-based Model）的聯(lián)合提取和預(yù)測架構(gòu)（Joint Extraction and Prediction Architecture，JEPA）來闡述世界模型的不同概念。這是一種非生成式的自監(jiān)督架構(gòu)，因為它不直接從輸入x預(yù)測輸出y，而是將x編碼為sx以預(yù)測表示空間中的sy，如圖8所示。這有一個優(yōu)點，即它不必預(yù)測關(guān)于y的所有信息，并且可以消除不相關(guān)的細(xì)節(jié)。

圖 8 生成法與非生成法的結(jié)構(gòu)比較 [184]。(A) 生成式架構(gòu)通過解碼器網(wǎng)絡(luò)，以附加變量 z（可能是潛在變量）為條件，從兼容信號 x 重構(gòu)信號 y；(B) 聯(lián)合嵌入式預(yù)測架構(gòu)通過預(yù)測器網(wǎng)絡(luò)，以附加變量 z（可能是潛在變量）為條件，從兼容信號 x 預(yù)測信號 y 的嵌入。

JEPA架構(gòu)自提出以來，以優(yōu)異的性能被幾位學(xué)者應(yīng)用于不同領(lǐng)域。在計算機視覺領(lǐng)域中，Skenderi等人[180]提出了Graph-JEPA，這是一種用于圖域的JEPA模型。它將輸入圖劃分為子圖，然后預(yù)測目標(biāo)子圖在上下文子圖中的表示。Graph-JEPA在圖分類和回歸問題上都獲得了優(yōu)異的性能。在音頻領(lǐng)域，F(xiàn)ei等人[181]提出了A-JEPA，它將掩碼建模原理應(yīng)用于音頻。經(jīng)過實驗驗證，A-JEPA已被證明在語音和音頻分類任務(wù)中表現(xiàn)良好。Sun等人提出了JEP-KD[182]，它采用先進的知識蒸餾方法來增強視覺語音識別（Visual Speech Recognition,VSR）的有效性，縮小其與自動語音識別(Automatic Speech Recognition, ASR)之間的性能差距。

在CV領(lǐng)域，Bardes等人[183]提出了MC-JEPA，它采用JEPA架構(gòu)和SSL方法來實現(xiàn)光流和內(nèi)容特征的共同學(xué)習(xí)，從而從視頻中學(xué)習(xí)動態(tài)內(nèi)容特征。從視頻來看，MC-JEPA在各種任務(wù)中表現(xiàn)良好，包括光流估計以及圖像和視頻的分割。meta[184]提出了I-JEPA，用于學(xué)習(xí)高度語義的圖像表示，而無需依賴于手動數(shù)據(jù)增強。將I-JEPA與Vision Transformers結(jié)合使用，在各種任務(wù)中產(chǎn)生了強大的下游性能，包括線性分類、物體計數(shù)和深度預(yù)測。meta在I-JEPA的基礎(chǔ)上，提出V-JEPA[185]將JEPA應(yīng)用于視頻領(lǐng)域。該方法將掩碼預(yù)測與JEPA架構(gòu)相結(jié)合，訓(xùn)練了一系列以特征預(yù)測為SSL目標(biāo)的V-JEPA模型。實驗結(jié)果表明，這些模型在一系列CV下游任務(wù)中表現(xiàn)出優(yōu)異的性能，包括動作識別、動作分類和目標(biāo)分類。

迄今為止，以JEPA為代表的非生成式模型雖然并沒有在自動駕駛領(lǐng)域得到直接的應(yīng)用，但卻存在巨大的潛力。首先，非生成世界模型不是在像素空間中預(yù)測視頻，而是在潛在空間中進行特征預(yù)測。這消除了許多不相關(guān)的細(xì)節(jié)。例如，在自動駕駛的場景預(yù)測任務(wù)中，我們對當(dāng)前道路上其他交通參與者的未來運動更感興趣。此外，對于不在自動駕駛車輛當(dāng)前道路上的其他車輛，例如，比如說旁邊與當(dāng)前道路平行的高架上的其他車輛，我們不考慮它們未來的運動軌跡。JEPA模型消除了這些不相關(guān)的細(xì)節(jié)，并降低了問題的復(fù)雜性。此外，V-JEPA已經(jīng)展示了它在視頻中學(xué)習(xí)特征的能力。通過分析足夠多的駕駛視頻，預(yù)計V-JEPA將廣泛用于生成駕駛場景和預(yù)測未來環(huán)境狀態(tài)等任務(wù)。

5 基于基礎(chǔ)模型的數(shù)據(jù)增強

隨著深度學(xué)習(xí)的不斷發(fā)展，以預(yù)訓(xùn)練和微調(diào)為基礎(chǔ)架構(gòu)的FMs的性能正在提高。FMs正在引領(lǐng)從規(guī)則驅(qū)動的轉(zhuǎn)變數(shù)據(jù)驅(qū)動的學(xué)習(xí)范式。數(shù)據(jù)作為模型學(xué)習(xí)的一個關(guān)鍵方面的重要性是顯而易見的。大量數(shù)據(jù)被用于自動駕駛模型的訓(xùn)練過程，以促進模型在不同駕駛場景下的理解和決策能力。然而，現(xiàn)實數(shù)據(jù)的收集是一個費時費力的過程，因此數(shù)據(jù)增強對于提高自動駕駛模型的泛化能力至關(guān)重要。

數(shù)據(jù)增強的實現(xiàn)需要考慮兩個方面：一方面，如何獲取大規(guī)模數(shù)據(jù)，使反饋到自動駕駛系統(tǒng)的數(shù)據(jù)具有多樣性和廣泛性，另一方面，如何獲取盡可能多的高質(zhì)量數(shù)據(jù)，使用于訓(xùn)練和測試自動駕駛模型的數(shù)據(jù)具有準(zhǔn)確性和可靠性，相關(guān)工作也大致選擇了兩個方向來增強自動駕駛數(shù)據(jù)，一是豐富現(xiàn)有數(shù)據(jù)集的數(shù)據(jù)內(nèi)容，增強駕駛場景的數(shù)據(jù)特征，二是通過仿真生成多層次的駕駛場景。下面將對基于FMs增強數(shù)據(jù)的相關(guān)工作進行綜述，在“自動駕駛數(shù)據(jù)集的擴展”部分，我們描述了擴展數(shù)據(jù)集的相關(guān)工作，在“駕駛場景的生成”部分，我們描述了生成駕駛場景的相關(guān)工作。表3簡要概述了一些代表性工作。

表3 有關(guān)數(shù)據(jù)增強的工作

5.1. 擴展自動駕駛數(shù)據(jù)集

現(xiàn)有的自動駕駛數(shù)據(jù)集大多是通過記錄傳感器數(shù)據(jù)，然后對數(shù)據(jù)進行標(biāo)注來獲得的。這樣獲得的數(shù)據(jù)的特征通常是低級的，更多地存在于數(shù)字表示層面，對于自動駕駛場景的視覺空間特征表征來說是不夠的。自然語言描述被視為增強場景表示的有效方式[79]；Flickr30k[186]、RefCOCO[187]、RefCOCOg[188]和CLEVR-Ref[189]使用簡潔的自然語言描述來確定圖像中相應(yīng)的視覺區(qū)域。Talk2Car[190]融合了圖像、雷達(dá)和激光雷達(dá)數(shù)據(jù)，構(gòu)建了第一個包含自動駕駛汽車自然語言命令的對象引用數(shù)據(jù)集。然而，Talk2Car數(shù)據(jù)集一次只允許引用一個對象。CityFlow-NL[191]通過自然語言描述構(gòu)建了用于多目標(biāo)跟蹤的數(shù)據(jù)集，ReferKITTI[192]通過在相應(yīng)任務(wù)中利用語言查詢實現(xiàn)了對任意目標(biāo)跟蹤的預(yù)測。

FMs在其高級語義理解、推理和解釋能力下，為豐富和擴展自動駕駛數(shù)據(jù)集提供了新思路。Qian等人[193]通過語言模型編碼問題描述，并與傳感器數(shù)據(jù)進行特征融合獲取回答，創(chuàng)建了3D多視圖駕駛場景下的自動駕駛視覺問答數(shù)據(jù)集NuScenes-QA，在語言提示的使用方面取得了重大進展。Wu等人[194]在NuScenes-QA的基礎(chǔ)上進行了拓展，通過語言元素采集、組合，再調(diào)用LLM生成描述構(gòu)建了數(shù)據(jù)集Nuprompt。該數(shù)據(jù)集提供更精細(xì)的匹配3D實例和每個提示，這有助于更準(zhǔn)確地表征自動駕駛儀圖像中的物體。Sima等人[115]考慮到交通要素的相互作用，通過用BLIP-2擴展nuScenes數(shù)據(jù)集[195]構(gòu)建了Graph Visual Question Answering，可以更好地闡明對象之間的邏輯依賴關(guān)系和駕駛?cè)蝿?wù)的層次結(jié)構(gòu)。除了直接擴展增強的自主數(shù)據(jù)集，一些學(xué)者還整合了LLM的CoT能力和視覺模型的跨模態(tài)能力，構(gòu)建了一個自動標(biāo)注系統(tǒng)OpenAnnotate3D[196]，可用于多模態(tài)3D數(shù)據(jù)。通過利用基礎(chǔ)模型的高級理解、推理和解釋能力來擴展數(shù)據(jù)集，有助于更好地評估自動駕駛系統(tǒng)的可解釋性和控制性，從而提高自動駕駛系統(tǒng)的安全性和可靠性。一些代表性工作的比較如表4所示。

表4 擴展數(shù)據(jù)集的比較，“-"表示無法獲得

5.2. 生成駕駛場景

駕駛場景的多樣性對于自動駕駛來說具有相當(dāng)重要的意義，自動駕駛模型要獲得更好的泛化能力，必須學(xué)習(xí)種類繁多的場景。然而，現(xiàn)實情況是駕駛場景符合長尾分布（在其中很大一部分觀察或?qū)嵗性诜植嫉奈膊浚h(yuǎn)離中心或均值。）自動駕駛車輛的“長尾問題”是，自動駕駛車輛能夠處理所經(jīng)常遇到的正常場景，但面對一些罕見或極端情況下的邊緣場景應(yīng)對不佳或無法應(yīng)對。為了解決長尾問題，關(guān)鍵是獲得盡可能多的極端情況。盡管如此，將收集限制在真實場景中是低效的。例如，在邊緣場景挖掘的工作CODA[197]中，100萬數(shù)據(jù)中只有1,057個有效數(shù)據(jù)。

鑒于上述情況，大規(guī)模和高質(zhì)量駕駛場景數(shù)據(jù)的生成需要主動生成大量駕駛場景的能力。傳統(tǒng)方法可以分為兩大類：基于規(guī)則的和數(shù)據(jù)驅(qū)動的?；谝?guī)則的方法[198-201]需要使用預(yù)定義的規(guī)則，不足以表征復(fù)雜環(huán)境，模擬的環(huán)境較為簡單，并且表現(xiàn)出有限的泛化能力。相比之下，數(shù)據(jù)驅(qū)動方法[202-205]利用駕駛數(shù)據(jù)來訓(xùn)練模型，使其能夠不斷學(xué)習(xí)和適應(yīng)。然而，數(shù)據(jù)驅(qū)動方法通常需要大量標(biāo)記數(shù)據(jù)進行訓(xùn)練，阻礙了駕駛場景生成的進一步發(fā)展。此外，這種方法可控性不強，不適合自定義生成。最近，F(xiàn)Ms取得了巨大的成功，通過FMs生成更高質(zhì)量的駕駛場景也引起了重要的研究關(guān)注。一方面，基于FMs強大的理解和推理能力，可以增強數(shù)據(jù)生成的多樣性和準(zhǔn)確性。另一方面，可以設(shè)計不同的提示進行可控生成。

5.2.1.基于LLMs和VLMs

針對一些長尾場景永遠(yuǎn)無法在多視角鏡頭中收集的事實，Yang等人[206]融合了語言提示、BEV sketch和多視角噪聲來設(shè)計一個兩階段生成網(wǎng)絡(luò)BEVControl，用于合成逼真的街道場景圖像。盡管如此，BEVControl不足以對前景和背景細(xì)節(jié)信息進行建模。為了解決獲得大規(guī)模BEV表示的困難，Li等人[207]開發(fā)了一個時空一致的擴散框架DrivingDiffsion，以自回歸生成由3D布局控制的逼真多視圖視頻。通過將本地提示輸入引入視覺模型，可以有效地增強生成數(shù)據(jù)的質(zhì)量。對于可控生成，Wen等人[208]集成了語言提示、圖像條件和BEV序列，設(shè)計了一個可控模塊，以提高駕駛場景生成的可控性。Gao等人[209]通過將文本提示與相機位姿、道路地圖和對象框融合控制相結(jié)合來設(shè)計3D幾何控制，以生成多樣化的道路場景。

基于LLMs和VLMs強大的理解和推理能力，將其直接嵌入或引導(dǎo)模型生成駕駛場景也成為研究熱點。Marathe等人[210]通過提示利用VLM有效地生成了包含16個極端天氣的數(shù)據(jù)集。盡管如此，由于數(shù)據(jù)選擇中存在預(yù)選定現(xiàn)象，該模型存在一些擴展約束。Chen等人[124]通過對強化學(xué)習(xí)智能體收集的控制命令和LLM生成的問題答案進行配對直接構(gòu)建一個新的數(shù)據(jù)，實現(xiàn)了數(shù)字矢量模態(tài)與自然語言的結(jié)合。Zhong等人[211]提出了一種基于場景級擴散的語言引導(dǎo)交通仿真模型CTG++，可以生成符合指令的、逼真、可控的交通場景。Wang等人[75]利用自然語言描述作為概念表述與LLM集成，通過利用其強大的常識推理能力來豐富生成場景的復(fù)雜性。人類駕駛員的行為也是駕駛場景的重要組成部分，jin 等人[212]一種基于LLM的城市環(huán)境中的生成式駕駛代理模擬框架SurrealDriver，通過分析和學(xué)習(xí)真實駕駛數(shù)據(jù)，SurrealDriver可以捕捉駕駛員的行為模式和決策過程，并生成與真實駕駛中相似的行為序列。

5.2.2.基于世界模型

為了實現(xiàn)駕駛場景的可控性生成，Wang等人[166]結(jié)合文本提示和結(jié)構(gòu)化交通約束，用文本描述來引導(dǎo)像素點的生成。為了獲得更準(zhǔn)確的動態(tài)信息，Wang 等人[168]將駕駛動作融入可控架構(gòu)，利用文本描述、布局和自我動作來控制視頻生成。然而，這些方法引入了更多的結(jié)構(gòu)信息，這限制了模型的交互性。為了解決這個問題，Zhao等人[167]提出了一種將LLM與世界模型相結(jié)合的新穎方法。這種方法涉及使用LLM將用戶查詢轉(zhuǎn)換為代理的軌跡，然后用于生成HDMap，再引導(dǎo)駕駛視頻的生成。

利用駕駛場景的FMs可以實現(xiàn)高效和準(zhǔn)確的可控性生成。這將能夠為模型提供多樣化的訓(xùn)練數(shù)據(jù)，這對于提高自動駕駛系統(tǒng)的泛化能力很重要。一些代表性工作的比較如表5所示。此外，生成的駕駛場景可用于評估不同的自動駕駛模型，以測試和驗證其性能。當(dāng)然，我們也應(yīng)該能夠看到，隨著Sora和Genia等各種大規(guī)模FMs的出現(xiàn)，自動駕駛視頻的生成提供了新的潛在思路。模型不限于駕駛領(lǐng)域，而是可以利用從通用視頻領(lǐng)域訓(xùn)練中獲得的模型用于遷移學(xué)習(xí)。雖然目前該領(lǐng)域的技術(shù)還不完善，但我們相信，未來隨著相關(guān)技術(shù)的突破，我們甚至可以利用它們生成我們需要的各種駕駛場景，真正學(xué)習(xí)一個模擬世界的世界模型。

表5 nuScenes 數(shù)據(jù)集的視頻生成性能，-"表示不可獲得。FID 指示器和 FVD 指示器分別提供圖像和視頻質(zhì)量的反饋。

6 結(jié)論和未來方向

本文對FMs在自動駕駛領(lǐng)域的應(yīng)用做了較為全面的綜述。在“基于語言和視覺模型的類人駕駛”部分，詳細(xì)總結(jié)了LLMs和VLMs等基礎(chǔ)模型應(yīng)用于自動駕駛的最新工作。在“基于世界模型的自動駕駛預(yù)測”部分，我們展示了世界模型在自動駕駛領(lǐng)域的探索性應(yīng)用。在“基于基礎(chǔ)模型的數(shù)據(jù)增強”部分，詳細(xì)介紹了FMs數(shù)據(jù)增強的最新工作?？傮w而言，F(xiàn)Ms可以在增強數(shù)據(jù)和優(yōu)化模型方面有效地輔助自動駕駛。

為了評估FMs在自動駕駛中的有效性，我們在表6中比較了不同的FMs和傳統(tǒng)方法在運動規(guī)劃中的有效性。由于LLM和VLM的相對成熟，可以觀察到基于它們的增強自動駕駛的方法總體上得到了改進。相比之下，基于WMs的方法仍在進一步探索中，發(fā)表的工作相對較少。盡管如此，通過前面的分析，我們也可以看到世界模型擅長學(xué)習(xí)物理世界的演變規(guī)律，在增強自動駕駛方面有巨大潛力。

表6 nuScenes 驗證數(shù)據(jù)集上的運動規(guī)劃性能

挑戰(zhàn)和未來方向. 盡管如此，從以前的研究中可以明顯看出，基于FMs的自動駕駛技術(shù)還不夠成熟。這種現(xiàn)象可以歸因于幾個因素。FMs存在幻覺問題[213,214]，以及學(xué)習(xí)視頻這一高維連續(xù)模式仍然存在局限性。此外，還應(yīng)考慮推理延遲[215,216]引起的部署問題以及潛在的倫理影響和社會影響。

幻覺. 幻覺錯誤問題在自動駕駛中主要表現(xiàn)為的誤識別，如目標(biāo)檢測錯誤，可能造成嚴(yán)重的安全事故。幻覺問題的產(chǎn)生主要是由于數(shù)據(jù)集樣本有限或模型受到不平衡或噪聲數(shù)據(jù)的影響，需要利用擴展數(shù)據(jù)和對抗性訓(xùn)練來增強穩(wěn)定性和泛化能力。

實際部署. 如前所述，當(dāng)前關(guān)于自動駕駛中的FM的大多數(shù)研究都是基于開源數(shù)據(jù)集實驗[95,121]或仿真環(huán)境中的閉環(huán)實驗[105,119]，這對于實時性的考慮是不夠的。此外，一些研究[215,216]強調(diào)大型模型具有一定的推理延遲，這可能會導(dǎo)致自動駕駛應(yīng)用中的重大安全問題。為了進一步探索FM對于自動駕駛中實時應(yīng)用的有效性，我們進行了一項實驗[217]。我們使用低秩自適應(yīng)（LoRA）[218]來微調(diào)LLaMA-7B[78]，微調(diào)的LLM可以推理生成駕駛語言命令。為了驗證其在駕駛場景下的實時性能，我們分別在單個GPU A800和單個GPU 3080上進行推理，生成6個tokens所需的時間分別為0.9秒和1.2秒，有效驗證了FM的車端部署是可能的。同時，Tian等人的DriveVLM[94]工作也在NVIDIA Orin平臺上實現(xiàn)了二級部署推理，進一步支持了車載FM的可行性。未來，隨著邊緣計算和車載計算能力的提升[219]，可能會逐步走向向車端、路端和云端的混合部署模式過渡，進一步提高實時響應(yīng)能力和隱私保護水平。

AI 對齊. FMs深入到包括自動駕駛在內(nèi)的各個行業(yè)是一個主要趨勢。盡管如此，隨著相關(guān)研究的繼續(xù)，人類社會面臨的風(fēng)險也在繼續(xù)。先進AI系統(tǒng)表現(xiàn)出不良行為（例如欺騙）是一個令人擔(dān)憂的原因，尤其是在自動駕駛這種直接關(guān)系到人身安全的領(lǐng)域領(lǐng)域，需要認(rèn)真討論和思考。對此，已經(jīng)提出了AI Alignment并得到發(fā)展。AI Alignment的目標(biāo)是使AI系統(tǒng)的行為與人類的意圖和價值觀保持一致。這種方法側(cè)重于AI系統(tǒng)的目標(biāo)，而不是它們的能力[220]。AI Alignment有助于先進AI系統(tǒng)在各個領(lǐng)域?qū)嵤r的風(fēng)險可控、操作穩(wěn)健性、人類倫理性和可解釋性[221]，這是一個龐大的涉及眾多AI相關(guān)領(lǐng)域的研究體系。由于本文集中在自動駕駛領(lǐng)域，并沒有深入研究風(fēng)險原因和解決方案的細(xì)節(jié)，我們在此不再進一步闡述。在自動駕駛領(lǐng)域，需要注意的是，在推動FMs應(yīng)用的同時，研究人員必須在AI Alignment的指導(dǎo)下建立合理的技術(shù)倫理。這包括關(guān)注算法公平、數(shù)據(jù)隱私、系統(tǒng)安全和人機關(guān)系等問題。此外，促進技術(shù)發(fā)展和社會價值觀的統(tǒng)一以避免潛在的倫理和社會風(fēng)險至關(guān)重要。

視覺涌現(xiàn)能力. FMs隨著模型的擴大出現(xiàn)涌現(xiàn)能力，并在NLP方面取得了成功。然而，在自動駕駛的背景下，由于有限的可用數(shù)據(jù)和擴展的上下文長度問題，這方面的研究面臨著額外的開放性挑戰(zhàn)。這些挑戰(zhàn)導(dǎo)致對宏觀駕駛場景的理解不足，從而使該領(lǐng)域的長期規(guī)劃復(fù)雜化。駕駛視頻是一種高維連續(xù)模態(tài)，數(shù)據(jù)量極大（與文本數(shù)據(jù)相比要大幾個數(shù)量級）。因此，訓(xùn)練視覺大模型需要更宏觀的場景分布，來嵌入足夠的視頻幀來推理復(fù)雜的動態(tài)場景，這需要更強大的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略來學(xué)習(xí)這些信息。Bai等人[222]在最近的一項研究中提出了一種兩階段方法，其中圖像被轉(zhuǎn)換為離散的tokens以獲得“視覺句子”，然后進行自回歸預(yù)測，類似于LM[13]的標(biāo)準(zhǔn)方法。另一個有希望的解決方案可能在于世界模型 ,正如“基于世界模型的自動駕駛預(yù)測”部分所述，世界模型可以通過觀察少量與任務(wù)相關(guān)或不相關(guān)的事件來學(xué)習(xí)世界的內(nèi)在進化規(guī)律。然而，世界模型在探索性應(yīng)用中也有一定的局限性，在探索性應(yīng)用中，模型預(yù)測結(jié)果的不確定性，以及學(xué)習(xí)什么樣的數(shù)據(jù)可以捕獲世界運作的內(nèi)在規(guī)律仍值得進一步探索。

綜上所述，雖然將FMs應(yīng)用于自動駕駛有許多挑戰(zhàn)需要解決，但其潛力已經(jīng)開始顯現(xiàn)，未來我們將繼續(xù)監(jiān)測FMs應(yīng)用于自動駕駛的進展。

參考文獻

責(zé)編丨高炳釗

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：新能源公司與哈爾濱理工大學(xué)聯(lián)合研究中心揭牌
上一篇：中國汽研智能駕駛自主可控檢測裝備首批聯(lián)合驗證正式啟動

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護	• 單機體積，雙倍效能！激光切割機玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬	• 即刻探索8臺機器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強化學(xué)習(xí)增強運	• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

基礎(chǔ)模型在推進自動駕駛汽車中的前瞻性作用

微信公眾號

1 引言

2 有監(jiān)督的端到端自動駕駛

3 基于語言和視覺模型的類人駕駛

4 基于世界模型的自動駕駛預(yù)測

5 基于基礎(chǔ)模型的數(shù)據(jù)增強

6 結(jié)論和未來方向

參考文獻

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工