Waymo端到端自動(dòng)駕駛：OpenEMMA

2024-12-27 17:15:37· 來(lái)源：汽車(chē)未來(lái)科技Lab

多模態(tài)大語(yǔ)言模型（MLLMs）自問(wèn)世以來(lái)，在眾多實(shí)際應(yīng)用領(lǐng)域產(chǎn)生了重大影響，尤其是在自動(dòng)駕駛（AD）方面。這些模型能夠處理復(fù)雜的視覺(jué)數(shù)據(jù)，并對(duì)細(xì)致的駕駛場(chǎng)景進(jìn)行推理，為端到端的自動(dòng)駕駛系統(tǒng)開(kāi)創(chuàng)了新的范式。然而，由于現(xiàn)有的微調(diào)方法需要大量的資源——包括強(qiáng)大的計(jì)算能力、大規(guī)模的數(shù)據(jù)集和大量的資金——開(kāi)發(fā)端到端的自動(dòng)駕駛模型進(jìn)展較為緩慢。

受到最近在推理計(jì)算方面進(jìn)展的啟發(fā)，Texas A&M University等團(tuán)隊(duì)提出了OpenEMMA，這是一個(gè)基于MLLMs的開(kāi)源端到端框架。通過(guò)引入鏈?zhǔn)剿季S（Chain-of-Thought）推理過(guò)程，OpenEMMA在利用多種不同的MLLMs時(shí)，相較于基準(zhǔn)模型實(shí)現(xiàn)了顯著的改進(jìn)。此外，OpenEMMA在各種具有挑戰(zhàn)性的駕駛場(chǎng)景中展示了其有效性、泛化能力和魯棒性，為自動(dòng)駕駛提供了一種更高效且有效的方法。

為了應(yīng)對(duì)類似EMMA這樣的閉源模型的局限性，我們引入了OpenEMMA——一個(gè)開(kāi)源的端到端自動(dòng)駕駛（AD）框架。該框架旨在使用公開(kāi)可用的工具和模型來(lái)復(fù)制EMMA的核心功能，從而實(shí)現(xiàn)這些先進(jìn)技術(shù)的民主化，為更廣泛的研究和發(fā)展提供平臺(tái)。

與EMMA相似，OpenEMMA以面向前方的攝像頭圖像和文本形式的歷史自車(chē)狀態(tài)作為輸入。駕駛?cè)蝿?wù)被構(gòu)架為視覺(jué)問(wèn)答（VQA）問(wèn)題，通過(guò)鏈?zhǔn)剿季S（Chain-of-Thought）推理引導(dǎo)模型生成關(guān)于關(guān)鍵物體的詳細(xì)描述、行為洞察以及元駕駛決策。這些決策由模型直接推斷得出，為路徑點(diǎn)生成提供了必要的背景信息。

針對(duì)多模態(tài)大語(yǔ)言模型（MLLMs）在目標(biāo)檢測(cè)任務(wù)上的已知局限性，OpenEMMA集成了一個(gè)特別優(yōu)化用于3D邊界框預(yù)測(cè)的微調(diào)版YOLO，顯著提高了檢測(cè)精度。此外，利用MLLMs預(yù)先存在的世界知識(shí)，OpenEMMA能夠?yàn)橹T如場(chǎng)景理解等感知任務(wù)產(chǎn)生可解釋的、人類可讀的輸出，從而增強(qiáng)了透明度和易用性。

整個(gè)處理流程和支持的任務(wù)如圖1所示。通過(guò)這種方式，OpenEMMA不僅提升了自動(dòng)駕駛系統(tǒng)的性能，還促進(jìn)了社區(qū)內(nèi)的協(xié)作和創(chuàng)新。

團(tuán)隊(duì)開(kāi)發(fā)了OpenEMMA，這是一個(gè)基于預(yù)訓(xùn)練的多模態(tài)大語(yǔ)言模型（MLLMs）L的計(jì)算高效的端到端自動(dòng)駕駛（AD）系統(tǒng)。如圖1所示，OpenEMMA通過(guò)將歷史駕駛狀態(tài)T和視覺(jué)駕駛場(chǎng)景I作為輸入，來(lái)預(yù)測(cè)未來(lái)的行駛軌跡P，并同時(shí)檢測(cè)交通參與者。

具體來(lái)說(shuō)，OpenEMMA利用了預(yù)訓(xùn)練的MLLMs的強(qiáng)大能力，這些模型已經(jīng)學(xué)習(xí)了大量的世界知識(shí)和模式識(shí)別技能。在給定當(dāng)前車(chē)輛周?chē)囊曈X(jué)信息（例如，來(lái)自攝像頭的圖像）和過(guò)去一段時(shí)間內(nèi)的駕駛狀態(tài)（例如，速度、方向、位置等）后，OpenEMMA能夠：

1. 預(yù)測(cè)未來(lái)軌跡：根據(jù)過(guò)去的駕駛行為和當(dāng)前的視覺(jué)場(chǎng)景，預(yù)測(cè)車(chē)輛接下來(lái)可能的行駛路徑。

2. 檢測(cè)交通參與者：識(shí)別并分類道路上的其他對(duì)象，如行人、自行車(chē)、其他車(chē)輛等，這對(duì)于確保安全駕駛至關(guān)重要。

3. 做出決策：使用鏈?zhǔn)剿季S（Chain-of-Thought）推理過(guò)程，對(duì)復(fù)雜的駕駛情況進(jìn)行分析，從而為車(chē)輛提供必要的操作指導(dǎo)，比如加速、減速或轉(zhuǎn)向。

OpenEMMA的設(shè)計(jì)旨在提高自動(dòng)駕駛系統(tǒng)的效率和性能，同時(shí)保持較低的計(jì)算資源需求，使其更易于部署和廣泛應(yīng)用。此外，作為一個(gè)開(kāi)源項(xiàng)目，它促進(jìn)了社區(qū)內(nèi)的協(xié)作和創(chuàng)新，推動(dòng)了自動(dòng)駕駛技術(shù)的進(jìn)步。

利用預(yù)訓(xùn)練的多模態(tài)大語(yǔ)言模型（MLLMs）的強(qiáng)大能力，我們將鏈?zhǔn)剿季S（Chain-of-Thought）推理過(guò)程整合到端到端的軌跡規(guī)劃過(guò)程中，采用與基于指令的方法。由于MLLMs是用人類可解釋的知識(shí)進(jìn)行訓(xùn)練的，我們促使這些模型生成同樣具有人類可解釋性的知識(shí)。

不同于以往直接在局部坐標(biāo)中生成軌跡的預(yù)測(cè)方法，我們生成了兩個(gè)中間表示：速度向量和曲率向量。其中：

速度向量表示車(chē)輛速度的大小，反映了駕駛者應(yīng)踩油門(mén)的程度。

曲率向量表示車(chē)輛的轉(zhuǎn)向率，對(duì)應(yīng)于駕駛者轉(zhuǎn)動(dòng)方向盤(pán)的角度。

這種設(shè)計(jì)旨在反映人類駕駛行為的本質(zhì)：速度決定了油門(mén)的力度，而曲率則決定了方向盤(pán)的轉(zhuǎn)動(dòng)程度。通過(guò)這種方式，OpenEMMA不僅能夠提供更貼近人類駕駛習(xí)慣的決策，還能確保其輸出易于理解和解釋，從而提高了系統(tǒng)的透明度和可信度。此外，這種方法有助于增強(qiáng)自動(dòng)駕駛系統(tǒng)的安全性和可靠性，因?yàn)樗瓜到y(tǒng)的行為更加直觀，便于人類駕駛員理解和信任。具體公式如下圖所示：

這種方法通過(guò)將軌跡生成任務(wù)分解為人類可解釋的組件，提供了一個(gè)穩(wěn)健且易于理解的規(guī)劃路徑，模擬了駕駛過(guò)程。具體分為以下幾個(gè)階段：

階段1：推理

在第一階段，我們利用駕駛場(chǎng)景的前置攝像頭圖像以及自車(chē)過(guò)去5秒的歷史數(shù)據(jù)（包括速度和曲率）作為輸入到預(yù)訓(xùn)練的多模態(tài)大語(yǔ)言模型（MLLMs）。隨后，我們?cè)O(shè)計(jì)特定任務(wù)的提示來(lái)引導(dǎo)MLLMs對(duì)當(dāng)前自車(chē)駕駛場(chǎng)景進(jìn)行全面推理，具體來(lái)說(shuō)，推理過(guò)程涵蓋以下三個(gè)方面：

1. 意圖指令 (Intent Command)

明確表達(dá) 自車(chē)基于當(dāng)前場(chǎng)景的預(yù)期動(dòng)作，例如：

繼續(xù)沿車(chē)道行駛、左轉(zhuǎn)、右轉(zhuǎn)或直行。

是否應(yīng)保持當(dāng)前速度、減速或加速。

這些意圖指令為后續(xù)軌跡規(guī)劃提供了清晰的方向，并確保了駕駛決策的一致性和安全性。

2. 場(chǎng)景描述 (Scene Description)

簡(jiǎn)潔描述當(dāng)前駕駛場(chǎng)景，根據(jù)交通信號(hào)燈狀態(tài)、其他車(chē)輛或行人的動(dòng)態(tài)以及車(chē)道標(biāo)記進(jìn)行說(shuō)明。例如：

“前方紅燈亮起，左右兩側(cè)無(wú)車(chē)輛，行人正在通過(guò)右側(cè)人行橫道?！?/span>

“前方綠燈通行，左側(cè)車(chē)輛準(zhǔn)備并入本車(chē)道?！?/span>

這有助于系統(tǒng)全面理解當(dāng)前環(huán)境，為準(zhǔn)確的駕駛決策提供依據(jù)。

3. 主要對(duì)象 (Major Objects)

識(shí)別道路使用者，即自車(chē)駕駛員應(yīng)注意的對(duì)象，明確他們?cè)隈{駛場(chǎng)景圖像中的位置。對(duì)于每個(gè)道路使用者，提供簡(jiǎn)短描述其當(dāng)前行為，并解釋其存在對(duì)自車(chē)決策過(guò)程的重要性。例如：

行人：“位于右側(cè)人行橫道上，正向左穿越馬路。重要性：需要減速以確保行人安全通過(guò)。”

車(chē)輛：左側(cè)一輛轎車(chē)正在加速準(zhǔn)備并入本車(chē)道。重要性：需注意避讓，可能需要調(diào)整速度或車(chē)道?！?/span>

通過(guò)這種方式，OpenEMMA不僅能夠生成詳細(xì)的駕駛意圖和場(chǎng)景描述，還能識(shí)別關(guān)鍵的道路使用者及其行為，從而為自動(dòng)駕駛系統(tǒng)提供更加精準(zhǔn)和安全的決策支持。這種方法模仿了人類駕駛員的思考過(guò)程，提高了系統(tǒng)的透明度和可解釋性，增強(qiáng)了其應(yīng)對(duì)復(fù)雜駕駛情境的能力。

階段2：預(yù)測(cè)

通過(guò)結(jié)合鏈?zhǔn)剿季S（Chain-of-Thought）推理過(guò)程和自車(chē)的歷史狀態(tài)，促使多模態(tài)大語(yǔ)言模型（MLLMs）生成未來(lái) T 秒內(nèi)的速度 S和曲率 C（共 2T 個(gè)軌跡點(diǎn)），這些預(yù)測(cè)隨后被整合以計(jì)算最終的軌跡 T。

2.2 視覺(jué)專家增強(qiáng)的目標(biāo)檢測(cè)

在自動(dòng)駕駛（AD）中，一個(gè)關(guān)鍵任務(wù)是檢測(cè)道路上物體的3D邊界框。我們發(fā)現(xiàn)，現(xiàn)成的預(yù)訓(xùn)練多模態(tài)大語(yǔ)言模型（MLLMs）由于空間推理能力的限制，難以提供高質(zhì)量的檢測(cè)結(jié)果。為了克服這一挑戰(zhàn)，在不額外微調(diào)MLLM的情況下實(shí)現(xiàn)高精度的檢測(cè)，我們將一個(gè)外部的視覺(jué)專業(yè)模型集成到OpenEMMA中，有效解決了檢測(cè)任務(wù)。

我們的OpenEMMA專注于使用前置攝像頭進(jìn)行目標(biāo)檢測(cè)，并處理單幀數(shù)據(jù)，而不是連續(xù)幀序列。這將任務(wù)置于單目相機(jī)基于的3D目標(biāo)檢測(cè)范圍內(nèi)。該領(lǐng)域的研究一般分為兩類：深度輔助方法[27–29]和僅圖像方法[30–33]。深度輔助方法通過(guò)預(yù)測(cè)深度信息來(lái)輔助檢測(cè)，而僅圖像方法則完全依賴RGB數(shù)據(jù)進(jìn)行直接預(yù)測(cè)。在這些方法中，我們選擇了YOLO3D[30]，因?yàn)樗Y(jié)合了可靠的準(zhǔn)確性、高質(zhì)量的開(kāi)源實(shí)現(xiàn)以及輕量級(jí)架構(gòu)，使得高效微調(diào)和實(shí)際集成成為可能。

YOLO3D 方法概述

YOLO3D 是一種兩階段的3D目標(biāo)檢測(cè)方法，它強(qiáng)制執(zhí)行2D-3D邊界框一致性約束。具體來(lái)說(shuō)，它假設(shè)每個(gè)3D邊界框緊密包含在其對(duì)應(yīng)的2D邊界框內(nèi)。該方法首先預(yù)測(cè)2D邊界框，然后估計(jì)每個(gè)檢測(cè)到物體的3D尺寸和局部方向。3D邊界框的七個(gè)參數(shù)——中心位置、尺寸和偏航角 ——根據(jù)2D邊界框和3D估計(jì)聯(lián)合計(jì)算得出。

這種方法不僅提高了目標(biāo)檢測(cè)的準(zhǔn)確性和魯棒性，還確保了系統(tǒng)能夠快速適應(yīng)新的駕駛環(huán)境，從而增強(qiáng)了OpenEMMA的整體性能和可靠性。

在本文中，我們提出了OpenEMMA——一個(gè)基于多模態(tài)大語(yǔ)言模型（MLLMs）構(gòu)建的開(kāi)源、計(jì)算高效的端到端自動(dòng)駕駛框架。通過(guò)利用自車(chē)的歷史數(shù)據(jù)和前置攝像頭捕捉的圖像，OpenEMMA采用鏈?zhǔn)剿季S（Chain-of-Thought）推理過(guò)程來(lái)預(yù)測(cè)自車(chē)未來(lái)的速度和曲率，并將這些預(yù)測(cè)整合到軌跡規(guī)劃過(guò)程中。

此外，通過(guò)集成一個(gè)微調(diào)后的外部視覺(jué)專業(yè)模型，OpenEMMA實(shí)現(xiàn)了對(duì)道路上3D物體的精確檢測(cè)。該框架不僅展示了相對(duì)于零樣本基線模型的顯著改進(jìn)，還證明了其在各種具有挑戰(zhàn)性的駕駛場(chǎng)景中的有效性、泛化能力和魯棒性。OpenEMMA的關(guān)鍵特點(diǎn)包括：

高效推理：結(jié)合歷史駕駛數(shù)據(jù)和實(shí)時(shí)視覺(jué)輸入，使用鏈?zhǔn)剿季S推理生成未來(lái)行駛參數(shù)。

精準(zhǔn)檢測(cè)：通過(guò)集成專門(mén)優(yōu)化的視覺(jué)模型，提高了3D物體檢測(cè)的精度。

性能提升：相較于零樣本基線模型，OpenEMMA在多個(gè)關(guān)鍵指標(biāo)上表現(xiàn)出顯著進(jìn)步。

廣泛應(yīng)用：適用于多種復(fù)雜駕駛環(huán)境，展現(xiàn)了強(qiáng)大的適應(yīng)性和可靠性。

總之，OpenEMMA為自動(dòng)駕駛技術(shù)提供了一種創(chuàng)新且高效的方法，推動(dòng)了該領(lǐng)域的進(jìn)一步發(fā)展。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：遠(yuǎn)攝和廣角一體化！三菱扶桑和尼康開(kāi)發(fā)新一代車(chē)載攝像機(jī)系統(tǒng)
上一篇：海德聲科 HEAD acoustics2025年度培訓(xùn)計(jì)劃

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車(chē)測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車(chē)測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹(shù)枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車(chē)輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車(chē)→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車(chē)輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車(chē)電耗限值強(qiáng)制新規(guī)來(lái)了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

Waymo端到端自動(dòng)駕駛：OpenEMMA

微信公眾號(hào)

編輯推薦

最新資訊

“汽車(chē)爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開(kāi)發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車(chē)備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車(chē)前照燈配光性能的工