日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車(chē)測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車(chē)測(cè)試網(wǎng)

    • 在線課堂

    • 電車(chē)測(cè)試

Waymo端到端自動(dòng)駕駛:OpenEMMA

2024-12-27 17:15:37·  來(lái)源:汽車(chē)未來(lái)科技Lab  
 

多模態(tài)大語(yǔ)言模型(MLLMs)自問(wèn)世以來(lái),在眾多實(shí)際應(yīng)用領(lǐng)域產(chǎn)生了重大影響,尤其是在自動(dòng)駕駛(AD)方面。這些模型能夠處理復(fù)雜的視覺(jué)數(shù)據(jù),并對(duì)細(xì)致的駕駛場(chǎng)景進(jìn)行推理,為端到端的自動(dòng)駕駛系統(tǒng)開(kāi)創(chuàng)了新的范式。然而,由于現(xiàn)有的微調(diào)方法需要大量的資源——包括強(qiáng)大的計(jì)算能力、大規(guī)模的數(shù)據(jù)集和大量的資金——開(kāi)發(fā)端到端的自動(dòng)駕駛模型進(jìn)展較為緩慢。

受到最近在推理計(jì)算方面進(jìn)展的啟發(fā),Texas A&M University等團(tuán)隊(duì)提出了OpenEMMA,這是一個(gè)基于MLLMs的開(kāi)源端到端框架。通過(guò)引入鏈?zhǔn)剿季S(Chain-of-Thought)推理過(guò)程,OpenEMMA在利用多種不同的MLLMs時(shí),相較于基準(zhǔn)模型實(shí)現(xiàn)了顯著的改進(jìn)。此外,OpenEMMA在各種具有挑戰(zhàn)性的駕駛場(chǎng)景中展示了其有效性、泛化能力和魯棒性,為自動(dòng)駕駛提供了一種更高效且有效的方法。

為了應(yīng)對(duì)類似EMMA這樣的閉源模型的局限性,我們引入了OpenEMMA——一個(gè)開(kāi)源的端到端自動(dòng)駕駛(AD)框架。該框架旨在使用公開(kāi)可用的工具和模型來(lái)復(fù)制EMMA的核心功能,從而實(shí)現(xiàn)這些先進(jìn)技術(shù)的民主化,為更廣泛的研究和發(fā)展提供平臺(tái)。

與EMMA相似,OpenEMMA以面向前方的攝像頭圖像和文本形式的歷史自車(chē)狀態(tài)作為輸入。駕駛?cè)蝿?wù)被構(gòu)架為視覺(jué)問(wèn)答(VQA)問(wèn)題,通過(guò)鏈?zhǔn)剿季S(Chain-of-Thought)推理引導(dǎo)模型生成關(guān)于關(guān)鍵物體的詳細(xì)描述、行為洞察以及元駕駛決策。這些決策由模型直接推斷得出,為路徑點(diǎn)生成提供了必要的背景信息。

針對(duì)多模態(tài)大語(yǔ)言模型(MLLMs)在目標(biāo)檢測(cè)任務(wù)上的已知局限性,OpenEMMA集成了一個(gè)特別優(yōu)化用于3D邊界框預(yù)測(cè)的微調(diào)版YOLO,顯著提高了檢測(cè)精度。此外,利用MLLMs預(yù)先存在的世界知識(shí),OpenEMMA能夠?yàn)橹T如場(chǎng)景理解等感知任務(wù)產(chǎn)生可解釋的、人類可讀的輸出,從而增強(qiáng)了透明度和易用性。

整個(gè)處理流程和支持的任務(wù)如圖1所示。通過(guò)這種方式,OpenEMMA不僅提升了自動(dòng)駕駛系統(tǒng)的性能,還促進(jìn)了社區(qū)內(nèi)的協(xié)作和創(chuàng)新。

圖片

團(tuán)隊(duì)開(kāi)發(fā)了OpenEMMA,這是一個(gè)基于預(yù)訓(xùn)練的多模態(tài)大語(yǔ)言模型(MLLMs)L的計(jì)算高效的端到端自動(dòng)駕駛(AD)系統(tǒng)。如圖1所示,OpenEMMA通過(guò)將歷史駕駛狀態(tài)T和視覺(jué)駕駛場(chǎng)景I作為輸入,來(lái)預(yù)測(cè)未來(lái)的行駛軌跡P,并同時(shí)檢測(cè)交通參與者。

具體來(lái)說(shuō),OpenEMMA利用了預(yù)訓(xùn)練的MLLMs的強(qiáng)大能力,這些模型已經(jīng)學(xué)習(xí)了大量的世界知識(shí)和模式識(shí)別技能。在給定當(dāng)前車(chē)輛周?chē)囊曈X(jué)信息(例如,來(lái)自攝像頭的圖像)和過(guò)去一段時(shí)間內(nèi)的駕駛狀態(tài)(例如,速度、方向、位置等)后,OpenEMMA能夠:

1. 預(yù)測(cè)未來(lái)軌跡:根據(jù)過(guò)去的駕駛行為和當(dāng)前的視覺(jué)場(chǎng)景,預(yù)測(cè)車(chē)輛接下來(lái)可能的行駛路徑。

2. 檢測(cè)交通參與者:識(shí)別并分類道路上的其他對(duì)象,如行人、自行車(chē)、其他車(chē)輛等,這對(duì)于確保安全駕駛至關(guān)重要。

3. 做出決策:使用鏈?zhǔn)剿季S(Chain-of-Thought)推理過(guò)程,對(duì)復(fù)雜的駕駛情況進(jìn)行分析,從而為車(chē)輛提供必要的操作指導(dǎo),比如加速、減速或轉(zhuǎn)向。

OpenEMMA的設(shè)計(jì)旨在提高自動(dòng)駕駛系統(tǒng)的效率和性能,同時(shí)保持較低的計(jì)算資源需求,使其更易于部署和廣泛應(yīng)用。此外,作為一個(gè)開(kāi)源項(xiàng)目,它促進(jìn)了社區(qū)內(nèi)的協(xié)作和創(chuàng)新,推動(dòng)了自動(dòng)駕駛技術(shù)的進(jìn)步。

利用預(yù)訓(xùn)練的多模態(tài)大語(yǔ)言模型(MLLMs)的強(qiáng)大能力,我們將鏈?zhǔn)剿季S(Chain-of-Thought)推理過(guò)程整合到端到端的軌跡規(guī)劃過(guò)程中,采用與基于指令的方法。由于MLLMs是用人類可解釋的知識(shí)進(jìn)行訓(xùn)練的,我們促使這些模型生成同樣具有人類可解釋性的知識(shí)。

不同于以往直接在局部坐標(biāo)中生成軌跡的預(yù)測(cè)方法,我們生成了兩個(gè)中間表示:速度向量和曲率向量。其中:

速度向量表示車(chē)輛速度的大小,反映了駕駛者應(yīng)踩油門(mén)的程度。

曲率向量表示車(chē)輛的轉(zhuǎn)向率,對(duì)應(yīng)于駕駛者轉(zhuǎn)動(dòng)方向盤(pán)的角度。

這種設(shè)計(jì)旨在反映人類駕駛行為的本質(zhì):速度決定了油門(mén)的力度,而曲率則決定了方向盤(pán)的轉(zhuǎn)動(dòng)程度。通過(guò)這種方式,OpenEMMA不僅能夠提供更貼近人類駕駛習(xí)慣的決策,還能確保其輸出易于理解和解釋,從而提高了系統(tǒng)的透明度和可信度。此外,這種方法有助于增強(qiáng)自動(dòng)駕駛系統(tǒng)的安全性和可靠性,因?yàn)樗瓜到y(tǒng)的行為更加直觀,便于人類駕駛員理解和信任。具體公式如下圖所示:

圖片

這種方法通過(guò)將軌跡生成任務(wù)分解為人類可解釋的組件,提供了一個(gè)穩(wěn)健且易于理解的規(guī)劃路徑,模擬了駕駛過(guò)程。具體分為以下幾個(gè)階段:

階段1:推理

在第一階段,我們利用駕駛場(chǎng)景的前置攝像頭圖像以及自車(chē)過(guò)去5秒的歷史數(shù)據(jù)(包括速度和曲率)作為輸入到預(yù)訓(xùn)練的多模態(tài)大語(yǔ)言模型(MLLMs)。隨后,我們?cè)O(shè)計(jì)特定任務(wù)的提示來(lái)引導(dǎo)MLLMs對(duì)當(dāng)前自車(chē)駕駛場(chǎng)景進(jìn)行全面推理,具體來(lái)說(shuō),推理過(guò)程涵蓋以下三個(gè)方面:

 1. 意圖指令 (Intent Command)

明確表達(dá) 自車(chē)基于當(dāng)前場(chǎng)景的預(yù)期動(dòng)作,例如:

繼續(xù)沿車(chē)道行駛、左轉(zhuǎn)、右轉(zhuǎn)或直行。

是否應(yīng)保持當(dāng)前速度、減速或加速。

這些意圖指令為后續(xù)軌跡規(guī)劃提供了清晰的方向,并確保了駕駛決策的一致性和安全性。

 2. 場(chǎng)景描述 (Scene Description)

簡(jiǎn)潔描述當(dāng)前駕駛場(chǎng)景,根據(jù)交通信號(hào)燈狀態(tài)、其他車(chē)輛或行人的動(dòng)態(tài)以及車(chē)道標(biāo)記進(jìn)行說(shuō)明。例如:

“前方紅燈亮起,左右兩側(cè)無(wú)車(chē)輛,行人正在通過(guò)右側(cè)人行橫道?!?/span>

 “前方綠燈通行,左側(cè)車(chē)輛準(zhǔn)備并入本車(chē)道?!?/span>

這有助于系統(tǒng)全面理解當(dāng)前環(huán)境,為準(zhǔn)確的駕駛決策提供依據(jù)。

 3. 主要對(duì)象 (Major Objects)

識(shí)別道路使用者,即自車(chē)駕駛員應(yīng)注意的對(duì)象,明確他們?cè)隈{駛場(chǎng)景圖像中的位置。對(duì)于每個(gè)道路使用者,提供簡(jiǎn)短描述其當(dāng)前行為,并解釋其存在對(duì)自車(chē)決策過(guò)程的重要性。例如:

行人:“位于右側(cè)人行橫道上,正向左穿越馬路。重要性:需要減速以確保行人安全通過(guò)。”

車(chē)輛:左側(cè)一輛轎車(chē)正在加速準(zhǔn)備并入本車(chē)道。重要性:需注意避讓,可能需要調(diào)整速度或車(chē)道?!?/span>

通過(guò)這種方式,OpenEMMA不僅能夠生成詳細(xì)的駕駛意圖和場(chǎng)景描述,還能識(shí)別關(guān)鍵的道路使用者及其行為,從而為自動(dòng)駕駛系統(tǒng)提供更加精準(zhǔn)和安全的決策支持。這種方法模仿了人類駕駛員的思考過(guò)程,提高了系統(tǒng)的透明度和可解釋性,增強(qiáng)了其應(yīng)對(duì)復(fù)雜駕駛情境的能力。

階段2:預(yù)測(cè)

通過(guò)結(jié)合鏈?zhǔn)剿季S(Chain-of-Thought)推理過(guò)程和自車(chē)的歷史狀態(tài),促使多模態(tài)大語(yǔ)言模型(MLLMs)生成未來(lái) T 秒內(nèi)的速度 S和曲率 C(共 2T 個(gè)軌跡點(diǎn)),這些預(yù)測(cè)隨后被整合以計(jì)算最終的軌跡 T。

2.2 視覺(jué)專家增強(qiáng)的目標(biāo)檢測(cè)

在自動(dòng)駕駛(AD)中,一個(gè)關(guān)鍵任務(wù)是檢測(cè)道路上物體的3D邊界框。我們發(fā)現(xiàn),現(xiàn)成的預(yù)訓(xùn)練多模態(tài)大語(yǔ)言模型(MLLMs)由于空間推理能力的限制,難以提供高質(zhì)量的檢測(cè)結(jié)果。為了克服這一挑戰(zhàn),在不額外微調(diào)MLLM的情況下實(shí)現(xiàn)高精度的檢測(cè),我們將一個(gè)外部的視覺(jué)專業(yè)模型集成到OpenEMMA中,有效解決了檢測(cè)任務(wù)。

我們的OpenEMMA專注于使用前置攝像頭進(jìn)行目標(biāo)檢測(cè),并處理單幀數(shù)據(jù),而不是連續(xù)幀序列。這將任務(wù)置于單目相機(jī)基于的3D目標(biāo)檢測(cè)范圍內(nèi)。該領(lǐng)域的研究一般分為兩類:深度輔助方法[27–29]和僅圖像方法[30–33]。深度輔助方法通過(guò)預(yù)測(cè)深度信息來(lái)輔助檢測(cè),而僅圖像方法則完全依賴RGB數(shù)據(jù)進(jìn)行直接預(yù)測(cè)。在這些方法中,我們選擇了YOLO3D[30],因?yàn)樗Y(jié)合了可靠的準(zhǔn)確性、高質(zhì)量的開(kāi)源實(shí)現(xiàn)以及輕量級(jí)架構(gòu),使得高效微調(diào)和實(shí)際集成成為可能。

YOLO3D 方法概述

YOLO3D 是一種兩階段的3D目標(biāo)檢測(cè)方法,它強(qiáng)制執(zhí)行2D-3D邊界框一致性約束。具體來(lái)說(shuō),它假設(shè)每個(gè)3D邊界框緊密包含在其對(duì)應(yīng)的2D邊界框內(nèi)。該方法首先預(yù)測(cè)2D邊界框,然后估計(jì)每個(gè)檢測(cè)到物體的3D尺寸和局部方向。3D邊界框的七個(gè)參數(shù)——中心位置、尺寸和偏航角 ——根據(jù)2D邊界框和3D估計(jì)聯(lián)合計(jì)算得出。

這種方法不僅提高了目標(biāo)檢測(cè)的準(zhǔn)確性和魯棒性,還確保了系統(tǒng)能夠快速適應(yīng)新的駕駛環(huán)境,從而增強(qiáng)了OpenEMMA的整體性能和可靠性。

圖片

圖片

在本文中,我們提出了OpenEMMA——一個(gè)基于多模態(tài)大語(yǔ)言模型(MLLMs)構(gòu)建的開(kāi)源、計(jì)算高效的端到端自動(dòng)駕駛框架。通過(guò)利用自車(chē)的歷史數(shù)據(jù)和前置攝像頭捕捉的圖像,OpenEMMA采用鏈?zhǔn)剿季S(Chain-of-Thought)推理過(guò)程來(lái)預(yù)測(cè)自車(chē)未來(lái)的速度和曲率,并將這些預(yù)測(cè)整合到軌跡規(guī)劃過(guò)程中。

此外,通過(guò)集成一個(gè)微調(diào)后的外部視覺(jué)專業(yè)模型,OpenEMMA實(shí)現(xiàn)了對(duì)道路上3D物體的精確檢測(cè)。該框架不僅展示了相對(duì)于零樣本基線模型的顯著改進(jìn),還證明了其在各種具有挑戰(zhàn)性的駕駛場(chǎng)景中的有效性、泛化能力和魯棒性。OpenEMMA的關(guān)鍵特點(diǎn)包括:

高效推理:結(jié)合歷史駕駛數(shù)據(jù)和實(shí)時(shí)視覺(jué)輸入,使用鏈?zhǔn)剿季S推理生成未來(lái)行駛參數(shù)。

精準(zhǔn)檢測(cè):通過(guò)集成專門(mén)優(yōu)化的視覺(jué)模型,提高了3D物體檢測(cè)的精度。

性能提升:相較于零樣本基線模型,OpenEMMA在多個(gè)關(guān)鍵指標(biāo)上表現(xiàn)出顯著進(jìn)步。

廣泛應(yīng)用:適用于多種復(fù)雜駕駛環(huán)境,展現(xiàn)了強(qiáng)大的適應(yīng)性和可靠性。

總之,OpenEMMA為自動(dòng)駕駛技術(shù)提供了一種創(chuàng)新且高效的方法,推動(dòng)了該領(lǐng)域的進(jìn)一步發(fā)展。 

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25