日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網

  • 公眾號
    • 汽車測試網

    • 在線課堂

    • 電車測試

首頁 > 汽車技術 > 正文

Embodied-R:一種通過強化學習激活基礎模型具身空間推理能力的協(xié)同框架

2025-05-20 17:30:41·  來源:同濟智能汽車研究所  
 

編者按:該論文提出了首個基于連續(xù)視覺感知的具身空間推理框架Embodied-R,旨在賦予預訓練模型具身空間推理能力。論文通過強化學習和大小模型協(xié)同,將訓練推理范式拓寬至具身智能領域,其中大規(guī)模視覺語言模型用于感知任務,配合小規(guī)模語言模型進行高層次推理,從而高效地實現復雜的空間理解。論文設計了一種全新的獎勵機制,強調“思考-回答”的邏輯一致性,并基于強化學習進行訓練,使模型能夠在計算資源有限的情況下展現出“慢思考”能力。實驗表明,Embodied-R在多個空間推理任務中達到了與OpenAI-o1、Gemini 2.5-pro等主流多模態(tài)模型相媲美的表現。

本文譯自:

《Neural network vehicle models for high-performance automated driving》

文章來源:


arxiv preprint


作者:

Baining Zhao, Ziyou Wang, Jianjie Fang, Chen Gao, Fanghang Man, Jinqiang Cui, Xin Wang, Xinlei Chen, Yong Li, Wenwu Zhu

作者單位:

清華大學

原文鏈接:

https://arxiv.org/abs/2504.12680


摘要人類可以通過連續(xù)的視覺觀察(如第一視角的視頻流)來感知和推理空間關系。然而,預訓練模型如何獲得這類能力仍不清楚,尤其是高層次的推理能力。本文提出Embodied-R,一個結合了大規(guī)模視覺-語言模型(VLMs)用于感知和小規(guī)模語言模型(LMs)用于推理的協(xié)同框架。該框架采用強化學習(RL)進行訓練,引入一種新的獎勵機制,并考慮“思考-回答”的邏輯一致性,使模型在計算資源有限的情況下具備慢思考能力。在僅使用5000條具身視頻樣本進行訓練后,具有30億參數語言模型的Embodied-R在分布內和分布外的具身空間推理任務上,都達到了與最先進的多模態(tài)推理模型(OpenAI-o1,Gemini-2.5-pro)相當的表現。Embodied-R 還展現出了系統(tǒng)性分析和上下文整合等新興的思維模式。我們進一步探討了一系列研究問題,包括:回答長度、VLM訓練、獎勵設計策略,以及在有監(jiān)督微調(SFT)與強化學習訓練后模型泛化能力的差異。

圖片

圖1. 具身空間推理:任務和思維過程。確定了來自公共嵌入式視頻數據集的具有挑戰(zhàn)性的任務,包括室內和室外場景。我們引入慢思維來提高推理性能


1 引言


在通往通用人工智能 (Artificial General Intelligence, AGI)的道路上[17],我們希望預訓練的基礎模型不僅可以在網絡世界中執(zhí)行對話和圖像理解等任務[2,44],而且還在三維物理世界中發(fā)展出類似人類的具身空間認知,使他們能夠感知、思考和移動[4,32]。人類實現空間認知的基本方式是通過連續(xù)、動態(tài)的視覺觀察,類似于視頻流 [26,30]。例如,通過觀察周圍環(huán)境,人類可以推斷出他們相對于附近物體的位置。同樣,基于歷史的視覺觀察,人類可以確定到達目標目的地應該采取的行動。

視覺空間認知可以分為兩個層次:感知和推理[51]。感知是指“所看到的”,其特征是直接的、低級的任務,如物體識別、邊緣檢測或顏色區(qū)分[52]。而推理涉及“所理解的”和“要采取的行動”,這是需要邏輯推理和知識間接整合的更高層次的任務[62]。推理的例子包括“我從哪里來?“(回憶歷史運動軌跡[36]),”我在哪里?(推斷附近物體和距離之間的空間關系 [5])和“我想去哪里?(規(guī)劃行動和決定到達目的地的移動方式[8])。雖然現有的大多數研究都集中在提高基礎模型的感知能力上[6,11],并取得了顯著的進展,但它們的空間推理能力仍然有限[9,58],并且增強方法在很大程度上尚未探索。

具體來說,基于視頻的空間推理帶來了以下幾個挑戰(zhàn):

  • 推理總是建立在感知之上 [19,32]。對于所研究的問題,連續(xù)的視覺觀察對感知提出了更高的要求。通過錯誤的感知或幻覺無法很好地實現推理 [53]。當對視頻的感知變得困難時,很難進行推理。

  • 視頻數據自然涉及復雜的時空關系,需要發(fā)現跨幀的對象關聯(lián)并提取與推理任務相關的語義[16]。例如,要導航到當前視野之外的目的地,必須從歷史視覺觀察中推斷出它們的位置,構建環(huán)境的心理地圖,制定一個高級規(guī)劃來確定方向,最后決定要執(zhí)行的具體行動?,F有的有監(jiān)督微調  (supervised fine-tuning,SFT) 訓練方法缺乏對推理過程的監(jiān)督,難以處理此類推理任務[62]。

  • 具身視覺觀察具有鮮明的特征。首先,對于非具身視頻(如電影或電視節(jié)目)的理解,主要強調的是視頻內容本身,通常從宏觀且客觀的視角進行分析[27]。相比之下,以自我為中心的視頻則更關注觀察者與周圍環(huán)境之間的關系,通常是從受限的第一人稱視角進行理解 [22]。其次,具身連續(xù)視覺觀察是在時間維度上持續(xù)生成的,這表明具身感知應依賴于時序輸入,而非在較長時間后將所有視覺觀測統(tǒng)一聚合為單一輸入[31]。最后,由于物理世界中運動的連續(xù)性,第一視角視覺觀察同樣表現出空間上的連續(xù)性,即幀與幀之間存在大量冗余和重復。因此,直接將現有的多模態(tài)大語言模型(multimodal large language models,MLLMs)應用于具身視頻時,會導致包括泛化能力下降和由于冗余幀過多而引發(fā)的輸入token限制等問題[1, 29]。

最近,OpenAI的o1/o3[38]和DeepSeek-R1 [24]在解決復雜推理問題(例如數學、編碼、科學等)方面的出色表現引起了人們對強化學習 (reinforcement learning, RL) 技術的關注。通過將思維鏈 (chain-ofthought, CoT) 推理過程納入訓練后,大型語言模型 (large language models, LLM) 展示了一種“慢思考”模式,即它們在生成響應之前會進行徹底的推理[45, 55]。受此啟發(fā),我們嘗試將 “慢思考” 引入基于視頻的具身空間推理任務中,如圖1 所示。

這帶來了一個新的挑戰(zhàn):模型大小和計算成本之間的權衡?,F有研究表明,多模態(tài)理解和感知能力與模型大小之間存在很強的相關性[7, 20, 56]。由于推理建立在感知的基礎上,因此應使用更大的視覺語言基礎模型作為訓練的起點。然而,增加模型尺寸通常會帶來不可接受的計算成本。此外,視頻輸入映射到長token序列,進一步提高了計算需求。有沒有辦法利用大規(guī)模模型的感知能力,同時以較低的計算成本發(fā)展具身推理能力?

受此啟發(fā),本文設計了一個協(xié)同框架,包含兩個主要組成部分:用于感知的大規(guī)模視覺語言模型 (vision-language model, VLM) 和用于推理的小規(guī)模語言模型 (language model, LM) ?;谟^測的連續(xù)性,我們首先提出了關鍵幀提取器,以保留關鍵信息并降低計算成本。使用VLM對幀序列逐步提取語義信息,從而模擬真實世界中的在線推理過程,并有效控制VLM在處理長視頻輸入時的輸入token長度。最后,將語義信息與推理問題共同輸入到小規(guī)模語言模型中,輸出推理過程及最終答案。小規(guī)模語言模型通過強化學習 (reinforcement learning, RL) 進行訓練,其中獎勵建模不僅結合了受Deepseek-R1Zero [24] 啟發(fā)的基于規(guī)則的獎勵,更重要的是為推理過程引入了一種新的邏輯一致性獎勵。在實驗部分,我們圍繞七個研究問題展開,涵蓋了該框架的性能、強化學習在激活具身空間推理中的作用以及分布外泛化能力等方面。

總結來說,本文的主要貢獻如下:

  • 我們提出了一個用于大規(guī)模和小規(guī)?;A模型的協(xié)作框架,以解決視頻模態(tài)中的空間推理問題。通過解耦感知和推理,該框架利用了大規(guī)?;A模型的感知能力,同時以計算資源友好的方式有效地增強了較小模型的推理能力。

  • 這是首次采用強化學習 (reinforcement learning, RL) 來增強基礎模型的具身空間推理能力的工作。具體來說,我們引入了一種新的邏輯一致性獎勵,它提高了推理過程和生成的答案之間的一致性。

  • 我們提出的 Embodied-R 在分布內與分布外基準測試上均取得了與最新多模態(tài)大語言模型(如 OpenAI-o1/Gemini-2.5-Pro)相當的性能表現。我們還進一步探討了包括基于SFT與RL訓練的模型在泛化能力上的對比、獎勵設計策略等多個研究問題。


2 相關工作


大語言模型推理。近年來,增強推理能力已成為大型模型技術的一個關鍵研究方向,并在數學和邏輯問題求解等任務上展現出卓越的表現 [25, 47, 57]。隨著 OpenAI 發(fā)布o1模型 [38] 后,大量研究提出了各種技術方法以實現類似功能,包括思維鏈(Chain-of-Thought, CoT)[54]、蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS)[23, 60]、知識蒸餾(distillation)[35]、結合監(jiān)督微調(SFT)或直接偏好優(yōu)化(DPO)的拒絕采樣(rejection sampling)[40] 等。此外,Deepseek-r1 [24] 提出了一種通過基于規(guī)則的獎勵機制結合強化學習來促進大語言模型(LLMs)推理能力涌現的方法。同樣地,Kimi k1.5 [45] 提出了類似的思路,并介紹了一系列訓練技術,例如課程學習(curriculum learning)。這種強化學習范式引發(fā)了廣泛關注,后續(xù)的研究也成功復現了相關成果[55, 59]。

VLMs具身空間推理。 受基礎模型在多個領域中表現出的通用性啟發(fā)[2, 3],具身智能旨在開發(fā)能夠利用大型多模態(tài)模型作為“大腦”的智能體,以實現在三維物理世界中的感知、導航與操作能力[15, 41]。從輸入角度來看,人類的視覺-空間感知更接近于連續(xù)的RGB觀測數據,類似于視頻流[12, 42],而不是靜態(tài)圖像[48]或點云[52]。一些具身視頻基準測試[58] 表明,盡管感知類任務已經相對較好地被解決,但諸如空間關系推理、導航和規(guī)劃等空間推理任務仍然極具挑戰(zhàn)性。然而,目前關于視頻推理的研究[16, 43]主要集中在非具身的內容推理上,對涉及具身連續(xù)視覺輸入的場景關注較少。

大模型和小模型之間的協(xié)同。 當前的研究主要聚焦于解決大模型帶來的資源消耗和隱私風險問題,以及小模型在特定場景下的效率和性能優(yōu)勢[50]。小模型可以在數據選擇、提示優(yōu)化和推理增強等方面輔助大模型[28, 61]。文獻[49, 63]探索了使用小模型檢測幻覺和隱私泄露的方法,從而提升整個系統(tǒng)的可靠性。雖然我們的工作也以降低計算資源需求為目標,但我們強調大規(guī)模VLM在感知方面的作用,以及小規(guī)模LM在增強具身空間推理中的互補作用,這與其他研究有所不同。



Embodied-R模型



我們首先定義具身空間推理的問題。隨后,我們介紹了基于視覺-語言模型(VLM)的感知模塊和基于語言模型(LM)的推理模塊。協(xié)作框架如圖2所示。

3.1問題建模

在現實物理世界中,智能體在空間中移動,生成一系列視頻幀(連續(xù)的視覺觀測數據)。假設一個空間推理問題表示為。我們的目標是構建一個模型,以作為輸入,并輸出答案。如果答案在語義上與真實標簽一致,則認為該答案正確;否則視為錯誤。

圖片

圖2. 所提出的Embodied-R是一個集成了視覺語言模型(VLM)和語言模型(LM)的協(xié)作式空間推理框架。感知和推理的分離使我們能夠利用大規(guī)模VLM的感知能力,同時訓練資源高效的小規(guī)模LM,通過RL激活具身推理。值得注意的是,我們引入了一種新的邏輯一致性獎勵,以指導LM產生邏輯連貫的推理和答案

3.2 基于大規(guī)模VLM的感知

3.2.1 關鍵幀提取器

當智能體在空間中持續(xù)移動時,若采樣頻率較高,會導致相鄰幀之間存在顯著重疊。一方面,VLM 依賴于環(huán)境中靜態(tài)物體在不同幀之間的變化來推斷智能體的姿態(tài)變化;另一方面,過多的幀間重疊會增加 VLM 和 LLM 的推理成本。為了解決這一問題,我們設計了一個針對具身視頻特性的關鍵幀提取器,能夠在保留一定重疊度的同時,選擇信息增益足夠的關鍵幀。

關鍵幀的提取基于運動連續(xù)性所導致的視野重疊。當智能體向前移動時,后一幀中的視覺內容預期會與前一幀的部分區(qū)域重疊;向后移動時則相反。同樣地,在向左或向右旋轉時,后一幀應在水平方向上與前一幀部分重疊;在向上或向下旋轉時,重疊則發(fā)生在垂直方向上。由于視覺觀測的采樣頻率通常遠高于智能體的運動速度,因此幀之間普遍具有較高的重疊度。

具體而言,我們使用透視變換來建模幀之間的幾何關系。假設是一個關鍵幀,為了判斷是否也應被視為關鍵幀,我們使用帶方向的 FAST 關鍵點檢測和旋轉 BRIEF 描述子(Oriented FAST and Rotated BRIEF, ORB)算法從中提取關鍵點及其描述子。接著,使用特征匹配算法(如暴力匹配器 Brute-Force Matcher)對這兩幀之間的描述子進行匹配,并通過隨機采樣一致性算法(RANSAC)估計單應性矩陣,從而計算兩幀之間的重疊比例。如果該重疊比例小于預定義的閾值,則表明幀之間存在顯著的視覺變化,因此將  標記為新的關鍵幀;否則,算法將繼續(xù)計算之間的重疊比例。這一過程持續(xù)進行,直到識別出一個新的關鍵幀,隨后該幀將成為后續(xù)幀的參考基準??紤]到視角變化的影響,水平或垂直方向的旋轉會導致更大的視野變化,從而在這些運動過程中記錄更多的幀。若提取出的關鍵幀索引表示為,則關鍵幀提取過程可總結為:

圖片

3.2.2 具身語義表示

由于感知能力通常與模型規(guī)模正相關 [27, 58, 62],我們采用大規(guī)模VLM來處理視覺輸入以確保高質量的感知效果。每個關鍵幀的差異信息被依次描述。這種方法帶來了兩個主要優(yōu)勢:1)順序化、動態(tài)化的處理方式更符合具身場景的特點:在具身智能中,視覺觀測是隨時間連續(xù)生成的。在每一個時刻,模型都應能融合歷史語義表示與最新的視覺觀測,快速更新對空間感知的語義理解。2)它有助于處理長視頻內容,避免了因輸入token數量限制而帶來的問題,這些問題在直接處理長序列時常常成為瓶頸。

具體而言,對于第一幀,VLM會識別場景中存在的物體、它們的屬性以及空間位置。對于后續(xù)各幀,則將前一幀和當前幀同時輸入 VLM,以提取關鍵語義表示 

圖片其中,包含以下三個組成部分:
  • 動作(Action):基于連續(xù)幀之間視覺觀測的變化,推斷智能體所執(zhí)行的動作。

  • 變化信息(Information):確定智能體與已知物體之間的空間關系變化,并判斷視野中是否出現了新的物體。

  • 與問題相關的內容(

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25