Embodied-R：一種通過強化學習激活基礎模型具身空間推理能力的協(xié)同框架

2025-05-20 17:30:41· 來源：同濟智能汽車研究所

編者按：該論文提出了首個基于連續(xù)視覺感知的具身空間推理框架Embodied-R，旨在賦予預訓練模型具身空間推理能力。論文通過強化學習和大小模型協(xié)同，將訓練推理范式拓寬至具身智能領域，其中大規(guī)模視覺語言模型用于感知任務，配合小規(guī)模語言模型進行高層次推理，從而高效地實現復雜的空間理解。論文設計了一種全新的獎勵機制，強調“思考-回答”的邏輯一致性，并基于強化學習進行訓練，使模型能夠在計算資源有限的情況下展現出“慢思考”能力。實驗表明，Embodied-R在多個空間推理任務中達到了與OpenAI-o1、Gemini 2.5-pro等主流多模態(tài)模型相媲美的表現。

本文譯自：

《Neural network vehicle models for high-performance automated driving》

文章來源：

arxiv preprint

作者：

Baining Zhao, Ziyou Wang, Jianjie Fang, Chen Gao, Fanghang Man, Jinqiang Cui, Xin Wang, Xinlei Chen, Yong Li, Wenwu Zhu

作者單位：

清華大學

原文鏈接：

https://arxiv.org/abs/2504.12680

摘要：人類可以通過連續(xù)的視覺觀察（如第一視角的視頻流）來感知和推理空間關系。然而，預訓練模型如何獲得這類能力仍不清楚，尤其是高層次的推理能力。本文提出Embodied-R，一個結合了大規(guī)模視覺-語言模型（VLMs）用于感知和小規(guī)模語言模型（LMs）用于推理的協(xié)同框架。該框架采用強化學習（RL）進行訓練，引入一種新的獎勵機制，并考慮“思考-回答”的邏輯一致性，使模型在計算資源有限的情況下具備慢思考能力。在僅使用5000條具身視頻樣本進行訓練后，具有30億參數語言模型的Embodied-R在分布內和分布外的具身空間推理任務上，都達到了與最先進的多模態(tài)推理模型（OpenAI-o1，Gemini-2.5-pro）相當的表現。Embodied-R 還展現出了系統(tǒng)性分析和上下文整合等新興的思維模式。我們進一步探討了一系列研究問題，包括：回答長度、VLM訓練、獎勵設計策略，以及在有監(jiān)督微調（SFT）與強化學習訓練后模型泛化能力的差異。

圖1. 具身空間推理：任務和思維過程。確定了來自公共嵌入式視頻數據集的具有挑戰(zhàn)性的任務，包括室內和室外場景。我們引入慢思維來提高推理性能

1 引言

在通往通用人工智能 (Artificial General Intelligence, AGI）的道路上[17]，我們希望預訓練的基礎模型不僅可以在網絡世界中執(zhí)行對話和圖像理解等任務[2,44]，而且還在三維物理世界中發(fā)展出類似人類的具身空間認知，使他們能夠感知、思考和移動[4,32]。人類實現空間認知的基本方式是通過連續(xù)、動態(tài)的視覺觀察，類似于視頻流 [26,30]。例如，通過觀察周圍環(huán)境，人類可以推斷出他們相對于附近物體的位置。同樣，基于歷史的視覺觀察，人類可以確定到達目標目的地應該采取的行動。

視覺空間認知可以分為兩個層次：感知和推理[51]。感知是指“所看到的”，其特征是直接的、低級的任務，如物體識別、邊緣檢測或顏色區(qū)分[52]。而推理涉及“所理解的”和“要采取的行動”，這是需要邏輯推理和知識間接整合的更高層次的任務[62]。推理的例子包括“我從哪里來？“（回憶歷史運動軌跡[36]），”我在哪里？（推斷附近物體和距離之間的空間關系 [5]）和“我想去哪里？（規(guī)劃行動和決定到達目的地的移動方式[8]）。雖然現有的大多數研究都集中在提高基礎模型的感知能力上[6,11]，并取得了顯著的進展，但它們的空間推理能力仍然有限[9,58]，并且增強方法在很大程度上尚未探索。

具體來說，基于視頻的空間推理帶來了以下幾個挑戰(zhàn)：

推理總是建立在感知之上 [19，32]。對于所研究的問題，連續(xù)的視覺觀察對感知提出了更高的要求。通過錯誤的感知或幻覺無法很好地實現推理 [53]。當對視頻的感知變得困難時，很難進行推理。
視頻數據自然涉及復雜的時空關系，需要發(fā)現跨幀的對象關聯(lián)并提取與推理任務相關的語義[16]。例如，要導航到當前視野之外的目的地，必須從歷史視覺觀察中推斷出它們的位置，構建環(huán)境的心理地圖，制定一個高級規(guī)劃來確定方向，最后決定要執(zhí)行的具體行動?，F有的有監(jiān)督微調 (supervised fine-tuning,SFT) 訓練方法缺乏對推理過程的監(jiān)督，難以處理此類推理任務[62]。
具身視覺觀察具有鮮明的特征。首先，對于非具身視頻（如電影或電視節(jié)目）的理解，主要強調的是視頻內容本身，通常從宏觀且客觀的視角進行分析[27]。相比之下，以自我為中心的視頻則更關注觀察者與周圍環(huán)境之間的關系，通常是從受限的第一人稱視角進行理解 [22]。其次，具身連續(xù)視覺觀察是在時間維度上持續(xù)生成的，這表明具身感知應依賴于時序輸入，而非在較長時間后將所有視覺觀測統(tǒng)一聚合為單一輸入[31]。最后，由于物理世界中運動的連續(xù)性，第一視角視覺觀察同樣表現出空間上的連續(xù)性，即幀與幀之間存在大量冗余和重復。因此，直接將現有的多模態(tài)大語言模型（multimodal large language models，MLLMs）應用于具身視頻時，會導致包括泛化能力下降和由于冗余幀過多而引發(fā)的輸入token限制等問題[1, 29]。

最近，OpenAI的o1/o3[38]和DeepSeek-R1 [24]在解決復雜推理問題（例如數學、編碼、科學等）方面的出色表現引起了人們對強化學習 (reinforcement learning, RL) 技術的關注。通過將思維鏈 (chain-ofthought, CoT) 推理過程納入訓練后，大型語言模型 (large language models, LLM) 展示了一種“慢思考”模式，即它們在生成響應之前會進行徹底的推理[45, 55]。受此啟發(fā)，我們嘗試將 “慢思考” 引入基于視頻的具身空間推理任務中，如圖1 所示。

這帶來了一個新的挑戰(zhàn)：模型大小和計算成本之間的權衡?，F有研究表明，多模態(tài)理解和感知能力與模型大小之間存在很強的相關性[7, 20, 56]。由于推理建立在感知的基礎上，因此應使用更大的視覺語言基礎模型作為訓練的起點。然而，增加模型尺寸通常會帶來不可接受的計算成本。此外，視頻輸入映射到長token序列，進一步提高了計算需求。有沒有辦法利用大規(guī)模模型的感知能力，同時以較低的計算成本發(fā)展具身推理能力？

受此啟發(fā)，本文設計了一個協(xié)同框架，包含兩個主要組成部分：用于感知的大規(guī)模視覺語言模型 (vision-language model, VLM) 和用于推理的小規(guī)模語言模型 (language model, LM) ?；谟^測的連續(xù)性，我們首先提出了關鍵幀提取器，以保留關鍵信息并降低計算成本。使用VLM對幀序列逐步提取語義信息，從而模擬真實世界中的在線推理過程，并有效控制VLM在處理長視頻輸入時的輸入token長度。最后，將語義信息與推理問題共同輸入到小規(guī)模語言模型中，輸出推理過程及最終答案。小規(guī)模語言模型通過強化學習 (reinforcement learning, RL) 進行訓練，其中獎勵建模不僅結合了受Deepseek-R1Zero [24] 啟發(fā)的基于規(guī)則的獎勵，更重要的是為推理過程引入了一種新的邏輯一致性獎勵。在實驗部分，我們圍繞七個研究問題展開，涵蓋了該框架的性能、強化學習在激活具身空間推理中的作用以及分布外泛化能力等方面。

總結來說，本文的主要貢獻如下：

我們提出了一個用于大規(guī)模和小規(guī)?；A模型的協(xié)作框架，以解決視頻模態(tài)中的空間推理問題。通過解耦感知和推理，該框架利用了大規(guī)?；A模型的感知能力，同時以計算資源友好的方式有效地增強了較小模型的推理能力。
這是首次采用強化學習 (reinforcement learning, RL) 來增強基礎模型的具身空間推理能力的工作。具體來說，我們引入了一種新的邏輯一致性獎勵，它提高了推理過程和生成的答案之間的一致性。
我們提出的 Embodied-R 在分布內與分布外基準測試上均取得了與最新多模態(tài)大語言模型（如 OpenAI-o1/Gemini-2.5-Pro）相當的性能表現。我們還進一步探討了包括基于SFT與RL訓練的模型在泛化能力上的對比、獎勵設計策略等多個研究問題。

2 相關工作

大語言模型推理。近年來，增強推理能力已成為大型模型技術的一個關鍵研究方向，并在數學和邏輯問題求解等任務上展現出卓越的表現 [25, 47, 57]。隨著 OpenAI 發(fā)布o1模型 [38] 后，大量研究提出了各種技術方法以實現類似功能，包括思維鏈（Chain-of-Thought, CoT）[54]、蒙特卡洛樹搜索（Monte Carlo Tree Search, MCTS）[23, 60]、知識蒸餾（distillation）[35]、結合監(jiān)督微調（SFT）或直接偏好優(yōu)化（DPO）的拒絕采樣（rejection sampling）[40] 等。此外，Deepseek-r1 [24] 提出了一種通過基于規(guī)則的獎勵機制結合強化學習來促進大語言模型（LLMs）推理能力涌現的方法。同樣地，Kimi k1.5 [45] 提出了類似的思路，并介紹了一系列訓練技術，例如課程學習（curriculum learning）。這種強化學習范式引發(fā)了廣泛關注，后續(xù)的研究也成功復現了相關成果[55, 59]。

VLMs具身空間推理。受基礎模型在多個領域中表現出的通用性啟發(fā)[2, 3]，具身智能旨在開發(fā)能夠利用大型多模態(tài)模型作為“大腦”的智能體，以實現在三維物理世界中的感知、導航與操作能力[15, 41]。從輸入角度來看，人類的視覺-空間感知更接近于連續(xù)的RGB觀測數據，類似于視頻流[12, 42]，而不是靜態(tài)圖像[48]或點云[52]。一些具身視頻基準測試[58] 表明，盡管感知類任務已經相對較好地被解決，但諸如空間關系推理、導航和規(guī)劃等空間推理任務仍然極具挑戰(zhàn)性。然而，目前關于視頻推理的研究[16, 43]主要集中在非具身的內容推理上，對涉及具身連續(xù)視覺輸入的場景關注較少。

大模型和小模型之間的協(xié)同。當前的研究主要聚焦于解決大模型帶來的資源消耗和隱私風險問題，以及小模型在特定場景下的效率和性能優(yōu)勢[50]。小模型可以在數據選擇、提示優(yōu)化和推理增強等方面輔助大模型[28, 61]。文獻[49, 63]探索了使用小模型檢測幻覺和隱私泄露的方法，從而提升整個系統(tǒng)的可靠性。雖然我們的工作也以降低計算資源需求為目標，但我們強調大規(guī)模VLM在感知方面的作用，以及小規(guī)模LM在增強具身空間推理中的互補作用，這與其他研究有所不同。

3

Embodied-R模型

我們首先定義具身空間推理的問題。隨后，我們介紹了基于視覺-語言模型（VLM）的感知模塊和基于語言模型（LM）的推理模塊。協(xié)作框架如圖2所示。

3.1問題建模

在現實物理世界中，智能體在空間中移動，生成一系列視頻幀（連續(xù)的視覺觀測數據）。假設一個空間推理問題表示為。我們的目標是構建一個模型，以和作為輸入，并輸出答案。如果答案在語義上與真實標簽一致，則認為該答案正確；否則視為錯誤。

圖2. 所提出的Embodied-R是一個集成了視覺語言模型（VLM）和語言模型（LM）的協(xié)作式空間推理框架。感知和推理的分離使我們能夠利用大規(guī)模VLM的感知能力，同時訓練資源高效的小規(guī)模LM，通過RL激活具身推理。值得注意的是，我們引入了一種新的邏輯一致性獎勵，以指導LM產生邏輯連貫的推理和答案

3.2 基于大規(guī)模VLM的感知

3.2.1 關鍵幀提取器

當智能體在空間中持續(xù)移動時，若采樣頻率較高，會導致相鄰幀之間存在顯著重疊。一方面，VLM 依賴于環(huán)境中靜態(tài)物體在不同幀之間的變化來推斷智能體的姿態(tài)變化；另一方面，過多的幀間重疊會增加 VLM 和 LLM 的推理成本。為了解決這一問題，我們設計了一個針對具身視頻特性的關鍵幀提取器，能夠在保留一定重疊度的同時，選擇信息增益足夠的關鍵幀。

關鍵幀的提取基于運動連續(xù)性所導致的視野重疊。當智能體向前移動時，后一幀中的視覺內容預期會與前一幀的部分區(qū)域重疊；向后移動時則相反。同樣地，在向左或向右旋轉時，后一幀應在水平方向上與前一幀部分重疊；在向上或向下旋轉時，重疊則發(fā)生在垂直方向上。由于視覺觀測的采樣頻率通常遠高于智能體的運動速度，因此幀之間普遍具有較高的重疊度。

具體而言，我們使用透視變換來建模幀之間的幾何關系。假設是一個關鍵幀，為了判斷是否也應被視為關鍵幀，我們使用帶方向的 FAST 關鍵點檢測和旋轉 BRIEF 描述子（Oriented FAST and Rotated BRIEF, ORB）算法從和中提取關鍵點及其描述子。接著，使用特征匹配算法（如暴力匹配器 Brute-Force Matcher）對這兩幀之間的描述子進行匹配，并通過隨機采樣一致性算法（RANSAC）估計單應性矩陣，從而計算兩幀之間的重疊比例。如果該重疊比例小于預定義的閾值，則表明幀之間存在顯著的視覺變化，因此將標記為新的關鍵幀；否則，算法將繼續(xù)計算與之間的重疊比例。這一過程持續(xù)進行，直到識別出一個新的關鍵幀，隨后該幀將成為后續(xù)幀的參考基準?？紤]到視角變化的影響，水平或垂直方向的旋轉會導致更大的視野變化，從而在這些運動過程中記錄更多的幀。若提取出的關鍵幀索引表示為，則關鍵幀提取過程可總結為：

3.2.2 具身語義表示

由于感知能力通常與模型規(guī)模正相關 [27, 58, 62]，我們采用大規(guī)模VLM來處理視覺輸入以確保高質量的感知效果。每個關鍵幀的差異信息被依次描述。這種方法帶來了兩個主要優(yōu)勢：1）順序化、動態(tài)化的處理方式更符合具身場景的特點：在具身智能中，視覺觀測是隨時間連續(xù)生成的。在每一個時刻，模型都應能融合歷史語義表示與最新的視覺觀測，快速更新對空間感知的語義理解。2）它有助于處理長視頻內容，避免了因輸入token數量限制而帶來的問題，這些問題在直接處理長序列時常常成為瓶頸。

具體而言，對于第一幀，VLM會識別場景中存在的物體、它們的屬性以及空間位置。對于后續(xù)各幀，則將前一幀和當前幀同時輸入 VLM，以提取關鍵語義表示：

其中，包含以下三個組成部分：

動作（Action）：基于連續(xù)幀之間視覺觀測的變化，推斷智能體所執(zhí)行的動作。
變化信息（Information）：確定智能體與已知物體之間的空間關系變化，并判斷視野中是否出現了新的物體。
與問題相關的內容（

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：中汽中心工程院推出動力總成多性能聯(lián)調解決方案
上一篇：AEB強制性標準加速落地，激光雷達成為解題關鍵

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網V課堂
微信公眾號
汽車測試網手機站

相關閱讀

0 條相關評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數，而是證據鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預期功能安全應該覆蓋	• 大推力直驅技術助力EPS安全測試，為你的安全出行 “保駕護
• 單機體積，雙倍效能！激光切割機玩轉“降本增效”	• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬
• 即刻探索8臺機器人如何解放數百名工人！	• 考慮驅動單元性能變化的分布式驅動智能車輛強化學習增強運
• eVTOL/飛行汽車→低噪聲氣動設計與主動降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

Embodied-R：一種通過強化學習激活基礎模型具身空間推理能力的協(xié)同框架

微信公眾號

1 引言

2 相關工作

3

編輯推薦

最新資訊

國內首個“路空一體”國家質檢中心落戶廣東

全國156個！IAE智行眾維入選！工信部2025年

瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構

是德科技推出適用于AI數據中心的Scale-Up驗

“汽車爬坡試驗方法”將有國家標準

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

Embodied-R：一種通過強化學習激活基礎模型具身空間推理能力的協(xié)同框架

微信公眾號

1 引言

2 相關工作

3

編輯推薦

最新資訊

國內首個“路空一體”國家質檢中心落戶廣東

全國156個！IAE智行眾維入選！工信部2025年

瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構

是德科技推出適用于AI數據中心的Scale-Up驗

“汽車爬坡試驗方法”將有國家標準

全國156個！IAE智行眾維入選！工信部2025年