ICCV‘21論文：模仿一個(gè)強(qiáng)化學(xué)習(xí)教練的端到端城市駕駛

2022-01-18 23:28:58· 來(lái)源：計(jì)算機(jī)視覺(jué)深度學(xué)習(xí)和自動(dòng)駕駛作者：黃浴

arXiv于2021.8.26上傳的ICCV‘21論文 “End-to-End Urban Driving by Imitating a Reinforcement Learning Coach“，作者主要來(lái)自瑞士蘇黎世ETH的Luc Van Gool組

arXiv于2021.8.26上傳的ICCV‘21論文 “End-to-End Urban Driving by Imitating a Reinforcement Learning Coach“，作者主要來(lái)自瑞士蘇黎世ETH的Luc Van Gool組。

自動(dòng)駕駛的端到端方法，通常依賴(lài)于專(zhuān)家演示。對(duì)帶策略（on-policy）密集監(jiān)督的端到端算法來(lái)說(shuō)，人盡管是優(yōu)秀的司機(jī)，但并不是很好的教練。相反，靠特別提供信息的自動(dòng)化專(zhuān)家可以有效地生成大規(guī)模帶策略（on-policy）和不帶策略（off-policy）演示。

然而，現(xiàn)有的城市駕駛自動(dòng)化專(zhuān)家使用大量手工制定的規(guī)則，即使在有真值信息的駕駛模擬器上也表現(xiàn)不佳。為了解決這些問(wèn)題，作者訓(xùn)練了一個(gè)強(qiáng)化學(xué)習(xí)（RL）專(zhuān)家，將鳥(niǎo)瞰圖（BEV）圖像映射到連續(xù)的低層動(dòng)作。

該專(zhuān)家在為開(kāi)源仿真器 CARLA 設(shè)置新的性能上限的同時(shí)，還是一位更佳的教練，為模仿學(xué)習(xí)（IL）智體提供學(xué)習(xí)的信息化監(jiān)督信號(hào)。在這個(gè)強(qiáng)化學(xué)習(xí)（RL）教練的監(jiān)督下，一個(gè)單目攝像頭端到端的基準(zhǔn)智體實(shí)現(xiàn)了專(zhuān)家級(jí)性能。

該端到端智體實(shí)現(xiàn)了 78% 的成功率，在更具挑戰(zhàn)性的 CARLA LeaderBoard，獲得了最佳的性能。另外，代碼上線(xiàn)：https://github.com/zhejz/carla-roach。

雖然模仿學(xué)習(xí) (IL) 方法直接模仿專(zhuān)家的行為，但強(qiáng)化學(xué)習(xí) (RL) 方法通常用專(zhuān)家演示的監(jiān)督學(xué)習(xí)對(duì)模型的一部分進(jìn)行預(yù)訓(xùn)練，這樣提高樣本效率。一般來(lái)說(shuō)，專(zhuān)家演示可以分為兩類(lèi)：

（i）不帶策略（off-policy），專(zhuān)家直接控制系統(tǒng)，狀態(tài)/觀(guān)測(cè)分布隨專(zhuān)家。自動(dòng)駕駛的無(wú)策略數(shù)據(jù)包括一些公共駕駛數(shù)據(jù)集，如nuScenes，Lyft level 5，Bdd100k；
(ii) 帶策略（on-policy），系統(tǒng)由所需的智體控制，專(zhuān)家對(duì)數(shù)據(jù)進(jìn)行“標(biāo)記”；在這種情況下，狀態(tài)/觀(guān)測(cè)分布隨智體，但可以接觸專(zhuān)家演示數(shù)據(jù)；有策略數(shù)據(jù)是緩解協(xié)變量遷移（covariate shift）現(xiàn)象的基礎(chǔ)，因?yàn)樗试S智體從自己的錯(cuò)誤中學(xué)習(xí)，而不帶策略數(shù)據(jù)的專(zhuān)家沒(méi)有出現(xiàn)這種錯(cuò)誤。

然而，從人那里收集足夠的帶策略演示并非易事。雖然可以在不帶策略數(shù)據(jù)收集過(guò)程中直接記錄人類(lèi)專(zhuān)家采取的軌跡和行動(dòng)，但在給定傳感器測(cè)量值的情況下標(biāo)記這些專(zhuān)家給出的目標(biāo)，對(duì)人來(lái)說(shuō)還是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。在實(shí)踐中，只有稀疏事件，比如人為干預(yù)等被記錄，由于其包含的信息有限，難以訓(xùn)練，更加適合強(qiáng)化學(xué)習(xí)（RL）而不是模仿學(xué)習(xí)（IL）。

該工作專(zhuān)注于自動(dòng)化專(zhuān)家，與人類(lèi)專(zhuān)家相比，無(wú)論是帶策略還是不帶策略，自動(dòng)化專(zhuān)家可以生成大規(guī)模密集標(biāo)注數(shù)據(jù)集。為了達(dá)到專(zhuān)家級(jí)的性能，自動(dòng)化專(zhuān)家可能依賴(lài)詳盡的計(jì)算、昂貴的傳感器甚至真值信息，因此直接部署是不可取的。

盡管一些模仿學(xué)習(xí)（IL）方法不需要帶策略（on-policy）標(biāo)注，例如生成對(duì)抗模仿學(xué)習(xí)（Generative adversarial imitation learning，GAIL）和逆強(qiáng)化學(xué)習(xí)（IRL），但與環(huán)境的帶策略（on-policy）交互，效率不高。相反，自動(dòng)化專(zhuān)家可以減少昂貴的帶策略（on-policy）交互，這使模仿學(xué)習(xí)（IL）能夠成功地將自動(dòng)化專(zhuān)家應(yīng)用于自動(dòng)駕駛的不同方面。

自動(dòng)駕駛仿真器CARLA 的“專(zhuān)家”，通常稱(chēng)為 Autopilot（或漫游智體）。Autopilot 可以訪(fǎng)問(wèn)真實(shí)模擬狀態(tài)，但由于用了手工制定的規(guī)則，其駕駛技能無(wú)法與人類(lèi)專(zhuān)家相提并論。模仿學(xué)習(xí)（IL）可以看成是知識(shí)遷移，但是只是從專(zhuān)家行動(dòng)中學(xué)習(xí)是不夠有效的。

Autopilot 由兩個(gè)軌跡跟蹤的 PID 控制器和緊急制動(dòng)的危害（hazard）檢測(cè)器組成。危害包括

前方檢測(cè)到行人/車(chē)輛；
前方檢測(cè)到紅燈/停車(chē)信號(hào)；
自車(chē)負(fù)速度，用于處理斜坡。

如果自車(chē)前方的觸發(fā)區(qū)域出現(xiàn)任何危害，Autopilot 會(huì)緊急剎車(chē)：油門(mén)=0，轉(zhuǎn)向 = 0，剎車(chē) = 1；如果沒(méi)有檢測(cè)到危險(xiǎn)，自車(chē)通過(guò)兩個(gè) PID 控制器沿著所需路徑行駛，一個(gè)用于速度控制，另一個(gè)用于轉(zhuǎn)向控制；PID 控制器將自車(chē)的位置、旋轉(zhuǎn)和速度作為輸入，指定的路線(xiàn)是密集（1 米間隔）的航路點(diǎn)；速度的PID 產(chǎn)生油門(mén)，轉(zhuǎn)向的 PID 產(chǎn)生轉(zhuǎn)向；手動(dòng)調(diào)整PID 控制器和危害檢測(cè)器的參數(shù)，使得Autopilot 作為一個(gè)強(qiáng)大的基準(zhǔn)方法（目標(biāo)速度為 6 m/s）。

從頭開(kāi)始訓(xùn)練10M步之后，Roach超越基于規(guī)則的Autopilot，為CARLA設(shè)定了新的性能上限。從Roach專(zhuān)家進(jìn)行學(xué)習(xí)時(shí)，可以訓(xùn)練模仿學(xué)習(xí)（IL）智體，并研究更有效的訓(xùn)練技術(shù)。鑒于神經(jīng)網(wǎng)絡(luò)的策略采用，Roach可以當(dāng)同樣基于神經(jīng)網(wǎng)絡(luò)的模仿學(xué)習(xí)（IL）智體更好的教練。

Roach為模仿學(xué)習(xí)（IL）智體提供了許多可供學(xué)習(xí)的信息化目標(biāo)，這遠(yuǎn)遠(yuǎn)超出了其他專(zhuān)家提供的確定性動(dòng)作。文章中展示了動(dòng)作分布、價(jià)值估計(jì)和潛在特征為監(jiān)督的有效性。

如圖就是作者提出的Roach (RL coach)：這是一個(gè)在CARLA仿真器上Roach 標(biāo)注的帶策略（on-policy）監(jiān)督進(jìn)行學(xué)習(xí)的方案。Roach 的輸出在 CARLA 上可驅(qū)動(dòng)車(chē)輛去記錄來(lái)自 Roach 的不帶策略數(shù)據(jù)。除了利用 3D 檢測(cè)算法和其他傳感器來(lái)合成 BEV之外，Roach 還可以解決現(xiàn)實(shí)世界中帶策略監(jiān)督稀缺的問(wèn)題。

作者認(rèn)為這個(gè)方法是可行的，因?yàn)橐环矫鍮EV作為一種強(qiáng)大的抽象表示減少了仿真到真實(shí)的差距，另一方面策略標(biāo)注不必實(shí)時(shí)或甚至在線(xiàn)（onboard）產(chǎn)生。給定完整的序列，3D 檢測(cè)變得更容易。

Roach具有三個(gè)特點(diǎn)：

首先，與之前的強(qiáng)化學(xué)習(xí)（ RL ）智體相比，Roach 不依賴(lài)于其他專(zhuān)家的數(shù)據(jù)；
其次，與CARLA仿真器基于規(guī)則的Autopilot 不同，Roach 是端到端可訓(xùn)練的，因此可通過(guò)少量的工程工作推廣到新的場(chǎng)景；
第三，采樣效率高，基于輸入/輸出表證和探索（exploration）損失，在單個(gè)GPU機(jī)器從頭開(kāi)始訓(xùn)練 Roach不到一周的時(shí)間，在 CARLA的六個(gè)LeaderBoard地圖獲得頂級(jí)專(zhuān)家性能。

Roach由一個(gè)策略網(wǎng)絡(luò)和一個(gè)價(jià)值網(wǎng)絡(luò)組成。策略網(wǎng)絡(luò)將 BEV 圖像和測(cè)量向量映射到一個(gè)動(dòng)作分布。最后，價(jià)值網(wǎng)絡(luò)用和策略網(wǎng)絡(luò)相同的輸入估計(jì)一個(gè)標(biāo)量值輸出。

如圖是Roach的每個(gè)BEV表證通道：（有些相似谷歌waymo之前的工作）

可行駛區(qū)域和預(yù)期路線(xiàn)分別在圖（ a ）和（b ）中呈現(xiàn)。在圖（c ）中，實(shí)線(xiàn)為白色，虛線(xiàn)為灰色。圖（ d ）是 K 個(gè)灰度圖像的時(shí)間序列，其中自行車(chē)和車(chē)輛被渲染為白色邊框。圖（ e ）與圖（d ）相同，但針對(duì)行人。類(lèi)似地，交通燈處的停止線(xiàn)和停止標(biāo)志的觸發(fā)區(qū)域在圖（f ）中呈現(xiàn)。紅燈和停車(chē)標(biāo)志按最亮的級(jí)別著色，黃燈按中間級(jí)別著色，綠燈按較暗級(jí)別著色。如果停車(chē)標(biāo)志處于活動(dòng)狀態(tài)，則呈現(xiàn)停車(chē)標(biāo)志，即自車(chē)進(jìn)入其附近并在自車(chē)完全停止后消失。

通過(guò)BEV 表證記住自車(chē)是否停止，用無(wú)循環(huán)結(jié)構(gòu)的網(wǎng)絡(luò)架構(gòu)，減少 Roach 的模型大小。前面的圖示給出了所有通道的彩色組合。給Roach 提供一個(gè)測(cè)量向量，其中包含 BEV未表證的自車(chē)狀態(tài)，包括轉(zhuǎn)向、油門(mén)、制動(dòng)、閘門(mén)、橫向和橫向速度。

為了避免做參數(shù)調(diào)整和系統(tǒng)識(shí)別，Roach 直接預(yù)測(cè)動(dòng)作分布。其動(dòng)作空間主要是轉(zhuǎn)向和加速，加速度正值對(duì)應(yīng)油門(mén)，負(fù)值對(duì)應(yīng)剎車(chē)。這里用Beta分布描述動(dòng)作。

與無(wú)模型強(qiáng)化學(xué)習(xí)（model-free RL）常常采用的高斯分布相比，Beta 分布的支持是有界的，避免了強(qiáng)制輸入約束的裁剪（clipping）或壓扁（squashing）操作。

這個(gè)會(huì)帶來(lái)表現(xiàn)更好的學(xué)習(xí)（better behaved learning）問(wèn)題，因?yàn)椴恍枰?tanh 層并且熵和 KL 散度可以明確計(jì)算。此外，Beta 分布的模態(tài)也適用于經(jīng)常進(jìn)行極端操作的駕駛動(dòng)作，例如緊急制動(dòng)或急轉(zhuǎn)彎。

訓(xùn)練采用帶裁剪的proximal policy optimization (PPO)方法訓(xùn)練策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)（見(jiàn)論文“Proximal policy optimization algorithms“. arXiv:1707.06347, 2017）。

價(jià)值網(wǎng)絡(luò)訓(xùn)練回歸期望回報(bào)，而策略網(wǎng)絡(luò)更新通過(guò)以下公式：

第一個(gè)目標(biāo) Lppo 是裁剪策略的梯度損失，采用廣義優(yōu)勢(shì)估計(jì)（generalized advantage estimation）估計(jì)其優(yōu)勢(shì)（見(jiàn)論文“High-dimensional continuous control using generalized advantage estimation“. ICLR, 2016）。第二個(gè)目標(biāo) Lent 是通常用于鼓勵(lì)探索（exploration）的最大熵?fù)p失直觀(guān)地講，Lent 將動(dòng)作分布推向一個(gè)均勻先驗(yàn)形式，因?yàn)樽畲蠡氐刃в谧钚』疜L散度的均勻分布目標(biāo)，如果二者共享同一支持的話(huà)。

這使得作者提出一種廣義形式，它鼓勵(lì)在合理的、符合基本交通規(guī)則的方向上進(jìn)行探索，稱(chēng)之為探索損失，定義為

其中終止條件集（terminal condition set）Z 包括碰撞、運(yùn)行交通紅綠燈/標(biāo)志、路線(xiàn)偏離和阻塞等插曲（episode）結(jié)束事件。

最大熵?fù)p失Lent在所有時(shí)間步都對(duì)動(dòng)作施加統(tǒng)一的先驗(yàn)分布，而不管哪個(gè)事件 z 被觸發(fā)；而探索損失Lexp在一個(gè)情節(jié)的最后 Nz （實(shí)踐中取100）步驟中把動(dòng)作轉(zhuǎn)移到一個(gè)預(yù)定的探索先驗(yàn)分布 pz，該探索先驗(yàn)編碼了一個(gè)“建議（advice）”，防止觸發(fā)事件 z 再次發(fā)生。

如果 z 與碰撞或交通紅綠燈/標(biāo)志有關(guān)，加速度先驗(yàn) pz = B(1，2.5) 以鼓勵(lì) Roach 在不影響轉(zhuǎn)向的情況下減速。相反，如果汽車(chē)被阻擋，加速度先驗(yàn) pz=B(2.5，1)。對(duì)路線(xiàn)偏離，轉(zhuǎn)向的統(tǒng)一先驗(yàn)pz= B(1，1)。盡管這種情況下等效于最大化熵，但探索損失在路線(xiàn)偏離前的最后 10 秒進(jìn)一步鼓勵(lì)探索轉(zhuǎn)向角。

為了讓模仿學(xué)習(xí)（ IL ）智體從 Roach 生成的信息化監(jiān)督中受益，作者為每個(gè)監(jiān)督制定一個(gè)損失，這樣Roach 的訓(xùn)練方案可用于提高現(xiàn)有模仿學(xué)習(xí)（IL）智體的性能。

本文以DA-RB為例（論文“Exploring data aggregation in policy learning for vision-based urban autonomous driving“，CVPR, 2020）它是CILRS（論文“Exploring the limitations of behavior cloning for autonomous driving“. ICCV, 2019）和DAGGER（論文“A reduction of imitation learning and structured prediction to no-regret online learning“. AISTATS, 2011)的結(jié)合。

整個(gè)網(wǎng)絡(luò)架構(gòu)如圖：包括（a）Roach和（b）CILRS

在（a）Roach架構(gòu)中，用六個(gè)卷積層對(duì) BEV 進(jìn)行編碼，兩個(gè)全連接 (FC) 層對(duì)測(cè)量向量進(jìn)行編碼；兩個(gè)編碼器的輸出連接在一起，由另外兩個(gè) FC 層處理產(chǎn)生潛在特征 jRL，然后輸入到價(jià)值頭和策略頭中，每個(gè)頭都有兩個(gè) FC 隱藏層；軌跡以 10 FPS 頻率從六個(gè) CARLA 服務(wù)器收集，每個(gè)服務(wù)器對(duì)應(yīng)六個(gè)LeaderBoard地圖的一個(gè)；在每一插曲的開(kāi)始，隨機(jī)選擇一對(duì)起始位置和目標(biāo)（target）位置，并使用 A* 搜索算法計(jì)算所需的路線(xiàn)；一旦達(dá)到目標(biāo)，就選擇一個(gè)新的隨機(jī)目標(biāo)；除非滿(mǎn)足 Z 的終止條件之一，否則該插曲不會(huì)結(jié)束。這里額外懲罰大的轉(zhuǎn)向變化以防止振蕩操作。為了避免高速違規(guī)，添加與自車(chē)速度成正比的額外懲罰。

在（b）CILRS架構(gòu)中，包括一個(gè)相機(jī)圖像編碼的感知模塊和一個(gè)測(cè)量向量編碼的測(cè)量模塊；兩個(gè)模塊的輸出由 FC 層連接和處理，生成瓶頸（bottleneck）潛在特征；導(dǎo)航指令作為離散的高級(jí)命令給出，并且為每種命令構(gòu)造一個(gè)分支；所有分支共享相同的架構(gòu)，而每個(gè)分支包含一個(gè)預(yù)測(cè)連續(xù)動(dòng)作的動(dòng)作頭和一個(gè)預(yù)測(cè)自車(chē)當(dāng)前速度的速度頭；潛在特征由命令選擇的分支處理。

CILRS 的模仿目標(biāo)包括 L1 動(dòng)作損失

和速度預(yù)測(cè)的正則化

專(zhuān)家動(dòng)作可能來(lái)自CARLA的Autopilot，它直接輸出確定性動(dòng)作，或者來(lái)自 Roach，其將分布模態(tài)作為確定性輸出。除了確定性動(dòng)作，Roach 還預(yù)測(cè)動(dòng)作分布、價(jià)值和潛在特征。

動(dòng)作分布損失：兩個(gè)分別被Roach和CILRS智體預(yù)測(cè)的動(dòng)作分布之間KL-散度

特征損失：Roach的潛在特征

價(jià)值損失：用價(jià)值頭和回歸價(jià)值作為副任務(wù)來(lái)增強(qiáng)CILRS，其中價(jià)值損失是 Roach 估計(jì)和 CILRS 預(yù)測(cè)之間的均方誤差

采用CARLA的NoCrash和LeaderBoard做實(shí)驗(yàn)評(píng)估算法。NoCrash 基準(zhǔn)測(cè)試考慮從Town1（一個(gè)僅由單車(chē)道路和丁字路口組成的歐洲城鎮(zhèn)）到Town2（具有不同紋理的Town1 較小版本）的泛化。相比之下，LeaderBoard在六張地圖中考慮了一個(gè)更困難的泛化任務(wù)，涵蓋不同的交通情況，包括高速公路、美式路口、環(huán)形交叉路口、停車(chē)標(biāo)志、車(chē)道變換和合并。

按照NoCrash 基準(zhǔn)，測(cè)試了四種訓(xùn)練天氣類(lèi)型到兩種新天氣類(lèi)型的泛化。為了節(jié)省計(jì)算資源，四種訓(xùn)練天氣類(lèi)型只評(píng)估了兩種。NoCrash 基準(zhǔn)具有三個(gè)級(jí)別的交通密度（空曠、常規(guī)和密集），定義了每張地圖的行人和車(chē)輛數(shù)量。該文專(zhuān)注于 NoCrash-密集，并在常規(guī)和密集交通之間引入一個(gè)新的級(jí)別 NoCrash-繁忙（busy），以避免在密集交通環(huán)境經(jīng)常出現(xiàn)的擁堵。

對(duì)CARLA LeaderBoard，每張地圖的交通密度都經(jīng)過(guò)調(diào)整，與繁忙的交通設(shè)置有可比性。

一些實(shí)驗(yàn)結(jié)果如下：

注：LBC來(lái)自論文“Learning by cheating“. CoRL, 2020. DARB來(lái)自論文“Exploring data aggregation in policy learning for vision-based urban autonomous driving“. CVPR, 2020。

注：SAM來(lái)自論文“Sam: Squeeze-and-mimic networks for conditional visual driving policy learning”，CoRL'20。LSD來(lái)自論文“Learning situational driving”，CVPR‘20。

未來(lái)的工作包括改進(jìn)仿真基準(zhǔn)測(cè)試和實(shí)際部署的性能。為使LeaderBoard飽和，模型容量應(yīng)增加。為用 Roach 標(biāo)記真實(shí)世界的帶策略駕駛數(shù)據(jù)，除了照片真實(shí)感之外，還必須解決幾個(gè)模擬到真實(shí)的差距，BEV 部分緩解了這一差距。對(duì)于城市駕駛模擬器，道路使用者（包括行人和車(chē)輛）的真實(shí)行為至關(guān)重要。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：【直播實(shí)訓(xùn)】適用于不同類(lèi)型的電池的測(cè)試方法
上一篇：直播｜2022 （呼蘭）汽車(chē)冬季極寒測(cè)試技術(shù)云論壇

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車(chē)測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車(chē)測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測(cè)試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹(shù)枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)
• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬
• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！	• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車(chē)輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)
• eVTOL/飛行汽車(chē)→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3	• 比亞迪車(chē)輛避撞專(zhuān)利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

ICCV‘21論文：模仿一個(gè)強(qiáng)化學(xué)習(xí)教練的端到端城市駕駛

微信公眾號(hào)

編輯推薦

最新資訊

聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車(chē)操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車(chē)異種材料鉚接接頭拉伸性能

“汽車(chē)大角度座椅第1部分：通用要求”將有

“汽車(chē)大角度座椅第2部分：可靠性要求”將

電池耐久評(píng)價(jià)開(kāi)始從“電池單體性能指標(biāo)”轉(zhuǎn)

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

ICCV‘21論文：模仿一個(gè)強(qiáng)化學(xué)習(xí)教練的端到端城市駕駛

微信公眾號(hào)

編輯推薦

最新資訊

聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車(chē)操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車(chē)異種材料鉚接接頭拉伸性能

“汽車(chē)大角度座椅 第1部分：通用要求”將有

“汽車(chē)大角度座椅 第2部分：可靠性要求”將

電池耐久評(píng)價(jià)開(kāi)始從“電池單體性能指標(biāo)”轉(zhuǎn)

“汽車(chē)大角度座椅第1部分：通用要求”將有

“汽車(chē)大角度座椅第2部分：可靠性要求”將