日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

CVPR2019 | Stereo R-CNN 3D 目標(biāo)檢測

2019-03-12 08:29:44·  來源:極市平臺,智車科技  
 
今天聊聊雙目的3d object detection。這是一篇來自DJI與港科大合作的文章,作者分別是li peiliang,陳曉智@陳曉智(DJI,MV3D的作者)和港科大的shenshaojie老師。
 
今天聊聊雙目的3d object detection。這是一篇來自DJI與港科大合作的文章,作者分別是li peiliang,陳曉智 @陳曉智(DJI,MV3D的作者)和港科大的shenshaojie老師。
1. introduction
2018年在3D檢測方面的文章層出不窮,也是各個公司無人駕駛或者機器人學(xué)部門關(guān)注的重點,包含了點云,點云圖像融合,以及單目3D檢測,但是在雙目視覺方面的貢獻還是比較少,自從3DOP之后。
總體來說,圖像的檢測距離,圖像的density以及context信息,在3D檢測中是不可或缺的一部分,因此作者在這篇文章中挖掘了雙目視覺做3D檢測的的潛力。
2. network structure
整個網(wǎng)絡(luò)結(jié)構(gòu)分為以下的幾個部分。
1). RPN部分,作者將左右目的圖像通過stereoRPN產(chǎn)生相應(yīng)的proposal。具體來說stereo RPN是在FPN的基礎(chǔ)上,將每個FPN的scale上的feature map的進行concat的結(jié)構(gòu)。
3). keypoint的檢測。這里采用的是類似于mask rcnn的結(jié)構(gòu)進行關(guān)鍵點的預(yù)測。文章定義了4個3D semantic keypoint,即車輛底部的3D corner point,同時將這4個點投影到圖像,得到4個perspective keypoint,這4個點在3D bbox regression起到一定的作用,我們在下一部分再介紹。
在keypoint檢測任務(wù)中,作者利用RoiAlign得到的14*14feature map,經(jīng)過conv,deconv最后得到6 * 28 * 28的feature map,注意到只有keypoint的u坐標(biāo)會提供2D Box以外的信息,因此,處于減少計算量的目的,作者aggregate每一列的feature,得到6 * 28的output,其中,前4個channel代表4個keypoint被投影到相應(yīng)的u坐標(biāo)的概率,后面兩個channel代表是left or right boundary上的keypoint的概率。
3. 3D Box Estimation
通過網(wǎng)絡(luò)回歸得到的2D box的dimension,viewpoint,還有keypoint,我們可以通過一定的方式得到3D box的位置。定義3D box的狀態(tài)x = [x, y, z, θ]。
Figure 5,給出了一些稀疏的約束。包含了特征點的映射過程。這里也體現(xiàn)了keypoint的用處。
上述公式即為約束方程,因此可以通過高斯牛頓的方法直接求解。具體可以參考論文的引文17。這里我們簡單證明一下第一個公式。注意,這里的假設(shè)都是u,v坐標(biāo)都已經(jīng)經(jīng)過相機內(nèi)參的歸一化了。
4. Dense 3D Box Alignment
這里就回到shenshaojie老師比較熟悉的BA的過程了,由于part 3僅僅只是一個object level的深度,這里文章利用最小化左右視圖的RGB的值,得到一個更加refine的過程。定義如下的誤差函數(shù)
其中 代表第i個pixel的深度與相對應(yīng)的3D box的深度差。而這一塊的求解利用G20或者ceres也可以完成。整個alignment過程其實相對于深度的直接預(yù)測是更加robust的,因為這種預(yù)測方法,避免了全局的depth estimation中的一些invalid的pixel引起的ill problem的問題。
5. experiment
作者在實驗這塊達到了雙目視覺的state of art,同時對于各個module也做了很充足的實驗,具體的數(shù)值可以參考論文的原文
6. Insight
最后談?wù)勎恼陆o我的一些insights,首先,整個文章將傳統(tǒng)的detection的任務(wù),結(jié)合了geometry constraint優(yōu)化的方式,做到了3D位置的估計,想法其實在不少文章sfm-learner之類的文章已經(jīng)有體現(xiàn)過了,不過用在3Ddetection上面還是比較新穎,避免了做雙目匹配估計深度的過程。也屬于slam跟深度學(xué)習(xí)結(jié)合的一篇文章,感興趣的朋友可以繼續(xù)看看arxiv.org/abs/1802.0552等相關(guān)文章
談幾點我個人意義上的不足吧,首先耗時過程0.28s的inference time,不過可能作者的重點也不在這個方面,特征的利用上可以更加有效率,在實現(xiàn)上。其次,能不能采用deep3dbox的方式預(yù)測dimension,然后添加入優(yōu)化項呢...總體來說,是一篇不錯的值得一讀的文章!不足之處歡迎指教討論!
 
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25