作者丨zyrant@知乎

来源丨https://zhuanlan.zhihu.com/p/508682621

编辑丨3D视觉工坊

639daa6c972a6801f1944e72fe964694.png

-- 2022.4.29 by 周报拓展。
--CVPR还有一篇MonoDTR的文章,设计初衷有点像,不过没公开代码,就先看了MonoDETR。

关键词:CVPR2022, MonoDETR,Transformer

文章地址:https://arxiv.org/abs/2203.13310
代码地址:https://github.com/ZrrSkywalker/MonoDETR

文章贡献

(1)提出了MonoDETR[1],第一个基于端到端DETR的检测器,用于没有额外输入的单目3D检测,它使object queries能够自适应地探索深度引导下的信息图像特征。
(2)MonoDETR引入了最小的手工制作设计,但通过具有复杂几何先验的最先进的基于中心的方法实现了具有竞争力的性能。
(3)MonoDETR是未来研究的一个简单但有效的Transformer baseline,进行了充分的消融研究以证明其有效性。

引言(要解决什么问题)

现有的单目3D目标检测方法大多遵循传统的2D目标检测的思路,首先通过中心定位目标,然后利用中心邻近的局部特征预测三维属性,如下图中第一行的pipeline,首先从heatmap中得到2D或者3D projected的中心,然后利用卷积来获取中心点附近的其他3D属性,比如:深度信息,方向等,因此他们的3D box的检测性能不好。这种基于中心的 pipeline将三维预测视为一个附属任务,缺乏与全局空间线索的对象间深度交互。因此作者希望设计一款舍弃中心限制,并基于深度信息引导的三维物体检测方法,下图中第二行的pipeline。

0e8ed428227bd4bdccb58a2e5b1305d7.png

图 1

MonoDETR(具体方法)

addffc34dfb171503b8199826ac6172b.png

上图中,左图是MonoDETR提出模型和原始DETR模型(DERT的介绍,知乎很多,我选了个高赞的)的区别,主要是一个Depth Encoder的加入,右图是MonoDETR整个模型的一个pipeline,主要涉及了feature backone,Depth predictor,visual encoder,depth encoder以及一个Depth-aware Decoder。feature backone用的是Resnet 50来提取图像特征,Depth Predictor是用来生成forground depthmap以及depth feature的,两个Encoder与DETR中的Encoder作用相同。MonoDETR与DETR中最大的区别就是Depth Predictor,因此对其着重介绍。

文章方法(重点模块介绍)

Depth Predictor

dcb81355a2358fbeb72a2535b6ccadb6.png f97352cfe423f23a8d3323c822dbb4ba.png

(重点)先前的方法的话,为了监督深度值,引入了额外的一个深度监督,也就是需要别的模型的深度估计结果。MonoDETR提出的Depth Predicter这个部分并不需要引入额外的深度估计的监督,这里采用的是object-wise ground-truth,具体生成方法:
首先对于3D检测而言,肯定会有3D GT boxes,3D GT boxes的 Z 值就是所需要求得深度值(对于图像坐标系而言);其次3D GT boxes 和2D GT boxes 是一一对应得,作者直接根据2D GT boxes在某一张图像具体的位置,然后在一张全黑得图像上对应得位置填充深度值(Z)就获得了object-wise ground-truth。这样就不需要引入额外的深度估计的监督。
相较于回归连续值的任务而言,估计离散值得分类任务更简单,也更加容易学,因此MonoDETR针对深度估计任务,和[2]一样采用了离散化策略(linear-increasing discretization (LID)),估计深度属于某一范围得概率,然后根据其属于某一范围得索引返回连续的深度值。公式如下:

69ee48fda9a7799000f669ffbe08b6a2.png

结果

kitti上的结果

f97a0f3b719d3c790ab0c6245a36510d.png

attention map的效果展示

855d70b96ee98d5e73779b5e6a50844e.png

总结

提出了MonoDETR,一个基于detr的端到端单眼三维目标检测框架,包含最小的几何设计,并且不受任何额外的数据输入、锚点或NMS的影响。

参考:
[1] Zhang, R., Qiu, H., Wang, T., Xu, X., Guo, Z., Qiao, Y., ... & Li, H. (2022). MonoDETR: Depth-aware Transformer for Monocular 3D Object Detection. arXiv preprint arXiv:2203.13310.
[2] Reading, C., Harakeh, A., Chae, J., & Waslander, S. L. (2021). Categorical depth distribution network for monocular 3d object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 8555-8564).

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

29ab2500af053e2f41f518c5782f3172.png

▲长按加微信群或投稿

7918a1d26a9da444180db3fdcdc537bb.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

23e5eef23b5e41beb716970106aba11a.png

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

Logo

尧米是由西云算力与CSDN联合运营的AI算力和模型开源社区品牌,为基于DaModel智算平台的AI应用企业和泛AI开发者提供技术交流与成果转化平台。

更多推荐