- 主题技术
- 以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。
CVPR 2018 | 东升国际官网科技Spotlight论文详解:单目深度估计技术
基于视觉的自动驾驶系统必要基于单目摄像头获取的图像,判断当前车辆与周围车辆、行人和阻碍物的距离,距离判断的精度对自动驾驶系统的安全性有着决定性的影响,东升国际官网科技在CVPR 2018颁发亮点汇报(Spotlight)论文,提出基于单目图像的深度估推算法,大幅度提升基于单目图像深度估计的精度,进一步提升自动驾驶系统的安全性。该论文由东升国际官网科技见习钻研员罗越在钻研院钻研员任思捷领导下实现。本文为东升国际官网科技CVPR 2018论文解读第5期。
论文:Single View Stereo Matching
作者:Yue Luo, Jimmy Ren, Mude Lin, Jiahao Pang, Wenxiu Sun, Hongsheng Li, Liang Lin
论文地址:
https://arxiv.org/abs/1803.02612
代码地址:
https://github.com/lawy623/SVS
简介
基于单目图像的深度估推算法拥有方便部署、推算成本低蹬着点,受到了学术界和工业界日益增长的关注。现有的单目深度估计步骤通常利用单一视角的图像数据作为输入,直接预测图像中每个像素对应的深度值,这种解决规划导致现有步骤通常必要大量的深度标注数据,而这类数据通常必要较高的采集成本。近年来的改进思路重要是在训练过程中引入隐式的几何约束,通过几何变换,使用一侧摄像机图像(以下称右图)监督基于另一侧摄像机图像(以下称左图)预测的深度图,从而削减对数据的依赖。但这类步骤在测试过程中依然不足显式的几何约束。为相识决上述问题,本文提出单视图双目匹配模型(Single View Stereo Matching, SVS),该模型把单目深度估计分化为两个子过程,视图合成过程和双目匹配过程,其算法框架如图1所示。

图1:单视图双目匹配模型的示意图
通过这样的分化,使得提出的模型有如下两个利益:
极大地削减深度标注数据的依赖;
在测试阶段显式地引入几何约束。
尝试证明,本文提出的模型仅用少量的深度标注数据就能够在KITTI数据集上超过之前的所有单目深度估计步骤,并初次仅靠单目图像数据就超过了双目匹配算法Block Matching的深度估计精度。
SVS模型
现有基于深度进建的单目深度估计步骤,通常把CNN作为黑盒使用,进建图像块至深度值的直接映射,这类步骤齐全依赖高级语义信息作为预测深度的凭据,只管有些步骤在损失函数上引入一些特殊的约束前提,进建这样的语义信息依然是极度难题的。另一方面,即便这样的映射可能被成功训练,算法通常也必要大量带深度值标签的真实数据,而这类数据的采集成本极度高且耗时,极大的限度了这类技术的合用场景。
基于上述分析,本文步骤提出了一种新鲜的面向单目深度估计的算法框架,把单目深度估计分化为两个过程,即视图合成过程和双目匹配过程。模型的重要设计思路在于:
把双目深度估计模型中有效的几何约束显式地结合到单目深度估计模型中,提高模型的可诠释性;
削减使用难以采集的真实深度数据,从而扩大模型的合用领域;
整个模型以端到端的的方式训练,从而提升深度估计正确性。
模型的视图合成过程由视图合成网络实现,输入一张左图,网络合成该图像对应的右图;而双目匹配过程由双目匹配网络实现,接管左图以及合成的右图,预测出左图每一个像素的视差值,具体的网络结构(如图2所示)。

图2:
算法网络结构图
上半部门网络对应视图合成网络
下半部门网络对应双目匹配网络
视图合成网络:
通常情况下,左图中的像素均能够在右图中找到匹配的像素,因而能够首先把左图平移多个分歧像素距离,得到多张分歧的图片,再使用神经网络预测组合系数,把多张平移后的左图和预测的系数组合得到预测的右图。具体地,视图合成网络基于Deep3D [1] 模型,图2 中的上半部门展示了视图合成网络的示意图。输入一张左图,首先主干网络对其提取分歧尺度的特点,再经过上采样层把分歧尺度的特点统一至统一个尺寸,而后经过累加操作融合成输出特点并预测出概率视差图,最后经过选择?(selection module)结合概率视差图以及输入的左图,得到预测的右图。本文选取L1 损失函数训练这个网络。
双目匹配网络:
双目匹配必要把左图像素和右图中其对应像素进行匹配,再由匹配的像素差算出左图像素对应的深度,而之前的单目深度估计步骤均不能显式引入类似的几何约束。由于深度进建模型的引入,双目匹配算法的机能近年来得到了极大的提升。本文的双目匹配网络基于DispNetC [2] 模型, 该模型目前在KITTI双目匹配数据集上可能达到梦想的精度,其网络如图2的下半部门所示,左图以及合成的右图经过几个卷积层之后,得到的特点会经过1D有关操作(correlation)。有关操作被证明在双目匹配深度进建算法中起关键性的作用,基于有关操作,本文步骤显式地引入几何约束;其得到的特点图和左图提取到的特点图进行拼接作为编码-解码网络(encoder-decoder network)的输入,并最终预测视差图。该网络的训练也同样使用L1损失函数。
尝试了局
本文在KITTI公开数据集上对提出的模型进行验证,遵循Eigen等人[3]的尝试设置,把697张图片作为测试图片,其余的数据作为训练图片,从定量和定性两方面对所提出的模型进行验证。
数值了局
表1总结了本文模型和其他现有步骤了局的对比,能够看出,本文模型在大无数指标上均达到世界当先水平。其中,就ARD指标来说,提出的模型比之前最好的步骤误差减幼16.8%(0.094 vs. 0.113);表中同时也显示,经过端到端优化之后,SVS模型的机能可能进一步得到提升。

表1:
KITTI数据集上SVS模型和其他步骤的数值了局
表中加粗暗示机能最好的了局
可视化了局对比
图3显示了在KITTI Eigen测试集上的深度估计了局的可视化成效,从图中能够看出本文提出的SVS模型可能得到越发精准的深度图。

图3:
在KITTI Eigen测试集上的深度估计了局的可视化
提出的SVS模型可能得到越发正确的深度图
在其他数据集上了局的可视化
为了验证SVS模型在其他数据集上的泛化能力,本文将在KITTI数据集上训练好的SVS模型直接利用至Cityscape和 Make3D数据集上,了局可视化成效别离展示在图4及图5中D芄豢吹郊幢阍谘盗肥菁忻挥谐鱿止某【,本文步骤依然能够得到合理正确的深度估计了局,证实了本文步骤较为壮大的泛化能力。

图4:
在Cityscape数据集上深度估计了局的可视化
SVS模型可能天生梦想的深度图

图5:
在Make3D数据集上深度估计了局的可视化
本文提出的SVS模型能够得到较为正确的了局
与双目匹配算法Block-Matching的对比:
为了进一步确认目前机能最优异的单目深度估计步骤和双目深度估计步骤的差距,本文在KITTI 2015双目匹配测试集上对比了SVS模型与现有最优机能的单目深度估计步骤以及双目匹配Block-Matching步骤 (OCV-BM),有关了局总结在表2中,本文的SVS模型初次超过了双目匹配Block-Matching算法。

表2:
在KITTI 2015双目匹配测试集上的数值了局
技术潜在利用
单目深度估计对比双目深度估计拥有方便部署、成本低蹬着点,在好多领域有着丰硕的潜在利用场景,如三维沉建、加强现实等。
a) 三维沉建

b) 加强现实

结论
本文提出一种单一而有效的单目深度估计模型——单视图双目匹配(SVS)。该模型通过把单目深度估计问题分化为两个子问题,即视图合成问题和双目匹配问题,预防把神经网络模型直接作为黑盒使用,提高了模型的可诠释性。同时,为了更好的解决这两个子问题,显式地把几何变换编码到两个子网络中,提升网络模型的表白能力。尝试了局批注,该步骤仅使用少量带深度标签的训练数据,就可能超过所有之前的单目深度估计步骤,并且初次仅使用单目数据就超过双目匹配算法Block-Matching的机能,在多多领域中有着丰硕的潜在利用。
参考文件
[1] J. Xie, R. Girshick, and A. Farhadi. Deep3d: Fully automatic 2d-to-3d video conversion with deep convolutional neural networks. In ECCV, 2016
[2] N. Mayer, E. Ilg, P. Hausser, P. Fischer, D. Cremers, A. Dosovitskiy, and T. Brox. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation. In CVPR, 2016.
[3] D. Eigen, C. Puhrsch, and R. Fergus. Depth map prediction from a single image using a multi-scale deep network. In NIPS, 2014.






返回