- 主题技术
- 以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。
CVPR 2018 | 东升国际官网科技论文详解:立体匹配神经网络的自适应训练
CVPR 2018在美国盐湖城如火如荼进行,今天我们还将为各人分享一篇论文解读。以下是在推算摄影领域,东升国际官网科技颁发的一篇论文,该工作通过挖掘立体匹配神经网路自身有利的个性,实现立体匹配神经网络在新场景下的自适应训练;诒竟ぷ鞯难盗凡街枰牙玫蕉使偻萍嫉乃憬饩龉婊。本文由东升国际官网科技钻研员庞家昊与东升国际官网科技钻研院副总监孙文秀等共同实现。
论文:Zoom and Learn: Generalizing Deep Stereo Matching to Novel Domains
作者:Jiahao Pang, Wenxiu Sun, Chengxi Yang, Jimmy Ren, Ruichao Xiao, Jin Zeng, Liang Lin
论文链接:
https://arxiv.org/pdf/1803.06641简介
双目立体匹配是推算机视觉中的经典问题:给定一组校准好的双目视图(主图与辅图),立体匹配旨在寻找主图每一像素在辅图中的对应点并得到对应的视差,从而估计视图中所有像素的深度信息(如图1所示)。

图一:立体匹配示意图
双目立体匹配在很多领域有着沉要的利用价值,例如,通过智能手机的双摄模组仿照单反拍照的布景虚化成效,必要立体匹配算法推算出正确的深度图;在辅助驾驶的场景中,有效的立体匹配算法可能提供正确靠得住的深度信息以保障驾驶的安全性。随着深度进建技术的不休发展,在特定场景下,神经网络在立体匹配问题上已经达到了优异的机能。然而,若将某一特定场景下(如驾驶场景)训练的立体匹配网络直接利用到另一场景(如人像)下,其成效会大打折扣;另一方面,采集新场景下正确的深度标注信息必要相当繁琐且昂贵的资源。
为解决此问题,本文提出了Zoom and Learn(ZOLE)步骤,其结合了立体匹配网络的性质及传统步骤中的图拉普拉斯正则化,使立体匹配神经网络在短缺新场景标注信息的情况下,实现自适应训练,使其能被有效地利用到新场景之下(如图2所示)。

图2:(由左至右)主图、由合成数据训练的
网络了局(第二、三列)、本文的了局
多尺度观察
得益于深度进建技术的迅猛发展,在特定场景下(如驾驶场景),卷积神经网络已在双目匹配问题上优异的匹配精度。但若把合用于特定场景下的立体匹配网络直接利用至另一场景中,其了局往往难以接受;另一方面,要采集新场景下正确的深度信息也并不容易。
为解决此问题,现有的工作通常利用左右一致性检测实现半监督或无监督的立体匹配网络训练。然而,在现实场景下,主图与辅图的成像性质往往并不一致(色调、白平衡、噪声等),使得基于左右一致性检测的步骤难以有效泛化至新场景。
分歧于现有的步骤,一方面本规划仅必要新场景下的一系列主辅图作为训练数据,而不必要新场景中正确的视差图来监督网络的进建;另一方面,本工作基于立体匹配网络在分歧输入尺度下的分歧阐发实现自适应训练。

图3:两种分歧利用匹配网络的规划
具体地,如果一个已经在旧场景下训练好的立体匹配神经网络S,那么对于某一组新场景下的主辅图,若直接将其输入到神经网络中,能够得到新场景的视差图(记作D)。若将输入图像上采样r倍,再将上采样后的主辅图输入到神经网络中,并将神经网络的输出缩幼r倍,能够得到另一视差图(称作D'),D'与D有着同样的尺寸(如图3所示)。本文作者发现,与D相比,通常地D'占有更为丰硕的高频细节(如图4所示)。

图4:分歧尺度下得到的视差图,第一行为对应的主图
然而,更大的放大倍数r并不愿定意味着更好的了局,由表1可见,输入主辅图放大到肯定水平后,得到的视差图精度起头降落。

表1:
将KITTI数据集的主辅图放大到分歧分辨率后
输入匹配网络得到的机能指标(数字越幼越好)
导致该景象的原因是,将输入图像放大等价于让立体匹配算法在亚像素的精度下进行匹配(更高的颗粒度),因而能产生更多的高频细节;然而,神经网络等价的感触野也会相应变幼,换句话说,网络变得相对“短视”了,因而当r达到肯定数值后,匹配精度起头变差。
为了在没有新场景标注的情况下也能实现神经网络的训练,本文作者提出让神经网络不休进建自身在高颗粒度下输出的高频细节,这也是本步骤的名称Zoom and Learn (简称ZOLE)的寓意。
先放大,再进建
为方便叙述,设想已有一个预先在推算机合成数据(旧场景)上训练好的立体匹配网络S,以及旧场景下的训练数据(大量推算机合成的主辅图与对应的视差图),同时有一系列真实拍摄的人像主辅图(新场景),但并无对应的视差图。本文指标是对网络S进行自适应训练,使其能合用于日常生涯中拍摄的人像图像。
本文算法的总体流程是,把推算机合成数据(有已知的视差图)和人像数据(没有视差图)混合在一路,让立体匹配网络迭代地进行训练。在每一个训练批次,将前述两种数据混合在一路,对于推算机合成的数据(旧场景)选取通常的方式进行有监督的训练;对于人像数据(新场景),则依照前述步骤用网络S推算对应的高颗粒度视差图,以其作为当前的伪标注对网络进行有监督训练。
除此之表,为预防匹配网络进建到一些谬误的细节,对于新场景数据,本文引入了经典步骤中的图拉普拉斯正则化(Graph Laplacian Regularization)作为神经网络训练时的损失函数,从而疏导神经网络有选择地进建高颗粒度输出中有意思的图像细节。
尝试了局
下面展示将在FlyingThings3D数据集(推算机合成数据)上训练的立体匹配网络自适应到人像场景中(如图5所示),可见相比起原来的网络,经过自适应训练后的网络在人像数据上能产生更正确的视差图及更丰硕的细节。

图5:
(由左至右)主图、原来网络的了局
及自适应后的网络了局
表2展示了立体匹配的定量分析了局。由于自行采集的人像数据并无真实的视差图信息,本文先推算视差图,并用其及辅图合成出一张左图,而后推算合成的左图与真正的左图的PSNR和SSIM,以此估计自适应训练后的立体匹配神经网络在新场景下的机能(如表2所示),可见本文提出的步骤在两项指标上均大有提升。

表2:
原网络及自适应后的网络
在人像数据集与推算机合成数据集上的阐发
结论
本文提出了一种立体匹配神经网络自适应训练步骤——Zoom and Learn (ZOLE)。
首先,本文作者观察并分析了立体匹配神经网络在分歧输入尺度下的性质,发现将主辅图上采样后输入到网络中能得到在原有的尺度上所没有的高频细节。本文利用这个有利的个性,使神经网络在原尺度下也能产生更多细节,提出让神经网络进建自身的高颗粒度输出,同时选取了经典步骤中的图拉普拉斯正则化约束神经网络的了局,使其有选择性地进建有效的细节。
尝试批注,本步骤能够有效地将某单一场景下训练的立体匹配网络泛化至分歧场景。此表,进一步的尝试也展示本文算法在光流估计及图像宰割上也能带来机能的提升。






返回