东升国际官网

申请试用
登录
  • hd-share-img01
主题技术
以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。

CVPR 2018 | 东升国际官网科技Spotlight论文详解:极低延长性的视频语义宰割

2018-05-30

在自动驾驶领域,目前基于深度进建的宰割算法运算负荷依然较大,不能有效移植到嵌入式端,在车辆上运行。在保障宰割精度的情况下,若何能力达到高实时性?CVPR 2018东升国际官网科技论文解读第4期为您带来解读。


以下是在自动驾驶场景理解领域,东升国际官网科技颁发的一篇亮点汇报(Spotlight)论文,提出极低延长性的视频语义宰割算法。


该论文由东升国际官网科技与港中文-东升国际官网科技结合尝试室合作实现。


论文:Low-Latency Video Semantic Segmentation

作者:Yule Li, Jianping Shi, Dahua Lin


论文链接:

https://arxiv.org/abs/1804.00389


简介


近年出处于深度神经网络,尤其全卷经神经网络的迅速发展,图像语义宰割获得了飞速的进展,但是若何高效的实现视频语义宰割依然是一个极富挑战性的问题。其难题在于:


  • 与图像宰割相比,视频宰割通常涉及更多的数据。好比,视频每秒通常蕴含15~30帧,分析视频因而必要更多的推算资源;

  • 很多现实利用(如自动驾驶)中的视频宰割?楸匾迪质悠翟赘畹牡脱映ば。


对于视频语义宰割工作,大部门现有工作关注若何在每帧推算量和宰割精度之间的达到一个平衡点,却并没有深刻的思虑和探求算法延长性这个成分。现有工作能够被大体分为两类:


  • 高层特点的时序建模步骤

  • 中央层特点传布的步骤


前者重要在一个齐全的逐帧模型上增长一些提取时序信息的操作,因而不能削减推算量。后者(如Clockwork Net、Deep Feature Flow等工作)通过沉用汗青帧的特点来加快推算,这类步骤能够削减视频整体推算量,然而忽略了延长方面的成分。这类步骤的延长和精度对比(如图1所示),能够看出这类步骤很难同时实现低延长和高精度。东升国际官网工作则安身降低每帧均匀推算量的同时,实现宰割的高精度,降低算法的最大延长。


ghtjh.jpg


图1:

Cityscapes数据集上

分歧步骤延长和宰割精度的对比


算法主题思想


本文算法使用视频宰割中经典的基于关键帧调度的模式来有效平衡推算量和精度。具体来说,若是当前处置帧为关键帧,则使用整个宰割网络来获得语义宰割的标签,如图2左部门所示;若是当前帧不为关键帧,则变换宰割网络高层汗青帧特点为当前帧高层特点,再使用宰割网络的语义分类操作获切当前帧的语义标签,如图2右部门所示。关键帧的选择和特点跨帧传布两个操作均基于同样的网络低层特点,具体操作在之后章节详述。在划分宰割网络结构时,算法尽量保障低层网络的运行功夫远幼于高层网络,(如图2所示)低层网络耗时61ms,而高层网络耗时300ms。这样思考的启程点在于:


  • 因低层网络的推算价值很幼,算法能够基于低层网络提取的特点,增长少部门额表的推算来实现关键帧选择和特点跨帧传布;

  • 当前帧的低层特点同样蕴含当前帧的信息,能够互补来自分歧功夫的传布特点;

  • 所有的操作均复用了逐帧模型的结构,算法整体模型越发简洁。


fgerhgth.jpg



图2:

自适应特点传布?


自适应特点跨帧传布


特点传布关注若何从汗青帧传布高层特点到当前帧,降低模型总体推算量,先前的变换步骤重要分为两类:


  • 基于图像或底层特点获取的光流信息,跨帧传布分歧帧的语义分类特点。这类步骤固然有效,但是推算光流往往价值太大,而获切当前帧的语义标签并不必要严格的点到点映射。

  • 平移不变性卷积。这种操作在每个地位均使用一样的卷积核来映射特点,因而不能适应分歧地位的内容变动。


本文设计了一个地位有关的卷积操作来进行跨帧特点传布。它的推算量相对较低,同时又能适应分歧地位的特点进行自适应传布。分歧地位的卷积核参数通过一个幼的网络回归进建获得(如图2中weight predictor所示),其能很好的适应分歧空间地位内容的变动。整体特点传布?(蕴含当前帧低层网络、卷积核预测和空间变动卷积)蕴含两大优势:


  • 总体推算量相较高层网络部门推算量大为减幼,因而能够急剧的获切当前帧的语义标签;

  • 能够很好的维持视频邻近帧的抖动或者其他急剧变动,尝试了局批注这种卷积操作融合步骤可能有效的提升7% mIOU的精度。


整体了局如表1所示,了局展示了本文算法复用逐帧网络的优势,能够从低层网络提取的特点来互补跨帧传布的特点。


rtshrj.jpg


表1:

分歧特点传布?槎宰钪赵赘罹鹊挠跋


自适应关键帧调度


视频处置算法中,一个好的关键帧选择算法可能随视频内容变动自适应的调整关键帧选择频率,在视频内容变动大的功夫区间更多的选择关键帧,而在视频变动缓慢的区间较少的选择关键帧,从而在有效维持视频流中信息的前提下,降低整体推算量。现有的关键帧调度算法分为固定长度调度和基于阈值调度两种规划,前者每隔n帧选择一次关键帧,这种方式不能适应分歧视频帧之间内容的变动,后者则通过推算当前帧高层特点和汗青帧高层特点之间的差值,通过设定一个阈致反决定是否是否选择当前帧为关键帧,这种步骤能肯定水平的适应分歧帧之间的内容变动,但是特点的差值容易颠簸,较难设定一个统一的阈值。


本文算法使用当前帧语义标签和前一个关键帧语义标签的差距致反作为视频内容变动水平的判断凭据,如图3所示,若当前帧距上一个关键帧越远,则语义标签的差值就越大。当差值超过某个阈值的时辰,则选择该帧作为关键帧。但是直接推算这样一个差距值较作难题,本文在Cityscapes和Camvid两个数据集上发现低层特点和语义标签的变动值有很大的关联,因而利用低层特点来预测这样该差值,即输入汗青帧低层特点和当前帧低层特点到一个回归器来回归该差距值。分歧的关键帧选择战术的了局如图4所示,所有的战术均选取本文提出的自适应特点传布步骤,能够看出提出的自适应关键帧调度步骤显著优于基于固定距离和基于高层特点差值阈值的调度战术。


fqgrhgh.jpg


图3:

自适应的关键帧选择


fhtrght.jpg


图4:

分歧调度战术对最终宰割机能的影响


整体系统框架


本文算法整体框架如图5所示,当视频的序列帧不休输入时,在第一帧时刻,进行初始化操作,即输入图片帧给整个网络,获得低层特点和高层特点。在接下来的时刻t进行自适应的推算,首先推算低层特点:输入和上一个关键帧低层特点至自适应关键帧选择?,判断当前帧是否为关键帧。若为关键帧,则输入底层特点至高层网络获得高层特点;不然输入底层特点至自适应特点传布?榛袂械鼻爸「卟闾氐,进而通过语义分类获切当前帧语义标签。


rferg.jpg


图5:

系统整体框架示意图


该系统极大的削减了整体耗时,其中判断关键帧操作耗时仅20ms,跨帧特点传布仅需38ms,而高层网络推算高层特点则必要299ms。通过这种方式,整个系统能够显著的降低系统的均匀每帧推算量(如表2所示),自适应调度战术和自适应特点传布步骤能够把每帧均匀推算功夫由360ms减为171ms,精度仅损失3.4% mIOU。


fargh.jpg


表2:

Cityscape数据集上

与目前先进步骤了局的对比


同时本文设计了一种低延长的调度战术进一步削减整体系统的延长,合用于自动驾驶等必要实时响应的系统。具体而言,当前帧被判断为关键帧时,低延长调度战术依然从汗青帧传布特点到当前帧并将其缓存为当前帧高层特点,同时启用一个后盾线程来推算当前帧高层特点(若是直接运行高层网络部门会造成299ms的延长),一旦推算实现就取代缓存的高层特点。尝试了局批注(如表2所示),这种低延长的调度战术可能将延长由360ms降为119ms,同时只损失较幼的宰割精度(由78.84%降为75.89%)。


结论


本文提出了一个高效的低延长视频语义宰割算法,其重要由自适应特点传布和自适应关键帧调度?樽槌。该算法在关注平衡精度和推算量的同时力求降低系统的延长,Cityscapes和Camvid两个数据集上的尝试了局证了然该步骤的有效性。作者但愿在将来工作中在模型压缩和模型设计方面进一步降低算法的总体延长和推算量。


ergrh.jpg

产品试用
填写此单一表格,我们将尽快联系您!
商务合作
400 900 5986
周一至周五 9:00-12:00,13:00-18:00
合作同伴招募
【网站地图】