东升国际官网

申请试用
登录
  • hd-share-img01
主题技术
以原创技术系统为根基 ,SenseCore东升国际官网AI大装置为主题基座 ,布局多领域、多方向前沿钻研 ,
急剧买通AI在各个垂直场景中的利用 ,向行业赋能。

【东升国际官网泰坦公开课】AutoML知几多

2020-05-06

导读


AutoML(自动机械进建)以及NAS(神经架构搜索)是深度进建领域目前最具潜力和影响力的方向之一 ,其主张是越发自动化地实现神经网络的结构设计以及超参优化等方面。


2020年5月7日 ,东升国际官网泰坦公开课第010期、CVPR2020论文解读第二期的线上课程 ,由东升国际官网四位钻研员分享了团队在AutoML方面最新的钻研工作 ,幼副手已为各人做了图文整顿 ,快来一见为快吧~


Part 1  AutoML领域综述

Part 2  东升国际官网AutoML团队有关钻研进展

 2.1 Augmentation

 2.2 NAS

 2.3 LossFunction

Part 3  Q&A问答

Part 4  答疑互换

课程PPT及视频回放获取方式见文末提醒~


Part 1 AutoML综述


深度进建是一个在2013年被引爆的概想 ,自从AlexNet推出以来 ,在好多CV工作的benchmark上会看到深度进建为主题的算法的身影 ,如今能够称作是“深度进建的时期” ,由于一些传统的算法已经淡出了视野 ,常说的“深度进建三巨头”在2018年凭借在深度进建方向上的贡献获得了图灵奖 ,足以见得深度进建是目前非;鹑鹊姆较。


深度进建是一个在2013年被引爆的概想 ,并在整个机械进建领域占据了主导职位。深度进建和非深度进建的重要区别在于用于做物体识此外feature是手工设计还是自动设计 ,深度进建提供了一个从data中获取feature的方式 ,对于深度进建来说 ,下一步的走向会是哪里?


目前以为深度进建的下一步是自动化的深度进建。深度进建解决了一个从data中挖掘相宜的feature的问题 ,钻研人员在整个训练过程中会遇到好多问题:是否要使用数据加强?要使用什么数据加强?是否用了相宜的loss function?有没有法子寻找更好的loss function?深度进建的架构要用几多层?层与层的拓扑关系要若何确定?若何分配推算量?


在深度进建框架下这些问题依然必要手调 ,我们但愿从数据中获取答案 ,那么AutoML就是其中一种技术路线。目前它遇到的重要问题是推算量需要极度大 ,从一些工作能够看出 ,在NASNet中提到其必要的GPU Days是1800天 ,固然能够获得不错的了局 ,但开销对于一些幼公司来讲是无法接受的。其后续工作AmoebaNet利用了Evolution的方式做网络结构搜索 ,其GPU Days甚至比1800还要高。若何解决computational budget是各人在做AutoML时极度关切的问题。


目前以为AutoML齐全的流程 ,重要分为data、model和optimization三个部门 ,其关系如下图所示:


从Data set到最终的模型会经历很长的过程 ,首先要对data进行洗濯 ,而后确定模型结构 ,最后是对模型进行optimization。目前团队不仅在NAS方面有较丰硕的成就 ,同时也在Augmentation和Loss Function方面有肯定尝试 ,并获得不错的进展。


下面将凭据以上介绍的AutoML的三方面 ,别离介绍东升国际官网钻研团队近期获得的成就。


Part 2 论文解读

1 Augmentation


这篇的工作由google初次实现 ,pipeline会和他们的NAS步骤极度靠近 ,首吓仔一个RNN Controller generated strategy ,其中蕴含了做Augmentation的概率和幅度 ,在得到了Augmentation policy后会训练一个网络 ,从初始化训练到收敛 ,收敛后会在validation set上获得reward。通过reward来监督RNN Controller ,使得RNN Controller采样reward更高的strategy。这个流程中的第一个问题就是evaluation很慢 ,过程极度耗时 ,其次若是Reinforce Learning搭配RNN Controller进行参数的训练 ,迭代次数极度多 ,综合起来会让功夫开销极度大。为相识决耗时的问题 ,他们采样了数据集 ,对CIFAR-10仅采样8% ,对IMAGENET仅采样0.5%。并且 ,只能对单一结构进行搜索 ,等待搜索了局在此外网络上获得好的成效。这些都是以上工作的一些短处。我们选取了分歧的视角 ,把augmentation policy search看作一个超参优化。传统超参优化的问题也呈此刻迭代上 ,我们提出了Online Hyper-parameter Learning的步骤来解决此问题。OHL与传统方式的区别是 ,只进行单个模型的训练 ,single run是我们重要的特点 ,且并不必要模型做retrain ,当搜索实现后可获得最终想要的模型。将单个模型的训练过程切成碎片 ,运行多个模型 ,每个GPU在跑一个幼trunk时的初始参数是一样的 ,采样分歧的augmentation policy ,使用在分歧的模型上 ,获得分歧的reward ,监督P0走向好的augmentation policy散布。

了局:能够看到除了AMOEBANET-B对比Google会稍逊一筹表 ,其他的几个模型都能够不变超过google的了局。

03.png

在ImageNet上的测试了局:

04.png

论文地址:https://arxiv.org/abs/1905.07373


2 Network Architecture

1)EcoNAS: 为传统网络搜索步骤寻找最佳的代理


在网络搜索中极度沉要的部门就是评估候选子结构的曲直。我们通常要使用代理 ,若何评估代理的曲直呢?我们常用的步骤是去衡量代理前提下得到模型的精度和模型真实的精度排序的一致性。东升国际官网尝试采样了50个网络 ,把他们训练到齐全收敛 ,用得到的最终精度的排序和在代理环境下排序的斯皮尔曼排序有关系数(Spearman ranking coeffficient)来评估他们之间的关联性 ,有关系数越高则代理环境维持网络排序的能力(也称保序性)越高 ,对于NAS算法越有利D芄桓鱿峦 ,横轴是代理的加快比例:

05.png

对上图的尝试了局进行分析后得知 ,更长的训练迭代和使用全数数据进行训练对保序是有利的 ,降低分辨率对保序的影响并犯法规 ,能够适当降低分辨率 ,同时通路降低对保序有利;谖颐巧鲜龅墓鄄 ,我们使用了使得训练急剧但有关系数大的设置 ,并设计了EcoNAS。EcoNAS选取了搜索得到的高效设置 ,在这个设定下 ,单模型训练20 epoch只必要单卡数分钟。对于训练迭代 ,我们设计了一套分层算法 ,对早期阐发不好的备选网络进行早停 ,从而进一步削减推算资源:

06.jpg

这三个集中随着搜索的进行大幼由此降低 ,也就是说只有很少的模型会被训练到3N次迭代 ,这是基于我们之前发现的epoch越多 ,对模型的评估越好的观察设计的算法。


在8 GPU Days内EcoNAS即可搜索 ,我们搜索到的参数在将AMOEBANET加快近260倍的同时对机能也有肯定提升 ,参与档次化代理后还会带来两倍的速度提升和更高的机能 ,东升国际官网钻研讲了然代理保序性对NAS算法的沉要性。

论文地址:https://arxiv.org/abs/2001.01233


2)PC-NAS: 基于参数后验散布个性提高网络结构搜索中代理的有效性

当前网络结构搜索算法大量的推算量需要成为了其利用中最大的问题。然而解决推算量问题的步骤目前还不美满 ,使用共享参数的超网做代理成为了目前比力普遍的选择。但这类步骤受限于代理和真实情况的误差。通过度析随机梯杜着化求解的参数后验散布的KL散度 ,我们得出了削减搜索空间内网络结构数量能够提高one-shot有关性的结论。

07.png

为了在训练权沉共享的同时 ,减幼权沉共享的网络结构数量 ,我们提出一种训练时的空间建剪步骤。如果我们目前有一个如上图所示的超网 ,每一层占有一个mixop(mixop是n个候选op的合称)因而该超网中总共蕴含n^层数个分歧的结构。为了进行搜索空间的建剪 ,我们提出了部门结构池的概想(partial model pool)。如果网络结构有L层 ,部门结构池在整个搜索过程中将会有L个状态(Stage)。每从L-1状态到L状态 ,部门结构池中的子结构的层数将增长1。

08.png

改进后的proxy和原来的one-shot proxy的对比。PC-NAS最终的搜索空间很幼 ,所以获得的最终精度极度靠近单独训练时的排序。

论文地址:https://arxiv.org/abs/1910.02543


3)GreedyNAS: 基于贪?超?络的One-Shot NAS?法

我们提出一种贪心超网络来减轻supernet的评估压力 ,使得supernet越发贪心地注沉于有潜力的好结构 ,提高搜索的精度。


先前的步骤首先机关一个超网络 ,蕴含搜索空间里的所有OP和参数 ,同时在每一次超网络训练时sample出一个幼的子网络进行训练。巨大的搜索空间带来的评估压力使supernet难以正确地域分结构的曲直 ,由于所有结构的权沉都是在supernet中高度共享的 ,若是一个差的结构被训练到了 ,好的结构的权沉也会受到滋扰。这样的滋扰会减弱好网络的最终评估精度 ,影响网络的搜索了局。同时 ,对差的结构进行训练相当于对权沉进行了没有必要的更新 ,降低supernet的训练效能。


因而我们但愿降低搜索空间的大幼 ,提升它的评估机能。

09.png

如果搜索空间能够如上划分为好的空间与差的空间 ,且好空间中每一个结构的ACC均大于差空间 ,然而确定所有结构中哪些是来自好空间必要遍历整个搜索空间 ,推算开销是无法接受的。


为相识决这一问题 ,我们提出了一种multi-path sampling with rejection的多分支过滤采样步骤。在介绍这个步骤前 ,我们首先对目前的均匀采样步骤进行分析。


由于分支的采样是均匀且独立的 ,那么每个path来自好空间的概率为:

10.png

为了得到必要的来自于好空间的结构 ,我们进一步思考一个多维的Bernoulli尝试 ,那么有如下的结论:

11.png

我们取m = 10和m = 20 ,对定理1的概率进行绘造 ,如Figure 2所示 ,可见这种采样下得到来自好空间中的path的概率是很高的。

12.png

因而 ,我们能够对采样到的多个结构进行评估筛选的步骤提升采样到“好”结构的概率 ,即每次采样m个结构 ,从中拔取评估指标最高的k个结构进行训练。为了削减评估网络的亏损 ,我们从验证集中随机拔取了一幼部门(如1000张图)组成幼验证集 ,并使用在幼验证集上的loss作为结构的排序指标。使用幼验证集进行评估 ,在保障评估正确性的前提下 ,相较uniform sampling步骤只增长了很少的推算价值。


在前面提到的蹊径滤波中 ,我们通过评估能够分辨出较好的结构 ,为了进一步提升训练效能 ,我们提出使用一个蹊径候选池用于存放训练过程中评估过的“好”结构 ,并进行沉复利用。具体而言 ,候选池能够看作是一个固定大幼的有序队列 ,其只会存储所有评估过结构中得分前n(候选池大幼) 的结构。


在网络刚起头训练时评估过的结构较少 ,候选池中存储的结构是好结构的可信度不高 ,因而从候选池中采样的概率 ? 在起头时设为0 ,并线性增长至一个较高的值 ,若候选池中的结构都来自好空间 ,通过使用候选池 ,采样10个结构 ,至少有5个好结构的概率由88.38%提升至99.36% 。


候选池重要有以下利益:

● 提升训练效能

● 提升采样精度

● 能够通过候选池更新频率判断supernet是否具备足够的评估机能 ,因而能够用作终场训练的参考

● 使进化算法有更好的初始 ,提高搜索到结构的整体精度

论文地址:https://arxiv.org/abs/2003.11236


4)CRNAS: 检测中的算力沉分配

我们换了一个钻研的视角 ,从检测这个问题自身去思考NAS。之前在NAS上做检测的文章更多的是直接把分类的经验拿到检测上做搜索 ,东升国际官网工作是基于检测的工作去做NAS ,而不是将NAS直接利用到检测的工作上来。


对Res50分类而言 ,ImageNet输入大幼是224*224 ,但是对于检测而言 ,拿COCO为例 ,输入可能到800*1333 ,并且还必要去handle各个尺度的物体。

13.png

这个时辰 ,我们将网络的有效感触野ERF与网络算力分配模式联系了起来。在Faster RCNN + FPN这已经典baseline中 ,我们但愿FPN的各层有相宜能力去检测对应大幼的物体(Anchor Size)。当我们画出R50-FPN的各层的ERF时 ,发现对于P3而言(幼物体) ,ERF挺大有冗余 ,但对于P5而言(大物体) ,ERF又不够有点稀少 ,见下图Figure 1右上角。这也就是直接利用Res50作为backbone的问题。


经过东升国际官网stage的沉分配之后 ,能够显著看到各层FPN有越发平衡的ERF ,保障了最后的机能。


为了进行算力沉分配 ,我们构建了一个两级搜索来共同这个重大的搜索空间。我们先进行stage的搜索 ,而后进行spatial的搜索。单一来说 ,先搜索各个stage的block number ,再搜索各个地位的dilated conv的rate ,由于dilated conv通过扭转采样点的稀少水平 ,能够扭转网络的感触野。


我们利用One-shot NAS的方式构建超图 ,当超图训练实现后 ,我们去测试各类组合的机能 ,从其中遴选中最好的组合。

14.png

我们也设计了能够沉复利用的超图 ,也就是你训练了一个超图之后 ,我们能够从中遴选出这个系列中任何推算量下最好的模型 ,如Res18到Res101。


在得到stage的了局之后 ,我们利用dilated conv来实现分歧地位稀少的采样。与第1步一样 ,我们也是利用One-shot NAS的方式构建超图。

15.png

从了局上面来看 ,经过东升国际官网CRNAS ,所有的模型在COCO上均有1.5-1.9 mAP左右的提升 ,并且这些提升都没有带来任何的推算量增长。且模型有较好的迁徙机能。

论文地址:https://arxiv.org/abs/1912.11234


3 Network Architecture

1)AM-LFS:AutoML for Loss Function Search


Loss function是在好多图像工作上比力沉要的调参的对象 ,目前存在的Loss function有好多问题 ,合合用AutoML解决 ,能够通过数据确定Loss function的大局;凳欠衲芙↙oss function?将从前的Loss function放在loss空间中 ,发现了一个统一的表白:

16.png

在选用分歧的具体表白时 ,会应对原空间中分歧的loss function。在有了这一表白后 ,对这一函数的搜索我们采取了单一的分段函数 ,在分段内部是单一的线段。


我们提出了将loss function search转化为另表两个函数的搜索 ,使用了前面提到的OHL framework ,用分歧的trunk更新两个函数的超参 ,使分段函数能够拟合上指标函数。最后在Cifar10上尝试对比baseline在noisy ratio的情况下能够提升2各点左右 ,带有noise的情况下会提升更多。

论文地址:https://arxiv.org/abs/1905.07375


Part 3 Q&A

Q:通路数降低能够获得更好的机能评估 ,这一点对于分歧的网络结构和loss function都合用吗?

A:这是一个比力反直觉的景象 ,遇到新的工作时能够往这个方向尝试 ,但不定会找到一个哪里都合用的法规。

Q:loss的搜索内容上是对确定好的几种loss进行系数的自动寻优吗?

A:不是的。我们参考了几组loss function的特点 ,抽象成了loss function的空间 ,由两个单独的函数确定最终的方式 ,我们把loss function search的函数转化到了前面提到的两个函数上 ,而后用分段线性函数的参数来搜索新的空间。

Q:Paper中提到 ,用1000张图片评价是不太少了?

A:在paper中 ,我们对各类大幼的验证集与齐全验证集的排序有关性做了具体的分析 ,选择1000张是由于图片数量到1000时排序有关性已经能够不变到90%以上 ,再增长也不会有更大的提升 ,因而为了两全效能 ,我们选择了1000张图片。

Q:候选池中的结构有更大可能性被屡次训练 ,这对one shot步骤最终评估会有较大影响 ,怎么保障找到的结构不是由于无意成分而被训练最多的结构?

A:若是从候选池中采样 ,能够提升效能 ,但也会迷失搜索结构的多样性 ,所以在实现中为了保障从大空间采样的多样性与池中搜索效能的平衡 ,我们一路头只会从齐全的搜索空间进行sample ,平正地采样所有结构 ,当训练轮数达到肯定水平再引入候选池进行搜索 ,且从候选池中采样的概率会由0线性增长至0.8。这样从平正到贪心训练逐步演变的过程 ,能够削减训练不平衡、结构不平正的情况 ,同时得到贪心带来的效能提升。

Q:NAS会不会在搜索的数据集上过拟合 ,导致在现实场景中阐发没那么好?

A:绝大部门CV工作都基于ImageNET ,若是NAS能在ImageNET基础上搜出一个好的模型 ,或许率能够迁徙到其他现实工作上的。在一些Task specific research中 ,有可能针对分歧的搜索时会拟合到你搜索的数据集。

「东升国际官网泰坦公开课」公家号后盾回复“010” ,即可获取相应的课程资料哦!


推荐阅读
  • 11月2日 ,为期七天的推算机视觉顶会ICCV 2019闭幕。东升国际官网科技以57篇论文(11篇Oral) ,13项冠军的成就创造新“高度”(详见文章《东升国际官网科技57篇论文入选ICCV 2019 ,13项较量夺冠》) ,让世界见证东升国际官网钻研技术堆集的“厚度” ,在大会现场也能亲身感触东升国际官网AI+行业利用落地的“广度”
    2019-11-03
  • 近日 ,由阿里巴巴集团、东升国际官网科技及香港科技园公司携手成立的香港人为智能及数据尝试室(HKAI Lab)在香港科学园正式开幕。东升国际官网科技首创人、香港中文大学教授汤晓鸥、阿里巴巴集团首席技术官张建锋和香港科技园公司行政总裁黄克强别离颁发了讲话 ,祝福HKAI Lab可能助力香港草创人为智能企业生态发展。
    2018-10-18
产品试用
填写此单一表格 ,我们将尽快联系您!
商务合作
400 900 5986
周一至周五 9:00-12:00 ,13:00-18:00
合作同伴招募
【网站地图】