东升国际官网

申请试用
登录
  • hd-share-img01
主题技术
以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。

ICLR 2023 Oral | 索求网络结构和域泛化能力的关系

2023-05-11

1.png

01 动机与布景


域泛化是指在一个新的、未知的领域或环境中,一个模型能够在没有特定的领域或环境知识的情况下进行有效的预测。


域泛化在现实生涯中拥有很高的利用价值。例如,在医疗诊断中,由于医疗数据难以获取,模型必须在分歧的医院、城市或国度之间进行泛化,以便有效地进行诊断;在自动驾驶汽车领域,模型必须可能在各类气象、路况和路路类型等分歧环境下泛化,以实现靠得住的自动驾驶。


因而,域泛化是一个沉要的钻研方向,能够使机械进建模型在更宽泛的现实利用场景中实现更好的机能。


目前,域泛化步骤重要能够分为以下几类:


  • 基于数据加强的步骤:该步骤通过对训练数据进行分歧的加强操作,如旋转、平移、缩放等,增长训练数据的多样性,以提高模型的泛化能力
  • 基于特点对齐的步骤:该步骤通过对源域和指标域的特点进行对齐,减幼分歧域之间的散布差距,以提高模型的泛化能力
  • 基于元进建的步骤:该步骤通过在训练过程中进建若何急剧适应新的领域,以提高模型的泛化能力
  • 基于集成进建的步骤:该步骤通过组合多个分歧的模型或训练过程,提高模型的泛化能力

以上所提到的步骤各有曲直,其中重要的缺点蕴含:


  • 基于数据加强的步骤可能会导致过拟合,由于加强操作可能会使模型过度关注一些特定的特点
  • 基于特点对齐的步骤必要对源域和指标域的数据进行对齐,但在现实利用中,源域和指标域之间的散布差距可能极度大,导致对齐成效欠安
  • 基于元进建的步骤必要大量的元训练数据,并且可能会导致过拟合,由于元进建的指标是在训练过程中急剧适应新的领域,而不是在整个训练集上获得最佳机能
  • 基于集成进建的步骤必要组合多个模型或训练过程,这可能会导致推算成本较高,并且可能必要更多的训练数据来训练多个模型

在意识到此刻的预适应步骤所存在的问题后,我们以为有必要从一个新的角度去思虑若何更好地解决这个问题。


最近出现的Vision Transformers在视觉领域的各个工作中逐步包办了CNN,成为被宽泛选取的网络结构。因而,我们以为网络结构和泛化性之间可能存在着密不成分的联系。


在机械进建中,综合偏置是指在模型选择和进建算法中使用的先验知识和如果,它们能够援手模型从数据中进建有效的模式,而不仅是记住特定的训练事俘。一个好的综合偏置能够援手模型更快地收敛,更正确地泛化到新数据,以及更好地抵抗过拟合。


分歧的网络结构能够提供分歧的综合偏置、分歧的能力来暗示数据的特点。例如,卷积神经网络(CNN)在图像领域的利用中阐发杰出,是由于CNN结构天生适合处置图像中的部门性和平移不变性。类似地,循环神经网络(RNN)适合处置序列数据,由于它们拥有天然的功夫综合偏置。


目前已经有一些有关工作提出了理论工具[1,2],用于分析神经网络结构在解决分歧问题时的能力强弱。然而,目前这些分析依然存在于In-distribution learning problem 中,而东升国际官网问题则更关注于Out-of-distribution learning problem。因而,我们对[1]中提出的algorithmic alignment在DG问题上进行了延长分析。


02 步骤介绍


承接上述分析,我们揣摩『一个好的网络结构可能更容易在数据中进建到更合用于域泛化的特点』。接下来我们借助Algorithmic Alignment工具,从这个揣摩启程,在理论上一步步进行分析。


首先我们单一介绍Algorithmic Alignment,它通过衡量神经网络结构与指标函数之间的类似性表征独立同散布(IID)推理工作的易处置水平(Easiness)。


Algorithmic Alignment被正式界说为以下内容。


2.png


接下来,我们在DG中界说了一些关键概想。指标函数是训练集和测试集之间的不变关系。为了单一路见,我们如果标签是无噪声的。


3.jpg


借助以上的界说,我们能够将算法对齐从独立同散布泛化(IID generalization)扩大到域泛化(DG)问题上。


4.png


Theorem 1 批注,与不变关系对齐的网络更可能抵抗散布的变动。我们能够用尝试检验,分歧类型的网络的泛化能力强弱。


我们在DomainBed上首先测试使用ERM训练的ViT的机能,了局如图1(a)所示。令人惊讶的是,在使用了更少参数的情况下,使用ERM训练的ViT在几个数据集上已经优于使用SOTA DG算法的ResNet-50。这批注在DG中,选择骨干网络结构可能比损失函数更为沉要。

5.jpg


我们能够发现,若是神经网络结构与不变关系(invariant correlation)对齐,ERM足以实现优良的机能。在OfficeHome或DomainNet的某些领域中,状态属性与标签之间存在不变关系,如图1(b)所示。


相反,属性纹理和标签之间存在虚伪有关性(spurious correlation)。凭据[3]的分析,多头把稳力(MHA)是拥有状态偏置的低通滤波器,而卷积是拥有纹理偏置的高通滤波器。因而,仅使用ERM训练的 ViT就能够胜过使用SOTA DG算法训练的CNN。


进一步地,我们也很好奇若何提高ViT的泛化能力?Theorem 1建议我们应该利用不变关系的个性。


在图像鉴别中,一个物体通常由分歧部门组成(例如,我们能够用视觉属性来组合性的描述一个物体[4])。在真实世界的图像数据中,标签依赖于多个属性。对于DG而言,捉拿多样的视觉属性出格沉要。例如,牛津词典中对大象的界说是“一种占有厚厚的灰色皮肤、大耳朵、两个称为象牙的弯曲表齿和一个称为象鼻的长鼻子的大型动物”。


6.png


那么,应该若何捉拿这些视觉特点呢?这些视觉特点又是若何决定一个物体的类此外呢?


7.png


前提语句(即编程中的 IF/ELSE),如算法1所示,在DG问题里,能够被试做凭据视觉属性的组合,在分歧域中判断一个物体的类此外工具。


如果我们在DomainNet上训练网络以鉴别大象,如图1(b)的第一行所示。对于分歧领域的大象,状态和纹理差距显著,而视觉属性(大耳朵、弯曲的牙齿、长鼻子)在所有领域中都是不变的。借助前提语句,对大象的鉴别能够表述为“若是一只动物有大耳朵、两个弯曲的表齿和一个长鼻子,那么它就是一只大象”。而后子工作是鉴别这些视觉属性,这也必要前提语句。



8.png


通过Theorem 2,我们证了然一个基于ViT结构的多Experts的Mixture-of-Experts网络结构,能够很好地在Algorithmic Alignment框架下对齐 IF-ELSE 语句。通过执行IF-ELSE语句,可能很好地捉拿到一个物体的分歧区域的特点(如大象的大耳朵、弯曲的牙齿、长鼻子)。我们也基于前人在 MoE 方向的索求[5,6],提出了东升国际官网Generalizable Mixture-of-Experts (GMoE)。其结构如下:

9.png


03 尝试了局


我们在Table 1中提供了train-validation selection的了局,其中蕴含baselines、最新的SOTA DG步骤以及使用ERM训练的GMoE。


了局批注,GMoE-S/16即便在没有DG算法的情况下,已经在险些所罕见据集上阐发优于以前基于ResNet-50-S/16的DG步骤。


10.png


GMoE的泛化能力来自于其内部骨干网络结构,这与现有的DG算法是正交的。这意味着SOTA DG算法能够利用于改进GMoE的机能。


为了验证这个设法,我们利用了两个SOTA DG算法改进GMoE,其中一个是批改损失函数的步骤(FISH),另一个是选取模型集成的步骤(SWAD)。Table 2的了局批注,选取GMoE,相迸宗ResNet-50,显著提高了这些已有DG步骤的机能。


11.png


我们同样在限造了基础模型结构的IID机能(ViT-S/16和ResNet-50 V2)基础上,比力这两个模型的DG机能。以下是对比了局,能够看到 ViT-S/16在略输ResNet-50 V2的情况下,依然在DG工作上获得了更好的机能。


12.png


以下是GMoE的Expert Selection可视化了局。图像来自于CUB-DG中天然领域的分歧类别。图中分歧色彩的线衔接分歧图像上的统一类别鸟类的视觉属性(Visual Attributes)。统一视觉属性由统一Expert处置,例如嘴和尾巴由Expert 3处置,左/右团咨Expert 4处置。


图片


13.png

14.png


有关资料


Paper

https://openreview.net/forum?id=RecZ9nB9Q4


Github

https://github.com/Luodian/Generalizable-Mixture-of-Experts


Video

https://www.bilibili.com/video/BV1jV4y1C7h8/?spm_id_from=333.999.0.0

???


References:

[1] Xu, Keyulu, et al. "What can neural networks reason about?." ICLR 2020 (Spotlight)

[2] Xu, Keyulu, et al. "How neural networks extrapolate: From feedforward to graph neural networks." ICLR 2021 (Oral)

[3] Namuk Park and Songkuk Kim. How do vision transformers work? ICLR 2022 (Spotlight)

[4] Object detectors emerge in deep scene cnns. ICLR 2015

[5] Riquelme, Carlos, et al. "Scaling vision with sparse mixture of experts." NeurIPS 2021

[6] Chi, Zewen, et al. "On the representation collapse of sparse mixture of experts." NeurIPS 2022

产品试用
填写此单一表格,我们将尽快联系您!
商务合作
400 900 5986
周一至周五 9:00-12:00,13:00-18:00
合作同伴招募
【网站地图】