- 主题技术
- 以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。
NeurIPS 2021 _ MST- 用于Transformer视觉表征的Masked自监督解读
MST: Masked Self-Supervised Transformer for Visual Representation
Part 1 问题和挑战
Yann LeCun曾说“若是人为智能是一个蛋糕,则蛋糕的重要成分就是无监督习”。这句话反映了无监督进建在深度进建领域表演着沉要的作用。当前普遍的步骤集中在若何设计有效的代理工作来对无标注的输入数据进建到好的视觉表征。在推算机视觉上,目前比力盛行的直接有效的步骤是对比进建,将训练数据的每个事俘当做单一的分类;谡飧鍪盗ε卸,好多自监督步骤在分类工作上得到了有效的提升。他们成功添补了自监督步骤和监督步骤的代沟。然而,这项工作依然拥有挑战:
a. 掩码说话模型在天然说话领域得到了宽泛的利用。图像是高维特点,多噪声且相迸宗文本大局复杂。在视觉领域中,图像的重要信息会被随机分到分歧的token中,若是这些token被随机masked掉,将会导致很差的阐发。这个随机掩码说话模型容易覆盖图像的关键区域的token,这样会导致误判且不适合直接利用于自监督视觉Transformers。
b. 好多自监督步骤是利用全局特点进建图像级别预测,对于像素级别预测优化不及。当前自监督进建步骤也许对图像分类工作过度拟合,对下游密集工作预测阐发成效不好。
Part 2 步骤介绍
针对以上提出的问题,我们提出掩码Transformer自监督进建步骤,如下图所示。MST创造性的引入了把稳力特点图疏导掩码战术并利用掩码特点来复原全局图像特点工作。我们将介绍若何利用把稳力特援疏导掩码战术援手掩码说话模型利用到视觉领域。最后我们将介绍网络的结构和尝试细节。

图1 MST整体全流程图
1. 自监督步骤网络结构
我们凭据多沉裁剪在多种通用的数据加强下,为每个图像天生多个视图。这样操作能够获得两个尺度分辨率的裁剪图片 和 (暗示全局视图)和N个低分辨率裁剪样本(暗示部门视图)。如图1所示,整体步骤是由两个编码来进行编码,老师网络 和学生网络 ,参数别离是 和 。两个编码器都是Transformer的backbone和projection head组成。老师网络的编码器参数 是由学生网络的编码器参数 来动态均匀更新。更新公式如公式1所示:
![]()
其中:m是动量系数。
给定一个固定的老师网络 ,学生网络 通过最幼化交叉熵损失如公式2所示来进建参数 :

2. 视觉掩码模型的掩码token战术

图2 MST确把稳力疏导面具战术的插图。与原始随机掩码相比,通过保留图像中的关键区域来改进。从左到右描述图像: (a)输入图像,(b)通过自把稳?榛竦萌钒盐攘φ,(c)可能导致关键特点迷失的随机掩码战术,(d) MST确把稳力疏导掩码战术,仅遮蔽非必要区域。事实上,掩码战术是遮掩Token。
随机掩码战术: 受到天然说话处置领域掩码说话模型战术的启发,我们利用这个随机掩码战术到自监督进建。凭据公式3所示,沉要区域的token和非沉要区域的token有同样的概率可能被掩码。如图2所示,我们能够观察到随机掩码战术会解除沉要区域的tokens,导致难以分辨输入图像的语义信息。这个随机采样战术会抑造输入图像的沉要区域,不利于网络的鉴别能力。这个战术不适合直接利用到自监督视觉Transformer,若是掩码战术未正确调造,则整体机能会恶化。

其中:m代表的掩码区域,p是掩码的概率(默以为0.15),prob是随机产生的概率值。
把稳力疏导掩码战术: 我们提出把稳力疏导掩码战术动态节造掩码区域并降低落要区域被掩码的概率。同时,这个步骤并不会增长额表的推算功夫,整体步骤结构伪代码所示。如公式4所示,我们依照升序对每张图像的分歧patch确把稳力特点进行排序,并将排序后确把稳力特点值作为阈值,则低于的区域作为掩码的候选区域。学生分支模型收到分歧patches的沉要性,凭据概率天生掩码。
![]()
其中:Attn代表把稳力特点。
遵循BERT步骤,掩码区域填充有可进建的掩码嵌入 [MASK]。如公式5所示,把稳力疏导掩码战术保障高分的patch不被掩码。
![]()

把稳力疏导掩码战术对于预训练模型有两点益处:
a. 模型利用语义信息来进建到分歧patches之间的关系。使得模型既保留了图像全局语义信息,同时在图像的部门细节有关注。
b. 东升国际官网战术能够预防覆盖关键区域,同时用可进建的掩码特点,使得模型专一于关键区域。
3. 视觉Transformer掩码解码步骤
在掩码说话模型中,利用非掩码区域特点来预测掩码token。区别于原始的掩码说话模型,东升国际官网步骤利用非掩码的区域特点来复原沉建原始的输入图片。为了使网络可能在视觉工作上实现像素级复原,从而加强图像的像素级信息特点和细粒度空间结构的能力。利用卷积的偏置性特点,沉建工作利用卷积神经网络作为解码器,使用卷积层和上采样操作交替堆叠。如下公式6展示了沉建损失函数:
![]()
其中:x代表输入图片,g代表解码器,代表学生分支的编码器, 代表学生分支的参数, 代表解码器参数。
整个损失函数如公式7所示:
![]()
其中:λ代表权沉系数。
Part 3 尝试了局
我们使用分歧的transformer结构在ImageNet benchmark上训练了预训练模型,而后验证他们的迁徙能力鄙人游工作上例如指标检测和语义宰割,以及分歧掩码参数对模型的影响。
1. ImageNet Benchmark的对比
如表1所示为东升国际官网步骤与当前重要自监督算法比力。所有的这些步骤占有一样的backbone用于平正比力。我们步骤的300-epoch模型实现76.9% 在线性评估的top-1的精度。东升国际官网步骤在一样的训练epochs下超过其时最好的自监督步骤DINO约莫1.7%,甚至靠近DINO更长训练战术的阐发成效(77.0%的800epoch)。必要强调的是,东升国际官网算法缓解了自监督进建对极长训练功夫的需要,并且可能在仅100个epochs的情况下获得不错的成效(75.0%)。
MST是通用的步骤能够利用到任何基于Transformer结构的自监督步骤。这里我们使用盛行的Swin-T作为示例,它拥有与DeiT-S类似的参数数量。使用一样的训练epochs,MST的机能比MoBY逾越1.8%,这是一种为Swin-T精心设计的自监督进建步骤。Swin-T与DeiT-S共享一样的超参数,它依然能够通过进一措施整来改进。

表1 ImageNet优势行的自监督进建步骤的比力
2. 指标检测和事俘宰割下游工作
在表2中,我们显示了通过分歧的自我监督步骤和监督训练进建的暗示的阐发。为了平正比力,所有这些步骤都预先训练了100个epochs。我们观察到,东升国际官网步骤以42.7%的bbox mAP和38.8%的掩模mAP达到了最佳成效。它比ImageNet监督模型逾越1.2%和0.5%,MoBY了局在统一时期别离比ImageNet监督模型逾越1.2%和0.5%。了局批注,MST不仅在图像分类工作上阐发优良,并且鄙人游密集预测工作中阐发优良。因而它拥有很强的迁徙能力。

表2 在 MS COCO 上微调的对象检测和事俘分段了局
如表所示,它说了然监督步骤、DINO和东升国际官网步骤在该评估上的比力。东升国际官网步骤实现了最高的mIoU74.7%和mAcc82.35%。它的阐发优于监督了局(+2.71%mIoU和+2.05%mAcc)和DINO预训练了局(+1.08% mIoU和 +1.03%mAcc)。东升国际官网模型也合用于语义宰割工作的迁徙。

表3 在城市景观上微调的语义宰割了局
3. 分歧Mask战术的影响
表4显示了分歧掩码战术的影响。我们使用随机掩码战术,把稳力疏导的掩码战术和无掩码来训练DeiT-S。为了平正比力,所有步骤都以一样的概率p进行掩码D芄还鄄斓剿婊诼胝绞醯幕芙德。此战术可能会抑造鉴别图像能力(从 73.1 到 63.2)。随机掩码战术可能会粉碎原始图像关键区域的tokens,这些tokens对于鉴别对象可能是必不成少的。被屏蔽的输入可能蕴含不齐全甚至误导性的信息。相反,东升国际官网把稳力疏导掩码战术的阐发稳步提高(从73.1到73.7)8虼蠖啾槐A粝吕,这可能是我们如果的有力证据。

表4 分歧掩模战术(DeiT-S)的线性探针了局
4. 分歧掩码超参数的影响
表5验证了把稳力疏导掩码战术下分歧掩码超参数的机能。我们按升序对每个图像的分歧patch确把稳力争进行排序,并将前1/num个patch拆分为被掩码的候选。删除这些候选能够迫使网络从相邻的patch中进建部门特点,从而在不粉碎语义的情况下加强对部门高低文进行建模的能力。这些候选凭据概率p进行屏蔽。ImageNet上线性评估的Top-1精度如表下表所示。当num设置为8时,任何选择p都能够得到一个靠得住的了局,这批注最后的1/8个patch作为掩码候选是相对安全的。

表5 基于把稳力的掩码战术的超参数设置
5. 与 BERT 的区别
在表6中,我们使用纯掩码说话模型和DeiT-S在100个epochs下进行尝试,了局在一样的尝试配置下约为40%。而后我们进一措施整其进建率和其他超参数,最佳了局仅为61%,远低于DINO的10.6%(DINO了局为71.6%),也比监督了局低7.7%(监督了局为68.7%)。批注纯掩码说话模型步骤可能不适合推算机视觉工作。此表,我们用对比损失+ BERT解决规划(即DINO+纯掩码说话模型)进行尝试,线性了局为71.9%。东升国际官网步骤比其了局逾越2.0%(73.9%)。了局证明东升国际官网步骤比原来的了局步骤更好。同时,我们进一步进行了尝试,仅将[mask] token代替为纯掩码说话模型战术,线性了局为73.5%,这也落后于东升国际官网了局。这些了局充分展示了MLM对推算机视觉的更好设置,并进一步凸起了我们论文的技术贡献。

表6与 BERT 的区别
Part 4 结语
本文探求了当前视觉自我监督进建的两个问题,即不足部门信息提取和空间信息迷失。为了克服上述问题,我们提出了一种基于Transformer的新型自监督进建步骤,称为MST。 MST利用把稳力疏导的掩码战术来捕获patch之间的部门关系,同时保留全局语义信息。必要把稳的是,把稳力疏导的掩码战术是基于从老师模型中提取的Multi-Head自把稳特点图,不会造成额表的推算成本。此表,在把稳力疏导掩模战术下,进一步使用全局图像解码器来复原图像的空间信息,这对于密集的预测工作至关沉要。该步骤在多个下游视觉工作中阐发出优良的通用性和可扩大性。
Reference:
[1] Devlin, J., Chang, M.W., Lee, K., Toutanova, K.N.: Bert: Pre-training of deep bidirectional transformers for language understanding. In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). pp. 4171–4186 (2018)
[2] Caron, M., Touvron, H., Misra, I., Jégou, H., Mairal, J., Bojanowski, P., Joulin, A.: Emerging properties in self-supervised vision transformers. arXiv: Computer Vision and Pattern Recognition
[3] Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B.: Swin transformer: Hierarchical vision transformer using shifted windows. arXiv preprint arXiv:2103.14030 (2021)
[4]Xie, Z., Lin, Y., Yao, Z., Zhang, Z., Dai, Q., Cao, Y., Hu, H.: Self-supervised learning with swin transformers. arXiv preprint arXiv:2105.04553 (2021)





返回