东升国际官网

申请试用
登录
  • hd-share-img01
主题技术
以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。

CVPR 2022 Oral | TCFormer:基于动态token聚类的transformer

2022-09-14

1.png


步骤动机


近年来,Transformer网络被宽泛利用到了推算机视觉领域,并获得了很多惊艳的成效。Transformer网络在处置图片时,往往必要将图片转换为一组视觉令牌(vision token)。如下图(a)所示,现有的步骤大多使用基于网格的划分方式,将图片转化为视觉令牌。即:将图片划分为尺度的网格区域,且每一个网格用一个令牌暗示。


然而,基于网格的划分方式忽视了图片的语义信息 ;谕竦幕址绞浇鼋銎揪菘占涔叵挡泳趿钆,单个令牌可能必要代表拥有分歧语义信息的多个物体,不利于令牌特点的提取。我们以为该当凭据图片语义信息划分令牌,将拥有相近语义信息的图片区域用统一个令牌暗示。


另表,基于网格的划分方式也忽视了分歧区域之间的差距。好比,在以人体为中心的视觉工作中,人体区域往往比布景区域越发沉要,该当使用更多的令牌来暗示。并且,一些区域(如人脸、人手区域)比其他区域(如躯干区域)蕴含更多的细节信息,该当选取更精密的令牌暗示。


基于上述观察,我们提出了一种基于特点聚类的视觉令牌天生方式,可能动态地调整视觉令牌的状态、大幼和地位,从而更好地提取图像特点。


2.png


步骤介绍


下图展示了TCFormer的整体框架。TCFormer选取了多阶段(stage)的网络框架,共由4个分歧的阶段组成,每个阶段又由多个串联的transformer?樽槌。将图片输入TCFormer后,我们首先通过卷积层提取图像特点图,并将特点图中的每一个像素当作一个视觉令牌,从而得到初始的视觉令牌。在相邻的两个阶段之间,我们通过令牌融合的方式削减令牌数量,并增长令牌特点的通路数。最后,我们通过一个多阶段令牌特点聚合?椋∕TA)融合各个阶段的令牌特点。


3.png


Transformer?


下图展示了 TCFormer中使用的transformer?。在尺度的transformer?榈幕∩,我们仿照PVT[1] 参与了空间缩减?。该?橥ü砘,削减了作为key、value的令牌的数量,从而削减了把稳力?榈耐扑愀丛佣。另表,我们受到 CVT[2]等工作的启发,在transformer?橹胁斡肓酥鹜返木砘,从而更好地抽取部门图像特点。


基于特点聚类的令牌融合? (Clustering-based Token Merge, CTM)


基于特点聚类的令牌融合?椋–TM)是TCFormer的主题?,我们鄙人图展示了它的结构。输入前一阶段的视觉令牌后,CTM首先凭据令牌特点进行聚类。随后,CTM凭据聚类了局,将统一类的视觉令牌融合成一个新的视觉令牌,从而削减视觉令牌的数量。融合后的视觉令牌的特点是融合前令牌特点的加权均匀,视觉令牌的对应区域则是融合前令牌对应区域的并集。最后,我们将融合后的视觉令牌作为query,将融合前的视觉令牌作为key和value,输入到一个transformer?橹,进一步加强从融合前令牌到融合后令牌的信息传递。


4.png


多阶段令牌特点聚合? (Multi-stage Token Aggregation, MTA)


大无数视觉工作必要对多个阶段的图像特点进行聚合,以获得更好的了局。之前的步骤大多先把视觉令牌转换成分歧分辨率的特点图,再对特点图进行融合。然而,如下图所示,TCFormer 天生的视觉令牌拥有矫捷的大幼和状态。若是将下图(b)中的视觉令牌转换成图(c)所示的高分辨率特点图,可能很好地保留视觉令牌中的细节信息,但是会造成过大的空间复杂度。但若是将视觉令牌转换成图(d)所示的低分辨率特点图,又会造成细节信息的迷失。


5.png


为了在保障效能的前提下保留视觉令牌中的细节信息,我们设计了一种基于transformer的多阶段令牌特点聚合?椋∕TA),它的结构如下图所示。MTA ?榈恼褰峁褂刖涞腇PN?閇3]类似。如下图(a)所示,我们提出了一种动态令牌的上采样方式。在进行令牌融应时,我们纪录并保留了融合前后的视觉令牌之间的对应关系。而在进行视觉令牌的上采样时,我们则凭据先前纪录的关系,将融合后的令牌特点赋值给对应的融合前的视觉令牌。这一过程能够类比图像处置中的最近点上采样。


MTA ?榇拥4阶段的令牌特点起头,首先上采样令牌特点,将其与第3阶段的令牌特点相加,再将了局输入到transformer?,从而将阶段4的令牌特点聚合到阶段3的令牌中。这一过程被沉复多轮,直到所有阶段的特点都被聚合到阶段1的令牌中。最后,我们将输出的视觉令牌转换成高分辨率的特点图,以便于后续的处置。

6.png


尝试了局


我们首先在COCO-WholeBody[4]这一数据集上测试了TCFormer在人体全身关键点检测工作上的成效。如下表所示,TCFormer获得了最先进的成效,并在如人手、人脸关键点的细节沉建精度上,获得了显著的提升。这一了局证了然TCFormer在图像细节信息提取上的优势。


7.png


下图展示了TCFormer在各个阶段的视觉令牌散布,一样色彩的区域由统一个令牌暗示。TCFormer可能将更多的令牌分配到人体区域上,并使用空间精度更高的令牌来暗示细节区域。


8.png


我们也在ImageNet图像分类工作上测试了TCFormer的成效。如下表所示,在和人体无关的、必要提取全局图像特点的工作上,TCFormer的动态视觉令牌也同样拥有援手。


9.png

我们还在三维人体网格沉建和人脸关键点估计等工作上测试了TCFormer的成效,更多的尝试了局和可视化了局拜见论文。


结语


在视觉transformer领域,把稳力机造得到了宽泛的钻研,而视觉令牌自身却并没有受到足够的关注。本文提出了一种transformer网络——TCFormer。TCFormer选取了一种基于特点聚类的动态令牌天生方式,和一种基于transformer的特点聚合?。TCFormer在基于图像的人体全身关键点估计、人脸关键点估计和人体三维网格沉建工作上都获得了最先进的成效,并在人体细节的沉建精度上获得了显著的提升。我们但愿这项工作可能启发后续的有关钻研。


传送门


论文地址

https://arxiv.org/abs/2204.08680


项目主页

https://github.com/zengwang430521/TCFormer


References


[1] Wang, Wenhai, et al. "Pyramid vision transformer: A versatile backbone for dense prediction without convolutions." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

[2] Wu, Haiping, et al. "Cvt: Introducing convolutions to vision transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

[3] Lin, Tsung-Yi, et al. "Feature pyramid networks for object detection." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

[4] Jin, Sheng, et al. "Whole-body human pose estimation in the wild." European Conference on Computer Vision. Springer, Cham, 2020.

产品试用
填写此单一表格,我们将尽快联系您!
商务合作
400 900 5986
周一至周五 9:00-12:00,13:00-18:00
合作同伴招募
【网站地图】