主题技术: 以原创技术系统为根基，SenseCore东升国际官网AI大装置为主题基座，布局多领域、多方向前沿钻研，
急剧买通AI在各个垂直场景中的利用，向行业赋能。

CVPR 2022 Oral | TCFormer：基于动态token聚类的transformer

2022-09-14

步骤动机

近年来，Transformer网络被宽泛利用到了推算机视觉领域，并获得了很多惊艳的成效。Transformer网络在处置图片时，往往必要将图片转换为一组视觉令牌（vision token）。如下图（a）所示，现有的步骤大多使用基于网格的划分方式，将图片转化为视觉令牌。即：将图片划分为尺度的网格区域，且每一个网格用一个令牌暗示。

然而，基于网格的划分方式忽视了图片的语义信息；谕竦幕址绞浇鼋銎揪菘占涔叵挡泳趿钆，单个令牌可能必要代表拥有分歧语义信息的多个物体，不利于令牌特点的提取。我们以为该当凭据图片语义信息划分令牌，将拥有相近语义信息的图片区域用统一个令牌暗示。

另表，基于网格的划分方式也忽视了分歧区域之间的差距。好比，在以人体为中心的视觉工作中，人体区域往往比布景区域越发沉要，该当使用更多的令牌来暗示。并且，一些区域（如人脸、人手区域）比其他区域（如躯干区域）蕴含更多的细节信息，该当选取更精密的令牌暗示。

基于上述观察，我们提出了一种基于特点聚类的视觉令牌天生方式，可能动态地调整视觉令牌的状态、大幼和地位，从而更好地提取图像特点。

步骤介绍

下图展示了TCFormer的整体框架。TCFormer选取了多阶段（stage）的网络框架，共由4个分歧的阶段组成，每个阶段又由多个串联的transformer？樽槌。将图片输入TCFormer后，我们首先通过卷积层提取图像特点图，并将特点图中的每一个像素当作一个视觉令牌，从而得到初始的视觉令牌。在相邻的两个阶段之间，我们通过令牌融合的方式削减令牌数量，并增长令牌特点的通路数。最后，我们通过一个多阶段令牌特点聚合？椋∕TA）融合各个阶段的令牌特点。

Transformer？

下图展示了 TCFormer中使用的transformer？。在尺度的transformer？榈幕∩，我们仿照PVT[1] 参与了空间缩减？。该？橥ü砘，削减了作为key、value的令牌的数量，从而削减了把稳力？榈耐扑愀丛佣。另表，我们受到 CVT[2]等工作的启发，在transformer？橹胁斡肓酥鹜返木砘，从而更好地抽取部门图像特点。

基于特点聚类的令牌融合？（Clustering-based Token Merge, CTM）

基于特点聚类的令牌融合？椋–TM）是TCFormer的主题？，我们鄙人图展示了它的结构。输入前一阶段的视觉令牌后，CTM首先凭据令牌特点进行聚类。随后，CTM凭据聚类了局，将统一类的视觉令牌融合成一个新的视觉令牌，从而削减视觉令牌的数量。融合后的视觉令牌的特点是融合前令牌特点的加权均匀，视觉令牌的对应区域则是融合前令牌对应区域的并集。最后，我们将融合后的视觉令牌作为query，将融合前的视觉令牌作为key和value，输入到一个transformer？橹，进一步加强从融合前令牌到融合后令牌的信息传递。

多阶段令牌特点聚合？（Multi-stage Token Aggregation, MTA）

大无数视觉工作必要对多个阶段的图像特点进行聚合，以获得更好的了局。之前的步骤大多先把视觉令牌转换成分歧分辨率的特点图，再对特点图进行融合。然而，如下图所示，TCFormer 天生的视觉令牌拥有矫捷的大幼和状态。若是将下图（b）中的视觉令牌转换成图（c）所示的高分辨率特点图，可能很好地保留视觉令牌中的细节信息，但是会造成过大的空间复杂度。但若是将视觉令牌转换成图（d）所示的低分辨率特点图，又会造成细节信息的迷失。

为了在保障效能的前提下保留视觉令牌中的细节信息，我们设计了一种基于transformer的多阶段令牌特点聚合？椋∕TA），它的结构如下图所示。MTA ？榈恼褰峁褂刖涞腇PN？閇3]类似。如下图（a）所示，我们提出了一种动态令牌的上采样方式。在进行令牌融应时，我们纪录并保留了融合前后的视觉令牌之间的对应关系。而在进行视觉令牌的上采样时，我们则凭据先前纪录的关系，将融合后的令牌特点赋值给对应的融合前的视觉令牌。这一过程能够类比图像处置中的最近点上采样。

MTA ？榇拥4阶段的令牌特点起头，首先上采样令牌特点，将其与第3阶段的令牌特点相加，再将了局输入到transformer？，从而将阶段4的令牌特点聚合到阶段3的令牌中。这一过程被沉复多轮，直到所有阶段的特点都被聚合到阶段1的令牌中。最后，我们将输出的视觉令牌转换成高分辨率的特点图，以便于后续的处置。

尝试了局

我们首先在COCO-WholeBody[4]这一数据集上测试了TCFormer在人体全身关键点检测工作上的成效。如下表所示，TCFormer获得了最先进的成效，并在如人手、人脸关键点的细节沉建精度上，获得了显著的提升。这一了局证了然TCFormer在图像细节信息提取上的优势。

下图展示了TCFormer在各个阶段的视觉令牌散布，一样色彩的区域由统一个令牌暗示。TCFormer可能将更多的令牌分配到人体区域上，并使用空间精度更高的令牌来暗示细节区域。

我们也在ImageNet图像分类工作上测试了TCFormer的成效。如下表所示，在和人体无关的、必要提取全局图像特点的工作上，TCFormer的动态视觉令牌也同样拥有援手。

我们还在三维人体网格沉建和人脸关键点估计等工作上测试了TCFormer的成效，更多的尝试了局和可视化了局拜见论文。

结语

在视觉transformer领域，把稳力机造得到了宽泛的钻研，而视觉令牌自身却并没有受到足够的关注。本文提出了一种transformer网络——TCFormer。TCFormer选取了一种基于特点聚类的动态令牌天生方式，和一种基于transformer的特点聚合？。TCFormer在基于图像的人体全身关键点估计、人脸关键点估计和人体三维网格沉建工作上都获得了最先进的成效，并在人体细节的沉建精度上获得了显著的提升。我们但愿这项工作可能启发后续的有关钻研。

传送门

论文地址

https://arxiv.org/abs/2204.08680

项目主页

https://github.com/zengwang430521/TCFormer

References

[1] Wang, Wenhai, et al. "Pyramid vision transformer: A versatile backbone for dense prediction without convolutions." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

[2] Wu, Haiping, et al. "Cvt: Introducing convolutions to vision transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

[3] Lin, Tsung-Yi, et al. "Feature pyramid networks for object detection." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

[4] Jin, Sheng, et al. "Whole-body human pose estimation in the wild." European Conference on Computer Vision. Springer, Cham, 2020.

您尚未美满信息

美满信息后，即可下载资料

美满信息跳过，持续浏览

您尚未登录

您还未登录，登录方可持续

登录跳过，持续浏览

请选择您以为必要改进的处所：

导航不好用，不方便找到感兴致的内容
产品介绍信息不够全面
产品介绍信息不容易懂
页面打开速度不快，页面浏览不流畅/有卡顿
页面不够美观
售后服务不好找，履历不好

跳过下一个

您是否可能达到本次网站的接见主张？

是
否
仍在进行中

下一个

您对东升国际官网官网的中意度若何？

极度不中意极度中意

提交

已收到您对东升国际官网官网的评价和建议！

感激您的耐心反馈~

关关

产品试用

填写此单一表格，我们将尽快联系您！

把您的需要发给我们相识所有产品

商务合作

400 900 5986

周一至周五 9:00-12:00，13:00-18:00

business@sensetime.com

合作同伴招募

成为合作同伴