- 主题技术
- 以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。
ICLR 2024 Spotlight | 自蒸馏引发CLIP模型的检测宰割能力

分析CLIP模型的区域表征
我们利用COCO数据集上的区域物体框,让CLIP模型对这些物体框进行分类,推算分类的正确度(mAcc)。
我们别离选取两种方式利用CLIP模型对物体框进行处置:
一种是将整个图像利用CLIP模型提取图像特点,再凭据物体框的坐标信息通过部门区域的池化操作(RoIAlign)得到区域密集特点(dense feature),下游的指标检测和图像宰割工作必要选取这种方式获得部门物体的感知;
另一种是先将物体框区域从原图裁剪得到的幼图像(image crop),再选取CLIP预训练一样的方式,将整个幼图像送入CLIP模型提取图像层级的特点。

图1. CLIP模型分析
只管基于ViT的CLIP模型在全图分类上展示出很好的成效(图1(a)),但如图1(b)所示,CLIP ViT的dense feature的成效欠安,不能被用于很好地鉴别物体。图1(c)中的Kmeans可视化了局也批注ViT的部门特点相对于CNN分散嘈杂。
这是由于ViT不拥有CNN的平移等变性和部门性等特点,而预训练只在图像层级对齐了视觉说话的表征,从而不足提取优良区域特点的能力。
我们进一步对更多主流的CLIP模型的区域密集特点进行分析,在分歧的原图尺度上统计物体框的分类精度。
如图2所示,各类CLIP ViT模型的Dense feature对物体框的分类均不如Image crop的图像层级特点。并且,随着图像输入尺寸的增大,CLIP ViT dense feature的能力并没有随之提升,这将不利于下游的指标检测和图像宰割工作进行区域鉴别。

图2. CLIP模型的区域分类精度
步骤
为提升CLIP ViT的区域表征,一个天然的做法是机关区域文本对(region-text pairs),直接进建区域表征和文本表征之间的对齐。
然而,人为标注区域文本对数据成本巨大。因而现有的步骤(如RegionCLIP)解析图像的caption得到物体名词(object nouns),同时利用预训练的区域天生网络(RPN)天生region proposals吗,再匹配两者获得区域文本对。
由于匹配了局正确杜仔限,这种区域文本对提供的监督噪声极大。因而,本文提出CLIPSelf以解决上述问题。
受图1、2中Image Crop的高分类精度启发,我们试图用CLIP高质量的图像特点(teacher)监督其区域特点(student),利用自监督的方式来提升CLIP ViT的密集表征。
CLIPSelf通过最幼化CLIP ViT的dense feature(student)和对应的Image crop特点(teacher)的cosine距离,来优化CLIP的部门特点。
如图3所示,CLIPSelf能够不依赖RPN网络提供region proposals,仅将图像均匀划分成MxN个patch即可得到self-distillation所需的图像区域。训练过程中,对每一张图片,我们从{2,3,4,5,6}中随机采样得到M和N。

图3. CLIPSelf的自蒸馏框架
尝试了局
3.1 盛开词汇指标检测
通过将盛开词汇指标检测器中的CLIP模型代替为我们CLIPSelf自蒸馏后的版本,我们获得了盛开词汇指标检测工作上新的SOTA。

图4. 盛开词汇指标检测工作了局
3.2 盛开词汇图像宰割
用CLIPSelf优化后的CLIP ViT模型代替原始的模型,能够显著提升现有盛开词汇图像宰割的成效。

3.3 盛开词汇图像宰割与机关区域文本对比力
如下表所示,在使用一样的region proposals情况下,self-distillation是比region-text pairs更好的监督起源。
总结
在这篇论文中,我们具体地分析了CLIP模型的部门区域表征能力,发现CLIP ViT区域层级的表征较弱,但是有很强的图像层级表征。
因而,我们提出了一种自蒸馏的方式CLIPSelf,用CLIP ViT壮大的图像表征来优化其自身的区域表征。CLIPSelf显著提升了CLIP ViT在盛开词汇密集预测(dense prediction)工作中的机能。





返回