东升国际官网

申请试用
登录
  • hd-share-img01
主题技术
以原创技术系统为根基  ,SenseCore东升国际官网AI大装置为主题基座  ,布局多领域、多方向前沿钻研  ,
急剧买通AI在各个垂直场景中的利用  ,向行业赋能。

CVPR 2021 Oral | GLEAN: 基于隐式天生库的高倍率图像超分辨率

2021-09-14

在VPR 2021上, 南洋理工大学S-Lab和东升国际官网科技等提出的隐式天生库(Generative Latent Bank), 针对高倍率图像超分辨中的质量和保真度问题提出了一个新的思路。GLEAN通过利用预训练的GAN中丰硕多样的先验知识  ,得到有效的超分成效。与现有步骤相比  ,由GLEAN放大的图像在保真度和纹理真实度方面显示出显著的改进。


论文名称: GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution


Part 1 问题与挑战


Generative Adversarial Network(GAN)已在超分辨率工作中被宽泛使用  ,其主张是丰硕复原图像中的纹理细节。现有步骤通常能够分为两种:


1)第一种步骤(如ESRGAN [1])训练天生器以处置放大工作  ,其中通过使用甄别器将真实图像与天生器天生的放大图像分辨隔来进行匹敌训练。在这种设置下  ,天生器既掌管捕获天然图像特点  ,又掌管维持对GT 的保真度。这不成预防线限度了逼近天然图像流形的能力。因而, 这些步骤时时产生伪像和不天然的纹理。


2)第二种步骤(如PULSE [2])通过优化来更好地利用GAN的潜在空间来解决上述问题。但是  ,由于低维隐码(latent code)和图像空间中的约束不及以领导复原过程  ,这些步骤通 ;崽焐捅U娑鹊耐枷。

 

如下图所示  ,固然ESRGAN可能复原猫的结构(例如  ,姿势  ,耳朵的状态)  ,但仍难以产生真切的纹理。另一方面  ,只管PULSE的输出是真实的  ,但其保真度极度低, 未能复原物体的结构。


图片 1.png


Part 2 步骤介绍


在大规模天然图像上训练的GAN模型可捕获丰硕的纹理和状态先验。先前的钻研批注  ,能够通过GAN Inversion来获取此类先验信息  ,以使各类图像复原工作受益。但是  ,若何利用先验而不进行反演过程中的复杂优化依然是一个没有被充分钻研的问题。

 

在这项钻研中  ,我们在一种新鲜的encoder-bank-decoder结构中设计了GLEAN  ,该系统结构允许人们只必要一个forward-pass就能够利用天生先验。如下图所示  ,给定严沉降采样的图像  ,GLEAN利用encoder提取潜在矢量(latent vector)和多分辨率卷积特点  ,这些特点捕获了沉要的高层线索以及LR图像的空间结构  ,能够用于调节latent bank  ,为decoder产生了另一组多分辨率特点。


最后, decoder通过集成来自encoder和latent bank的特点来天生最终输出。在这项工作中  ,我们选取 StyleGAN [3,4]作为latent bank。这里要强调的是这个概想能够扩大到其他网络  ,例如BigGAN[5]。


image.png


1. Encoder

为了产生latent vector  ,我们首先使用RRDBNet [1](暗示为E0)从输入LR图像中提取特点f0。而后  ,我们通过以下步骤逐步降低特点的分辨率:

image.png

其中Ei (i =1, 2, …, N)暗示一个stride-2卷积和stride-1卷积的仓库。最后  ,使用卷积和全衔接层来天生latent vector:

image.png

其中C是一个矩阵  ,其列暗示StyleGAN必要的latent vector。C中的latent vector捕获图像的压缩暗示  ,为latent bank(StyleGAN) 提供high-level信息。为了进一步获得LR图像的部门结构并为结构复原提供其他领导  ,我们还将多分辨率卷积特点fi嵌入到latent bank。


2. Generative Latent Bank


给定卷积特点fi和latent vector C  ,我们利用预训练的天生器(StyleGAN)作为latent bank来提供纹理和细节天生的先验。由于 StyleGAN是为图像天生工作而设计的  ,因而无法直接集成到建议的encoder-bank-decoder框架中。在这项工作中  ,我们进行了三处批改  ,使StyleGAN更能共同东升国际官网超分网络:


1/天生器的每个块都选取一个分歧的latent vector来提高表白能力  ,而不是将一个latent vector作为输入。更具体地说  ,如果StyleGAN有k个块  ,那C=(c0, c1, …, ck-1)  ,其中每个ci代表一个latent vector。我们发现这种批改导致输出的伪像更少。在以前的工作中[6,7]也能够看到这种批改。


2/为了允许使用encoder的特点  ,我们在每个块中使用了一个附加的卷积来进行特点融合:

image.png

其中Si暗示拥有附加卷积的块  ,而gi代表第i个块的输出特点。


3/我们不是直接从StyleGAN天生输出  ,而是输出特点gi并将它们传递给decoder  ,以更好地融合latent bank和encode r中的特点。


利益:东升国际官网Generative Latent Bank与Reference-Based SR[8,9]有着类似的设法。在Reference-Based SR中, 固然使用表部HR信息作为图像字典可带来显着改善  ,但其网络机能对输入和参考之间的类似性很敏感。


当参考图像某人脸部位(如眼睛、鼻子、嘴)选择不其时  ,不匹配的字典可能导致了局变差。另表  ,这些步骤时时必要推算量大的全驹欹配某人脸部位检测/选择来从参考中荟萃适当的信息  ,故障了对拥有严格推算约束的场景的利用。

 

相反地  ,GLEAN并未构建图像字典  ,而是选取了GAN-based字典。东升国际官网字典不依赖于任何特定的参考图像块。取而代之的是  ,它捕获图像的散布  ,并且可能拥有无限的大幼和多样性。此表  ,GLEAN的推算效能很高  ,无需全驹欹配和参考图像块选择。


3. Decoder


GLEAN使用附加的拥有渐进融合职能的decoder来集成encoder和latent bank中的特点以天生输出图像。它以RRDBNet特点作为输入  ,并将特点与latent bank中的多分辨率特点逐步融合:

image.png

其中Di和di别离暗示3x3卷积及其输出。除最终输出层表  ,每个卷积后面都有一个pixel-shuffle层。通过 decoder和encoder之间的跳过衔接  ,能够加强encoder捕获的信息  ,因而latent bank能够将更多的精力集中在纹理和细节天生上。


Part 3 尝试了局


image.png


上图展示了16x SR上的定性比力。在低维向量和LR空间中的约束的领导下  ,GAN Iinversion步骤的输出无法维持优良的保真度: PULSE[2]和mGANprior[6]无法还原一样身份的人脸。另表  ,在它们的输出中观察到伪像。


通过在优化过程中微调天生器  ,DGP[10]的了局在质量和保真度方面得到显着提升。但是  ,依然能够观察到输出和GT之间的差距。例如  ,眼睛和嘴唇显示出显著的差距。

 

经过匹敌性损失训练的步骤(SinGAN [11]  ,ESRGAN+(拥有与GLEAN类似的FLOPs的ESRGAN[1])能够保留部门结构  ,但无法合成令人折服的纹理和细节。具体而言  ,SinGAN无法捉拿天然图像形状  ,从而产生类似绘画的图像。


只管ESRGAN+可能天生真切的图像  ,但仍难以合成精密的细节  ,并在细节区域引入不天然的伪像。值得强调的是  ,只管ESRGAN+在人脸方面获得不错的了局  ,但它在其他类别上的阐发却不太好  ,如下图所示:


image.png

通过latent bank提供的天然图像先验  ,GLEAN在保真度和天然度方面都获得了成功。为了进一步验证东升国际官网步骤在保真度的优越性  ,我们推算了ArcFace[12]特点的cosine similarity。从下表能够看到东升国际官网步骤胜过其他步骤  ,证了然我们步骤在维持身份一致性上的优越性。


image.png


我们将GLEAN扩大到更高的放大倍率。GLEAN成功地天生了真实并且靠近GT的图像  ,最多可进行64x的放大。


image.png

以下是更多例子  ,GLEAN在照片写实和身份保留方面拥有显著优势:


image.png

image.png

image.png

image.png

image.png

image.png


Part 4 结语


在本文中  ,我们提出了一种新步骤  ,能够利用经过预训练的GAN来进行大规模超分辨率工作  ,最高的放大倍率为64x。从尝试了局能够得出  ,预训练的GAN能够用作encoder-bank-decoder系统结构中的latent bank。


相比之前GAN Inversion的步骤  ,GLEAN仅需进行一次网络向前传布来调节和检索latent bank中的先验信息  ,从而沉建高清图像。GAN-based字典的普遍性使GLEAN不仅能够扩大到各类系统结构  ,并且能够扩大到其他图像复原工作上  ,如图像去噪  ,去吞吐和着色等。

 

另表, 我们CVPR21的另一篇中稿文章(https://ckkelvinchan.github.io/projects/BasicVSR/) 对于视频超分作出分析并提出两个新算法(BasicVSR和IconVSR )。我们基于这两个算法作出改进, 在NTIRE21角逐中获得2个冠军。BasicVSR和IconVSR的代码已开源到MMEditing  ,欢迎各人关注:)


论文地址

https://arxiv.org/abs/2012.00739


作者介绍

陳焯杰(Kelvin C.K. Chan) | 南洋理工大学S-Lab和MMLab@NTU三年级博士生。在顶级会议上颁发过五篇论文  ,在NTIRE视频复原角逐中共获得六个冠军。导师是吕健勤(Chen Change Loy)副教授。当前重要钻研兴致为图像和视频复原  ,重要蕴含超分辨率和去吞吐等。

幼我主页:https://ckkelvinchan.github.io/

尝试室主页:mmlab-ntu.github.io


References

1.Xintao Wang et al. "ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks" In ECCVW 2018.

2.Sachit Menon et al. "PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models." In CVPR 2020.

3.Tero Karras, Samuli Laine, and Timo Aila. "A Style-Based Generator Architecture for Generative Adversarial Networks." In CVPR 2019.

4.Tero Karras et al. "Analyzing and Improving the Image Quality of StyleGAN." In CVPR 2020.

5.Andrew Brock, Jeff Donahue, and Karen Simonyan. "Large scale GAN Training for High Fidelity Natural Image Synthesis." In ICLR 2019.

6.Jinjin Gu, Yujun Shen, and Bolei Zhou. "Image Processing Using Multi-Code GAN Prior." In CVPR 2020.

7.Jiapeng Zhu et al. "In-Domain GAN Inversion for Real Image Editing." In ECCV 2020.

8.Xiaoming Li et al. "Blind Face Restoration via Deep Multi-Scale Component Dictionaries." In ECCV 2020.

9.Zhifei Zhang et al. "Image Super-Resolution by Neural Texture Transfer." In CVPR 2019.

10.Xingang Pan et al. "Exploiting Deep Generative Prior for Versatile Image Restoration and Manipulation." In ECCV 2020.

11.Tamar Rott Shaham, Tali Dekel, and Tomer Michaeli. "SinGAN: Learning a Generative Model from a Single Natural Image." In ICCV 2019.

12.Jiankang Deng et al. "ArcFace: Additive Angular Margin Loss for Deep Face Recognition." In CVPR 2019.

产品试用
填写此单一表格  ,我们将尽快联系您!
商务合作
400 900 5986
周一至周五 9:00-12:00  ,13:00-18:00
合作同伴招募
【网站地图】