- 主题技术
- 以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。
ICCV 2021 _ Talk-to-Edit:通过对话实现高细粒度人脸编纂
Talk-to-Edit: Fine-Grained Facial Editing via Dialog
Yuming Jiang1 Ziqi Huang1 Xingang pan2 Chen Change Loy1 Ziwei Liu1 1S-Lab Nanyang Technological University 2The Chinese University of Hong Kong
{yuming002, hu0007qi, ccloy, ziwei.liu}@ntu.edu.sg px117@ie.cuhk.edu.hk
Part 1 话不多说,先看图
用户通过和系统的对话实现人脸编纂:

对人脸的各个特点进行编纂:

编纂各位帅哥美女(用到了GAN inversion):

Part 2: 步骤及了局
以上是若何实现的呢?Talk-to-Edit的pipeline如下图所示:

我们用 Semantic Field 来实现对人脸特点陆续且高细粒度可控的编纂。对话职能则由 Language Encoder和Talk?槔词迪。接下来我们诠释各个?榈墓ぷ鞯览砗统尚。
2.1 Semantic Field
布景:GAN[1, 2]能够基于隐空间中分歧的隐向量天生分歧的图片;谝空间的图片编纂步骤[3, 4, 5, 6, 7]利用预训练的GAN及其隐空间,有节造地扭转一张图片对应的隐向量,从而间接实现对图片的编纂。然而这些步骤如果在隐空间中沿着某个方向“走直线”就能够实现对一张人脸的某一特点的编纂 (如下图(b)中棕色蹊径(1))。

东升国际官网步骤抛开了“走直线」剽一如果,在“走动”过程中不休凭据此刻的隐向量寻找当前最优的前进方向 (如上图(b)中玄色蹊径(2))。因而,我们在隐空间中构建一个向量场来暗示每个隐向量的最佳“前进方向”,沿着当前隐向量的最佳“前进方向”移动隐向量,从而扭转图片的某一个语义特点。我们称这个向量场为语义场,即Semantic Field。东升国际官网编纂方式等价于沿着向量场的场线(field line),向势(potential)增长得最快的方向移动。这里的势指的就是某一特点的水平,好比在编纂“刘海」剽一特点时,隐向量沿着场线,向刘海变长最快的方向移动(如上图(b)中玄色蹊径(2))。
Semantic Field拥有两个个性:1) 对统一幼我来说,不休扭转某一个属性,必要的“最佳前进方向”是不休变动的。2)在编纂统一个属性时,对于分歧人,对应的“最佳前进方向”也是分歧的。我们用一个神经网络来仿照 Semantic Field,用如上图(a)所示的步骤训练 Semantic Field。更多实现细节请参考论文和代码。
如下表,尝试了局批注,相对于用“走直线”如果的baselines,东升国际官网步骤能够在人脸编纂的过程中更好的保留这幼我的身份特点,并且在编纂某一个语义特点时削减对其他无关语义特点的扭转。

看看图,对比也很显著:

2.2 Language Encoder 和 Talk Module
为了给用户提供更便捷直观的交互方式,我们使用对话的方式让用户实现编纂。Talk-to-Edit用一个基于LSTM的Language Encoder来理解用户的编纂要求,并将编码后的编纂要求传递给Semantic Field从而领导编纂。Talk?槟芄辉诿柯直嘧牒笙蛴没啡舷噶6鹊谋嘧胨,好比向用户确认此刻的笑容是否刚好相宜,是否必要再多一档。Talk ?橐部梢晕没峁┢渌嘧虢ㄒ,好比系统发现用户从未尝试过编纂眼镜这个特点,因而询问用户是否想试一试给照片加个眼镜。
Part 3: CelebA-Dialog数据集

基于CelebA [8] 数据集,我们为钻研社区提供了CelebA-Dialog数据集:
(1)我们提供了每张图片的高细粒度特点标注。如上图所示,凭据笑容的光耀水平,“笑容」剽个语义特点被分为6档。CelebA-Dialog精确地标注了每张图片中的“笑”属于6个等级中的哪一个。
(2)我们提供丰硕的的天然说话描述,蕴含每张图片各个语义特点的高细粒度天然说话注明 (image captions),以及一句图片编纂的用户要求(user request)。
CelebA-Dialog可以为多种工作提供监督,例如高细粒度人脸特点鉴别,基于天然说话的人脸天生和编纂等。
在Talk-to-Edit这个工作中,我们利用CelebA-Dialog的高细粒度特点标注训练了一个高细粒度到人脸特点预测器,从而为Semantic Field的训练提供高细粒度的监督。
Part 4: 总结
(1) 本工作提出了一个基于对话的,高细粒度的人脸编纂系统: Talk-to-Edit。
(2) 我们提出了 “Semantic Field”,即在GAN隐空间中进建一个语义场,通过在隐空间中沿着场线“行走”,从而实现陆续且细粒的人脸特点编纂。
(3) 我们为钻研社区贡献了一个大规模的数据集 CelebA-Dialog。我们相信它能够很好地援手到将来高细粒度人脸编纂的工作以及天然说话驱动的视觉工作。
再来看看Talk-to-Edit的更多优良阐发吧:



Reference:
[1] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In CVPR, pages 4401–4410, 2019. 1, 2
[2] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. In CVPR, pages 8110–8119, 2020. 1, 2
[3] Yujun Shen, Ceyuan Yang, Xiaoou Tang, and Bolei Zhou. Interfacegan: Interpreting the disentangled face representation learned by gans. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020. 2, 4, 6
[4] Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. Interpreting the latent space of gans for semantic face editing. In CVPR, pages 9243–9252, 2020. 2, 4, 15
[5] Yujun Shen and Bolei Zhou. Closed-form factorization of latent semantics in gans. arXiv preprint arXiv:2007.06600, 2020. 2
[6] Erik Ha ?rko ?nen, Aaron Hertzmann, Jaakko Lehtinen, and Sylvain Paris. Ganspace: Discovering interpretable gan ctrols. arXiv preprint arXiv:2004.02546, 2020. 2
[7] Andrey Voynov and Artem Babenko. Unsupervised discovery of interpretable directions in the gan latent space. In ICML, pages 9786–9796. PMLR, 2020. 2
[8] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In ICCV, pages 3730–3738, 2015. 3, 6, 14, 15, 16





返回