东升国际官网

返回新闻中心

? ? ?

主题技术: 以原创技术系统为根基，SenseCore东升国际官网AI大装置为主题基座，布局多领域、多方向前沿钻研，
急剧买通AI在各个垂直场景中的利用，向行业赋能。

< 返回论文解读

ICCV 2021 _ Talk-to-Edit：通过对话实现高细粒度人脸编纂

2022-02-22

Talk-to-Edit: Fine-Grained Facial Editing via Dialog

Yuming Jiang¹ Ziqi Huang¹ Xingang pan² Chen Change Loy¹ Ziwei Liu¹ ¹S-Lab Nanyang Technological University ²The Chinese University of Hong Kong

{yuming002, hu0007qi, ccloy, ziwei.liu}@ntu.edu.sg px117@ie.cuhk.edu.hk

Part 1 话不多说，先看图

用户通过和系统的对话实现人脸编纂：

图片1.jpg

对人脸的各个特点进行编纂：

图片2.jpg

编纂各位帅哥美女（用到了GAN inversion）：

图片3.jpg

Part 2: 步骤及了局

以上是若何实现的呢？Talk-to-Edit的pipeline如下图所示：

图片4.jpg

我们用 Semantic Field 来实现对人脸特点陆续且高细粒度可控的编纂。对话职能则由 Language Encoder和Talk？槔词迪。接下来我们诠释各个？榈墓ぷ鞯览砗统尚。

2.1 Semantic Field

布景：GAN[1, 2]能够基于隐空间中分歧的隐向量天生分歧的图片；谝空间的图片编纂步骤[3, 4, 5, 6, 7]利用预训练的GAN及其隐空间，有节造地扭转一张图片对应的隐向量，从而间接实现对图片的编纂。然而这些步骤如果在隐空间中沿着某个方向“走直线”就能够实现对一张人脸的某一特点的编纂 (如下图(b)中棕色蹊径(1))。

图片5.jpg

东升国际官网步骤抛开了“走直线」剽一如果，在“走动”过程中不休凭据此刻的隐向量寻找当前最优的前进方向 (如上图(b)中玄色蹊径(2))。因而，我们在隐空间中构建一个向量场来暗示每个隐向量的最佳“前进方向”，沿着当前隐向量的最佳“前进方向”移动隐向量，从而扭转图片的某一个语义特点。我们称这个向量场为语义场，即Semantic Field。东升国际官网编纂方式等价于沿着向量场的场线(field line)，向势(potential)增长得最快的方向移动。这里的势指的就是某一特点的水平，好比在编纂“刘海」剽一特点时，隐向量沿着场线，向刘海变长最快的方向移动(如上图(b)中玄色蹊径(2))。

Semantic Field拥有两个个性：1) 对统一幼我来说，不休扭转某一个属性，必要的“最佳前进方向”是不休变动的。2）在编纂统一个属性时，对于分歧人，对应的“最佳前进方向”也是分歧的。我们用一个神经网络来仿照 Semantic Field，用如上图(a)所示的步骤训练 Semantic Field。更多实现细节请参考论文和代码。

如下表，尝试了局批注，相对于用“走直线”如果的baselines，东升国际官网步骤能够在人脸编纂的过程中更好的保留这幼我的身份特点，并且在编纂某一个语义特点时削减对其他无关语义特点的扭转。

图片6.jpg

看看图，对比也很显著：

图片7.jpg

2.2 Language Encoder 和 Talk Module

为了给用户提供更便捷直观的交互方式，我们使用对话的方式让用户实现编纂。Talk-to-Edit用一个基于LSTM的Language Encoder来理解用户的编纂要求，并将编码后的编纂要求传递给Semantic Field从而领导编纂。Talk？槟芄辉诿柯直嘧牒笙蛴没啡舷噶６鹊谋嘧胨，好比向用户确认此刻的笑容是否刚好相宜，是否必要再多一档。Talk ？橐部梢晕没峁┢渌嘧虢ㄒ，好比系统发现用户从未尝试过编纂眼镜这个特点，因而询问用户是否想试一试给照片加个眼镜。

Part 3: CelebA-Dialog数据集

图片8.jpg

基于CelebA [8] 数据集，我们为钻研社区提供了CelebA-Dialog数据集：

（1）我们提供了每张图片的高细粒度特点标注。如上图所示，凭据笑容的光耀水平，“笑容」剽个语义特点被分为6档。CelebA-Dialog精确地标注了每张图片中的“笑”属于6个等级中的哪一个。

（2）我们提供丰硕的的天然说话描述，蕴含每张图片各个语义特点的高细粒度天然说话注明 (image captions)，以及一句图片编纂的用户要求（user request）。

CelebA-Dialog可以为多种工作提供监督，例如高细粒度人脸特点鉴别，基于天然说话的人脸天生和编纂等。

在Talk-to-Edit这个工作中，我们利用CelebA-Dialog的高细粒度特点标注训练了一个高细粒度到人脸特点预测器，从而为Semantic Field的训练提供高细粒度的监督。

Part 4: 总结

(1) 本工作提出了一个基于对话的，高细粒度的人脸编纂系统: Talk-to-Edit。

(2) 我们提出了 “Semantic Field”，即在GAN隐空间中进建一个语义场，通过在隐空间中沿着场线“行走”，从而实现陆续且细粒的人脸特点编纂。

(3) 我们为钻研社区贡献了一个大规模的数据集 CelebA-Dialog。我们相信它能够很好地援手到将来高细粒度人脸编纂的工作以及天然说话驱动的视觉工作。

再来看看Talk-to-Edit的更多优良阐发吧：

图片9.jpg

图片10.jpg

图片11.jpg

Reference:

[1] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In CVPR, pages 4401–4410, 2019. 1, 2

[2] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. In CVPR, pages 8110–8119, 2020. 1, 2

[3] Yujun Shen, Ceyuan Yang, Xiaoou Tang, and Bolei Zhou. Interfacegan: Interpreting the disentangled face representation learned by gans. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020. 2, 4, 6

[4] Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. Interpreting the latent space of gans for semantic face editing. In CVPR, pages 9243–9252, 2020. 2, 4, 15

[5] Yujun Shen and Bolei Zhou. Closed-form factorization of latent semantics in gans. arXiv preprint arXiv:2007.06600, 2020. 2

[6] Erik Ha ?rko ?nen, Aaron Hertzmann, Jaakko Lehtinen, and Sylvain Paris. Ganspace: Discovering interpretable gan ctrols. arXiv preprint arXiv:2004.02546, 2020. 2

[7] Andrey Voynov and Artem Babenko. Unsupervised discovery of interpretable directions in the gan latent space. In ICML, pages 9786–9796. PMLR, 2020. 2

[8] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In ICCV, pages 3730–3738, 2015. 3, 6, 14, 15, 16

您尚未美满信息

美满信息后，即可下载资料

美满信息跳过，持续浏览

您尚未登录

您还未登录，登录方可持续

登录跳过，持续浏览

请选择您以为必要改进的处所：

导航不好用，不方便找到感兴致的内容
产品介绍信息不够全面
产品介绍信息不容易懂
页面打开速度不快，页面浏览不流畅/有卡顿
页面不够美观
售后服务不好找，履历不好

跳过下一个

您是否可能达到本次网站的接见主张？

是
否
仍在进行中

下一个

您对东升国际官网官网的中意度若何？

1
2
3
4
5
6
7
8
9
10

极度不中意极度中意

提交

已收到您对东升国际官网官网的评价和建议！

感激您的耐心反馈~

关关

产品试用

填写此单一表格，我们将尽快联系您！

把您的需要发给我们相识所有产品

商务合作

400 900 5986

周一至周五 9:00-12:00，13:00-18:00

business@sensetime.com

合作同伴招募

成为合作同伴

您还未登录，登录方可持续

登录跳过，持续浏览

您尚未美满信息

美满信息后，即可下载资料

美满信息跳过，持续浏览

商务合作

400 900 5986
( 周一至周五 9:00-12:00, 13:00-18:00 )
business@sensetime.com
媒体沟通: pr@sensetime.com
投资者关系联系: ir@sensetime.com

社交媒体

微信公家号

【网站地图】