近年图像翻译先进模型小结

图像翻译的发展

图像翻译旨在通过设计端到端的模型将源域图像转换到目标域图像，通常源域提供图像的内容，目标域提供图像的“风格”(可以是图像属性或图像风格)，在源域内容下实现目标域的“风格”化，从而实现源域图像到目标域图像的转换。

说的通俗点图像翻译可以是标签图到场景图的转换、线条轮廓到色彩图像转换、图像的风格转换，春夏场景的变换，人脸的属性变换，也可以是白昼交替的转换。只要符合上述端到端转换的任务，都可以通过图像翻译实现。引用 pix2pix [1] 中的经典插图，一起看下图像翻译的实际应用。

图1.图像翻译的不同任务场景

图像翻译自应用下便得到了快速的发展，尤其是随着生成对抗网络（GAN）的提出，大大加速了图像翻译的演进。从早期的 pix2pix、CycleGAN [2]、UNIT [3] 到较为成熟的 StarGAN [4] 都是图像翻译在上几年较为成功和经典的模型。

这些模型实现了从源域图像到目标域图像的转换，但这往往需要一定的标签参与或者需要建立源域和目标域各自的生成器，同时任务往往实现的是单目标域的转换。

随着发展到 MUNIT [5]、DRIT [6] 以及 UGATIT [7] 则进一步实现了由源域到多目标域的转换，也有利用语义 mask 图像实现无条件图像翻译的 SPADE [8]。

StyleGAN [9] 实现了高质量的图像风格转换，这无疑于 StyleGAN 的细致的架构，逐步分辨率的阶段性生成、自适应实例正则化（AdaIN）和风格空间的应用。

StyleGAN2 [10] 在 StyleGAN 的基础上进一步对 AdnIN 进行修正，demodulation 操作应用于每个卷积层相关的权重，并且通过 skip generator 代替 progressive growing，实现了更为细致的图像转换。这些基础性的图像转换架构对于近年来的图像翻译任务提供价值性的指导。

近年来，图像翻译实现了更加细致的任务实现，StarGAN v2 [11] 在 StarGAN 的基础上实现了多源域到多目标域的图像转换；ALAE [12] 将自编码器拓展到高精致的图像转换。

HiDT [13] 提供了多域图像转换下对图像翻译下的网络逻辑和损失函数做了细致的总结；ConSinGAN [14] 代表了一众单幅图像训练的先进模型，实现了单幅图像训练下的图像转换任务。本文将以这 4 篇论文进行介绍，对近年图像翻译模型进行分析和小结。

图像翻译模型

2.1 StarGAN v2

论文标题：StarGAN v2: Diverse Image Synthesis for Multiple Domains

论文来源：CVPR 2020

论文链接：https://arxiv.org/abs/1912.01865

代码链接：https://github.com/clovaai/stargan-v2

StarGAN v2 针对 StarGAN 存在的仅能在单目标域下转换和需要标签信息参与的两个问题，提出了目标域下多风格图像的转换。如何实现多目标域的转换呢？StarGAN v2 设计了 Mapping Network 用于生成风格编码，从而为目标域下提供多类型的风格表示而不需要额外的标签，模型的整体结构如图 2 所示。

图2.StarGAN v2模型整体结构

可以看出 StarGAN v2 由四部分组成，生成器，映射网络，风格编码器判别器。我们先捋一下整个过程，首先映射网络学习到目标域图像的风格编码，其中，这是映射网络学习到的目标域图像的风格编码。

而作为参照真实目标域图像的风格编码由风格编码器得到，得到了风格编码结合源域输入图像便可送入到生成器，生成器输出的就是转换后的目标域图像，而判别器则为了区分生成的目标域图像是否是真实来源于真实目标域。

StarGAN v2 中映射网络、风格编码器和判别器的输出都是多分支的，因为文章的目的是进行多目标域的转换，这里的多分支就是不同的目标域的表示，对于映射网络和风格编码器，多分支表示的是多个目标域图像的风格表示，对于判别器多分支则是代表不同目标域的判别真假情况，作者在附录中用表示分支数。

图 3 展示了 StarGAN v2 的较为详细的网络设计。

图3.StarGAN v2模型设计结构

实验上，在图像转换上展示了优越的效果。

图4.StarGAN v2定性对比结果

2.2 ALAE

论文标题：Adversarial Latent Autoencoders

论文链接：https://arxiv.org/abs/2004.04467

代码链接：https://github.com/podgorskiy/ALAE

自编码器能否具有像 GAN 那样的生成能力呢？ALAE 给出了肯定的答案，ALAE 算是建立在 StyleGAN 基础之上，具备与 GAN 相当的生成能力，且能够学习解耦表征，在人脸属性变换上展示了优越的效果。

图6.StyleALAE网络架构

作者使用 MNIST 数据集训练 ALAE，并使用特征表示来执行分类、重建和分析解耦能力的任务，与已有的自编码器模型对比结果存在优势，ALAE 最让人印象深刻的就是 StyleALAE 在 FFHQ 上的生成效果，真是将自编码器做到了 GAN 的高精度生成。

图7.StyleALAE的生成效果

本文围绕着图像翻译展开，ALAE 当然适用于图像翻译任务，在人脸属性的转换上也做到了优越的转换效果。

图8.StyleALAE人脸属性变换

2.3 ConSinGAN

论文标题：Improved Techniques for Training Single-Image GANs

论文链接：https://arxiv.org/abs/2003.11512

代码链接：https://github.com/tohinz/ConSinGAN

近年有部分研究者将目光投入到单幅图像训练网络上，ICCV 2019 best paper SinGAN [15] 便是一个代表作，此处要介绍的 ConSinGAN 则是在 SinGAN 的基础上的升级版。

受限于数据样本和网络训练时长，单幅图像训练的模型存在着很大的应用意义。要介绍清 ConSinGAN 则必须要提一下 SinGAN，本质上 ConSinGAN 就是并行的 SinGAN，缩写中不同的 Con 就是指 Concurrent 的意思。

SinGAN 按照不同分辨率分阶段训练生成器和判别器，在串行的阶段训练上，当前生成器将前一个生成器生成的图像作为输入，在此基础上生成比当前还要高分辨率的图像，此时不同阶段的生成器都是单独训练的，这也意味着在训练当前生成器时，之前的生成器的权重都保持不变，这个过程由图 9 所示。

图9.SinGAN训练过程

ConSinGAN 指出每个分辨率下仅训练一个生成器而固定前面的生成器的参数，这仅仅将前一阶段生成器输出作为当前的输入，这一定程度上限制了不同阶段生成器之间的交互。

ConSInGAN 设计了对生成器进行端到端的训练，也就是说，在给定时间内可以训练多个生成器，每个生成器将前一个生成器生成的特征（而不是图像）作为输入。这种训练是对多个阶段下的生成器同时进行的，也称之为并行训练的方式，这个过程如图 10 所示。

图10.ConSinGAN训练过程

然而训练多个分辨率下的生成器将会导致另一个问题，那就是过拟合，也就是最后得到的图像失去了多样性，为了解决这个问题，ConSinGAN 提出了 2 个应对方案。

在任意给定时间内，只训练一部分生成器

在训练一部分生成器时，还要对不同的生成器使用不同的学习率，对于低分辨率阶段的生成器使用较小的学习率

图11.ConSinGAN训练不同生成器不同学习率

实验发现如果对早阶段的生成器采用较高的学习率，那么生成的图像质量会高些，但是差异性较弱。相反，如果对早阶段的生成器采用较小的学习率，那么生成图像的差异性会丰富一些。

在进行图像翻译任务时，ConSinGAN 进行了图像协调实验，主要与 SinGAN 进行对比，得到的对比结果如图 12 所示。

图12.ConSinGAN在图像协调下的转换结果

2.4 HiDT

论文标题：High-Resolution Daytime Translation Without Domain Labels

论文来源：CVPR 2020

论文链接：https://arxiv.org/abs/2003.08791

最后来分析下 High-Resolution Daytime Translation Without Domain Labels (HiDT)，这篇文章虽然做的是高清自然场景时移变换，但是确实将图像翻译的训练逻辑和损失函数介绍的非常清晰的文章，HiDT 也是 CVPR 2020 oral 的一篇文章，在这里梳理一下 HiDT 对图像翻译的设计逻辑和损失函数的设计。

图13.HiDT网络优化过程

总结

近年来图像翻译的文章还有很多，本文仅仅是笔者选摘的有代表性的几篇文章，图像翻译已不再是简单的图像风格变换或是源域到目标域的转换，而是上升到多源域到多目标域图像的转换。

同时基于 GAN，基于自编码器，基于 pixelCNN 的模型也是十分丰富。从庞大的数据集进行训练，到可以由单幅图像的训练，对于训练的样本要求也在逐步降低。

总的来说，图像翻译向着更加系统和全面的方向有序进展，虽然模型做到了多源域到多目标域图像的转换，但是这个过程仍存在很多的限制，限制于数据集和各目标域间的标注，同时不同目标域间的差距仍不能做到很大，one for all 的理念仍是一个很值得研究和迈进的方向。

参考文献

[1] Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1125-1134.

[2] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2223-2232.

[3] Liu M Y, Breuel T, Kautz J. Unsupervised image-to-image translation networks[C]//Advances in neural information processing systems. 2017: 700-708.

[4] Choi Y, Choi M, Kim M, et al. Stargan: Unified generative adversarial networks for multi-domain image-to-image translation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8789-8797.

[5] Huang X, Liu M Y, Belongie S, et al. Multimodal unsupervised image-to-image translation[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 172-189.

[6] Lee H Y, Tseng H Y, Mao Q, et al. Drit++: Diverse image-to-image translation via disentangled representations[J]. International Journal of Computer Vision, 2020: 1-16.

[7] Kim J, Kim M, Kang H, et al. U-GAT-IT: unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation[J]. arXiv preprint arXiv:1907.10830, 2019.

[8] Park T, Liu M Y, Wang T C, et al. Semantic image synthesis with spatially-adaptive normalization[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 2337-2346.

[9] Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 4401-4410.

[10] Karras T, Laine S, Aittala M, et al. Analyzing and improving the image quality of stylegan[J]. arXiv preprint arXiv:1912.04958, 2019.

[11] Choi Y, Uh Y, Yoo J, et al. StarGAN v2: Diverse Image Synthesis for Multiple Domains[J]. arXiv preprint arXiv:1912.01865, 2019.

[12] Pidhorskyi, Stanislav and Adjeroh, Donald A and Doretto, Gianfranco, et al. Adversarial Latent Autoencoders[J]. arXiv preprint arXiv:2004.04467, 2020.

[13] Anokhin I, Solovev P, Korzhenkov D, et al. High-Resolution Daytime Translation Without Domain Labels[J]. arXiv preprint arXiv:2003.08791, 2020.

[14] Hinz T, Fisher M, Wang O, et al. Improved Techniques for Training Single-Image GANs[J]. arXiv preprint arXiv:2003.11512, 2020.

[15] Rott Shaham T, Dekel T, Michaeli T. SinGAN: Learning a Generative Model from a Single Natural Image[J]. arXiv preprint arXiv:1905.01164, 2019.

声明：文章收集于网络，版权归原作者所有，为传播信息而发，如有侵权，请联系小编删除，谢谢！