NVIDIA针对数据不充分数据集进行生成改进，大幅

生成对抗网络因其优异的生成质量而得到广泛的关注，然而想要得到高质量的生成结果往往需要大批量的训练数据进行加持才能训练出逼真的生成结果，这点在各大主流优秀的生成对抗网络模型下得到验证。一旦训练数据不足的情况下能否得到优秀的结果，能否让判别器不去过度拟合训练样本呢？

这个问题由来自 NVIDIA 的研究者付诸行动并给出了一定的解决方案，本文将共同来阅读论文 Training Generative Adversarial Networks with Limited Data。

论文引入

庞大的数据集在背后推动着生成模型的发展，然而为特定应用收集足够大的图像集是存在挑战的，这要求数据要对主题类型，图像质量，地理位置，时间段，隐私，版权状态等施加限制，就比如 CelebA 数据集，在人脸位置、质量和图像的大小都存在着严格的要求，这个要求一旦施加在上十万张图像数据集下就是很庞大的工作量。

图1.不同量级下数据集对生成质量的影响

图 1a 显示了 FFHQ 不同子集的基线结果，在每种情况下，训练都以相同的方式开始，但是随着训练的进行，FID 开始上升。训练数据越少，越早发生。图 1b，c 显示了训练过程中真实图像和生成图像的判别器输出分布。

分布最初是重叠的，但随着判别器变得越来越有把握，它们会保持漂移，FID 开始恶化的点与分布之间失去足够的重叠是一致的。由图 1c 可以看到，当判别器过分拟合训练数据时，即使是真实图像的验证集也会判别和生成数据分布一致，这就是判别器过度拟合到了训练数据上的有力说明。

既然过拟合问题出现了，而且是由于数据集不足导致的，那能不能扩充数据集（旋转、加噪声）进行解决呢？

然而扩充数据集往往在训练分类器这样的判别语义信息任务是有效的，但是简单的扩充数据集在 GAN 中将会导致“泄漏”，这主要是由于数据集的扩充会导致 GAN 学习生成扩充的数据分布。

本文要介绍的论文 Training Generative Adversarial Networks with Limited Data 利用多样的数据扩充来防止判别器过度拟合的同时确保扩充不会"泄漏"到生成的图像中。

论文标题：Training Generative Adversarial Networks with Limited Data

论文链接：https://arxiv.org/abs/2006.06676

总结一下 ADA 方法在生成模型上的优势：

ADA 可以实现少样本数据下的较好质量的生成

ADA 可以保证数据扩充前提下防治数据的"泄漏"

自适应的判别器增强保证了模型不轻易出现过拟合，模型更加稳定

数据不充分下生成改进

数据不充分的情况下进行数据扩充无疑是最直接了当的解决方式，传统的 GAN 训练数据集的任何扩充都将继承到生成的图像，这无疑是数据扩充不希望得到的结果，如何解决呢？

2.1 数据扩充

平衡一致性正则化（bCR）提出了应用于同一输入图像的两组扩增应产生相同的输出，为判别器损失上添加一致性正则项，也为真实图像和生成的图像实施判别器一致性，而训练生成器时则不应用增强或一致性损失，这部分直观的理解如图 2a 所示。

然而，bCR 中生成器可以自由生成包含扩充的图像而不会受到任何惩罚，这就导致了“泄漏”的进一步增强，文章在后面实验部分也验证了 bCR 确实导致了“泄漏”的发生。

图2.bCR与DA下生成模型设计

文章设计了一种新的扩充方式，与 bCR 相似也是对输入到判别器的图像应用了增强。但是，该方法并没有使用单独的 CR 损失项，而是仅使用增强图像来评估判别器，并且在训练生成器时也要这样做（图 2b）。

文章称之为判别器增强（discriminator augmentation，DA），这种方法看上去非常简单，甚至你在乍一看都会质疑它是否可以正常工作，是不是会怀疑判别器从未看到训练图像的真实外观的情况下，能否可以正确地指导生成器（图 2c）。为此，文章研究了在何种情况下 DA 不会泄漏对所生成图像的增强。

2.2 设计不会"泄漏"的数据扩充（DA）

[1] 考虑了训练 GAN 时的类似问题，并表明只要隐含的过程由数据空间上概率分布的可逆转换来表示，训练就隐式地消除了损坏并找到了正确的分布，称这种增强算子为非泄漏。这些可逆变换的功能在于，它们可以通过仅观察扩充的集合来得出有关基础集合的相等性或不平等性的结论。

这样生成模型将看到的是更多正常的图像，然而一些数据增强是不会影响最后的生成结果，例如各向同性图像缩放，文章也是利用实验对其它情况进行直观的解释，整个过程如图 3 所示。

图3.不同增强下p对“泄漏”的影响

在图 3 中，通过三个实际示例来验证我们的分析，上方的图像代表着对应不同的时候，模型生成的图像，这也通过 FID 进行可视化展示。

在 a 中进行各向同性图像缩放，无论 p 的值如何，其均不会泄漏。但是在图 3b 中，当 p 太高时，生成器无法知道生成的图像应面向哪个方向并最终随机选择一种可能性。

实际上，由于有限采样，网络的有限表示能力，归纳偏差和训练动态，当 p 保持在以下时，生成的图像始终正确定向。在这些区域之间，生成器有时会最初选择错误的方向，然后向正确的分布部分漂移。

对于一系列连续的色彩增强，也具有相同的观察结果（图 3c）。该实验表明，只要保持在 0.8 以下，实际上就不太可能发生“泄漏”。

2.3 文章采用的数据扩充方式

文章借鉴了 RandAugment [9] 在图像分类任务中的成功，考虑了 18 种变换的流水线，这些变换分为 6 类：像素层（x 翻转，90° 旋转，整数平移），更一般的几何变换，颜色变换，图像空间滤波，加性噪声和抠图。由于在训练生成器时，也会执行增强，这要求增强是可区分的。

图4.不同增强下实验结果

在许多情况下，DA 可以显着改善结果，较佳增强强度在很大程度上取决于训练数据的数量，绝大多数来自像素层和几何变换上的增强，颜色转换适度有益，而图像空间过滤，噪点和裁切并不是特别有用。

2.4 自适应判别器增强（ADA）

图5.自适应判别器增强评估实验

在图 5a，b 中，可以观察到和都可以有效防止过度拟合，并且它们都比使用网格搜索找到的较佳固定改善了结果，文章也确定了在后续实验中的初始值设置为 0.6。图 5d 显示了具有自适应 vs 固定的的演变，表明固定在开始时往往太强，而在结束时往往太弱。

图6.ADA验证实验

图 6 使用 ADA 重复了图 1 的设置，可以看到无论训练集的大小如何，都可以实现收敛，并且不再发生过度拟合。如果不进行扩充，随着时间的流逝，生成器从判别器接收到的梯度将变得非常简单，判别器开始仅关注少数功能，并且生成器可以自由创建其他无意义的图像。同时使用 ADA 时，梯度场保持更详细，从而避免情况的恶化。

实验与评估

文章在 FFHQ 和 LSUN CAT 进行实验，有趣的是 ADA 和 bCR 的优势在很大程度上是可加的，图 7 给出了实验结果。

图7.FHQ和LSUN CAT下进行实验

为进一步定量说明，文章和 PA-GAN [2]，WGAN-GP [3]，zCR [4]，auxiliary rotations [5] 和 spectral normalization [6] 进行定量比对，结果如图 8，不得不说的是 ADA 在 CIFAR-10 数据集下取得了非常好的结果这在之前的生成模型上是看不到的，这个进步是很大的。

图8.定量对比实验

在迁移学习上，ADA 也展示了优越的结果。

图9.ADA在迁移学习下的表现

最后放一下在小型数据集 CIFAR-10 数据集下，ADA 模型展示的可怕的生成效果：

图10.ADA在CIFAR-10数据集下定性结果

总结

ADA 展示了在训练数据短缺时，自适应判别器扩充可以稳定且有效的训练并极大地提高结果质量。但是也要指出扩充数据集并不能替代真实数据，相同数据量下肯定是真实数据越多得到的生成效果越好的。

自适应增强的设计也展示了 NVIDIA 科研上的严谨，更值得说的是，NVIDIA 这样的不太在乎算力资源的研究者能专心在少数据样本的训练上展开研究本身就是很值得敬佩的。

参考文献

[1] A. Bora, E. Price, and A. Dimakis. AmbientGAN: Generative models from lossy measurements. In Proc. ICLR, 2018.

[2] D. Zhang and A. Khoreva. PA-GAN: Improving GAN training by progressive augmentation. In Proc. NeurIPS, 2019.

[3] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A. C. Courville. Improved training of Wasserstein GANs. In Proc. NIPS, pages 5769–5779, 2017.

[4] Z. Zhao, S. Singh, H. Lee, Z. Zhang, A. Odena, and H. Zhang. Improved consistency regularization for GANs. CoRR, abs/2002.04724, 2020.

[5] T. Chen, X. Zhai, M. Ritter, M. Lucic, and N. Houlsby. Self-supervised GANs via auxiliary rotation loss. In Proc. CVPR, 2019.

[6] T. Miyato, T. Kataoka, M. Koyama, and Y. Yoshida. Spectral normalization for generative adversarial networks. In Proc. ICLR, 2018.

声明：文章收集于网络，版权归原作者所有，为传播信息而发，如有侵权，请联系小编删除，谢谢！