为什么让GAN一家独大?Facebook提出非对抗式生成方
生成对立网络(GAN)在图像生成方面曾经得到了普遍的应用,目前根本上是 GAN 一家独大,其它如 VAE 和流模型等在应用上都有一些差距。虽然 wasserstein 间隔极大地提升了 GAN 的效果,但其仍在理论上存在锻炼不稳定和形式丧失的问题。Facebook 的两位研讨者近日交融了两种非对立办法的优势,并提出了一种名为 GLANN 的新办法。
这种新办法在图像生成上能与 GAN 相媲美,或许除了 VAE、Glow 和 Pixcel CNN,这种新模型也能参加到无监视生成的大家庭中。当然在行将到来的 2019 年中,我们也希望 GAN 之外的更多生成模型会得到更多的生长,也希望生成模型能有更多的新想法。
生成式图像建模是计算机视觉长期以来的一大研讨方向。无条件生成模型的目的是经过给定的有限数量的锻炼样本学习得到能生成整个图像散布的函数。生成对立网络(GAN)是一种新的图像生成建模技术,在图像生成任务上有普遍的应用,缘由在于:1)能锻炼有效的无条件图像生成器;2)简直是一种能用于不同域之间无监视图像转换的办法(但还有 NAM 也能做图像转换);3)是一种有效的感知式图像损失函数(例如 Pix2Pix)。
GAN 有明显的优势,但也有一些关键的缺陷:1)GAN 很难锻炼,详细表现包括锻炼过程十分不稳定、锻炼忽然解体和对超参数极端敏感。2)GAN 有形式丧失(mode-dropping)问题——只能建模目的散布的某些形式而非一切形式。例如假如我们用 GAN 生成 0 到 9 十个数字,那么很可能 GAN 只关注生成「1」这个数字,而很少生成其它 9 个数字。
普通我们能够运用华诞悖论(birthday paradox)来权衡形式丧失的水平:生成器胜利建模的形式数量能够经过生成固定数量的图像,并统计反复图像的数量来估量。对 GAN 的实验评价发现:学习到的形式数量显著低于锻炼散布中的数量。
GAN 的缺陷让研讨者开端探究用非对立式计划来锻炼生成模型,GLO 和 IMLE 就是两种这类办法。Bojanowski et al. 提出的 GLO 是将锻炼图像嵌入到一个低维空间中,并在该嵌入向量输入到一个结合锻炼的深度生成器时重建它们。GLO 的优势有:1)无形式丧失地编码整个散布;2)学习得到的隐含空间能与图像的形义属性相对应,即隐含编码之间的欧几里德间隔对应于形义方面的含义差别。但 GLO 有一个关键缺陷,即没有一种从嵌入空间采样新图像的准绳性办法。虽然 GLO 的提出者倡议用一个高斯散布来拟合锻炼图像的隐编码,但这会招致图像合成质量不高。
IMLE 则由 Li and Malik 提出,其锻炼生成模型的方式是:从一个恣意散布采样大量隐含编码,运用一个锻炼后的生成器将每个编码映射到图像域中并确保关于每张锻炼图像都存在一张相近的生成图像。IMLE 的采样很简单,而且没有形式丧失问题。相似于其它最近邻办法,详细所用的指标对 IMLE 影响很大,特别是当锻炼集大小有限时。回想一下,虽然经典的 Cover-Hart 结果通知我们最近邻分类器的误差率渐进地处于贝叶斯风险的二分之一范围内,但当我们运用有限大小的示例样本集时,选择更好的指标能让分类器的表现更好。当运用 L2 损失直接在图像像素上锻炼时,IMLE 合成的图像是含糊不清的。
在本研讨中,我们提出了一种名为「生成式隐含最近邻(GLANN:Generative Latent Nearest Neighbors)」的新技术,可以锻炼出与 GAN 质量相当或更优的生成模型。我们的办法初次运用了 GLO 来嵌入锻炼图像,从而克制了 IMLE 的指标问题。由 GLO 为隐含空间引入的诱人的线性特性能让欧几里德度量在隐含空间 Z 中具有形义含义。我们锻炼了一个基于 IMLE 的模型来完成恣意噪声散布 E 和 GLO 隐含空间 Z 之间的映射。然后,GLO 生成器能够将生成得到的隐含编码映射到像素空间,由此生成图像。我们的 GLANN 办法集中了 IMLE 和 GLO 的双重优势:易采样、能建模整个散布、锻炼稳定且能合成锐利的图像。图 1 给出了我们的办法的一种计划。
图 1:我们的架构的表示图:采样一个随机噪声向量 e 并将其映射到隐含空间,得到隐含编码 z = T(e)。该隐含编码再由生成器投射到像素空间,得到图像 I = G(z)
我们运用已确立的指标评价了我们的办法,发现其显著优于其它的非对立式办法,同时其表现也比当前的基于 GAN 的模型更优或表现相当。GLANN 也在高分辨率图像生成和 3D 生成上得到了出色的结果。最后,我们标明 GLANN 锻炼的模型是最早的能真正执行非对立式无监视图像转换的模型。
论文:运用生成式隐含最近邻的非对立式图像合成
论文链接:https://arxiv.org/pdf/1812.08985v1.pdf
生成对立网络(GAN)近来曾经主导了无条件图像生成范畴。GAN 办法会锻炼一个生成器和一个判别器,其中生成器依据随机噪声向量对图像停止回归操作,判别器则会试图分辨生成的图像和锻炼集中的真实图像。GAN 曾经在生成看似真实的图像上获得了出色的表现。GAN 虽然很胜利,但也有一些关键性缺陷:锻炼不稳定和形式丧失。GAN 的缺陷正促使研讨者研讨替代办法,其中包括变分自编码器(VAE)、隐含嵌入学习办法(比方 GLO)和基于最近邻的隐式较大似然估量(IMLE)。不幸的是,目前 GAN 依然在图像生成方面显著优于这些替代办法。在本研讨中,我们提出了一种名为「生成式隐含最近邻(GLANN)」的全新办法,可不运用对立锻炼来锻炼生成模型。GLANN 分离了 IMLE 和 GLO 两者之长,克制了两种办法各自的主要缺陷。结果就是 GLANN 能生成比 IMLE 和 GLO 远远更好的图像。我们的办法没有搅扰 GAN 锻炼的形式解体问题,而且要稳定得多。定性结果标明 GLANN 在常用数据集上优于 800 个 GAN 和 VAE 构成的基线程度。研讨还标明我们的模型能够有效地用于锻炼真正的非对立式无监视图像转换。
办法
我们提出的 GLANN(生成式隐含最近邻)办法克制了 GLO 和 IMLE 两者的缺陷。GLANN 由两个阶段构成:1)运用 GLO 将高维的图像空间嵌入到一个「行为良好的」隐含空间;2)运用 IMLE 在一个恣意散布(通常是一个多维正态散布)和该低维隐含空间之间执行映射。
实验
为了评价我们提出的办法的表现,我们执行了定量和定性实验来比拟我们的办法与已确立的基线程度。
表 1:生成质量(FID/ Frechet Inception Distance)
图 2:在 4 个数据集上依据权衡的精度-召回率状况。这些图表来自 [31]。我们用星标在相关图表上标出了我们的模型在每个数据集上的结果。
图 3:IMLE [24]、GLO [5]、GAN [25] 与我们的办法的合成结果比拟。第一排:MNIST。第二排:Fashion。第三排:CIFAR10。最后一排:CelebA64。IMLE 下面空缺的局部在 [24] 中没有给出。GAN 的结果来自 [25],对应于依据精度-召回率指标评价的 800 个生成模型中较好的一个。
图 4:在 CelebA-HQ 上以 256×256 的分辨率得到的插值实验结果。最左边和最右边的图像是依据随机噪声随机采样得到的。中间的插值图像很平滑而且视觉质量很高。
图 5:在 CelebA-HQ 上以 1024×1024 的分辨率得到的插值实验结果
图 6:GLANN 生成的 3D 椅子图像示例
讨论
损失函数:在这项研讨中,我们用一种感知损失(perceptual loss)替代了规范的对立损失函数。在理论中我们运用了 ImageNet 锻炼后的 VGG 特征。Zhang et al. [40] 声称自监视的感知损失的效果并不比 ImageNet 锻炼的特征差。因而,我们的办法很可能与自监视感知损失有类似的表现。
更高的分辨率:分辨率从 64×64 到 256×256 或 1024×1024 的增长是经过对损失函数停止简单修正而完成的:感知损失是在原始图像以及该图像的一个双线性下采样版本上同时计算的。提升到更高的分辨率只简单地需求更多下采样层级。研讨更复杂精密的感知损失或许还能进一步提升合成质量。
其它模态:我们这项研讨关注的重点是图像合成。我们置信我们的办法也能够扩展到很多其它模态,特别是 3D 和视频。我们的办法流程简单,对超参数稳健,这些优点使其可比 GAN 远远更简单地应用于其它模态。我们在 4.4 节给出了一些阐明这一点的证据。将来的一大研讨任务寻觅可用于 2D 图像之外的其它域的感知损失函数。
声明:文章搜集于网络,如有侵权,请联络小编及时处置,谢谢!
时间:2018-12-27 21:37 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
- [机器学习]让研究人员绞尽脑汁的Transformer位置编码
- [机器学习]加快PyTorch训练速度!掌握这17种方法,让你省时
- [机器学习]人工智能十年回顾:CNN、AlphaGo、GAN……它们曾这
- [机器学习]让研究人员绞尽脑汁的Transformer位置编码
- [机器学习]加快PyTorch训练速度!掌握这17种方法,让你省时
- [机器学习]人工智能十年回顾:CNN、AlphaGo、GAN……它们曾这
- [机器学习]吴恩达:2020 年,这些 AI 大事件让我无法忘怀.
- [机器学习]为什么说苹果M1芯片是颠覆性的
- [机器学习]为什么苹果非要用自己的芯片
- [机器学习]BERT为什么是NLP的革新者
相关推荐:
网友评论:
最新文章
热门文章