Progressive GAN:渐进式增长的生成对抗网络

概述

渐进式增长的生成对抗网络，可以提高质量、稳定性和变异性。

摘要

我们描述了一种新的生成对抗网络训练方法。关键思想是逐步增加生成器和鉴别器：从低分辨率开始，我们添加新层，随着训练的进行，对越来越精细的细节进行建模。这既加快了训练速度又极大地稳定了它，使我们能够生成前所未有质量的图像，例如 1024 ^{2的 CelebA 图像}. 我们还提出了一种简单的方法来增加生成图像的变化，并在无监督 CIFAR10 中取得了创纪录的 8.80 分。此外，我们描述了几个对于阻止生成器和鉴别器之间的不健康竞争很重要的实现细节。最后，我们提出了一个新的指标来评估 GAN 结果，包括图像质量和变化。作为额外的贡献，我们构建了 CelebA 数据集的更高质量版本。

版本

有两个不同版本的源代码。TensorFlow 版本更新更完善，如果您希望试验我们的技术、在此基础上构建或将其应用于新数据集，我们通常建议将其作为起点。另一方面，原始的Theano 版本是我们用来生成论文中显示的所有结果的版本。我们建议在——且仅当——您希望为基准数据集（如 CIFAR-10、MNIST-RGB 和 CelebA）重现我们的准确结果时使用它。

下表总结了主要差异：

系统要求

Linux 和 Windows 均受支持，但出于性能和兼容性原因，我们强烈建议使用 Linux。
带有 numpy 1.13.3 或更新版本的 64 位 Python 3.6 安装。我们推荐 Anaconda3。
- 一个或多个具有 16GB DRAM 的高端 NVIDIA Pascal 或 Volta GPU。我们推荐带有 8 个 Tesla V100 GPU 的 NVIDIA DGX-1。
- NVIDIA 驱动程序 391.25 或更新版本、CUDA 工具包 9.0 或更新版本、cuDNN 7.1.2 或更新版本。
- 中列出的其他 Python 包requirements-pip.txt
导入和使用预训练网络
[hidecontent type="logged" desc="隐藏内容：登录后可查看"]
在 Google Drive 上找到的所有预训练网络，以及训练脚本生成的网络，都存储为 Python PKL 文件。pickle只要满足两个条件，就可以使用标准机制导入它们：(1) 包含 Progressive GAN 代码存储库的目录必须包含在 PYTHONPATH 环境变量中，以及 (2)tf.Session()必须事先创建一个对象并将其设置为默认。每个 PKL 文件包含 3 个实例tfutil.Network：
```
# Import official CelebA-HQ networks.
with open('karras2018iclr-celebahq-1024x1024.pkl', 'rb') as file:
    G, D, Gs = pickle.load(file)
    # G = Instantaneous snapshot of the generator, mainly useful for resuming a previous training run.
    # D = Instantaneous snapshot of the discriminator, mainly useful for resuming a previous training run.
    # Gs = Long-term average of the generator, yielding higher-quality results than the instantaneous snapshot.
```
也可以导入使用 Theano 实现生成的网络，只要它们不使用 TensorFlow 版本本身不支持的任何功能（小批量歧视、批量归一化等）。但是，要启用 Theano 网络导入，您必须使用misc.load_pkl()代替pickle.load()
```
# Import Theano versions of the official CelebA-HQ networks.
import misc
G, D, Gs = misc.load_pkl('200-celebahq-1024x1024/network-final.pkl')
```
导入网络后，您可以调用Gs.run()为给定的潜在向量生成一组图像，或Gs.get_output_for()将生成器网络包含在更大的 TensorFlow 表达式中。有关详细信息，请参阅 Google Drive 上的示例脚本。指示：
1. 拉取 Progressive GAN 代码存储库并将其添加到您的 PYTHONPATH 环境变量中。
2. 安装所需的 Python 包pip install -r requirements-pip.txt
3. 下载import_example.py自networks/tensorflow-version/example_import_script
4. karras2018iclr-celebahq-1024x1024.pkl从中下载networks/tensorflow-version并将其放在与脚本相同的目录中。
5. 运行脚本python import_example.py
6. 如果一切顺利，脚本应该生成 10 张 PNG 图像 ( img0.png- img9.png)，它们与在中找到的图像networks/tensorflow-version/example_import_script完全匹配。
准备训练数据集

Progressive GAN 代码存储库包含一个命令行工具，用于重新创建我们在论文中使用的数据集的位精确副本。该工具还提供了各种用于操作数据集的实用程序：
```
usage: dataset_tool.py [-h] <command> ...

    display             Display images in dataset.
    extract             Extract images from dataset.
    compare             Compare two datasets.
    create_mnist        Create dataset for MNIST.
    create_mnistrgb     Create dataset for MNIST-RGB.
    create_cifar10      Create dataset for CIFAR-10.
    create_cifar100     Create dataset for CIFAR-100.
    create_svhn         Create dataset for SVHN.
    create_lsun         Create dataset for single LSUN category.
    create_celeba       Create dataset for CelebA.
    create_celebahq     Create dataset for CelebA-HQ.
    create_from_images  Create dataset from a directory full of images.
    create_from_hdf5    Create dataset from legacy HDF5 archive.

Type "dataset_tool.py <command> -h" for more information.
```
数据集由包含多种分辨率的相同图像数据的目录表示，以实现高效流式传输。每个分辨率都有一个单独的*.tfrecords文件，如果数据集包含标签，它们也会存储在一个单独的文件中：
```
> python dataset_tool.py create_cifar10 datasets/cifar10 ~/downloads/cifar10
> ls -la datasets/cifar10
drwxr-xr-x  2 user user         7 Feb 21 10:07 .
drwxrwxr-x 10 user user        62 Apr  3 15:10 ..
-rw-r--r--  1 user user   4900000 Feb 19 13:17 cifar10-r02.tfrecords
-rw-r--r--  1 user user  12350000 Feb 19 13:17 cifar10-r03.tfrecords
-rw-r--r--  1 user user  41150000 Feb 19 13:17 cifar10-r04.tfrecords
-rw-r--r--  1 user user 156350000 Feb 19 13:17 cifar10-r05.tfrecords
-rw-r--r--  1 user user   2000080 Feb 19 13:17 cifar10-rxx.labels
```
这些create_*命令将给定数据集的标准版本作为输入，并生成相应的*.tfrecords文件作为输出。此外，该create_celebahq命令需要一组数据文件来表示相对于原始 CelebA 数据集的增量。这些增量 (27.6GB) 可以从下载datasets/celeba-hq-deltas。

关于模块版本的注意事项：一些数据集命令需要特定版本的 Python 模块和系统库（例如 pillow、libjpeg），如果版本不匹配，它们将给出错误。请注意错误消息——除了安装这些特定版本之外，没有其他方法可以让命令工作。

培训网络

一旦设置了必要的数据集，您就可以继续训练您自己的网络。一般程序如下：
1. 编辑config.py以通过取消注释/编辑特定行来指定数据集和训练配置。
2. 使用运行训练脚本python train.py。
3. 结果被写入一个新创建的子目录下config.result_dir
4. 等待几天（或几周）让训练收敛，然后分析结果。
默认情况下，config.py配置为使用单 GPU 为 CelebA-HQ 训练 1024x1024 网络。即使在最高端的 NVIDIA GPU 上，这预计也需要大约两周的时间。实现更快训练的关键是使用多个 GPU 和/或使用较低分辨率的数据集。为此，config.py包含几个常用数据集的示例，以及一组用于多 GPU 训练的“配置预设”。预计所有预设都会为 CelebA-HQ 产生大致相同的图像质量，但它们的总训练时间可能会有很大差异：
- preset-v1-1gpu：用于生成论文中显示的 CelebA-HQ 和 LSUN 结果的原始配置。在 NVIDIA Tesla V100 上预计需要大约 1 个月的时间。
- preset-v2-1gpu：优化的配置比原来的配置收敛速度快得多。预计在 1xV100 上需要大约 2 周的时间。
- preset-v2-2gpus：针对 2 个 GPU 的优化配置。2xV100 大约需要 1 周。
- preset-v2-4gpus：针对 4 个 GPU 的优化配置。在 4xV100 上大约需要 3 天。
- preset-v2-8gpus：针对 8 个 GPU 的优化配置。在 8xV100 上大约需要 2 天。
作为参考，可以在以下位置找到 CelebA-HQ 的每个配置预设的预期输出networks/tensorflow-version/example_training_runs

其他值得注意的配置选项：
- fp16：启用FP16 混合精度训练以进一步减少训练时间。实际加速比在很大程度上取决于 GPU 架构和 cuDNN 版本，预计未来会大幅提升。
- BENCHMARK：快速迭代分辨率以测量原始训练性能。
- BENCHMARK0：与相同BENCHMARK，但仅使用最高分辨率。
- syn1024rgb: 仅包含黑色图像的合成 1024x1024 数据集。对基准测试很有用。
- VERBOSE：非常频繁地保存图像和网络快照，以方便调试。
- GRAPH和HIST：在 TensorBoard 报告中包含其他数据。
分析结果

可以通过多种方式分析训练结果：
- 手动检查：训练脚本定期将随机生成的图像快照保存在中，并在中fakes*.png报告整体进度log.txt。
- TensorBoard：训练脚本还将各种运行统计数据导出到一个*.tfevents文件中，该文件可以在 TensorBoard 中以tensorboard --logdir <result_subdir>.
- 生成图像和视频：在末尾config.py，有几个预定义的配置来启动实用程序脚本 ( generate_*)。例如：
  - 假设您有一个名为的正在进行的训练运行010-pgan-celebahq-preset-v1-1gpu-fp32，并且您想要为最新快照生成随机插值的视频。
  - 取消注释中的generate_interpolation_video行config.py，替换run_id=10并运行python train.py
  - 该脚本将自动定位最新的网络快照并创建一个包含单个 MP4 文件的新结果目录。
- 质量指标：与前面的示例类似，config.py还包含预定义的配置来计算现有训练运行的各种质量指标（切片 Wasserstein 距离、Fréchet 起始距离等）。为每个网络快照连续计算指标，并将其存储在metric-*.txt原始结果目录中。
[/hidecontent]

概述

摘要

版本

系统要求

导入和使用预训练网络

准备训练数据集

培训网络

分析结果