GANについて　DCGAN,CycleGAN - けの〜のブログ

ネット上で参考にした情報のまとめ

ネット上で参考にした記事を備忘録的に記録しました

https://elix-tech.github.io/ja/2017/02/06/gan.html

http://tech-blog.abeja.asia/entry/everyday_gan

GAN(Generative Adversarial Net)について

概要

訓練データを学習しそれらのデータと似たような新しいデータを育成するモデルのことを生成モデルと呼びます。別の言い方をすると、訓練データの分布と生成データの分布が一致するように学習していくようなモデルです。GANはこのような生成モデルの一種です。

通常、モデルが持つパラメータ数に対して訓練データの量が圧倒的に大きいため、モデルは重要な特徴を捉えることを求められます。

GAN以外にもVAE(Variational Autoencoder)などあります。GANは学習が不安定だが他の手法に比べてくっきりとした画像が生成される傾向があるようだ。

GANの仕組み

GANではGeneratorとDiscriminatorという二つのネットワークが存在する。

Generatorは訓練データと同じようなデータを生成しようとします。一方、discriminatorはデータが訓練データから来たものか、それとも生成モデルから来たものかを識別します。

紙幣の偽造者と警察の関係のように、お互いが偽札を作るため、偽札を見破るために技量を上げていく、という例え話がよくされるらしい。

Discriminatorが、与えられたデータが訓練データなのか生成データなのか見分けられなくなルような状態ではDiscriminatorの正答率は50%になるようだ。

GANのObjectiveについて

具体的にどのように学習を行うか。

ガッキーの画像について考えていきたいと思う。

xというのがガッキーの画像データ（Discriminatorが訓練データと判定しなければいけないデータ)で、xはある確率分布P data(x)に従っているとする。

zはノイズを表す、このzは何らかの事前に決めた分布　Pzに従う要素。

Generatorはzを入力として、偽物を作り出す。

DiscriminatorはD(x)=1

GeneratorはD(G(z))=1

またDiscriminatorはD(G(z))=0

を出力するように学習する。

学習時はDiscriminatorとGeneratorを交互に更新していく。

Discriminatorがうまく分類できるようになるとD(x)は大きくなり、また偽物だとバレてD(G(z))は小さくなる。

逆にGeneratorがうまく偽物を作れるようになるとD(G(z))は大きくなる。

この学習で良い偽物を作れる理由を述べたいと思います。以下 $p_{z}$ と $G (z)$ から誘導される確率分布 $p_{g} (x)$ と書くことにすると、良い偽物が作れるようになる理由は、この最適化問題の global optimum が $p_{g} (x)$ と $p_{d a t a} (x)$ が一致する時だからです。以下でそれを確認します。

まず、 $G$ を固定した際、最良の $D_{G}$ は以下のように計算できます。 objective $L$ が
$\begin{aligned} L (G, D) & = \int p_{d a t a} (x) \log (D (x)) d x + \int p_{z} (z) \log (1 - D (G (z))) d z \\ = \int p_{d a t a} (x) \log (D (x)) + p_{g} (x) \log (1 - D (x)) d x \end{aligned}$
と書き直せますが、 $f (x) = a \log (x) + b \log (1 - x)$ の最大値は $x = a / (a + b)$ で取るから
$\begin{aligned} D_{G} = \frac{p_{d a t a}}{p_{d a t a} + p_{g}} \end{aligned}$
となります。これを用いてちょっと計算すると
$\begin{aligned} max_{D} L (G, D) & = E_{x \sim p_{d a t a}} [\log (\frac{p_{d a t a}}{p_{d a t a} + p_{g}})] + E_{x \sim p_{g}} [\log (\frac{p_{g}}{p_{d a t a} + p_{g}})] \\ = - \log (4) + 2 J S (p_{d a t a} | | p_{g}) . \end{aligned}$
ここで JS は Jensen-Shannon divergence。JS は $p_{d a t a} = p_{g}$ となる際に最小値を取るので、上式はこの時に最小となります。

以上をまとめれば、objective $L$ を min max 最適化をしていけば、確率分布が一致するという意味で $G$ は対象の data を良く模倣できるようになる、というのが理論的な根拠となります。