Pix2Pix Image to Image Translation - けの〜のブログ

画像変換などのタスクではどのようなものを損失関数とするかが大きな課題であった。

"現実のものと見分けがつかないような画像を作る"

という目標を達成してくれるのが

GAN(generative adversarial network)であった。

Pix2Pixのこの論文では

GANのモデルがデータを作り出すモデルを学習するように、conditional GAN がconditionalなgenerative modelを学習する。

Conditional GANは image to image transitionの問題に対しての良いアプローチのように思われる

ある入力に対して、ある出力を返すように設定する。

Pix2Pixの論文では

様々な種類の問題において、Conditional GANが良い結果を出したこと、

良い結果を出すためのフレームワークを提示したことが意義のあることだとしている。

これまでの先行研究ではpixelごとに分類や回帰していたがこれにより構造的な関係が考慮されていなかった。

Conditinal GANは構造的な関係も学習する。

これまでのConditional GANと異なりPix2Pixは様々なタスクに対応できる。

またGeneratorに"U-net" の構造を用いて

DiscriminatorにPatchGANを用いている。

Conditional GANは image xとノイズzからoutput yを作り出す

U-netとはbottle netを通さずにoutputへ通すもの

Patch GANはある領域ごとにDiscriminatorを舐めて行き、平均をとるというもの。

少ない数のパラメーターで行える。

元の論文

[1611.07004] Image-to-Image Translation with Conditional Adversarial Networks