GAN ─敵対的生成ネットワーク─の発展

(1)

1．は　じ　め　に

Generative Adversarial Network（GAN：敵対的生成ネットワーク）とは，2014 年に Goodfellow らによって提唱されたニューラルネットワーク（Neural Network，以下 NN）の教師なし学習の手法である [Goodfellow 14]．GAN，特にその畳込みニューラルネットワーク（Convolutional Neural Network，以下 CNN）による拡張である DCGAN はこれまで困難であった自然で鮮明な画像の生成を可能とし，白黒写真のカラー化や，手書きスケッチの自然画像への変換，さらには画像の状況解析など，従来の生成の枠組みを超えた，新しい技術として確立されつつある．本稿では，GAN の登場によって実現されたさまざまな技術革新の潮流を関連技術なども交えつつ，なるべく平易な表現で紹介する．

2．GAN の始まり

深層学習の劇的な成功 [Krizhevsky 12] から，人工知能における「見る」ということの意味付けが大きく変わり，その立役者たる CNN は，その出自である画像の認識のみならず，音声をはじめとしたより多様なデータの識別にも急速に普及していった．これに伴い，このような「自然な」データの認識，すなわちある種の理解を可能にした深層学習は，同様に「自然な」データを生成するモデルも可能にし得る，との期待も高まってきた．しかしながら CNN は，線形結合とシグモイド関数といった逆変換が可能な要素のみで構成されていた従来の NN と異なり，Max Pooling や Rectiﬁed Linear Unit（ReLU）と呼ばれる逆変換が不可能な要素を多数含んでいる．そのため，乱暴に言えば学習後に逆向きに流しさえすれば簡単に生成モデルになり得た従来の NN と異なり，CNN の生成モデルは容易には構成できず，結果としてその革新的な性能を生成モデルになかなか生かせずにいた．これを突如として全く新しい手法で解決したのが GAN と呼ばれる，二つの NN の組によって構成される学習システムであった [Goodfellow 14]．二つの NN の一方は生成器（generator），もう一方は識別器（discriminator）と呼ばれ，敵対的生成ネットワークの名のとおり，この二つのネットワークが戦いあうことで学習する（図 1）．一般的に NN はネットワークの学習のために，何らかのデータを伝播させ，それに対する識別結果で学習する．これに対して GAN では，生成器にノイズを入力して生成されたデータ（Fake 画像）と，学習対象の真のデータ（Real 画像）との二つを用意し，その二つを識別器にそれぞれがどちらであるか判定させることで学習する．もし生成器が生成する Fake 画像が，十分に Real 画像に近い場合，識別器は正しく判別できず，識別ができるように学習を進める．すると今度は識別器の性能が上がり，生成器はより Real に近い画像が生成できるように学習する．このように生成器と識別器とが，敵対的（Adversarial）な関係のもとでともに学習を進めていく仕組みが敵対的学習の名の由来であり，これによって最終的にはノイズを入力するだけで，Real 画像と区別がつかないような多様な Fake 画像を生成させることが可能となるわけである． GANは，その初期においては必ずしも CNN を仮定したものではなく，従来型の NN によってまずそのコンセプトの有効性が実証された．図 2 上段は従来型 NN によって実現された GAN による顔画像の生成結果で，生成された左の五つの顔画像はややシャープさに欠けるも

GAN ─敵対的生成ネットワーク─の発展

Recent Progress of GAN ─ Generative Adversarial Network ─

篠崎　隆志

情報通信研究機構脳情報通信融合研究センター

Takashi Shinozaki Center for Information and Neural Networks, National Institute of Information and Communications Technology. [email protected]

Keywords:

GAN, generative model, deep learning, deep neural network. 「深層学習周辺の最新動向」

図 1 GAN の概念図．

(2)

のの，一番右の Real 画像と遜色ない画像品質を実現している [Goodfellow 14]．一方で，同論文では CNN への適用も試みられているものの，必ずしも成功しているとは言い難く，図 2 下段の左の五つの画像は，一番右のような動物と判別可能な画像を生成できていない．しかし深層学習の圧倒的な進歩のスピードは，この最新の GAN の技術もまたたく間に完全に取り込み，その発表の翌年には CNN を統合した革新的な結果が発表された．[Radford 15] では，畳込みの逆関数として俗に逆畳込み（deconvolution，より正しくは up-convolution）と呼ばれるものを用い，さらに最新の正則化手法である Batch Normalization [Ioffe 15] や，逆関数の特性が ReLU よりは穏やかである Leaky ReLU と呼ばれるものを利用することによって生成器を構成，CNN による GAN である Deep Convolutional GAN（以下， DCGAN）を実現した．その生成結果は極めて画期的で，従来の手法とは一線を画すエッジの立ったボケの少ない（俗に crispy と表現される）明瞭なものであった．図 3 は生成された寝室の画像の例で，いずれも非常に crispyであるとともに，生成器への入力の違いによってバラエティーに富んだ画像が生成されていることが見て取れる．さらに DCGAN による生成は，その入力のベクトル空間的な性質が極めて良いことが明らかとなり，値の近い入力同士が似た画像を生成するのは当然として，二つの入力の間の値によって生成される画像は二つの画像の意味的な中間となっており，word2vec[Mikolov 13] におけるベクトル加算のようなことも可能であることが判明した（図 4）．このことは入力を適切に調整することにより，ピクセルレベルではなく，より高次な特徴のレベル（例えば表情や髪型など）で生成される画像をコントロールすることが可能であることを意味している．これによって GAN は近未来の先進的な画像処理技術の急先鋒と認識され，その研究は産学を問わず世界的にまさに爆発と呼ぶべき勢いで推進されることになった．図 5 は GAN に関する論文総数の時間的な推移を示しており，まさに指数関数的に研究が増加していることが見て取れる [TheGanZoo]．この爆発的な研究の推進により，DCGAN の技術はまたたく間に多方面に発展した．図 6 は 3D 畳込みを用いた DCGAN によって生成された動画の例で，上段が海岸での，下段がゴルフ場での風景となっている [Vondrick 16]．どちらの動画も時間方向に連続したフレームでつじつまの合った画像が生成されている（赤い矢印は特に注目すべき点）．図 2 最初の GAN による生成画像． [Goodfellow 14]より抜粋図 6 DCGAN による動画像生成結果． [Vondrick 16]より抜粋図 4 DCGAN の入力ベクトルの加算による画像の意味的な加算の結果． [Radford 15]より抜粋図 5 GAN 論文総数の推移． [TheGanZoo]より抜粋図 3 DCGAN による部屋画像の生成結果． [Radford 15]より抜粋

(3)

さらに発展した DCGAN は，これまでブラックボックスといわれていた CNN の内部の可視化をも可能にした．図 7 は DCGAN によって可視化された，CNN の内部状態の自然画像による表現で，驚くべきことに可視化対象の CNN は生成のためのネットワークと異なるネットワーク（例えば可視化対象は GoogleNet [Szegedy 15] で生成は AlexNet [Krizhevsky 12] など）であっても問題なく可能である [Nguyen 16a]．さらにこの技術を応用し，異なる二つ以上の内部状態を足し合わせ，それを可視化することによって，意味的な足し算がなされた画像の生成も可能となった．図 8 は，図 7 で生成されたものと同じ対象に，火を灯したろうそくの内部状態を足し合わせたうえで可視化したものであり，その結果それぞれの対象に火を灯した状態の画像を生成することに成功している．この技術はさらに改良され，より多様な出力を安定して生成可能な Plug and Play Generative Network（PPGN）と呼ばれるネットワークとして発表されている [Nguyen 16b]．

3．生成のコントロール

このように非常に強力な GAN ではあるが，その学習は教師なし学習によって行われるため，入力のベクトル空間の形状を自由にデザインできないという問題が存在した．言い換えると，例えば「鳥」のような特定のラベルに対応する入力ベクトルを獲得するには，ただひたすら探索するしかなく，これは「羽の色」，「嘴の長さ」など，ラベルが増えるほどに深刻化し，結果として目的とする画像の生成を困難にしていた．これに対して当初は，GAN の生成器の学習に並行して，その逆変換を Variable AutoEncoder（以下，VAE） [Kingma 13]と呼ばれる手法で学習し，VAE を介することで目的の対象に対応する入力ベクトルを生成させる VAEGANという手法が用いられていた [Larsen 15]．しかしながらこの手法は VAE の精度が必ずしも十分でないとともに，複数のネットワークが介在するという煩わしさから改善が求められていた．これを解決するためにさまざまな試行錯誤が行われたが，その答えは，他の深層学習のさまざまな要素と同じく極めてシンプルなものとなった．それは GAN の学習にあたって，ノイズなどと同時にラベル情報も入力してやる，というものである．この手法は Conditional GAN [Mirza 14] と呼ばれ，図 9 のように，生成器（Generator）ではノイズ入力と同時にラベル入力を入力する．識別器（Discriminator）では， Real画像もしくは生成器の出力である Fake 画像とラベル入力を同時に入力する．「ラベル」，すなわち「対応付ける対象」をノイズと同時に入力するだけで，GAN の学習における対応付けが可能であるという知見がひとたび広まると，その「対応付ける対象」の拡大に関する研究がたちまちのうちに進められた．その結果，通常「ラベル」を表すのに用いられる one-hot ベクトルだけではなく，任意のベクトルでも対応付け可能であることが明らかになってきた．これはつまり埋込み（Embedding）ベクトルを用いることも可能であることを意味する．近年最も成功した埋込みの一つが word2vec であることは論をもたないであろう．であれば，GAN への埋込みに word2vec，すなわち言語を用い，これによって画像を生成させるというのは自然の成り行きである． [Reed 16a, Reed 16b]ではまさにこれに成功し，図 10 のように言語ベクトルを 128 次元に圧縮した後，生成器および識別器に入力し，これによって言語による GAN の対応付け学習を実現している．GAN によって生成されるものは画像であることから，言語による対応付けとはすなわち，文章から画像への変換を意味する．すなわちこれは，深層学習による画像の自動キャプション付け図 7 GAN による CNN の可視化の結果． [Nguyen 16a]より抜粋図 8 GAN による CNN の意味の合成の結果． [Nguyen 16a]より抜粋図 9 条件付き GAN の概念図．画像は [Liu 15] および [Radford 15] より

(4)

[Vinyals 15]の逆変換を GAN によって実現したものであるといえる．図 11 に生成された画像の例を示す．生成された画像はいずれも，生成に用いられた文章に対応した特徴をおおまかに備えていることが見て取れる．ところで図 10 では，言語の埋込みは入力後すぐにその次元を圧縮されていたが，ネットワークへの最初の入力は言語ベクトルとなっており，生成器と識別器のネットワークの内部で圧縮処理を行ったと考えることもできる．これを発展させていくと，関連付けのための入力は小さいものである必要もなく，もっと大きなもの，例えば画像そのもの，でも可能であると考えられる．この場合，画像の関連付けで画像が生成されることになり，これはすなわち画像から画像への変換となる．この画像から画像への変換を汎用性の高い形で実現した GAN が pix2pixである [Isola 16]． pix2pixは極めて強力な手法で，画像から画像への変換に関係する多種多様な処理を，ほぼ同一のネットワークでこなしてしまう．図 12 に pix2pix によって実現されるさまざまな処理の例を示す．左上から時計回りに，運転シーンのラベル（車，道路，建物など）画像から対応する自然画像の生成，その変形である建物の部分のラベル（窓，壁，入口など）から建物の自然画像の生成，白黒画像からカラー画像の生成，エッジ画像から自然画像の生成，昼の自然画像から夜の自然画像の生成，最後の左下は航空画像から要約地図（ある種のラベル画像）の生成となっている．このように pix2pix の適用範囲は多岐にわたり，これらすべてが同一のシステムによって実現されていることはまさに驚異的であるといえる．このような多彩な処理を実現する pix2pix ではあるが，その学習の仕組みはシンプルである．図 13 に pix2pix の学習の仕組みを示す．他の GAN と同様に，pix2pix も生成器と識別器の対によって構成される．ここで地図の画像が条件付け GAN の入力となっており，生成器と識別器の双方に入力される．Real 画像については入力画像として航空写真が，埋込みベクトルとともに識別器に入力される．Fake 画像については埋込みベクトルを生成器に入力することによって生成された画像として，やはり埋込みベクトルとともに識別器に入力される．これは一歩下がって見ると，Real の場合は Real 画像と関連付け画像のペアを Fake の場合は Fake 画像と関連付け画像のペアを，入力していることとなり，識別器は入力されたペア画像の組合せが Real か Fake かを判定しているということになり，これによって GAN の学習が行われる．ここで重要なのは，ノイズ入力が生成器の入力に存在しないことである．GAN におけるノイズ入力には，生図 10 文章から画像を生成するための GAN のモデル． [Reed 16b]をもとに著者が作成図 12 pix2pix によって実現されるさまざまな処理の例． [Isola 16]より抜粋図 11 GAN による文章から画像の生成例． [Reed 16b]より抜粋

(5)

成される画像への多様性の付加と，生成における対応付けの起点という二つの役割を担っていると考えられている．このうち後者については，条件付き GAN の場合，埋込みベクトルとしてすでに与えられていると考えられる．そして前者の画像の多様性の付加については生成器のネットワーク結合に存在する Dropout のみを用い，明確なノイズ入力を必要としないものとなっている．このようにノイズ入力部分が省かれた生成器は，関連付け画像を入力し，それを次元圧縮したうえで，それをもとに画像を生成するという，従来のオートエンコーダのような砂時計型の構造をもつことになる．前述のように，CNN は旧来の NN と異なり逆変換が成立しないため，オートエンコーダのようなモデルは困難であった．しかしながらこのようなネットワーク構造は，応用範囲の広い画像解析の一つであるセグメンテーションにおいて重要であることから，GAN とは独立して独自の進化を遂げてきた．図 14 は SegNet と呼ばれる深層学習を用いた画像セグメンテーションの例を示しており，左が自動運転などに用いられる運転シーンの画像セグメンテーションで，右が室内の家具に対するものである [Badrinarayanan 15]．このような解析を CNN を用いて行う場合，入力側の順方向の CNN での層を経るに従って空間情報が削減されていくため，出力側の逆方向の CNNで空間情報が不足するという問題が発生する．これを解決するために，近年のモデルでは U-Net と呼ばれる順方向への入力を対応する逆方向の層にも入力し，これによって空間情報を補うという手法が用いられている（図 15）[Ronneberger 15]．pix2pix においても図 13 左上の次元圧縮における順方向 CNN と，生成器における逆方向 CNN のペアに U-Net を用いており，これによって関連付け画像の空間構造を精密に再現した生成画像を実現している．さらに pix2pix ではもう一つの工夫として識別器における判定に PatchGAN と呼ばれるものを用いている．これは Real か Fake かの判定を，画像全体にしてではなく，部分画像である patch 単位で行うものである．pix2pix での出力の目的はあくまで画像の変換であるため，画像全体として Real か Fake かは必要とされず，むしろ部分ごとの対応付けの度合いが重要となっている．PatchGAN で識別を部分ごとに行うことによって，生成画像の Real 化を画像全体で一括してではなく，部分ごとに進めることが可能となる．一般的に GAN は学習が不安定で，この傾向は画像サイズが大きくなるほど顕著であることが知られているが，PatchGAN のような仕組みを用いることで，入力画像のサイズは大きいままで学習上の画像サイズを抑え，その安定性を改善しているといえる．

4．さらなる進歩

このように pix2pix の登場によって GAN は従来の画像処理とは一線を画する，まさに人工知能と呼べる高次の手法としての地位を確立し，その技術はまたたく間に発展していった．[Taigman 16] においては，写真と絵文字とを関連付けることによって，顔画像のイラストへの変換を実現している（図 16）．また [zi2zi] では，フォントの種類ごとの関連付けを用意することによって，任意の文字の任意のフォント形式への変換を実現している（図 17）．自然画像どうしの変換については，[Liu 17] が図 18 のように，晴れから雨，夜から昼，雪から晴などさまざまな変換において，現実と見まごうようなリアルな画像への安定した変換を実現しており，自動運転システムの学習におけるデータ拡充（Augmentation）の手図 13 pix2pix の学習の仕組み． [Isola 16]をもとに著者が作成図 14 SegNet による画像セグメンテーションの例． [Badrinarayanan 15]より抜粋図 15 U-Net と呼ばれるネットワーク構造のモデル． [Ronneberger15]より抜粋

(6)

法としても注目されつつある．少し変わったところとしては，GAN を用いた超解像があり，[Ledig 16] では高解像度の画像と，それをダウンサンプリングした低解像度の画像を関連付けることによって，4 倍に拡大した後も Cripsy さを維持できるような変換に成功している（図 19）．ここで面白いのは，SRGAN によって生成された画像（図 19 中）は，オリジナルの高解像度画像（図 19 右）とほぼ遜色ない解像感をもっているものの，例えば帽子の額部分の飾りの構造などは厳密には再現されておらず，あくまで Real な一般画像っぽく生成するという GANの特性が見て取れる．この GAN による超解像は実は極めて重要で，従来 GANはさまざまな画像を生成できるものの最終的な生成画像の解像度が低いという問題を抱えていたが，それぞれの GAN に超解像の GAN を組み合わせることによって高い解像度での画像の生成が可能となる．このような手法はいわば GAN を積み重ねる状態になることから StackGAN と名付けられ，[Zhang 17] では，まず最初に低い解像で生成したのち（図 20 上段），それに超解像を適用することによって質の高い画像の生成に成功している（図 20 中段）．これに対して同様の解像度の生成を一度に行った場合は学習が安定せず自然な画像を生成することができない（図 20 下段）． StackGANの技術は近年さらなる改良が加えられ，複数の超解像を介し，画像のキャプション付け [Xu 15] などで開発された視覚的注意のメカニズムを取り込むことによって，文章から極めて自然な画像を生成することに成功している．図 21 の上段左は，第 1 段階目の GAN の出力結果で，1 段階目の超解像である程度の解像感を増したのち（図 21 上段中），2 段階目の超解像を経ることによってより精密な描写が完成する（図 21 上段右）．図 16 顔写真からイラストへの変換の例． [Taigman 16]より抜粋図 19　GAN による超解像の例． [Ledig 16]より抜粋図 18　シーン変換の例．上段より，晴から雨，夜から昼，雪から晴，への各変換．[Liu 17] より抜粋図 20　StackGAN の段階ごとの生成画像と通常の GAN との比較． [Zhang 17]より抜粋図 17 実際のフォント（左）と zi2zi による生成（右）との比較． [zi2zi]より抜粋

(7)

図 21 の中段およびに下段は入力された単語が視覚的注意としてどの部分の画像の生成に寄与しているかを示しており，それぞれの単語が適切な場所に働いていることが見て取れる．さらに高い解像度の画像の生成については，3 段以上の多数の超解像を用いる研究も行われつつあり，[Karras 17] では超解像の処理の回数を段階的に増やしながら学習を進めることによって，1 024×1 024 ピクセルというフル HD レベルの解像度での生成に成功し，もはや現実の画像と区別がつかないほどの高いレベルに到達しつつある（図 22）．

5．ま　　と　　め

本稿では GAN について，その基本メカニズムや周辺技術を交えつつ，その発展の過程をひととおり紹介した．今回紹介した技術は，けっして遠い未来や特別な機械だけの技術ではなく，一般的なコンピュータで使える技術として今まさに実装が進められつつあり，近い将来，当たり前の画像処理として，例えば携帯電話からでも，使えるようになることが期待される． GANは誕生して間もない技術にもかかわらず，その実応用のしやすさから近年の人工知能の代表技術の一つとして爆発的な発展を遂げてきた．この発展は数多くのシンプルな工夫の積み重ねによって行われており，正しく工学的な手法によって発展しているともいえる．近年では，深層学習のオープンなフレームワークが多数登場し，研究者はそれらの組合せによって新しい機能の実装を行っている．例えば図 20 の StackGAN[Zhang 17] では，言語処理の NN，初期の生成のための GAN，超解像のための GAN が組み合わされており，個々の GAN は生成器と識別器の二つの NN をもつため，合計で五つもの NN，しかもそのすべてがディープな NN が組み合わされていることとなる．このような巨大なネットワークの学習はほんの 10 年前には全く想像もできなかったレベルであるにもかかわらず，NN というものの部品化が正しくなされてきたおかげで，当たり前のように学習を行うことができている．深層学習以前の NN の研究では，比較的小さなネットワークで，その規模を変えずに性能が上がるような新しい手法を見つけ出していく，というミクロなスケールにおけるものが中心であった．これに対して近年の深層学習，特に GAN の研究は，多数のネットワークを組み合わせ，それらの学習をコントロールする損失関数を目的に応じて適切に組み合わせていく，マクロなスケールなものであるといえる．例えば損失関数のバランスをとる BEGAN と呼ばれる手法 [Berthelot 17] では，単一の NNでしか行われてこなかった旧来の研究では想像もできなかったものである．著名な深層学習の研究者である Karpathyは未来のソフトウェア開発では，コードをコンピュータの言語で直接記述するようなものから，目的とする機能を有する NN を記述するものに置き換わっていくという Software2.0 [Karpathy 17] という考えを提唱しているが，GAN におけるミクロからマクロへの流れはまさにこれを対応しているともいえる．このように現在の人工知能の研究は，その在り方のパラダイムシフトをまさに起こしつつある状況である．このような大転換時代の人工知能の研究に本稿が一助となれば幸いである．

◇　参　考　文　献　◇

[Badrinarayanan 15] Badrinarayanan, V., Kendall, A. and Cipolla, R.: Segnet: A deep convolutional encoder-decoder architecture for image segmentation, arXiv preprint arXiv:1511.00561（2015）

[Berthelot 17] Berthelot, D., Schumm, T. and Metz, L.: Began: Boundary equilibrium generative adversarial networks, arXiv preprint arXiv:1703.10717（2017）

[Goodfellow 14] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A. and Bengio, Y.: Generative adversarial nets, Advances in Neural Information 図 21 AttnGAN の生成例（上段）と，その注意の推移（下段）．

[Xu 17]より抜粋

図 22 1 024 × 1 024 ピクセルで生成された顔画像の例． [Karras 17]より抜粋

(8)

Processing Systems, pp. 2672-2680（2014）

[Ioffe 15] Ioffe, S. and Szegedy, C.: Batch normalization: Accelerating deep network training by reducing internal covariate shift, Int. Conf. on Machine Learning, pp. 448-456 （2015）

[Isola 16] Isola, P., Zhu, J.-Y., Zhou, T. and Efros, A. A.: Image-to-image translation with conditional adversarial networks, arXiv preprint arXiv:1611.07004（2016）

[Karpathy 17] Karpathy, A.: Software 2.0（2017），https:// medium.com/@karpathy/software-2-0-a64152b37c35, access 2018

[Karras 17] Karras, T., Aila, T., Laine, S. and Lehtinen, J.: Progressive growing of gans for improved quality, stability, and variation, arXiv preprint arXiv:1710.10196（2017） [Kingma 13] Kingma, D. P. and Welling, M.: Auto-encoding

variational Bayes, arXiv preprint arXiv:1312.6114（2013） [Krizhevsky 12] Krizhevsky, A., Sutskever, I. and Hinton, G.

E.: Imagenet classification with deep convolutional neural networks, Advances in Neural Information Processing

Systems, pp. 1097-1105（2012）

[Larsen 15] Larsen, A. B. L., Sønderby, S. K., Larochelle, H. and Winther, O.: Autoencoding beyond pixels using a learned similarity metric, arXiv preprint arXiv:1512.09300（2015） [Ledig 16] Ledig, C., Theis, L., Huszár, F., Caballero, J.,

Cunningham, A., Acosta, A., Aitken, A., Tejani, A., Totz, J. and Wang, Z., et al.: Photo-realistic single image super-resolution using a generative adversarial network, arXiv preprint arXiv:1609.04802（2016）

[Liu 15] Liu, Z., Luo, P.,Wang, X. and Tang, X.: Deep Learning face attributes in the wild, Proc. Int. Conf. on Computer Vision （ICCV）（2015）

[Liu 17] Liu, M.-Y., Breuel, T. and Kautz, J.: Unsupervised imageto- image translation networks, arXiv preprint arXiv:1703.00848（2017）

[Mikolov 13] Mikolov, T., Chen, K., Corrado, G. and Dean, J.: Efﬁcient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781（2013）

[Mirza 14] Mirza, M. and Osindero, S.: Conditional generative adversarial nets, arXiv preprint arXiv:1411.1784（2014） [Nguyen 16a] Nguyen, A., Dosovitskiy, A., Yosinski, J., Brox, T.

and Clune, J.: Synthesizing the preferred inputs for neurons in neural networks via deep generator networks, Advances in

Neural Information Processing Systems, pp. 3387-3395（2016） [Nguyen 16b] Nguyen, A., Yosinski, J., Bengio, Y., Dosovitskiy, A. and Clune, J.: Plug & play generative networks: Conditional iterative generation of images in latent space, arXiv preprint arXiv:1612.00005（2016）

[Radford 15] Radford, A., Metz, L. and Chintala, S.: Unsupervised representation learning with deep convolutional generative adversarial networks, arXiv preprint arXiv:1511.06434（2015） [Reed 16a] Reed, S. E., Akata, Z., Mohan, S., Tenka, S., Schiele, B.

and Lee, H.: Learning what and where to draw, Advances in

Neural Information Processing Systems, pp. 217-225（2016） [Reed 16b] Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele,

B. and Lee, H.: Generative adversarial text to image synthesis, arXiv preprint arXiv:1605.05396（2016）

[Ronneberger 15] Ronneberger, O., Fischer, P. and Brox, T.: U-net: Convolutional networks for biomedical image segmentation,

Int. Conf. on Medical Image Computing and Computer- Assisted Intervention, pp. 234-241, Springer（2015）

[Szegedy 15] Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V. and Rabinovich, A.: Going deeper with convolutions, Proc. IEEE Conf. on Computer

Vision and Pattern Recognition, pp. 1-9（2015）

[Taigman 16] Taigman, Y., Polyak, A. and Wolf, L.: Unsupervised cross-domain image generation, arXiv preprint arXiv: 1611.02200（2016）

[TheGanZoo] The GAN Zoo, https://github.com/ hindupuravinash/the-gan-zoo, access 2018

[Vinyals 15] Vinyals, O., Toshev, A., Bengio, S. and Erhan, D.: Show and tell: A neural image caption generator, Proc. IEEE

Conf. on Computer Vision and Pattern Recognition, pp.

3156-3164（2015）

[Vondrick 16] Vondrick, C., Pirsiavash, H. and Torralba, A.: Generating videos with scene dynamics, Advances in Neural

Information Processing Systems, pp. 613-621（2016）

[Xu 15] Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., Zemel, R. and Bengio, Y.: Show, attend and tell: Neural image caption generation with visual attention,

Int. Conf. on Machine Learning, pp. 2048-2057（2015） [Xu 17] Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z.,

Huang, X. and He, X.: AttnGAN: Fine-grained text to image generation with attentional generative adversarial networks, arXiv preprint arXiv:1711.10485（2017）

[Zhang 17] Zhang, H., Xu, T., Li, H., Zhang, S., Huang, X.,Wang, X. and Metaxas, D.: Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks, IEEE

Int. Conf. Comput. Vision（ICCV），pp. 5907-5915（2017） [zi2zi] zi2zi: Master chinese calligraphy with conditional

adversarial networks, https://github.com/kaonashi-tyc/zi2zi, access 2018 2018年 1 月 28 日受理

著　者　紹　介

篠崎　隆志（正会員） 2000年東京理科大学理学部応用物理学科卒業． 2006年東京大学大学院新領域創成科学研究科博士課程修了．博士（科学）．理化学研究所基礎科学特別研究員，ニューヨーク大学研究員などを経て，現在，情報通信研究機構脳情報通信融合研究センター研究員．計算論的神経科学や深層学習の基礎および応用についての研究に従事．大阪大学招へい教員（2012 年度∼）日本神経回路学会，北米神経科学会各会員．

GAN ─敵対的生成ネットワーク─の発展

1．は じ め に

2．GAN の 始 ま り

GAN ─敵対的生成ネットワーク─の発展

Recent Progress of GAN ─ Generative Adversarial Network ─

篠崎 隆志

Keywords:

3．生成のコントロール

4．さ ら な る 進 歩

5．ま と め

◇ 参 考 文 献 ◇

著 者 紹 介

1．は　じ　め　に

2．GAN の始まり

篠崎　隆志

4．さらなる進歩

5．ま　　と　　め

◇　参　考　文　献　◇

著　者　紹　介