• 検索結果がありません。

GAN ─敵対的生成ネットワーク─の発展

N/A
N/A
Protected

Academic year: 2021

シェア "GAN ─敵対的生成ネットワーク─の発展"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

1.は じ め に

Generative Adversarial Network(GAN:敵対的生成 ネットワーク)とは,2014 年に Goodfellow らによって 提唱されたニューラルネットワーク(Neural Network, 以下 NN)の教師なし学習の手法である [Goodfellow 14].GAN,特にその畳込みニューラルネットワーク (Convolutional Neural Network,以下 CNN)による拡 張である DCGAN はこれまで困難であった自然で鮮明 な画像の生成を可能とし,白黒写真のカラー化や,手書 きスケッチの自然画像への変換,さらには画像の状況解 析など,従来の生成の枠組みを超えた,新しい技術とし て確立されつつある.本稿では,GAN の登場によって 実現されたさまざまな技術革新の潮流を関連技術なども 交えつつ,なるべく平易な表現で紹介する.

2.GAN の 始 ま り

深層学習の劇的な成功 [Krizhevsky 12] から,人工知 能における「見る」ということの意味付けが大きく変わ り,その立役者たる CNN は,その出自である画像の認 識のみならず,音声をはじめとしたより多様なデータの 識別にも急速に普及していった.これに伴い,このよう な「自然な」データの認識,すなわちある種の理解を可 能にした深層学習は,同様に「自然な」データを生成す るモデルも可能にし得る,との期待も高まってきた.し かしながら CNN は,線形結合とシグモイド関数といっ た逆変換が可能な要素のみで構成されていた従来の NN と異なり,Max Pooling や Rectified Linear Unit(ReLU) と呼ばれる逆変換が不可能な要素を多数含んでいる.そ のため,乱暴に言えば学習後に逆向きに流しさえすれば 簡単に生成モデルになり得た従来の NN と異なり,CNN の生成モデルは容易には構成できず,結果としてその革 新的な性能を生成モデルになかなか生かせずにいた. これを突如として全く新しい手法で解決したのが GAN と呼ばれる,二つの NN の組によって構成される学習シ ステムであった [Goodfellow 14].二つの NN の一方は 生成器(generator),もう一方は識別器(discriminator) と呼ばれ,敵対的生成ネットワークの名のとおり,この 二つのネットワークが戦いあうことで学習する(図 1). 一般的に NN はネットワークの学習のために,何らか のデータを伝播させ,それに対する識別結果で学習す る.これに対して GAN では,生成器にノイズを入力し て生成されたデータ(Fake 画像)と,学習対象の真の データ(Real 画像)との二つを用意し,その二つを識 別器にそれぞれがどちらであるか判定させることで学習 する.もし生成器が生成する Fake 画像が,十分に Real 画像に近い場合,識別器は正しく判別できず,識別がで きるように学習を進める.すると今度は識別器の性能が 上がり,生成器はより Real に近い画像が生成できるよ うに学習する.このように生成器と識別器とが,敵対的 (Adversarial)な関係のもとでともに学習を進めていく 仕組みが敵対的学習の名の由来であり,これによって最 終的にはノイズを入力するだけで,Real 画像と区別が つかないような多様な Fake 画像を生成させることが可 能となるわけである. GANは,その初期においては必ずしも CNN を仮定 したものではなく,従来型の NN によってまずそのコン セプトの有効性が実証された.図 2 上段は従来型 NN に よって実現された GAN による顔画像の生成結果で,生 成された左の五つの顔画像はややシャープさに欠けるも

GAN ─敵対的生成ネットワーク─の発展

Recent Progress of GAN ─ Generative Adversarial Network ─

篠崎 隆志

情報通信研究機構脳情報通信融合研究センター

Takashi Shinozaki Center for Information and Neural Networks, National Institute of Information and Communications Technology. [email protected]

Keywords:

GAN, generative model, deep learning, deep neural network. 「深層学習周辺の最新動向」

図 1 GAN の概念図.

(2)

のの,一番右の Real 画像と遜色ない画像品質を実現し ている [Goodfellow 14].一方で,同論文では CNN への 適用も試みられているものの,必ずしも成功していると は言い難く,図 2 下段の左の五つの画像は,一番右のよ うな動物と判別可能な画像を生成できていない. しかし深層学習の圧倒的な進歩のスピードは,この最 新の GAN の技術もまたたく間に完全に取り込み,その 発表の翌年には CNN を統合した革新的な結果が発表さ れた.[Radford 15] では,畳込みの逆関数として俗に逆 畳込み(deconvolution,より正しくは up-convolution) と呼ばれるものを用い,さらに最新の正則化手法であ る Batch Normalization [Ioffe 15] や,逆関数の特性 が ReLU よりは穏やかである Leaky ReLU と呼ばれる ものを利用することによって生成器を構成,CNN に よ る GAN で あ る Deep Convolutional GAN( 以 下, DCGAN)を実現した.その生成結果は極めて画期的で, 従来の手法とは一線を画すエッジの立ったボケの少ない (俗に crispy と表現される)明瞭なものであった. 図 3 は生成された寝室の画像の例で,いずれも非常に crispyであるとともに,生成器への入力の違いによって バラエティーに富んだ画像が生成されていることが見て 取れる. さらに DCGAN による生成は,その入力のベクトル 空間的な性質が極めて良いことが明らかとなり,値の近 い入力同士が似た画像を生成するのは当然として,二つ の入力の間の値によって生成される画像は二つの画像の 意味的な中間となっており,word2vec[Mikolov 13] に おけるベクトル加算のようなことも可能であることが判 明した(図 4).このことは入力を適切に調整すること により,ピクセルレベルではなく,より高次な特徴のレ ベル(例えば表情や髪型など)で生成される画像をコン トロールすることが可能であることを意味している.こ れによって GAN は近未来の先進的な画像処理技術の急 先鋒と認識され,その研究は産学を問わず世界的にまさ に爆発と呼ぶべき勢いで推進されることになった.図 5 は GAN に関する論文総数の時間的な推移を示しており, まさに指数関数的に研究が増加していることが見て取れ る [TheGanZoo]. この爆発的な研究の推進により,DCGAN の技術はま たたく間に多方面に発展した.図 6 は 3D 畳込みを用い た DCGAN によって生成された動画の例で,上段が海岸 での,下段がゴルフ場での風景となっている [Vondrick 16].どちらの動画も時間方向に連続したフレームでつ じつまの合った画像が生成されている(赤い矢印は特に 注目すべき点). 図 2 最初の GAN による生成画像. [Goodfellow 14]より抜粋 図 6 DCGAN による動画像生成結果. [Vondrick 16]より抜粋 図 4 DCGAN の入力ベクトルの加算による画像の意味的な加算 の結果. [Radford 15]より抜粋 図 5 GAN 論文総数の推移. [TheGanZoo]より抜粋 図 3 DCGAN による部屋画像の生成結果. [Radford 15]より抜粋

(3)

さらに発展した DCGAN は,これまでブラックボッ クスといわれていた CNN の内部の可視化をも可能にし た.図 7 は DCGAN によって可視化された,CNN の内 部状態の自然画像による表現で,驚くべきことに可視化 対象の CNN は生成のためのネットワークと異なるネッ トワーク(例えば可視化対象は GoogleNet [Szegedy 15] で生成は AlexNet [Krizhevsky 12] など)であっても問 題なく可能である [Nguyen 16a].さらにこの技術を応 用し,異なる二つ以上の内部状態を足し合わせ,それを 可視化することによって,意味的な足し算がなされた画 像の生成も可能となった.図 8 は,図 7 で生成された ものと同じ対象に,火を灯したろうそくの内部状態を足 し合わせたうえで可視化したものであり,その結果それ ぞれの対象に火を灯した状態の画像を生成することに 成功している.この技術はさらに改良され,より多様な 出力を安定して生成可能な Plug and Play Generative Network(PPGN)と呼ばれるネットワークとして発表 されている [Nguyen 16b].

3.生成のコントロール

このように非常に強力な GAN ではあるが,その学習 は教師なし学習によって行われるため,入力のベクトル 空間の形状を自由にデザインできないという問題が存在 した.言い換えると,例えば「鳥」のような特定のラベ ルに対応する入力ベクトルを獲得するには,ただひたす ら探索するしかなく,これは「羽の色」,「嘴の長さ」など, ラベルが増えるほどに深刻化し,結果として目的とする 画像の生成を困難にしていた. これに対して当初は,GAN の生成器の学習に並行し て,その逆変換を Variable AutoEncoder(以下,VAE) [Kingma 13]と呼ばれる手法で学習し,VAE を介する ことで目的の対象に対応する入力ベクトルを生成させる VAEGANという手法が用いられていた [Larsen 15].し かしながらこの手法は VAE の精度が必ずしも十分でな いとともに,複数のネットワークが介在するという煩わ しさから改善が求められていた.これを解決するために さまざまな試行錯誤が行われたが,その答えは,他の深 層学習のさまざまな要素と同じく極めてシンプルなもの となった.それは GAN の学習にあたって,ノイズなど と同時にラベル情報も入力してやる,というものである. この手法は Conditional GAN [Mirza 14] と呼ばれ,図 9 のように,生成器(Generator)ではノイズ入力と同時 にラベル入力を入力する.識別器(Discriminator)では, Real画像もしくは生成器の出力である Fake 画像とラベ ル入力を同時に入力する. 「ラベル」,すなわち「対応付ける対象」をノイズと同 時に入力するだけで,GAN の学習における対応付けが 可能であるという知見がひとたび広まると,その「対応 付ける対象」の拡大に関する研究がたちまちのうちに進 められた.その結果,通常「ラベル」を表すのに用いら れる one-hot ベクトルだけではなく,任意のベクトルで も対応付け可能であることが明らかになってきた.これ はつまり埋込み(Embedding)ベクトルを用いることも 可能であることを意味する. 近年最も成功した埋込みの一つが word2vec である ことは論をもたないであろう.であれば,GAN への 埋込みに word2vec,すなわち言語を用い,これによっ て画像を生成させるというのは自然の成り行きである. [Reed 16a, Reed 16b]ではまさにこれに成功し,図 10 のように言語ベクトルを 128 次元に圧縮した後,生成器 および識別器に入力し,これによって言語による GAN の対応付け学習を実現している.GAN によって生成さ れるものは画像であることから,言語による対応付けと はすなわち,文章から画像への変換を意味する.すなわ ちこれは,深層学習による画像の自動キャプション付け 図 7 GAN による CNN の可視化の結果. [Nguyen 16a]より抜粋 図 8 GAN による CNN の意味の合成の結果. [Nguyen 16a]より抜粋 図 9 条件付き GAN の概念図. 画像は [Liu 15] および [Radford 15] より

(4)

[Vinyals 15]の逆変換を GAN によって実現したもので あるといえる.図 11 に生成された画像の例を示す.生 成された画像はいずれも,生成に用いられた文章に対応 した特徴をおおまかに備えていることが見て取れる. ところで図 10 では,言語の埋込みは入力後すぐにそ の次元を圧縮されていたが,ネットワークへの最初の入 力は言語ベクトルとなっており,生成器と識別器のネッ トワークの内部で圧縮処理を行ったと考えることもでき る.これを発展させていくと,関連付けのための入力は 小さいものである必要もなく,もっと大きなもの,例え ば画像そのもの,でも可能であると考えられる.この場 合,画像の関連付けで画像が生成されることになり,こ れはすなわち画像から画像への変換となる.この画像 から画像への変換を汎用性の高い形で実現した GAN が pix2pixである [Isola 16]. pix2pixは極めて強力な手法で,画像から画像への変 換に関係する多種多様な処理を,ほぼ同一のネットワー クでこなしてしまう.図 12 に pix2pix によって実現さ れるさまざまな処理の例を示す.左上から時計回りに, 運転シーンのラベル(車,道路,建物など)画像から対 応する自然画像の生成,その変形である建物の部分のラ ベル(窓,壁,入口など)から建物の自然画像の生成, 白黒画像からカラー画像の生成,エッジ画像から自然画 像の生成,昼の自然画像から夜の自然画像の生成,最後 の左下は航空画像から要約地図(ある種のラベル画像) の生成となっている.このように pix2pix の適用範囲は 多岐にわたり,これらすべてが同一のシステムによって 実現されていることはまさに驚異的であるといえる. このような多彩な処理を実現する pix2pix ではあるが, その学習の仕組みはシンプルである.図 13 に pix2pix の学習の仕組みを示す.他の GAN と同様に,pix2pix も生成器と識別器の対によって構成される.ここで地図 の画像が条件付け GAN の入力となっており,生成器と 識別器の双方に入力される.Real 画像については入力 画像として航空写真が,埋込みベクトルとともに識別器 に入力される.Fake 画像については埋込みベクトルを 生成器に入力することによって生成された画像として, やはり埋込みベクトルとともに識別器に入力される.こ れは一歩下がって見ると,Real の場合は Real 画像と関 連付け画像のペアを Fake の場合は Fake 画像と関連付 け画像のペアを,入力していることとなり,識別器は入 力されたペア画像の組合せが Real か Fake かを判定し ているということになり,これによって GAN の学習が 行われる. ここで重要なのは,ノイズ入力が生成器の入力に存在 しないことである.GAN におけるノイズ入力には,生 図 10 文章から画像を生成するための GAN のモデル. [Reed 16b]をもとに著者が作成 図 12 pix2pix によって実現されるさまざまな処理の例. [Isola 16]より抜粋 図 11 GAN による文章から画像の生成例. [Reed 16b]より抜粋

(5)

成される画像への多様性の付加と,生成における対応付 けの起点という二つの役割を担っていると考えられてい る.このうち後者については,条件付き GAN の場合, 埋込みベクトルとしてすでに与えられていると考えられ る.そして前者の画像の多様性の付加については生成器 のネットワーク結合に存在する Dropout のみを用い,明 確なノイズ入力を必要としないものとなっている. このようにノイズ入力部分が省かれた生成器は,関 連付け画像を入力し,それを次元圧縮したうえで,それ をもとに画像を生成するという,従来のオートエンコー ダのような砂時計型の構造をもつことになる.前述のよ うに,CNN は旧来の NN と異なり逆変換が成立しない ため,オートエンコーダのようなモデルは困難であっ た.しかしながらこのようなネットワーク構造は,応用 範囲の広い画像解析の一つであるセグメンテーションに おいて重要であることから,GAN とは独立して独自の 進化を遂げてきた.図 14 は SegNet と呼ばれる深層学 習を用いた画像セグメンテーションの例を示しており, 左が自動運転などに用いられる運転シーンの画像セグメ ンテーションで,右が室内の家具に対するものである [Badrinarayanan 15].このような解析を CNN を用い て行う場合,入力側の順方向の CNN での層を経るに従っ て空間情報が削減されていくため,出力側の逆方向の CNNで空間情報が不足するという問題が発生する.こ れを解決するために,近年のモデルでは U-Net と呼ば れる順方向への入力を対応する逆方向の層にも入力し, これによって空間情報を補うという手法が用いられてい る(図 15)[Ronneberger 15].pix2pix においても図 13 左上の次元圧縮における順方向 CNN と,生成器におけ る逆方向 CNN のペアに U-Net を用いており,これによっ て関連付け画像の空間構造を精密に再現した生成画像を 実現している. さらに pix2pix ではもう一つの工夫として識別器に おける判定に PatchGAN と呼ばれるものを用いてい る.これは Real か Fake かの判定を,画像全体にして ではなく,部分画像である patch 単位で行うものであ る.pix2pix での出力の目的はあくまで画像の変換であ るため,画像全体として Real か Fake かは必要とされ ず,むしろ部分ごとの対応付けの度合いが重要となって いる.PatchGAN で識別を部分ごとに行うことによって, 生成画像の Real 化を画像全体で一括してではなく,部 分ごとに進めることが可能となる.一般的に GAN は学 習が不安定で,この傾向は画像サイズが大きくなるほど 顕著であることが知られているが,PatchGAN のような 仕組みを用いることで,入力画像のサイズは大きいまま で学習上の画像サイズを抑え,その安定性を改善してい るといえる.

4.さ ら な る 進 歩

このように pix2pix の登場によって GAN は従来の画 像処理とは一線を画する,まさに人工知能と呼べる高次 の手法としての地位を確立し,その技術はまたたく間に 発展していった.[Taigman 16] においては,写真と絵 文字とを関連付けることによって,顔画像のイラストへ の変換を実現している(図 16).また [zi2zi] では,フォ ントの種類ごとの関連付けを用意することによって,任 意の文字の任意のフォント形式への変換を実現している (図 17).自然画像どうしの変換については,[Liu 17] が 図 18 のように,晴れから雨,夜から昼,雪から晴など さまざまな変換において,現実と見まごうようなリアル な画像への安定した変換を実現しており,自動運転シス テムの学習におけるデータ拡充(Augmentation)の手 図 13 pix2pix の学習の仕組み. [Isola 16]をもとに著者が作成 図 14 SegNet による画像セグメンテーションの例. [Badrinarayanan 15]より抜粋 図 15 U-Net と呼ばれるネットワーク構造のモデル. [Ronneberger15]より抜粋

(6)

法としても注目されつつある.少し変わったところとし ては,GAN を用いた超解像があり,[Ledig 16] では高 解像度の画像と,それをダウンサンプリングした低解像 度の画像を関連付けることによって,4 倍に拡大した後 も Cripsy さを維持できるような変換に成功している(図 19).ここで面白いのは,SRGAN によって生成された 画像(図 19 中)は,オリジナルの高解像度画像(図 19 右)とほぼ遜色ない解像感をもっているものの,例えば 帽子の額部分の飾りの構造などは厳密には再現されてお らず,あくまで Real な一般画像っぽく生成するという GANの特性が見て取れる. この GAN による超解像は実は極めて重要で,従来 GANはさまざまな画像を生成できるものの最終的な生 成画像の解像度が低いという問題を抱えていたが,そ れぞれの GAN に超解像の GAN を組み合わせることに よって高い解像度での画像の生成が可能となる.このよ うな手法はいわば GAN を積み重ねる状態になることか ら StackGAN と名付けられ,[Zhang 17] では,まず最 初に低い解像で生成したのち(図 20 上段),それに超解 像を適用することによって質の高い画像の生成に成功し ている(図 20 中段).これに対して同様の解像度の生成 を一度に行った場合は学習が安定せず自然な画像を生成 することができない(図 20 下段). StackGANの技術は近年さらなる改良が加えられ,複 数の超解像を介し,画像のキャプション付け [Xu 15] な どで開発された視覚的注意のメカニズムを取り込むこと によって,文章から極めて自然な画像を生成することに 成功している.図 21 の上段左は,第 1 段階目の GAN の出力結果で,1 段階目の超解像である程度の解像感を 増したのち(図 21 上段中),2 段階目の超解像を経るこ とによってより精密な描写が完成する(図 21 上段右). 図 16 顔写真からイラストへの変換の例. [Taigman 16]より抜粋 図 19 GAN による超解像の例. [Ledig 16]より抜粋 図 18 シーン変換の例. 上段より,晴から雨,夜から昼,雪から晴,への 各変換.[Liu 17] より抜粋 図 20 StackGAN の段階ごとの生成画像と通常の GAN との比較. [Zhang 17]より抜粋 図 17 実際のフォント(左)と zi2zi による生成(右)との比較. [zi2zi]より抜粋

(7)

図 21 の中段およびに下段は入力された単語が視覚的注 意としてどの部分の画像の生成に寄与しているかを示し ており,それぞれの単語が適切な場所に働いていること が見て取れる.さらに高い解像度の画像の生成について は,3 段以上の多数の超解像を用いる研究も行われつつ あり,[Karras 17] では超解像の処理の回数を段階的に 増やしながら学習を進めることによって,1 024×1 024 ピクセルというフル HD レベルの解像度での生成に成功 し,もはや現実の画像と区別がつかないほどの高いレベ ルに到達しつつある(図 22).

5.ま  と  め

本稿では GAN について,その基本メカニズムや周辺 技術を交えつつ,その発展の過程をひととおり紹介した. 今回紹介した技術は,けっして遠い未来や特別な機械だ けの技術ではなく,一般的なコンピュータで使える技術 として今まさに実装が進められつつあり,近い将来,当 たり前の画像処理として,例えば携帯電話からでも,使 えるようになることが期待される. GANは誕生して間もない技術にもかかわらず,その 実応用のしやすさから近年の人工知能の代表技術の一つ として爆発的な発展を遂げてきた.この発展は数多くの シンプルな工夫の積み重ねによって行われており,正し く工学的な手法によって発展しているともいえる.近年 では,深層学習のオープンなフレームワークが多数登場 し,研究者はそれらの組合せによって新しい機能の実装 を行っている.例えば図 20 の StackGAN[Zhang 17] で は,言語処理の NN,初期の生成のための GAN,超解 像のための GAN が組み合わされており,個々の GAN は生成器と識別器の二つの NN をもつため,合計で五つ もの NN,しかもそのすべてがディープな NN が組み合 わされていることとなる.このような巨大なネットワー クの学習はほんの 10 年前には全く想像もできなかった レベルであるにもかかわらず,NN というものの部品化 が正しくなされてきたおかげで,当たり前のように学習 を行うことができている. 深層学習以前の NN の研究では,比較的小さなネッ トワークで,その規模を変えずに性能が上がるような新 しい手法を見つけ出していく,というミクロなスケール におけるものが中心であった.これに対して近年の深層 学習,特に GAN の研究は,多数のネットワークを組み 合わせ,それらの学習をコントロールする損失関数を目 的に応じて適切に組み合わせていく,マクロなスケール なものであるといえる.例えば損失関数のバランスをと る BEGAN と呼ばれる手法 [Berthelot 17] では,単一の NNでしか行われてこなかった旧来の研究では想像もで きなかったものである.著名な深層学習の研究者である Karpathyは未来のソフトウェア開発では,コードをコ ンピュータの言語で直接記述するようなものから,目的 とする機能を有する NN を記述するものに置き換わって いくという Software2.0 [Karpathy 17] という考えを提 唱しているが,GAN におけるミクロからマクロへの流 れはまさにこれを対応しているともいえる.このように 現在の人工知能の研究は,その在り方のパラダイムシフ トをまさに起こしつつある状況である.このような大転 換時代の人工知能の研究に本稿が一助となれば幸いであ る.

◇ 参 考 文 献 ◇

[Badrinarayanan 15] Badrinarayanan, V., Kendall, A. and Cipolla, R.: Segnet: A deep convolutional encoder-decoder architecture for image segmentation, arXiv preprint arXiv:1511.00561(2015)

[Berthelot 17] Berthelot, D., Schumm, T. and Metz, L.: Began: Boundary equilibrium generative adversarial networks, arXiv preprint arXiv:1703.10717(2017)

[Goodfellow 14] Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A. and Bengio, Y.: Generative adversarial nets, Advances in Neural Information 図 21 AttnGAN の生成例(上段)と,その注意の推移(下段).

[Xu 17]より抜粋

図 22 1 024 × 1 024 ピクセルで生成された顔画像の例. [Karras 17]より抜粋

(8)

Processing Systems, pp. 2672-2680(2014)

[Ioffe 15] Ioffe, S. and Szegedy, C.: Batch normalization: Accelerating deep network training by reducing internal covariate shift, Int. Conf. on Machine Learning, pp. 448-456 (2015)

[Isola 16] Isola, P., Zhu, J.-Y., Zhou, T. and Efros, A. A.: Image-to-image translation with conditional adversarial networks, arXiv preprint arXiv:1611.07004(2016)

[Karpathy 17] Karpathy, A.: Software 2.0(2017),https:// medium.com/@karpathy/software-2-0-a64152b37c35, access 2018

[Karras 17] Karras, T., Aila, T., Laine, S. and Lehtinen, J.: Progressive growing of gans for improved quality, stability, and variation, arXiv preprint arXiv:1710.10196(2017) [Kingma 13] Kingma, D. P. and Welling, M.: Auto-encoding

variational Bayes, arXiv preprint arXiv:1312.6114(2013) [Krizhevsky 12] Krizhevsky, A., Sutskever, I. and Hinton, G.

E.: Imagenet classification with deep convolutional neural networks, Advances in Neural Information Processing

Systems, pp. 1097-1105(2012)

[Larsen 15] Larsen, A. B. L., Sønderby, S. K., Larochelle, H. and Winther, O.: Autoencoding beyond pixels using a learned similarity metric, arXiv preprint arXiv:1512.09300(2015) [Ledig 16] Ledig, C., Theis, L., Huszár, F., Caballero, J.,

Cunningham, A., Acosta, A., Aitken, A., Tejani, A., Totz, J. and Wang, Z., et al.: Photo-realistic single image super-resolution using a generative adversarial network, arXiv preprint arXiv:1609.04802(2016)

[Liu 15] Liu, Z., Luo, P.,Wang, X. and Tang, X.: Deep Learning face attributes in the wild, Proc. Int. Conf. on Computer Vision (ICCV)(2015)

[Liu 17] Liu, M.-Y., Breuel, T. and Kautz, J.: Unsupervised imageto- image translation networks, arXiv preprint arXiv:1703.00848(2017)

[Mikolov 13] Mikolov, T., Chen, K., Corrado, G. and Dean, J.: Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781(2013)

[Mirza 14] Mirza, M. and Osindero, S.: Conditional generative adversarial nets, arXiv preprint arXiv:1411.1784(2014) [Nguyen 16a] Nguyen, A., Dosovitskiy, A., Yosinski, J., Brox, T.

and Clune, J.: Synthesizing the preferred inputs for neurons in neural networks via deep generator networks, Advances in

Neural Information Processing Systems, pp. 3387-3395(2016) [Nguyen 16b] Nguyen, A., Yosinski, J., Bengio, Y., Dosovitskiy, A. and Clune, J.: Plug & play generative networks: Conditional iterative generation of images in latent space, arXiv preprint arXiv:1612.00005(2016)

[Radford 15] Radford, A., Metz, L. and Chintala, S.: Unsupervised representation learning with deep convolutional generative adversarial networks, arXiv preprint arXiv:1511.06434(2015) [Reed 16a] Reed, S. E., Akata, Z., Mohan, S., Tenka, S., Schiele, B.

and Lee, H.: Learning what and where to draw, Advances in

Neural Information Processing Systems, pp. 217-225(2016) [Reed 16b] Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele,

B. and Lee, H.: Generative adversarial text to image synthesis, arXiv preprint arXiv:1605.05396(2016)

[Ronneberger 15] Ronneberger, O., Fischer, P. and Brox, T.: U-net: Convolutional networks for biomedical image segmentation,

Int. Conf. on Medical Image Computing and Computer- Assisted Intervention, pp. 234-241, Springer(2015)

[Szegedy 15] Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V. and Rabinovich, A.: Going deeper with convolutions, Proc. IEEE Conf. on Computer

Vision and Pattern Recognition, pp. 1-9(2015)

[Taigman 16] Taigman, Y., Polyak, A. and Wolf, L.: Unsupervised cross-domain image generation, arXiv preprint arXiv: 1611.02200(2016)

[TheGanZoo] The GAN Zoo, https://github.com/ hindupuravinash/the-gan-zoo, access 2018

[Vinyals 15] Vinyals, O., Toshev, A., Bengio, S. and Erhan, D.: Show and tell: A neural image caption generator, Proc. IEEE

Conf. on Computer Vision and Pattern Recognition, pp.

3156-3164(2015)

[Vondrick 16] Vondrick, C., Pirsiavash, H. and Torralba, A.: Generating videos with scene dynamics, Advances in Neural

Information Processing Systems, pp. 613-621(2016)

[Xu 15] Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., Zemel, R. and Bengio, Y.: Show, attend and tell: Neural image caption generation with visual attention,

Int. Conf. on Machine Learning, pp. 2048-2057(2015) [Xu 17] Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z.,

Huang, X. and He, X.: AttnGAN: Fine-grained text to image generation with attentional generative adversarial networks, arXiv preprint arXiv:1711.10485(2017)

[Zhang 17] Zhang, H., Xu, T., Li, H., Zhang, S., Huang, X.,Wang, X. and Metaxas, D.: Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks, IEEE

Int. Conf. Comput. Vision(ICCV),pp. 5907-5915(2017) [zi2zi] zi2zi: Master chinese calligraphy with conditional

adversarial networks, https://github.com/kaonashi-tyc/zi2zi, access 2018 2018年 1 月 28 日 受理

著 者 紹 介

篠崎 隆志(正会員) 2000年 東 京 理 科 大 学 理 学 部 応 用 物 理 学 科 卒 業. 2006年東京大学大学院新領域創成科学研究科博士課 程修了.博士(科学).理化学研究所基礎科学特別 研究員,ニューヨーク大学研究員などを経て,現在, 情報通信研究機構脳情報通信融合研究センター研究 員.計算論的神経科学や深層学習の基礎および応用 についての研究に従事.大阪大学招へい教員(2012 年度∼)日本神経回路学会,北米神経科学会各会員.

図 1  GAN の概念図.
図 21  AttnGAN の生成例(上段)と,その注意の推移(下段) .

参照

関連したドキュメント

 グローバルな視点を持つ「世界のリーダー」を養成

ロボットは「心」を持つことができるのか 、 という問いに対する柴 しば 田 た 先生の考え方を

うのも、それは現物を直接に示すことによってしか説明できないタイプの概念である上に、その現物というのが、

青色域までの波長域拡大は,GaN 基板の利用し,ELOG によって欠陥密度を低減化すること で達成された.しかしながら,波長 470

このように、このWの姿を捉えることを通して、「子どもが生き、自ら願いを形成し実現しよう

子どもが、例えば、あるものを作りたい、という願いを形成し実現しようとする。子どもは、そ

「海洋の管理」を主たる目的として、海洋に関する人間の活動を律する原則へ転換したと

なお、保育所についてはもう一つの視点として、横軸を「園児一人あたりの芝生