第 4 章 事例に基づく画像補完を用いた背景差分法 45
4.2 画像補完ニューラルネットワーク
背景差分ニューラルネットワークでは,観測パッチ画像のマスクされた領域を復元し,
観測パッチ画像と復元パッチ画像から前景検出を行う.画像補完以外にも,オートエン コーダ[35]Iのように,観測パッチ画像をそのまま画像推定に利用することも考えられる.
しかし,事前実験においてオートエンコーダを用いた場合,図4.3に示すように,前景領 域で得られる復元誤差と背景領域で得られる復元誤差が似た値をとる場合が頻繁に観測 された.学習データに背景画像のみを含む場合,オートエンコーダにおける最適な変換f
Iオートエンコーダは学習データxに関してf(x) =xを満たす変換f を求める学習を行う.
4.2 画像補完ニューラルネットワーク
Patch
𝐼𝐼 Masked patch
𝐼𝐼𝑚𝑚
Reconstructed central region
𝑓𝑓 𝐼𝐼𝑚𝑚
Input image Reconstructed image
𝑚𝑚 𝑚𝑚
𝑓𝑓 𝑓𝑓
図 4.4: 画像補完ニューラルネットワークによる画像復元例.mはパッチ画像のマスク処 理,fは画像補完のための関数を意味する.また,図中の赤線は前景領域の復元過程,青 線は背景領域の復元過程をそれぞれ示している.学習データである背景パッチ画像に走行 中の車は含まれておらず,画像補完ニューラルネットワークは背景パッチ画像のみを用い てマスク領域の復元を学習するため,背景領域である家の入口はマスクしたパッチ画像か ら復元できている.一方,前景領域である車のタイヤは復元されていないことが確認でき る.
は恒等写像となるので,前景領域と背景領域に関わらず復元誤差が小さくなる.このよう な場合,復元誤差に基づく前景判定を行うことが困難となり,前景検出性能の低下を引き 起こす.図4.3(c)に示すように,背景である家と前景である車で同程度の復元誤差を確認 できる.このように,オートエンコーダは過剰な復元を行う可能性を含んでいる.
この過剰な復元は,最適な出力がすでに入力として与えられていることが原因である と考えられる.そこで,パッチ画像を一部マスクし,画像補完ニューラルネットワークに よってそのマスク領域を推定することで,過剰な復元を回避する.図4.4に示すように,
画像補完ニューラルネットワークはf(Im) = Ic,Im ̸=Icを満たす変換fを学習するので,
オートエンコーダのようにfは恒等写像にならない.ここで,Imはマスクしたパッチ画 像,Icはパッチ画像の中央部分である.図4.4では,背景領域である家の扉は復元され,
車のタイヤは復元されていないことが確認できる.これは,車のタイヤは学習データに 含まれていないため,画像補完ニューラルネットワークは車のタイヤの復元ができなかっ
たことに起因する.しかし,車は前景であるので,復元誤差が大きくなることに不都合は ない.上記の理由から,背景差分ニューラルネットワークでは,オートエンコーダではな く,画像補完ニューラルネットワークを用いる.
背景差分ニューラルネットワークで利用した画像補完ニューラルネットワークはPathak
ら [51]とIizukaら [52]の画像補完手法を参考に設計している.それらの手法では一般的
な風景画像のテクスチャ領域であっても自然な画像補完が可能であったことが報告されて おり,十分に背景パッチ画像の復元を学習できると期待できる.図 4.1に示すように,画 像補完ニューラルネットワークは,畳み込み層,dilated convolution層 [53]とtransposed convolution層から構成される.ここで,transposed convolution層は入力された特徴マッ プをアップサンプリング後に畳み込み演算を行うことを意味する.また,出力層以外の活 性化関数はRectified linear unit (ReLU)を用い,出力層では0から1の範囲に値を正規化 するためにシグモイド関数を用いる.
上記の背景差分ニューラルネットワークで用いられる画像補完ニューラルネットワーク は,背景パッチ画像のみを用いて,復元誤差に基づくコスト関数を最小化することで学習 される.パッチ画像をI,その中心部分をIc,マスクされたパッチ画像をImとしたとき,
画像補完ニューラルネットワークf のコスト関数EICは式4.1として定義される.
EIC(f) =∑
|f(Im)−Ic| (4.1)
ここで,f(Im)は画像補完ニューラルネットワークの出力,| · |はL1距離を表す.なお,
パッチ画像Iとマスクされたパッチ画像Imのサイズをw×wとしたとき,その中心部分 Icのサイズは0.5w×0.5wとした.