背景差分ニューラルネットワークの学習

第 4 章事例に基づく画像補完を用いた背景差分法 45

4.4 背景差分ニューラルネットワークの学習

4.4.1 学習データ

背景差分ニューラルネットワークは，移動カメラで取得した過去のある時点の観測領域を背景とする．このとき，画像補完ニューラルネットワークによる復元パッチ画像において，前景領域が復元されないことを仮定するためには，画像補完ニューラルネットワークの学習データとしてその過去の映像から得られる背景パッチ画像を用いればよい．

一方，式4.2で述べたように，変化検出ニューラルネットワークを学習するためには，

前景と背景の教師信号が必要となる．しかし，背景差分ニューラルネットワークの背景定義から，観測領域に関する学習データは背景パッチ画像のみであり，観測領域で生じる変化を事前に定義し，その変化を含む画像を用意できない．そこで，提案手法では，観測領域ではないシーンから前景領域を含むパッチ画像を用意し，一般的なパッチ画像間の差異を前景として学習させる．

このような学習データによって，観測領域内に生じる変化をとらえる変化検出ニューラルネットワークが学習可能であるかを調査した．この調査目的のために，前景物体として，人しか現れないシーン(シーンA)と車しか現れないシーン(シーンB)を用意し，一方のシーンのみを用いて学習した変化検出ニューラルネットワークが学習に用いなかったシーンの前景物体を検出できるのかを観察した．このとき，各シーンの観測領域も異なるため，「観測領域ではないシーンから前景領域を含むパッチ画像を用意する」という条件

4.4 背景差分ニューラルネットワークの学習も同時に満たしている．

この結果，シーンAのみを用いて学習した変化検出ニューラルネットワークが，車を前景物体として検出できることが確認できた．また，シーンBのみを学習に用いた場合でも，同様に人を前景として検出できることが確認できた．この調査結果は変化検出ニューラルネットワークは学習データに含まれる前景の形や色に依存せず，背景パッチ画像と観測パッチ画像の差異を前景として検出できることを示唆する．つまり，変化検出ニューラルネットワークは観測領域ではないシーンの前景領域を含むパッチ画像から，一般的なパッチ画像間の差異を前景として学習できる．

背景差分ニューラルネットワークを学習するために，観測領域の背景パッチ画像と前景検出訓練用のパッチ画像の2種類の学習データを用意する．この前景検出訓練用のパッチ画像は，前景領域と背景領域を含み，観測領域でないシーンのパッチ画像である．

画像補完ニューラルネットワークの学習において，式4.1を最小化する際，観測領域の背景パッチ画像と前景検出訓練用のパッチ画像の背景領域のみを学習データとして利用する．これにより，画像補完ニューラルネットワークは，どちらの学習データのシーンにおいても画像の復元過程を学習できる．前景検出訓練用のパッチ画像の復元画像は変化検出ニューラルネットワークを学習する際に必要である．

変化検出ニューラルネットワークの学習においては，式4.2を最小化する際，すべての学習データを用いる．変化検出ニューラルネットワークは前景検出訓練用のパッチ画像から観測パッチ画像と復元パッチ画像間の差異を前景として学習し，観測領域の背景パッチ画像から観測領域内で生じる観測パッチ画像と復元パッチ画像の差異を背景として学習する．

4.4.2 学習手順

背景差分ニューラルネットワークの学習は確率的勾配降下法に基づく．確率的勾配降下法では，学習データからいくつか学習サンプルをランダムにを選択し，選択された学習サンプルごとに学習を進めていく．

まず，画像補完ニューラルネットワークを10エポックにわたって学習する．その際，観測領域の背景パッチ画像からの学習サンプルを16個，前景検出訓練用の背景領域のパッチ画像からの学習サンプルを8個とした．画像補完ニューラルネットワークの学習後，変化検出ニューラルネットワークを10エポックにわたって学習する．その際，観測領域の背景パッチ画像からの学習サンプルを16個，前景検出訓練用の背景領域，前景領域のパッチ画像からの学習サンプルをそれぞれ8個ずつとした．

変化検出ニューラルネットワーク学習後に，観測領域の背景パッチ画像に対して前景確率を計算する．このとき，背景領域であるにもかかわらず，前景確率が0.1を超えるものを学習困難であったパッチ画像とみなし，再度学習を行う．学習困難であったパッチ画像から32個ずつ選び，上記の学習過程を5エポックずつ画像補完ニューラルネットワークと変化検出ニューラルネットワークに関して適用する．

ニューラルネットワークの重みの初期化にXavierイニシャライザー[55]を用い，最適化手法としてADAM [56]を用いた．このとき，ADAMのパラメータβ₁ = 0.9，β₂ = 0.999 とし，学習率を0.0001に設定した．学習データはRGB画像として，0から1の範囲に正規化した．また，パッチ画像をマスクするための値として，正規化した画素値の範囲外の値である2.0を使った．

ドキュメント内峰松, 翼 (ページ 67-70)

第 4 章 事例に基づく画像補完を用いた背景差分法 45

4.4 背景差分ニューラルネットワークの学習

4.4.1 学習データ

4.4.2 学習手順

第 4 章事例に基づく画像補完を用いた背景差分法 45