Deep Learning による主観的輪郭線の抽出

(1)

Deep Learning

による主観的輪郭線の抽出

Subjective Contour Extraction Using Deep Learning

大野淳也

1

_白川真一

2 ∗

_大原剛三

3

_豊田哲也

3

Junya Ohno

1

_{Shinichi Shirakawa}

2

_{Kouzou Ohara}

3

_{Tetsuya Toyota}

3

1

_{青山学院大学大学院理工学研究科}

1

_{Graduate School of Science and Engineering, Aoyama Gakuin University}

2

_{横浜国立大学大学院環境情報研究院}

2

_{Faculty of Environment and Information Science, Yokohama National University}

3

_{青山学院大学理工学部}

3

_{College of Science and Engineering, Aoyama Gakuin University}

Abstract: Human vision perceives an object by extracting the feature information of the light projected on retina such as color, brightness and more. Human can perceive a contour even when there is no change of characteristic in the image. This type of contour is called subjective con-tour, and the mechanism of its perception has yet to be completely become clear. Therefore, the automatic extraction of the subjective contours by a computer is still regarded as a diﬃcult prob-lem. On the other hand, recently, deep learning is attracting much attention. This methodology is only needed the supervised data and possible to learn not only a classifier but also a classifier into which the feature extraction process is embedded. In this report, we propose a method that takes advantage of deep learning and realize the extraction of subjective contours. Specifically, we reduce the task to a binary classification problem of pixels (classification of subjective contour pixel or background pixel). To solve this problem, we create the partial images trimmed around the target pixel with a certain square, and then obtain the model to classify the partial images using deep learning. We use a convolutional neural network as the deep learning architecture in order to extract the features in the local region of the target pixel. Then, we evaluated the extrac-tion performance of the subjective contours for two types of images with diﬀerent figures, the line objects and the block objects, producing a subjective contour.

1 はじめに

人の視覚は，網膜に映し出された光から色や明るさ等の特徴情報を抽出することで物体の色や形を知覚している．その中でも輪郭線の知覚は，物体認知や形状認知をする上で非常に重要である．輪郭線は，色や輝度の急激な変化が生じた部分に知覚されるが，このような輪郭線の知覚メカニズムに反して，色や輝度の変化が生じていないにも関わらず知覚される輪郭線が存在する [1]．これを主観的輪郭線と呼ぶ．主観的輪郭線が知覚される画像の例を図 1 に示す．本研究では，図 1（上段）ような，画像内のオブジェクトが非直線型誘導図形によって生成される画像と，図 1（下段）のような，画像内のオブジェクトが直線型誘導図形によって ∗_{連絡先：横浜国立大学大学院環境情報研究院} 〒 240-8501 神奈川県横浜市保土ヶ谷区常盤台 79-7 E-mail: [email protected] 生成される画像の 2 種類に分けて考える．主観的輪郭線は，画像中に存在する図形（誘導図形）の距離，大きさ，形，図形と背景の輝度の関係，誘導図形を定義する視覚的特徴等が関係して生成されるという見解があるが，そのメカニズムは完全には明らかになっていない．主観的輪郭線抽出を実現することができれば，将来的には，遮蔽物の存在し得る環境での画像処理による製品検査などに役立つと期待される．また，画像生成といった観点からは，遮蔽情報を応用したロゴやアイキャッチの作成に応用できると考えられる．画像から主観的輪郭線を生成，知覚しようとする研究は，これまでにも存在する [2–6]．石寺らは，ヒトの視覚系は色や輝度の変化が生じなくとも，主観的輪郭線のような仮想線を知覚できることから，これを補完問題として考えることができるとして，生理学的データに基礎をおく階層的視覚情報処理モデルを提案してい人工知能学会研究会資料 SIG-KBS-B504-03

(2)

図 1: 非直線型誘導図形（上段）と直線型誘導図形（下段）によって主観的輪郭線が生成される画像の例る [5]．廣瀬らは，誘導図形を滑らかに接続することで主観的輪郭線の生成を試みた [2]．この研究では，輪郭線の生成に関する特徴的な座標（カーネル）を検出し，そのカーネルから輪郭線が知覚される可能性（ポテンシャル）を計算し，ポテンシャルに連続性が認められたときに輪郭線を生成している．しかしこの研究では，ガボールフィルタや Diﬀerence Of Gausian （DOG）関数等を用いた人為的な設計を介することでカーネル検出を行い，得られたカーネルを基に主観的輪郭線の抽出を行っているため，設計上想定されていない入力パターンは対応することが困難である．また，「主観的輪郭線によって生成される閉じた図形は周りと比べて明るく見える」という特徴を利用して，明るさが異なった場合に図形が知覚されるアルゴリズムを提案した研究 [3] や，画像中における各オブジェクトの奥行きに着目した研究 [4] もあるが，これらの研究では対象として取り扱っている入力パターンの数が少なく，誘導図形の形状を変更した場合に対処できるのかが定かではない．特に，誘導図形が線分の画像は対象としていない．Kim らは，画像の各画素毎に，どの方向に主観的輪郭線が生成されるのかを検出するアルゴリズムを提案している [6]．この手法は，各画素がどのような方位を持った画素なのかを算出する異方性拡散アルゴリズムと，これらの方位をどのようにつなぎ合わせるかを算出する輪郭線出力アルゴリズムに分かれている．これらを用いて，各画素が輪郭線の一部となる画素（輪郭点）であるか，そうでないかを判別している．ここまでに紹介した従来研究では，経験的知見を基に主観的輪郭線の抽出を試行錯誤的に考案している．そのため，経験的知見に反するような入力に対応することが難しいという問題がある．一方，近年ニューラルネットワークを多層化した Deep Learning と呼ばれる機械学習手法が，画像認識や音声認識などの分野で注目を集めている [7]．これまでの画像認識では，人為的に特徴量の抽出を行うことで物体認識を実現していたが， Deep Learning では，入力画像そのものと正解ラベルを与えるだけで特徴抽出処理を含めた分類器の学習が可能となり，より柔軟なモデルの構築が実現可能となった．本研究の目的は，様々なパターンの主観的輪郭線を抽出可能なモデルを経験的に設計された処理に依存せずに構築することである．これを実現するために，Deep Learning を利用し，機械学習に基づくアプローチで問題解決に取り組む．具体的には，主観的輪郭線を入力画像から直接抽出するのではなくではなく，画像内の各画素が輪郭線を形成する画素（輪郭点）であるかそうでないかの二値分類問題として考える．この二値分類問題を Deep Learning によって解くことで，主観的輪郭線の抽出を行う．そのため，従来手法と比べて，人為的な設計を介さずに特徴量を抽出することが期待できるため，より柔軟なモデルの構築が期待できる．著者らはこれまでにも，ニューラルネットワークを用いたアプローチによって，主観的輪郭線知覚モデルを構築する試みをしている [8] が，本研究は画素毎の分類問題を Deep Learning で解いており，方法論が文献 [8] とは異なる．

2 Deep Learning

による主観的輪

郭線の抽出

2.1 問題設定

本研究では，各画素が主観的輪郭となる画素（輪郭点）なのか，そうではない画素（背景画素）なのかを分類する二値分類問題を解くことで，画像中の主観的輪郭線の抽出を実現する．つまり，画像中の各画素を中心とした部分画像を入力とし，その部分画像の中心画素が輪郭点となるか否かを分類することがタスクとなる．

2.2 学習データの作成

サイズ M×N の入力画像から，各画素を中心とした k× k(k ≤ M, k ≤ N) の部分画像 M × N 枚を得る．た だし，画像の外の領域については，白の画素で埋めることとする．取得した各部分画像の教師ラベルは，中心画素が輪郭点クラスなのか背景クラスなのかで決定する．図 2 に学習データ作成の概要と部分画像の例を示す． 1 枚の入力画像から得られる輪郭点クラスの部分画像の数は，背景クラスの部分画像の数と比べて極めて少ない．全部分画像を用いてしまうとクラスに偏りが生じ，学習が効率的に行なえない可能性があるため，次のような規準に基づいて学習データを選択する． 1. 学習用画像の輪郭点クラスと背景クラスの部分画像枚数は同数程度とする．

(3)

図 2: 学習データ作成の概要と部分画像の例 2. 輪郭点クラスの部分画像 n 枚をランダムに選択 する． 3. 背景クラスの部分画像は，輪郭点ラベルを持つ画素の近傍 20× 20 画素を中心とした部分画像と，入力画像で隣接画素に黒画素が存在する白画素を 中心とした部分画像から，それぞれ n/2 枚ずつ 選択する．図 3 に学習用画像に用いる中心画素選択の概要を示す．図中の黒で塗りつぶされている画素を中心とした部分画像から学習データを選択することになる．背景ラベル (1) は，輪郭点ラベルを持つ画素の近傍画素を中心とした部分画像を用いることを表しており，背景ラベル (2) は，隣接画素に黒画素が存在する白画素を中心とした部分画像を用いることを表している．

2.3 ニューラルネットワークモデル概要

提案手法では，各部分画像の中心画素が輪郭点クラスに属するのか，背景クラスに属するのかを判別するモデルに，畳み込みニューラルネットワーク（Convolutional Neural Network; CNN）を利用する．CNN では画像を入力とし，畳み込み演算やプーリング，正規化といった処理が各層で行われれていく．畳み込み演算を行う層では，ニューラルネットワークの結合が局所的な領域に限定されているとともに，各局所領域の重みが共有される．畳み込み演算によって算出された値は，活性化関数への入力となる．提案手法では，活性化関数に次の ReLU (Rectified Linear Unit) [9] を用いる．

h(x) = max(0, x) (1) また，プーリング処理では局所領域内の平均値や最大値を計算し，画像サイズを縮小することで，画像の些細な幾何情報の違いに対する不変性を実現する．提案手法では，局所領域内の最大値を返す max pooling を使用した．正規化層では，Local Response Normalization [10] と呼ばれる正規化によって，畳み込み層，プーリング図 3: 学習用画像に用いる中心画素選択の概要図層を経て得られた複数の特徴マップの同じ位置の値を正規化する． CNN では，畳み込み層やプーリング層を複数回経由することで，画像の特徴抽出処理を実現する．その後，通常の全結合型ネットワークにより画像のクラス分類の処理を行う．提案手法では，全結合層での活性化関数にも ReLU を用いた．本研究の対象問題は二値分類問題であるため，出力層のユニットは 2 つになる．出力層の活性化関数はソフトマックス関数とし，損失関数には交差エントロピー誤差関数を用いる．実験で使用したネットワークは「入力 – 畳み込み層 – プーリング層 – 正規化層 – 畳み込み層 – プーリング層 – 正規化層 – 全結合層 – 全結合層 – 出力」の構成となっている．なお，提案手法の実装には Deep Learning のフレームワーク caﬀe [11] を使用している． CNN の重みの最適化には確率的勾配降下法 (SGD) を用い，学習率を次のように設定した． α0× 0.1⌊ iter 100⌋ ₍₂₎ ここで，α0は，学習率の初期値であり，iter は更新回数である．さらに，過学習の抑制を目的に Dropout [12] と呼ばれる方法を用いる．Dropout は，ある層において，学 習時に確率 p でランダムにユニットの出力を 0 に設定 して，重みの学習をする．これによって，特定のユニット間の重みが強く結び付くことを防ぐことができるため，過学習を防ぐことができるとされている．提案手 法では，p = 0.5 として実験を行っている．

3 評価実験

提案手法を用いて主観的輪郭線の抽出が行えるかを，非直線型誘導図形と直線型誘導図形から構成される 2 つの画像パターンについて別々に検証を行う．主観的輪郭線の抽出性能は，輪郭点クラスを対象とした適合率 (Precision)，再現率 (Recall)，F 値 (F-measure) で評価する．ここで，適合率は輪郭点と予測したデータ

(4)

図 4: 学習データの作成に用いた非直線型誘導図形の基本画像と対応する正解出力のうち，実際に輪郭点であるものの割合である．また，再現率は実際に輪郭点であるもののうち，輪郭点であると予測されたものの割合である．最後に，F 値は適合率と再現率の調和平均である．

3.1 非直線型誘導図形に対する評価

ここでは，非直線型誘導図形によって生成される主観的輪郭線の抽出を試みる．図 4 に示した 2 種類の画像を基本形として，誘導図形間の距離を 6 pixel 刻みで変化させた画像 4 パターン，画像全体を 10 度刻みで回転させた 8 パターン，誘導図形を 100%と 75%でスケーリングさせた 2 パターンを組み合わせ，合計 128 枚の入力画像から部分画像を作成した．部分画像中の中心画素が輪郭点であるかを判断するためには，部分画像中に誘導図形が含まれている必要があると考えたため，本実験ではサイズ 128× 128 の入力画像から，各画素を中心とした 128× 128 の部分画像を作成した．2.2 節で述べた方法で学習データの作成を行い，1 枚の入力画像から輪郭点クラスの部分画像 400 枚，背景クラスの部分画像 400 枚を収集した．さらに，学習率の初期 値は α0= 0.0005 とした．検証のために用いるテスト画像には，学習データに利用した画像に対して線分を加えて変化させたものや，主観的輪郭線の形状が平行四辺形やひし形，二等辺三角形となるような画像を用いた．また，主観的輪郭線が生成されないようなテスト画像も使用して出力結果を確認した．図 5 に，非直線型誘導図形のテスト画像とそれらに対する出力結果を示す．図 5 より，図中の画像 1，2，4，5 に対しては高い再現率をもつ出力結果を得られた．また，主観的輪郭線が生成されない画像である図中の画像 3 に対しても，白紙に近い出力が得られた．しかし，図中の画像 6 では，底辺を形成する輪郭線の一部分の抽出はできているが，補完することで得られる輪郭線の抽出ができていないことが確認できる．これは，学習用画像に図中の画像 6 の底辺部分と同等の誘導図形間の距離をもつパターンが含まれていなかったことが原因であると考えられる．図 5 の非直線型誘導図形に対する出力画像を目視で確認すると，正解出力と比べて輪郭線が太くなっている．これは，輪郭点付近を中心として切り取った画像を誤分類してしまっていることを意味する．今回の問題設定では，各画素を中心として切り取った部分画像を分類しているため，数ピクセルずれただけの部分画像の差分は小さい．そのため，図 6 に示すように非常に似た画像でありながら，異なるクラスとなる部分画像が存在する．これらは，部分画像から得られる特徴に差がなく，正確に分類することが困難であったと考えられる．輪郭点クラス付近の誤分類は多いものの，再現率の観点からは輪郭点を網羅できているのが分かる．より細い直線を得るためには，得られた出力画像に対してスケーリング処理を施すなどして，正解出力に近い主観的輪郭線を得ることなどが考えられる．

3.2 直線型誘導図形に対する評価

ここでは，直線型誘導図形によって構成される主観的輪郭線の抽出を試みる．本実験では，図 7 に示した 2 種類の画像を基本形として，誘導図形間の距離を変化させた 3 パターン，誘導図形を 100%と 75%でスケーリングさせた 2 パターンを組み合わせ，合計 12 枚の入力画像から部分画像を作成した．非直線型誘導図形の画像とは異なり，近傍領域のみで輪郭点と判断することが可能だと考えられるため，サイズ 128× 128 の画像から，各画素を中心とした 64× 64 の部分画像を作成した．2.2 節で述べた方法で学習データの作成を行い， 1 枚の画像から輪郭点クラスの部分画像 400 枚，背景クラスの部分画像 400 枚を収集した．さらに，学習率 の初期値は α0= 0.0003 とした．図 8 に，直線型誘導図形のテスト画像とそれらに対する出力結果を示す．図 8 から，図中の画像 1，2，3 に対しては，再現率の高い出力結果を得ることができた．また，図中の画像 4 のような主観的輪郭線が生成されない画像に対しては，白紙に近い出力が得られた．しかし，図中の画像 5 のような学習用画像に含まれていない形状をもった画像に対しては，主観的輪郭線部分の出力は得られなかった．

4 おわりに

本稿では，画像中のオブジェクトによって補完されるような形で知覚される主観的輪郭線に注目し，計算機による自動抽出を目的として，Deep Learning に基づいたモデルの提案をした．提案手法では，主観的輪郭線の抽出を，入力画像の各画素が主観的輪郭線の一

(5)

図 5: 非直線型誘導図形のテスト画像とそれらに対する出力結果図 6: 輪郭点ラベルをもつ部分画像と輪郭点ラベル付近の背景ラベルをもつ部分画像の例部である輪郭点となるか，そうでないかを分類する二値分類問題として取り扱った．各画素を分類するために，精度の良さから注目を集める Deep Learning を用いて主観的輪郭線抽出に取り組んだ．Deep Learning を用いる利点として，モデル内のパラメータを学習することで，画像からの特徴抽出および分類処理を自動で構築することが挙げられる．非直線型誘導図形と直線型誘導図形の両方に対して評価実験を行い，それぞれの図形に対して学習したモデルの主観的輪郭線抽出性能を評価した．その結果，提案手法は，ある程度主観的輪郭線の抽出が可能であることが確認できた．しかしながら，全てのパターンに対応可能なモデルの構築までは至らなかった．具体的には，誘導図形間の距離が大きくなる場合や，直線型誘導図形の方位によっては主観的輪郭線を捉えられないケースがあった．これに対処するためには，誘導図形のスケールや線分の方位を統一させる等の前処理をすることや，学習データの種類数を増やすことなどが対応策として考えられる．さらに，今回は直線型誘導図 7: 学習データの作成に用いた直線型誘導図形の基本画像と対応する正解出力図形と非直線型誘導図形のそれぞれに対してモデルを学習したが，両方の図形パターンから適切に主観的輪郭線の抽出が行える統一したモデルを構築することが今後の課題として挙げられる．

参考文献

[1] 内川恵次：視覚心理入門–基礎から応用視覚まで–，オーム社(2009) [2] 廣瀬修，長尾智晴：誘導図形を滑らかに接続する主観的輪郭線のモデル，映像情報メディア学会誌，Vol. 61, No. 10, pp. 1496–1503 (2007) [3] 塚田章，川原田淳，佐々木和男：明るさ知覚の特徴抽出モデルによる主観的図形のシュミレーション，電子情報通信学会論文誌，Vol. J-78-D-2, No. 12, pp. 1868–1876 (1995) [4] 村越一支，三上勝正，倉田是：単眼視2次元図形の奥行き感計算モデル，電子情報通信学会論文誌，Vol. J-80-D-2, No. 1, pp. 286–294 (1997)

(6)

図 8: 直線型誘導図形のテスト画像とそれらに対する出力結果

[5] 石寺永記，荒井祐之，土屋雅彦，宮内祐子，高橋信一，栗田正一：主観的輪郭の形成に関する視覚情報処理モデル，電子情報通信学会論文誌，Vol. J-76-D-2, pp. 873–880 (1993)

[6] Kim, Y. and Morie, T.: A pixel-parallel anisotropic diﬀusion algorithm for subjective contour generation,

Proceedings of the 2005 IEEE International Sympo-sium on Circuits and Systems (ISCAS 2005), Vol. 5,

pp. 4237–4240 (2005) [7] 神嶌敏弘，松尾豊：連載解説「Deep Learning(深層学習)」にあたって，人工知能学会誌，Vol. 28, No. 3, pp. 472–473 (2013) [8] 大野淳也，白川真一，大原剛三：ニューラルネットワークを用いた主観的輪郭線知覚モデルの学習，人工知能学会第102回知識ベースシステム研究会資料， SIG-KBS-B401, pp. 1–7 (2014)

[9] Nair, V. and Hinton, G. E.: Rectified linear units im-prove restricted Boltzmann machines, Proceedings of

the 27th International Conference on Machine Learn-ing (ICML-10), pp. 807–814 (2010)

[10] Alex, K., Ilya, S. and Hinton, G. E.: ImageNet clas-sification with deep convolutional neural networks,

Advances in Neural Information Processing Systems 25, pp. 1106–1114 (2012)

[11] Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., and Darrell, T.: Caﬀe: convolutional architecture for fast feature embedding, arXiv preprint, arXiv:1408.5093 (2014) [12] Hinton, G. E., Srivastava, N., Krizhevsky, A.,

Sutskever, I., and Salakhutdinov, R. R.: Improv-ing neural networks by preventImprov-ing co-adaptation of feature detecters, arXiv preprint, arXiv:1207.0580 (2012)