• 検索結果がありません。

Deep Learning による主観的輪郭線の抽出

N/A
N/A
Protected

Academic year: 2021

シェア "Deep Learning による主観的輪郭線の抽出"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

Deep Learning

による主観的輪郭線の抽出

Subjective Contour Extraction Using Deep Learning

大野淳也

1

白川真一

2

大原剛三

3

豊田哲也

3

Junya Ohno

1

Shinichi Shirakawa

2

Kouzou Ohara

3

Tetsuya Toyota

3

1

青山学院大学大学院理工学研究科

1

Graduate School of Science and Engineering, Aoyama Gakuin University

2

横浜国立大学大学院環境情報研究院

2

Faculty of Environment and Information Science, Yokohama National University

3

青山学院大学理工学部

3

College of Science and Engineering, Aoyama Gakuin University

Abstract: Human vision perceives an object by extracting the feature information of the light projected on retina such as color, brightness and more. Human can perceive a contour even when there is no change of characteristic in the image. This type of contour is called subjective con-tour, and the mechanism of its perception has yet to be completely become clear. Therefore, the automatic extraction of the subjective contours by a computer is still regarded as a difficult prob-lem. On the other hand, recently, deep learning is attracting much attention. This methodology is only needed the supervised data and possible to learn not only a classifier but also a classifier into which the feature extraction process is embedded. In this report, we propose a method that takes advantage of deep learning and realize the extraction of subjective contours. Specifically, we reduce the task to a binary classification problem of pixels (classification of subjective contour pixel or background pixel). To solve this problem, we create the partial images trimmed around the target pixel with a certain square, and then obtain the model to classify the partial images using deep learning. We use a convolutional neural network as the deep learning architecture in order to extract the features in the local region of the target pixel. Then, we evaluated the extrac-tion performance of the subjective contours for two types of images with different figures, the line objects and the block objects, producing a subjective contour.

1

はじめに

人の視覚は,網膜に映し出された光から色や明るさ 等の特徴情報を抽出することで物体の色や形を知覚し ている.その中でも輪郭線の知覚は,物体認知や形状 認知をする上で非常に重要である.輪郭線は,色や輝 度の急激な変化が生じた部分に知覚されるが,このよ うな輪郭線の知覚メカニズムに反して,色や輝度の変 化が生じていないにも関わらず知覚される輪郭線が存 在する [1].これを主観的輪郭線と呼ぶ.主観的輪郭線 が知覚される画像の例を図 1 に示す.本研究では,図 1(上段)ような,画像内のオブジェクトが非直線型誘 導図形によって生成される画像と,図 1(下段)のよう な,画像内のオブジェクトが直線型誘導図形によって 連絡先:横浜国立大学大学院環境情報研究院        〒 240-8501 神奈川県横浜市保土ヶ谷区常盤台 79-7        E-mail: [email protected] 生成される画像の 2 種類に分けて考える. 主観的輪郭線は,画像中に存在する図形(誘導図形) の距離,大きさ,形,図形と背景の輝度の関係,誘導図 形を定義する視覚的特徴等が関係して生成されるとい う見解があるが,そのメカニズムは完全には明らかに なっていない.主観的輪郭線抽出を実現することがで きれば,将来的には,遮蔽物の存在し得る環境での画 像処理による製品検査などに役立つと期待される.ま た,画像生成といった観点からは,遮蔽情報を応用した ロゴやアイキャッチの作成に応用できると考えられる. 画像から主観的輪郭線を生成,知覚しようとする研 究は,これまでにも存在する [2–6].石寺らは,ヒトの 視覚系は色や輝度の変化が生じなくとも,主観的輪郭 線のような仮想線を知覚できることから,これを補完 問題として考えることができるとして,生理学的データ に基礎をおく階層的視覚情報処理モデルを提案してい 人工知能学会研究会資料 SIG-KBS-B504-03

(2)

図 1: 非直線型誘導図形(上段)と直線型誘導図形(下 段)によって主観的輪郭線が生成される画像の例 る [5].廣瀬らは,誘導図形を滑らかに接続することで 主観的輪郭線の生成を試みた [2].この研究では,輪郭 線の生成に関する特徴的な座標 (カーネル)を検出し, そのカーネルから輪郭線が知覚される可能性(ポテン シャル) を計算し,ポテンシャルに連続性が認められ たときに輪郭線を生成している.しかしこの研究では, ガボールフィルタや Difference Of Gausian (DOG) 関数等を用いた人為的な設計を介することでカーネル 検出を行い,得られたカーネルを基に主観的輪郭線の 抽出を行っているため,設計上想定されていない入力 パターンは対応することが困難である.また,「主観的 輪郭線によって生成される閉じた図形は周りと比べて 明るく見える」という特徴を利用して,明るさが異なっ た場合に図形が知覚されるアルゴリズムを提案した研 究 [3] や,画像中における各オブジェクトの奥行きに着 目した研究 [4] もあるが,これらの研究では対象とし て取り扱っている入力パターンの数が少なく,誘導図 形の形状を変更した場合に対処できるのかが定かでは ない.特に,誘導図形が線分の画像は対象としていな い.Kim らは,画像の各画素毎に,どの方向に主観的 輪郭線が生成されるのかを検出するアルゴリズムを提 案している [6].この手法は,各画素がどのような方位 を持った画素なのかを算出する異方性拡散アルゴリズ ムと,これらの方位をどのようにつなぎ合わせるかを 算出する輪郭線出力アルゴリズムに分かれている.こ れらを用いて,各画素が輪郭線の一部となる画素(輪 郭点)であるか,そうでないかを判別している. ここまでに紹介した従来研究では,経験的知見を基 に主観的輪郭線の抽出を試行錯誤的に考案している.そ のため,経験的知見に反するような入力に対応するこ とが難しいという問題がある.一方,近年ニューラル ネットワークを多層化した Deep Learning と呼ばれる 機械学習手法が,画像認識や音声認識などの分野で注 目を集めている [7].これまでの画像認識では,人為的 に特徴量の抽出を行うことで物体認識を実現していた が, Deep Learning では,入力画像そのものと正解ラ ベルを与えるだけで特徴抽出処理を含めた分類器の学 習が可能となり,より柔軟なモデルの構築が実現可能 となった. 本研究の目的は,様々なパターンの主観的輪郭線を抽 出可能なモデルを経験的に設計された処理に依存せず に構築することである.これを実現するために,Deep Learning を利用し,機械学習に基づくアプローチで問 題解決に取り組む.具体的には,主観的輪郭線を入力 画像から直接抽出するのではなくではなく,画像内の 各画素が輪郭線を形成する画素(輪郭点)であるかそ うでないかの二値分類問題として考える.この二値分 類問題を Deep Learning によって解くことで,主観的 輪郭線の抽出を行う.そのため,従来手法と比べて,人 為的な設計を介さずに特徴量を抽出することが期待で きるため,より柔軟なモデルの構築が期待できる.著 者らはこれまでにも,ニューラルネットワークを用い たアプローチによって,主観的輪郭線知覚モデルを構 築する試みをしている [8] が,本研究は画素毎の分類 問題を Deep Learning で解いており,方法論が文献 [8] とは異なる.

2

Deep Learning

による主観的輪

郭線の抽出

2.1

問題設定

本研究では,各画素が主観的輪郭となる画素(輪郭 点)なのか,そうではない画素(背景画素)なのかを 分類する二値分類問題を解くことで,画像中の主観的 輪郭線の抽出を実現する.つまり,画像中の各画素を 中心とした部分画像を入力とし,その部分画像の中心 画素が輪郭点となるか否かを分類することがタスクと なる.

2.2

学習データの作成

サイズ M×N の入力画像から,各画素を中心とした k× k(k ≤ M, k ≤ N) の部分画像 M × N 枚を得る.た だし,画像の外の領域については,白の画素で埋める こととする.取得した各部分画像の教師ラベルは,中 心画素が輪郭点クラスなのか背景クラスなのかで決定 する.図 2 に学習データ作成の概要と部分画像の例を 示す. 1 枚の入力画像から得られる輪郭点クラスの部分画像 の数は,背景クラスの部分画像の数と比べて極めて少 ない.全部分画像を用いてしまうとクラスに偏りが生 じ,学習が効率的に行なえない可能性があるため,次 のような規準に基づいて学習データを選択する. 1. 学習用画像の輪郭点クラスと背景クラスの部分画 像枚数は同数程度とする.

(3)

図 2: 学習データ作成の概要と部分画像の例 2. 輪郭点クラスの部分画像 n 枚をランダムに選択 する. 3. 背景クラスの部分画像は,輪郭点ラベルを持つ画 素の近傍 20× 20 画素を中心とした部分画像と, 入力画像で隣接画素に黒画素が存在する白画素を 中心とした部分画像から,それぞれ n/2 枚ずつ 選択する. 図 3 に学習用画像に用いる中心画素選択の概要を示す. 図中の黒で塗りつぶされている画素を中心とした部分 画像から学習データを選択することになる.背景ラベ ル (1) は,輪郭点ラベルを持つ画素の近傍画素を中心 とした部分画像を用いることを表しており,背景ラベ ル (2) は,隣接画素に黒画素が存在する白画素を中心 とした部分画像を用いることを表している.

2.3

ニューラルネットワークモデル概要

提案手法では,各部分画像の中心画素が輪郭点クラス に属するのか,背景クラスに属するのかを判別するモデ ルに,畳み込みニューラルネットワーク(Convolutional Neural Network; CNN)を利用する.CNN では画像 を入力とし,畳み込み演算やプーリング,正規化といっ た処理が各層で行われれていく.畳み込み演算を行う 層では,ニューラルネットワークの結合が局所的な領 域に限定されているとともに,各局所領域の重みが共 有される.畳み込み演算によって算出された値は,活 性化関数への入力となる.提案手法では,活性化関数 に次の ReLU (Rectified Linear Unit) [9] を用いる.

h(x) = max(0, x) (1) また,プーリング処理では局所領域内の平均値や最大 値を計算し,画像サイズを縮小することで,画像の些細 な幾何情報の違いに対する不変性を実現する.提案手法 では,局所領域内の最大値を返す max pooling を使用し た.正規化層では,Local Response Normalization [10] と呼ばれる正規化によって,畳み込み層,プーリング 図 3: 学習用画像に用いる中心画素選択の概要図 層を経て得られた複数の特徴マップの同じ位置の値を 正規化する. CNN では,畳み込み層やプーリング層を複数回経由 することで,画像の特徴抽出処理を実現する.その後, 通常の全結合型ネットワークにより画像のクラス分類 の処理を行う.提案手法では,全結合層での活性化関 数にも ReLU を用いた.本研究の対象問題は二値分類 問題であるため,出力層のユニットは 2 つになる.出 力層の活性化関数はソフトマックス関数とし,損失関 数には交差エントロピー誤差関数を用いる. 実験で使用したネットワークは「入力 – 畳み込み層 – プーリング層 – 正規化層 – 畳み込み層 – プーリング 層 – 正規化層 – 全結合層 – 全結合層 – 出力」の構成と なっている.なお,提案手法の実装には Deep Learning のフレームワーク caffe [11] を使用している. CNN の重みの最適化には確率的勾配降下法 (SGD) を用い,学習率を次のように設定した. α0× 0.1⌊ iter 100 (2) ここで,α0は,学習率の初期値であり,iter は更新回 数である. さらに,過学習の抑制を目的に Dropout [12] と呼ば れる方法を用いる.Dropout は,ある層において,学 習時に確率 p でランダムにユニットの出力を 0 に設定 して,重みの学習をする.これによって,特定のユニッ ト間の重みが強く結び付くことを防ぐことができるた め,過学習を防ぐことができるとされている.提案手 法では,p = 0.5 として実験を行っている.

3

評価実験

提案手法を用いて主観的輪郭線の抽出が行えるかを, 非直線型誘導図形と直線型誘導図形から構成される 2 つの画像パターンについて別々に検証を行う.主観的 輪郭線の抽出性能は,輪郭点クラスを対象とした適合 率 (Precision),再現率 (Recall),F 値 (F-measure) で 評価する.ここで,適合率は輪郭点と予測したデータ

(4)

図 4: 学習データの作成に用いた非直線型誘導図形の 基本画像と対応する正解出力 のうち,実際に輪郭点であるものの割合である.また, 再現率は実際に輪郭点であるもののうち,輪郭点であ ると予測されたものの割合である.最後に,F 値は適 合率と再現率の調和平均である.

3.1

非直線型誘導図形に対する評価

ここでは,非直線型誘導図形によって生成される主 観的輪郭線の抽出を試みる.図 4 に示した 2 種類の画 像を基本形として,誘導図形間の距離を 6 pixel 刻みで 変化させた画像 4 パターン,画像全体を 10 度刻みで回 転させた 8 パターン,誘導図形を 100%と 75%でスケー リングさせた 2 パターンを組み合わせ,合計 128 枚の 入力画像から部分画像を作成した.部分画像中の中心 画素が輪郭点であるかを判断するためには,部分画像 中に誘導図形が含まれている必要があると考えたため, 本実験ではサイズ 128× 128 の入力画像から,各画素 を中心とした 128× 128 の部分画像を作成した.2.2 節 で述べた方法で学習データの作成を行い,1 枚の入力 画像から輪郭点クラスの部分画像 400 枚 ,背景クラス の部分画像 400 枚を収集した.さらに,学習率の初期 値は α0= 0.0005 とした. 検証のために用いるテスト画像には,学習データに 利用した画像に対して線分を加えて変化させたものや, 主観的輪郭線の形状が平行四辺形やひし形,二等辺三 角形となるような画像を用いた.また,主観的輪郭線 が生成されないようなテスト画像も使用して出力結果 を確認した.図 5 に,非直線型誘導図形のテスト画像 とそれらに対する出力結果を示す. 図 5 より,図中の画像 1,2,4,5 に対しては高い再 現率をもつ出力結果を得られた.また,主観的輪郭線が 生成されない画像である図中の画像 3 に対しても,白 紙に近い出力が得られた.しかし,図中の画像 6 では, 底辺を形成する輪郭線の一部分の抽出はできているが, 補完することで得られる輪郭線の抽出ができていない ことが確認できる.これは,学習用画像に図中の画像 6 の底辺部分と同等の誘導図形間の距離をもつパターン が含まれていなかったことが原因であると考えられる. 図 5 の非直線型誘導図形に対する出力画像を目視で 確認すると,正解出力と比べて輪郭線が太くなってい る.これは,輪郭点付近を中心として切り取った画像を 誤分類してしまっていることを意味する.今回の問題 設定では,各画素を中心として切り取った部分画像を 分類しているため,数ピクセルずれただけの部分画像 の差分は小さい.そのため,図 6 に示すように非常に 似た画像でありながら,異なるクラスとなる部分画像 が存在する.これらは,部分画像から得られる特徴に 差がなく,正確に分類することが困難であったと考え られる.輪郭点クラス付近の誤分類は多いものの,再 現率の観点からは輪郭点を網羅できているのが分かる. より細い直線を得るためには,得られた出力画像に対 してスケーリング処理を施すなどして,正解出力に近 い主観的輪郭線を得ることなどが考えられる.

3.2

直線型誘導図形に対する評価

ここでは,直線型誘導図形によって構成される主観 的輪郭線の抽出を試みる.本実験では,図 7 に示した 2 種類の画像を基本形として,誘導図形間の距離を変化 させた 3 パターン,誘導図形を 100%と 75%でスケー リングさせた 2 パターンを組み合わせ,合計 12 枚の入 力画像から部分画像を作成した.非直線型誘導図形の 画像とは異なり,近傍領域のみで輪郭点と判断するこ とが可能だと考えられるため,サイズ 128× 128 の画 像から,各画素を中心とした 64× 64 の部分画像を作成 した.2.2 節で述べた方法で学習データの作成を行い, 1 枚の画像から輪郭点クラスの部分画像 400 枚 ,背景 クラスの部分画像 400 枚を収集した.さらに,学習率 の初期値は α0= 0.0003 とした. 図 8 に,直線型誘導図形のテスト画像とそれらに対 する出力結果を示す.図 8 から,図中の画像 1,2,3 に対しては,再現率の高い出力結果を得ることができ た.また,図中の画像 4 のような主観的輪郭線が生成 されない画像に対しては,白紙に近い出力が得られた. しかし,図中の画像 5 のような学習用画像に含まれて いない形状をもった画像に対しては,主観的輪郭線部 分の出力は得られなかった.

4

おわりに

本稿では,画像中のオブジェクトによって補完され るような形で知覚される主観的輪郭線に注目し,計算 機による自動抽出を目的として,Deep Learning に基 づいたモデルの提案をした.提案手法では,主観的輪 郭線の抽出を,入力画像の各画素が主観的輪郭線の一

(5)

図 5: 非直線型誘導図形のテスト画像とそれらに対する出力結果 図 6: 輪郭点ラベルをもつ部分画像と輪郭点ラベル付 近の背景ラベルをもつ部分画像の例 部である輪郭点となるか,そうでないかを分類する二 値分類問題として取り扱った.各画素を分類するため に,精度の良さから注目を集める Deep Learning を用 いて主観的輪郭線抽出に取り組んだ.Deep Learning を用いる利点として,モデル内のパラメータを学習す ることで,画像からの特徴抽出および分類処理を自動 で構築することが挙げられる. 非直線型誘導図形と直線型誘導図形の両方に対して 評価実験を行い,それぞれの図形に対して学習したモ デルの主観的輪郭線抽出性能を評価した.その結果,提 案手法は,ある程度主観的輪郭線の抽出が可能である ことが確認できた.しかしながら,全てのパターンに 対応可能なモデルの構築までは至らなかった.具体的 には,誘導図形間の距離が大きくなる場合や,直線型 誘導図形の方位によっては主観的輪郭線を捉えられな いケースがあった.これに対処するためには,誘導図 形のスケールや線分の方位を統一させる等の前処理を することや,学習データの種類数を増やすことなどが 対応策として考えられる.さらに,今回は直線型誘導 図 7: 学習データの作成に用いた直線型誘導図形の基 本画像と対応する正解出力 図形と非直線型誘導図形のそれぞれに対してモデルを 学習したが,両方の図形パターンから適切に主観的輪 郭線の抽出が行える統一したモデルを構築することが 今後の課題として挙げられる.

参考文献

[1] 内川 恵次:視覚心理入門–基礎から応用視覚まで–, オーム社(2009) [2] 廣瀬 修,長尾 智晴:誘導図形を滑らかに接続する主観 的輪郭線のモデル,映像情報メディア学会誌,Vol. 61, No. 10, pp. 1496–1503 (2007) [3] 塚田 章,川原田 淳,佐々木 和男:明るさ知覚の特徴抽出 モデルによる主観的図形のシュミレーション,電子情報 通信学会論文誌,Vol. J-78-D-2, No. 12, pp. 1868–1876 (1995) [4] 村越 一支,三上 勝正,倉田 是:単眼視2次元図形の奥 行き感計算モデル,電子情報通信学会論文誌,Vol. J-80-D-2, No. 1, pp. 286–294 (1997)

(6)

図 8: 直線型誘導図形のテスト画像とそれらに対する出力結果

[5] 石寺 永記,荒井 祐之,土屋 雅彦,宮内 祐子,高橋 信一,栗田 正一:主観的輪郭の形成に関する視覚情報 処理モデル,電子情報通信学会論文誌,Vol. J-76-D-2, pp. 873–880 (1993)

[6] Kim, Y. and Morie, T.: A pixel-parallel anisotropic diffusion algorithm for subjective contour generation,

Proceedings of the 2005 IEEE International Sympo-sium on Circuits and Systems (ISCAS 2005), Vol. 5,

pp. 4237–4240 (2005) [7] 神嶌 敏弘,松尾 豊: 連載解説「Deep Learning(深層 学習)」にあたって,人工知能学会誌,Vol. 28, No. 3, pp. 472–473 (2013) [8] 大野 淳也,白川 真一,大原 剛三:ニューラルネット ワークを用いた主観的輪郭線知覚モデルの学習,人工知 能学会第102回知識ベースシステム研究会資料, SIG-KBS-B401, pp. 1–7 (2014)

[9] Nair, V. and Hinton, G. E.: Rectified linear units im-prove restricted Boltzmann machines, Proceedings of

the 27th International Conference on Machine Learn-ing (ICML-10), pp. 807–814 (2010)

[10] Alex, K., Ilya, S. and Hinton, G. E.: ImageNet clas-sification with deep convolutional neural networks,

Advances in Neural Information Processing Systems 25, pp. 1106–1114 (2012)

[11] Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., and Darrell, T.: Caffe: convolutional architecture for fast feature embedding, arXiv preprint, arXiv:1408.5093 (2014) [12] Hinton, G. E., Srivastava, N., Krizhevsky, A.,

Sutskever, I., and Salakhutdinov, R. R.: Improv-ing neural networks by preventImprov-ing co-adaptation of feature detecters, arXiv preprint, arXiv:1207.0580 (2012)

図 1: 非直線型誘導図形(上段)と直線型誘導図形(下 段)によって主観的輪郭線が生成される画像の例 る [5] .廣瀬らは,誘導図形を滑らかに接続することで 主観的輪郭線の生成を試みた [2].この研究では,輪郭 線の生成に関する特徴的な座標 (カーネル)を検出し, そのカーネルから輪郭線が知覚される可能性(ポテン シャル) を計算し,ポテンシャルに連続性が認められ たときに輪郭線を生成している.しかしこの研究では,
図 2: 学習データ作成の概要と部分画像の例 2. 輪郭点クラスの部分画像 n 枚をランダムに選択 する. 3. 背景クラスの部分画像は,輪郭点ラベルを持つ画 素の近傍 20 × 20 画素を中心とした部分画像と, 入力画像で隣接画素に黒画素が存在する白画素を 中心とした部分画像から,それぞれ n/2 枚ずつ 選択する. 図 3 に学習用画像に用いる中心画素選択の概要を示す. 図中の黒で塗りつぶされている画素を中心とした部分 画像から学習データを選択することになる.背景ラベ ル (1) は,輪郭点ラベルを持
図 4: 学習データの作成に用いた非直線型誘導図形の 基本画像と対応する正解出力 のうち,実際に輪郭点であるものの割合である.また, 再現率は実際に輪郭点であるもののうち,輪郭点であ ると予測されたものの割合である.最後に,F 値は適 合率と再現率の調和平均である. 3.1 非直線型誘導図形に対する評価 ここでは,非直線型誘導図形によって生成される主 観的輪郭線の抽出を試みる.図 4 に示した 2 種類の画 像を基本形として,誘導図形間の距離を 6 pixel 刻みで 変化させた画像 4 パターン,画像全体
図 5: 非直線型誘導図形のテスト画像とそれらに対する出力結果 図 6: 輪郭点ラベルをもつ部分画像と輪郭点ラベル付 近の背景ラベルをもつ部分画像の例 部である輪郭点となるか,そうでないかを分類する二 値分類問題として取り扱った.各画素を分類するため に,精度の良さから注目を集める Deep Learning を用 いて主観的輪郭線抽出に取り組んだ.Deep Learning を用いる利点として,モデル内のパラメータを学習す ることで,画像からの特徴抽出および分類処理を自動 で構築することが挙げられる. 非
+2

参照

関連したドキュメント

 内部形態:小葉の横切面(Fig.1-B, C)はほぼ直線状で,主脈部上面は通常平坦,まれにわずかに突出あるいは埋

絡み目を平面に射影し,線が交差しているところに上下 の情報をつけたものを絡み目の 図式 という..

この節では mKdV 方程式を興味の中心に据えて,mKdV 方程式によって統制されるような平面曲線の連 続朗変形,半離散 mKdV

の総体と言える。事例の客観的な情報とは、事例に関わる人の感性によって多様な色付けが行われ

本検討で距離 900m を取った位置関係は下図のようになり、2点を結ぶ両矢印線に垂直な破線の波面

2.2.2.2.2 瓦礫類一時保管エリア 瓦礫類の線量評価は,次に示す条件で MCNP コードにより評価する。

瓦礫類の線量評価は,次に示す条件で MCNP コードにより評価する。 なお,保管エリアが満杯となった際には,実際の線源形状に近い形で

2.2.2.2.2 瓦礫類一時保管エリア 瓦礫類の線量評価は,次に示す条件で MCNP コードにより評価する。