• 検索結果がありません。

画像中のオブジェクト検出精度に影響を与える連想概念辞書構造の評価

N/A
N/A
Protected

Academic year: 2021

シェア "画像中のオブジェクト検出精度に影響を与える連想概念辞書構造の評価"

Copied!
5
0
0

読み込み中.... (全文を見る)

全文

(1)

画像中のオブジェクト検出精度に影響を与える

連想概念辞書構造の評価

Evaluation of Associative Concept Dictionary

for Accuracy Improvement of Image Objects Detection

上地泰彰

1

渡邊紀文

2

亀田弘之

3

Yasuaki Uechi

1

Norifumi Watanabe

2

Hiroyuki Kameda

3

1

東京工科大学 バイオ・情報メディア研究科

1

Graduate School of Bionics, Information and Media Sciences,

Tokyo University of Technology

2

産業技術大学院大学 産業技術研究科

2

Graduate School of Industrial Technology, Advanced Institute of Industrial Technology

3

東京工科大学 コンピュータサイエンス学部

3

School of Computer Science, Tokyo University of Technology

Abstract: In previous research, object detection systems used to utilize image features but not a background knowledge of an object within images. We propose new method to utilize this knowledge to improve an accuracy of object detection. Associative concept dictionary is the one kind of a structured knowledge database of humans sensitivity. For improving accuracy to detect image objects, we evaluated associative concept dictionary to find out which concept of the dictionary is suitable for reducing detection errors. We used Google Image Search to obtain images and deep neural network (YOLO9000) to detect objects within images. In this experiment, we picked three words: harbor, classroom and guestroom. And the result of the experiment shows Part/Material concept in associative concept dictionary is the most frequently appeared concept. We found out that Part/Material concept is the most suitable for improving object detection accuracy.

1

はじめに

画像中のオブジェクト検出タスクにおいて,これま でに多様な手法が提案されてきた.近年では,深層学 習を用いたモデルが提案されており,R-CNN[1],Fast R-CNN[2],Faster R-CNN[3],YOLO[4],Single Shot Multi-box Detector[5] などが代表的である. 一方で,これらのモデルでは誤検出が問題となり,特 に人間の判断基準では不適当な組み合わせでオブジェ クトが検出されることがある.具体例として,庭園が 写っている縁側の写真にある樹木をブロッコリーと検 出する事例などが挙げられる. このようなオブジェクト検出についての一つの課題 として,従来は画像の特徴のみを利用し,人間が持っ ているような画像とそこに含まれる物体に関する背景 連絡先:東京工科大学大学院 コンピュータサイエンス学科       〒 192-0914 東京都八王子市片倉町 1404 − 1        E-mail: [email protected] 知識が考慮されていない点が挙げられる. このような人間の背景知識を利用するにあたり,本研 究では人間の連想に基づく言語間の関係をデータベー ス化した連想概念辞書 [6] に着目する. そこでまず始めに,連想概念辞書を用いて画像中の 物体検出タスクの精度を向上させるために,前段階と して連想概念辞書のどの概念がオブジェクト検出に対 して使えるかの比較検討を行った.

1.1

連想概念辞書

連想概念辞書とはある単語を提示された際に連想す る単語を,類似する概念の種別に構造化した辞書のこ とであり,岡本ら [6] によって構築された. 辞書には連想の元となる刺激語と,刺激語から連想 された連想語のペアが存在し,ペアに対して連想に要 した時間や距離などのメタデータが与えられている. 人工知能学会研究会資料 SIG-KBS-B507-02

(2)

連想語には属している概念を意味する番号が割り振 られており,1 が上位概念,2 が下位概念,3 が部分・ 材料概念,4 が属性概念,5 が類義概念,6 が動作概念, 7 が環境概念,8 が関連語を示している. 刺激語ごとに被験者 50 人が上記 7 つの概念に対して 連想を行い,その結果が辞書に収められている. 「上位」「下位」は刺激語と比較して上位か下位かの 階層を表し,「部分・材料」「属性」は刺激語を構成する 特徴的要素を,「類義」は刺激語の類義語を,「動作」は 刺激語が伴う動作を,「環境」は刺激語が用いられる状 況を表している. 例として,「辞書」を刺激語として与えた場合は,上 位概念として「書物」,下位概念として「国語辞典」, 部分材料概念として「見出し語」,属性概念として「便 利」,類義語として「辞典」,動作概念として「引く」, 環境概念として「図書館」が連想語として考えられる. 概念の距離 D とは,刺激語と連想語の間の距離のこ とであり,次式で求められる.ただし,F を連想頻度, S を連想順位,T を連想時間とする. D = α× F × β × S + γ × T 距離が小さいほど,刺激語と連想語は近い関係にあ ると定義している. 本研究では各概念で連想される語と連想距離が,オ ブジェクト検出結果とどのような関係にあり,検出精 度を高めるためにはどの概念を利用するべきかを分析 する.

2

実験手法

2.1

画像の収集

実験に使用する画像を収集するにあたり,Google 画 像検索を用いて,クエリに対応した画像をダウンロー ドし,各クエリに対し 100 枚前後の画像を用意した. ダウンロードした画像セットの内,検索ノイズによ り混入したクエリと無関係な画像は人手で選び出し取 り除いた. クエリに関しては,1 枚の画像中に自然物や人工物 など,複数個のオブジェクトが含まれている可能性が 高いワードを選択する.本研究では,’ 港 (harbor)’, ’ 教室 (classroom)’, ’ 客室 (guestroom)’ に絞り込み,実 験を行った.’ 客室’ に関しては,連想概念辞書に一致 する連想語が存在しないため,主に’ 客室’ の画像に表 示されていた’ ホテル’ を用いて代替とした.

2.2

オブジェクト検出

取得した画像中に含まれるオブジェクトを抽出する にあたり,Redmon らによる YOLO9000[4] モデルを用 いた. YOLO9000 は,与えられた画像を等間隔の領域に分 割し,それぞれの領域で構成可能な全領域集合に対し てオブジェクトのバウンディングボックスと確率を予 測するモデルである. モデルの学習には MS COCO[7] データセットを用 い,収集した画像を正規化のために 608x608 にリサイ ズした上で YOLO9000 に与え,画像中に含まれている オブジェクトを求めた. なお,ノイズ除去のために検出頻度が 4 以上のオブ ジェクトのみを考察での比較対象とした.

2.3

検出結果と連想概念辞書との比較

今回は,オブジェクトが検出された回数と,そのオ ブジェクトに対応する連想語の距離を比較し,検出さ れた回数が多くかつ連想語との距離が小さい方が,よ り関連度が高いものであるとみなした.検出されたオ ブジェクトと,その単語を含む連想概念辞書の概念,ま た連想距離から,オブジェクト検出に最も関係のある 概念を分析する. また,検出結果と辞書を比較する際には同義語処理 を行い,同一の概念に属する複数の連想語が与えられ た場合は,それぞれの連想距離の算術平均を取り,距 離の代表値とした.

3

実験結果

港,教室,ホテルの 3 つの語に対するオブジェクト 検出と連想概念辞書の結果を以下に示す.グラフでは, 横軸に検出されたオブジェクト名,縦軸に検出回数を プロットした.

3.1

オブジェクト検出結果と連想概念辞書と

の比較

3.1.1 港 クエリ’harbor’ で検索した画像を 80 枚収集し,物体 検出器で 328 個,11 種類のオブジェクトを得た. 図 1 を見ると,’boat’ という単語が最も多く検出さ れていることが分かる.また,aeroplace(飛行機) につ いては,その全てが船を誤って認識していた. また,オブジェクト検出結果と連想概念辞書の該当 する概念とその連想距離を並べた結果を表 1 に示す.複

(3)

図 1: ’harbor’ 画像に対して検出されたオブジェクト 数の概念がある場合は,それぞれの概念の距離の算術 平均を距離とした.表 1 から,検出されたオブジェクト は主に 3 の部分材料概念と関係していることが分かる. 表 1: ’ 港’ に対する検出結果と連想概念辞書との対応 検出結果 検出回数 連想語 距離 boat 279 舟 (2) 8.4 舟 (3), 船 (3) 3.1 舟 (4) 8.4 船 (5) 8.6 船 (7) 10.0 船 (8) 7.0 aeroplane(誤) 16 飛行機 (3) 9.2 person 16 人 (3) 6.4 人 (8) 8.4 bicycle 5 N/A N/A 表 1 から,主に部分・材料概念 (3) と関連する単語 が多いことが見受けられる. 3.1.2 教室 クエリ’classroom’ で検索した画像を 73 枚収集し,物 体検出器で 656 個,20 種類のオブジェクトを得た. ’ 教室’ については,図 2 を見ると,’chair’ が最も 多く,次いで’person’ が検出されており,’tvmonitor’ と’bench’ がそれぞれ誤検出されている.表 2 の連想距 離の結果から表 1 の結果と同様に 3 の部分材料概念と 関係していることがわかる. 図 2: ’classroom’ 画像に対して検出されたオブジェクト 表 2: ’ 教室’ に対する検出結果と連想概念辞書との対応 検出結果 検出回数 連想語 距離 chair 370 椅子 (2) 7.3 椅子 (3) 2.0 person 143 生徒 (3) 4.4 生徒 (4) 8.6 diningtable 54 机 (2) 5.7 机 (3) 1.7 机 (4) 7.6 tvmonitor(誤) 24 テレビ (2) 8.4 テレビ (3) 10.3 book 18 教科書 (3) 13.0 clock 14 時計 (3) 9.2 pottedplant 6 N/A N/A

bench(誤) 6 N/A N/A

3.1.3 ホテル クエリ’guestroom’ で検索した画像を 73 枚収集し, 物体検出器で 295 個,23 種類のオブジェクトを得た. ’ ホテル’ については,図 3 を見ると,’bed’ が最も多 く,次いで’chair’ が検出されている.表 3 の連想距離 の結果については,ホテルに関しては多くのオブジェク トが連想概念辞書に含まれていないという結果であっ たが,含まれている語については,表 1,2 と同様 3 の 部分材料概念が関係していることが分かる. 表 3 の結果について,多くの単語が連想概念辞書に 含まれていなかったが,それ以外の単語については,表 1,表 2 同様,部分・材料概念 (3) に属していることが わかる.

(4)

図 3: ’guestroom’ 画像に対して検出されたオブジェクト

表 3: ’ ホテル’ に対する検出結果と連想概念辞書との 対応

検出結果 検出回数 連想語 距離 bed 90 ベッド (3) 4.4 chair 65 N/A N/A pottedplant 33 木 (3) 9.2

sofa 19 N/A N/A vase 18 N/A N/A tvmonitor 18 テレビ (3) 8.4

book 13 N/A N/A clock 10 N/A N/A cup 5 N/A N/A

4

考察

4.1

誤認識されたオブジェクト

表 4: 誤検出されたオブジェクト 検出単語 正解 頻度 連想語 距離 aeroplane 船 16 飛行機 (3) 9.2 tvmonitor 黒板 24 テレビ (2) 8.4 bench テーブル 6 N/A N/A 誤検出されたオブジェクトを表 4 に示した.オブジェ クト検出において,テーブルを bench と誤検出してい るケースは,クエリである’classroom(教室)’ の連想語 にベンチが含まれていないことから,誤検出を改善す ることが可能であると考えられる. 船を aeroplane と誤検出しているケースは,連想距 離が 9.2 と遠くなっているため,連想距離が一定値を 超えた検出オブジェクトは誤検出の可能性が高いとみ なすことが出来る. 画像を確認したところ,黒板を tvmonitor と誤検出 しているケースは,検出器 YOLO の訓練データセット である MSCOCO のラベルに黒板が含まれていないこ とが原因であった.データセットに存在しないオブジェ クトについては誤検出かどうかの判定が難しくなってし まうため,データセットの拡充も重要なタスクとなる. これはデータセットを拡張し,必要なラベルを追加 することで改善することが可能であると考えられる.

4.2

不足する連想語

検出結果に対応する連想語の不足は,特に表 3 におい て顕著である.本実験では,辞書の都合からクエリ’gue-stroom’ を連想概念辞書のホテルと関連付けたため,不 整合が起きたのでは無いかと考えられる.データセッ トと同じく,辞書の拡充も重要なタスクとなる.

4.3

検出回数と距離の関係

図 4: オブジェクトの出現頻度と連想語の距離の比較 オブジェクトの出現頻度と連想語の平均距離を 2 軸 折れ線グラフにプロットした図 4 から,出現頻度と平 均距離はおおよそ逆数の関係にあることがわかる. そこで実際にオブジェクトを検出する際,連想距離 が遠いオブジェクトに関しては係数を与え,スコアを 調整することで精度向上に寄与できると考えられる.

4.4

連想語の属する構造の偏り

表 1,表 2,表 3 の連想語が属する概念とそれぞれの 平均距離を求め,出現頻度順に並び替えた (5). 表 5 が示すように,部分・材料概念が 12 回と最頻出 していることがわかる.また,刺激語と連想語の意味 的近さを表す距離の算術平均も部分・材料概念は 7.0 と

(5)

表 5: 連想語が属する構造の累計 連想構造 出現頻度 平均距離 部分・材料概念 (3) 12 7.0 下位概念 (2) 5 7.6 属性概念 (4) 3 8.2 関連語 (8) 2 7.7 類義概念 (5) 1 8.6 環境概念 (7) 1 10.0 最小になっている.部分・材料概念には,刺激語を構 成する要素が含まれるので,画像中のオブジェクト検 出結果と良く一致すると考えられる. 一方で,刺激語を取り巻く要素が含まれる環境概念 が出現頻度と距離において最も遠い概念となっている. これは,環境的概念が画像中に収まるような小さなも のではなく,空や海など,画像の全体に渡って写るよ うな概念であり,オブジェクト検出モデルではそのよ うな境界線が曖昧なオブジェクトを認識するのが不得 手であることが原因であると考えられる. これらを総合して,オブジェクト検出の精度向上に おいて連想概念辞書の部分・材料概念が最も適切な概 念であると考えられる.

5

おわりに

本研究では,画像中のオブジェクト検出タスクにお いて,人間の物体に関する背景知識(連想概念)を与 えることで検出精度を上げることが出来ないかと考え, 前段階として連想概念辞書のどの概念が検出タスクの 精度向上に寄与出来るかを検討した.実験結果より,連 想距離が大きい,または連想語が存在しないオブジェ クトについては誤認識されたと判断出来るという可能 性が考えられる. 一方でオブジェクト検出のデータセットのデータ不 足や,連想概念辞書の刺激語や連想語の数にも限界が あり,それらを拡充する必要があると考えられる. オブジェクト検出に最も寄与する連想概念辞書の概 念については,部分・材料概念が適当であると判断した. 今後は部分・材料概念を中心に実際に検出精度がど の程度上がるのかを評価する.

参考文献

[1] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierarchies for ac-curate object detection and semantic segmenta-tion. In Computer Vision and Pattern

Recogni-tion, 2014.

[2] Ross Girshick. Fast r-cnn. In International

Con-ference on Computer Vision (ICCV), 2015.

[3] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards real-time ob-ject detection with region proposal networks. In

Advances in Neural Information Processing Sys-tems (NIPS), 2015.

[4] Joseph Redmon and Ali Farhadi. Yolo9000: Better, faster, stronger. arXiv preprint arXiv:1612.08242, 2016.

[5] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C. Berg. SSD: Single shot multi-box detector. In ECCV, 2016.

[6] JUN OKAMOTO and SHUN ISHIZAKI. Con-struction of associative concept dictionary with distance information, and comparison with elec-tronic concept dictionary. Journal of Natural

Lan-guage Processing, 8(4):37–54, oct 2001.

[7] T.-Y. Lin, M. Maire, S. Belongie, L. Bourdev, R. Girshick, J. Hays, P. Perona, D. Ramanan, C. L. Zitnick, and P. Doll´ar. Microsoft COCO: Common Objects in Context. ArXiv e-prints, May 2014.

表 1 から,主に部分・材料概念 (3) と関連する単語 が多いことが見受けられる. 3.1.2 教室 クエリ’classroom’ で検索した画像を 73 枚収集し,物 体検出器で 656 個,20 種類のオブジェクトを得た. ’ 教室’ については,図 2 を見ると,’chair’ が最も 多く,次いで’person’ が検出されており,’tvmonitor’ と ’bench’ がそれぞれ誤検出されている.表 2 の連想距 離の結果から表 1 の結果と同様に 3 の部分材料概念と 関係していることがわ
図 3: ’guestroom’ 画像に対して検出されたオブジェクト
表 5: 連想語が属する構造の累計 連想構造 出現頻度 平均距離 部分・材料概念 (3) 12 7.0 下位概念 (2) 5 7.6 属性概念 (4) 3 8.2 関連語 (8) 2 7.7 類義概念 (5) 1 8.6 環境概念 (7) 1 10.0 最小になっている.部分・材料概念には,刺激語を構 成する要素が含まれるので,画像中のオブジェクト検 出結果と良く一致すると考えられる. 一方で,刺激語を取り巻く要素が含まれる環境概念 が出現頻度と距離において最も遠い概念となっている. これは,環境的概念が画

参照

関連したドキュメント

[9] DiBenedetto, E.; Gianazza, U.; Vespri, V.; Harnack’s inequality for degenerate and singular parabolic equations, Springer Monographs in Mathematics, Springer, New York (2012),

, 6, then L(7) 6= 0; the origin is a fine focus of maximum order seven, at most seven small amplitude limit cycles can be bifurcated from the origin.. Sufficient

In the proofs of these assertions, we write down rather explicit expressions for the bounds in order to have some qualitative idea how to achieve a good numerical control of the

In this article, we study partial regularity on the boundaries of nonlinear elliptic systems with nonstandard Orlicz growth and the Dirichlet boundary condition.. Precisely, we find

【現状と課題】

第2章 環境影響評価の実施手順等 第1

項目 評価条件 最確条件 評価設定の考え方 運転員等操作時間に与える影響 評価項目パラメータに与える影響. 原子炉初期温度

検討対象は、 RCCV とする。比較する応答結果については、応力に与える影響を概略的 に評価するために適していると考えられる変位とする。