機械学習を用いた地図画像の多クラス分類

(1)

人工知能学会研究会資料 SIG-SWO-047-11

機械学習を用いた地図画像の多クラス分類

Multi-class classification of map images using machine learning

山口元気

1∗

_{桂井麻里衣}

1

Genki Yamaguchi

1

Marie Katsurai

1

_{同志社大学理工学部インテリジェント情報工学科}

1

_{Department of Intelligent Information Engineering and Sciences, Doshisha University}

Abstract: 世界中で作成された地図画像は，スマートフォンとの連携により観光コンテンツとして の活用が期待されている．その種類は古地図やイラストマップなど多岐に渡るため，観光の目的に応じて適切な地図を提供するには，地図画像をクラス分類する必要がある．本論文では，クラスラベル付き地図画像データセットを構築し，機械学習に基づく画像認識のベースライン性能を報告する．

1 はじめに

観光客の増加を目的とし，各地域の観光資源に特色をあてたイラストマップが世界中で発行されている．加えて，人文学や図書館情報学において歴史資料のデジタル化が進み，大量の古地図がオープンデータとして公開されている．これらの多様な地図は，スマートフォンとの連携により，新たな観光コンテンツを生む．例として，GPS で取得した現在地をスマートフォン上の地図画像にマッピングし，歩きながら地域情報や歴史体験を楽しむサービスが展開されている [1]．地図と観光に関するシステムの高機能化には，各地図画像がもつ情報をコンピュータに認識させる必要がある．大量に蓄積された画像に対する手動アノテーションは労力が非常に大きいため，画像認識技術の適用が解決策となりうる．しかし，地図という特定ドメインに関する画像認識の研究は非常に報告が少ない．これは研究用データセットが普及していないことが原因である．そこで本研究では，コンピュータビジョン技術により地図データの応用可能性を高めることを目的とし，新たにクラスラベル付き地図画像データセットを構築した．本論文において，分類問題の設計方法を報告するとともに，現在画像認識分野で主流とされている二つのアプローチによる地図画像分類のベースライン性能を提供する． ∗_{連絡先：同志社大学理工学部インテリジェント情報工学科} 〒 610-0394 京都府京田辺市多々羅都谷 1-3 E-mail: [email protected]

2 データセットの構築

本研究では，地図画像分類器の学習用データセットを構築した．まず，地図投稿サービス Stroly1_{から，2018} 年 12 月 14 日時点で閲覧可能な 2266 枚の画像を収集した．地図画像の多クラス分類問題を設計するため，これらの画像を目視で精査し，互いに排反となる 10 個のクラスを定義した．各クラスの内容は下記のとおりである． • 航空写真：航空機を用いて地上を撮影した写真． • 文化系地図：神社・仏閣などの散策マップや町歩 き地図． • グルメマップ：カフェやレストランなどグルメ情 報が記載された地図． • メモ地図：手描きメモのように，限られた情報の みを含む地図． • 路線図：公共交通機関の接続や配置を表した地図． • 詳細地図：縮尺の正確な地図． • 防災地図：災害発生時に対応できる情報が記載さ れた地図． • 内部地図：テーマパークなどの施設内部の地図． • 古地図：昭和前半より以前に作成された地図． • 地形図：等高線により地形を精細に表した地図． 1_{https://stroly.com/ja/}

(2)

図 1: 10 クラスに含まれる地図の例．表 1: 本研究で構築した地図画像データセットの詳細．クラス枚数クラス枚数航空写真 23 詳細地図 287 文化系地図 771 防災地図 49 グルメマップ 68 内部地図 123 メモ地図 113 古地図 706 路線図 53 地形図 56 次に，地図と呼べない画像（例：テレビゲームのマップ画像）を除外した．残った 2249 枚に対し，10 個のクラスのいずれかへ手動で分類した．各クラスに該当した地図画像の枚数を表 1 に示す．表に示すように，本データセットは各クラスの画像枚数に偏りがある．また，それぞれのクラスに割り当てられた地図画像の例を図 1 に示す．図のように，観光用に作成されたイラストマップは文化系地図またはグルメマップに分類された．

3 クラス分類器の学習

本章では，地図画像分類のための二つのアプローチとして，Support Vector Machine（SVM）に基づく画像分類手法と，Convolutional Neural Network（CNN）に基づく画像分類手法を説明する．

3.1 SVM を用いた地図画像分類

分類器を SVM とする場合，対象ドメインの分類に適した特徴量の設計が必要となる．従来，イラスト画像認識では，色ヒストグラムが盛んに用いられてきた [2]．本論文では画像を RGB 色空間から HSV 色空間に変換し，各色チャネルのビン数を（H,S,V）=（10,3,2）とした 60 次元の画像特徴ベクトルを算出する．これらのベクトルを入力として多クラス SVM を学習する．

3.2 CNN を用いた地図画像分類

一般に，CNN の学習には大量のラベル付きデータセットが必要である．しかし，2 章のデータセットは CNN のパラメータ数に比べて非常に少ない．この問題を考慮し，事前に別のタスクに向けて学習した CNN のパラメータを初期値としたファインチューニングを行う．具体的には，ImageNet2_{で学習済みの VGG16 [3]} を用いる．モデルの構成は，VGG16 の全結合層を取り除いたモデルに新たな 1024 次元の全結合層を加え，出力層はクラスと同数の 10 次元とする．モデルに地図画像が入力されたとき，再学習したパラメータにより各クラスに属する確率を推定し，最も確率の高いクラスへ割り当てる．

4 実験

2 章のクラスラベル付き地図画像データセットを用いて，SVM と CNN による地図画像分類のベースライン性能を示す．データセットはトレーニング画像 1799 枚，テスト画像 450 枚に分割した．SVM の実装には，Python の機械学習ライブラリである scikit-learn3_{を用いた．} SVM のカーネルとして，線形と非線形 Radial Basis 2_{http://www.image-net.org/} 3_{https://scikit-learn.org/stable/}

(3)

表 2: カーネル SVM と線形 SVM の正解率比較． C 1 10 100 1000 10000 0.1 0.521 0.557 0.567 0.586 0.599 γ 0.01 0.339 0.521 0.556 0.565 0.575 0.001 0.339 0.339 0.521 0.554 0.565 線形 0.546 0.561 0.573 0.575 0.577 表 3: カーネル SVM による多クラス分類結果． class Precision Recall F 値画像枚数航空写真 0.75 0.43 0.55 7 詳細地図 0.60 0.48 0.53 58 文化系地図 0.59 0.82 0.69 163 防災地図 0.00 0.00 0.00 5 グルメマップ 0.40 0.11 0.17 8 内部地図 0.50 0.24 0.32 21 メモ地図 0.67 0.42 0.51 24 古地図 0.79 0.79 0.79 134 路線図 0.00 0.00 0.00 11 地形図 0.20 0.11 0.14 9 Function (RBF) の二種類を比較する．また，RBF カー ネル SVM のパラメータとして，γ∈ {0.1, 0.01, 0.001} と C ∈ {1, 10, 100, 1000, 10000} の組合せをそれぞれ実 験した．SVM のカーネルとパラメータ変更によるテスト画像分類正解率を表 2 に示す．RBF カーネルを用い て，γ = 0.1，C = 10000 としたときが最も高い正解率 を示した．次に，最も良いパラメータを用いたときの各クラス分類に対する Precision, Recall, F 値を算出した．得られた結果を表 3 に示す．参考のため，各クラスに分類された画像枚数もあわせて記す．全クラスの中で，航空写真と古地図は比較的高い Precision を示した．一方，防災地図と路線図に関しては 1 枚も正しく分類できなかった．これは色ヒストグラムしか用いていないことが原因と考えられる． CNN の実装には，Python の深層学習ライブラリ Keras4を用いた．入力画像サイズは 224× 224 ピクセルとし，epoch 数は 50，バッチサイズは 16 とした．損失関数は交差エントロピーとし，Stochastic Gradient Descent 法で最適化した．トレーニング画像 1799 枚のうち，1619 枚で学習し，180 枚をバリデーションに用いた．学習およびバリデーションデータにおける各 epoch での精度と損失の変化の様子を図 2 に示す．図より，CNN の過学習は抑えられているといえる．次に， CNN を用いてテスト画像の多クラス分類正解率を算出した結果を表 4 に示す．比較のため，表 2 で最も性能の良かった SVM の結果も再掲する．表に示すように， 4_{https://keras.io/ja/} (a) epoch 数に対する正解率の変化． (b) epoch 数に対する損失の変化．図 2: epoch 数に対する正解率と損失の変化. 表 4: カーネル SVM と CNN の正解率の比較． SVM CNN 正解率 0.599 0.716 CNN の分類精度は SVM を遥かに上回った．これは近年の画像認識に関する様々な研究と同様の結果である． SVM は手動による特徴設計が必要なことを鑑みると， CNN により地図画像分類に有効な特徴を発見することは有用と考えられる．最後に，CNN でテスト画像 450 枚を分類した際に得られた混同行列を図 3 に示す．図より，1 枚も正しく分類できていないクラスがあることがわかる．それらのクラスは学習用画像枚数が少ない．ゆえに，学習用データセットの拡張が必要と考えられる．

5 ウェブ画像検索によるデータセッ

ト拡張

2 章で作成したデータセットを拡張するために，Google 画像検索5_{を通じて追加の地図画像を収集した．各クラ} スで用いた検索キーワードを表 5 に示す．日本語のみでは十分な結果が得られなかったクラスについては，英 5_{https://www.google.co.jp/imghp?hl=ja}

(4)

図 3: CNN でテスト画像 450 枚を分類した際の混同行列.

表 5: 画像検索に使用した検索ワード．クラス検索キーワード

航空写真航空写真，aerial

詳細地図詳細地図，web map，detail map 文化系地図お散歩マップ，参拝地図防災地図防災地図グルメマップグルメマップ，food map 内部地図案内図，園内地図メモ地図メモ地図，memo map 古地図古地図，old map 路線図路線図，route map 地形図地形図，topographic 語のキーワードも用いた．収集した画像は著者が目視で精査し，不適切な画像を除外した．最終的に，各クラス 100 枚，合計 1,000 枚の地図画像を保存した．

5.1 データセット拡張後の実験結果

新たに収集した 1,000 枚をトレーニング画像に加え， CNN を学習した．CNN は 4 章と同様に実装した．トレーニング画像 2,799 枚のうち，2,519 枚で学習し，280 枚をバリデーションに用いた．テスト画像には 4 章と同一の 450 枚を用いた．CNN によるテスト画像の多クラス分類正解率を表 6 に示す．データセット拡張により同一テスト画像での正解率を向上できた．加えて，本実験で得られたテスト画像 450 枚の混同行列を図 4 に示す．図 3 と図 4 の比較から，最初のデータセットを学習した際に正しく分類されなかった防災地図と路線図が，データセット拡張後に正しく分類できたことがわかる．ゆえに，分類対象のクラスに対応する画像表 6: データセット拡張前後の CNN による多クラス分類正解率の比較．拡張前拡張後正解率 0.716 0.729 図 4: データセット拡張後に学習した CNN でテスト画像 450 枚を分類した際の混同行列. をウェブから収集することは有用と考えられる．今後は，分類性能向上に向けて地図画像データセットを効率的に拡張する方法を検討する．

6 むすび

本論文では，地図画像認識に関する研究の第一歩として，新たにクラスラベル付き地図画像データセットを構築した．色ヒストグラムに基づく SVM と CNN の分類正解率の比較により，他の画像認識タスクと同様，画像枚数が少ない条件でも CNN の方が高い正解率で分類できることを示した．SVM のように手動設計による特徴量を用いる場合，色以外の画像特徴量（エッジ，テクスチャなど）も抽出すべきと考えられる．それに加え，CNN による分類ではデータセットを拡張することで，幅広い地図画像を分類するのに有効な各クラスごとの特徴を発見できることを示した． 4 章で構築したデータセットでは，画像枚数の少ないクラスの分類精度が問題となった．Google 画像検索によりデータセットを拡張した結果，同一テスト画像に対する認識性能の向上がみられた．今後はデータセットを効率的に拡張する方法を検討する．さらなる分類精度向上には，画像特徴のみならず，テキストの情報を深層学習に導入するアプローチが考えられる [4]．本研究においても，地図画像に文字認識を適用し，画像とテキストを入力としたネットワーク構造を提案する予定である．

(5)

謝辞

本研究を遂行するにあたり，地図画像データを提供していただきました株式会社 Stroly 様にお礼申し上げます．

参考文献

[1] H. Vermeluen, T. Takahashi, M. Takahashi, K. Ohtsuka, T. Nakagawa, and H. Ueda. Stroly: A historic and illustrated maps platform. In Second

International Conference on Culture and Comput-ing, pp. 195–196, 2012.

[2] E. Garces, A. Agarwala, D. Gutierrez, and A. Hertzmann. A similarity measure for illus-tration style. ACM Transactions on Graphics,

Vol. 33, No. 4, July 2014.

[3] K. Simoyan and A. Zisserman. Very deep convolu-tional networks for large-scale image recognition. In International Conference on Learning

Repre-sentations, 2015.

[4] S. Sanjo and M. Katsurai. Recipe popularity pre-diction with deep visual-semantic fusion. In

Pro-ceedings of the 2017 ACM on Conference on Infor-mation and Knowledge Management, CIKM ’17,