CNN ! ! ! ! ! を用いた非実写的画像認識のための学習データ拡張手法

(1)

卒業論文／制作説明書

CNN

を用いた非実写的画像認識のための学習データ拡張手法

Non-photorealistic Image Recognition Using Convolutional Neural Network

! 1W120555-4 山川まどか指導教員尾形哲也教授

YAMAKAWA Madoka Prof. OGATA Tetsuya

!

概要：本研究は，近年画像を中心とした認識問題について注目されているConvolutional Neural Network(CNN)を用いて非実写的画像を認識する際の学習データ生成の手法について検証したものである．CNNは実写画像のクラス判別タスクにおいて非常に高い成績を納めている．しかし，非写実的画像は実写画像と比較して色や細部のテクスチャーなどの情報や数が少ないため，CNNが獲得できる特徴量が乏しく学習が難しい．そのため学習に用いるデータを工夫する必要がある．本研究では，マンガ画像について分割数や回転の有無・角度を変化させた21種類の学習データセットを用意し，テスト結果を比較した．認識率は最も高いもので81.5%であった．分割数については4分割したものが認識率が高かったが，回転については一概に断定できる結果は得られなかった．また，

学習画像数が多くなっても認識率が必ずしも高くなるとは限らないことがわかった．学習済みのモデルを後から組み合わせて使うことでより高い認識率を得られる可能性が示唆された．

キーワード：Convolutional Neural Network, スケッチ, マンガ, 画像認識, Keywords: Convolutional Neural Network, Sketch, Manga, Comic, Image Recognition

!

!1

分割

0, 2, 4

回転角度

(˚) 0, 30, 60, 90, 120,30+60,90+120

抜く必要があったのに対し，この手法は画像をそのままシステムに入力し認識を行うことができる．

!

３. 課題とアプローチ

前章で挙げた先行研究は，学習データの加工に手のかからない点で画期的であったが，今後応用していくにあたって学習データの考察が必要である．先に挙げた関連研究では，分割数を変えたデータセットについては比較されていたが，回転の有無や角度については議論されていなかった． 

そこで，本研究では回転について7種，分割について3種，計21種の学習データセットを用意し，マンガ10作品のクラス判別学習を行った．

その内容を表１に示す．「+」は組み合わせの意である．たとえば，「30+60」はデータセットに 30˚回転の画像と60˚回転の画像のどちらも含むという意味である．回転なしの画像は全てのデータセットに含まれている．また，学習の際は各画像の反転画像も使用している．

１. 研究背景と目的

近年，画像認識の分野においてConvolutional Neural Network(CNN)が目覚ましい成績を上げている．たとえば，100クラスの画像を判別する実験[1]において、83%の正答率を記録した．これは従来の画像処理手法による結果よりも優位に大きい数値である．CNNは学習により画像の特徴量を自己組織化し獲得するため，大量のデータに柔軟に対応できる．

CNNに関する既存研究のほとんどは実写画像

を扱っている．スケッチやイラスト，マンガ，

クリップアートなどの非実写的画像は写真と比較して，色味や細部のテクスチャーといった情報が少なく，画像数も少ない．そのためCNNで学習するためには学習データを工夫する必要がある．

本研究では，どのようなデータの加工が有効であるのかを検証している．なお，研究対象としてスケッチとマンガを用いたが，ここではマンガについて述べる．

!

２. 関連研究

CNNを用いたマンガ認識の研究に，神経回路

モデルを用いた画像認識技術によるマンガ作家判別手法の提案[2]がある．既存のマンガ画像認識の研究では手作業でキャラクターの顔を切り

表1 学習データセット

(2)

! 2 マンガのデータについてはManga109[3]というデータセットを用いた．実験結果や学習で獲得した特徴量について考察する．

!

４. 実験結果

学習を行ったモデルを用いて未学習データの認識率を調べた．図3は21種すべてのモデルの認識率を視覚的に表したものである．縦軸が分割数，横軸が回転の角度を示す．最も認識率が高かったのは画像を4分割し30˚回転させた画像を含むデータセットで81.5%であった．分割数ごとでは4分割のデータが認識率が最も高かった．また，回転の角度を3種類組み合わせて学習したモデルでも認識率が必ずしも他より高いわけではなかった．つまり，学習に用いた画像数が多くても必ずしも認識率が高くなるとは限らないということがわかった．

!

５. 考察

学習に用いたデータによって得意，不得意な画像ができるのではないかと考えられる．そこで，学習済みのモデルの組み合わせについて考察する．たとえば，最も認識率の高かったモデ

図3 学習データセットごとの認識率図2 ページ分割の見本

ルでは，「青すぎる春」という作品のみの正答率は66.4%であった．しかし，4分割で回転なしと60˚回転の画像で構成されるデータセットで学習を行ったモデルでは， 70.6%であった．

このように，複数のモデルを組み合わせることでより高い認識率を得ることができると考えられる．

!

６. 参考文献

[1]Alex Krizhevsky, Ilya Sutskever, Geoffrey E.

Hinton: "ImageNet Classification with Deep Convolutional Neural Networks", NIPS, 2012 [2]寺田翔太, 野田邦昭，尾形哲也: "CNN による画像認識技術を応用したマンガ作家判別システム", SI2014

[3]Yusuke Matsui, Kota Ito, Yuji Aramaki, Toshihiko Yamasaki, Kiyoharu Aizawa: "Sketch- based Manga Retrieval using Manga109 Dataset", CVPR, 2015