卒業論文/制作説明書
CNN
を用いた非実写的画像認識のための学習データ拡張手法Non-photorealistic Image Recognition Using Convolutional Neural Network
! 1W120555-4 山川 まどか 指導教員 尾形 哲也 教授
YAMAKAWA Madoka Prof. OGATA Tetsuya
!
概要: 本研究は,近年画像を中心とした認識問題について注目されているConvolutional Neural Network(CNN)を 用いて非実写的画像を認識する際の学習データ生成の手法について検証したものである.CNNは実写画像のクラ ス判別タスクにおいて非常に高い成績を納めている.しかし,非写実的画像は実写画像と比較して色や細部のテ クスチャーなどの情報や数が少ないため,CNNが獲得できる特徴量が乏しく学習が難しい.そのため学習に用い るデータを工夫する必要がある.本研究では,マンガ画像について分割数や回転の有無・角度を変化させた21種 類の学習データセットを用意し,テスト結果を比較した.認識率は最も高いもので81.5%であった.分割数につ いては4分割したものが認識率が高かったが,回転については一概に断定できる結果は得られなかった.また,
学習画像数が多くなっても認識率が必ずしも高くなるとは限らないことがわかった.学習済みのモデルを後から 組み合わせて使うことでより高い認識率を得られる可能性が示唆された.
キーワード:Convolutional Neural Network, スケッチ, マンガ, 画像認識, Keywords: Convolutional Neural Network, Sketch, Manga, Comic, Image Recognition
!
!1
分割
0, 2, 4
回転角度
(˚) 0, 30, 60, 90, 120,30+60,90+120
抜く必要があったのに対し,この手法は画像を そのままシステムに入力し認識を行うことがで きる.
!
3. 課題とアプローチ
前章で挙げた先行研究は,学習データの加工 に手のかからない点で画期的であったが,今後 応用していくにあたって学習データの考察が必 要である.先に挙げた関連研究では,分割数を 変えたデータセットについては比較されていた が,回転の有無や角度については議論されてい なかった.
そこで,本研究では回転について7種,分割に ついて3種,計21種の学習データセットを用意 し,マンガ10作品のクラス判別学習を行った.
その内容を表1に示す.「+」は組み合わせの意 である.たとえば,「30+60」はデータセットに 30˚回転の画像と60˚回転の画像のどちらも含むと いう意味である.回転なしの画像は全てのデー タセットに含まれている.また,学習の際は各 画像の反転画像も使用している.
1. 研究背景と目的
近年,画像認識の分野においてConvolutional Neural Network(CNN)が目覚ましい成績を上げて いる.たとえば,100クラスの画像を判別する実 験[1]において、83%の正答率を記録した.これ は従来の画像処理手法による結果よりも優位に 大きい数値である.CNNは学習により画像の特 徴量を自己組織化し獲得するため,大量のデー タに柔軟に対応できる.
CNNに関する既存研究のほとんどは実写画像
を扱っている.スケッチやイラスト,マンガ,
クリップアートなどの非実写的画像は写真と比 較して,色味や細部のテクスチャーといった情 報が少なく,画像数も少ない.そのためCNNで 学習するためには学習データを工夫する必要が ある.
本研究では,どのようなデータの加工が有効 であるのかを検証している.なお,研究対象と してスケッチとマンガを用いたが,ここではマ ンガについて述べる.
!
2. 関連研究
CNNを用いたマンガ認識の研究に,神経回路
モデルを用いた画像認識技術によるマンガ作家 判別手法の提案[2]がある.既存のマンガ画像認 識の研究では手作業でキャラクターの顔を切り
表1 学習データセット
! 2 マンガのデータについてはManga109[3]という データセットを用いた.実験結果や学習で獲得 した特徴量について考察する.
!
4. 実験結果
学習を行ったモデルを用いて未学習データの 認識率を調べた.図3は21種すべてのモデルの認 識率を視覚的に表したものである.縦軸が分割 数,横軸が回転の角度を示す.最も認識率が高 かったのは画像を4分割し30˚回転させた画像を 含むデータセットで81.5%であった.分割数ごと では4分割のデータが認識率が最も高かった.ま た,回転の角度を3種類組み合わせて学習したモ デルでも認識率が必ずしも他より高いわけでは なかった.つまり,学習に用いた画像数が多く ても必ずしも認識率が高くなるとは限らないと いうことがわかった.
!
5. 考察
学習に用いたデータによって得意,不得意な 画像ができるのではないかと考えられる.そこ で,学習済みのモデルの組み合わせについて考 察する.たとえば,最も認識率の高かったモデ
図3 学習データセットごとの認識率 図2 ページ分割の見本
ルでは,「青すぎる春」という作品のみの 正答率は66.4%であった.しかし,4分割で 回転なしと60˚回転の画像で構成されるデー タ セ ッ ト で 学 習 を 行 っ た モ デ ル で は , 70.6%であった.
このように,複数のモデルを組み合わせ ることでより高い認識率を得ることができ ると考えられる.
!
6. 参考文献
[1]Alex Krizhevsky, Ilya Sutskever, Geoffrey E.
Hinton: "ImageNet Classification with Deep Convolutional Neural Networks", NIPS, 2012 [2]寺田翔太, 野田邦昭,尾形哲也: "CNN に よる画像認識技術を応用したマンガ作家判 別システム", SI2014
[3]Yusuke Matsui, Kota Ito, Yuji Aramaki, Toshihiko Yamasaki, Kiyoharu Aizawa: "Sketch- based Manga Retrieval using Manga109 Dataset", CVPR, 2015