深層学習による小袖屏風画像の特徴分析

(1)

1．は　じ　め　に

近年の人文科学・歴史資料研究では，資料（データ）の収集とその特徴分析に基づく解釈や仮説検証という自然科学研究の方法論が多く用いられている．また，新たな科学的・工学的手法を用いた分析データから，これまで観測し得なかった新たな知見を発見しようとする研究も多く行われている．このようなデータに基づく人文系研究の新たな手段として，ICT を駆使した歴史資料のディジタルアーカイブ化とその知的利活用が大きく注目されている [総務省 12]．ディジタルアーカイブとは，後世に残すべき貴重な歴史資料をディジタルデータとして複製し，メタデータを付与することで，計算機利用が可能な構造化された情報として管理・運用・共有する手段である [岡本 15]．さまざまな資料のディジタルアーカイブ化が世界的に進められており [Europeana, Google]，その関連研究は歴史資料研究の新たなツールとして近年大きな発展を遂げている．ディジタルアーカイブを用いた資料研究や高度な展示技術は，研究者や鑑賞者のさまざまな視点に基づくデータの解釈や，その知的構造を抽出し視覚化することを可能にした．しかし，解釈の手掛かりとなるメタデータの付与は，専門家による人手に頼らざるを得ない．ディジタルデータ化のコストが大きく下がり，高精細・高密度のデータが容易に蓄積されるようになった一方で，メタデータを付与するためのコストがディジタルアーカイブ制作の大きなボトルネックになっている．一方，大量の画像などの大規模データを取り扱う技術は，情報通信分野のみならずさまざまな分野における知識発見のツールとしてコモディティ化が進んでいる．特に，入力に含まれるさまざまなレベルの抽象的特徴を抽出・分類することが可能といわれる一連の深層学習手法は，さまざまな画像処理コンペティションにて圧倒的な認識精度を誇っている．また，自然言語 [Mikilov 10] や強化学習 [Volodymyr 15] においても大きな成果を上げるなど，さまざまな方面への応用が期待されている．人文科学や歴史研究においても，深い知識や経験に基づいて人が付与していた抽象的な情報を，深層学習をはじめとする機械学習によって効果的に発見・分類することができれば，資料の自動分類や意味抽出など，メタデータ付与の支援や研究支援にも役立つはずである．このような背景のもと，著者らは人文系研究におけるディジタルアーカイブの利活用をさらに進めるために，人工知能・機械学習の手法を用いた新たな歴史資料データの知識処理について文理融合の検討を進めてきた [濱上 13, 濱上 14]．特に，小袖屏風の高精細画像データベースの構築とその中に含まれるさまざまな情報の抽出を，深層学習によってつくられた一般物体認識の空間で行うことで，その特徴を分析・分類することを試みてきた．本稿ではこの取組みによって得られた知見の一部を紹介する．

2．小袖屏風画像のモチーフ分析

2･1 小袖屏風ディジタルアーカイブデータ小袖とは，平安時代に貴族の下着として使われていた「白小袖」がしだいに上着として着られるようになり，現在の「着物」の意匠の基礎となった衣類である．桃山時代から江戸時代にかけて小袖の様式は，その時代背景と強く結び付きながら，さまざまな文様，配置，技法の変遷を見てきた [丸山 08]．小袖屏風とは，実際の小袖裂を押絵貼りにした鑑賞用の屏風である．国立歴史民俗博物館蔵の「野村コレクション」[歴博 90] では，小袖を二曲一隻に仕立てた屏風約 100隻が収蔵されており，辻が花，縫箔，寛文小袖，慶

深層学習による小袖屏風画像の特徴分析

Feature Classification Analysis of “Kosode Byoubu” Images by the Deep

Learning

濱上　知樹

横浜国立大学大学院工学研究院

Tomoki Hamagami Graduate Shoool of Enginerring, Yokohama National University. [email protected]

澤田　和人

国立歴史民俗博物館情報資料研究系

Kazuto Sawada Museum Science Division, National Museum of Japanese History. [email protected]

Keywords:

deep learning, CNN, image feature, digital archives. 「人文科学と AI」

(2)

長小袖，元禄小袖，友禅染などの小袖の諸相を網羅した染織歴史研究対象として重要な価値を有している．図 1 に小袖屏風の例を示す．本研究では，小袖屏風のオリジナルのポジフィルムからディジタル画像（19 513× 15 512，実質解像度約 208.4 ppi）をスキャンし，さらに 5 階層のタイル画像に分解することで，マルチスケール表示可能な画像セグメント（総数約 40 万枚）を作成し，さらにメタデータを付与したうえでデータベースを作成した [田中 16]． 2･2 モチーフ分析とその課題モチーフとは，人の創作の主題を構成する基本単位であり，その模様やデザインの作因を指す．あるモチーフは他のモチーフと組み合わされ，上位概念のモチーフをつくる．小袖屏風画像中にも，「松」，「梅」，「楓」などの植物や，「八つ橋」，「帆船」のような構造物，「文字」，「垣」のような幾何模様や「近江八景」や「五十三次」のような風景に至るまでさまざまなレベルの意味と構造をもつ複雑なモチーフが混在し，独自のテーマやストーリーを表現している．個々のモチーフはしばしば特徴が誇張された意匠であることが多く，実世界とは異なる構図や構造を有している．その意匠的意味の解釈や分類は資料研究の重要課題である．しかし，その手法は専門家による解釈にゆだねられており，メタデータの付与には専門的な知識が必要となる．専門家による抽象的なモチーフの分類と構造の抽出を機械学習によって支援できれば，資料分析ツールとして有効なだけではなく，新たな資料解釈の発見につながる．また，小袖屏風は，もともと一つだった小袖を複数の裂にし，異なる屏風で組み合わせ再利用していることがある．モチーフ間や小袖屏風全体の類似性の評価が自動化できれば，これまで未発見であった資料間の関連や制作経緯も明らかとなる．抽象的なモチーフ抽出のためには，Semantic Based Image Retrieval（SBIR）[Bradshaw 00] で用いられるセマンティックレベルの画像認識が有効である．また，意匠や想像上のデザインなど，人の創作や表現を介した対象を分析する研究事例として，印象語を用いた感性情報による類似画像群の分類 [石井 03] や，階層的分類を用いた視覚感性のモデル化に基づく類似画像検索手法 [多田 03] がある．しかし，人の想像や創作によってつくられた抽象的なモチーフを特徴空間で表現しようとした場合，以下の問題が生じる．（1）モチーフの領域が複雑である例として「鼓」のモチーフに見られる階層構造を図 2に示す．このようにさまざまな抽象度と粒度のモチーフが階層的に組み合わされた画像では，個々のモチーフを表す領域が複雑に重なり合っており，その境界を明確に定めることが困難である．（2）モチーフの特徴を定義することが困難である同じモチーフでもさまざまなバリエーションがあり，モチーフごとのクラスタリングやラベリングの意味や方法を言語化することは困難である．（3）特徴空間の学習データが少ない含まれるモチーフには大きな偏りがあり，専門家が有している特徴空間を学習できるデータがそろうとは限らない．特に，歴史資料の点数は限られており，分類対象だけから特徴空間をつくることが難しい場合がある．本研究では，（1）に対しては，画像特徴の階層的クラスタリングによって，ミクロからマクロに至る注目領域を抽出し，これに対してモチーフ分類を行う．（2）に対しては，深層学習による人為的な意味付けを伴わない特徴を利用する．さらに（3）に対しては，多くの人が外界に対して共通の意味概念としてもち得るであろう一般図 1 野村コレクション小袖屏風左：花卉模様小袖，右：藤草花模様小袖図 2　モチーフの階層構造の例図 3　一般物体認識空間を用いた抽象画像の特徴分類

(3)

物体認識空間を利用する．すなわち，図 3 に示すように，未知の抽象的な対象に対して，「∼のように見える」という既知の概念の組合せによって，モチーフの特徴を表現する．このようにして得られた小袖屏風画像中のモチーフの集合を用いた小袖屏風画像のクラスタ化を試みる．

3．一般物体認識空間でのモチーフの特徴分析

3･1 注視点に基づく階層的領域抽出分析対象のモチーフ領域を，視覚的に注視しやすい局所的特徴を要素とする階層的クラスタリングによって抽出する．抽出された各領域に対し，後述の一般物体認識器を用いて特徴を分析する．システム全般の構成を図 4 に示す．画像中から注目領域を抽出するために，SIFT（Scale Invariant Feature）キーポイントの密度を利用する． SIFTでは，そのキーポイント検出に DoG（Deferential of Gaussian）処理を行い，各スケールの変化領域に含まれるエッジ情報の極値点を検出する．すなわち，局所領域の特徴として有効な座標集合を得る．この集合の密度が高い領域を中心にモチーフの候補が存在すると仮定する．得られた SIFT キーポイント集合の座標情報を用いた階層クラスタリングを Ward 法によって行う．Ward 法では，各要素をそれぞれ一つのクラスタとするところから開始し，その後，クラスタ内の分散が最小になるように統合を繰り返す．最終的にすべての要素が一つのクラスにまとまるまでこれを繰り返す．小袖屏風画像 103 点に対して個別階層クラスタリングを行った結果，平均 24.3 階層のクラスが抽出された．各クラスに含まれる SIFT 座標データによってつくられる矩形領域のうち，抽出すべきモチーフが含まれる領域を，画像全体の面積の 5％以上 20％以下とし，かつその中に含まれる SIFT 特徴点が，総点数の 1％以上である場合を有効なモチーフ領域候補とした．図 5 に， Dendrogramによる階層構造を示す．また，図 6 に，元画像と SIFT キーポイントに基づく領域抽出結果を示す． 103 点の画像から抽出されたセグメントは合計 3 976 枚，1 屏風画像当たり平均 38.6 枚となった．抽出されたセグメント画像は，前述のマルチスケール画像をつなぎ合わせて領域画像を作成したのちに後述の深層学習器に入力するために 227×277 にスケーリングする．なお，今回はこれらの候補選択のパラメータを経験的に決定しているが，分析対象のモチーフのサイズ分布や解像度によって必要な領域の条件は変更する必要がある．図 4　階層的クラスタリングと一般物体認識器を用いたモチーフの分類図 5　SIFT キーポイントの階層構造図 6　着目すべきモチーフ領域抽出結果

(4)

3･2 深層学習による一般物体認識

深層学習のフレームワークの一つである，CALTECH の BVLCが開発した Caffe [Caffe] による CNN（Convolutional Neural Network）を用いる．Caffe は多くのアプリケーションでの実績があり，特に自然物，人工物などが含まれる 120 万枚（1 000 カテゴリー）を学習させた ImageNet [Krizhevsky 12]をリファレンスモデルとするネットワークは，一般物体認識で高い認識性能が得られることが知られている．実験に用いたネットワークの構造を図 7 と表 1 に示す． 5段の畳込み（conv）層とプーリング層（pool）を経て，全結合層の第 6 層目のベクトル（4 096 次元）が得られる．このベクトルは DeCAF（Deep Convolutional Activation Feature）[Donahue 13] と呼ばれている．本研究では，（1） DeCAFを直接用いた特徴分析 [田村 15] と，DeCAF を Caltech101の一般物体データベース [CALTECH] の 101 カテゴリーを用いて，101 次元のものとの一致度を特徴とする方法 [濱上 15] を行っているが，特に本稿では後者の事例について述べる． 3･3 モチーフの特徴分析抽出されたモチーフ領域に対し前述の一般物体認識を行い，各カテゴリーとの一致度（0.0 ∼ 100％）を用いて 101 次元の特徴ベクトルにする．このとき，カテゴリーとの一致度が近い対象に類似していると解釈できる．図 8 ∼図 10 に，特定の対象物体との類似性が強く対応したモチーフの例を示す．赤を基調とした「撫子」のモチーフは積まれた苺との類似性が表れている．同様に，「垣」のモチーフは蜂の巣状模様に，「片輪車」のモチーフは金庫の扉と関連付けられている．このように，一般物体との類似性を定量的に表現したベクトルが，直観的な印象にも近いことがうかがえる．図 11 ∼図 13 に，複数の物体対象との類似性が見られた例を示す．「紅葉」のモチーフはその色のバランスから，イソギンチャクやプラスチックバッグにも対応して表 1　Structure of network

layer map size function Input 227× 227 × 3 Conv 1 55× 55 × 96 ReL Pool 1 27× 27 × 96 Conv 2 27× 27 × 256 ReL Pool 2 13× 13 × 256 Conv 3 13× 13 × 384 ReL Conv 4 13× 13 × 384 ReL Conv 5 13× 13 × 256 ReL Pool 5 6× 6 × 256

Full Connected 6 1× 1 × 4 096（DeCAF） ReL Full Connected 7 1× 1 × 4 096 ReL Full Connected 8 1× 1 × 1 000 softmax

図 7　Caffe による CNN の実装

図 8　モチーフ分類例（菊松撫子文様）

図 9　モチーフ分類例（垣に萩文様）

(5)

いる．「文字」のモチーフの一部は，線虫や鎖に，「菊」のモチーフの一部は，ベルベットのしわや楽器の繰返しパターンにも反応する．このように対応するわかりやすい物体対象がない場合であっても，複数の物体の特徴を併せもつモチーフとして表現できる． 3･4 モチーフの特徴ベクトルを用いた類似性の評価モチーフの特徴を一般物体との類似性で定量的に捉えることで，モチーフ同士の類似性や，モチーフの集合からなる小袖屏風画像全体の特徴を表現することができる．図 14 に，101 次元のベクトルのユークリッド距離に応じた類似性に基づき生成した類似度ネットワークを示す．モチーフの類似性を可視化したことで，クラスタの単位ごとにメタデータを付与することが可能になり，タグ付け作業の支援ができる．また一つの小袖屏風画像に含まれる複数のモチーフの特徴を BoF（Bag of Features）として表し，Tf-Idf による重み付けをした後に小袖屏風の単位での類似性を求めた．図 15 に小袖屏風単位でのネットワーククラスタの例を示す．このネットワークでは，要素数 10 以上のクラスタが五つ，要素数 2 ∼ 9 までのクラスタが四つ，単独の画像が七つつくられた．同一クラスタ内の画像に対して，専門家が人手で与えたタグ情報（88 種）の集合の重なりは 65.4％となり，モチーフの重なりを反映した分類ができていることが確かめられた．

4．お　わ　り　に

本稿では，小袖屏風画像に含まれるモチーフ分析を目的とした，抽象画像の一般物体認識空間への射影を行う方法について述べた．深層学習による一般物体認識空間への写像により，個々のモチーフや小袖屏風画像の類似性の定量的な評価が可能となり，メタデータの付与や新たな類似性の発見への応用が期待できる．一方，いくつかのモチーフは発見することができなかったり，領域として抽出できても，布や地面のように単純なテクスチャのクラスに該当してしまう場合がある．これは，モチーフとして抽出すべき領域が勾配特徴を用いる SIFT 特徴量では見つけられない場合や，大きな空白のあるモチーフ（単純な「輪」など）の場合である．このように，「特徴がない」ことがデザインとして意味ある「空間」として機能している場合，今回のように注目領域と一般物体との類似性では評価は難しくなる．今後は，モチーフ同士の構造的関係を取り入れた特徴抽出が必要である．図 11　モチーフの一般物体認識空間における評価例（紅葉）図 14　モチーフの一般物体認識空間上の距離ネットワーク表現図 12　モチーフの一般物体認識空間における評価例（くずし文字）図 13　モチーフの一般物体認識空間における評価例（菊）

(6)

◇　参　考　文　献　◇

[Bradshaw 00] Bradshaw, B., et al.: Semantic based image retrieval: Aprobabilistic approach, Proc. 8th ACM Int. Conf. on

Multimedia, MULTIMEDIA’00, pp. 167-176（2000） [Caffe] https://github.com/BVLC/caffe

[CALTECH] http://www.vision.caltech.edu/Image Datasets/Caltech101/

[Donahue 13] Donahue, J., Jia, Y., Vinyals, O., Hoffman, J., Zhang, N., Tzeng, E. and Darrell, T.: DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition, arXiv: 1310.1531（2013） [Europeana] http://www.europeana.eu/portal/en [Google] https://www.google.com/culturalinstitute [濱上 13] https://www.rekihaku.ac.jp/education_research/ research/list/joint/2013/digitalarchive.html [濱上 14] 濱上知樹，澤田和人：デジタルアーカイブからの知的構造の抽出：インテリジェントシステムによる人文・歴史研究支援，電学論（C），Vol. 134, No. 9, pp. 1282-1286（2014） [濱上 15] 濱上知樹，澤田和人：小袖屏風を対象とした知的構造の抽出に関する研究，人文科学とコンピュータ研究会報告，2015-CH-107, No. 6, pp. 1-4（2015） [石井 03] 石井眞人：感性情報による類似画像群の分類，図学研究， Vol. 37, No. 4, pp. 9-14（2003）

[Krizhevsky 12] Krizhevsky, A., Sutskever, I. and Hinton, G. E.: ImageNet classification with deep convolutional neural networks, NIPS2012（2012）

[丸山 08] 丸山伸彦：江戸モードの誕生文様の流行とスター絵師，角川選書（2008）

[Mikilov 10] Mikilov, T.: Recurrent neural network based language model, Proc. 11th Annual Conf. of the International

Speech Communication Association（2010）

[岡本 15] 岡本真，柳与志夫：デジタルアーカイブとはなにか─理論と実践，勉誠出版（2015） [歴博 90] 国立歴史民俗博物館編：小袖屏風─野村コレクション，朝日新聞出版（1990） [総務省 12] 総務省：知のデジタルアーカイブ─社会の知識インフラとしての拡充にむけて─，http://www.soumu.go.jp/ main content/000167508.pdf（2012） [多田 03] 多田昌裕，加藤俊一：階層的分類を用いた視覚感性のモデル化と類似画像検索への応用，情処学論，Vol. 44, No. SIG 8, pp. 37-45（2003） [田村 15] 田村誠悟，濱上知樹：深層学習を用いたモチーフ分類にもとづく小袖屏風画像の特徴分析，じんもんこん 2015 論文集 IPSJ-CH2015038, pp. 247-252（2015） [田中 16] 田中友章，永井朗，濱崎裕太，大門利都子，萩生田明憲，富井尚志：服飾文化財における文様に着目した情報提示を目的とした小袖屏風 DB の構築，情処学研報 , Vol. 2016-DBS-163, No. 1, pp. 1-6（2016）

[Volodymyr 15] Volodymyr, M., et al.: Human-level control through deep reinforcement learning, Nature, Vol. 518, pp. 529-533（2015） 2017年 3 月 14 日受理

著　者　紹　介

濱上　知樹 1999年千葉大学大学院自然科学研究科博士後期課程修了．2001 年千葉大学助手．2004 年横浜国立大学大学院工学研究院助教授．2008 年 10 月同教授．知能システム，機械学習，強化学習，知的医療支援システム，社会システムへの応用研究に従事．博士（工学）．IEEE，電気学会，情報処理学会，計測自動制御学会，ロボット学会各会員．澤田　和人 1998年大阪大学大学院文学研究科芸術史学専攻博士前期課程修了．同年，大和文華館学芸員．2002 年国立歴史民俗博物館助手．2009 年同博物館准教授． 2013年総合研究大学院大学准教授（併任）．染織史，服飾史の研究に従事．美術史学会会員．図 15　小袖屏風画像の類似性に基づくクラスタネットワーク（主題が「菊」に該当するクラスタ）

深層学習による小袖屏風画像の特徴分析

1．は じ め に

2．小袖屏風画像のモチーフ分析

深層学習による小袖屏風画像の特徴分析

Feature Classification Analysis of “Kosode Byoubu” Images by the Deep

Learning

濱上 知樹

澤田 和人

Keywords:

3．一般物体認識空間でのモチーフの特徴分析

4．お わ り に

◇ 参 考 文 献 ◇

著 者 紹 介

1．は　じ　め　に

濱上　知樹

澤田　和人

4．お　わ　り　に

◇　参　考　文　献　◇

著　者　紹　介