• 検索結果がありません。

第 3 章 Conditional AutoEncoder による筆跡特徴抽出

3.3 評価実験

3.3.1 実験データセット

19

に入力する.誤差逆伝搬に用いる誤差関数LCAEI, O)を式(3.1)に示す.式(3.1) 中のNは,入力画像Iと出力画像Oの総画素数を表す.入力画像I=i1, i2, …, iN ∈ {0,1})と出力画像O=o1, o2, …, oN ∈ [0,1])間の平均絶対誤差を再構成 誤差DREとして算出する.

𝐿𝐿

𝐶𝐶𝐶𝐶𝐶𝐶

(𝑰𝑰, 𝑶𝑶) = 𝐷𝐷

𝑅𝑅𝐶𝐶

(𝑰𝑰, 𝑶𝑶) = 1𝑁𝑁 �|𝑖𝑖

𝑁𝑁 𝑛𝑛

− 𝑜𝑜

𝑛𝑛

|

𝑛𝑛=1

( 3.1 )

低次元の潜在空間で表現されるzには,yとは分離した筆跡特徴が反映される と考え,AE_2により学習される潜在空間について,以下の2点を検証する.

・潜在空間上で字種非依存な筆跡特徴が表現可能か否か

・筆跡特徴が筆者照合に有効な個人性を捉えられるか否か

20

データが必要である.本研究では,その条件を満たした手書き文字データベース

としてETL-1と平仮名データを用いる.

3.3.1.1 ETL-1 Character DatabaseETL-1

ETL Character Databaseは日本語文字認識のために収集された大規模データベ

ースである.1973年から1984年にかけて,電子技術総合研究所(現 独立行政 法人産業技術総合研究所)において,日本電子工業振興協会(現 電子情報技術 産業協会),大学,民間の研究機関の協力をもとに文字認識研究用に収集された ものであり,ETL-1から ETL-9 の 9種類のデータとしてまとめられている.本 研究では,筆者情報を含み,字種単位での手書き文字が収められた ETL-1 を用 いて実験を行った. ETL-1は,1,445人によって記載された片仮名51字種,大 文字のラテン文字26字種,0~9までの数字10字種及び12の記号(「*」「+」, ,

「¥」 等)が収められている.各筆者が枠線の印刷された用紙1枚の各枠内に 1つずつ文字を記載したものであり,1枚のシート上に書かれた文字が同一人で あることが保証されている.各文字はスキャナにより電子化され,字種単位で分

図 3.4 ETL-1のサンプル (a) 片仮名データ

(b) ラテン文字データ

21

割されており,原画像は16階調の64×63pixelsである.本実験では,図 3.4に 示す基本的な片仮名46字種(記載された片仮名51字種中,ヤ行の「イ」,「エ」

及びワ行の「ヰ」,「ウ」,「ヱ」を除いたもの)とラテン文字26字種を用い る.

3.3.1.2 Hiragana dataset (平仮名データ)

ETL-1 は 1 人あたり同一字種を 1 回のみ記載したデータであり,同一字種が

複数回記載される場合の筆跡の恒常性や変動を捉えることはできない.同一字 種内の恒常性及び変動を検討することは,実際の筆跡鑑定の場面を想定すると 重要である.同一字種の恒常性及び変動を把握するためには,同一筆者が 1 字 種あたり複数回記載した筆跡が含まれるデータベースを用いた検証が必要であ る.そのため,本研究では独自に収集した平仮名データを実験に用いる.平仮名

図 3.5 平仮名データのサンプル

22

データには,日本語の文章を記載するときに単語間の関係性を表現するための 助詞を含んだ「て,に,は,と,を,の,せ,る,が,い,で,ん」という12字 種が含まれる.これらの字種の選定には,平仮名全46字種が複数回記載された 筆跡を収集するためには多くの時間を要することと,あらゆる文章において出 現頻度の高い字種について検証することが現実的に望ましい点を考慮した.一 連の文章を記載するときの筆跡として収集するために,図 3.5に示す用紙に「手 に鳩を乗せる外伝」という文章を意識して所定の枠内に10回繰り返して記載を 求めた.約 500 人の実験参加者から筆跡を収集し,字種ごとに筆者と紐づけら れた大規模な平仮名データセットを作成した.