筆者照合実験からの評価 - 評価方法 - 評価実験 - Conditional AutoEncoder による筆跡特徴抽出

第 3 章 Conditional AutoEncoder による筆跡特徴抽出

3.3 評価実験

3.3.5 評価方法

3.3.5.2 筆者照合実験からの評価

が筆者ごとで異なる場合には，各筆者クラスタが分離して潜在空間上に布置すると考えられる．

（1），（3），（4）の方法による潜在空間の可視化にあたり，zを2次元として学習した結果から視覚的に評価する．zを多次元として学習した後，一部の次元を選択して可視化する方法や，2 次元に次元圧縮する手法（PCA [85]，MDS

[86]，t-SNE [87]等）を用いて可視化することも可能であるが，本質的な提案手法

の評価を行うにあたり，できるだけ他の処理（特にパラメータ設定が必要なもの）

が含まれないほうが望ましいと考えた．

提案手法の同一字種条件下での筆者照合性能を評価する．実施した 3 つの評価実験を以下に述べる．

（1）ETL-1データを用いた特定パターンでの異なる字種を用いた筆者照合実験

（2）ETL-1データを用いて，抽出字種数を制限したランダム抽出パターンでの

異なる字種を用いた筆者照合実験

（3）平仮名データを用いた特定パターンでの異なる字種及び同一字種での筆者照合実験

（1）では，ETL-1データについて，同一筆者の筆跡をTargetデータとReference

データに分割して，各筆者の Target データを全筆者の Reference データと比較，

照合する．表 3.7に示すように，Targetデータと Referenceデータの字種数は偏りなく同数となるように分割し，各字種をEncoderに入力して得られるzをデータ内で平均統合処理して字種間の変動を抑えたうえで照合（類似度計算）を行う．

TargetデータとReferenceデータには同一字種は含まれておらず，異なる字種で

の照合実験となる．

（2）では，テストデータから異なる字種群で構成される同一人ペアと他人ペアをランダムに作り，各ペアについての照合を行う．ペアの作成方法を図 3.15 に示す．全テストデータを使って，網羅的に作成可能なペアの数は膨大となるため，ランダムに同一人ペアを50,000個，他人ペアを50,000個作成する．同一人ペアは，テストデータからランダムに筆者を 1 人選択し，その筆者の n 字種のデータから，同一字種を含まないようにm 字種を2組選択し，それらをペアとすることで作成される．他人ペアは，テストデータからランダムに筆者を 2 人

Dataset Target Reference

ETL-1 (片仮名)

ETL-1 (ラテン文字)

表 3.7 ETL-1データのTargetデータとReferenceデータの分割

選択し，同一字種を含まないように各筆者から m 字種を選択したものをペアとすることで作成される．

4 モデル間での比較実験にあたり，乱数生成 seed は共通とし，ランダム選択の影響を考慮して，5種類の乱数seed（=0～4）を用いて5回の照合実験を行い，

5 回分の結果の平均から照合性能を評価する．選択する字種数 m については，

少数字種での評価を行うために，ETL-1の片仮名データを用いる場合には3，5， 7，10，15，20の6条件，ETL-1のラテン文字データを用いる場合には3，5，7， 10の4条件で実験を行う．

（3）では，同一人が同一字種を複数記載している平仮名データを用いて，提案手法による異なる字種条件における筆者照合実験に加えて同一字種条件での筆者照合実験を行う．異字種条件での照合では，表 3.8に示す「てにはとをの」

Count Target Reference

1 2 3 4 5 6 7 8 9 10

表 3.8 平仮名データの異字種筆者照合実験におけるデータ分割

テスト用

他人ペア同一人ペア

ランダム抽出

図 3.15 同一人ペア，他人ペアの作成（m=3の場合）

と「せるがいでん」の異なる6字種について，繰り返し記載された10回分のデータを用いる．また，同一字種条件での照合では，10 回分のデータについて，

奇数番目に記載したものと偶数番目に記載したものでデータを分割して，表 3.9

のようにTargetデータとReferenceデータに同一字種が含まれるように照合を行

う．同一字種の照合では，どの程度の字種数が存在すれば精度の高い照合が可能か否かを検証するために，以下の4つの異なる字種数の条件で実験を行った．

①「てにはとをのせるがいでん」の12字種をすべて用いるパターン

②「てにはとをの」，「せるがいでん」の各6字種のみ用いるパターン

③「てには」，「とをの」，「せるが」，「いでん」の各3字種のみ用いるパターン

④単一字種のみを用いるパターン（例：奇数番目に書かれた5回分の「て」と偶数番目に書かれた5回分の「て」の比較）

（1），（3）の特定パターンついてはTargetデータとReferenceデータ間，（2）については入力ペア間での筆者照合を行う．照合におけるデータ間の類似度計算方法を図 3.16に示す．まず，各字種を Encoderに入力することでzを求め，

各データ内における字種間の変動を抑えるために，各 z の同一次元の値を平均することで特徴統合を行う．各データ群（A,B）について，統合された特徴間の類似性をユークリッド距離DA,Bにより算出する．AとBが同一人の場合と異なる人の場合での距離DA,Bを用いて，照合性能を求める．また，筆者内距離（Aと Bが同一人の場合の距離 DA,B）と筆者間距離（Aと Bが異なる人の場合の距離 DA,B）の分布の分離性能を評価するため，ROC曲線下面積（Area Under the ROC Curve; AUC），等価エラー率（Equal Error Rate; EER）を算出する．

Target Reference

表 3.9 平仮名データの同一字種筆者照合実験におけるデータ分割

ドキュメント内深層学習を用いた特徴表現に基づく字種非依存型オフライン筆者照合に関する研究 (ページ 46-50)