第 3 章 Conditional AutoEncoder による筆跡特徴抽出
3.3 評価実験
3.3.5 評価方法
3.3.5.1 潜在空間の可視化による特徴表現の評価
提案手法では,多次元(ETL-1の片仮名データとラテン文字データを扱う場合
には 128×128=16,384次元,平仮名データを扱う場合には 64×64=4,096 次元)
の画像特徴を z dim という少数の次元で表現できるような潜在空間 z を学習す る.どのような字種が入力された場合であっても,少数次元のzを用いた再構成 を良好に行うためには,全字種で共通する字形スタイルのみをzで表現し,それ
29
以外は字種情報yで操作できるように学習が行われると仮定される.そこで,以 下の4つの方法により潜在空間を視覚的に評価する.
(1)zを特定次元軸上で変化させてDecoderにより画像生成(図 3.11参照)
(2)Decoderへの入力時に字種情報yを変化させて画像生成(図 3.12参照)
(3)実際の手書き文字を字種単位で潜在空間にマッピング(図 3.13参照)
(4)実際の手書き文字を筆者単位で潜在空間にマッピング(図 3.14参照)
(1)では,図 3.11のようにzを変化させたときに生成される画像を潜在空間 に布置することで,どのような字形が潜在空間上で表現されるのかを把握する.
(a) AE_0
(b) AE_1, AE_2, VAE_2 Decoder
z
Generated image z2
z1
①
②
Decoder
y z
Generated image z2
z1
①
②
図 3.11 潜在変数zを入力とする生成画像からの潜在空間の可視化
30
(2)では,AE_1,AE_2,VAE_2 について,図 3.12 のように入力画像から
Encoderを通して得られる z に入力画像とは異なる字種ラベルを与えて Decoder
により画像生成を行う.生成された画像について,入力画像と同じようなスタイ ルが字種に依存することなく反映されるか否かを把握する.
yin
①
② Encoder
Decoder
y0 z
・・・
y1 yn
・・・
Decoder
Generated image (a) AE_1
(b) AE_2, VAE_2
①
② Encoder
Decoder
y0 z
・・・
y1 yn
・・・
Decoder
Generated image
図 3.12 字種情報yを変化させて画像生成
31
(3)では,図 3.13 のように実際の手書き文字を Encoder に入力して z を求 め,字種単位で潜在空間にマッピングする.潜在空間上における実際の手書き文 字の布置状況を字種単位で視覚的に把握することにより,異なる字種でも類似 したスタイルの筆跡が近くの空間にマッピングされているか否か把握する.ま た,多くの筆者の手書き文字の潜在空間上における分布から,筆者間の字種のば らつき(個人差)について把握,分析する.
(4)では,図 3.14 のようにテスト用データの筆者から選択した 3 人の手書 き文字について,筆者単位での潜在空間へのマッピング状況を把握する.同一人 の筆跡について,字種に依存しない特徴が潜在空間で表現されている場合には,
筆者でのクラスタが形成されると考えられる.また,その字種に依存しない特徴 Encoder
z
①
②
z2
z1
(a) AE_0, AE_1
①
②
z2
z1 Encoder
z y
(b) AE_2, VAE_2
図 3.13 実際の手書き文字の潜在空間へのマッピング
32
が筆者ごとで異なる場合には,各筆者クラスタが分離して潜在空間上に布置す ると考えられる.
(1),(3),(4)の方法による潜在空間の可視化にあたり,zを2次元とし て学習した結果から視覚的に評価する.zを多次元として学習した後,一部の次 元を選択して可視化する方法や,2 次元に次元圧縮する手法(PCA [85],MDS
[86],t-SNE [87]等)を用いて可視化することも可能であるが,本質的な提案手法
の評価を行うにあたり,できるだけ他の処理(特にパラメータ設定が必要なもの)
が含まれないほうが望ましいと考えた.