潜在空間の評価結果 - 実験結果と各結果についての考察 - 評価実験

第 3 章 Conditional AutoEncoder による筆跡特徴抽出

3.3 評価実験

3.3.6 実験結果と各結果についての考察

3.3.6.1 潜在空間の評価結果

潜在空間がどのような特徴を表現しているのかを Decoder による生成画像及び筆跡画像の潜在空間へのマッピングから視覚的に評価した．

（1）z値からの生成画像の潜在空間における布置

zを変化させたときに生成される画像を潜在空間上に布置し，どのような字形が潜在空間上で表現されるのかを把握した．zの次元数は2として2次元平面で表現した．各モデルについて可視化した結果を図 3.17～図 3.20に示す．AE_1，

AE_2，VAE_2については，yをETL-1の片仮名データでは「ア」，「ス」，「ユ」，

ETL-1のラテン文字データでは「H」，「K」，「S」と設定した結果を示す．

z₂

z₁

図 3.17 AE_0の2D潜在空間の可視化

（中央・右の画像は，左の画像の色付き枠線部分を拡大した結果を示す）

(a) ETL-1 片仮名データ

(b) ETL-1 ラテン文字データ

z₂

z₁

図 3.18 AE_1の2D潜在空間の可視化 (a) ETL-1 片仮名データ

(b) ETL-1 ラテン文字データ

y=[ア] y=[ス] y=[ユ]

y=[H] y=[K] y=[S]

z₂

z₁

図 3.19 AE_2の2D潜在空間の可視化 (a) ETL-1 片仮名データ

(b) ETL-1 ラテン文字データ

y=[ア] y=[ス] y=[ユ]

y=[H] y=[K] y=[S]

AE_0は字種情報yを含まず，その潜在空間では類似した形態の異なる字種が近くに布置する状況が確認された．このことから，AE_0では，形態を重視した特徴圧縮により潜在空間が学習され，字種から分離したスタイルを表現するための学習は行われていないと考えられる．ただし，同一字種が表現されている領域においては，特徴軸においてスタイルが変化する状態が確認された．一方，

AE_1，AE_2，VAE_2では，yにより字種ごとの潜在空間が学習されていること

が確認された．また，扁平度，傾斜といったスタイルについては，字種に依らず類似したz空間上で表現されている状態が確認された．

z₂

z₁

図 3.20 VAE_2の2D潜在空間の可視化 (a) ETL-1 片仮名データ

(b) ETL-1 ラテン文字データ

y=[ア] y=[ス] y=[ユ]

y=[H] y=[K] y=[S]

（2）Decoderへの入力時にyを変化させて画像生成

AE_1，AE_2，VAE_2 について，「ス」と「S」をEncoderに入力して求めら

れるzに対し，yを変化させてDecoderに入力することで画像生成を行った．テスト用データの筆者2名について，zの次元数（z dim）を5，20として画像生成を行った結果を図 3.21及び図 3.22に示す．

Input z dim Model Generated Image

AE_1 AE_2 VAE_2

Input z dim Model Generated Image

AE_1 AE_2 VAE_2

(a) 筆者A（ETL-1 片仮名データのTest Writer No.2）

(b) 筆者B（ETL-1 片仮名データのTest Writer No.4）

図 3.21 Inputの「ス」のzを用いて画像生成

z dim=5の場合は，いずれのモデルであっても，入力文字の線の太さや傾斜の程度といったスタイルが反映された他字種が生成されることが確認された．ただし，z dim=20のように次元数が大きい場合には，yを変化させても入力文字と同一字種が生成されることが確認された．Decoderについては，入出力の再構成誤差を減らすことを目的としているため，zがある一定以上の次元数の場合には，

Input z dim Model Generated Image

AE_1 AE_2 VAE_2

Input z dim Model Generated Image

AE_1 AE_2 VAE_2

(a) 筆者A（ETL-1 ラテン文字データのTest Writer No.2）

(b) 筆者B（ETL-1 ラテン文字データのTest Writer No.4）図 3.22 Inputの「S」のzを用いて画像生成

Decoderに入力されるyの情報を考慮することなく入力画像と誤差の少ない画像

が再構成されるように学習されているものと考えられる．

（3）潜在空間における各字種のマッピング

実際の手書き文字が潜在空間上でどのようにマッピングされるのかを調べる

ため，ETL-1データにおける学習用データとテスト用データを全て用い，字種単

位でのマッピングを行った．zの次元数を2として学習したAE_0，AE_1，AE_2，

VAE_2の Encoderを通して得られる z値を 2 次元平面上にマッピングするとと

もに，実際の画像と対応付ける．ETL-1の片仮名データを用いた学習モデルについては「ア」と「ス」，ETL-1のラテン文字データを用いた学習モデルについては「K」と「S」についてマッピングを行った結果を図 3.23～図 3.38に示す．

z₂

z₁

図 3.23 AE_0（ETL-1 片仮名データ「ア」）

43 z₂

z₁

図 3.24 AE_0（ETL-1 片仮名データ「ス」）

z₂

z₁

図 3.25 AE_0（ETL-1 ラテン文字データ「K」）

44 z₂

z₁

図 3.26 AE_0（ETL-1 ラテン文字データ「S」）

z₂

z₁

図 3.27 AE_1（ETL-1 片仮名データ「ア」）

45 z₂

z₁

図 3.28 AE_1（ETL-1 片仮名データ「ス」）

z₂

z₁

図 3.29 AE_1（ETL-1 ラテン文字データ「K」）

46 z₂

z₁

図 3.30 AE_1（ETL-1 ラテン文字データ「S」）

z₂

z₁

図 3.31 AE_2（ETL-1 片仮名データ「ア」）

47 z₂

z₁

図 3.32 AE_2（ETL-1 片仮名データ「ス」）

z₂

z₁

図 3.33 AE_2（ETL-1 ラテン文字データ「K」）

48 z₂

z₁

図 3.34 AE_2（ETL-1 ラテン文字データ「S」）

z₂

z₁

図 3.35 VAE_2（ETL-1 片仮名データ「ア」）

49 z₂

z₁ z₂

z₁

図 3.36 VAE_2（ETL-1 片仮名データ「ス」）

図 3.37 VAE_2（ETL-1 ラテン文字データ「K」）

AE_0では，字種によって異なる空間上の位置にマッピングされる状態が確認されたことから，字形のみに基づいて潜在空間が学習されていることが示唆された．一方，AE_1，AE_2，VAE_2については，どの字種についても平均は原点付近にまとまっている状態が確認された．また，異なる字種の潜在空間を比較したところ，潜在空間における配置の近い文字の形態（線の太さ，扁平度，傾斜の状態等）は類似しており，字種に依存しない共通性が潜在空間に反映されていることが示唆された．

本実験で用いた ETL-1 データは，署名のように個人認証のために収集された筆跡ではなく，何人が読んでも，その文字が理解できるように書かれたものである．そのため，字形の変動はある一定範囲に収まり，図 3.39～図 3.42に示すように潜在空間における分布についても一定のまとまりがあり，原点付近に布置する多くの人が記載する筆跡の字形は，全筆者の平均画像と類似することが確認された．

z₂

z₁

図 3.38 VAE_2（ETL-1 ラテン文字データ「S」）

z₂

z₁

Frequency

Frequency (c) 全筆者「ア」の平均画像

(b) z2方向の射影ヒストグラム (a) z1方向の射影ヒストグラム

(d) 原点付近の筆跡

図 3.39 AE_2の2D潜在空間（「ア」のマッピング状況）

z₂

z₁

Frequency

(b) z2方向の射影ヒストグラム (a) z1方向の射影ヒストグラム

(d) 原点付近の筆跡

図 3.40 AE_2の2D潜在空間（「ス」のマッピング状況）

z₂

z₁

Frequency

(b) z2方向の射影ヒストグラム (a) z1方向の射影ヒストグラム

(d) 原点付近の筆跡

図 3.42 AE_2の2D潜在空間（「S」のマッピング状況）

z₂

z₁

Frequency

(b) z2方向の射影ヒストグラム (a) z1方向の射影ヒストグラム

(d) 原点付近の筆跡

図 3.41 AE_2の2D潜在空間（「K」のマッピング状況）

（4）筆者ごとの潜在空間へのマッピング

ETL-1 の片仮名データでは全 46 字種，ラテン文字データでは全 26 字種を筆

者単位で潜在空間にマッピングした．z の次元数を 2 として学習したモデルの

Encoderを通して求められるzを2次元平面上にマッピングするとともに，実際

の画像と対応付けた結果を図 3.43～図 3.50に示す．各図中のバツ印は同一筆者において対象とする全字種のzの平均ベクトルを表す．

z₂

z₁

図 3.44 AE_0（ETL-1 ラテン文字データ26字種）

z₂

z₁

図 3.43 AE_0（ETL-1 片仮名データ46字種）

54 z₂

z₁

図 3.45 AE_1（ETL-1 片仮名データ46字種）

z₂

z₁

図 3.46 AE_1（ETL-1 ラテン文字データ26字種）

55 z₂

z₁

図 3.47 AE_2（ETL-1 片仮名データ46字種）

z₂

z₁

図 3.48 AE_2（ETL-1 ラテン文字データ26字種）

56 z₂

z₁

図 3.49 VAE_2（ETL-1 片仮名データ46字種）

z₂

z₁

図 3.50 VAE_2（ETL-1 ラテン文字データ26字種）

AE_0については，異なる筆者でも類似した字形である同一字種が近くにマッピングされ，筆者クラスタの形成は確認されず，各筆者の平均ベクトルが筆者で分離する状態はみられなかった．AE_1，AE_2，VAE_2においては，同一字種の字形の類似性ではなく，線の太さ，傾斜の程度，扁平度といったスタイルが類似したものが近くにマッピングされる状態がみられた．また，そのスタイルは各筆者である程度一貫し，筆者クラスタが形成される状態及び各筆者の平均ベクトルが筆者ごとに分かれている状態が確認された．

ドキュメント内深層学習を用いた特徴表現に基づく字種非依存型オフライン筆者照合に関する研究 (ページ 51-71)