第 3 章 Conditional AutoEncoder による筆跡特徴抽出
3.3 評価実験
3.3.6 実験結果と各結果についての考察
3.3.6.1 潜在空間の評価結果
潜在空間がどのような特徴を表現しているのかを Decoder による生成画像及 び筆跡画像の潜在空間へのマッピングから視覚的に評価した.
(1)z値からの生成画像の潜在空間における布置
zを変化させたときに生成される画像を潜在空間上に布置し,どのような字形 が潜在空間上で表現されるのかを把握した.zの次元数は2として2次元平面で 表現した.各モデルについて可視化した結果を図 3.17~図 3.20に示す.AE_1,
AE_2,VAE_2については,yをETL-1の片仮名データでは「ア」,「ス」,「ユ」,
ETL-1のラテン文字データでは「H」,「K」,「S」と設定した結果を示す.
z2
z1
図 3.17 AE_0の2D潜在空間の可視化
(中央・右の画像は,左の画像の色付き枠線部分を拡大した結果を示す)
(a) ETL-1 片仮名データ
(b) ETL-1 ラテン文字データ
38
z2
z1
図 3.18 AE_1の2D潜在空間の可視化 (a) ETL-1 片仮名データ
(b) ETL-1 ラテン文字データ
y=[ア] y=[ス] y=[ユ]
y=[H] y=[K] y=[S]
z2
z1
図 3.19 AE_2の2D潜在空間の可視化 (a) ETL-1 片仮名データ
(b) ETL-1 ラテン文字データ
y=[ア] y=[ス] y=[ユ]
y=[H] y=[K] y=[S]
39
AE_0は字種情報yを含まず,その潜在空間では類似した形態の異なる字種が 近くに布置する状況が確認された.このことから,AE_0では,形態を重視した 特徴圧縮により潜在空間が学習され,字種から分離したスタイルを表現するた めの学習は行われていないと考えられる.ただし,同一字種が表現されている領 域においては,特徴軸においてスタイルが変化する状態が確認された.一方,
AE_1,AE_2,VAE_2では,yにより字種ごとの潜在空間が学習されていること
が確認された.また,扁平度,傾斜といったスタイルについては,字種に依らず 類似したz空間上で表現されている状態が確認された.
z2
z1
図 3.20 VAE_2の2D潜在空間の可視化 (a) ETL-1 片仮名データ
(b) ETL-1 ラテン文字データ
y=[ア] y=[ス] y=[ユ]
y=[H] y=[K] y=[S]
40
(2)Decoderへの入力時にyを変化させて画像生成
AE_1,AE_2,VAE_2 について,「ス」と「S」をEncoderに入力して求めら
れるzに対し,yを変化させてDecoderに入力することで画像生成を行った.テ スト用データの筆者2名について,zの次元数(z dim)を5,20として画像生成 を行った結果を図 3.21及び図 3.22に示す.
Input z dim Model Generated Image
5
AE_1 AE_2 VAE_2
20
AE_1 AE_2 VAE_2
Input z dim Model Generated Image
5
AE_1 AE_2 VAE_2
20
AE_1 AE_2 VAE_2
(a) 筆者A(ETL-1 片仮名データのTest Writer No.2)
(b) 筆者B(ETL-1 片仮名データのTest Writer No.4)
図 3.21 Inputの「ス」のzを用いて画像生成
41
z dim=5の場合は,いずれのモデルであっても,入力文字の線の太さや傾斜の 程度といったスタイルが反映された他字種が生成されることが確認された.た だし,z dim=20のように次元数が大きい場合には,yを変化させても入力文字と 同一字種が生成されることが確認された.Decoderについては,入出力の再構成 誤差を減らすことを目的としているため,zがある一定以上の次元数の場合には,
Input z dim Model Generated Image
5
AE_1 AE_2 VAE_2
20
AE_1 AE_2 VAE_2
Input z dim Model Generated Image
5
AE_1 AE_2 VAE_2
20
AE_1 AE_2 VAE_2
(a) 筆者A(ETL-1 ラテン文字データのTest Writer No.2)
(b) 筆者B(ETL-1 ラテン文字データのTest Writer No.4) 図 3.22 Inputの「S」のzを用いて画像生成
42
Decoderに入力されるyの情報を考慮することなく入力画像と誤差の少ない画像
が再構成されるように学習されているものと考えられる.
(3)潜在空間における各字種のマッピング
実際の手書き文字が潜在空間上でどのようにマッピングされるのかを調べる
ため,ETL-1データにおける学習用データとテスト用データを全て用い,字種単
位でのマッピングを行った.zの次元数を2として学習したAE_0,AE_1,AE_2,
VAE_2の Encoderを通して得られる z値を 2 次元平面上にマッピングするとと
もに,実際の画像と対応付ける.ETL-1の片仮名データを用いた学習モデルにつ いては「ア」と「ス」,ETL-1のラテン文字データを用いた学習モデルについて は「K」と「S」についてマッピングを行った結果を図 3.23~図 3.38に示す.
z2
z1
図 3.23 AE_0(ETL-1 片仮名データ「ア」)
43 z2
z1
図 3.24 AE_0(ETL-1 片仮名データ「ス」)
z2
z1
図 3.25 AE_0(ETL-1 ラテン文字データ「K」)
44 z2
z1
図 3.26 AE_0(ETL-1 ラテン文字データ「S」)
z2
z1
図 3.27 AE_1(ETL-1 片仮名データ「ア」)
45 z2
z1
図 3.28 AE_1(ETL-1 片仮名データ「ス」)
z2
z1
図 3.29 AE_1(ETL-1 ラテン文字データ「K」)
46 z2
z1
図 3.30 AE_1(ETL-1 ラテン文字データ「S」)
z2
z1
図 3.31 AE_2(ETL-1 片仮名データ「ア」)
47 z2
z1
図 3.32 AE_2(ETL-1 片仮名データ「ス」)
z2
z1
図 3.33 AE_2(ETL-1 ラテン文字データ「K」)
48 z2
z1
図 3.34 AE_2(ETL-1 ラテン文字データ「S」)
z2
z1
図 3.35 VAE_2(ETL-1 片仮名データ「ア」)
49 z2
z1 z2
z1
図 3.36 VAE_2(ETL-1 片仮名データ「ス」)
図 3.37 VAE_2(ETL-1 ラテン文字データ「K」)
50
AE_0では,字種によって異なる空間上の位置にマッピングされる状態が確認 されたことから,字形のみに基づいて潜在空間が学習されていることが示唆さ れた.一方,AE_1,AE_2,VAE_2については,どの字種についても平均は原点 付近にまとまっている状態が確認された.また,異なる字種の潜在空間を比較し たところ,潜在空間における配置の近い文字の形態(線の太さ,扁平度,傾斜の 状態等)は類似しており,字種に依存しない共通性が潜在空間に反映されている ことが示唆された.
本実験で用いた ETL-1 データは,署名のように個人認証のために収集された 筆跡ではなく,何人が読んでも,その文字が理解できるように書かれたものであ る.そのため,字形の変動はある一定範囲に収まり,図 3.39~図 3.42に示すよ うに潜在空間における分布についても一定のまとまりがあり,原点付近に布置 する多くの人が記載する筆跡の字形は,全筆者の平均画像と類似することが確 認された.
z2
z1
図 3.38 VAE_2(ETL-1 ラテン文字データ「S」)
51
z2
z1
Frequency
Frequency (c) 全筆者「ア」の平均画像
(b) z2方向の射影ヒストグラム (a) z1方向の射影ヒストグラム
(d) 原点付近の筆跡
図 3.39 AE_2の2D潜在空間(「ア」のマッピング状況)
z2
z1
Frequency
Frequency
(b) z2方向の射影ヒストグラム (a) z1方向の射影ヒストグラム
(c) 全筆者「ス」の平均画像
(d) 原点付近の筆跡
図 3.40 AE_2の2D潜在空間(「ス」のマッピング状況)
52
z2
z1
Frequency
Frequency
(b) z2方向の射影ヒストグラム (a) z1方向の射影ヒストグラム
(c) 全筆者「S」の平均画像
(d) 原点付近の筆跡
図 3.42 AE_2の2D潜在空間(「S」のマッピング状況)
z2
z1
Frequency
Frequency
(b) z2方向の射影ヒストグラム (a) z1方向の射影ヒストグラム
(c) 全筆者「K」の平均画像
(d) 原点付近の筆跡
図 3.41 AE_2の2D潜在空間(「K」のマッピング状況)
53
(4)筆者ごとの潜在空間へのマッピング
ETL-1 の片仮名データでは全 46 字種,ラテン文字データでは全 26 字種を筆
者単位で潜在空間にマッピングした.z の次元数を 2 として学習したモデルの
Encoderを通して求められるzを2次元平面上にマッピングするとともに,実際
の画像と対応付けた結果を図 3.43~図 3.50に示す.各図中のバツ印は同一筆者 において対象とする全字種のzの平均ベクトルを表す.
z2
z1
図 3.44 AE_0(ETL-1 ラテン文字データ26字種)
z2
z1
図 3.43 AE_0(ETL-1 片仮名データ46字種)
54 z2
z1
図 3.45 AE_1(ETL-1 片仮名データ46字種)
z2
z1
図 3.46 AE_1(ETL-1 ラテン文字データ26字種)
55 z2
z1
図 3.47 AE_2(ETL-1 片仮名データ46字種)
z2
z1
図 3.48 AE_2(ETL-1 ラテン文字データ26字種)
56 z2
z1
図 3.49 VAE_2(ETL-1 片仮名データ46字種)
z2
z1
図 3.50 VAE_2(ETL-1 ラテン文字データ26字種)
57
AE_0については,異なる筆者でも類似した字形である同一字種が近くにマッ ピングされ,筆者クラスタの形成は確認されず,各筆者の平均ベクトルが筆者で 分離する状態はみられなかった.AE_1,AE_2,VAE_2においては,同一字種の 字形の類似性ではなく,線の太さ,傾斜の程度,扁平度といったスタイルが類似 したものが近くにマッピングされる状態がみられた.また,そのスタイルは各筆 者である程度一貫し,筆者クラスタが形成される状態及び各筆者の平均ベクト ルが筆者ごとに分かれている状態が確認された.