第 3 章 Conditional AutoEncoder による筆跡特徴抽出
3.2 提案手法
字種に依存しない筆跡特徴を,照合精度からの評価だけではなく,学習された 潜在空間上でどのように特徴が表現されるのかという検証を含めて説明できる 解釈可能性を含んだモデルとして構築することが,最終的な鑑定への応用を目 的とした場合に重要と考える.そのため,本研究では,特徴抽出モデルをVGGNet [78],GoogLeNet [79],ResNet [80],DenseNet [81],Xception [82]等の深いネット ワーク構造では,各層における処理が不明瞭になると考え,LeNet-5 [83]をベー スとした浅いネットワーク構造とした.
提案手法の概要を図 3.2 に示す.文献 [69]のアイデアを参考に,潜在空間上 で字種に依存しない筆跡特徴を表現し,表現された筆跡特徴が筆者照合に有効 な個人性を有するか否かについて検証を行う.文献 [69]では,特徴抽出のネッ トワークにおいてVAEが用いられている.VAEでは,画像は何らかの統計的な
17
プロセスを経て生成されていると仮定し,その生成過程を考慮して潜在空間を 求める.本研究では,潜在空間に制約を与えずに学習を行う AE ベースの手法 が,潜在空間の学習に制約を与えるVAEベースの手法と比較し,大量の学習デ ータの変動を直接的に踏まえた潜在空間の学習ができると考えた.なお,筆跡画 像から字種情報と筆跡特徴を分離するという明確な目的があり,さらに抽出さ れた筆跡特徴についての解釈可能性を踏まえると,敵対的学習のための識別ネ ットワーク(Discriminator)を含めたモデル(GAN,AAE等)よりも,Discriminator を含まずに処理の説明が容易な AE を用いた手法が本研究には適していると考 えた.
AEのEncoderとDecoderに字種情報を条件付けしたConditional AE(CAE)を 字種非依存な筆跡特徴を抽出するモデルとして構築した.構築したCAEのネッ トワーク構造を図 3.3及び表 3.1に示す.なお,以下では本提案モデルをAEの 2か所に字種情報を付与したモデルとしてAE_2と呼称する.
Encoder Decoder
z Character
Label y
Training data
zB
zq
zA
B A
Unknown
潜在空間
①全筆者共通の字種非依存特徴抽出モデルを構築
②抽出特徴を潜在空間にマッピング
③潜在空間で筆者の類似性を評価
図 3.2 提案手法の概要
18
ネットワークの途中にone-hotエンコーディングされた字種情報yを付与する ことで,筆跡画像から y を分離した筆跡特徴を潜在変数 z として抽出する.
Encoder は LeNet-5 の構造をベースとし,Decoder は Encoder の構造をほぼ反転
させてzとyから画像を生成するネットワークである.モデル学習時には,入力 する筆跡画像と,その筆跡画像の字種に対応したyをEncoderとDecoderの両方
y
Encoder
z
Decoder
Reconstruction Error
Input Output
Input
Convolution+ReLU
Upsampling
Batch Normalization Sigmoid
Concatenation Dense
Max Pooling
Convolution
Dense+ReLU+L2 Norm Latent
Label
図 3.3 CAE(AE_2)のネットワーク構造
Output shape (w, h, channel) or unit size
Input Input width, height, 1
Conv1 Convolution width, height, 4 Activation=ReLU, Kernel=3, Stride=1, Padding=1 MP1 MaxPooling width/2, height/2, 4 Kernel=2, Stride=2
Conv2 Convolution width/2, height/2, 16 Activation=ReLU, Kernel=3, Stride=1, Padding=1 MP2 MaxPooling width/4, height/4, 16 Kernel=2, Stride=2
Flatten Flatten (width/4)×(height/4)×16
Label Input n
Enc-Merge Merge (width/4)×(height/4)×16+n Concatenation
Enc-D1 Dense 500 Activation=ReLU, L2 regularization (λ=0.01)
Enc-D2 Dense 500 Activation=ReLU, L2 regularization (λ=0.01)
Enc-D2-BN BatchNormalization
Latent Dense z dim
Dec-Merge Merge z dim+n Concatenation
Dec-D1 Dense 500 Activation=ReLU, L2 regularization (λ=0.01)
Dec-D2 Dense (width/4)×(height/4)×16 Activation=ReLU, L2 regularization (λ=0.01) Dec-D2-BN BatchNormalization
Reshape Reshape width/4, height/4, 16 US1 UpSampling width/2, height/2, 16
DeConv1 DeConvolution width/2, height/2, 4 Activation=ReLU, Kernel=3, Stride=1, Padding=1
US2 UpSampling width, height, 4
DeConv2 DeConvolution width, height, 1 Kernel=3, Stride=1, Padding=1 Dec-DeConv2-BN BatchNormalization
Output Output width, height, 1 Activation=Sigmoid Encoder
Decoder
Layer type Layer name
Model Parameters
表 3.1 CAE(AE_2)の各層の詳細
19
に入力する.誤差逆伝搬に用いる誤差関数LCAE(I, O)を式(3.1)に示す.式(3.1) 中のNは,入力画像Iと出力画像Oの総画素数を表す.入力画像I=(i1, i2, …, iN ∈ {0,1})と出力画像O=(o1, o2, …, oN ∈ [0,1])間の平均絶対誤差を再構成 誤差DREとして算出する.
𝐿𝐿
𝐶𝐶𝐶𝐶𝐶𝐶(𝑰𝑰, 𝑶𝑶) = 𝐷𝐷
𝑅𝑅𝐶𝐶(𝑰𝑰, 𝑶𝑶) = 1𝑁𝑁 �|𝑖𝑖
𝑁𝑁 𝑛𝑛− 𝑜𝑜
𝑛𝑛|
𝑛𝑛=1
( 3.1 )
低次元の潜在空間で表現されるzには,yとは分離した筆跡特徴が反映される と考え,AE_2により学習される潜在空間について,以下の2点を検証する.
・潜在空間上で字種非依存な筆跡特徴が表現可能か否か
・筆跡特徴が筆者照合に有効な個人性を捉えられるか否か