提案手法 - Conditional AutoEncoder による筆跡特徴抽出 - 深層学習を用いた特徴表現に基づく字種非依存型オフライン筆者照合に関する研究

第 3 章 Conditional AutoEncoder による筆跡特徴抽出

3.2 提案手法

字種に依存しない筆跡特徴を，照合精度からの評価だけではなく，学習された潜在空間上でどのように特徴が表現されるのかという検証を含めて説明できる解釈可能性を含んだモデルとして構築することが，最終的な鑑定への応用を目的とした場合に重要と考える．そのため，本研究では，特徴抽出モデルをVGGNet [78]，GoogLeNet [79]，ResNet [80]，DenseNet [81]，Xception [82]等の深いネットワーク構造では，各層における処理が不明瞭になると考え，LeNet-5 [83]をベースとした浅いネットワーク構造とした．

提案手法の概要を図 3.2 に示す．文献 [69]のアイデアを参考に，潜在空間上で字種に依存しない筆跡特徴を表現し，表現された筆跡特徴が筆者照合に有効な個人性を有するか否かについて検証を行う．文献 [69]では，特徴抽出のネットワークにおいてVAEが用いられている．VAEでは，画像は何らかの統計的な

プロセスを経て生成されていると仮定し，その生成過程を考慮して潜在空間を求める．本研究では，潜在空間に制約を与えずに学習を行う AE ベースの手法が，潜在空間の学習に制約を与えるVAEベースの手法と比較し，大量の学習データの変動を直接的に踏まえた潜在空間の学習ができると考えた．なお，筆跡画像から字種情報と筆跡特徴を分離するという明確な目的があり，さらに抽出された筆跡特徴についての解釈可能性を踏まえると，敵対的学習のための識別ネットワーク（Discriminator）を含めたモデル（GAN，AAE等）よりも，Discriminator を含まずに処理の説明が容易な AE を用いた手法が本研究には適していると考えた．

AEのEncoderとDecoderに字種情報を条件付けしたConditional AE（CAE）を字種非依存な筆跡特徴を抽出するモデルとして構築した．構築したCAEのネットワーク構造を図 3.3及び表 3.1に示す．なお，以下では本提案モデルをAEの 2か所に字種情報を付与したモデルとしてAE_2と呼称する．

Encoder Decoder

z Character

Label y

Training data

z_B

B A

Unknown

潜在空間

①全筆者共通の字種非依存特徴抽出モデルを構築

②抽出特徴を潜在空間にマッピング

③潜在空間で筆者の類似性を評価

図 3.2 提案手法の概要

ネットワークの途中にone-hotエンコーディングされた字種情報yを付与することで，筆跡画像から y を分離した筆跡特徴を潜在変数 z として抽出する．

Encoder は LeNet-5 の構造をベースとし，Decoder は Encoder の構造をほぼ反転

させてzとyから画像を生成するネットワークである．モデル学習時には，入力する筆跡画像と，その筆跡画像の字種に対応したyをEncoderとDecoderの両方

Encoder

Decoder

Reconstruction Error

Input Output

Input

Convolution+ReLU

Upsampling

Batch Normalization Sigmoid

Concatenation Dense

Max Pooling

Convolution

Dense+ReLU+L2 Norm Latent

Label

図 3.3 CAE（AE_2）のネットワーク構造

Output shape (w, h, channel) or unit size

Input Input width, height, 1

Conv1 Convolution width, height, 4 Activation=ReLU, Kernel=3, Stride=1, Padding=1 MP1 MaxPooling width/2, height/2, 4 Kernel=2, Stride=2

Conv2 Convolution width/2, height/2, 16 Activation=ReLU, Kernel=3, Stride=1, Padding=1 MP2 MaxPooling width/4, height/4, 16 Kernel=2, Stride=2

Flatten Flatten (width/4)×(height/4)×16

Label Input n

Enc-Merge Merge (width/4)×(height/4)×16+n Concatenation

Enc-D1 Dense 500 Activation=ReLU, L2 regularization (λ=0.01)

Enc-D2 Dense 500 Activation=ReLU, L2 regularization (λ=0.01)

Enc-D2-BN BatchNormalization

Latent Dense z dim

Dec-Merge Merge z dim+n Concatenation

Dec-D1 Dense 500 Activation=ReLU, L2 regularization (λ=0.01)

Dec-D2 Dense (width/4)×(height/4)×16 Activation=ReLU, L2 regularization (λ=0.01) Dec-D2-BN BatchNormalization

Reshape Reshape width/4, height/4, 16 US1 UpSampling width/2, height/2, 16

DeConv1 DeConvolution width/2, height/2, 4 Activation=ReLU, Kernel=3, Stride=1, Padding=1

US2 UpSampling width, height, 4

DeConv2 DeConvolution width, height, 1 Kernel=3, Stride=1, Padding=1 Dec-DeConv2-BN BatchNormalization

Output Output width, height, 1 Activation=Sigmoid Encoder

Decoder

Layer type Layer name

Model Parameters

表 3.1 CAE（AE_2）の各層の詳細

に入力する．誤差逆伝搬に用いる誤差関数LCAE（I, O）を式（3.1）に示す．式（3.1）中のNは，入力画像Iと出力画像Oの総画素数を表す．入力画像I=（i1, i2, …, iN ∈ {0,1}）と出力画像O=（o1, o2, …, oN ∈ [0,1]）間の平均絶対誤差を再構成誤差DREとして算出する．

𝐿𝐿

_{𝐶𝐶𝐶𝐶𝐶𝐶}

(𝑰𝑰, 𝑶𝑶) = 𝐷𝐷

_{𝑅𝑅𝐶𝐶}

(𝑰𝑰, 𝑶𝑶) = 1𝑁𝑁 �|𝑖𝑖

^𝑁𝑁 ^𝑛𝑛

− 𝑜𝑜

_𝑛𝑛

|

𝑛𝑛=1

（ 3.1 ）

低次元の潜在空間で表現されるzには，yとは分離した筆跡特徴が反映されると考え，AE_2により学習される潜在空間について，以下の2点を検証する．

・潜在空間上で字種非依存な筆跡特徴が表現可能か否か

・筆跡特徴が筆者照合に有効な個人性を捉えられるか否か

ドキュメント内深層学習を用いた特徴表現に基づく字種非依存型オフライン筆者照合に関する研究 (ページ 30-33)