第 5 章 筆者照合手法の高精度化に向けた検討
5.2 Metric Learning 手法による照合性能の比較
5.2.1 比較モデル
先行研究では,いずれも画像を直接入力して End-to-End モデルによる学習,
照合が行われている.End-to-Endによる処理では,最終的なモデルの出力(今回 の場合であれば筆者の同一性)に沿った一連のモデルとして性能の高いモデル の構築が可能になると考えられる.ただし,本研究にあたっては,モデルの解釈 可能性を考慮して,字種非依存型筆者照合の問題を字種非依存の特徴抽出部と 照合部に分けてモデルを構築し,各モデル及びモデル全体での処理を把握する こととした.そのため,第4章と同様にHFEM による特徴抽出で得られる潜在 特徴 z を字種非依存な筆跡特徴とし,z 空間上での筆者照合モデルに用いる
Metric Learning手法について照合性能の比較を行う.
図 5.8に示す第4章で提案したSiamese Network構造のネットワーク(Siamese モデル)は,重み共有により学習される関数f(z)を通して得られる特徴について 差の絶対値をとることで,入力ペアの特徴を統合する.さらに演算を通し,最終
的にSigmoid関数によって0~1に確率化された値として入力ペアが同一人であ
るか否かの確率を出力する.
Weight shared
zr
zq
f (z)
D1 D1-BN W-Out F-D2 F-D1-BN F-Act
D1 D1-BN W-Out
Same=0 Different=1 BCE
PReLU Batch Normalization
Dense Sigmoid
or
| f (zq)-f (zr) |
-
図 5.8 Siameseモデルのネットワーク構造
114
Triplet Network 構造のネットワーク(Triplet モデル)を図 5.9,Quadruplet Network 構造のネットワーク(Quadruplet モデル)を図 5.10に示す.文献 [68]
の Triplet Network の学習方法を参考に,表 5.6 で示す重み共有のネットワーク
dpositive
Weight shared
zanchor
zpositive
znegative
g (z)
D1 D1-BN Act1 D2 D2-BN Act2
D1 D1-BN Act1 D2 D2-BN Act2
Weight shared
D1 D1-BN Act1 D2 D2-BN Act2
Wpositive
Wanchor
Wnegative
dnegative
Softmax [0,1]
MSE
PReLU Batch Normalization
Dense Sigmoid
図 5.9 Tripletモデルのネットワーク構造
g (z)
dpositive Weight shared
zanchor
zpositive D1 D1-BN Act1 D2 D2-BN Act2
D1 D1-BN Act1 D2 D2-BN Act2
Weight shared
Wpositive
Wanchor
znegative-1 D1 D1-BN Act1 D2 D2-BN Act2 Wnegative-1
dnegative
Softmax [0,1]
MSE
PReLU Batch Normalization
Dense Sigmoid
znegative-2 D1 D1-BN Act1 D2 D2-BN Act2 Wnegative-2
Weight shared
図 5.10 Quadrupletモデルのネットワーク構造
115
g(z)を通して得られる特徴 W について,サンプル間でのユークリッド距離
(dpositive:同一人ペアの距離,dnegative:他人ペアの距離)を算出し,それらを連
結したものをSoftmax関数によって正規化した値(Ppositive,Pnegative)と教師デー タ({0,1})間の誤差を,式(5.1)に示す平均二乗誤差(Mean Squared Error; MSE) により求める.式(5.1)中のpは出力値,rは教師データ{0,1}を表し,MSEを
Triplet モデル及び Quadruplet モデルを学習するときの誤差逆伝搬に用いる誤差
関数とする.図 5.11 のように dpositiveと dnegativeを正規化した Ppositive と Pnegative
(Ppositive+Pnegative=1)について最適化(Ppositiveは0,Pnegativeは1に近づくように学 習)することで,同一人ペアについてはdの値を小さく,他人ペアについてはd の値が大きくなるような特徴空間を得ることを目的とする.
𝑊𝑊𝑀𝑀𝐶𝐶 = 12�(𝑝𝑝
2 𝑖𝑖− 𝑝𝑝
𝑖𝑖)
2𝑘𝑘=1
(5.1)
Output shape unit size
Input Input Input_dim
D1 Dense z dim
D1-BN BatchNormalization
Act1 Activation Activation=PReLU
D2 Dense z dim
D2-BN BatchNormalization
Output(Act2) Activation(Output) Activation=Sigmoid
Layer name Layer type Parameters
g(z) Model
表 5.6 g (z)の各層の詳細
1 Pnegative 0
Ppositive
N A
P
dpositive dnegative
N A
P
dpositive dnegative
1 Pnegative
0 Ppositive Optimize
図 5.11 最適化の流れ
116
Siameseモデルでは,TripletモデルとQuadrupletモデルとは異なり,類似性を
確率値で出力する処理を行っていることから,類似性を特徴空間内でのユーク リッド距離により評価する方法とは本質的に異なる.そのため,図 5.12に示す ユークリッド距離で評価するSiamese Network構造のモデル(Siamese_Distモデ ル)を加えた 4 モデルの Metric Learning 手法について比較を行う.なお,
Siamese_DistモデルはTripletモデル,Quadrupletモデルとは異なり1ユニットの 出力であるため,Siameseモデルと同様に誤差関数にはBinary Cross Entropy(BCE) を用いる.