相補的な識別器の生成 - 相補的な識別器の生成と統合 - HMM の非対称性を利用した識別器の統合 37

第 4 章 HMM の非対称性を利用した識別器の統合 37

4.2 相補的な識別器の生成と統合

4.2.2 相補的な識別器の生成

相補的な識別器を生成するために，ブースティングの枠組をHLDAによる特徴変換に適用する．ここでは，基になる識別器であるC-1と，WHLDAに基づいて生成される識別器であるC-2を生成する方法，および特徴変換に対してではなく識別器の生成においてブースティングの枠組を適用する手法との相異点について述べる．

HLDAに基づき生成する識別器

まず，HLDAに基づく特徴変換を施した特徴量を用いて，基になる識別器C-1 を生成する．HLDAはd次元の特徴ベクトルを，識別に寄与するp次元と，識別に寄与しないd−p次元に分割する枠組である．このとき，HLDAの変換行列は

第4章 HMMの非対称性を利用した識別器の統合 41 以下のように表される．

θ = [θ₁. . .θ_d] = [θ_pθ_d₋_p] (4.1) ここで，θ1,· · · ,θ_d は各々 d 次元の列ベクトル，θp と θ_d₋_p は各々，d×p行列，

d×(d−p)行列である．変換行列は，以下の式(4.2)で表される目的関数を二次計画法により最大化することで得られるθを用いる[29]．

L(θ) = −N

2 log|θ_d^T₋_pTθ_d₋_p| − XJ

j=1

log|θ^T_pW_jθ_p|

+Nlog|θ| −N d

2 log(1 + 2π) (4.2)

ここで，N は全データの個数，T は変換前の全データに対する分散，Wj は変換前の音素クラスjに帰属するデータの分散を表す．この分散T，Wj の計算は変換行列推定用の学習データを用いて行う．このとき，分散W_jの計算は，ビタビアルゴリズムにより各サンプルに対して帰属する音素クラスのアライメントをとったうえで，音素クラスj に帰属するデータを用いて行う．

以上の基に得られた変換行列θを用いて特徴変換を行った，音響モデルの学習サンプルを用いてHMMを構築する．これを，識別器C-1とする．

WHLDAに基づき生成する識別器

次に，識別器C-1に対して相補的な識別器C-2を，WHLDAによって変換された特徴量を用いて生成することを試みる．WHLDAでは，識別器C-1で誤りが生じ易いデータの尤度が高くなるように，変換行列を推定する．そのため，サンプルに付与する重みは誤りの度合が大きいほど大きくなるように設計する．重みを計算するにあたり，ここでは，各サンプル(1フレームのデータ)に対して重みを計算する枠組と，本稿??で述べる孤立単語音声認識において用いた，単語発話に対して重みを計算する枠組を，各々述べる．

第4章 HMMの非対称性を利用した識別器の統合 42 (a)各サンプルに対して重みを計算する枠組

誤り易さの尺度として，以下の式で表される誤分類測度d_i(x_n)を定義することができる．

d_i(x_n) = logP_i(x_n|M)−max

j6=i logP_j(x_n|M) (4.3) ここで，x_nはK サンプルからなる発話x={x₁,x₂,· · · ,x_K}(1≤K ≤N_u)，(N_u は発話数)を構成するサンプルである．また，logP_i(x_n|M)は正解の音素クラスi のモデルから得られる尤度，maxj6=ilogP_j(x_n|M)は不正解の音素クラスのうち，

最大の尤度を与える音素クラスの尤度である．また，M は全ての音素クラスを含めた音響モデルを表す．次に，重み関数w(x_n)を以下のように定義する．

w(x_n) = 1

1 + exp(α·d_i(x_n)) (4.4) ここで，αはシグモイド関数の傾きを制御するパラメタである．WHLDAの変換行列を推定するために式(4.2)の目的関数を最適化するにあたり必要となる，全サンプルの平均，分散，およびある音素クラスj に帰属するサンプルの平均，分散は，

変換行列の学習データの各サンプルに式(4.4) の重みを付与した上で計算される．

そのため，新たに生成される識別器C-2では，WHLDAの変換行列を推定する際に大きな重みが付与されたサンプルの尤度が高くなることが予想される．このようにして，基の識別器C-1で誤り易いデータに付与した重みの情報がWHLDAにおける変換行列推定のための目的関数に導入される．

(b)単語発話に対して重みを計算する枠組

4.3で述べる孤立単語音声認識実験では，変換行列の学習データとして用いる各単語発話に対して重みを計算する．このとき，誤分類測度と重み関数は単語発話

第4章 HMMの非対称性を利用した識別器の統合 43 xを用いて以下のように計算される．

d_i(x) = logP_i(x|M)−max

j6=i logP_j(x|M) (4.5)

w(x) = 1

1 + exp(α·d_i(x)) (4.6)

ここで，logP_i(x|M)は正解単語クラスiのモデルから得られる尤度，max_j₆_=ilogP_j(x|M) は不正解の単語クラスのうち，最大の尤度を与える単語クラスの尤度である．このように，1つの単語に対して 1つの重みが決まるが，各音素クラスに対する重み付きの平均，分散を計算するためには，各サンプルに対して重みを付与する必要がある．したがって，各単語発話を構成するサンプルには共通の重みが付与される．

(c)重みの付与

4.2.2，4.2.2で述べた方法に従って重みを計算したのち，以下のように重みをサ

ンプルに付与した上で平均と分散を計算する．

T = XN

i=1

w_i PN

k=1w_k(x_i−X)(x_i−X)^T (4.7) W_j = X

g(i)=j

w_i PNj

k=1w_k(x_i−X_j)(x_i−X_j)^T (4.8) X =

i=1

w_i PN

k=1w_kx_i (4.9)

Xj = X

g(i)=j

w_i PNj

k=1wk

xi (4.10)

ここで，X は変換前の全データに対する平均，Xj は変換前の音素クラスj に帰属するデータの平均を表す．このように重み付けされた平均と分散を求めたうえで，式4.2の目的関数の最適化を行う．

第4章 HMMの非対称性を利用した識別器の統合 44 識別器の設計時にブースティングを用いる枠組との相異点

通常，ブースティングを用いた手法は，識別器の設計時にデータに対して重み付けを行なう．したがって，学習において重要視されるサンプルと，軽視されるサンプルが生じることになる．この場合，ブースティングによって新たに生成される識別器は，基の識別器に対して相補性が与えられるものの，基の識別器と比較して識別性能は劣化する可能性がある．一方，提案手法は特徴変換の段階で相補性を得ようとするものであり，識別器の学習において陽に軽視されるようなサンプルは生じない．そのため，モデルパラメータの推定にブースティングを適用する枠組とは異なり，新たに生成された識別器の性能は基の識別器と同等の性能となることが期待できる．

ドキュメント内尤度パターンの非対称性を利用した音声認識に関する研究 (ページ 46-50)