• 検索結果がありません。

相補的な識別器の生成

第 4 章 HMM の非対称性を利用した識別器の統合 37

4.2 相補的な識別器の生成と統合

4.2.2 相補的な識別器の生成

相補的な識別器を生成するために,ブースティングの枠組をHLDAによる特徴 変換に適用する.ここでは,基になる識別器であるC-1と,WHLDAに基づいて 生成される識別器であるC-2を生成する方法,および特徴変換に対してではなく 識別器の生成においてブースティングの枠組を適用する手法との相異点について 述べる.

HLDAに基づき生成する識別器

まず,HLDAに基づく特徴変換を施した特徴量を用いて,基になる識別器C-1 を生成する.HLDAはd次元の特徴ベクトルを,識別に寄与するp次元と,識別 に寄与しないd−p次元に分割する枠組である.このとき,HLDAの変換行列は

第4章 HMMの非対称性を利用した識別器の統合 41 以下のように表される.

θ = [θ1. . .θd] = [θpθdp] (4.1) ここで,θ1,· · · ,θd は各々 d 次元の列ベクトル,θpθdp は各々,d×p行列,

(d−p)行列である.変換行列は,以下の式(4.2)で表される目的関数を二次計 画法により最大化することで得られるθを用いる[29].

L(θ) = −N

2 log|θdTpTθdp| − XJ

j=1

log|θTpWjθp|

+Nlog|θ| −N d

2 log(1 + 2π) (4.2)

ここで,N は全データの個数,T は変換前の全データに対する分散,Wj は変換前 の音素クラスjに帰属するデータの分散を表す.この分散T,Wj の計算は変換行 列推定用の学習データを用いて行う.このとき,分散Wjの計算は,ビタビアルゴ リズムにより各サンプルに対して帰属する音素クラスのアライメントをとったう えで,音素クラスj に帰属するデータを用いて行う.

以上の基に得られた変換行列θを用いて特徴変換を行った,音響モデルの学習 サンプルを用いてHMMを構築する.これを,識別器C-1とする.

WHLDAに基づき生成する識別器

次に,識別器C-1に対して相補的な識別器C-2を,WHLDAによって変換され た特徴量を用いて生成することを試みる.WHLDAでは,識別器C-1で誤りが生 じ易いデータの尤度が高くなるように,変換行列を推定する.そのため,サンプ ルに付与する重みは誤りの度合が大きいほど大きくなるように設計する.重みを 計算するにあたり,ここでは,各サンプル(1フレームのデータ)に対して重みを 計算する枠組と,本稿??で述べる孤立単語音声認識において用いた,単語発話に 対して重みを計算する枠組を,各々述べる.

第4章 HMMの非対称性を利用した識別器の統合 42 (a)各サンプルに対して重みを計算する枠組

誤り易さの尺度として,以下の式で表される誤分類測度di(xn)を定義すること ができる.

di(xn) = logPi(xn|M)max

j6=i logPj(xn|M) (4.3) ここで,xnK サンプルからなる発話x={x1,x2,· · · ,xK}(1≤K ≤Nu),(Nu は発話数)を構成するサンプルである.また,logPi(xn|M)は正解の音素クラスi のモデルから得られる尤度,maxj6=ilogPj(xn|M)は不正解の音素クラスのうち,

最大の尤度を与える音素クラスの尤度である.また,M は全ての音素クラスを含 めた音響モデルを表す.次に,重み関数w(xn)を以下のように定義する.

w(xn) = 1

1 + exp(α·di(xn)) (4.4) ここで,αはシグモイド関数の傾きを制御するパラメタである.WHLDAの変換行 列を推定するために式(4.2)の目的関数を最適化するにあたり必要となる,全サン プルの平均,分散,およびある音素クラスj に帰属するサンプルの平均,分散は,

変換行列の学習データの各サンプルに式(4.4) の重みを付与した上で計算される.

そのため,新たに生成される識別器C-2では,WHLDAの変換行列を推定する際 に大きな重みが付与されたサンプルの尤度が高くなることが予想される.このよ うにして,基の識別器C-1で誤り易いデータに付与した重みの情報がWHLDAに おける変換行列推定のための目的関数に導入される.

(b)単語発話に対して重みを計算する枠組

4.3で述べる孤立単語音声認識実験では,変換行列の学習データとして用いる各 単語発話に対して重みを計算する.このとき,誤分類測度と重み関数は単語発話

第4章 HMMの非対称性を利用した識別器の統合 43 xを用いて以下のように計算される.

di(x) = logPi(x|M)max

j6=i logPj(x|M) (4.5)

w(x) = 1

1 + exp(α·di(x)) (4.6)

ここで,logPi(x|M)は正解単語クラスiのモデルから得られる尤度,maxj6=ilogPj(x|M) は不正解の単語クラスのうち,最大の尤度を与える単語クラスの尤度である.こ のように,1つの単語に対して 1つの重みが決まるが,各音素クラスに対する重 み付きの平均,分散を計算するためには,各サンプルに対して重みを付与する必 要がある.したがって,各単語発話を構成するサンプルには共通の重みが付与さ れる.

(c)重みの付与

4.2.2,4.2.2で述べた方法に従って重みを計算したのち,以下のように重みをサ

ンプルに付与した上で平均と分散を計算する.

T = XN

i=1

wi PN

k=1wk(xiX)(xiX)T (4.7) Wj = X

g(i)=j

wi PNj

k=1wk(xiXj)(xiXj)T (4.8) X =

XN

i=1

wi PN

k=1wkxi (4.9)

Xj = X

g(i)=j

wi PNj

k=1wk

xi (4.10)

ここで,X は変換前の全データに対する平均,Xj は変換前の音素クラスj に帰 属するデータの平均を表す.このように重み付けされた平均と分散を求めたうえ で,式4.2の目的関数の最適化を行う.

第4章 HMMの非対称性を利用した識別器の統合 44 識別器の設計時にブースティングを用いる枠組との相異点

通常,ブースティングを用いた手法は,識別器の設計時にデータに対して重み 付けを行なう.したがって,学習において重要視されるサンプルと,軽視される サンプルが生じることになる.この場合,ブースティングによって新たに生成さ れる識別器は,基の識別器に対して相補性が与えられるものの,基の識別器と比 較して識別性能は劣化する可能性がある.一方,提案手法は特徴変換の段階で相 補性を得ようとするものであり,識別器の学習において陽に軽視されるようなサ ンプルは生じない.そのため,モデルパラメータの推定にブースティングを適用 する枠組とは異なり,新たに生成された識別器の性能は基の識別器と同等の性能 となることが期待できる.

関連したドキュメント