条件付き確率場を用いた 3 つ組音素検出器と検索エンジン

第 6 章正解音素推結果からの音声中の検索語検出 32

6.3 条件付き確率場を用いた 3 つ組音素検出器と検索エンジン

正解音素推定器を用いることにより高精度な検索が可能であるか比較検証するために，条件付き確率場（Conditional Random Field：CRF）を用いた検索エンジンと比較を行った．

6.3.1 ^{条件付き確率場}

CRFは，自然言語処理の分野，例えば固有表現抽出や文節チャンキング等の研究で広く使われており，その有効性が示されている．音声言語処理の分野でも句読点挿入[62]や

・・・・・・

・・・

・・・・・・

… …

……… ……… ……… …………

…

図 6.2: DNNを用いた音素推定器とphoneme posteriorgramに基づくSTD処理未知語検出[63]，誤り訂正[64]等で利用されている．

CRFでは，ある入力記号系列xが与えられたときの出力ラベル系列yが得られる条件付き確率は次の式で計算できる．

P(y|x) = 1

Z(x)exp(∑

λ_kF_k(y, x)) (6.2)

ここで，F_k(y, x)は素性関数，λ_kは素性関数に対する重みである．Z(x)は正規化項で，

以下の式で表現される．

Z(x) =∑

exp(∑

λ_kF_k(y, x)) (6.3)

6.3.2 CRF を利用した音声中の検索語検出

CRFを利用したSTDの流れを図6.3に示す．

CRFで単語の検出を行うことは，全ての単語を学習しなければならず，困難である．そこで，単語は音素表記に変換することができることから，CRFでtriphone単位の検出を行う．

学習には，10種類の音声認識システムから得られる音素系列の書き起こしを利用して，

音素の3つ組であるtriphoneを検出するCRFモデルを学習する．検索語は，一度音素列に変換され，さらにtriphoneに分解し，各triphoneに対応するCRFモデルを用いて，ある発話にそのtriphoneが含まれている確率を計算する．検索語を構成する全てのtriphone の条件付き生起確率の総乗を，この検索語の検出スコアとする．

音素間誤りパターンを学習するために，10種類の音声認識システムから得られる音素系列の書き起こしから得られる素性を利用する．具体的な例を図6.4に示す．

triphone リスト

学習音声データ

ASR #1

ASR #10

音素単位に変換

CRF models CRF-training phase

検索語検出結果

・・

・

triphone単位のCRF学習

対象音声データ

ASR #1

ASR #10

音素単位に

・変換

・・

CRFモデルを

用いた triphone検出

triphone単位に変換 Search phase

図 6.3: CRFを利用したSTDの流れ

図6.4の学習データは，10種類の音声認識システムから得られる音素をASR#1を基準に，DPマッチングを用いてアライメントを行っている．アライメントをとった学習データに対して，書き起こしデータから学習対象であるtriphoneの出現位置を特定し，BIO

（beginning/inside/outside）ラベルを付与し作成する．BIOラベルを用いたCRFはテキストを小さいグループに分割する問題を解決するために用いられている．“B”ラベルは，

実際に学習対象のtriphoneの最初の音素が存在する箇所につける．“I”ラベルは，“B”の後に続くtriphoneの音素が存在する箇所につける．そして，“O”ラベルは対象のtriphone が存在しない箇所につけられる．このBIOラベルを各アライメントに対して付与する．

また，評価データも同様の手順を用いて作成する．

CRFによるtriphone検出モデルの学習データは，CSJのコア講演を除く全講演の音声

認識結果から学習している．学習にはCRF++toolkit ¹ を用いた．

学習に用いる素性は，複数の認識システムの出力から得られるunigram，bigram，trigram を用いる．表6.1に全ての素性と，各素性の数を示す．hⁱ_pはi番目の認識システムのp番目に存在する音素を示している．r_pはBIOタグのことを示している．図6.4にも示すようにbigramについては，current tokenを中心として前後１つのコンテキストを考慮する．

また，trigramも，２つ前までの履歴，前後１つずつ，後ろ２つまでのコンテキストを考慮している．さらに，認識システム間のbigramも素性に利用する．これによって，音素

1CRF++: Yet Another CRF toolkit,https://code.google.com/p/crfpp/

s o n o @ n i @ q p o N n o @ d e @ w a s o n o @ n i @ q p o N n o @ d e @ w a s o n o @ n i @ @ b a N n o @ u e @ w a s o n o N n i f u p a N n u N b e e w a s o n o @ n i @ q p o N n o @ d e @ w a s o n o @ m i @ @ b a N n o @ u e @ w a s o n o @ n i @ q p o N n o @ u e @ w a s o n o @ n i @ @ b a N n o @ u e @ w a s o n o @ n i @ @ b a N n o @ d e @ w a s o n o @ n i @ q p o N n o @ d e @ w a

O O O O O B I I I I O O O O O O O O O O triphone “n-e-p”の BIO tags

学習箇所

unigrams

in-ASR bigrams in-ASR trigrams cross-ASR bigrams

CRF学習特徴量 ASR #1

ASR #2 ASR #3 ASR #4 ASR #5 ASR #6 ASR #7 ASR #8 ASR #9 ASR #10

複数の

認識システムの音素列

B : triphoneの始点音素列

I : triphone内の音素列 O : triphone以外の音素列

図 6.4: CRFの学習例表 6.1: CRFの学習素性

学習素性定義素性数

unigram (r_p, hⁱ_t) 10

in-ASR bigram (r_p, hⁱ_p₋₁, hⁱ_p)， (r_p, hⁱ_p, hⁱ_p+1) 20 cross-ASR bigram (rp, hⁱ_p₋₁, h^j_p | i̸=j), 180

(rp, hⁱ_p, h^j_p+1 | i̸=j)

in-ASR trigram (r_p, hⁱ_p₋₂, hⁱ_p₋₁, hⁱ_p), 30 (r_p, hⁱ_p₋₁, hⁱ_p, hⁱ_p+1),

(rp, hⁱ_p, hⁱ_p+1, hⁱ_p+2)

間の多様な音声認識誤りのパターンをCRFで学習させ，認識誤りを含んだ音素系列の書き起こしに対して頑強なtriphone検出を試みる．

ある発話iに含まれるN 個のtriphoneから構成される検索語T の検出確率P(T|x_i)は，

以下の式で計算できる．

P(T|x_i) = { _N

∏

j=1

P_t_j(y|x_i) }_N¹

，(l_t₁ < l_t_j < l_t_N) (6.4) ここで，t_jは検索語T のj番目のtriphone，x_iは発話iにおける入力記号系列，yは出力ラベル系列(ただし発話全体ではなく一部分の区間のみ)である．ltjはN個のtriphone から構成されており，各triphoneの出現位置に矛盾が生じていないことが前提となっている．各triphoneの検出確率P_t_j(y|x_i)は，発話全体の出力ラベル列を用いて計算するの

ASR Outputs of 10 ASR Systems

ASR #1 f u j i s a N

ASR #2 f u z u sh a n

ASR #3 s i z u y a N

ASR #4 f u @ e y a m

ASR #5 k o J u g o N

ASR #6 f u J i s a N

ASR #7 k e z e ch a n

ASR #8 @ i t i s a q

ASR #9 f u r u s a N

ASR #10 s u j i h a q

B label 0.1 0.0 0.8 0.2 0.1 0.2 0.1

I label 0.1 0.4 0.2 0.7 0.9 0.9 0.9

Olabel 0.8 0.6 0.0 0.1 0.0 0.7 0.8

ASR Outputs of 10 ASR Systems

ASR #1 f u j i s a N

ASR #2 f u z u sh a n

ASR #3 s i z u y a N

ASR #4 f u @ e y a m

ASR #5 k o J u g o N

ASR #6 f u J i s a N

ASR #7 k e z e ch a n

ASR #8 @ i t i s a q

ASR #9 f u r u s a N

ASR #10 s u j i h a q

B label 0.1 0.0 0.8 0.2 0.1 0.2 0.1

I label 0.1 0.4 0.2 0.7 0.9 0.9 0.9

Olabel 0.8 0.6 0.0 0.1 0.0 0.7 0.8

Utterance Z Utterance A発話A

ASR Outputs of 10 ASR Systems

ASR #1 f u j i s a N

ASR #2 f u z u sh a n

ASR #3 s i z u y a N

ASR #4 f u @ e y a m

ASR #5 k o J u g o N

ASR #6 f u J i s a N

ASR #7 k e z e ch a n

ASR #8 @ i t i s a q

ASR #9 f u r u s a N

ASR #10 s u j i h a q

B label 0.1 0.0 0.8 0.2 0.1 0.2 0.1

I label 0.1 0.4 0.2 0.7 0.9 0.1 0.1

Olabel 0.8 0.6 0.0 0.1 0.0 0.7 0.8

発話Aにおける

検索語/f u j i s a N/の検出確率

CRFによるtriphone “j-i-s” 検出結果

検索語 /f u j i s a N/

f-u-j, u-j-i, j-i-s, … triphoneに変換

0.35

確率： “f-u-j”

B: 0.7, I: 0.4, I: 0.8

10 ASR systems

確率： “u-j-i”

B: 0.8, I: 0.8, I: 0.6

確率： “j-i-s”

B: 0.8, I: 0.7, I: 0.9

確率： “i-s-a”

B: 0.6, I: 0.5, I: 0.9

確率： “s-a-N”

B: 0.6, I: 0.9, I: 0.9 0.49 0.50 0.27 0.38 0.22

triphone 検出確率

図 6.5: CRF手法による検出例

ではなく，BとIラベルが出力されたときのラベル系列のみしか考慮しない．すなわち，

Oラベルは無視する．これは，最大エントロピー法とほとんど同じであるが，CRFでは，

入力系列全体に対して最適な出力ラベル系列を付与することができる．そのため，BIラベル系列を検出する本タスクでは，CRFモデルのほうが高い精度でtriphoneを検出することができる．

最終的に，triphone tjの検出確率は以下の式で計算する．

P_t_j(y|x_i) =

I_tail

∏

L=B

P_t_j(L|x_i) (6.5)

ここで，BとI_tailは，それぞれtriphone t_jの先頭と最後尾の検出確率である．すなわ

ち，triphone t_jの生起確率は，先頭ラベルから最後尾ラベルまで，それぞれのラベルの条

件付き生起確率の総乗を取ることで計算する．もし，Ptj(y|xi)がある設定確率ϕを下回った場合，P_t_j(y|x_i)はϕに置き換える．これは，検索語Tにおいて，１つのtriphoneでも検出されなかった場合にT の検出確率が極端に低くなることを防ぐためである．経験的に，ϕを0.01とした．P(T|x_i)が設定閾値θ_Cを変化させることで，Recall-Precisionカーブを描くことができる．

図6.5に，CRFを用いて検索語（富士山：/f u j i s a N/）を検出する具体例を示す．

triphone “j-i-s”は音声発話Aにおいて，“B”と“I”のそれぞれのラベルを乗算した値となり，0.5（0.8×0.7×0.9）という検出確率となっている．そして，各triphoneの検出確率の総乗を計算することで，発話Aにおける富士山の検出確率は0.35となる．

ドキュメント内高精度な音声認識結果の推定技術とその応用に関する研究利用統計を見る (ページ 47-52)

第 6 章 正解音素推結果からの音声中の検索語検出 32

6.3 条件付き確率場を用いた 3 つ組音素検出器と検索エンジン

6.3.1 条件付き確率場

6.3.2 CRF を利用した音声中の検索語検出

第 6 章正解音素推結果からの音声中の検索語検出 32

6.3.1 ^{条件付き確率場}