言語モデル

第 3 章複数の音声認識システム

3.4 言語モデル

言語モデル(Language Model : LM)とは，ある1単語について統計的にどの単語が後続単語として繋がる可能性が高いかを求めるために使用されるモデルである．統計的言語モデルとしてはN-gramモデルが有名であり，本研究で使用する音声認識システムもこれを用いている．これは，単語，品詞などを単位とした，N-1重マルコフモデルで実現される．例えば，単語単位のN-gram(単語N-gramと呼ぶ)を考えた場合，ある単語列W ={w₁, w₂,・・・・, w_t}の出現確率は以下のようになる．

P(W) =P(w1)

N∏−1 i=2

P(wi|wⁱ₁)

∏T i=N

P(wi|wⁱ_i₋⁻_N¹₊₁)

日本語の解析において，通常はN=2かN=3が選択される．その場合，それぞれの N-gramモデルをbigram(式(3.11) )，trigram(式(3.12) )と呼ぶ．

P(W) =P(w₁)

∏T i=2

P(w_i|w_i₋₁) (3.11)

P(W) =P(w1)P(w2|w1)

∏T i=2

P(wi|wi−2, wi−1) (3.12) 次に，単語bigramを例に，ある学習コーパス(単語述べ数M単語，単語種類数K単語)が用意された時に，このbigram確率をどのように求めれば良いかを最尤推定を用いて導く．

まず，学習コーパスの言語尤度L(θ)は以下(式(3.13) )のようになる．

L(θ) =

∏K ij

P(w_j|w_i)^C(wⁱ^,w^j⁾ (3.13) ここで，C(w_i, w_j)は，学習コーパス中で単語w_i, w_jが共起した回数を，P(w_j|w_i)は，

単語w_iの次に単語w_jが来る確率(bigram確率)を示している．

同様に，対数尤度も以下のように求めることが可能である．

logL(θ) =

∑K ij

C(w_i, w_j) logP(w_j|w_i)

ここでは，ラグランジェの未定係数法を用いて尤度方程式を最大にする確率P(w_j|w_i)(K 種類)を見つける．すべての単語w_iについて，

∑K j

P(w_j|w_i) = 1

が成り立つのでこれを制約条件として用いると，ラグランジェ関数は次のようになる．

L(θ) =

∑K ij

C(w_i, w_j) logP(w_j|w_i) +λ_i{1−^∑^K

P(w_j|w_i)} これを変数P(w_j|w_i)で偏微分すると，

∂L

∂P(w_j|w_i) = C(w_i, w_j)

P(w_j, w_i)−λi (3.14) を得る．式(3.14)を0とおいて，P(w_j|w_i)について解くと，

P(wj|wi) = C(w_i, w_j)

λ_i (3.15)

となる．これをすべてのjについて総和をとると，^∑^K_j=1P(w_j|w_i) = 1となるので，

λ_i =

∑K j=1

C(w_i, w_j) =C(w_i) となる．これを再度，式(3.15)に代入すると，

P(w_j|w_i) = C(w_i, w_j)

C(w_i) (3.16)

となる．つまり，単語bigramP(w_j|w_i)は，学習コーパス中に出現する単語共起w_i, w_j の回数を，w_iの出現回数で割ったものとなる．

しかし，式(3.16)をそのまま使用することは問題がある．それは，学習コーパスに出現しなかった共起におけるbigramは共起回数が0回のために確率が0となってしまうことである．これは，文全体の確率をbigram単位の確率の積で求めている場合には，

出現しない単語ペアが一つでもあれば文の確率が0となってしまう危険性を含んでいることを示している．このような問題はゼロ頻度問題と呼ばれている．

ゼロ頻度問題に対処するには，既知単語ペア(学習コーパスに存在する単語ペア)における確率和を1より小さくして，余った確率を，未知単語ペア(学習コーパスに存在しない単語ペア)に割り振る手段が基本となってくる．本研究で使用した言語モデル構築ツールである，CMU SLM toolkit[65]では，これを，バックオフスムージングという手

法で実現している．バックオフスムージングとは未知のN-gramの確率を，(N-1)-gram の確率から推定する手法である．

まずは最尤推定によるbigram確率

P(w_i|w_i₋₁) = C(w_i−1, w_j) C(w_i₋₁) はバックオフスムージングにより推定される．

P^∗(w_i|w_i₋₁) =

{ P(w_i|w_i₋₁) if C(w_i₋₁)>0 α(w_i−1)P^∗(w_i) else

αは未知のbigram確率をunigramから推定するバックオフ係数で，

α(w_i₋₁) = 1−^∑C(wi−1,wi)>0P^∗(wi|wi−1)

1−^∑C(wi−1,wi>0)P^∗(w_i) (3.17) で求めることが可能である．

言語モデルの評価基準としては，パープレキシティがよく用いられる．単語系列W = {w1, w2,・・・, wn} の出現確立をP(w1,・・・, wn)とする時，この言語の1単語あたりのエントロピーは言語のエルゴート性を仮定すると，

H = 1

nlogP(w₁,・・・, w_n)

となる．パープレキシティとはある時点における情報理論的な予測単語数を表現する指標で，

P P = 2^H =p(w₁,・・・, w_n)⁻¹ⁿ

で定義される．基本的にはパープレキシティが大きいと言語的には複雑といえる．同じ音響モデル，同じ語彙数で言語モデルを作る場合，一般的にはパープレキシティが低いほど音声認識率が高い傾向がある．

しかしながら，本研究で用いたCMU SLM toolkitで未知語を含んだ文のパープレキシティを求める時に，未知語を一つのカテゴリ(単語と同等)として扱うため，カバー率の低いほど，つまり未知語が多いほどパープレキシティが小さくなるという問題点がある．

本研究では，このN-gramが，単語(漢字・平仮名混じり／平仮名のみ) N-gramであったり，平仮名N-gramであったりと言語モデルの形態を変化させることで複数の平仮名列を出力する平仮名音声認識システムを実現している．

以下では，言語モデルの違いによる認識結果の差異と作成意図について説明する．

3.4.1 形態素ベース言語モデル : Word-Base Characters (WBC)

形態素ベースのtrigramモデル．形態素は，漢字と英数字，平仮名，片仮名で構成されている．学習に用いた形態素数は約27,000語である．

例 : 今回 /の / 実験/ の / 目的

WBCは本研究におけるSTDの基準となる音声認識結果を得るための言語モデルとして作成した．形態素ベースのtrigramモデルであるため，形態素の繋がりが考慮された認識結果が得られる．検索語が未知語の場合のSTD性能は期待することが出来ないが，最も発話された音声に近い音声認識結果を得ることが期待できる．

3.4.2 平仮名形態素ベース言語モデル : Word-Base Hiragana (WBH)

単語ベースのtrigramモデル．単語はすべて平仮名で構成され，元の単語に漢字や英数字，片仮名が含まれている場合には，すべて平仮名系列に変換される．

例 : こんかい / の / じっけん/ の / もくてき

WBHはすべて平仮名の単語で構成されるため，音韻系列としては未知語が存在しない言語モデルとなる．形態素ベースのtrigramモデルであるため，形態素の繋がりが考慮された認識結果が得られる．WBCの様に同音異義語が存在しないため，正解に近い音韻系列の音声認識結果を得ることが期待できる．

3.4.3 文字ベース言語モデル : Character Base (CB)

文字ベースのtrigramモデル．文字はすべて平仮名によって構成されている．

例 : こ / ん / か / い /の / じ / っ / け /ん / の / も /く /て / き

CBはすべて1文字の平仮名で構成されるため，音韻系列としては未知語が存在しない言語モデルとなる．モーラベースのtrigramモデルであるため，モーラの繋がりが考慮された認識結果が得られる．モーラベースであるため，音響的な特徴に影響を受けやすい言語モデルとなっている．しかし，モーラの出現確立を学習していることから，

話し言葉に適した音韻系列の音声認識結果を得ることが期待できる．

3.4.4 文字系列ベース言語モデル : Bi-Mora (BM)

文字系列ベースのtrigramモデル．文字系列は2文字の平仮名によって構成されている．

例 : こん /かい /のじ /っけ /んの /もく /てき

BMはすべて2文字の平仮名で構成されるため，音韻系列としては未知語が存在しない言語モデルとなる．文字系列ベースのtrigramモデルであるため，CBより言語的な音韻系列の音声認識結果を得ることが期待できる．

3.4.5 文字系列ベース言語モデル : Character Sequence Base (CSB)

文字系列ベースのtrigramモデル．文字系列は数文字の平仮名によって構成されている．

例 : こん /かい /の / じっ/ けん/ の / もく/ てき

CSBはすべて数文字の平仮名形態素で構成されるため，音韻系列としては未知語が存在しない言語モデルとなる．位置づけとしては，WBHとBMの中間的な言語モデルである．文字系列ベースのtrigramモデルであるため，BMより言語的な音韻系列の音声認識結果を得ることが期待できる．

3.4.6 疑似連続音節認識用言語モデル : Non

全てのモーラの出現確率を等しくした言語モデル．全てのモーラの出現確率が等しいことで，擬似的に連続音節認識を行うことが可能となる．

擬似的に連続音節認識が行えるため，モーラや形態素の言語的な接続確立に依存することがない．このため，言語的な制約に左右されることがない，音韻系列の音声認識結果を得ることが期待できる．

ドキュメント内音声からキーワードを検出する技術の高度化に関する研究利用統計を見る (ページ 32-36)

第 3 章 複数の音声認識システム