第 3 章 複数の音声認識システム
3.4 言語モデル
言語モデル(Language Model : LM)とは,ある1単語について統計的にどの単語が 後続単語として繋がる可能性が高いかを求めるために使用されるモデルである.統計 的言語モデルとしてはN-gramモデルが有名であり,本研究で使用する音声認識システ ムもこれを用いている.これは,単語,品詞などを単位とした,N-1重マルコフモデル で実現される.例えば,単語単位のN-gram(単語N-gramと呼ぶ)を考えた場合,ある 単語列W ={w1, w2,・・・・, wt}の出現確率 は以下のようになる.
P(W) =P(w1)
N∏−1 i=2
P(wi|wi1)
∏T i=N
P(wi|wii−−N1+1)
日本語の解析において,通常はN=2かN=3が選択される.その場合,それぞれの N-gramモデルをbigram(式(3.11) ),trigram(式(3.12) )と呼ぶ.
P(W) =P(w1)
∏T i=2
P(wi|wi−1) (3.11)
P(W) =P(w1)P(w2|w1)
∏T i=2
P(wi|wi−2, wi−1) (3.12) 次に,単語bigramを例に,ある学習コーパス(単語述べ数M単語,単語種類数K単 語)が用意された時に,このbigram確率をどのように求めれば良いかを最尤推定を用 いて導く.
まず,学習コーパスの言語尤度L(θ)は以下(式(3.13) )のようになる.
L(θ) =
∏K ij
P(wj|wi)C(wi,wj) (3.13) ここで,C(wi, wj)は,学習コーパス中で単語wi, wjが共起した回数を,P(wj|wi)は,
単語wiの次に単語wjが来る確率(bigram確率)を示している.
同様に,対数尤度も以下のように求めることが可能である.
logL(θ) =
∑K ij
C(wi, wj) logP(wj|wi)
ここでは,ラグランジェの未定係数法を用いて尤度方程式を最大にする確率P(wj|wi)(K 種類)を見つける.すべての単語wiについて,
∑K j
P(wj|wi) = 1
が成り立つのでこれを制約条件として用いると,ラグランジェ関数は次のようになる.
L(θ) =
∑K ij
C(wi, wj) logP(wj|wi) +λi{1−∑K
j
P(wj|wi)} これを変数P(wj|wi)で偏微分すると,
∂L
∂P(wj|wi) = C(wi, wj)
P(wj, wi)−λi (3.14) を得る.式(3.14)を0とおいて,P(wj|wi)について解くと,
P(wj|wi) = C(wi, wj)
λi (3.15)
となる.これをすべてのjについて総和をとると,∑Kj=1P(wj|wi) = 1となるので,
λi =
∑K j=1
C(wi, wj) =C(wi) となる.これを再度,式(3.15)に代入すると,
P(wj|wi) = C(wi, wj)
C(wi) (3.16)
となる.つまり,単語bigramP(wj|wi)は,学習コーパス中に出現する単語共起wi, wj の回数を,wiの出現回数で割ったものとなる.
しかし,式(3.16)をそのまま使用することは問題がある.それは,学習コーパスに 出現しなかった共起におけるbigramは共起回数が0回のために確率が0となってしま うことである.これは,文全体の確率をbigram単位の確率の積で求めている場合には,
出現しない単語ペアが一つでもあれば文の確率が0となってしまう危険性を含んでい ることを示している.このような問題はゼロ頻度問題と呼ばれている.
ゼロ頻度問題に対処するには,既知単語ペア(学習コーパスに存在する単語ペア)にお ける確率和を1より小さくして,余った確率を,未知単語ペア(学習コーパスに存在し ない単語ペア)に割り振る手段が基本となってくる.本研究で使用した言語モデル構築 ツールである,CMU SLM toolkit[65]では,これを,バックオフスムージングという手
法で実現している.バックオフスムージングとは未知のN-gramの確率を,(N-1)-gram の確率から推定する手法である.
まずは最尤推定によるbigram確率
P(wi|wi−1) = C(wi−1, wj) C(wi−1) はバックオフスムージングにより推定される.
P∗(wi|wi−1) =
{ P(wi|wi−1) if C(wi−1)>0 α(wi−1)P∗(wi) else
αは未知のbigram確率をunigramから推定するバックオフ係数で,
α(wi−1) = 1−∑C(wi−1,wi)>0P∗(wi|wi−1)
1−∑C(wi−1,wi>0)P∗(wi) (3.17) で求めることが可能である.
言語モデルの評価基準としては,パープレキシティがよく用いられる.単語系列W = {w1, w2,・・・, wn} の出現確立をP(w1,・・・, wn)とする時,この言語の1単語あたりのエ ントロピーは言語のエルゴート性を仮定すると,
H = 1
nlogP(w1,・・・, wn)
となる.パープレキシティとはある時点における情報理論的な予測単語数を表現する 指標で,
P P = 2H =p(w1,・・・, wn)−1n
で定義される.基本的にはパープレキシティが大きいと言語的には複雑といえる.同 じ音響モデル,同じ語彙数で言語モデルを作る場合,一般的にはパープレキシティが 低いほど音声認識率が高い傾向がある.
しかしながら,本研究で用いたCMU SLM toolkitで未知語を含んだ文のパープレキ シティを求める時に,未知語を一つのカテゴリ(単語と同等)として扱うため,カバー 率の低いほど,つまり未知語が多いほどパープレキシティが小さくなるという問題点 がある.
本研究では,このN-gramが,単語(漢字・平仮名混じり/平仮名のみ) N-gramで あったり,平仮名N-gramであったりと言語モデルの形態を変化させることで複数の平 仮名列を出力する平仮名音声認識システムを実現している.
以下では,言語モデルの違いによる認識結果の差異と作成意図について説明する.
3.4.1 形態素ベース言語モデル : Word-Base Characters (WBC)
形態素ベースのtrigramモデル.形態素は,漢字と英数字,平仮名,片仮名で構成さ れている.学習に用いた形態素数は 約27,000語である.
例 : 今回 /の / 実験/ の / 目的
WBCは本研究におけるSTDの基準となる音声認識結果を得るための言語モデルと して作成した.形態素ベースのtrigramモデルであるため,形態素の繋がりが考慮され た認識結果が得られる.検索語が未知語の場合のSTD性能は期待することが出来ない が,最も発話された音声に近い音声認識結果を得ることが期待できる.
3.4.2 平仮名形態素ベース言語モデル : Word-Base Hiragana (WBH)
単語ベースのtrigramモデル.単語はすべて平仮名で構成され,元の単語に漢字や英 数字,片仮名が含まれている場合には,すべて平仮名系列に変換される.
例 : こんかい / の / じっけん/ の / もくてき
WBHはすべて平仮名の単語で構成されるため,音韻系列としては未知語が存在しな い言語モデルとなる.形態素ベースのtrigramモデルであるため,形態素の繋がりが考 慮された認識結果が得られる.WBCの様に同音異義語が存在しないため,正解に近い 音韻系列の音声認識結果を得ることが期待できる.
3.4.3 文字ベース言語モデル : Character Base (CB)
文字ベースのtrigramモデル.文字はすべて平仮名によって構成されている.
例 : こ / ん / か / い /の / じ / っ / け /ん / の / も /く /て / き
CBはすべて1文字の平仮名で構成されるため,音韻系列としては未知語が存在しな い言語モデルとなる.モーラベースのtrigramモデルであるため,モーラの繋がりが考 慮された認識結果が得られる.モーラベースであるため,音響的な特徴に影響を受け やすい言語モデルとなっている.しかし,モーラの出現確立を学習していることから,
話し言葉に適した音韻系列の音声認識結果を得ることが期待できる.
3.4.4 文字系列ベース言語モデル : Bi-Mora (BM)
文字系列ベースのtrigramモデル.文字系列は2文字の平仮名によって構成されて いる.
例 : こん /かい /のじ /っけ /んの /もく /てき
BMはすべて2文字の平仮名で構成されるため,音韻系列としては未知語が存在しな い言語モデルとなる.文字系列ベースのtrigramモデルであるため,CBより言語的な 音韻系列の音声認識結果を得ることが期待できる.
3.4.5 文字系列ベース言語モデル : Character Sequence Base (CSB)
文字系列ベースのtrigramモデル.文字系列は数文字の平仮名によって構成されて いる.
例 : こん /かい /の / じっ/ けん/ の / もく/ てき
CSBはすべて数文字の平仮名形態素で構成されるため,音韻系列としては未知語が 存在しない言語モデルとなる.位置づけとしては,WBHとBMの中間的な言語モデル である.文字系列ベースのtrigramモデルであるため,BMより言語的な音韻系列の音 声認識結果を得ることが期待できる.
3.4.6 疑似連続音節認識用言語モデル : Non
全てのモーラの出現確率を等しくした言語モデル.全てのモーラの出現確率が等し いことで,擬似的に連続音節認識を行うことが可能となる.
擬似的に連続音節認識が行えるため,モーラや形態素の言語的な接続確立に依存す ることがない.このため,言語的な制約に左右されることがない,音韻系列の音声認 識結果を得ることが期待できる.