言語モデル

第 4 章孤立手書き文字認識から連続手書き文字列認識への拡張 18

4.3 言語モデル

言語モデルとは，与えられた文字列wⁿ₁ =w1w2· · ·wnに対して，その出現確率P(w1w2· · ·wn) を与えるモデルである．言語モデルとしては様々なものが考えられている．サンプルデータから統計的な手法によって確率推定を行う，統計的言語モデルを用いるのが現在の主流となっている．

統計的言語モデルには確率文脈自由文法など様々なものがあるが，その中でも最も単純でかつ最も広く用いられているのが N グラムモデルである．N グラムモデルは，音声認識やオフライン文字認識[24, 25]の分野でも用いられており，その有効性が示されている．

4.3.1 N ^{グラムモデル}

文字列wⁿ₁ =w1w2· · ·wn に対して，その出現確率P(w₁ⁿ)は，乗法定理を用いると，

P(wⁿ₁) =P(w1w2· · ·wn) =P(w1)P(w2|w1)· · ·P(wn|w₁ⁿ⁻¹) (4.4) となる．

N グラムモデルとは，P(wⁿ₁)の推定をする場合に，

P(wⁿ₁) =P(w1w2· · ·wn) =

i=1

P(wi|w_i−N₊₁· · ·wi−1) =

i=1

P(wi|wⁱ⁻¹_i−N+1) (4.5)

のように，文字の生起をN−1重マルコフ過程で近似したモデルである．つまり，N グラムモデルでは，i 番目の文字wi の出現確率が，直前のN −1 個の文字列wi−N+1· · ·wi−1

だけに依存すると考える．特に，N = 1 のときをユニグラム(unigram)，N = 2 のときをバイグラム(bigram)，N = 3 のときをトライグラム(trigram)と言う．ユニグラムは，

文字が以前の文字に依存せずに生起するので，文字の生起確率に等しい．また，全ての文字が等確率で生起すると考えたモデルのことをゼログラムと呼ぶ[26]．

4.3.2 N ^{グラム確率の算出}

N グラム確率の算出は，基本的には最尤推定法を用いる．すなわちN グラム確率は，

学習データ中に出現する文字の N 組と N1 組の相対頻度から推定する．ここで，文字列 wⁿ₁ が学習データ中に出現する回数をC(w₁ⁿ)で表すと，P(wn|w₁ⁿ⁻¹) = P(wn|w_n−N+1ⁿ⁻¹ )は，

P(wn|w_n−N+1ⁿ⁻¹ ) = C(w_n−N+1ⁿ )

C(w_n−N+1ⁿ⁻¹ ) (4.6)

と推定される．

4.3.3 N グラム確率のスムージング

統計元となった学習データにたまたま出現しなかった N グラムに対する出現確率が 0 となってしまう（ゼロ頻出問題）．適切な推定値を得るためには，確率値のスムージング

（平滑化）を行う必要がある．

確率値のスムージングとは，大きい確率値を小さく，小さい確率値を大きくすることで確率が 0 になることを回避する手法である．代表的なスムージングとして，加算スムージング，バックオフ・スムージング，線形補間法などがある．本論文では最も単純であり容易に実現できる加算スムージングを用いており，本節ではこれについて説明する．

加算スムージング(Additive Smoothing)

加算スムージングは，N グラム確率の算出において，単純に文字列の出現回数を用いるのではなく，出現回数に一律に一定数を加えた値を用いる．出現回数に加える定数を

δ (0< δ ≤1)，文字列の異なり総数を V とすると，加算スムージングでは N グラム確

率を以下のように推定する．

P(wn|wⁿ⁻¹_n−N₊₁) = C(w_n−N+1ⁿ⁻¹ ) +δ

C(w_n−N+1ⁿ ) +δV (4.7)

4.3.4 _{言語モデルの評価}

作成した言語モデルの良さは，認識システムにどの程度貢献し，認識精度がどの程度良くなったかという尺度によって測られる．しかし，認識システムの性能には様々な要素が影響する為，認識精度の良し悪しが言語モデルの良さを反映したかどうかを検証するのは難しい．そこで言語モデルの評価を，手軽に使われている尺度であるパープレキシティによって行うことが多い．

パープレキシティ(perplexity)

パープレキシティ P P は，ある文字１個が出現しうる確率の相乗平均の逆数で表現される．

P P =

i=1

P(wi) ₋¹_n

(4.8)

実際には，以下のように対数確率の相加平均を取って計算されることが多い．

log₂P P =−1 n

i=1

log₂P(wi) (4.9)

テストセット・パープレキシティ(test-set perplexity)

連続音声認識システムでは，認識性能はタスクやテキストなどの処理対象に依存する．

すなわち，同じ言語モデルを用いる場合でも，タスクが異なれば，異なった認識性能を

示す．従って，言語モデルの性能評価のためのテキスト集合を別に定めて，そのテキスト集合に対するパープレキシティを調べることが多い．これをテストセット・パープレキシティと言い，式(4.9)における w1w2· · ·wn として，学習に使ったテキストとは別に言語モデルの性能評価のためのテキストを用いて算出したものとなる．

パープレキシティが低いならば，実際に出現する文（テストセット）の出現確率が高く，認識したい文と他の文を識別する能力が高いことを表す．但し，パープレキシティによる言語モデルの性能評価には「文字自体の間違いやすさ」という指標が入っていない為，パープレキシティによる性能評価は認識率に直結しないこともある．

第 5 章手書き文字列認識のための筆圧特

ドキュメント内オンライン手書き文字列認識に関する研究 (ページ 33-37)

第 4 章 孤立手書き文字認識から連続手書き文字列認識への拡張 18

4.3 言語モデル

4.3.1 N グラムモデル

4.3.2 N グラム確率の算出

4.3.3 N グラム確率のスムージング

4.3.4 言語モデルの評価

第 5 章 手書き文字列認識のための筆圧特

第 4 章孤立手書き文字認識から連続手書き文字列認識への拡張 18

4.3.1 N ^{グラムモデル}

4.3.2 N ^{グラム確率の算出}

4.3.4 _{言語モデルの評価}

第 5 章手書き文字列認識のための筆圧特