音声認識の語彙推定への利用

第 7 章音声中の検索誤検出の応用

7.1 音声認識の語彙推定への利用

る方法が提案されている[72][73]．しかし，これらの手法はスライドを利用している講義音声を認識する場合のみに利用できる．現在でも講師の多くは黒板を用いた講義を実施しており，この場合は当然スライド情報を用いることができない．そこで，小暮ら

は[74]，大学では学生向け(電子)シラバスが用意されていることに着目し，これを利

用することで言語モデル適応化を行うためのドキュメントを収集する方法を提案している．この方法では，講義の前に言語モデルを適応化することができるので，リアルタイムで講義音声を比較的精度よく認識することが可能となる．リアルタイムで認識する際は，話題に適応化された言語モデルを利用し，かつ言語モデルがコンパクトである方が認識処理速度も高速になる．一方で，授業シラバスのような事前情報が利用できない状況を考えた場合，Web を利用することが有効である．梶原らは[75]，Web ドキュメントを用いた講演音声認識のための反復適応化手法を提案している．これらのように，様々な適応化手法が提案されているが，これらは適応化によりモデルサイズが増加する．

コンパクトな言語モデルを構築するための手法は，踊堂ら[76]やStolck[77]が提案している．これらの手法は，エントロピー等の指標によりN-gramパラメータ数の削減を図っている．また，A. Sethyら[78]は集めてきた大量のWEBデータから，音声認識対象のデータに類似した学習テキストを相対エントロピー基準で選択する方法を提案している．

7.1.2 STD を利用した語彙推定

ここでは，これらの手法と異なり，発話毎に認識辞書に登録する語彙をSTDにより推定することを検討し評価を行う．すなわち，発話毎に語彙集合を形成することで，より話題に特化した辞書を作成する．

PTNを用いた語彙推定処理を図7.1に示す．提案手法では，認識対象音声を2度認識するため，リアルタイム用途ではない．アーカイブ作成等で応用できる技術であると考えている．PTNによる語彙推定では，まずCSJ講演集合から言語モデルを5種類作成する．作成した言語モデルと音響モデル2種類を用いて，講義音声の10種類の音声認識結果を得る．10種類の認識結果からPTNを作成し，vocabularyに登録されている単語をクエリとして単語検索を行う．STDを行うことにより，どの単語がどの発話に含まれているのかが分かる．この結果を用いて各発話に対する認識辞書を構築する．そして，発話毎の辞書を用いて再度音声認識することで認識率の改善を図る．

7.1.3 評価実験

認識対象の音声には，山梨大学工学部コンピュータ・メディア工学科コンピュータサイエンスコースで開講された3講義とCSJの評価データ用テストセットから3講演 (講演ID:A01M0007, A01M0035, A01M0074)の音声を用いた．

2014/2/9

Lecture Speech

Segmented into utterances

LVCSRs (CSJ) Base LM

training data

vocabulary STD engine

PTN for STD

A vocabulary set for each

utterances

図 7.1: PTNによるSTDを利用した語彙推定の流れ

ベースとなる言語モデルはCSJに含まれる3,286講演(評価データを除く学会講演・

模擬講演・読み上げ・対話をすべて含む，約123Mバイト)から学習した語彙数20,000

の単語trigramである．ベースラインの認識辞書には，言語モデル学習時に利用した語

彙数20,000のものを利用している．

音響モデルの学習に用いるパラメータは，16kHz，16bitでサンプリングされた音声より求められた，12次元のメル周波数ケプストラム(MFCC)，その1次差分(∆MFCC) と2次差分(∆∆MFCC)，パワーの1次差分(∆LogPow)と2次差分(∆∆LogPow)の38 次元を使用している．音響モデルにはCSJに収録されているコアを除く学会・模擬講演全2525 講演の男女混合話者から学習した総状態数約3,000 の64混合triphoneを用いた．

表7.1に語彙推定にSTDを用いることにより作成した認識辞書を用いて音声認識した結果と講義・講演毎の未知語率と語彙数を示す．“Base”は，語彙推定を行っていない結果，“STD”はSTDによる語彙推定を利用したものである．“STD”のvocabulary sizeは発話毎の辞書の語彙サイズの平均である．STDを用いた語彙推定処理により，認識辞書の語彙を大幅に削減することが示された．それに伴い，すべての講演・講義で音声認識率が改善していることが示された．しかし，改善幅はわずかである．原因と

表 7.1: 語彙推定による音声認識率の比較結果 Lecture1 Lecture2 Lecture3 Base STD Base STD Base STD Corr.[%] 59.67 60.43 41.92 43.23 45.66 46.21 Acc.[%] 54.76 55.86 31.18 33.56 33.13 34.87 N Corr.[%] 47.64 48.47 32.37 33.29 34.55 34.88 OOV Rate[%] 7.82 16.33 5.97 25.50 7.44 22.29 vocabulary size 20000 2155 20000 1056 20000 1050

A01M0007 A01M0035 A01M0074 Base STD Base STD Base STD Corr.[%] 82.37 82.39 70.42 70.90 83.06 83.87 Acc.[%] 78.87 79.16 66.99 67.54 79.51 80.59 N Corr.[%] 85.81 85.81 67.30 68.12 83.07 85.11 OOV Rate[%] 8.10 13.70 9.92 15.67 6.15 9.16 vocabulary size 20000 540 20000 2095 20000 866

して，必要な語彙が削られたことによる未知語率の悪化，言語モデルを再学習をしていないこと(学習データの選択を含む)，が挙げられる．特に，STD技術が完全ではないことから，未知語率が大幅に悪化してしまったことが大きい．STDは短い単語検出に弱く(湧き出し誤検出が大量に発生してしまう)，これが語彙推定精度を大きく下げている．しかし，実験結果からSTDを用いた語彙推定処理が有効であることが実証された．

ドキュメント内音声からキーワードを検出する技術の高度化に関する研究利用統計を見る (ページ 95-98)

第 7 章 音声中の検索誤検出の応用

7.1 音声認識の語彙推定への利用

7.1.2 STD を利用した語彙推定

7.1.3 評価実験

2014/2/9

第 7 章音声中の検索誤検出の応用