• 検索結果がありません。

第 7 章 音声中の検索誤検出の応用

7.1 音声認識の語彙推定への利用

る方法が提案されている[72][73].しかし,これらの手法はスライドを利用している講 義音声を認識する場合のみに利用できる.現在でも講師の多くは黒板を用いた講義を 実施しており,この場合は当然スライド情報を用いることができない.そこで,小暮ら

は[74],大学では学生向け(電子)シラバスが用意されていることに着目し,これを利

用することで言語モデル適応化を行うためのドキュメントを収集する方法を提案して いる.この方法では,講義の前に言語モデルを適応化することができるので,リアル タイムで講義音声を比較的精度よく認識することが可能となる.リアルタイムで認識 する際は,話題に適応化された言語モデルを利用し,かつ言語モデルがコンパクトで ある方が認識処理速度も高速になる.一方で,授業シラバスのような事前情報が利用 できない状況を考えた場合,Web を利用することが有効である.梶原らは[75],Web ドキュメントを用いた講演音声認識のための反復適応化手法を提案している.これら のように,様々な適応化手法が提案されているが,これらは適応化によりモデルサイ ズが増加する.

コンパクトな言語モデルを構築するための手法は,踊堂ら[76]やStolck[77]が提案し ている.これらの手法は,エントロピー等の指標によりN-gramパラメータ数の削減を 図っている.また,A. Sethyら[78]は集めてきた大量のWEBデータから,音声認識 対象のデータに類似した学習テキストを相対エントロピー基準で選択する方法を提案 している.

7.1.2 STD を利用した語彙推定

ここでは,これらの手法と異なり,発話毎に認識辞書に登録する語彙をSTDにより 推定することを検討し評価を行う.すなわち,発話毎に語彙集合を形成することで,よ り話題に特化した辞書を作成する.

PTNを用いた語彙推定処理を図7.1に示す.提案手法では,認識対象音声を2度認 識するため,リアルタイム用途ではない.アーカイブ作成等で応用できる技術である と考えている.PTNによる語彙推定では,まずCSJ講演集合から言語モデルを5種類 作成する.作成した言語モデルと音響モデル2種類を用いて,講義音声の10種類の音 声認識結果を得る.10種類の認識結果からPTNを作成し,vocabularyに登録されて いる単語をクエリとして単語検索を行う.STDを行うことにより,どの単語がどの発 話に含まれているのかが分かる.この結果を用いて各発話に対する認識辞書を構築す る.そして,発話毎の辞書を用いて再度音声認識することで認識率の改善を図る.

7.1.3 評価実験

認識対象の音声には,山梨大学工学部コンピュータ・メディア工学科コンピュータ サイエンスコースで開講された3講義とCSJの評価データ用テストセットから3講演 (講演ID:A01M0007, A01M0035, A01M0074)の音声を用いた.

2014/2/9

Lecture Speech

Segmented into utterances

LVCSRs (CSJ) Base LM

training data

vocabulary STD engine

PTN for STD

A vocabulary set for each

utterances

図 7.1: PTNによるSTDを利用した語彙推定の流れ

ベースとなる言語モデルはCSJに含まれる3,286講演(評価データを除く学会講演・

模擬講演・読み上げ・対話をすべて含む,約123Mバイト)から学習した語彙数20,000

の単語trigramである.ベースラインの認識辞書には,言語モデル学習時に利用した語

彙数20,000のものを利用している.

音響モデルの学習に用いるパラメータは,16kHz,16bitでサンプリングされた音声 より求められた,12次元のメル周波数ケプストラム(MFCC),その1次差分(∆MFCC) と2次差分(∆∆MFCC),パワーの1次差分(∆LogPow)と2次差分(∆∆LogPow)の38 次元を使用している.音響モデルにはCSJに収録されているコアを除く学会・模擬講 演全2525 講演の男女混合話者から学習した総状態数約3,000 の64混合triphoneを用 いた.

表7.1に語彙推定にSTDを用いることにより作成した認識辞書を用いて音声認識し た結果と講義・講演毎の未知語率と語彙数を示す.“Base”は,語彙推定を行っていな い結果,“STD”はSTDによる語彙推定を利用したものである.“STD”のvocabulary sizeは発話毎の辞書の語彙サイズの平均である.STDを用いた語彙推定処理により,認 識辞書の語彙を大幅に削減することが示された.それに伴い,すべての講演・講義で 音声認識率が改善していることが示された.しかし,改善幅はわずかである.原因と

82

表 7.1: 語彙推定による音声認識率の比較結果 Lecture1 Lecture2 Lecture3 Base STD Base STD Base STD Corr.[%] 59.67 60.43 41.92 43.23 45.66 46.21 Acc.[%] 54.76 55.86 31.18 33.56 33.13 34.87 N Corr.[%] 47.64 48.47 32.37 33.29 34.55 34.88 OOV Rate[%] 7.82 16.33 5.97 25.50 7.44 22.29 vocabulary size 20000 2155 20000 1056 20000 1050

A01M0007 A01M0035 A01M0074 Base STD Base STD Base STD Corr.[%] 82.37 82.39 70.42 70.90 83.06 83.87 Acc.[%] 78.87 79.16 66.99 67.54 79.51 80.59 N Corr.[%] 85.81 85.81 67.30 68.12 83.07 85.11 OOV Rate[%] 8.10 13.70 9.92 15.67 6.15 9.16 vocabulary size 20000 540 20000 2095 20000 866

して,必要な語彙が削られたことによる未知語率の悪化,言語モデルを再学習をして いないこと(学習データの選択を含む),が挙げられる.特に,STD技術が完全ではな いことから,未知語率が大幅に悪化してしまったことが大きい.STDは短い単語検出 に弱く(湧き出し誤検出が大量に発生してしまう),これが語彙推定精度を大きく下げ ている.しかし,実験結果からSTDを用いた語彙推定処理が有効であることが実証さ れた.