NAM サンプルのモノフォンモデル EM 学習

第 2 章非可聴つぶやき認識の必要性と NAM の発見

2.7 NAM の音響モデル作成

2.7.1 NAM サンプルのモノフォンモデル EM 学習

ケンブリッジのHMMツール集であるHTK[64]と，IPAの日本語ディクテーション基本ソフトウェア（Japanese Dictation Tool Kit：以下JDTK）[19]

を用いてこれを行った．

学習サンプル文は，特定男性一名のNAM発話にて，図2.2のNAMマイクロフォンを図2.5 の最適位置（左側）に接着し，室内静環境でNAM発声にて読み上げた．

読み上げに用いた文章は，ATR音素バランス文（A〜Jの503文＋Z22文の計 525 文）を４回と，JNAS（日本音響学会新聞記事読み上げ音声コーパス）の毎日新聞記事1255文を2回である．

マイクアンプは増幅率（電圧利得）26dB のものを用い，計算機は linux+ALSA ドライバの環境で，サンプリング周波数は16kHz，16bitにて合計4560個のNAM発話による文章読み上げサンプルを収録した．

特徴パラメータ抽出は，通常音声と同様の条件で，MFCC（12次元）＋Δ MFCC＋ΔLogPow(計 25 次元)にて，Hcopy[64]により音響分析した．音素ラベルは時間情報なしのものを用い，HERest[64]にてJDTKのCD-ROM付属の通常音声のmonophone男性不特定話者モデル（状態数5，混合数16）を初期モデルとして20回EM学習を行った．

認識エンジンはJulius3.4[27]を用い，音響モデルを変更する以外の条件は通常音声の一般的な認識と同じとし，システムの設定などもデフォルトのままとし，特にパラメータを変更しなかった．言語モデルとしては，JDTKの CD-ROM付属の20K辞書を使用した．

認識率の評価は，JDTK の CD-ROM 付属の正解文ファイル seikai.ref に記述された毎日新聞記事 24 文を，様々な雑音環境で NAM 発声により読み上げ，これを同じ NAMマイクロフォンにて収録した．この CD-ROM 付属のmkhyp.pl，align.pl，score.plの3つのPerlスクリプトを用いて認識率を集計した．結果が表2.1である．

表2.1 NAMの大語彙連続認識実験（モノフォンEM学習）

なおテストセット24文章の収録環境の内訳は以下の通り．

A：鉄筋のマンション内の静音環境．

B：ステレオ音響のクラシック音楽を通常楽しむ音量でかけた同室内．

C：NHKのテレビニュースを聞き取るために十分な音量でかけた同室内．

D：診療所の外来で，職務上の音声や人の行き交う音，待合室の静かな会話は聞こえる．仕事中のオフィス内にほぼ相当すると思われる．

まず静音環境では，特定話者モデルながら，monophone モデルにもかかわらず，単語認識精度が90％を超えた。また日常室内で経験するBGMやテレビの音声などにも頑健であり，B〜D に見られるように日常生活空間内や通常のオフィス環境程度の雑音ならば，ほぼそれに劣らず90％前後の認識精度を示した．ただし今回の聴診器型NAMマイクロフォンでは，側背部の防音が完全でないのと，コンデンサマイクロフォンの入力ゲインを上げているため，採取した雑音環境サンプルに若干の外部雑音が混入しており，これが B〜D の認識率をやや低下させたと思われる．その他に人間の体自体を伝達する外部雑音もある．

図2.9にAの静音環境でのNAMサンプル数と学習回数による認識精度の上昇をグラフ化したものを掲示する．EM 学習は 10〜15 回程度で飽和することがわかる．またモノフォンモデルでは混合数において16から32に増加させても認識率に大きな差異は見られなかった．

図2.9 EM学習のサンプル数と学習回数による認識精度の上昇

ドキュメント内博士論文表紙 (ページ 47-50)

第 2 章 非可聴つぶやき認識の必要性 と NAM の発見

2.7 NAM の音響モデル作成

2.7.1 NAM サンプルのモノフォンモデル EM 学習

第 2 章非可聴つぶやき認識の必要性と NAM の発見