第 2 章 非可聴つぶやき認識の必要性 と NAM の発見
2.7 NAM の音響モデル作成
2.7.1 NAM サンプルのモノフォンモデル EM 学習
ケンブリッジのHMMツール集であるHTK[64]と,IPAの日本語ディクテ ーション基本ソフトウェア(Japanese Dictation Tool Kit:以下JDTK)[19]
を用いてこれを行った.
学習サンプル文は,特定男性一名のNAM発話にて,図2.2のNAMマイ クロフォンを図2.5 の最適位置(左側)に接着し,室内静環境でNAM発声 にて読み上げた.
読み上げに用いた文章は,ATR音素バランス文(A〜Jの503文+Z22文 の計 525 文)を4回と,JNAS(日本音響学会新聞記事読み上げ音声コーパ ス)の毎日新聞記事1255文を2回である.
マ イ ク ア ン プ は 増 幅 率 ( 電 圧 利 得 )26dB の も の を 用 い , 計 算 機 は linux+ALSA ドライバの環境で,サンプリング周波数は16kHz,16bitにて 合計4560個のNAM発話による文章読み上げサンプルを収録した.
特徴パラメータ抽出は,通常音声と同様の条件で,MFCC(12次元)+Δ MFCC+ΔLogPow(計 25 次元)にて,Hcopy[64]により音響分析した.音素 ラベルは時間情報なしのものを用い,HERest[64]にてJDTKのCD-ROM付 属の通常音声のmonophone男性不特定話者モデル(状態数5,混合数16) を初期モデルとして20回EM学習を行った.
認識エンジンはJulius3.4[27]を用い,音響モデルを変更する以外の条件は 通常音声の一般的な認識と同じとし,システムの設定などもデフォルトのま まとし,特にパラメータを変更しなかった.言語モデルとしては,JDTKの CD-ROM付属の20K辞書を使用した.
認識率の評価は,JDTK の CD-ROM 付属の正解文ファイル seikai.ref に 記述された毎日新聞記事 24 文を,様々な雑音環境で NAM 発声により読み 上げ,これを同じ NAMマイクロフォンにて収録した.この CD-ROM 付属 のmkhyp.pl,align.pl,score.plの3つのPerlスクリプトを用いて認識率を 集計した.結果が表2.1である.
表2.1 NAMの大語彙連続認識実験(モノフォンEM学習)
なおテストセット24文章の収録環境の内訳は以下の通り.
A:鉄筋のマンション内の静音環境.
B:ステレオ音響のクラシック音楽を通常楽しむ音量でかけた同室内.
C:NHKのテレビニュースを聞き取るために十分な音量でかけた同室内.
D:診療所の外来で,職務上の音声や人の行き交う音,待合室の静かな会話 は聞こえる.仕事中のオフィス内にほぼ相当すると思われる.
まず静音環境では,特定話者モデルながら,monophone モデルにもかか わらず,単語認識精度が90%を超えた。また日常室内で経験するBGMやテ レビの音声などにも頑健であり,B〜D に見られるように日常生活空間内や 通常のオフィス環境程度の雑音ならば,ほぼそれに劣らず90%前後の認識精 度を示した.ただし今回の聴診器型NAMマイクロフォンでは,側背部の防 音が完全でないのと,コンデンサマイクロフォンの入力ゲインを上げている ため,採取した雑音環境サンプルに若干の外部雑音が混入しており,これが B〜D の認識率をやや低下させたと思われる.その他に人間の体自体を伝達 する外部雑音もある.
図2.9にAの静音環境でのNAMサンプル数と学習回数による認識精度の 上昇をグラフ化したものを掲示する.EM 学習は 10〜15 回程度で飽和する ことがわかる.またモノフォンモデルでは混合数において16から32に増加 させても認識率に大きな差異は見られなかった.
図2.9 EM学習のサンプル数と学習回数による認識精度の上昇