PTM モデルへの話者適応（ Iterative MLLR ）

第 2 章非可聴つぶやき認識の必要性と NAM の発見

2.7 NAM の音響モデル作成

2.7.3 PTM モデルへの話者適応（ Iterative MLLR ）

前述の通り，HMMを用いて実用的なNAM認識を実現するためには，本来ならばまず多数話者のNAMサンプルのみを用いて不特定話者NAM音響

1 詳しくは参考URL http://www.aist-nara.ac.jp/~yoshi-n/NAM/のデモビデオ「NAMと体内伝導通常音声（BTOS）の単独音響モデルでの同時認識のデモ」をご覧頂きたい．

モデルを作成するべきである．通常音声認識に置いては PTM モデル (Phonetic Tied Mixture Model)という効率の高い音響モデルがあるが，

NAM サンプルのみでこれを作成するためには，まずトライフォンモデルを作成せねばならず，数万オーダーのNAM学習データが必要とされる．しかしNAM認識においては個人が個人用のNAMマイクロフォンにて認識を行う特殊性から，通常音声の不特定話者 PTM モデルにNAM サンプルを用いて話者適応を行い特定話者NAM音響モデルとして使用するという方法がある．この方法のはNAM学習サンプルの数がはるかに少なくてすむ．

図2.10 Iterative MLLRによるNAM音響モデルの認識率

初期モデルとして，3000状態の通常音声不特定話者PTMモデルを使用し，

話者適応としてはMLLR（Maximum likelihood liner regression）[25]を選択し，適応の終わったモデルに対して次々に同じ適応を繰り返す Iterative

MLLR[62]を使用した Panikos らの研究[8]によると，図 2.10 のような結果が得られている．この際話者適応に使用したデータや，評価に用いた 72 個の NAM サンプルは，2.7.1 でモノフォンモデルを作成するときに聴診器型 NAMマイクロフォンで収録した4610個のNAMサンプルの中から選んで用いている．

通常音声の話者適応との比較がなされているが，通常音声データは JNAS データベースのものを使用している．この結果によると通常音声不特定話者 PTM モデルへの繰り返しMLLRは128 クラスターで約 350文章を6回程度行えば，ほぼ最も高い認識精度を得られることがわかる．

また同じ 2.7.1 の NAM サンプルを話者適応と評価に使用し，話者適応に

MAP（Maximum A Posteriori）を用いたモデルや，MAPとMLLRを両方繰り返し用いた NAM 音響モデルも作成されており[10]，それぞれ認識精度は92%を超えている．

聴診器型NAMマイクロフォンから収録した2.7.2のBTOSデータを元に話者適応（Iterative MLLR）を行い，同一話者のヘッドセットマイクロフォンで得られた気導通常音声と認識精度を比較した研究もある[13]．表 2.1 の雑音環境分類のA,B,Cと同じ環境下でBTOSを収録している．NAMマイクロフォンから得られたBTOSを用いると，ヘッドセットによる通常音声認識より，家庭やオフィスレベルの雑音環境下の認識に頑強であることがわかる．

表2.3 BTOSとヘッドセットマイク収録通常音声との認識精度の比較

また NAM の不特定話者モデルを作るベースラインの検討としての研究 [14]もあるが，聴診器型 NAM マイクロフォンの帯域が狭く，またサンプリ

ング技術もデータ収録当時は未熟であったため，あまり良質なNAMデータが集積されていない．21人（男性14人：女性11人）の3189個のNAMデータで通常音声不特定話者モデルに話者適応を用いている．

表2.4 聴診器型NAMマイクロフォンによるNAMの不特定話者モデル

今後，計画的かつ大規模にNAMデータ収録を行い，純粋に高音質なNAM データのみから作成された NAM不特定話者 PTM モデルを作成すること，

またBTOSも同時に収録し，NAMとBTOSを同時に認識する，総合肉伝導音声不特定話者 PTM モデルの作成が課題である．また音声データのパラメータ化もNAMやBTOSの認識に効果的な抽出法があるはずであり，気導通常音声認識との認識率の本当の比較は，それらの確立後に待たれる．

2.8 まとめ

音声認識入力が内包する日常的普及への本質的欠点に気づき，いわゆる「無音声認識」の実用的価値と，通常音声ばかりでなくNAMを認識に用いることの必要性を考察し，NAM 発見の経緯を述べた．聴診器型マイクロフォン開発，最適装着位置の発見，NAM 音響モデル作成により，大語彙連続認識の実験結果よりNAM認識の可能性を論じた．NAM認識の大きな特徴は「人に聞こえないこと」，「体表から直接センシングすること」，「外部雑音に対して頑健であること」などである．総合発話認識入力としての応用もめざし，

BTOSも同時に認識に使用できることを検証した．

この認識入力方式は，通常音声認識と比較して，通常音声で発話できない

ハンディキャップを持った人々を支援する大きな力となることが期待される．

またこのNAM認識は携帯端末がウェアラブル化された時，キーボードやテンキーに代わってその入力の主力となる可能性を秘めていると考える．それは音声認識の長く，たゆまない技術蓄積のもとにはじめて可能となるものであり，その実用化にも音声認識の研究で培った多くの素晴らしい技術をそのまま生かすことができる．また逆に非可聴つぶやき認識の実用化が，音声認識技術自体の広範な日常的普及の一助となるばかりでなく，音声言語を扱う科学技術に貢献できると考える．

図2.11 聴診器型NAMマイクロフォンの外観

第 3 章ソフトシリコーン伝導型 NAM

ドキュメント内博士論文表紙 (ページ 51-56)