認識率による NAM マイクロフォンの評価

第 3 章ソフトシリコーン伝導型 NAM マイクロフォン

3.7 認識率による NAM マイクロフォンの評価

聴診器型 NAM マイクロフォンに比した，ソフトシリコーン伝導型 NAM マイクロフォンの数値的評価として，話者適応（Iterative MLLR）による NAM音響モデル作成を行いHMMによる認識率を比較した．

ソフトシリコーンを音媒体に用いた新NAMマイクロフォン三種のうち，

OCMSSやTMSSに比し，接触面感度や外部雑音耐性には優れるが，帯域の

最も狭いOCWSSタイプのNAMマイクロフォンと，旧式の聴診器型NAM

マイクロフォンを用いて，NAM 発話による大語彙連続認識実験を行った．

特定男性話者の NAM 発話による新聞記事読み上げと評価用の 24 文[21]を NAM発話にて同じNAMマイクロフォンで読み上げて16KHzサンプリングし，50Hz のハイパスフィルター処理をかけた．通常音声男性不特定話者の Phonetic Tied Mixture (PTM) モデル（64混合，3000状態）にHTK[64] を用い，350 文章，128 クラスターで 10 回の繰り返し話者適応（Iterative MLLR）[24]を行った．認識エンジンは Julius3.4[19] を用い，言語モデルの辞書として20K辞書[4]を用いた．認識率の評価はJDTK[21] を用い，単語認識精度を計算した．図3.21にMLLRの回数と単語認識精度を聴診器型 NAM マイクロフォンと比較して提示する．単語認識精度は聴診器型に比し約5%の上昇を見た．

図3.21 ソフトシリコーン型と聴診器型のNAM認識率の比較

図3.22 ソフトシリコーン型NAMマイクロフォン（OCMSS）の Iterative MLLR におけるNAM認識の適応文数の違いと認識率

図3.23 ソフトシリコーン型NAMマイクロフォン（OCMSS）の Iterative MLLR におけるBTOS認識の適応文数の違いと認識率

60 65 70 75 80 85 90 95 100

1 2 3 4 5 6 7 8 9 10

Iterative MLLR (400 utterances)

Accuracy

Stethoscopic Type OCMSS Type OCWSS Type TMSS Type Whisper (Headset)

図3.24 マイク別NAM認識率（Iterative MLLR 400文章）

聴診器型，ソフトシリコーン型3種，気導音ささやき声（対照）の比較

60 65 70 75 80 85 90 95 100

1 2 3 4 5 6 7 8 9 10

Iterative MLLR (400 utterances)

Accuracy

Stethoscopic Type OCMSS Type TMSS Type Normal Speech (Headset)

図3.25 マイク別BTOS認識率（Iterative MLLR 400文章）

聴診器型，ソフトシリコーン型2種，通常音声（対照）の比較

図3.22はソフトシリコーン型NAMマイクロフォン（OCMSS型）による NAM認識で，話者適応（Iterative MLLR）に用いた読み上げ文数の違いによる単語認識精度を表すグラフである．認識エンジンJuliusのバージョンが 3.4.2であること以外の条件は，図3.20の場合と全く同じである．図3.23は BTOS認識の場合である．この二つ結果により，話者適応によるNAM音響モデル，BTOS 音響モデル作成には NAM，BTOS ともに聴診器型の場合とほぼ同様に300文〜400文の６回以上の繰り返し話者適応が妥当と考える．

図 3.24 はソフトシリコーン型 NAM マイクロフォンでサンプリングした NAMと聴診器型NAMマイクロフォンでサンプリングしたNAM，そして対照としてヘッドセットマイクロフォンでNAMとは別に収録したささやき声の話者適応(Iterative MLLR)による認識率の比較を示すグラフである．ここでもJulius3.4.2を認識エンジンに用いていること以外の条件は同じである．

繰り返し回数は 10 回，適応文数は 400 文章である．OCMSS 型，OCWSS 型，TMSS 型ともにソフトシリコーン型 NAM マイクロフォンは聴診器型 NAMマイクロフォンの単語認識精度を上回る．図3.25は対照にヘッドセットマイクロフォンで収録した通常音声を用いた，BTOSの話者適応による認識率比較を示す．ここでもOCMSS型，TMSS型のソフトシリコーン型NAM マイクロフォンは聴診器型の単語認識精度を上回った．OCCWSS は BTOS の場合同じマイクアンプでは感度が高すぎて収録文章のほぼすべてがオーバーフローによる音割れを起こしていたため，このグラフには含めなかった．

図3.24でも図 3.25でも対照（黒い棒グラフ）の気導音声と比べると，やはり肉伝導音声の単語認識精度は低い．これが気導音声に比べて肉伝導音声の情報が不足しているためであるのか，これらの話者適応がすべて初期モデルとして通常音声の不特定話者モデルを用いているためであるのか，またその両方であるのかがわからない．NAM のみのサンプルから作られた不特定話者モデル，BTOSのみのサンプルから作られた不特定話者モデルの作成が大きな課題である．肉伝導音声の認識に適したパラメータ抽出法を検討することも，もうひとつの大きな課題である．

ドキュメント内博士論文表紙 (ページ 85-89)

第 3 章 ソフトシリコーン伝導型 NAM マイクロフォン

3.7 認識率による NAM マイクロフォンの評価

第 3 章ソフトシリコーン伝導型 NAM マイクロフォン