• 検索結果がありません。

実験結果

ドキュメント内 博士論文表紙 (ページ 93-97)

第 3 章  ソフトシリコーン伝導型 NAM マイクロフォン

3.8   聴取実験による NAM マイクロフォンの評価

3.8.2   実験結果

 認識率の計算方法は,音声認識の場合と同様であり,評価に単語認識精度 を用いた.N:全単語数,D:脱落誤り数,S:置換誤り数,I:挿入誤り率 として単語認識精度は

N I S D N − − −

として計算する. 

 

 各収録方法でサンプリングレート間の有意な差が見られないことをふまえ て,サンプル数を増やして認識精度の統計的信頼性を増すため,両者を混合 して,文章の単語認識精度を計算した.対照としてヘッドセットマイクロフ ォンで収録したささやき声(明らかに気導音としての音量は気導NAM発声 音より大きい)を対比して図3.27に掲げる.

 同じサンプルを被験者は3回繰り返して聴くので,当然一回目より二回目,

二回目よりも三回目が認識精度は上昇する.NAM の聞き取りについては旧 式の聴診器型NAMマイクロフォンに比して,ソフトシリコーン伝導型NAM マイクロフォンはどの聞き取り回数においても有意に単語認識精度が高く,

対照である気導音のささやき声の単語認識精度と二回目,三回目の聞き取り については有意差がなかった.一回目の認識率の低さは,ささやき声が普段 聞き慣れているのに対し,NAM はほぼ初めて聞く人ばかりであったためと 考えられる.また聞き取れているにもかかわらず文章の部分的聞き忘れも原 因にあると思われる.二回目以降は一回目の記述をふまえて聞くことができ るため,聴覚をより反映すると考える.

図3.27  NAMによる文章聞き取りの認識率(対照:ささやき声)

図3.28  BTOSによる文章聞き取りの認識率(対照:通常音声)

  図3.28に見られるように,有声子音,無声子音の鑑別が容易であるためか,

各収録法でBTOSの方がNAMより高い単語認識精度を示す.BTOSでもソ フトシリコーン伝導型NAMマイクロフォンは,対照であるヘッドセットマ イクロフォン収録通常音声の単語認識精度と有意差はなく,聴診器型 NAM マイクロフォンに比べて二回目,三回目の聞き取りで有意に高かった.

 以上が12文章,12人,三回聞き取りの結果であるが,文章の場合,機械 認識と異なり,人間は言語モデルに匹敵する語彙を持つ以外にも,文脈から 文章を類推することが可能である.

そこで単独単語認識であるが,これは言語モデルこそ使えるが,文脈がな く,より高次の知能でこれを補うことができない.したがって単独単語の聞 き取りの方が,より機械認識のパターンに近い認識の仕方を行うことになる.

 また無意味単語では,言語モデルは通用せず,まったく音韻,音素の聞き 取りとなる.ひとつでも音素を聞き違えると,置換誤りとして単語認識精度 を計算した.そのためこのテストが最も厳しい条件のテストとなっている.

図3.29と図3.30にNAMとBTOSの単独単語の単語認識精度をしめす.

意味単語

無意味単語

聴診器型NAMマイクロフォン

ソフトシリコ-ン型NAMマイクロフォン ささやき声(ヘッドセットマイクロフォン)

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

聴診器型NAMマイクロフォン 44.44% 6.94%

ソフトシリコ-ン型NAMマイクロフォン 80.56% 11.11%

ささやき声(ヘッドセットマイクロフォン) 95.83% 47.22%

意味単語 無意味単語

図3.29  NAMの単独単語の単語認識精度

意味単語

無意味単語

聴診器型NAMマイクロフォン

ソフトシリコ-ン型NAMマイクロフォン 通常音声(ヘッドセットマイクロフォン)

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

聴診器型NAMマイクロフォン 65.28% 26.39%

ソフトシリコ-ン型NAMマイクロフォン 94.44% 45.83%

通常音声(ヘッドセットマイクロフォン) 100% 97.22%

意味単語 無意味単語

図3.30  BTOSの単独単語の単語認識精度

 意味単語の場合も,無意味単語場合も 8KHzサンプリングと 16KHzサン プリングにはやはり有意な差が見られなかったため両者をまとめて計算した.

NAMでもBTOSでも,文章や意味単語においては気導音声にかなり接近 したソフトシリコーン型NAMマイクロフォンも,無味単語になると極端に その認識率を落とす.無意味単語ではもともと気導音声のささやき声でさえ,

認識率が50%を切る.これは有声子音と無声子音の判別などが難しいためで あろうと推察される.気導音声でも無意味単語に対しては通常音声とささや き声にこれほど大きな認識率の違いがある.ただこの低さは問題に意図的に 同一単語内で有声子音,無声子音の判別を要する問題を作成したことに起因 しているかもしれない.

ドキュメント内 博士論文表紙 (ページ 93-97)