音声認識実験による有効性検証 - AA AAAA

AA AAAA

5.2 音声認識実験による有効性検証

5.1

はじめに

本章では、雑音除去の応用例として自動音声認識器^(Automatic^SpeechRecognizer;ASR)

を想定し、提案法の ^ASR のフロントエンドとしての有効性を検証する。

検証実験は、^ASR に雑音除去アルゴリズムを実装し、フィールドテストによる性能評価を行なうことも可能である。しかし、これは評価を行なう度に莫大なコストを要し、評価結果が認識アルゴリズム、実験に用いるデータへ大きく依存する危険もある。より効率的かつ定量的に評価を行なうためには、客観的な歪み評価尺度の使用が望ましい。本章では、

まず簡単な音声認識実験を行ない、次に雑音除去アルゴリズムの ^ASR のフロントエンドとしての有効性を評価するために相応しい客観的歪み評価尺度を定義する。客観評価尺度による評価結果と、先に行なった認識実験の結果とを比較し、客観評価尺度の妥当性を検証する。

そして、客観的歪み評価尺度を用い、提案法の ^ASR のフロントエンドとしての有効性を調査する。本章では提案法の評価として、非定常雑音に対する従来法との性能比較、定常雑音に対する遅延和アレーと提案法との性能比較を行ない、提案法の優位性について多角的に検討する。

HMM の学習に用いたデータは、^ATR音声データベース^[54] に収録されている男性話者 ^mht 発話の重要語 ⁵²⁴⁰ 単語から抜粋した ¹⁰⁴⁸ 単語のクリーンな音声とする。テストデータは、同データベースに収録されている同話者発話の音韻バランス ²¹⁶ 単語に、計算機上で ¹²⁵ ^Hz{6 ^kHz の定常的なランダム帯域雑音を付加した音声、あるいはそれに対して雑音除去を行なった音声とする。

雑音除去アルゴリズムとしては、提案法と、目的信号である音声の到来方向を既知と最適化した ³ ^ch遅延和アレーとを用いる。

実験結果：

各 ^SNR の雑音付加音声、それに対して遅延和アレーあるいは提案法により雑音除去を行なった音声のそれぞれに対する音韻認識率を図^5.1、誤認識率を図^5.2 に示す。なお、クリーンな音声に対する認識率は^84.6 ^% であった。

考察：

提案法は、音声の歪みの程度 ^(SNR値⁾に関わらず、雑音の影響により低下した認識率を大幅に向上させることが可能であることがわかる。同一マイクロホン配置の遅延和アレーとの比較においては、提案法の方が圧倒的に雑音除去能力が高く、その差は非常に大きい。

誤認識率を示した図^5.2 より、雑音除去前と比較し、遅延和アレーでは誤認識率を高々^5%

程度しか低減できていないが、提案法では誤認識率を最大で約^20% も低減できている。これは、目的音源と雑音源とが移動せず、遅延和アレーは信号到来方向を既知と最適化した場合の実験結果である。遅延和アレーで方向を自動推定する場合、特に音源が移動する状況においては、提案法と遅延和アレーとの雑音除去能力の差はより大きくなると考えられる。

20 15 10 5 0 0

20 40 60 80 100

Recognition Rate [%]

SNR [dB]

No processed Delay−and−Sum Proposed method

図 ^5.1: 音韻認識実験結果 ⁽雑音除去付加音声、遅延和アレーによる雑音除去音声、提案法による雑音除去音声⁾

20 15 10 5 0

0 5 10 15 20 25 30 35

Error Rate [point]

SNR [dB]

No processed Delay−and−Sum Proposed method

図^5.2: 雑音の影響による誤認識率⁽雑音除去付加音声、遅延和アレーによる雑音除去音声、

提案法による雑音除去音声⁾

ドキュメント内 JAIST Repository (ページ 64-67)