評価実験

本研究では、提案法の雑音環境下での有効性を評価する実験を行った。4種類の雑音に対して、提案法における音声認識法とDynamic Time Warp (DTW) [28]における音声認識法それぞれで単独語彙の音声認識を行った。続いて、それぞれの認識結果を比較した。

本章では、その結果を報告する。

4.1 評価実験の目的

予備実験では、雑音環境下での音声認識精度を向上させるため、ASAのコンセプトに従い、MRTDとNMFを用いて、音声認識法を実装した。予備実験の結果により、この方法は目的音と雑音の分離により仮説・検証のプロセスで、入力雑音音声のX_N にどの目的音候補vが存在するのかが判断できた。

本実験では、本研究の音声認識法が雑音への頑健性を持っていることを証明することである。本研究における仮説・検証型の音声認識法を用いて、典型的なテンプレート音声認識法DTWと比較した。今回の認識手法は、まだ時間伸縮などのアルゴリズムが完成していないため、DTWのDynamic Programing (DP) [29]アルゴリズムを用い、提案法と同じ条件下で入力目的音を認識する。その結果を提案法における認識結果と比較する。比較用の音声認識法の実装は、Ellisらのコード [31]を参照した。

4.2 評価実験の条件

本研究ではMRTDとNMFを用いて実装した音声認識法の有効性を検証する。本研究では、実環境で使用可能の音声認識の第一歩として簡単な状況を仮定した。まず認識用のテンプレートを作成する原音声と入力音声が同一話者、同一発話と仮定する。異なる発話のスペクトルパラメータに多少の変化がある。しかし、本研究ではそれを無視し、コンセプトの有効性だけに注目した。今後の拡張では、フィードバックの情報により、MRTD でテンプレートを修正する方法を加え、異なる発話の変化を吸収する方法が可能と考えている。

本研究の予備実験で、ATRデータベースA [30]の音韻バランス語の中に、4モーラ10単語を音声認識データとして選び、4種類の雑音環境下で音声認識を行った。その音声データが音韻バランス語であるため、各単語のばらつきが大きい。本研究のコンセプトに従う

ことにより、雑音と目的音を分離し、評価することで目的音候補を認識することが容易である。このため、本研究の音声認識法を用いて、よい認識率が得られた。

本実験を行うため、音韻バランス語より各単語のばらつきが小さい親密度了解度実験用データベース（F0W3）[31]を選択した。そのデータベースの中に、話者“fto”が発話した 4モーラ100単語を音声認識データとして選んだ。

雑音データに関して、本研究では4種類の雑音: white noise, pink noise, babble noise,

factory noiseを用いた。雑音は目的音の関係が加法関係であると仮定した。雑音環境は0

dB, 10 dB, 20 dBとクリーンな環境と設定した。本研究においては、クリーンな環境、お

よび12種類の雑音環境、計13種類の環境で認識実験を行った。それぞれの環境下で、100 単語をそれぞれ1回入力する。毎回の入力音声に対し、雑音環境と対応するSNRを計算し、ランダムに生成した雑音と音声を足し、そのMFCCを計算した。最後に、得られた MFCCを本研究の認識法の入力とした。

本研究の比較実験の全体的なデータフロー図は図4.1である。Comparitionの上には本研究の音声認識法であり、下にはDTWにおける音声認識法である。本研究ではMRTD を用いて、テンプレート (Template C_v) を表現した。また、MFCCを認識パラメータとして用いた。また、MRTDの有効性を検証するため、原音声のMFCCと表現したMFCC をテンプレートとして用い、予備実験を行った。その結果から、MRTDで表現したテンプレートを用いて、認識プロセスに影響が弱く、十分の有効性をしめした。本実験に、入力音声XN に存在しうる目的音候補 (Candidates) を決定し、テンプレート (Cv)を選んだ。NMFの非負性制約をあわせるために、テンプレートのMFCCからパワースペクトルに変換した。入力音声のMFCCも同じくパワースペクトルに変換した。

そして、本研究の音声認識法で目的音を認識するときに仮説を用い、目的音と雑音のパワースペクトルをNMFで分離し、分離の結果を評価 (Evaluation) する。すなわち、アクティベーション行列の対角線付近の重みの分布率が最も高い目的音候補を音声認識の認識結果(Result of recognition) とする。比較 (Comparition) するため、DTWにおける音声認識法を実施した。この方法では、提案法と同じように入力 (Input) やテンプレート

(Templates) がMFCCからパワースペクトルに変換した。テンプレートと入力の尤度計

算より (Recognition DTW)、尤度の最も高い単語を認識した。

最後に、それぞれの認識結果とその比較は次の節で述べる。

!"##$%

&'('

!)*(%#+,-#.

&'('

/'*.,.'(#+

Hypothesis v_h Template

C_v

Input sound Noise

Speech

Separation NMF

Result of separation Power

spectrum Power

spectrum

MFCC

Input sound Noise

Speech

MFCC Power

spectrum

Recognition DTW Evaluation

Result of recognition

+

^MFCC

Comparition Result of recognition

!"##$%

&'(' MFCC 0#1"2'(#+ Power

spectrum

図 4.1: 比較実験のデータフロー

4.3 _{評価実験の結果の考察}

提案法における音声認識法の結果とDTWにおける音声認識法の結果をそれぞれ図4.2 と4.3に示した。認識率は：

認識率 = 正しく認識された単語数

入力単語数 ×100%

と定義した。

DTWにおける音声認識法の結果で、雑音環境下で音声認識率が大幅に下がった。特に 0 dBの環境下で、わずか20%の認識率しかない。しかし、本提案法における音声認識法の結果では、前処理や雑音モデルで雑音環境に適応せずに、0 dBの雑音環境に対しても

約80%の認識率が得られた。

また、処理時間については、本研究ではASAのコンセプトを用い100個の目的音候補の中から、1つの最適な音声を認識する所用時間は、約20-30分である。一方、羽二生ら提案法を用いた音声認識法が10個の目的音候補の中から、1つの最適な音声を選択する所用時間が1日以上である。

図 4.2: DTWにおける音声認識法の結果

図 4.3: 提案法における音声認識法の結果

4.4 まとめ

本研究の提案法は、MRTDとNMFにおける音声認識手法である。この手法はASAのコンセプトに従い、入力する雑音音声の中に含まれる目的音と雑音を分離することにより、単独語彙を認識することが可能である。

評価実験の結果から、本提案法における音声認識方法は、4種類の雑音に対して頑健性を示した。さらに、羽二生らの手法に比べて計算上の利点を示した。

ドキュメント内修士論文 (ページ 40-45)

4.1 評価実験の目的

4.2 評価実験の条件

+

+

4.3 評価実験の結果の考察

4.4 まとめ

4.3 _{評価実験の結果の考察}