• 検索結果がありません。

評価実験

ドキュメント内 修 士 論 文 (ページ 40-45)

本研究では、提案法の雑音環境下での有効性を評価する実験を行った。4種類の雑音に 対して、提案法における音声認識法とDynamic Time Warp (DTW) [28]における音声認 識法それぞれで単独語彙の音声認識を行った。続いて、それぞれの認識結果を比較した。

本章では、その結果を報告する。

4.1 評価実験の目的

予備実験では、雑音環境下での音声認識精度を向上させるため、ASAのコンセプトに 従い、MRTDとNMFを用いて、音声認識法を実装した。予備実験の結果により、この方 法は目的音と雑音の分離により仮説・検証のプロセスで、入力雑音音声のXN にどの目的 音候補vが存在するのかが判断できた。

本実験では、本研究の音声認識法が雑音への頑健性を持っていることを証明することで ある。本研究における仮説・検証型の音声認識法を用いて、典型的なテンプレート音声認 識法DTWと比較した。今回の認識手法は、まだ時間伸縮などのアルゴリズムが完成して いないため、DTWのDynamic Programing (DP) [29]アルゴリズムを用い、提案法と同 じ条件下で入力目的音を認識する。その結果を提案法における認識結果と比較する。比較 用の音声認識法の実装は、Ellisらのコード [31]を参照した。

4.2 評価実験の条件

本研究ではMRTDとNMFを用いて実装した音声認識法の有効性を検証する。本研究 では、実環境で使用可能の音声認識の第一歩として簡単な状況を仮定した。まず認識用の テンプレートを作成する原音声と入力音声が同一話者、同一発話と仮定する。異なる発話 のスペクトルパラメータに多少の変化がある。しかし、本研究ではそれを無視し、コン セプトの有効性だけに注目した。今後の拡張では、フィードバックの情報により、MRTD でテンプレートを修正する方法を加え、異なる発話の変化を吸収する方法が可能と考えて いる。

本研究の予備実験で、ATRデータベースA [30]の音韻バランス語の中に、4モーラ10単 語を音声認識データとして選び、4種類の雑音環境下で音声認識を行った。その音声デー タが音韻バランス語であるため、各単語のばらつきが大きい。本研究のコンセプトに従う

ことにより、雑音と目的音を分離し、評価することで目的音候補を認識することが容易で ある。このため、本研究の音声認識法を用いて、よい認識率が得られた。

本実験を行うため、音韻バランス語より各単語のばらつきが小さい親密度了解度実験用 データベース(F0W3)[31]を選択した。そのデータベースの中に、話者“fto”が発話した 4モーラ100単語を音声認識データとして選んだ。

雑音データに関して、本研究では4種類の雑音: white noise, pink noise, babble noise,

factory noiseを用いた。雑音は目的音の関係が加法関係であると仮定した。雑音環境は0

dB, 10 dB, 20 dBとクリーンな環境と設定した。本研究においては、クリーンな環境、お

よび12種類の雑音環境、計13種類の環境で認識実験を行った。それぞれの環境下で、100 単語をそれぞれ1回入力する。毎回の入力音声に対し、雑音環境と対応するSNRを計算 し、ランダムに生成した雑音と音声を足し、そのMFCCを計算した。最後に、得られた MFCCを本研究の認識法の入力とした。

本研究の比較実験の全体的なデータフロー図は図4.1である。Comparitionの上には本 研究の音声認識法であり、下にはDTWにおける音声認識法である。本研究ではMRTD を用いて、テンプレート (Template Cv) を表現した。また、MFCCを認識パラメータと して用いた。また、MRTDの有効性を検証するため、原音声のMFCCと表現したMFCC をテンプレートとして用い、予備実験を行った。その結果から、MRTDで表現したテン プレートを用いて、認識プロセスに影響が弱く、十分の有効性をしめした。本実験に、入 力音声XN に存在しうる目的音候補 (Candidates) を決定し、テンプレート (Cv)を選ん だ。NMFの非負性制約をあわせるために、テンプレートのMFCCからパワースペクトル に変換した。入力音声のMFCCも同じくパワースペクトルに変換した。

そして、本研究の音声認識法で目的音を認識するときに仮説を用い、目的音と雑音のパ ワースペクトルをNMFで分離し、分離の結果を評価 (Evaluation) する。すなわち、ア クティベーション行列の対角線付近の重みの分布率が最も高い目的音候補を音声認識の認 識結果(Result of recognition) とする。比較 (Comparition) するため、DTWにおける音 声認識法を実施した。この方法では、提案法と同じように入力 (Input) やテンプレート

(Templates) がMFCCからパワースペクトルに変換した。テンプレートと入力の尤度計

算より (Recognition DTW)、尤度の最も高い単語を認識した。

最後に、それぞれの認識結果とその比較は次の節で述べる。

!"##$%

&'('

!)*(%#+,-#.

&'('

/'*.,.'(#+

Hypothesis vh Template

Cv

Input sound Noise

Speech

Separation NMF

Result of separation Power

spectrum Power

spectrum

MFCC

Input sound Noise

Speech

MFCC Power

spectrum

Recognition DTW Evaluation

Result of recognition

+

+

MFCC

Comparition Result of recognition

!"##$%

&'(' MFCC 0#1"2'(#+ Power

spectrum

図 4.1: 比較実験のデータフロー

4.3 評価実験の結果の考察

提案法における音声認識法の結果とDTWにおける音声認識法の結果をそれぞれ図4.2 と4.3に示した。認識率は:

認識率 = 正しく認識された単語数

入力単語数 ×100%

と定義した。

DTWにおける音声認識法の結果で、雑音環境下で音声認識率が大幅に下がった。特に 0 dBの環境下で、わずか20%の認識率しかない。しかし、本提案法における音声認識法 の結果では、前処理や雑音モデルで雑音環境に適応せずに、0 dBの雑音環境に対しても

約80%の認識率が得られた。

また、処理時間については、本研究ではASAのコンセプトを用い100個の目的音候補 の中から、1つの最適な音声を認識する所用時間は、約20-30分である。一方、羽二生ら 提案法を用いた音声認識法が10個の目的音候補の中から、1つの最適な音声を選択する 所用時間が1日以上である。

図 4.2: DTWにおける音声認識法の結果

図 4.3: 提案法における音声認識法の結果

4.4 まとめ

本研究の提案法は、MRTDとNMFにおける音声認識手法である。この手法はASAの コンセプトに従い、入力する雑音音声の中に含まれる目的音と雑音を分離することによ り、単独語彙を認識することが可能である。

評価実験の結果から、本提案法における音声認識方法は、4種類の雑音に対して頑健性 を示した。さらに、羽二生らの手法に比べて計算上の利点を示した。

ドキュメント内 修 士 論 文 (ページ 40-45)

関連したドキュメント