ASR Performance = function (D value, PESQ, T
60) 4. Calculate NRSR-PA Criteria for Use in Noisy and Reverberant Speech Recognition
Impulse Responses in Training Environments
Noise
[事前準備] インパルス応答,雑音,クリーン音声の計測
雑音・残響下音声認識性能の予測指標を策定するために,事前にインパルス応 答,雑音,クリーン音声を計測する.インパルス応答については,残響時間が 異なる環境において,入出力間距離や発話方位が異なる伝達特性を数十〜数百 箇所で計測する.また雑音は音声認識システムの利用環境に存在する雑音を計 測し,クリーン音声は大規模音声データベースを利用したり,ヘッドセットマ イクなどで話者の音声を近接収録する.
[Step 1] 音声認識評価とPESQ計測用の劣化音声の作成
事前準備で計測した信号から音声認識評価とPESQ計測に用いる劣化音声を 作成する.具体的には,インパルス応答とクリーン音声を畳み込んだ残響信号 に対して雑音を所望のSNRで加算する.
[Step 2] D値,残響時間の算出
事前準備で計測した各インパルス応答に対して式(3.3)に基づいてD値を算 出する.また初期反射音と後続残響の境界時間を表すnは,音声認識性能と D値の最大相関値を示すように設定する必要がある.なお先行研究[80]より
n=20 msが適切な境界時間であることが明らかとなっている.またインパル
ス応答からD値と併せて残響時間を式(2.6)に基づいて算出した残響曲線から 算出する.なお残響時間は同一室内では同じ値をもつため,計測したインパル ス応答の全てから残響時間を算出する必要は無く,数箇所のインパルス応答か ら算出した残響時間の平均を各環境の残響時間とすることが一般的である.
[Step 3] PESQと音声認識性能の計測
Step 1で作成した劣化音声を用いて,PESQと音声認識性能を計測する.なお
て音声認識性能はJulius[45]などの音声認識エンジンを用いて算出する.
[Step 4] 音声認識性能の予測式の算出
雑音・残響下における音声認識性能を予測するために,Step 2とStep 3で計 測したD値,PESQ,音声認識性能に対して残響時間ごとに重回帰分析を行 い,雑音・残響指標NRSR-PAの評価関数を策定する.策定した雑音・残響指 標NRSR-PAを示すREst(xd, xp, T)は,式(4.1)で表現される.
REst(xd, xp, T) = AT ·xd+BT ·xp+CT, (4.1) xdはD値を,xpはPESQを,T は残響時間を,AT, BT, CT は重回帰分析に よって得られた回帰係数を表す.式(4.1)は,D値とPESQの線形和で表現さ れる音声認識性能の予測式が残響時間ごとに構成されることを表している.な お回帰係数の予測方法は,最小二乗法[67]を用いる.
4.3.2 雑音・残響指標 NRSR-PA を用いた音声認識性能予測
4.3.1で策定した雑音・残響指標NRSR-PAを用いた音声認識性能の予測アルゴリ
ズムを図4.5に示す.
[事前準備] インパルス応答,雑音,クリーン音声の計測
雑音・残響下音声認識性能を予測するために,事前に発話者と音声認識システ ム間のインパルス応答と劣化音声を事前に計測する.なお,音声認識性能の予 測にはクリーン音声も併せて必要であるが,本研究では大規模音声データベー スや事前にヘッドセットマイクなどで近接収録した話者音声を利用する.