評価実験 4 -CENSREC-4 を用いた音声認識性能予測測

Border Time [ms]

3.7. 評価実験 4 -CENSREC-4 を用いた音声認識性能予測測

併せて行った．従来法は表3.3 (C)に示す3つのテスト環境の残響時間を基に，各環境に対する音声認識性能の平均に基づいて音声認識性能を予測した．

3.6.2 実験結果

図3.17∼3.19に各環境の環境クローズテストおよび環境オープンテスト結果を，表 3.5に各テストの標準偏差を示す．高残響環境ではRSR-D₂₀を用いた場合，平均性能予測誤差と標準偏差が従来法と比較して全体的に改善し，高精度に音声認識性能を予測できた．また残響時間のみを用いても十分に予測可能な低残響環境についても，

同程度の予測精度を確認できた．そして環境オープンテストにおいてRSR-D₂₀Qの平均性能予測誤差と標準偏差ともにRSR-D₂₀Lの結果よりも改善でき，高精度な音声認識性能の予測ができた．したがって音声認識性能とD₂₀の関係を2次曲線で近似した残響指標RSR-D20Qが残響下音声認識性能の予測指標として最適であると考えられる．

また本論文では音声認識性能とD値の関係を1次，2次曲線に基づき近似することでRSR-D₂₀を策定したが，さらに3次曲線(y=ax³+b，x：音声認識性能，y：

D値，a, b：係数)を利用した近似も検討した．表3.3 (C)に示す残響時間が異なる

環境でRSR-D20を策定した結果，各環境の相関係数が和室では0.941，会議室では

0.959，階段では0.960となり，RSR-D₂₀LとRSR-D₂₀Qとほぼ同等の性能を達成した．これにより残響指標策定において高次数の曲線で近似する必要はなくRSR-D₂₀L

やRSR-D₂₀Qを用いることで十分な性能が期待できると考えられる．

3.7. ^評価実験 4 -CENSREC-4 を用いた音声認識性能予

0 2 4 6 8 10 12 14 16

2.60 2.50

0.90

3.47

0.92

3.45

ConventionalClose Open

Linear Close Open

Quadratic Close Open

Average Estimation Error [%]

図 3.17 平均予測誤差（(a) 和室(T₆₀=400 ms）)

表 3.5 標準偏差

従来手法 RSR-D20L RSR-D20Q (Linear) (Quadratic) Close Open Close Open Close Open T₆₀=400 ms 3.10 3.26 1.10 3.62 1.13 3.60 T₆₀=650 ms 6.92 7.18 2.46 3.49 2.59 3.14 T₆₀=850 ms 8.80 17.64 2.41 5.35 2.81 5.23

0 2 4 6 8 10 12 14 16

ConventionalClose Open

Linear Close Open

Quadratic Close Open

Average Estimation Error [%]

5.36 6.13

1.98 2.90

2.10 2.62

図 3.18 平均予測誤差（(b) 会議室(T₆₀=600 ms)）

の頑健性を検証する．CENSRECとは，雑音・残響環境下の音声認識タスクの共通評価フレームであり，様々な実環境データや評価ツールが用意されている．ここでは残響環境下音声認識の評価環境として構築されたCENSREC-4[69]を用いて策定した残響尺度の頑健性を検証する．CENSREC-4は残響時間(T₆₀)が異なる環境(全 8環境)のインパルス応答が1系分収録されている．

3.7.1 実験条件

表3.6に示す残響時間が異なる3環境において，音声認識性能推定用の残響指標

RSR-D₂₀Lを策定した．なお指標策定に用いた評価音声として，CENSRECに収録

されている4,004発話の連続数字音声を用いた．そして，策定した音声認識性能を予測するための残響指標の頑健性を表3.7に示すCENSREC-4内の5環境のインパ

0 2 4 6 8 10 12 14 16

ConventionalClose Open

Linear Close Open

Quadratic Close Open

Average Estimation Error [%]

7.34

15.32

1.92

4.85

2.22 4.58

図 3.19 平均予測誤差（(c) 階段(T₆₀=850 ms)）

いた．また従来手法として，前節の評価実験と同様に残響時間のみを用いた音声認識性能の予測法とした．なお，予測環境と同一残響時間の残響指標が学習セットに存在しない場合は，最近傍残響時間の残響指標より音声認識性能の予測を行った．

3.7.2 実験結果

残響指標RSR-D₂₀Lの策定結果を図3.20に，そして策定した残響指標を用いた音

声認識性能の予測結果を表3.8に示す．表3.8には，各推定環境のインパルス応答の D20と音声認識性能の真値も示す．これらの残響指標を用いて性能推定した結果，提案手法の平均推定誤差値が従来手法より小さかったことより，音声認識性能の予測における提案指標の有効性を確認した．これは性能推定に残響時間のみを用いる従来手法では性能推定値が系に関係なく一意に決定する問題点を各系のインパルス応答によって変動するD値を用いることで解消できたためであると考えられる．

しかし，エレベータホールでの予測誤差が約20 %であることから高残響環境下の

表 3.6 残響指標RSR-D₂₀Lの策定条件和室(T60=400 ms，72ヶ所)

環境会議室(T₆₀=600 ms，120ヶ所) 階段(T₆₀=850 ms，120ヶ所) 音声連続数字音声(4,004発話) 計測距離 100〜5,000 mm

話者数 104話者(女性：52名,男性：52名) デコーダー HTK

特徴量 MFCC（12次元）+∆MFCC（12次元）+∆∆MFCC（12次元）+ log Power（1次元）+∆log Power（1次元）+∆∆log Power（1次元）

分析長 25 ms (ハミング窓)

シフト長 10 ms

表 3.7 音声認識性能推定実験条件オフィス(T₆₀=250 ms，1ヶ所)

音声認識和室(T₆₀=400 ms，1ヶ所) 推定環境会議室(T60=650 ms，1ヶ所)

リビング (T₆₀=650 ms，1ヶ所) EVホール (T₆₀=850 ms，1ヶ所) 音声連続数字音声(4,004発話)

話者数 104話者(女性：52名,男性：52名) デコーダー HTK

特徴量 MFCC（12次元）+∆MFCC（12次元）+∆∆MFCC（12次元）+

log Power（1次元）+∆log Power（1次元）+∆∆log Power（1次元）

0 0.2 0.4 0.6 0.8 1

0 20 40 60 80 100

Japanese Style Room Conference Room Elevator Hall Recognition Performance [ % ]

D20

図 3.20 RSR-D₂₀Lの策定結果

性能推定が困難であった．これは同じD値でも音声認識性能が異なる系が多数存在するためであると考えられる．したがって，提案手法は従来手法よりも高精度に推定できたが，更なる予測精度向上のために同じD値でも正確な予測ができる補正指標の検討が今後の研究課題であると考えられる．

ドキュメント内外乱環境における音声認識性能予測に関する研究 (ページ 60-65)

評価実験 4 -CENSREC-4 を用いた音声認識性能予 測 測

Border Time [ms]

3.7. 評価実験 4 -CENSREC-4 を用いた音声認識性能予 測 測

3.6.2 実験結果

3.7. 評価実験 4 -CENSREC-4 を用いた音声認識性能予

3.7.1 実験条件

3.7.2 実験結果

評価実験 4 -CENSREC-4 を用いた音声認識性能予測測

3.7. 評価実験 4 -CENSREC-4 を用いた音声認識性能予測測

3.7. ^評価実験 4 -CENSREC-4 を用いた音声認識性能予