評価尺度の設定

Source

5.3 評価尺度の設定

10 ² 10 ³ 10 ⁴ 0.35

0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75

Frequency [ Hz ]

Reverberation Time [ sec ]

Reverberation Characteristic

図 ^5.11: データ作成に使用した室の残響特性

また、本研究で提案した残響除去法は、音声認識の残響除去プリプロセッサを前提にしているため、信号の位相情報にも依存する^SNR ではなく、振幅スペクトルのみに依存し、位相情報を必要としない ^SD を用いる方が望ましい。

しかし、式（^5.2）で定義される^SDそのものでは、本残響除去法の性能を十分に評価することはできない。従って、^SDを計算する際の周波数帯域を音声帯域（¹²⁵^Hz〜⁶^kH^z）のみと制限し、さらに本研究で提案した残響除去法がフレーム処理を行なっているため、

SD の評価も短時間フレームごとに計算を行なうことにする。以上の改良を加えた ^SDを音声帯域セグメンタル^SD と名付け、フレームごとに音声帯域^SD（^SD^{sp eech}）を式（^5.³）のように計算する。

speech

= 2

max 0W

min +1

Wmax

! =W

min fS

(!)0S

y ( !)g

2 3

5 1

[ dB ] (5:3)

ここで、^S^x^(!)、^S^y^(!) は信号の対数スペクトル、^W^mi ⁿは音声帯域の最低周波数（約

125Hz）に対応した周波数領域におけるサンプル番号、^W^ma^xは音声帯域の最高周波数

（約⁶ ^kH^z）に対応した周波数領域におけるサンプル番号を表している。また、音声帯域セグメンタル ^SD の計算を行なう際には、フレーム長 ¹⁰²⁴^pts（サンプリング周波数 ⁴⁸

kHz で ^21.^3ms^ec）、フレーム周期 ⁵¹²^pt^s（同様に ^10.^7m^s^e^c）とし²、データの切り出しには窓関数として ^ham^m^ing 窓を利用する。

5.4

実験結果

残響除去実験の結果については、本手法では位相情報を全く考慮していないため、時間波形について議論することはできない。そこで、残響除去を行なった結果、前節で提案した音声帯域セグメンタル^SD がどれくらい改善されたかについてのみ考察する。但し、

本研究における音声帯域セグメンタル ^SD には、それを計算する際の基準信号としてクリーンな音声を用いているため、スピーカなどの録音再生システムの伝達関数による歪みも含まれていることに注意しなければならない。

そこで、データとして ^/a/、^/bunri^/を用いた残響除去実験の結果をそれぞれ図^5.¹²、図^5.¹³に、クリーンな信号（目的信号）と共に残響除去による音声帯域セグメンタル^SD

表 ^5.2: 音声帯域セグメンタル ^SD の音声区間平均改善量データ音声区間平均改善量

/ a/ 14 -27 [frame no.] 3.18[dB]

/ bunri/ 18 -65 [frameno.] 1.29[dB]

の改善量を表示している。そして、音声区間における音声帯域セグメンタル^SD の平均改善量を表 ^5.²に示している。

次に、残響成分の到来方向の推定結果について、方向推定を行なったフレームごとの信号の到来方向推定結果と、それを基に各信号ごとに作成した方向推定結果のヒストグラムをデータ ^/a/、^/b^unrⁱ^/の各場合についてそれぞれ図 ^5.¹⁴〜図 ^5.¹⁷に示している。

また、本研究では、信号到来方向の推定結果より作成したヒストグラムの正中面方向

（直接音の到来方向）付近を除いたピークが存在する方向を残響成分の到来方向と定めた。

そこで、^/a/、^/bunrⁱ^/の各場合についての残響成分の到来方向の検出結果、すなわち、残

響成分の抽出を行なう際のマイクロホンアレーの焦点を表^5.³に示している。なお、残響成分の左右両端のマイクロホンへの到来時間差については、正中面方向に対して左側が＋

方向である。

表 ^5.^3:残響成分の到来方向の検出結果データ残響成分の到来方向の検出結果

左右両端のマイクロホンへの到来時間差到来方向

/ a/ + 6[pts] ( +0.125[msec]) 左 ¹²°

/bunri / + 6[pts]( +0.125[msec]) 左 ¹²°

5 10 15 20 25 30 35 40 45

−5 0 5

Frame Number

Improvement [ dB ]

Improvement of Seg. SD (speech−band)

0 0.1 0.2 0.3 0.4 0.5

−4

−2 0 2 4 x 10 ⁴

Time [ sec ]

Amp.

/ a / − clean speech −

図 ^5.12: ^/a/のクリーンな信号（上段）と残響除去の結果（下段）

0 0.2 0.4 0.6 0.8 1

−2

−1 0 1 2 x 10 ⁴

Time [ sec ]

Amp.

/ bunri / − clean speech −

10 20 30 40 50 60 70 80 90

−5 0 5

Frame Number

Improvement [ dB ]

Improvement of Seg. SD (speech−band)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

−2 0 2 x 10 ⁴

Time [ sec ]

Amplitude

2 4 6 8 10 12 14 16 18 20 22

−20 0 20

Frame

Direction

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

−5 0 5 x 10 ⁴

Time [ sec ]

Amplitude

Clean Signal, Reverberated Signal and Estimated Direction − / a / −

図 ^5.14: ^/a/のクリーンな音声（上段）、残響のある音声（中段）、各フレームにおける信

号の到来方向推定結果（下段）

−30 0 −20 −10 0 10 20 30

2 4 6 8 10 12

Direction ( 2*tau [pts] )

Frequency [ times ]

Histogram of Estimated Direction − / a / −

図 ^5.^15:^/a/の信号到来方向の推定結果より作成したヒストグラム

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−2 0 2 x 10 ⁴

Time [ sec ]

Amplitude

Clean Signal, Reverberated Signal and Estimated Direction − / bunri / −

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−1 0 1 x 10 ⁴

Time [ sec ]

Amplitude

5 10 15 20 25 30 35 40 45

−20 0 20

Frame

Direction

図 ^5.16: ^/bunri/のクリーンな音声（上段）、残響のある音声（中段）、各フレームにおけ

る信号の到来方向推定結果（下段）

−30 0 −20 −10 0 10 20 30

5 10 15 20 25

Direction ( 2*tau [pts] )

Frequency [ times ]

Histogram of Estimated Direction − / bunri / −

ドキュメント内 JAIST Repository (ページ 40-46)

Source

5.3 評価尺度の設定

10 2 10 3 10 4 0.35

0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75

Frequency [ Hz ]

Reverberation Time [ sec ]

Reverberation Characteristic

実験結果

5 10 15 20 25 30 35 40 45

−5 0 5

Frame Number

Improvement [ dB ]

Improvement of Seg. SD (speech−band)

0 0.1 0.2 0.3 0.4 0.5

−4

−2 0 2 4 x 10 4

Time [ sec ]

Amp.

/ a / − clean speech −

0 0.2 0.4 0.6 0.8 1

−2

−1 0 1 2 x 10 4

Time [ sec ]

Amp.

/ bunri / − clean speech −

10 20 30 40 50 60 70 80 90

−5 0 5

Frame Number

Improvement [ dB ]

Improvement of Seg. SD (speech−band)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

−2 0 2 x 10 4

Time [ sec ]

Amplitude

2 4 6 8 10 12 14 16 18 20 22

−20 0 20

Frame

Direction

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

−5 0 5 x 10 4

Time [ sec ]

Amplitude

Clean Signal, Reverberated Signal and Estimated Direction − / a / −

−30 0 −20 −10 0 10 20 30

2 4 6 8 10 12

Direction ( 2*tau [pts] )

Frequency [ times ]

Histogram of Estimated Direction − / a / −

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−2 0 2 x 10 4

Time [ sec ]

Amplitude

Clean Signal, Reverberated Signal and Estimated Direction − / bunri / −

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−1 0 1 x 10 4

Time [ sec ]

Amplitude

5 10 15 20 25 30 35 40 45

−20 0 20

Frame

Direction

−30 0 −20 −10 0 10 20 30

5 10 15 20 25

Direction ( 2*tau [pts] )

Frequency [ times ]

Histogram of Estimated Direction − / bunri / −

10 ² 10 ³ 10 ⁴ 0.35

−2 0 2 4 x 10 ⁴

−1 0 1 2 x 10 ⁴

−2 0 2 x 10 ⁴

−5 0 5 x 10 ⁴

−2 0 2 x 10 ⁴

−1 0 1 x 10 ⁴