• 検索結果がありません。

評価尺度の設定

ドキュメント内 JAIST Repository (ページ 40-46)

Source

5.3 評価尺度の設定

10 2 10 3 10 4 0.35

0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75

Frequency [ Hz ]

Reverberation Time [ sec ]

Reverberation Characteristic

5.11: データ作成に使用した室の残響特性

また、本研究で提案した残響除去法は、音声認識の残響除去プリプ ロセッサを前提に しているため、信号の位相情報にも依存するSNR ではなく、振幅スペクトルのみに依存 し、位相情報を必要としない SD を用いる方が望ましい。

しかし、式(5.2)で定義されるSDそのものでは、本残響除去法の性能を十分に評価す ることはできない。従って、SDを計算する際の周波数帯域を音声帯域(125Hz6kHz) のみと制限し、さらに本研究で提案した残響除去法がフレーム処理を行なっているため、

SD の評価も短時間フレームごとに計算を行なうことにする。以上の改良を加えた SDを 音声帯域セグメンタルSD と名付け、フレームごとに音声帯域SDSDsp eech) を式(5.3) のように計算する。

SD

speech

= 2

4

1

W

max 0W

min +1

Wmax

X

! =W

min fS

x

(!)0S

y ( !)g

2 3

5 1

2

[ dB ] (5:3)

ここで、Sx(!)Sy(!) は信号の対数スペクトル、Wmi nは音声帯域の最低周波数(約

125Hz)に対応した周波数領域におけるサンプ ル番号、Wmaxは音声帯域の最高周波数

(約6 kHz)に対応した周波数領域におけるサンプル番号を表している。また、音声帯域 セグ メンタル SD の計算を行なう際には、フレーム長 1024pts(サンプリング周波数 48

kHz で 21.3msec)、フレーム周期 512pts(同様に 10.7msec)とし2、データの切り出 しには窓関数として hamming 窓を利用する。

5.4

実験結果

残響除去実験の結果については、本手法では位相情報を全く考慮していないため、時 間波形について議論することはできない。そこで、残響除去を行なった結果、前節で提案 した音声帯域セグ メンタルSD がどれくらい改善されたかについてのみ考察する。但し、

本研究における音声帯域セグ メンタル SD には、それを計算する際の基準信号としてク リーンな音声を用いているため、スピーカなどの録音再生システムの伝達関数による歪み も含まれていることに注意しなければならない。

そこで、データとして /a//bunri/を用いた残響除去実験の結果をそれぞれ図5.12、 図5.13に、クリーンな信号(目的信号)と共に残響除去による音声帯域セグメンタルSD

5.2: 音声帯域セグ メンタル SD の音声区間平均改善量 データ 音声区間 平均改善量

/ a/ 14 -27 [frame no.] 3.18[dB]

/ bunri/ 18 -65 [frameno.] 1.29[dB]

の改善量を表示している。そして、音声区間における音声帯域セグメンタルSD の平均改 善量を表 5.2に示している。

次に、残響成分の到来方向の推定結果について、方向推定を行なったフレームごとの信 号の到来方向推定結果と、それを基に各信号ごとに作成した方向推定結果のヒストグラム をデータ /a//bunri/の各場合についてそれぞれ図 5.14〜図 5.17に示している。

また、本研究では、信号到来方向の推定結果より作成したヒストグラムの正中面方向

(直接音の到来方向)付近を除いたピークが存在する方向を残響成分の到来方向と定めた。

そこで、/a//bunri/の各場合についての残響成分の到来方向の検出結果、すなわち、残

響成分の抽出を行なう際のマイクロホンアレーの焦点を表5.3に示している。なお、残響 成分の左右両端のマイクロホンへの到来時間差については、正中面方向に対して左側が+

方向である。

5.3:残響成分の到来方向の検出結果 データ 残響成分の到来方向の検出結果

左右両端のマイクロホンへの到来時間差 到来方向

/ a/ + 6[pts] ( +0.125[msec]) 左 12°

/bunri / + 6[pts]( +0.125[msec]) 左 12°

5 10 15 20 25 30 35 40 45

−5 0 5

Frame Number

Improvement [ dB ]

Improvement of Seg. SD (speech−band)

0 0.1 0.2 0.3 0.4 0.5

−4

−2 0 2 4 x 10 4

Time [ sec ]

Amp.

/ a / − clean speech −

5.12: /a/のクリーンな信号(上段)と残響除去の結果(下段)

0 0.2 0.4 0.6 0.8 1

−2

−1 0 1 2 x 10 4

Time [ sec ]

Amp.

/ bunri / − clean speech −

10 20 30 40 50 60 70 80 90

−5 0 5

Frame Number

Improvement [ dB ]

Improvement of Seg. SD (speech−band)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

−2 0 2 x 10 4

Time [ sec ]

Amplitude

2 4 6 8 10 12 14 16 18 20 22

−20 0 20

Frame

Direction

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

−5 0 5 x 10 4

Time [ sec ]

Amplitude

Clean Signal, Reverberated Signal and Estimated Direction − / a / −

5.14: /a/のクリーンな音声(上段)、残響のある音声(中段)、各フレームにおける信

号の到来方向推定結果(下段)

−30 0 −20 −10 0 10 20 30

2 4 6 8 10 12

Direction ( 2*tau [pts] )

Frequency [ times ]

Histogram of Estimated Direction − / a / −

5.15:/a/の信号到来方向の推定結果より作成したヒストグラム

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−2 0 2 x 10 4

Time [ sec ]

Amplitude

Clean Signal, Reverberated Signal and Estimated Direction − / bunri / −

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−1 0 1 x 10 4

Time [ sec ]

Amplitude

5 10 15 20 25 30 35 40 45

−20 0 20

Frame

Direction

5.16: /bunri/のクリーンな音声(上段)、残響のある音声(中段)、各フレームにおけ

る信号の到来方向推定結果(下段)

−30 0 −20 −10 0 10 20 30

5 10 15 20 25

Direction ( 2*tau [pts] )

Frequency [ times ]

Histogram of Estimated Direction − / bunri / −

ドキュメント内 JAIST Repository (ページ 40-46)

関連したドキュメント