Source
5.3 評価尺度の設定
10 2 10 3 10 4 0.35
0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75
Frequency [ Hz ]
Reverberation Time [ sec ]
Reverberation Characteristic
図 5.11: データ作成に使用した室の残響特性
また、本研究で提案した残響除去法は、音声認識の残響除去プリプ ロセッサを前提に しているため、信号の位相情報にも依存するSNR ではなく、振幅スペクトルのみに依存 し、位相情報を必要としない SD を用いる方が望ましい。
しかし、式(5.2)で定義されるSDそのものでは、本残響除去法の性能を十分に評価す ることはできない。従って、SDを計算する際の周波数帯域を音声帯域(125Hz〜6kHz) のみと制限し、さらに本研究で提案した残響除去法がフレーム処理を行なっているため、
SD の評価も短時間フレームごとに計算を行なうことにする。以上の改良を加えた SDを 音声帯域セグメンタルSD と名付け、フレームごとに音声帯域SD(SDsp eech) を式(5.3) のように計算する。
SD
speech
= 2
4
1
W
max 0W
min +1
Wmax
X
! =W
min fS
x
(!)0S
y ( !)g
2 3
5 1
2
[ dB ] (5:3)
ここで、Sx(!)、Sy(!) は信号の対数スペクトル、Wmi nは音声帯域の最低周波数(約
125Hz)に対応した周波数領域におけるサンプ ル番号、Wmaxは音声帯域の最高周波数
(約6 kHz)に対応した周波数領域におけるサンプル番号を表している。また、音声帯域 セグ メンタル SD の計算を行なう際には、フレーム長 1024pts(サンプリング周波数 48
kHz で 21.3msec)、フレーム周期 512pts(同様に 10.7msec)とし2、データの切り出 しには窓関数として hamming 窓を利用する。
5.4
実験結果
残響除去実験の結果については、本手法では位相情報を全く考慮していないため、時 間波形について議論することはできない。そこで、残響除去を行なった結果、前節で提案 した音声帯域セグ メンタルSD がどれくらい改善されたかについてのみ考察する。但し、
本研究における音声帯域セグ メンタル SD には、それを計算する際の基準信号としてク リーンな音声を用いているため、スピーカなどの録音再生システムの伝達関数による歪み も含まれていることに注意しなければならない。
そこで、データとして /a/、/bunri/を用いた残響除去実験の結果をそれぞれ図5.12、 図5.13に、クリーンな信号(目的信号)と共に残響除去による音声帯域セグメンタルSD
表 5.2: 音声帯域セグ メンタル SD の音声区間平均改善量 データ 音声区間 平均改善量
/ a/ 14 -27 [frame no.] 3.18[dB]
/ bunri/ 18 -65 [frameno.] 1.29[dB]
の改善量を表示している。そして、音声区間における音声帯域セグメンタルSD の平均改 善量を表 5.2に示している。
次に、残響成分の到来方向の推定結果について、方向推定を行なったフレームごとの信 号の到来方向推定結果と、それを基に各信号ごとに作成した方向推定結果のヒストグラム をデータ /a/、/bunri/の各場合についてそれぞれ図 5.14〜図 5.17に示している。
また、本研究では、信号到来方向の推定結果より作成したヒストグラムの正中面方向
(直接音の到来方向)付近を除いたピークが存在する方向を残響成分の到来方向と定めた。
そこで、/a/、/bunri/の各場合についての残響成分の到来方向の検出結果、すなわち、残
響成分の抽出を行なう際のマイクロホンアレーの焦点を表5.3に示している。なお、残響 成分の左右両端のマイクロホンへの到来時間差については、正中面方向に対して左側が+
方向である。
表 5.3:残響成分の到来方向の検出結果 データ 残響成分の到来方向の検出結果
左右両端のマイクロホンへの到来時間差 到来方向
/ a/ + 6[pts] ( +0.125[msec]) 左 12°
/bunri / + 6[pts]( +0.125[msec]) 左 12°
5 10 15 20 25 30 35 40 45
−5 0 5
Frame Number
Improvement [ dB ]
Improvement of Seg. SD (speech−band)
0 0.1 0.2 0.3 0.4 0.5
−4
−2 0 2 4 x 10 4
Time [ sec ]
Amp.
/ a / − clean speech −
図 5.12: /a/のクリーンな信号(上段)と残響除去の結果(下段)
0 0.2 0.4 0.6 0.8 1
−2
−1 0 1 2 x 10 4
Time [ sec ]
Amp.
/ bunri / − clean speech −
10 20 30 40 50 60 70 80 90
−5 0 5
Frame Number
Improvement [ dB ]
Improvement of Seg. SD (speech−band)
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
−2 0 2 x 10 4
Time [ sec ]
Amplitude
2 4 6 8 10 12 14 16 18 20 22
−20 0 20
Frame
Direction
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
−5 0 5 x 10 4
Time [ sec ]
Amplitude
Clean Signal, Reverberated Signal and Estimated Direction − / a / −
図 5.14: /a/のクリーンな音声(上段)、残響のある音声(中段)、各フレームにおける信
号の到来方向推定結果(下段)
−30 0 −20 −10 0 10 20 30
2 4 6 8 10 12
Direction ( 2*tau [pts] )
Frequency [ times ]
Histogram of Estimated Direction − / a / −
図 5.15:/a/の信号到来方向の推定結果より作成したヒストグラム
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2 0 2 x 10 4
Time [ sec ]
Amplitude
Clean Signal, Reverberated Signal and Estimated Direction − / bunri / −
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−1 0 1 x 10 4
Time [ sec ]
Amplitude
5 10 15 20 25 30 35 40 45
−20 0 20
Frame
Direction
図 5.16: /bunri/のクリーンな音声(上段)、残響のある音声(中段)、各フレームにおけ
る信号の到来方向推定結果(下段)