2.3 音環境バリアフリーと逆フィルタ処理
2.3.2 雑音残響環境での最適化問題
Modulation Frequency (Hz)
Power
0 fm
Eyh(0) = Ex(0)
Ex(0) 2
Eyh(fm) < Ex(0) 2
図 2.9: 原信号と残響信号の変調スペクトルの関係.
Eh(fm)とEN(fm)はmR(fm)とmN(fm)を通して求められることから,TRとSN R をパラメータとして求まることがわかる.このような変調スペクトル上での特徴 を利用した規範を用いた逆フィルタ処理による最適化問題を次で述べる.
Modulation Frequency (Hz)
Power
0 fm
Ex(0)
Ex(0) 2
Ey(fm) < Ex(0) 2 Ey(0) > Ex(0)
Ex(0) ∗
∗
図 2.10: 原信号と雑音残響信号の変調スペクトルの関係.
響時間,回復パワーエンベロープ,音声区間を逆フィルタ処理によってまとめて得 られるということを意味する.
ここでは,推定されたパラメータ( 推定されたSNR SN R,推定された残響時ˆ 間 TˆR,検出された音声区間SˆV AD)を変数としてMTFに基づく逆フィルタ処理 により,回復パワーエンベロープeˆ2x(t)が求まる.
ˆ
e2x(t) = IMTF [
e2y(t; ˆSV AD(t)),SN R,ˆ TˆR ]
. (2.38)
ここで,IMTF[·]はMTFに基づく逆フィルタ処理であり,SˆV ADは音声区間の場
合 1,非音声区間の場合 0の値を持つ.
最適化についての詳細を述べる.回復パワーエンベロープˆe2x(t),任意のパワー エンベロープ ˜e2x(t)をFourier変換した変調スペクトルをEˆx,E˜x(fm)と表現する.
MTFに基づく逆フィルタ処理は,次式のようになる.
IMTF[·] = Ey(fm; ˆSV AD(t))
Eh(fm; ˆTR)EN(fm;SN R)ˆ . (2.39) ここで,変調スペクトル上での逆フィルタ処理について述べる.雑音除去は,次
式のように雑音に関する伝達関数EN(fm)の逆フィルタで回復した変調スペクト ルが得られる.
Eˆx(fm) = Eyn(fm)
EN(fm), (2.40)
= Eyn(fm)
(Eyn(fm)−En(fm) Eyn(fm)
)
. (2.41)
このように,EN(fm)がWiener filterになっていることがわかる.そして次式の逆 フィルタにより回復できることがわかる.
Eˆx(fm) = Eyn(fm)
G(0)·mN(0) (2.42)
次に,残響除去は次式のようにRIRに関する伝達関数Eh(fm)の逆フィルタ処理 で求まる.
Eˆx(fm) = Eyh(fm)
Eh(fm). (2.43)
最後に雑音残響環境について考える.この時の雑音残響信号の変調スペクトル Ey(fm)と回復変調スペクトルEˆx(fm)は,次式で表現される.
Ey(fm) = Ex(fm)·Eh(fm)·EN(fm), (2.44) Eˆx(fm) = Ey(fm)
Eh(fm)EN(fm) (2.45)
このように,雑音・RIRに関する伝達関数の逆フィルタ処理により回復変調スペ クトルが得られる.わかりやすくするために音声区間SV ADについての記述を省 略したが,これらの処理は,SV ADが1の音声区間について行われる必要がある.
IMTFによる回復処理は,次式のようなSNR, 残響時間, 音声区間をパラメー タとして変調スペクトル上で100 %変調となるように最適化することを意味して いる.
Eˆx (
fm;SN R,ˆ TˆR,SˆV AD(t) )
= arg min
SN Rmin≤SN R≤SN Rmax
0≤TR≤TR,max
0≤SV AD(t)≤1
{ M SR
(E˜x(fm;SN R, TR, SV AD(t)) )}
, (2.46)
ここで,M SR
(E˜x(fm;SN R, TR, SV AD(t)) )
は,SN R,TR,SV AD(t)の時の任意の 変調スペクトルE˜x(fm)の変調周波数fmでの誤差である.このように,誤差最小
にすることでSNR, RT,音声区間と回復変調スペクトル( 逆Fourier変換による回 復パワーエンベロープ )をまとめて得ることができる.誤差はRMS (Root Mean
Square)を用いて次式により求まる.
M SR
(E˜x(fm;SN R, TR, SV AD(t)) )
= vu ut(
E˜x(0;SN R, TR, SV AD(t))
2 −E˜x(fm;SN R, TR, SV AD(t)) )2
. (2.47) 原信号の変調スペクトルは,Ex(0)/2 = Ex(fm)という関係が成り立つ.一方で,残 響信号の変調スペクトルEyh(fm)では,Ex(0) =Eyh(0)とEx(fm)> Eyh(fm)とい う関係,雑音の変調スペクトルEyn(fm)では,Ex(0) < Eyn(0)とEx(fm) = Eyn(fm) という関係が成り立つ.そこで,任意のE˜x(fm)のTRとSN Rを変化させ,変調度 1のE˜x(0)/2 = /E˜x(fm)が成り立つ時に誤差が0となるように設定した.式(2.46) において各パラメータの値を変えることでE˜x(fm;SN R.TR, SV AD(t))が求まる.
一方,パラメータは,VADにおける誤差を最適化することで推定することがで き,次式のように表現される.
{SN R,ˆ TˆR,SˆV AD(t) }
= arg min
SN Rmin≤SN R≤SN Rmax
0≤TR≤TR,max
{V AD(SN R, TR, SV AD(t))},
(2.48) 推定されたVADの誤差が0になるように,SN RとTRを最適化して回復されたパ ワーエンベロープ ˜e2x(t)を得ることで,これらのパラメータをまとめて得られる.
ここで,VADの誤差V ADは次式のようになる.
V AD (
SN R, TR,S˜V AD(t) )
=
√(F AR2+F RR2
2 −E˜x(fm;SN R, TR, SV AD(t)) )2
. (2.49)
表記の関係上,上式では省略して記述したが,F AR2はF AR2( ˜SV AD(t;B,e˜2x(t;SN R, TR))),
F RR2はF RR2( ˜SV AD(t;B,˜e2x(t;SN R, TR)))である.Bはパワー閾値である.誤
受理率 F ARと誤棄却率F RRは次式のようになる.
F AR( ˜SV AD(t;B,e˜2x(t;SN R, TR)))
= NF A
(S˜V AD(t;B,e˜2x(t;SN R, TR)) )
Nns(SV AD(t;e2x(t))) ×100, (2.50) F RR( ˜SV AD(t;B,˜e2x(t;SN R, TR)))
= NF R
(S˜V AD(t;B,e˜2x(t;SN R, TR)) )
Ns(SV AD(t;e2x(t))) ×100. (2.51) NF Aは音声として判別された非音声信号の時間,NF Rは非音声として判別された 音声信号の時間,Nnsは非音声としての信号時間,Nsは音声としての信号時間で あり,次式で示される.
NF A
(S˜V AD(t;B,e˜2x(t;SN R, TR)) )
=
∫ T 0
(S˜V AD(
t;B,˜e2x(t;SN R, TR))
−SV AD(t;e2x(t)) )
dt, (2.52) NF R
(S˜V AD(t;B,e˜2x(t;SN R, TR)) )
=
∫ T
0
(
SV AD(t;e2x(t))−S˜V AD(
t;B,˜e2x(t;SN R, TR)))
dt, (2.53) Nns(
SV AD(t;e2x(t)))
=
∫ T 0
SV AD(t;e2x(t))dt, (2.54)
Ns(
SV AD(t;e2x(t)))
=
∫ T 0
(1−SV AD(t;e2x(t)))
dt. (2.55)
そして,SV AD(t;e2x(t))は正解音声区間,S˜V AD(t;B,e˜2x(t;SN R, TR))は次のように パワー閾値Bにより求めることができ,1か0の値を取る.
S˜V AD(
t;B,˜e2x(t;SN R, TR))
=
1 (˜e2x(t;SN R, TR)>0) 0 (˜e2x(t;SN R, TR) = 0)
(2.56)
このような音声信号処理では,変調度1に基づく逆フィルタ処理を用いて,SN R, TR, SV ADを最適化することで,回復パワーエンベロープと各パラメータをまとめ て得られることがわかる.