第 4 章 正方形マイクロホンアレイを用いた拡散性雑音抑圧 37
4.1.2 空間フィルタ群の出力を利用した multi-channel 型 Wiener filter 40
空間フィルタ群の出力を利用したmulti-channel型Wiener filteringについて述 べる.ここでは雑音の学習が必要無く,複数のマイクロホンの情報を活用できる 点からmulti-channel型のWiener filteringを用いる.2章で述べたようにZelinski は,マイクロホン間の拡散性雑音成分は無相関であると仮定して,以下のような Wiener filterを設計した [21].
Wm(ω, k) =
2 N(N−1)
PN−1 i=1
PN
j=i+1[Re{Xi(ω, k)Xj∗(ω, k)}]
1 N
PN
i=1[Xi(ω, k)Xi∗(ω, k)] (4.5) マイク間隔が十分に大きい場合,この手法は拡散性雑音抑圧の効果を発揮するが,
マイク間隔が小さい場合は性能が劣化してしまう.無指向性のマイクロホンで観 測した拡散性雑音のコヒーレンス関数は以下の式で表せる.
γxy(ω) = sin ( ωd/c )
ωd/c (4.6)
図4.3に4 cm間隔の無指向性マイクロホン対で観測された,拡散性雑音の
magnitude-squared coherence (MSC)の理論値を示す.これより,無指向性マイクロホンの入
力信号をそのまま用いた場合,低周波数帯域において,拡散性雑音でも高い相関 をもってしまうことがわかる.それに対し提案手法では,無指向性マイクロホン の入力信号を用いてWiener filterを設計するのでは無く,空間フィルタ群の出力 を用いる.互いに180°反対の方向に,指向性を向けた指向性マイクロホンに入力 された拡散性雑音のMSCは,無指向性の場合と比べて低くなることが知られてい
る [27].提案手法ではこの知見を積極的に活用する.指向性のマイクロホンで観
測した拡散性雑音のコヒーレンス関数は以下の式で表せる.
γxy(ω) = 3
4 [ sin( ωd/c )
ωd/c + ( x1x2+y1y2 )·( sin( ωd/c )
(ωd/c )3 − cos( ωd/c ) ( ωd/c )2 )
Frequency [Hz]
M S C
omnidirectional spatial filter outputs
図 4.3 無指向性マイクロホンを用いた場合と空間フィルタの出力を用いた場合の 拡散性雑音のmagnitude-squared coherence (MSC)の理論値 (マイク間隔4 cm).
+ z1z2( sin( ωd/c )
ωd/c +2 cos( ωd/c )
( ωd/c )2 −2 sin( ωd/c ) ( ωd/c )3 ) + j( z1+z2 )( cos( ωd/c )
ωd/c −sin( ωd/c)
(ωd/c )2 ) ] (4.7) ここで,( x1, y1, z1 ),( x2, y2, z2 )はそれぞれ指向性マイクロホンの指向性を 向けたベクトルの成分である.なお,無指向性マイクロホン,指向性マイクロホ ンを用いた場合のコヒーレンス関数の導出は付録Aに示す.形成した4個の空間 フィルタの出力Bi(ω, k)から,180°反対の方向に指向性を向けたものを選択し,
以下のようにWiener filterを設計する.
Hm(ω, k) =
1 2
P[Re{Bp(ω, k)Bq∗(ω, k)}]
1 4
P[Br(ω, k)Br∗(ω, k)] (4.8) ここで,添字p,q,rは(p, q) ={(1,2),(3,4)},r={1,2,3,4}のように選択され る.図4.3に180°反対の方向に指向性を向けた空間フィルタの出力中に含まれる,
拡散性雑音のMSCの理論値を示す.無指向性マイクロホンの場合と比べ,大き
42 第4章 正方形マイクロホンアレイを用いた拡散性雑音抑圧 くMSCが低減していることがわかる.これによって拡散性雑音の無相関性の仮定 がより正確になり,雑音抑圧効果の高いWiener filterを設計できることが期待さ れる.
空間フィルタ群の出力の振幅を平均化した|Bsum(ω, k)|と,空間フィルタ群の出 力を用いて算出されたmulti-channel型のWiener filterを用いて,拡散性雑音が抑 圧された目的音声の推定スペクトルを得る.
|Sm0 (ω, k)|=Hm(ω, k)· |Bsum(ω, k)| (4.9)
|Bsum(ω, k)|= |B1(ω, k)|+|B2(ω, k)|+|B3(ω, k)|+|B4(ω, k)|
4 (4.10)
なお,|Sm0 (ω, k)|は空間フィルタの出力であるため,目的音声の到来方向に対して,
周波数領域で均一な利得を得ていない.このことから生じる,周波数領域上の歪 みを3章で述べたものと同様に,以下のように補正し,周波数領域上の歪みを含 まない目的音声の推定スペクトル|Sˆm(ω, k)|を得る.
|Sˆm(ω, k)| = |Sm0 (ω, k)|
p2(1−cos(ω·τ)) (4.11)
4.1.3 single-channel 型 Wiener filter による残留ノイズ除去
図4.3に示したように,空間フィルタ群の出力を用いてmulti-channel型のWiener
filterを設計した場合でも,拡散性雑音のMSCは全周波数帯域で0になるわけでは
無い.これはつまり,拡散性雑音をmulti-channel型のWiener filterで全て抑圧で きるわけでは無く,|Sˆm(ω, k)|に残留ノイズが存在することを意味する.しかし,
|Sˆm(ω, k)|中の残留ノイズ成分は,前段のmulti-channel 型Wiener filteringによっ てパワーは小さくかつ,定常的であると考えられる.そこで,|Sˆm(ω, k)|を入力と みなしたsingle-channel型のWiener filterを適用することで,残留ノイズ成分を除 去することを試みる.single-channel型のWiener filterは,発話が存在しない区間 にてノイズ成分の推定を行う必要があり,以下のように残留ノイズ成分のパワー
スペクトルを更新する.
|Nˆm(ω, k)|2 =λ(k)|Sˆm(ω, k)|2+ (1−λ(k))|Nˆm(ω, k−1)|2 (4.12)
|Nˆm(ω, k)|2は残留ノイズのパワースペクトルの推定値,λ(k)は更新パラメーターで あり単時間フレーム毎に算出され,multi-channel型のWiener filterHm(ω, k)の値 に基づいて決定される.まず,Hm(ω, k)の値を対象とする周波数領域で平均化する ことで,その短時間フレームでの音声の存在確率であるspeech presence probability (SPP) SPP(k)を算出する.
SPP(k) = 1 Ω
XΩ ω=1
Hm(ω, k) (4.13)
ここで,Ωは分析対象周波数binの最大インデックスである.このようにして算 出されたSPPは,例えば,音声が存在する場合は,マイク間での相関が高いため multi-channel型のWiener filterの値Hm(ω, k)が高くなり,その結果SPPは高くな り,逆に非発話区間では,拡散性雑音の相関は低いためmulti-channel型のWiener filterの値Hm(ω, k)は低くなり,結果SPPも低くなるというような振るまいをと る.SPPを用いて,以下のようにその短時間フレームでの雑音更新パラメーター λ(k)を更新する.
λ(k) =
λmax , SPP(k) < SPPmin
0 , SPPmin + ∆ < SPP(k)
−λmax∆ SPP(k) + λmax∆ (SPPmin+ ∆), otherwise
(4.14) ここで,λmaxは更新パラメーターλ(k)の最大値,SPPminは完全にそのフレーム が非発話区間であると判定するSPP(k)の下限値,∆は完全な発話区間と完全な 非発話区間の判別のためのSPPの幅を決定する値をそれぞれ表す.実際に拡散性 雑音が重畳された音声に対して,上述した式で算出したSPPと雑音更新パラメー ターλ(k)の値を図4.4に示す.ここで,目的音声は正方形マイクロホンアレイに向 かって発話された音声,拡散性雑音は屋外の道路上で正方形マイクロホンアレイを
44 第4章 正方形マイクロホンアレイを用いた拡散性雑音抑圧
sample point
frame
SPP
frame
λ
(a)
(b)
(c)
SPPmin
図 4.4 音声存在確率 SPPと雑音更新パラメーター λの振るまい. : (a) マイク ロホン観測信号(SNR = 10 dB) (b) SPP (c) 雑音更新パラメーターλ
用いて収録した雑音であり,SNRが10 dBとなるように重畳した.また,λmaxは 0.04,∆は0.1,SPPminは,図4.3に示したMSCの平均値を用いた.この図より,
まずSPPが非発話区間では低い値をとり,逆に発話区間では高い値をとっている 様子がわかる.さらにそれを雑音更新パラメーターλ(k)の算出に利用することで,
非発話区間ではλ(k)の最大値λmaxで更新を行い,発話区間ではλ(k)が0となり 雑音更新をしていない様子が確認できる.このようにして,前段のmulti-channel
型Wiener filterの値を利用することで,別途発話区間の推定をすることなく,推
定雑音成分を更新することが可能となり,single-channel型Wiener filterの適用を 可能とする.
得られた残留ノイズ成分を用いて,single-channel型のWiener filterを設計する.
Hs(ω, k) = SNRpriori(ω, k)
SNRpriori(ω, k) + 1 (4.15)
ここで,SNRprioriはa priori SNRであり,以下のように定義される.
SNRpriori(ω, k) = E[|S(ω, k)|2]
E[|Nm(ω, k)|2] (4.16) E[·]は期待値を表す.a priori SNRは,Plapousらによるtwo-step noise reduction
(TSNR)法を用いて推定することができる[19].これによって最終的な目的音声の
推定スペクトルを得る.
|S(ω, k)ˆ |=Hs(ω, k)· |Sˆm(ω, k)| (4.17) このようにして推定された,目的音声のスペクトルを時間領域での音声として復 元するためには,位相情報が必要であり,例えば入力信号の位相情報を用いて,推 定目的音声s(t)ˆ を得る.