空間フィルタ群の出力を利用した multi-channel 型 Wiener filter 40

第 4 章正方形マイクロホンアレイを用いた拡散性雑音抑圧 37

4.1.2 空間フィルタ群の出力を利用した multi-channel 型 Wiener filter 40

空間フィルタ群の出力を利用したmulti-channel型Wiener filteringについて述べる．ここでは雑音の学習が必要無く，複数のマイクロホンの情報を活用できる点からmulti-channel型のWiener filteringを用いる．2章で述べたようにZelinski は，マイクロホン間の拡散性雑音成分は無相関であると仮定して，以下のような Wiener filterを設計した [21]．

W_m(ω, k) =

2 N(N−1)

PN−1 i=1

j=i+1[Re{X_i(ω, k)X_j^∗(ω, k)}]

1 N

i=1[X_i(ω, k)X_i^∗(ω, k)] (4.5) マイク間隔が十分に大きい場合，この手法は拡散性雑音抑圧の効果を発揮するが，

マイク間隔が小さい場合は性能が劣化してしまう．無指向性のマイクロホンで観測した拡散性雑音のコヒーレンス関数は以下の式で表せる．

γ_xy(ω) = sin ( ωd/c )

ωd/c (4.6)

図4.3に4 cm間隔の無指向性マイクロホン対で観測された，拡散性雑音の

magnitude-squared coherence (MSC)の理論値を示す．これより，無指向性マイクロホンの入

力信号をそのまま用いた場合，低周波数帯域において，拡散性雑音でも高い相関をもってしまうことがわかる．それに対し提案手法では，無指向性マイクロホンの入力信号を用いてWiener filterを設計するのでは無く，空間フィルタ群の出力を用いる．互いに180°反対の方向に，指向性を向けた指向性マイクロホンに入力された拡散性雑音のMSCは，無指向性の場合と比べて低くなることが知られてい

る [27]．提案手法ではこの知見を積極的に活用する．指向性のマイクロホンで観

測した拡散性雑音のコヒーレンス関数は以下の式で表せる．

γ_xy(ω) = 3

4 [ sin( ωd/c )

ωd/c + ( x₁x₂+y₁y₂ )·( sin( ωd/c )

(ωd/c )³ − cos( ωd/c ) ( ωd/c )² )

Frequency [Hz]

M S C

omnidirectional spatial filter outputs

図 4.3 無指向性マイクロホンを用いた場合と空間フィルタの出力を用いた場合の拡散性雑音のmagnitude-squared coherence (MSC)の理論値 (マイク間隔4 cm)．

+ z1z2( sin( ωd/c )

ωd/c +2 cos( ωd/c )

( ωd/c )² −2 sin( ωd/c ) ( ωd/c )³ ) + j( z₁+z₂ )( cos( ωd/c )

ωd/c −sin( ωd/c)

(ωd/c )² ) ] (4.7) ここで，( x1, y1, z1 )，( x2, y2, z2 )はそれぞれ指向性マイクロホンの指向性を向けたベクトルの成分である．なお，無指向性マイクロホン，指向性マイクロホンを用いた場合のコヒーレンス関数の導出は付録Aに示す．形成した4個の空間フィルタの出力B_i(ω, k)から，180°反対の方向に指向性を向けたものを選択し，

以下のようにWiener filterを設計する．

H_m(ω, k) =

1 2

P[Re{B_p(ω, k)B_q^∗(ω, k)}]

1 4

P[B_r(ω, k)B_r^∗(ω, k)] (4.8) ここで，添字p，q，rは(p, q) ={(1,2),(3,4)}，r={1,2,3,4}のように選択される．図4.3に180°反対の方向に指向性を向けた空間フィルタの出力中に含まれる，

拡散性雑音のMSCの理論値を示す．無指向性マイクロホンの場合と比べ，大き

42 第4章正方形マイクロホンアレイを用いた拡散性雑音抑圧くMSCが低減していることがわかる．これによって拡散性雑音の無相関性の仮定がより正確になり，雑音抑圧効果の高いWiener filterを設計できることが期待される．

空間フィルタ群の出力の振幅を平均化した|Bsum(ω, k)|と，空間フィルタ群の出力を用いて算出されたmulti-channel型のWiener filterを用いて，拡散性雑音が抑圧された目的音声の推定スペクトルを得る．

|S_m⁰ (ω, k)|=Hm(ω, k)· |Bsum(ω, k)| (4.9)

|B_sum(ω, k)|= |B₁(ω, k)|+|B₂(ω, k)|+|B₃(ω, k)|+|B₄(ω, k)|

4 (4.10)

なお，|S_m⁰ (ω, k)|は空間フィルタの出力であるため，目的音声の到来方向に対して，

周波数領域で均一な利得を得ていない．このことから生じる，周波数領域上の歪みを3章で述べたものと同様に，以下のように補正し，周波数領域上の歪みを含まない目的音声の推定スペクトル|Sˆ_m(ω, k)|を得る．

|Sˆ_m(ω, k)| = |S_m⁰ (ω, k)|

p2(1−cos(ω·τ)) (4.11)

4.1.3 single-channel 型 Wiener filter による残留ノイズ除去

図4.3に示したように，空間フィルタ群の出力を用いてmulti-channel型のWiener

filterを設計した場合でも，拡散性雑音のMSCは全周波数帯域で0になるわけでは

無い．これはつまり，拡散性雑音をmulti-channel型のWiener filterで全て抑圧できるわけでは無く，|Sˆ_m(ω, k)|に残留ノイズが存在することを意味する．しかし，

|Sˆ_m(ω, k)|中の残留ノイズ成分は，前段のmulti-channel 型Wiener filteringによってパワーは小さくかつ，定常的であると考えられる．そこで，|Sˆ_m(ω, k)|を入力とみなしたsingle-channel型のWiener filterを適用することで，残留ノイズ成分を除去することを試みる．single-channel型のWiener filterは，発話が存在しない区間にてノイズ成分の推定を行う必要があり，以下のように残留ノイズ成分のパワー

スペクトルを更新する．

|Nˆ_m(ω, k)|² =λ(k)|Sˆ_m(ω, k)|²+ (1−λ(k))|Nˆ_m(ω, k−1)|² (4.12)

|Nˆ_m(ω, k)|²は残留ノイズのパワースペクトルの推定値，λ(k)は更新パラメーターであり単時間フレーム毎に算出され，multi-channel型のWiener filterH_m(ω, k)の値に基づいて決定される．まず，H_m(ω, k)の値を対象とする周波数領域で平均化することで，その短時間フレームでの音声の存在確率であるspeech presence probability (SPP) SPP(k)を算出する．

SPP(k) = 1 Ω

XΩ ω=1

H_m(ω, k) (4.13)

ここで，Ωは分析対象周波数binの最大インデックスである．このようにして算出されたSPPは，例えば，音声が存在する場合は，マイク間での相関が高いため multi-channel型のWiener filterの値Hm(ω, k)が高くなり，その結果SPPは高くなり，逆に非発話区間では，拡散性雑音の相関は低いためmulti-channel型のWiener filterの値Hm(ω, k)は低くなり，結果SPPも低くなるというような振るまいをとる．SPPを用いて，以下のようにその短時間フレームでの雑音更新パラメーター λ(k)を更新する．

λ(k) =







λ_max , SPP(k) < SPP_min

0 , SPP_min + ∆ < SPP(k)

−^λ^max_∆ SPP(k) + ^λ^max_∆ (SPP_min+ ∆), otherwise

(4.14) ここで，λmaxは更新パラメーターλ(k)の最大値，SPPminは完全にそのフレームが非発話区間であると判定するSPP(k)の下限値，∆は完全な発話区間と完全な非発話区間の判別のためのSPPの幅を決定する値をそれぞれ表す．実際に拡散性雑音が重畳された音声に対して，上述した式で算出したSPPと雑音更新パラメーターλ(k)の値を図4.4に示す．ここで，目的音声は正方形マイクロホンアレイに向かって発話された音声，拡散性雑音は屋外の道路上で正方形マイクロホンアレイを

44 第4章正方形マイクロホンアレイを用いた拡散性雑音抑圧

sample point

frame

SPP

frame

(a)

(b)

(c)

SPPmin

図 4.4 音声存在確率 SPPと雑音更新パラメーター λの振るまい． : (a) マイクロホン観測信号(SNR = 10 dB) (b) SPP (c) 雑音更新パラメーターλ

用いて収録した雑音であり，SNRが10 dBとなるように重畳した．また，λmaxは 0.04，∆は0.1，SPPminは，図4.3に示したMSCの平均値を用いた．この図より，

まずSPPが非発話区間では低い値をとり，逆に発話区間では高い値をとっている様子がわかる．さらにそれを雑音更新パラメーターλ(k)の算出に利用することで，

非発話区間ではλ(k)の最大値λ_maxで更新を行い，発話区間ではλ(k)が0となり雑音更新をしていない様子が確認できる．このようにして，前段のmulti-channel

型Wiener filterの値を利用することで，別途発話区間の推定をすることなく，推

定雑音成分を更新することが可能となり，single-channel型Wiener filterの適用を可能とする．

得られた残留ノイズ成分を用いて，single-channel型のWiener filterを設計する．

H_s(ω, k) = SNRpriori(ω, k)

SNR_priori(ω, k) + 1 (4.15)

ここで，SNRprioriはa priori SNRであり，以下のように定義される．

SNR_priori(ω, k) = E[|S(ω, k)|²]

E[|N_m(ω, k)|²] (4.16) E[·]は期待値を表す．a priori SNRは，Plapousらによるtwo-step noise reduction

(TSNR)法を用いて推定することができる[19]．これによって最終的な目的音声の

推定スペクトルを得る．

|S(ω, k)ˆ |=Hs(ω, k)· |Sˆm(ω, k)| (4.17) このようにして推定された，目的音声のスペクトルを時間領域での音声として復元するためには，位相情報が必要であり，例えば入力信号の位相情報を用いて，推定目的音声s(t)ˆ を得る．

ドキュメント内 U055-3 (ページ 48-53)