正方形マイクロホンアレイを用いた音声強調手法

第 5 章指向性雑音抑圧と拡散性雑音抑圧の統合 51

5.2 正方形マイクロホンアレイを用いた音声強調手法

図5.2に提案手法のブロック図を示す．提案手法では，以下の4つの段階を経て，

所望とする音声の強調を行う．1) 減算型ビームフォーミングによる4通りの空間フィルタの形成，2)空間フィルタ群の最小化選択による指向性雑音抑圧，3) 空間フィルタ群の出力を利用したmulti-channel型Wiener filteringによる拡散性雑音抑圧，4) single-channel型Wiener filteringによる残留ノイズ除去．

54 第5章指向性雑音抑圧と拡散性雑音抑圧の統合

multiple null beamforming

& DFT

filter minimization

calculate multi-channel

Wiener filter

residual noise estimation &

calculate single-channel

Wiener filter IFFT OLA

Bmin

Sˆm Sˆ

phase information

) ˆ(t s

Hs directional

noise reduction

diffuse noise reduction

residual noise reduction

)

1(t x

)

2(t x

)

3(t x

)

4(t x

spatial filter formation

図 5.2 提案手法ブロック図 (指向性雑音，拡散性雑音抑圧)．

5.2.1 _{空間フィルタ群の形成}

4章で述べた方法と同様に，マイクロホンペアの減算型ビームフォーミングによって4種類の空間フィルタ φ₁, φ₂, φ₃, φ₄を得る．各空間フィルタのパターンは図4.2で示したものと同様である．

b₁(t) = x₂(t−τ)−x₁(t) (5.1) b₂(t) = x₃(t)−x₄(t−τ) (5.2) b₃(t) = x₂(t−τ)−x₃(t) (5.3) b4(t) = x1(t)−x4(t−τ) (5.4) ここで，bi(t)はi番目の空間フィルタφiの出力に相当し，tは時間インデックスを表す．xj(t)はj番目のマイクロホンの入力信号，τは図4.2に示すようなカージオイド型の指向特性を形成するために，減算処理を行う際に付加する遅延量を表す．

cを音速，dをマイク間距離とした場合，τはd/cとなる．以下では空間フィルタφ_i の出力b_i(t)に，短時間フーリエ変換を施したものB_i(ω, k)を用いて議論を進める．

5.2.2 空間フィルタ群の選択による指向性雑音抑圧

空間フィルタ群の最小化選択による，指向性雑音の抑圧について述べる．3章においては，複数の空間フィルタによって，目的音声を強調した信号と，目的音声を抑圧した信号の2系統の信号を得た後，SSを行う手法を述べたが，本章で考慮する指向性雑音と拡散性雑音が混在するような環境では，音声と雑音の間でスパース性の仮定が成り立たなくなることが考えられる．したがって，SS等の非線型処理の導入は，音声を歪ませる要因となり，このような環境には適していない．そこで，本手法では実際に到来する指向性雑音はあまり大きなパワーを伴って到来しないものであり，空間フィルタのみで抑圧できるものと考える．

空間フィルタφ_iの出力B_i(ω, k)に含まれる成分について，S_i^B(ω, k)を目的音成分，N_i^dir(ω, k)を指向性雑音成分，N_i^dif(ω, k)を拡散性雑音成分とすると，Bi(ω, k) は

B_i(ω, k) = S_i^B(ω, k) +N_i^dir(ω, k) +N_i^dif(ω, k) (5.5) と表せる．各成分は無相関であるとする．ここで，目的音声はマイクロホンアレイの正面から到来する，つまり各マイクロホンに一様な信号が入力されることと，

N_i^dif(ω, k)は拡散性，つまり方向に依存しないということを考慮すると，この二つ

の信号の振幅成分は，4つの信号B_i(ω, k)いづれに関しても，同一だと考えられることに着目する．つまり以下のようにS_i^B(ω, k)，N_i^dif(ω, k)はインデックスiによらず等しいと考えられる．

|S_i^B(ω, k)| = |S^B(ω, k)|, (i= 1,2,3,4) (5.6)

|N_i^dif(ω, k)| = |N^dif(ω, k)|, (i= 1,2,3,4) (5.7) したがって，ある時間-周波数インデックス(ω, k)におけるB_i(ω, k)の振幅成分

|B_i(ω, k)|は，指向性雑音成分N_i^dir(ω, k)のみに依存すると考えられる．つまり，4 つの空間フィルタの出力の振幅成分|B₁(ω, k)|，|B₂(ω, k)|，|B₃(ω, k)|，|B₄(ω, k)|

56 第5章指向性雑音抑圧と拡散性雑音抑圧の統合のうち，最も小さな成分|Bmin(ω, k)|を選択することは，指向性雑音の成分を最も小さくした出力を得ることと等価であると考えられる．

|B_min(ω, k)|= min

i [|B_i(ω, k)|], i= 1,2,3,4 (5.8) これは指向性雑音の到来方向の推定を必要とせず，また各信号が時間-周波数領域上で重なりが少ない仮定を利用していない．また，非常に単純な処理で指向性雑音を抑圧することが可能となる．

5.2.3 空間フィルタの出力を利用した multi-channel _型 Wiener filtering による拡散性雑音抑圧

次に，拡散性雑音成分N_i^dif(ω, k)の抑圧について述べる．4章と同様に，空間フィルタ群の出力を利用したmulti-channel型Wiener filteringを用いる．形成した4個の空間フィルタの出力Bi(ω, k)から，180°反対の方向に指向性を向けたものを選択し，以下のようにWiener filterを設計する．

H_m(ω, k) =

1 2

P[Re{B_p(ω, k)B_q^∗(ω, k)}]

1 4

P[Br(ω, k)B_r^∗(ω, k)] (5.9) ここで，添字p，q，rは(p, q) ={(1,2),(3,4)}，r={1,2,3,4}のように選択される．

最小化選択によって指向性雑音を抑圧された空間フィルタの出力|B_min(ω, k)|と，

空間フィルタ群の出力を用いて算出されたmulti-channel型のWiener filterを用いて，両雑音が抑圧された目的音声の推定スペクトルを得る．

|Sˆ_m(ω, k)| = p |S_m⁰ (ω, k)|

2(1−cos(ω·τ)) (5.11)

ここで，4個の空間フィルタに対する目的音声の利得は4通り全てで等しいため，

どの空間フィルタが選択されても歪み補正項を変化させる必要は無い．

5.2.4 single-channel 型 Wiener filtering による残留ノイズ除去

4章と同様に，|Sˆm(ω, k)|を入力とみなしたsingle-channel型のWienerfilterを適用することで，残留ノイズ成分を除去する．以下のように残留ノイズ成分のパワースペクトルを更新する．

|Nˆ_m(ω, k)|² =λ⁰(k)|Sˆ_m(ω, k)|²+ (1−λ⁰(k))|Nˆ_m(ω, k−1)|² (5.12)

|Nˆ_m(ω, k)|²は残留ノイズのパワースペクトルの推定値，λ⁰(k)は更新パラメーターである．ここで，まず4章のときと同様にSPP，雑音更新パラメーターλ(k)を求める．

SPP(k) = 1 Ω

XΩ ω=1

Hm(ω, k) (5.13)

λ(k) =







λ_max , SPP(k) < SPP_min

0 , SPPmin + ∆ < SPP(k)

−^λ^max_∆ SPP(k) + ^λ^max_∆ (SPP_min+ ∆), otherwise

(5.14) しかし，SPPから求めた雑音更新パラメーターをそのまま用いてしまうと，本章のような拡散性雑音のみでなく，指向性雑音も混在するような環境では，SPPが正確な音声の存在確率を示さない場合がある．これは，例えば目的音声と指向性雑音が同時に存在するような区間では，MSCは指向性雑音の影響で低い値になってしまい，結果SPPも低くなってしまう．そこで，4章で述べたように算出したλ(k) に加えて，出力信号のパワーの情報も雑音更新パラメーターの算出に利用する．

λ⁰(k) =

( λ(k) , Spower(k)¯ < γN¯power

0 , γN¯power 5 Spower(k)¯ (5.15)

Spower(k) =¯ 1 Ω

XΩ ω=1

|Sˆ_m(ω, k)| (5.16) ここで，N¯powerは収録開始冒頭の数100ms程の区間において，平均化したSpower(k)¯ であり，これに対し係数γ倍したものをそのフレームSpower(k)¯ が上回った場合，

指向性雑音などの突発的な雑音が混入したものとみなし，雑音の更新を止める．こ

58 第5章指向性雑音抑圧と拡散性雑音抑圧の統合れは，指向性雑音等の突発的なノイズは一時的な要因であり，残留ノイズとはみなさないようにするためである．

得られた残留ノイズ成分を用いて，single-channel型のWiener filterを設計する．

H_s(ω, k) = SNR_priori(ω, k)

SNR_priori(ω, k) + 1 (5.17)

こうして，最終的な目的音声の推定スペクトルを得る．

|S(ω, k)ˆ |=H_s(ω, k)· |Sˆ_m(ω, k)| (5.18) 時間領域での音声として復元するため，入力信号等の位相情報を加え，推定目的音声s(t)ˆ を得る．

5.3 指向性と拡散性の雑音が混在する環境下での雑音抑

ドキュメント内 U055-3 (ページ 61-66)

第 5 章 指向性雑音抑圧と拡散性雑音抑圧の統合 51