第 5 章 指向性雑音抑圧と拡散性雑音抑圧の統合 51
5.2 正方形マイクロホンアレイを用いた音声強調手法
図5.2に提案手法のブロック図を示す.提案手法では,以下の4つの段階を経て,
所望とする音声の強調を行う.1) 減算型ビームフォーミングによる4通りの空間 フィルタの形成,2)空間フィルタ群の最小化選択による指向性雑音抑圧,3) 空間 フィルタ群の出力を利用したmulti-channel型Wiener filteringによる拡散性雑音 抑圧,4) single-channel型Wiener filteringによる残留ノイズ除去.
54 第5章 指向性雑音抑圧と拡散性雑音抑圧の統合
multiple null beamforming
& DFT
filter minimization
calculate multi-channel
Wiener filter
residual noise estimation &
calculate single-channel
Wiener filter IFFT OLA
Bi
Bmin
Hm
Sˆm Sˆ
phase information
) ˆ(t s
Hs directional
noise reduction
diffuse noise reduction
residual noise reduction
)
1(t x
)
2(t x
)
3(t x
)
4(t x
spatial filter formation
図 5.2 提案手法ブロック図 (指向性雑音,拡散性雑音抑圧).
5.2.1 空間フィルタ群の形成
4章で述べた方法と同様に,マイクロホンペアの減算型ビームフォーミングに よって4種類の空間フィルタ φ1, φ2, φ3, φ4を得る.各空間フィルタのパターンは 図4.2で示したものと同様である.
b1(t) = x2(t−τ)−x1(t) (5.1) b2(t) = x3(t)−x4(t−τ) (5.2) b3(t) = x2(t−τ)−x3(t) (5.3) b4(t) = x1(t)−x4(t−τ) (5.4) ここで,bi(t)はi番目の空間フィルタφiの出力に相当し,tは時間インデックスを 表す.xj(t)はj番目のマイクロホンの入力信号,τは図4.2に示すようなカージオ イド型の指向特性を形成するために,減算処理を行う際に付加する遅延量を表す.
cを音速,dをマイク間距離とした場合,τはd/cとなる.以下では空間フィルタφi の出力bi(t)に,短時間フーリエ変換を施したものBi(ω, k)を用いて議論を進める.
5.2.2 空間フィルタ群の選択による指向性雑音抑圧
空間フィルタ群の最小化選択による,指向性雑音の抑圧について述べる.3章に おいては,複数の空間フィルタによって,目的音声を強調した信号と,目的音声を 抑圧した信号の2系統の信号を得た後,SSを行う手法を述べたが,本章で考慮す る指向性雑音と拡散性雑音が混在するような環境では,音声と雑音の間でスパー ス性の仮定が成り立たなくなることが考えられる.したがって,SS等の非線型処 理の導入は,音声を歪ませる要因となり,このような環境には適していない.そ こで,本手法では実際に到来する指向性雑音はあまり大きなパワーを伴って到来 しないものであり,空間フィルタのみで抑圧できるものと考える.
空間フィルタφiの出力Bi(ω, k)に含まれる成分について,SiB(ω, k)を目的音成 分,Nidir(ω, k)を指向性雑音成分,Nidif(ω, k)を拡散性雑音成分とすると,Bi(ω, k) は
Bi(ω, k) = SiB(ω, k) +Nidir(ω, k) +Nidif(ω, k) (5.5) と表せる.各成分は無相関であるとする.ここで,目的音声はマイクロホンアレ イの正面から到来する,つまり各マイクロホンに一様な信号が入力されることと,
Nidif(ω, k)は拡散性,つまり方向に依存しないということを考慮すると,この二つ
の信号の振幅成分は,4つの信号Bi(ω, k)いづれに関しても,同一だと考えられる ことに着目する.つまり以下のようにSiB(ω, k),Nidif(ω, k)はインデックスiによ らず等しいと考えられる.
|SiB(ω, k)| = |SB(ω, k)|, (i= 1,2,3,4) (5.6)
|Nidif(ω, k)| = |Ndif(ω, k)|, (i= 1,2,3,4) (5.7) したがって,ある時間-周波数インデックス(ω, k)におけるBi(ω, k)の振幅成分
|Bi(ω, k)|は,指向性雑音成分Nidir(ω, k)のみに依存すると考えられる.つまり,4 つの空間フィルタの出力の振幅成分|B1(ω, k)|,|B2(ω, k)|,|B3(ω, k)|,|B4(ω, k)|
56 第5章 指向性雑音抑圧と拡散性雑音抑圧の統合 のうち,最も小さな成分|Bmin(ω, k)|を選択することは,指向性雑音の成分を最も 小さくした出力を得ることと等価であると考えられる.
|Bmin(ω, k)|= min
i [|Bi(ω, k)|], i= 1,2,3,4 (5.8) これは指向性雑音の到来方向の推定を必要とせず,また各信号が時間-周波数領域 上で重なりが少ない仮定を利用していない.また,非常に単純な処理で指向性雑 音を抑圧することが可能となる.
5.2.3 空間フィルタの出力を利用した multi-channel 型 Wiener filtering による拡散性雑音抑圧
次に,拡散性雑音成分Nidif(ω, k)の抑圧について述べる.4章と同様に,空間 フィルタ群の出力を利用したmulti-channel型Wiener filteringを用いる.形成し た4個の空間フィルタの出力Bi(ω, k)から,180°反対の方向に指向性を向けたも のを選択し,以下のようにWiener filterを設計する.
Hm(ω, k) =
1 2
P[Re{Bp(ω, k)Bq∗(ω, k)}]
1 4
P[Br(ω, k)Br∗(ω, k)] (5.9) ここで,添字p,q,rは(p, q) ={(1,2),(3,4)},r={1,2,3,4}のように選択される.
最小化選択によって指向性雑音を抑圧された空間フィルタの出力|Bmin(ω, k)|と,
空間フィルタ群の出力を用いて算出されたmulti-channel型のWiener filterを用い て,両雑音が抑圧された目的音声の推定スペクトルを得る.
|Sm0 (ω, k)|=Hm(ω, k)· |Bmin(ω, k)| (5.10) 空間フィルタリングから生じる,周波数領域上の歪みを以下のように補正し,周 波数領域上の歪みを含まない目的音声の推定スペクトル|Sˆm(ω, k)|を得る.
|Sˆm(ω, k)| = p |Sm0 (ω, k)|
2(1−cos(ω·τ)) (5.11)
ここで,4個の空間フィルタに対する目的音声の利得は4通り全てで等しいため,
どの空間フィルタが選択されても歪み補正項を変化させる必要は無い.
5.2.4 single-channel 型 Wiener filtering による残留ノイズ除去
4章と同様に,|Sˆm(ω, k)|を入力とみなしたsingle-channel型のWienerfilterを適 用することで,残留ノイズ成分を除去する.以下のように残留ノイズ成分のパワー スペクトルを更新する.
|Nˆm(ω, k)|2 =λ0(k)|Sˆm(ω, k)|2+ (1−λ0(k))|Nˆm(ω, k−1)|2 (5.12)
|Nˆm(ω, k)|2は残留ノイズのパワースペクトルの推定値,λ0(k)は更新パラメーター である.ここで,まず4章のときと同様にSPP,雑音更新パラメーターλ(k)を求 める.
SPP(k) = 1 Ω
XΩ ω=1
Hm(ω, k) (5.13)
λ(k) =
λmax , SPP(k) < SPPmin
0 , SPPmin + ∆ < SPP(k)
−λmax∆ SPP(k) + λmax∆ (SPPmin+ ∆), otherwise
(5.14) しかし,SPPから求めた雑音更新パラメーターをそのまま用いてしまうと,本章 のような拡散性雑音のみでなく,指向性雑音も混在するような環境では,SPPが 正確な音声の存在確率を示さない場合がある.これは,例えば目的音声と指向性雑 音が同時に存在するような区間では,MSCは指向性雑音の影響で低い値になって しまい,結果SPPも低くなってしまう.そこで,4章で述べたように算出したλ(k) に加えて,出力信号のパワーの情報も雑音更新パラメーターの算出に利用する.
λ0(k) =
( λ(k) , Spower(k)¯ < γN¯power
0 , γN¯power 5 Spower(k)¯ (5.15)
Spower(k) =¯ 1 Ω
XΩ ω=1
|Sˆm(ω, k)| (5.16) ここで,N¯powerは収録開始冒頭の数100ms程の区間において,平均化したSpower(k)¯ であり,これに対し係数γ倍したものをそのフレームSpower(k)¯ が上回った場合,
指向性雑音などの突発的な雑音が混入したものとみなし,雑音の更新を止める.こ
58 第5章 指向性雑音抑圧と拡散性雑音抑圧の統合 れは,指向性雑音等の突発的なノイズは一時的な要因であり,残留ノイズとはみ なさないようにするためである.
得られた残留ノイズ成分を用いて,single-channel型のWiener filterを設計する.
Hs(ω, k) = SNRpriori(ω, k)
SNRpriori(ω, k) + 1 (5.17)
こうして,最終的な目的音声の推定スペクトルを得る.
|S(ω, k)ˆ |=Hs(ω, k)· |Sˆm(ω, k)| (5.18) 時間領域での音声として復元するため,入力信号等の位相情報を加え,推定目的 音声s(t)ˆ を得る.