第 3 章 雑音抑圧方式 27
3.2 階層的雑音抑圧方式
3.2.1 方式の概要
本稿では高田らが提案している指向性雑音,拡散性雑音が混在する環境におい て音声強調を行う枠組み [21]を拡張し,階層的に指向性雑音,拡散性雑音を抑圧 する.
全体の処理の流れは図3.1の通りである.本研究で採用する雑音抑圧システム
28 第3章 雑音抑圧方式
beamforming DFT
selectionband
Calculate multi-channel
Wiener filter
voice activity detection Calculate single-channel
Wiener filter
IDFTOLA )
,
ˆ ( k
Sdir ω
) ,
( k
Hm ω
phase information
)
1(t x
)
2(t x3(t) x
)
4(t x
) ,
( k
Si ω
) ,
( k
Ci ω
) ,
ˆ ( k
Sm ω Sˆ(ω,k)
) ,
( k
Hs ω
) ,
( k
Bi ω
) ˆ(t beamforming S
DFT
selectionband
Calculate multi-channel
Wiener filter
voice activity detection Calculate single-channel
Wiener filter
IDFTOLA )
,
ˆ ( k
Sdir ω
) ,
( k
Hm ω
phase information
)
1(t x
)
2(t x3(t) x
)
4(t x
) ,
( k
Si ω
) ,
( k
Ci ω
) ,
ˆ ( k
Sm ω Sˆ(ω,k)
) ,
( k
Hs ω
) ,
( k
Bi ω
) ˆ(t S
図 3.1 雑音抑圧方式.
は,指向性雑音除去部,拡散性雑音除去部,残留雑音除去部から構成される.以 下では,その各々について述べる.
3.2.2 指向性雑音抑圧
指向性雑音抑圧の流れは図3.2の通りである.
時刻tにおいてチャンネルiのマイクロホンで観測された信号をxi(t)とする.ま た,フレームkにおいて短時間フーリエ変換されたスペクトルをXi(ω, k)と表す.
まず目的音源方向に対し縦にならんだMic1,Mic3から,遅延処理と減算処理に よる死角制御型ビームフォーマーに基づく信号c1,c2と,減算処理による減算型 ビームフォーマーに基づく信号s1を形成する.ここで付加する遅延は,マイクロ ホン間隔を音声が伝達するのに要する時間に相当する.遅延時間τcrossは,音速を Vac,対角方向のマイクロホン間隔をdcrossとしたとき,τcross = dcross/Vacで与え られる.この遅延時間を用い,c1とc2は
c1 = x3(t−τcross)−x1(t) (3.1)
c2 = x1(t−τcross)−x3(t) (3.2)
3.2 階層的雑音抑圧方式 29 で得られる.s1は下記のように書ける.
s1 =x1(t)−x3(t) (3.3)
また,目的音源方向に対し横に並んだMic2,Mic4より減算型ビームフォーマー に基づく信号s2は,下記のように書ける.
s2 =x4−x2(t) (3.4)
c1は0◦方向に死角を持ち,c2は180◦方向に死角を持つ指向特性を形成する.ま た,s1は0◦,180◦方向に最大のゲインを持ち±90◦方向に死角を持つ指向特性を形 成し,s2は±90◦方向に最大のゲインを持ち,0◦,180◦方向に死角を持つ指向特性 を形成する.c1,c1のゲインパターンを図3.3に,s1,s2によるゲインパターンを 図3.4に示す.
これら4つの信号を用いて帯域選択を行うことにより,正面方向へ向けた指向 特性によりこの方向から到来する信号のみが選択され,信号Sˆdirが得られる[24].
この帯域選択は以下のように行われる.
Sˆdir(ω, k) =
S1(ω, k),
if|S1(ω, k)|>|S2(ω, k)| and |C1(ω, k)|<|C2(ω, k)| β, otherwise
(3.5)
ここで,βはフロアリング定数を表す.
この帯域選択は正面,後ろ方向にゲインを持つ信号のスペクトルS1(ω, k) と横 方向にゲインを持つ信号のスペクトルS2(ω, k)を比較し,正面,後ろ方向にゲイ ンを持つ信号の方が大きい時間・周波数成分のみを残すことで横方向から到来す る指向性雑音を抑圧している.さらに,正面方向にゲインを持つ信号のスペクト ルC2(ω, k)と後ろ方向にゲインを持つ信号のスペクトルC1(ω, k)を比較し,正面 方向にゲインを持つ信号の方が大きい時間・周波数成分のみを残すことで先の選 択で選ばれた時間・周波数成分のうち,後方から到来する指向性雑音を抑圧して いる.
30 第3章 雑音抑圧方式
+ -+
-+ +
+ +
+ + DELAY
DELAY DF T
DF T
DF T DF T
bandselection
) ,
2
( k C ω
) ,
1
( k C ω
) ,
1
( k S ω
) ,
2
( k S ω x
2x
3x
4x
1S ˆ
dir( ω , k )
)
1
( t c
)
2
( t c
)
1
( t s
)
2
( t s
+ -+
-+ +
+ +
+ + DELAY
DELAY DF T
DF T
DF T DF T
bandselection
) ,
2
( k C ω
) ,
1
( k C ω
) ,
1
( k S ω
) ,
2
( k S ω x
2x
3x
4x
1S ˆ
dir( ω , k )
)
1
( t c
)
2
( t c
)
1
( t s
)
2
( t s
図 3.2 指向性雑音抑圧方式.
x
1x
2x
3x
4θ
0
C1
C12
C C2
図 3.3 死角制御型ビームフォーマーのゲインパターン.
3.2.3 拡散性雑音抑圧
指向性雑音が抑圧されたSˆdir(ω, k)中に存在する拡散性の雑音を抑圧するため,
マルチチャンネルWienerフィルタを用いる.この拡散性雑音抑圧フィルタHm(ω, k)
3.2 階層的雑音抑圧方式 31
x
1x
2x
3x
40
S
1S
12S S
2θ
図 3.4 減算型ビームフォーマーのゲインパターン.
は,隣接するマイクロホン間距離に相当する遅延時間をτnextとしたとき,
b1 = x2(t−τnext)−x1(t) (3.6) b2 = x3(t−τnext)−x2(t) (3.7) b3 = x3(t)−x4(t−τnext) (3.8) b4 = x4(t)−x1(t−τnext) (3.9) のk番目のフレームでのスペクトルBi(ω, k)を用いて
Hm(ω, k) =
1 2
P[abs{Bl(ω, k)B∗m(ω, k)}]
1 4
P4
i=1[Bi(ω, k)Bi∗(ω, k)] (3.10) と表される.ここでl,mは{(l, m)} ={(1,2),(3,4)}なる組合せで,目的音方向 に対して線対称となるゲインパターンを持つ死角制御型ビームフォーマーを選択 する.
32 第3章 雑音抑圧方式 このマルチチャンネルWienerフィルタを用いて拡散性雑音が抑圧された信号の 振幅スペクトルは以下のように求まる.
|Sˆm(ω, k)|=Hm(ω, k)· |Sˆdir(ω, k)| (3.11)
3.2.4 残留雑音抑圧
3.2.2で述べた指向性雑音抑圧と3.2.3で述べた拡散性雑音抑圧を施した信号に対
し,残留している定常的な雑音を抑圧するためシングルチャンネルのWienerフィ ルタを用いる.ここでは,音声が存在しない区間からノイズを学習し,Wienerフィ ルタHs(ω, k)を推定し,これをマルチチャンネルのWienerフィルタを適応した信 号|Sˆm(ω, k)|に施すことで残留雑音抑圧を行う.
音声が存在するかの判定には,マルチチャンネルWienerフィルタのフィルタ係 数Hm(ω, k)と,このフィルタを適応した信号|Sˆm(ω, k)| を用いて以下のように判 定する.
V AD =
( 1 if Pb
ω=a|Hm(ω, k)|2·P
ω|Sˆm(ω, k)|2 > threshold
0, otherwise (3.12)
ここで,a,bは判定に用いる周波数ビンの下限と上限で,thresholdは判定の閾値 である.3.2.2で述べた通りHm(ω, k)は低周波数帯域において理論的に大きな値を 持ってしまう.また,高周波数帯域には発話区間検出において重要な情報は多く 含まれない。このため,a,b はそれぞれ 1000 Hz,6000 Hzに相当する値とした.
V AD = 1の場合には音声が存在するとしてノイズ学習を停止し,V AD = 0の 場合を非音声区間として,ノイズを忘却的に学習する.この学習は忘却係数λを 用いて以下のように行われる.
|Nˆ(ω, k)|2 =λ|N(ω, kˆ −1)|2+ (1−λ)|Sˆm(ω, k)|2 (3.13) ここで λ は V AD = 0 のとき λ = 0 とすることで発話区間で学習を停止させて いる.
3.3 雑音抑圧実験 33