• 検索結果がありません。

階層的雑音抑圧方式

ドキュメント内 小林 哲則 教授 (ページ 35-41)

第 3 章 雑音抑圧方式 27

3.2 階層的雑音抑圧方式

3.2.1 方式の概要

本稿では高田らが提案している指向性雑音,拡散性雑音が混在する環境におい て音声強調を行う枠組み [21]を拡張し,階層的に指向性雑音,拡散性雑音を抑圧 する.

全体の処理の流れは図3.1の通りである.本研究で採用する雑音抑圧システム

28 第3章 雑音抑圧方式

beamforming DFT

selectionband

Calculate multi-channel

Wiener filter

voice activity detection Calculate single-channel

Wiener filter

IDFTOLA )

,

ˆ ( k

Sdir ω

) ,

( k

Hm ω

phase information

)

1(t x

)

2(t x3(t) x

)

4(t x

) ,

( k

Si ω

) ,

( k

Ci ω

) ,

ˆ ( k

Sm ω Sˆ(ω,k)

) ,

( k

Hs ω

) ,

( k

Bi ω

) ˆ(t beamforming S

DFT

selectionband

Calculate multi-channel

Wiener filter

voice activity detection Calculate single-channel

Wiener filter

IDFTOLA )

,

ˆ ( k

Sdir ω

) ,

( k

Hm ω

phase information

)

1(t x

)

2(t x3(t) x

)

4(t x

) ,

( k

Si ω

) ,

( k

Ci ω

) ,

ˆ ( k

Sm ω Sˆ(ω,k)

) ,

( k

Hs ω

) ,

( k

Bi ω

) ˆ(t S

図 3.1 雑音抑圧方式.

は,指向性雑音除去部,拡散性雑音除去部,残留雑音除去部から構成される.以 下では,その各々について述べる.

3.2.2 指向性雑音抑圧

指向性雑音抑圧の流れは図3.2の通りである.

時刻tにおいてチャンネルiのマイクロホンで観測された信号をxi(t)とする.ま た,フレームkにおいて短時間フーリエ変換されたスペクトルをXi(ω, k)と表す.

まず目的音源方向に対し縦にならんだMic1,Mic3から,遅延処理と減算処理に よる死角制御型ビームフォーマーに基づく信号c1,c2と,減算処理による減算型 ビームフォーマーに基づく信号s1を形成する.ここで付加する遅延は,マイクロ ホン間隔を音声が伝達するのに要する時間に相当する.遅延時間τcrossは,音速を Vac,対角方向のマイクロホン間隔をdcrossとしたとき,τcross = dcross/Vacで与え られる.この遅延時間を用い,c1c2

c1 = x3(t−τcross)−x1(t) (3.1)

c2 = x1(t−τcross)−x3(t) (3.2)

3.2 階層的雑音抑圧方式 29 で得られる.s1は下記のように書ける.

s1 =x1(t)−x3(t) (3.3)

また,目的音源方向に対し横に並んだMic2,Mic4より減算型ビームフォーマー に基づく信号s2は,下記のように書ける.

s2 =x4−x2(t) (3.4)

c1は0方向に死角を持ち,c2は180方向に死角を持つ指向特性を形成する.ま た,s1は0,180方向に最大のゲインを持ち±90方向に死角を持つ指向特性を形 成し,s2±90方向に最大のゲインを持ち,0,180方向に死角を持つ指向特性 を形成する.c1,c1のゲインパターンを図3.3に,s1,s2によるゲインパターンを 図3.4に示す.

これら4つの信号を用いて帯域選択を行うことにより,正面方向へ向けた指向 特性によりこの方向から到来する信号のみが選択され,信号Sˆdirが得られる[24].

この帯域選択は以下のように行われる.

Sˆdir(ω, k) =





S1(ω, k),

if|S1(ω, k)|>|S2(ω, k)| and |C1(ω, k)|<|C2(ω, k)| β, otherwise

(3.5)

ここで,βはフロアリング定数を表す.

この帯域選択は正面,後ろ方向にゲインを持つ信号のスペクトルS1(ω, k) と横 方向にゲインを持つ信号のスペクトルS2(ω, k)を比較し,正面,後ろ方向にゲイ ンを持つ信号の方が大きい時間・周波数成分のみを残すことで横方向から到来す る指向性雑音を抑圧している.さらに,正面方向にゲインを持つ信号のスペクト ルC2(ω, k)と後ろ方向にゲインを持つ信号のスペクトルC1(ω, k)を比較し,正面 方向にゲインを持つ信号の方が大きい時間・周波数成分のみを残すことで先の選 択で選ばれた時間・周波数成分のうち,後方から到来する指向性雑音を抑圧して いる.

30 第3章 雑音抑圧方式

+ -+

-+ +

+ +

+ + DELAY

DELAY DF T

DF T

DF T DF T

bandselection

) ,

2

( k C ω

) ,

1

( k C ω

) ,

1

( k S ω

) ,

2

( k S ω x

2

x

3

x

4

x

1

S ˆ

dir

( ω , k )

)

1

( t c

)

2

( t c

)

1

( t s

)

2

( t s

+ -+

-+ +

+ +

+ + DELAY

DELAY DF T

DF T

DF T DF T

bandselection

) ,

2

( k C ω

) ,

1

( k C ω

) ,

1

( k S ω

) ,

2

( k S ω x

2

x

3

x

4

x

1

S ˆ

dir

( ω , k )

)

1

( t c

)

2

( t c

)

1

( t s

)

2

( t s

図 3.2 指向性雑音抑圧方式.

x

1

x

2

x

3

x

4

θ

0

C1

C12

C C2

図 3.3 死角制御型ビームフォーマーのゲインパターン.

3.2.3 拡散性雑音抑圧

指向性雑音が抑圧されたSˆdir(ω, k)中に存在する拡散性の雑音を抑圧するため,

マルチチャンネルWienerフィルタを用いる.この拡散性雑音抑圧フィルタHm(ω, k)

3.2 階層的雑音抑圧方式 31

x

1

x

2

x

3

x

4

0

S

1

S

12

S S

2

θ

図 3.4 減算型ビームフォーマーのゲインパターン.

は,隣接するマイクロホン間距離に相当する遅延時間をτnextとしたとき,

b1 = x2(t−τnext)−x1(t) (3.6) b2 = x3(t−τnext)−x2(t) (3.7) b3 = x3(t)−x4(t−τnext) (3.8) b4 = x4(t)−x1(t−τnext) (3.9) のk番目のフレームでのスペクトルBi(ω, k)を用いて

Hm(ω, k) =

1 2

P[abs{Bl(ω, k)Bm(ω, k)}]

1 4

P4

i=1[Bi(ω, k)Bi(ω, k)] (3.10) と表される.ここでl,m{(l, m)} ={(1,2),(3,4)}なる組合せで,目的音方向 に対して線対称となるゲインパターンを持つ死角制御型ビームフォーマーを選択 する.

32 第3章 雑音抑圧方式 このマルチチャンネルWienerフィルタを用いて拡散性雑音が抑圧された信号の 振幅スペクトルは以下のように求まる.

|Sˆm(ω, k)|=Hm(ω, k)· |Sˆdir(ω, k)| (3.11)

3.2.4 残留雑音抑圧

3.2.2で述べた指向性雑音抑圧と3.2.3で述べた拡散性雑音抑圧を施した信号に対

し,残留している定常的な雑音を抑圧するためシングルチャンネルのWienerフィ ルタを用いる.ここでは,音声が存在しない区間からノイズを学習し,Wienerフィ ルタHs(ω, k)を推定し,これをマルチチャンネルのWienerフィルタを適応した信 号|Sˆm(ω, k)|に施すことで残留雑音抑圧を行う.

音声が存在するかの判定には,マルチチャンネルWienerフィルタのフィルタ係 数Hm(ω, k)と,このフィルタを適応した信号|Sˆm(ω, k)| を用いて以下のように判 定する.

V AD =

( 1 if Pb

ω=a|Hm(ω, k)|2·P

ω|Sˆm(ω, k)|2 > threshold

0, otherwise (3.12)

ここで,a,bは判定に用いる周波数ビンの下限と上限で,thresholdは判定の閾値 である.3.2.2で述べた通りHm(ω, k)は低周波数帯域において理論的に大きな値を 持ってしまう.また,高周波数帯域には発話区間検出において重要な情報は多く 含まれない。このため,a,b はそれぞれ 1000 Hz,6000 Hzに相当する値とした.

V AD = 1の場合には音声が存在するとしてノイズ学習を停止し,V AD = 0の 場合を非音声区間として,ノイズを忘却的に学習する.この学習は忘却係数λを 用いて以下のように行われる.

|Nˆ(ω, k)|2 =λ|N(ω, kˆ 1)|2+ (1−λ)|Sˆm(ω, k)|2 (3.13) ここで λV AD = 0 のとき λ = 0 とすることで発話区間で学習を停止させて いる.

3.3 雑音抑圧実験 33

ドキュメント内 小林 哲則 教授 (ページ 35-41)

関連したドキュメント