PostFilter

第 6 章ノードリファレンス 45

6.3 Separation カテゴリ

6.3.10 PostFilter

ノードの入出力とプロパティ

入力

INPUT SPEC : Map<int, ObjectRef>型．GHDSSノードからの出力と同じ型．音源IDと，分離音の複素スペクトルであるVector<complex<float> >型データのペア．

INPUT NOISE POWER :Matrix<float>型．BGNEstimatorノードによって推定された定常ノイズのパワースペクトル．

出力

OUTPUT SPEC : Map<int, ObjectRef>型．入力INPUT SPECから，ノイズ除去がされた分離音の複素スペクトル．Object部分はVector<complex<float> >型．

EST NOISE POWER :Map<int, ObjectRef>型．OUTPUT SPECの各分離音に対して，含まれていると推定されたノイズのパワーが，Vector<float>型データとしてIDとペアになっている．

パラメータ

ノードの詳細

式で用いられる添字は，表6.1で定義されているものに準拠する．また，以降の式では，特に必要のない場合は，時間フレームインデックスf を省略して表記する．

図6.61は，PostFilterノードの流れ図である．入力としては，GHDSSノードからの分離音スペクトルと，

BGNEstimatorノードの定常ノイズパワースペクトルが得られる．出力には，音声が強調された分離音スペク

トルと，分離音に混入しているノイズのパワースペクトルである．

処理の流れは 1. ノイズ推定 2. SNR推定

3. 音声存在確率推定 4. ノイズ除去となっている．

1)ノイズ推定:

ノイズ推定処理の流れを図6.62に示す．PostFilterノードが対処するノイズは，

a)マイクロホンの接点などが要因となる定常ノイズ， b)除去しきれなかった別の音源の音(漏れノイズ)，

c)前フレームの残響，

の3つである．

最終的な分離音に含まれるノイズλ(f，k_i)は，

λ(f,ki) = λ^sta(f,ki)+λ^leak(f,ki)+λ^rev(f−1,ki) (6.72) として求められる．ただし，λ^sta(f,ki)，λ^leak(f,ki)，λ^rev(f−1,ki)はそれぞれ，定常ノイズ，漏れノイズ，前フレームの残響を表す．

表6.52:PostFilterのパラメータ表(前半)

パラメータ名型デフォルト値単位説明

MCRA SETTING bool false ノイズ除去手法である，MCRA

推定に関するパラメータ設定項目を表示する時，trueにする．

MCRA SETTING 以下，MCRA SETTINGがtrue

の時に表示される

STATIONARY NOISE FACTOR float 1.2 定常ノイズ推定時の係数．

SPEC SMOOTH FACTOR float 0.5 入力パワースペクトルの平滑化

係数．

AMP LEAK FACTOR float 1.5 漏れ係数．

STATIONARY NOISE MIXTURE FACTOR float 0.98 定常ノイズの混合比．

LEAK FLOOR float 0.1 漏れノイズの最小値．

BLOCK LENGTH int 80 検出時間幅．

VOICEP THRESHOLD int 3 音声存在判定の閾値．

EST LEAK SETTING bool false 漏れ率推定に関するパラメータ

設定項目を表示する時，trueにする．

EST LEAK SETTING 以下，EST LEAK SETTINGが

trueの時に表示される．

LEAK FACTOR float 0.25 漏れ率．

OVER CANCEL FACTOR float 1 漏れ率重み係数．

EST REV SETTING bool false 残響成分推定に関するパラメー

タ設定項目を表示する時，true にする．

EST REV SETTING 以下，EST REV SETTING が

trueの時に表示される．

REVERB DECAY FACTOR float 0.5 残響パワーの減衰係数．

DIRECT DECAY FACTOR float 0.2 分離スペクトルの減衰係数．

EST SN SETTING bool false SN比推定に関するパラメータ設

定項目を表示する時，trueにする．

EST SN SETTING 以下，EST SN SETTING が

trueの時に表示される．

PRIOR SNR FACTOR float 0.8 事前SNRと事後SNRの比率．

VOICEP PROB FACTOR float 0.9 音声存在確率の振幅係数．

MIN VOICEP PROB float 0.05 最小音声存在確率．

MAX PRIOR SNR float 100 事前SNRの最大値．

MAX OPT GAIN float 20 最適ゲイン中間変数vの最大値．

MIN OPT GAIN float 6 最適ゲイン中間変数vの最小値．

delay

PostFilter module Y ( f , k )

INPUT_SPEC

1. Noise estimation

2. SNR estimation

3. Voice probability estimation

4. Noise reduction

INPUT_NOISE_POWER

λ ( f , k )

init i

OUTPUT_SPEC

S

( f , k )

S ( f -1 , k )

G ( f , k )

iH1

p ( f , k )

EST_NOISE_POWER

λ( f , k )

i γ n( f , k ) i

ξ n( f , k ) i

図6.61:PostFilterの流れ図

Noise estimation

Y ( f , k )

a) Stationary noise estimation (MCRA)

λ

init

( f , k )

S

( f-1 , k )

c) Reverberation estimation

λ ( f , k )

b) Leak noise

estimation

図6.62:ノイズ推定の手順

1-a) MCRA法による定常ノイズ推定 1-a)で用いる変数は表6.54に基づく．

まず，入力スペクトルを1フレーム前のパワーと平滑化したパワースペクトルS(f,ki)=[

S1(f,ki), . . . ,SN(f,ki)] を求める．

Sn(f,ki) = αsSn(f−1,ki)+(1−αs)|Yn(ki)|² (6.73) 次に，S^tmp，S^minを更新する．

S_n^min(f,ki) = 

 min{S^min_n (f −1,ki),Sn(f,ki)} if f ,nL

min{S^tmp_n (f −1,k_i),S_n(f,k_i)} if f =nL , (6.74) S_n^min(f,k_i) = 

 min{S^tmp_n (f −1,ki),Sn(f,ki)} if f ,nL

S_n(f,k_i) if f =nL , (6.75) ただし，nは任意の整数である．S^minはノイズ推定を始めてからの最小パワーを保持し，S^tmpは最近のLフレームの極小パワーを保持している．LフレームごとにS^tmpは更新される．

続いて，最小パワーと入力分離音のパワーの比から，音声が含まれるかどうかを判定する．

S^r_n(k_i) = Sn(ki)

S^min(ki), (6.76)

I_n(k_i) = 

 1 if S^r_n(ki)> δ

0 if S^r_n(k_i)≤δ (6.77)

In(ki)に音声が含まれる場合1，含まれない場合0となる．この判定結果をもとに，前フレーム定常ノイズと，

現在のフレームのパワーとの混合比α^C_d_,_n(ki)を決める．

α^C_d_,_n(ki) = (αd−1)In(ki)+1. (6.78) 次に，分離音のパワースペクトルに含まれる漏れノイズを除去する．

S^leak_n (ki) =

∑N p=1

|Yp(ki)|²− |Yn(ki)|², (6.79)

S⁰_n(ki) = |Yn(ki)|²−qS^leak_n (ki), (6.80) ただし，S⁰_n(ki)<Sf loorのとき，

S_n⁰(ki) = Sf loor (6.81)

に値が変更される．

漏れノイズを除いたパワースペクトルS⁰_n(f,ki)と，前フレームの推定定常ノイズλ^sta(f−1,ki)または， BGNEs-timatorからの出力であるb fλ^init(f,ki)を混合することで，現在のフレームの定常ノイズを求める．

λn^sta(f,k_i) = 

 α^C_d_,_n(ki)λ^stan (f −1,ki)+(1−α^C_d_,_n(ki)rS⁰_n(f,ki) if音源位置に変更なし

α^C_d_,_n(k_i)λ^initn (f,k_i)+(1−α^C_d_,_n(k_i)rS⁰_n(f,k_i) if音源位置に変更あり (6.82)

1-b)漏れノイズ推定 1-b)で用いる変数は表6.55に基づく．

いくつかのパラメータを次のように計算する．

β = − α^leak

1−(α^leak)²+α^leak(1−α^leak)(N−2) (6.83)

α = 1−(N−1)α^leakβ (6.84)

このパラメータを用いて，平滑化されたスペクトルS(ki)と，式(6.79)で求められた，他の分離音のパワーから自分の分離音のパワーを除いたパワースペクトルS^leak_n (ki)を混合する．

Zn(ki) = αSn(ki)+βS^leak_n (ki)， (6.85) ただし，Zn(k_i)<1になる場合は，Zn(k_i)=1とする．

最終的な漏れノイズのパワースペクトルλ^leak(ki)は，

λ^leakn = α^leak



∑

n^′,n

Z_n′(k_i)



 (6.86)

として求める．

1-c)残響推定 1-c)で用いる変数は表6.56に基づく．

残響のパワーは，前フレームの推定残響パワーλ^rev(f −1,ki)=[λ^rev₁ (f −1,ki), . . . , λ^rev_N (f −1,ki)]^T と，前フレームの分離スペクトルSˆ(f−1,ki)=[ ˆS1(f−1,ki), . . . ,SˆN(f−1,ki)]^T から次のように計算される．Sˆn(f−1,ki) は複素数であることに注意．

λ^revn (f,ki) = γ(

λ^revn (f−1,ki)+ ∆|Sˆn(f−1,ki)|²)

(6.87)

2) SNR推定:

SNR estimation Y ( f , k )

a) SNR calculation

S

( f-1 , k )

λ( f , k )

c) prior SNR estimation b) Voice rate

estimation

d) Optimal gain estimation

γ ( f , k )

n i

G ( f , k )

H1 i

ξ ( f , k )

n i

ξ ( f-1 , k )

n i

α ( f , k )

np i

図6.63: SNR推定の手順 SNR推定の流れを図6.63に示す．SNR推定は，

a) SNRの計算

b)ノイズ混入前の事前SNR推定 c)音声含有率の推定

d)最適ゲインの推定から成る．

表6.57のベクトルの要素は，各分離音の値に対応する．

2-a) SNRの計算 2-a)で用いる変数は，表6.57に従う．ここでは，入力の複素スペクトルY(ki)と，前段で推定されたノイズのパワースペクトルλ(k_i)を元に，SNRγn(k_i)が計算される．

γn(k_i) = |Yn(ki)|²

λn(ki) (6.88)

γ^Cn(k_i) = 

 γn(ki) if γn(ki)>0

0 otherwise (6.89)

2-b)音声含有率の推定 2-b)で用いる変数は，表6.58に従う．

音声含有率α^pn(f,ki)は，前フレームの事前SNRξn(f −1,ki)を用いて次のように計算される．

αn^p(f,ki) = αmag^p

( ξn(f−1,ki) ξn(f−1,ki)+1

+α_min^p (6.90)

2-c)ノイズ混入前の事前SNR推定 2-c)で用いる変数は，表6.59に従う．

事前SNRξn(k_i)は，次のようにして計算する．

ξn(ki) = (

1−α^pn(ki))

ξtmp+αn^p(ki)γ^Cn(ki) (6.91) ξtmp = a|Sˆn(f −1,ki)|²

λn(f −1,k_i) +(1−a)ξn(f −1,k_i) (6.92) ただし，ξtmpは計算上の一時的な変数で，前フレームの推定SNRγn(ki)と，事前SNRξn(ki)の内分値である．

また，ξn(k_i)> ξ^maxとなる場合，ξn(k_i)=ξ^maxと値を変更する．

2-d)最適ゲインの推定 2-d)で用いる変数は，表6.60に従う．

最適ゲイン計算の前に，上で求めた事前SNRξn(ki)と，推定SNRγn(ki)を用いて，以下の中間変数vn(ki)を計算する．

vn(ki) = ξn(ki)

1+ξn(k_i)γn(ki) (6.93) vn(ki)> θ^maxの場合，vn(ki)=θ^maxとする．

音声がある場合の最適ゲインG^H1(k_i)=[G^H1₁ (k_i), . . . ,G^H1_N (k_i)]は，

G^H1_n (ki) = ξn(k_i) 1+ξn(ki)exp

{1 2

∫ inf vn(ki)

e⁻^t t dt

}

(6.94) として求める．ただし，

G^H1_n (ki)=1 ifvn(ki)< θ^min

G^H1_n (k_i)=1 ifG^H1_n (k_i)>1. (6.95)

3)音声存在確率推定:

音声存在確率推定の流れを図6.64に示す．音声存在確率推定は，

a) 3種類の帯域ごとに事前SNRの平滑化

Voice probability estimation

c) Voice pause prob. est.

d) Optimal gain estimation

γ ( f , k )

n i

p ( f , k )

_n _i

ξ ( f , k )

n i

q ( f , k )

n i

a) Smoothing (frame)

a) Smoothing (global)

a) Smoothing (local)

b) Prob. est.

(frame)

b) Prob. est.

(global)

b) Prob. est.

(local)

ξ

frame

ξ

global

ξ

_local

P

global

P

frame

P

local

図6.64:音声存在確率推定の手順 b)各帯域で，平滑化したSNRを元に，暫定的な音声確率を推定 c) 3つの暫定確率をもとに音声休止確率を推定

d)最終的な音声存在確率を推定から成る．

3-a)事前SNRの平滑化 3-a)で用いる変数を表6.61にまとめる．

まず，式(6.91)で計算された事前SNRξn(f,ki)と，前フレームの時間平滑化事前SNRζn(f−1,ki)で，時間平滑化を行う．

ζn(f,k_i) = bζn(f −1,k_i)+(1−b)ξn(f,k_i) (6.96) 周波数方向の平滑化は，その窓の大きさによって，frame，global，localの順に小さくなっていく．

• frameでの周波数平滑化

周波数ビンFst∼Fenの範囲で加算平均による平滑化が行われる．

ζn^f(k_i) = 1 Fen−Fst+1

Fen

∑

k_j=F_st

ζn(k_j) (6.97)

• globalでの周波数平滑化

globalでは，幅Gでのhanning窓を用いた周波数平滑化が行われる．

ζn^g(k_i) =

(G∑−1)/2 j=−(G−1)/2

w_han(j+(G−1)/2)ζn(k_i₊_j), (6.98)

whan(j) = 1 C (

0.5−0.5 cos (2πj

G ))

, (6.99)

ただし，Cは∑G−1

j=0 whan(j)=1にするための正規化係数．

• localでの周波数平滑化

localでは，幅Fでの三角窓を用いた周波数平滑化が行われる．

ζn^l(ki) = 0.25ζn(ki−1)+0.5ζn(ki)+0.25(ki+1) (6.100)

3-b)暫定音声確率を推定 3-b)で用いる変数を表6.62に示す．

• Pn^f(ki)とζn^peak(ki)の計算

まず，ζn^peak(f,ki)を以下のように求める．

ζn^peak(f,ki) = 

 ζn^f(f,k_i), ifζn^f(f,k_i)>Z_thresζn^f(f−1,k_i)

ζn^peak(f −1,ki), if otherwise. (6.101) ただし，ζn^peak(k_i)の値はパラメータZ_min^peak,Z_max^peakの範囲に入るようにする．すなわち，

ζn^peak(ki) = 

 Z_min^peak, ifζn^peak(k_i)<Z_min^peak

Z_max^peak, ifζn^peak(ki)>Z_max^peak (6.102)

次に，Pn^f(k_i)を次のように求める．

P_n^f(k_i) =







0, ifζn^f(k_i)< ζn^peak(k_i)Z_min^f 1, ifζn^f(ki)> ζn^peak(ki)Z_max^f

log(

ζn^f(k_i)/ζn^peak(k_i)Z_min^f ) log(

Z_max^f /Z_min^f ) , otherwise

(6.103)

• P^g_n(ki)の計算

次の通りに計算する．

P^g_n(ki) =







0, if ζn^g(ki)<Z_min^g 1, if ζ^gn(ki)>Z_max^g

log(ζ^gn(ki)/Z^g_min)

log(^Zmax^g /Z_min^g ) , otherwise

(6.104)

• P^l_n(k_i)の計算

次の通りに計算する．

P^l_n(ki) =







0, if ζn^l(ki)<Z_min^l 1, if ζn^l(k_i)>Z_max^l

log(ζ^ln(k_i)/Z^l_min)

log(^Z^lmax/Z^l_min) , otherwise

(6.105)

3-c)音声休止確率推定 3-c)で用いる変数を表6.63に示す．

音声休止確率qn(ki)は，3つの周波数帯域の平滑化結果を元にして計算した暫定の音声確率Pn^f^,^g^,^l(ki)を次のように統合して得られる．

q_n(k_i) = 1−(

1−a^l+a^lP^l_n(k_i)) (

1−a^g+a^gP^g_n(k_i)) (

1−a^f +a^fP_n^f(k_i))

, (6.106)

ただし，qn(ki)<qminのとき，qn(ki)=qminとし，qn(ki)>qmaxのとき，qn(ki)=qmaxとする．

3-d)音声存在確率推定音声存在確率pn(ki)は，音声休止確率qn(ki)，事前SNRζn(ki)，式(6.93)により導出された中間変数v_n(k_i)を用いて次のように導出する．

p_n(k_i) = {

1+ q_n(k_i)

1−qn(ki)(1+ζn(k_i)) exp (−v_n(k_i)) }₋1

(6.107)

4)ノイズ除去: 出力である音声強調された分離音Sˆ_n(k_i)は，入力である分離音スペクトルY_n(k_i)に対して，最適ゲインG^H1_n (ki)，音声存在確率pn(ki)を次のように作用させることで導出する．

Sˆn(ki) = Yn(ki)G^H1_n (ki)pn(ki) (6.108)

表6.53:PostFilterのパラメータ表(後半)

パラメータ名型デフォルト値単位説明

EST VOICEP SETTING bool false 音声確率推定に関するパラメータを設

定する時，trueにする．

EST VOICEP SETTING 以下，EST VOICEP SETTINGがtrue

の時に有効．

PRIOR SNR SMOOTH FACTOR float 0.7 時間平滑化係数．

MIN FRAME SMOOTH SNR float 0.1 周波数平滑化SNRの最小値(frame)．

MAX FRAME SMOOTH SNR float 0.316 周波数平滑化SNRの最大値(frame)．

MIN GLOBAL SMOOTH SNR float 0.1 周波数平滑化SNRの最小値(global)．

MAX GLOBAL SMOOTH SNR float 0.316 周波数平滑化SNRの最大値(global)．

MIN LOCAL SMOOTH SNR float 0.1 周波数平滑化SNRの最小値(local)．

MAX LOCAL SMOOTH SNR float 0.316 周波数平滑化SNRの最大値(local)．

UPPER SMOOTH FREQ INDEX int 99 周波数平滑化上限ビンインデックス．

LOWER SMOOTH FREQ INDEX int 8 周波数平滑化下限ビンインデックス．

GLOBAL SMOOTH BANDWIDTH int 29 周波数平滑化バンド幅(global)．

LOCAL SMOOTH BANDWIDTH int 5 周波数平滑化バンド幅(local)．

FRAME SMOOTH SNR THRESH float 1.5 周波数平滑化SNRの閾値．

MIN SMOOTH PEAK SNR float 1.0 周波数平滑化SNRピークの最小値．

MAX SMOOTH PEAK SNR float 10.0 周波数平滑化SNRピークの最大値．

FRAME VOICEP PROB FACTOR float 0.7 音声確率平滑化係数(frame)．

GLOBAL VOICEP PROB FACTOR float 0.9 音声確率平滑化係数(global)．

LOCAL VOICEP PROB FACTOR float 0.9 音声確率平滑化係数(local)．

MIN VOICE PAUSE PROB float 0.02 音声休止確率の最小値．

MAX VOICE PAUSE PROB float 0.98 音声休止確率の最大値．

表6.54:変数の定義変数説明，対応するパラメータ

Y(ki)=[Y1(ki), . . . ,YN(ki)]^T 周波数ビンkiに対応する分離音複素スペクトル λ^init(ki)=[

λ^init₁ (ki), . . . , λ^init_N (ki)]T

定常ノイズ推定に用いる初期値パワースペクトル λ^sta(ki)=[

λ₁^sta(ki), . . . , λ^sta_N (ki)]T

推定された定常ノイズパワースペクトル．

αs 入力パワースペクトルの平滑化係数．パラメータ SPEC SMOOTH FACTOR，デフォルト0.5

S^tmp(k_i)=[

S^tmp₁ (k_i), . . . ,S^tmp_N (k_i)]

最小パワー計算用のテンポラリ変数．

S^min(ki)=[

S^min₁ (ki), . . . ,S^min_N (ki)]

最小パワーを保持する変数．

L Stmpの保持フレーム数．パラメータBLOCK LENGTH，デフォルト 80

δ 音声存在判定の閾値．パラメータVOICEP THRESHOLD，デフォルト3.0

αd 推定定常ノイズの混合比．パラメータ STATION-ARY NOISE MIXTURE FACTOR，デフォルト0.98

Y^leak(ki) 分離音に含まれると推定される漏れノイズのパワースペクトル q 入力分離音パワーから漏れノイズを除くときの係数．パラメータ

AMP LEAK FACTOR,デフォルト1.5

S_{f loor} 漏れノイズ最小値．パラメータLEAK FLOOR,デフォルト0.1

r 定常ノイズ推定時の係数．パラメータ STATION-ARY NOISE FACTOR,デフォルト1.2

表6.55:変数の定義変数説明，対応するパラメータ

λ^leak(ki) 漏れノイズのパワースペクトル，各分離音の要素から成るベクトル．

α^leak 全分離音パワーの合計に対する漏れ率．LEAK FACTOR×OVER CANCEL FACTOR Sn(f,ki) 式(6.73)で求める平滑化パワースペクトル

表6.56:変数の定義変数説明，対応するパラメータ

λ^rev(f,ki) 時間フレーム f での残響のパワースペクトル

Sˆ(f −1,k_i) 前フレームのPostFilterの出力したノイズ除去後分離音スペクトル

γ 前フレーム残響パワーの減衰係数．パラメータREVERB DECAY FACTOR，デフォルト0.5

∆ 前フレーム分離音の減衰係数．パラメータDIRECT DECAY FACTOR，デフォルト0.2

ドキュメント内 HARK Document (ページ 175-189)

第 6 章 ノードリファレンス 45

6.3 Separation カテゴリ

6.3.10 PostFilter

入力

出力

パラメータ

delay

PostFilter module Y ( f , k )

1. Noise estimation

2. SNR estimation

3. Voice probability estimation

4. Noise reduction

λ ( f , k )

S

( f , k )

S ( f -1 , k )

G ( f , k )

p ( f , k )

λ( f , k )

Noise estimation

Y ( f , k )

a) Stationary noise estimation (MCRA)

λ

( f , k )

S

( f-1 , k )

c) Reverberation estimation

λ ( f , k )

b) Leak noise

estimation

SNR estimation Y ( f , k )

a) SNR calculation

S

( f-1 , k )

λ( f , k )

c) prior SNR estimation b) Voice rate

estimation

d) Optimal gain estimation

γ ( f , k )

G ( f , k )

ξ ( f , k )

ξ ( f-1 , k )

α ( f , k )

Voice probability estimation

c) Voice pause prob. est.

d) Optimal gain estimation

γ ( f , k )

p ( f , k )

ξ ( f , k )

q ( f , k )

a) Smoothing (frame)

a) Smoothing (global)

a) Smoothing (local)

b) Prob. est.

(frame)

b) Prob. est.

(global)

b) Prob. est.

(local)

ξ

ξ

ξ

P

P

P

第 6 章ノードリファレンス 45