GHDSS

第 6 章ノードリファレンス 45

6.3 Separation カテゴリ

6.3.6 GHDSS

ノードの概要

GHDSS (Geometric High-order Dicorrelation-based Source Separation)アルゴリズムに基づいて，音源分離処理を行う．GHDSSアルゴリズムは，マイクロホンアレイを利用した処理で，

1. 音源信号間の高次無相関化 2. 音源方向へ指向性の形成

という２つの処理を行う．2．の指向性は，事前に与えられたマイクロホンの位置関係を幾何的制約として処理を行う．また，HARKに実装されているGHDSSアルゴリズムは，マイクロホンの位置関係に相当する情報として，マイクロホンアレイの伝達関数を利用することができる．

ノードの入力は，混合音のマルチチャネル複素スペクトルと，音源方向のデータである．また，出力は分離音ごとの複素スペクトルである．

HARK 2.1の変更点:

1. ファイル形式の変更

TF CONJ FILENAMEで指定される伝達関数ファイル及びINITW FILENAME、EXPORT W FILENAME で入出力される分離行列ファイルのファイル形式が5.3節で示されるファイルフォーマットに変更された．

2. POS引き継ぎ時の許容誤差の指定方法の変更

UPDATE METHOD TF CONJ, UPDATE METHOD WをPOSまたはID POSとしたときの、許容誤差の指定方法を距離[mm]とするよう変更した．

必要なファイル

表6.43:GHDSSに必要なファイル対応するパラメータ名説明

TF CONJ FILENAME マイクロホンアレーの伝達関数

INITW FILENAME 分離行列初期値

使用方法

どんなときに使うのか

所与の音源方向に対して，マイクロホンアレイを用いて当該方向の音源分離を行う．なお，音源方向として，

音源定位部での推定結果，あるいは，定数値を使用することができる．

典型的な接続例

GHDSSノードの接続例を図6.50に示す．入力は以下の２つが必要である．

1. INPUT FRAMESには，混合音の多チャネル複素スペクトル，

2. INPUT SOURCESには，音源方向．

出力である分離音声に対して音声認識を行うために，MelFilterBankなどを利用して，音声特徴量に変換する以外に，以下のような音声認識の性能向上方法もある.

1. PostFilterノードを利用して，音源分離処理によるチャネル間リークや拡散性雑音を抑圧する（図6.50右上参照）．

2. PowerCalcForMap，HRLE，SpectralGainFilterを接続して，音源分離処理によるチャネルリークや拡散性雑音を抑圧する（PostFilterと比較して，チューニングが容易）．

3. PowerCalcForMap，MelFilterBank，MFMGenerationを接続して，ミッシングフィーチャ理論を用いた音声認識を行うために，ミッシングフィーチャーマスクを生成する（図6.50右下参照）．

図6.50:GHDSSの接続例

ノードの入出力とプロパティ

入力

INPUT FRAMES :Matrix<complex<float> >型．マルチチャネル複素スペクトル．行がチャネル，つまり，

各マイクロホンから入力された波形の複素スペクトルに対応し，列が周波数ビンに対応する．

INPUT SOURCES :Vector<ObjectRef>型．音源定位結果等が格納されたSource型オブジェクトのVector配列である．典型的には，SourceTrackerノード，SourceIntervalExtenderノードと繋げ，その出力を用いる．

出力

OUTPUT :Map<int, ObjectRef>型．分離音の音源IDと，分離音の1チャネル複素スペクトル (Vector<complex<float> >型)のペア．

パラメータ

LENGTH :int型．分析フレーム長．前段階における値（AudioStreamFromMic，MultiFFTノードなど）と一致している必要がある．

表6.44:GHDSSのパラメータ表

パラメータ名型デフォルト値単位説明

LENGTH int 512 [pt] 分析フレーム長．

ADVANCE int 160 [pt] フレームのシフト長．

SAMPLING RATE int 16000 [Hz] サンプリング周波数．

LOWER BOUND FREQUENCY int 0 [Hz] 分離処理で用いる周波数の最小値

UPPER BOUND FREQUENCY int 8000 [Hz] 分離処理で用いる周波数の最大値

TF CONJ FILENAME string マイクロホンアレーの伝達関数を記したファイ

ル名．

INITW FILENAME string 分離行列の初期値を記述したファイル名．

SS METHOD string ADAPTIVE 高次無相関化に基づくステップサイズの算出方

法．FIX, LC MYU, ADAPTIVEから選択．FIX は固定値，LC MYUは幾何制約に基づくステップサイズに連動した値，ADAPTIVEは自動調節．

SS METHOD==FIX 以下SS METHODがFIXの時に有効．

SS MYU float 0.001 高次無相関化に基づく分離行列更新時のステッ

プサイズ

SS SCAL float 1.0 高次相関行列計算におけるスケールファクタ

NOISE FLOOR float 0.0 入力信号をノイズとみなす振幅の閾値(上限)

LC CONST string FULL 幾何制約の手法を決める．DIAG, FULLから選

択．DIAGは対角成分を使うのみ．FULLは全成分を使用する．

LC METHOD string ADAPTIVE 幾何制約に基づくステップサイズの算出方法．

FIX, ADAPTIVE から選択．FIX は固定値， ADAPTIVEは自動調節．

LC METHOD==FIX 以下LC METHODがFIXの時に有効．

LC MYU float 0.001 高次無相関化に基づく分離行列更新時のステッ

プサイズ

UPDATE METHOD TF CONJ string POS 伝達関数を更新する手法を指定．POS，IDから選択．

UPDATE METHOD W string ID 分離行列を更新する手法を指定． ID，POS，

ID POSから選択．

UPDATE ACCEPT DISTANCE float 300.0 [mm] 音源移動時に同一音源とみなす距離の閾値．

EXPORT W bool false 分離行列をファイルに書き出すかを指定．

EXPORT W==true 以下EXPORT Wがtrueの時に有効．

EXPORT W FILENAME string 分離行列を書きだすファイル名．

UPDATE string STEP 分離行列の更新方法を決める．STEP，TOTAL

から選択．STEPは高次無相関化に基づく更新を行った後に，幾何制約に基づく更新を行う．

TOTALでは，高次無相関化に基づく更新と幾何制約に基づく更新を同時に行う．

ADVANCE :int型．フレームのシフト長．前段階における値（AudioStreamFromMic，MultiFFTノードなど）

と一致している必要がある．

SAMPLING RATE :int型．入力波形のサンプリング周波数．

LOWER BOUND FREQUENCY GHDSS処理行う際に利用する最小周波数値であり，これより下の周波数に対しては処理を行わず，出力スペクトルの値は0となる．0以上サンプリング周波数値の半分までの範囲で指定する．

UPPER BOUND FREQUENCY GHDSS 処理を行う際に利用する最大周波数値であり，これより上の周波数に対しては処理を行わず，出力スペクトルの値は0となる．LOWER BOUND FREQUENCY< UP-PER BOUND FREQUENCYである必要がある．

TF CONJ FILENAME :string型．伝達関数の記述されたバイナリファイル名を記す．ファイルフォーマッ

トは5.3.1節を参照．

INITW FILENAME :string型．分離行列の初期値を記したファイル名．事前の計算により，値の収束した分離行列を初期値として与えることで，音が鳴り始めた最初の部分から精度よく分離することが可能となる．ここで与えるファイルは，EXPORT Wをtrueにすることで，予め用意しておく必要がある．ファイルフォーマットは5.3.2節を参照．

SS METHOD :string型．高次無相関化に基づくステップサイズの算出方法を選ぶ．ユーザが指定した値に固定する場合はFIX，幾何制約に基づくステップサイズに連動した値にする場合はLC MYU，自動調節する場合はADAPTIVEを指定．

1. FIXのとき: SS MYUを設定する．

SS MYU: float 型．0.01 がデフォルト．高次無相関化に基づく分離行列更新時のステップサイズを指定する．この値とLC MYUを 0 にし，Delay and Sum型のビームフォーマの分離行列を INITW FILENAMEとして渡すことで，GHDSSは，Delay and Sum型のビームフォーマと等価な処理が可能となる．

SS SCAL :float型．1.0がデフォルト．高次相関行列計算における双曲線正接関数(tanh)のスケールファクタを指定する．0より大きい正の実数を指定する．値が小さいほど非線形性が少なくなり通常の相関行列計算に近づく．

NOISE FLOOR :float型．0がデフォルト．入力信号をノイズとみなす振幅の閾値(上限)を指定する．入力信号の振幅がこの値以下の場合，ノイズ区間とみなされ，分離行列の更新がされない．ノイズが大きく，

分離行列が安定して収束しない場合に，正の実数を指定する．

LC CONST :string型．幾何制約の手法を選択する．幾何制約に対角成分（直接音成分）のみを使う場合は DIAG直接音成分に加えて，非対角成分も使用する場合はFULLを指定する．死角は高次無相関化によって自動的に形成されるため，DIAGでも高精度な分離が可能．デフォルトはFULL．

LC METHOD :string型．幾何制約に基づくステップサイズの算出方法を選ぶ．ユーザが指定した値に固定する場合はFIX，自動調節する場合はADAPTIVEを指定．

1. FIXのとき: LC MYUを設定する．

LC MYU:float型．0.001がデフォルト．幾何制約に基づく分離行列更新時のステップサイズを指定する．この値とLC MYUを0にし，Delay and Sum型のビームフォーマの分離行列をINITW FILENAME として渡すことで，GHDSSは，Delay and Sum型のビームフォーマと等価な処理が可能となる．

UPDATE METHOD TF CONJ :string型．IDまたはPOSを指定する．POSがデフォルト．伝達関数の複

素共役TF CONJの更新をするかの判断を，各音源に付与されたIDに基づいて行う(IDの場合)か，音

源位置によって行う(POSの場合)かを指定する．

UPDATE METHOD W :string型．ID，POSまたはID POSを指定．IDがデフォルト．音源位置情報が変わった際に，分離行列の再計算が必要となる．この時の音源位置情報が変わったとみなす方法を指定する．分離行列は，内部で対応する音源IDや音源方向の座標とともに一定時間保存され，一度音が止んでも，同一の方向からの音源と判断される音が検出されると，再び保存された分離行列の値を用いて分離処理が行われる．このとき，分離行列の更新を行うかどうかの基準を設定する．IDを設定した場合，音源 IDによって同方向音源かどうか判断する．POSを設定した場合，音源方向を比較して判断する．ID POS を設定した場合，音源IDを比較し，同一と判断されなかった場合は，さらに音源方向の座標を比較して判断を行う．

ドキュメント内 HARK Document (ページ 152-162)

第 6 章 ノードリファレンス 45