上ノ原進吾

(1)

マルチチャネル非負値行列因子分解における階層的クラスタ分析を用いた音源分離性能の向上 *

浦本昂伸

^†

上ノ原進吾

^†

古家賢一

^†

Improvement of Sound Source Separation by Using Hierarchical Cluster Analysis in Multichannel Nonnegative Matrix Factorization

^∗

Takanobu URAMOTO

^†

, Shingo UENOHARA

^†

, and Ken’ichi FURUYA

^†

あらまし非負値行列因子分解(Nonnegative Matrix Factorization: NMF)とは，非負値の行列を二つの非負値行列に因子分解する手法である．音響分野では，NMFをマルチチャネル拡張することで空間情報を活用し，

高精度に音源分離を行う手法であるマルチチャネルNMF (Multichannel NMF: MNMF)が提案されている．しかし，MNMFは自由度の高いモデルであるため局所最適解に陥りやすく，分離性能の初期値依存性が課題となっている．先行研究として，2チャネルを用いた研究が盛んに行われているが，本論文では，3チャネル以上にチャネル数を増やした場合を検討する．音源の分離実験より，ランダムな初期値を設定した場合には，チャネル数を増加させても，分離性能が向上しないことが確認された．そこで，ランダム初期値を設定した従来法の分離結果として得られる空間相関行列を用い，分離信号に対して階層的クラスタ分析を行う．分析結果として得られたクラスタの中で同じものに属する信号同士をアンサンブル平均することで，新たな信号を算出する手法を提案した．

ランダム初期値の場合よりも分離性能が向上することから，提案法の有効性を確認した．

キーワード音源分離，雑音除去，非負値行列因子分解(NMF)，マルチチャネルNMF，階層的クラスタ分析

1.

^{まえがき}

近年，スマートフォンやハンズフリー機器，テレビ会議システムなどの音声を取り扱うオーディオ機器が身の回りに広く普及している．様々な音が混在する環境下での利用が想定され，実際に利用する場合には，

周囲の雑音や他話者の音声の影響によって，目的音の抽出が困難になるという問題が生じる．この問題の解決には，音源分離技術が必要であり，様々なアプローチが提案されている．例えば，音源の独立性を仮定することで雑音と目的音を分離する独立成分分析

[1]

や独立ベクトル分析

(Independent Vector Analysis:

IVA) [2], [3]

，音源信号がスパースと仮定し時間周波数マスキングにより分離する

DUET (Degenerate Un- mixing Estimation Technique) [4]

，頻出する基底ごとに分離して雑音の成分を除く非負値行列因子分解

†大分大学，大分市

Oita University, Dannnoharu, 700 Oita-shi, 870–1192 Japan

*本論文は学生論文特集秀逸論文である．

DOI:10.14923/transinfj.2018PDP0007

(Nonnegative Matrix Factorization: NMF) [5]

，

IVA

に

NMF

による低ランク近似分解を導入し，空間モデルと音源モデルを同時に推定することで分離を達成する独立低ランク行列分析

(Independent Low-rank Matrix Analysis: ILRMA) [6]

などがある．

NMF

では単一チャネルのモノラル信号から複数の音源に分離できるが，基底ごとに分解した音を各音源に対応付けるのは容易ではない．そこで，

NMF

をマルチチャネル拡張し，多チャネル信号に対応したマルチチャネル

NMF (Multichannel NMF: MNMF)

が提案されている

[7]

．

MNMF

ではチャネル間の空間情報を活用し，

音源数を事前に設定することで，音源と基底の対応付けが可能である．

IVA

や

ILRMA

は

MNMF

よりも，

モデルパラメータ推定が容易かつ低コストで分離可能であるが，優決定条件（音源数

≤

観測マイク数）の場合において有効な手法である．一方，

MNMF

は劣決定条件（音源数

>

観測マイク数）に有効な手法であり，観測環境下に多くの音源が存在する場合でも，少ないマイク数で分離できる．ただし，自由度の高いモ

(2)

デルであるため，局所最適解に陥りやすく，分離性能の初期値依存性が課題となる

[8], [9]

．また，チャネル数が増加するほど自由度が増加するので，この初期値依存性が顕在化して分離が困難となる．先行研究により，チャネル数を増加させた

MNMF

に対して有効な手法が提案されており，分離行列にランダムな初期値を設定する従来法に比べると事前に計算した初期値を設定することで，分離性能が向上し，ばらつきが安定することが分かっている

[10]

．ただし，問題点として初期値を計算するには，あらかじめ音源の到来方向が既知でなければいけないなどの制約条件が必要となる．

本論文では，

MNMF

のチャネル数増加によって引き起こる分離性能低下の問題を解決するための手法として，事前の初期値設定を行わず，ランダム初期値のまま音源分離をして得られた分離信号を利用し，新たな信号を算出する手法を提案する．この手法では，複数のランダム初期値を用いた音源分離の後，得られた行列をもとにクラスタ分析を行う．そして，同じクラスタに属する行列から復元した信号をアンサンブル平均することで，単一のランダム初期値の分離信号よりも高い分離性能をもつ新たな信号を算出する．得られた信号から分離性能を評価して，提案法の有効性を検証する．

論文の構成は以下のようである．

2.

^では，

MNMF

について説明し，

3.

では，ランダムに初期値を設定しチャネル数を増加させた場合の分離性能の初期値依存性について実験的に分析を行う．

4.

では，チャネル数を増加させた場合に有効な階層的クラスタ分析とアンサンブル平均を用いた手法を提案し，

5.

^{では，提案法} の評価実験を行う．最後に

6.

で本論文をまとめ，今後の課題を提示する．

2. MNMF

2. 1

概要

MNMF [7]

とは，

NMF [5]

をマルチチャネル拡張したものであり，複素観測行列

X

を

2. 2

に述べる四つの行列

H, Z, T, V

に分解する．

MNMF

では空間情報を用いてスペクトル基底を

L

^{個の音源にクラスタ} リングすることで事前の学習なしで音源分離を実現する．位相情報を扱うために複素数を用いるので，複素数における非負性に対応するものとして，エルミート半正定値行列を用いる

[7]

．

2. 2

定式化

M

をマイクロホン数として入力ベクトルを

˜ x =

[˜ x

1

, · · · , x ˜

M

]

とする．ただし，は転置を表す．

x ˜

m

は

m

番目のマイクロホンでの

Short Time Fourier Transform (STFT)

の複素係数であり，スペクトログラムを指す．周波数

i (1 ≤ i ≤ I )

，時間

j (1 ≤ j ≤ J )

のとき

˜ x

ijで表すと行列

X

^の

i , j

^成分を

X

ijとし，

X

ij

= ˜ x

ij

x ˜

^H_ij^若しくは

i , j

^{それぞれについて}

X

ij

= ˜ x

ij

˜ x

^H_ij

=

⎡

⎢ ⎣

| x ˜

¹

|

²

· · · x ˜

¹

x ˜

^∗_M

.. . . . . .. . x ˜

M

x ˜

^∗1

· · · |˜ x

M

|

²

⎤

⎥ ⎦ ⁽¹⁾

となる．ただし，^Hはエルミート転置を表し，対角成分には各マイクロホンで観測したパワー（実数），非対角成分にはマイクロホン間の位相差（複素数）が示される．すなわち，行列

X

は，

I

行

J

列のそれぞれの要素が

M × M

のエルミート半正定値行列であり，これらの行列からなる階層的な構造をもつ．この行列

X

^を

MNMF

で分解すると，

K

個の基底からなる基底行列

T ( ∈ R

^I×K

)

，アクティベーション行列

V ( ∈ R

^K×J

)

，音源の空間情報を示す空間相関行列

H

と音源の空間情報と各基底を関連付ける潜在変数行列

Z(∈ R

^L×K

)

という四つの行列の積

X ˆ

に分解され，次式で示される．

X ≈ X ˆ = ( HZ ◦ T ) V (2)

ただし，

◦

はアダマール積を表す．行列

H

^は行列

X

と同様にそれぞれの要素が

M × M

^{の複素行列をもつ}

I

行

L

列の階層的なエルミート半正定値行列である．

図

1

は式

(2)

を図式化したもので，このとき，右辺は

X ˆ

ij

=

K k=1

L l=1

H

il

z

lk

t

ik

v

kj

(3)

と表すことができ，理想的には行列

X

^と

ˆX

ijを要素にもつ行列

X ˆ

は等しくなる．しかし，一般的には誤差が生じるため，

MNMF

では行列

X

と行列

X ˆ

との距離

図1 MNMFで分解された行列の例（グレーは複素数）

Fig. 1 Example of a decomposed matrix by using MNMF (Gray denotes complex values).

(3)

D

∗

( X, X ˆ ) =

I

i=1

J j=1

d

∗

( X

ij

, X ˆ

ij

) (4)

を定義し，この距離を最小化する行列

T , V , H , Z

を求める．今回はダイナミックレンジが大きい音楽や音声に適している

Itakura-Saito (IS) divergence [14]

を用いる．式

(4)

の右辺における

X

ijと

X ˆ

ij間の距離について以下のように定義する．

d

IS

( X

ij

, X ˆ

ij

) =

tr ( X

ij

X ˆ

⁻_ij¹

) − log det X

ij

X ˆ

⁻_ij¹

− M (5)

ただし，

tr (

・

)

は対角要素の和を表している．

2. 3

行列分解アルゴリズム

D

IS

(X, X) ˆ

を最小化するために，

Multiplicative up- date rule [15]

と呼ばれる反復アルゴリズムを，ランダムな非負の値で初期化した行列

T

^，

V

^，

Z

^{並びに各要} 素へ単位行列をもたせた行列

H

^{に繰り返し適用する．}

IS divergence

を用いた場合，更新式は以下のようになる．

t

ik←

t

ik

l

z

lk

j

v

kj

tr (ˆ X

⁻_ij¹

X

ij

X ˆ

⁻_ij¹

H

il

)

l

z

lk

j

v

kj

tr (ˆ X

⁻_ij¹

H

il

) (6)

v

kj←

v

kj

l

z

lk

i

t

ik

tr (ˆ X

⁻_ij¹

X

ij

X ˆ

⁻_ij¹

H

il

)

l

z

lk

i

t

ik

tr (ˆ X

⁻_ij¹

H

il

) (7)

z

lk←

z

lk

i,j

t

ik

v

kj

tr (ˆ X

_ij⁻¹

X

ij

X ˆ

⁻_ij¹

H

il

)

i,j

t

ik

v

kj

tr (ˆ X

⁻_ij¹

H

il

) (8) H

ilについては次式の

A

，

B

を係数にもつ代数リッカチ方程式を解くことで求めることができる．

A =

k

z

lk

t

ik

j

v

kj

X ˆ

⁻_ij¹

(9)

B = H

il

k

z

lk

t

ik

j

v

kj

X ˆ

⁻_ij¹

X

ij

X

⁻_ij¹

H

il

(10)

H

il

AH

il

= B (11)

ただし，

H

_il^{は更新前の行列}

H

ilを表しており，解き方は文献

[7]

に示されている．

2. 4

正規化

行列

H

と行列

Z

については，更新ごとに発散を防

ぐために正規化を行わなければならない．正規化は以下の式で行った．

H

il

= H

il

tr ( H

il

) ,

z

lk

= z

lk

l

z

lk

(12)

2. 5

音源分離

音源分離を行うために次式で表されるウィナーフィルタを用いる．

Y = S ˆ

S ˆ + N X (13)

ただし，

Y

は目的信号，

S ˆ

は目的信号の推定値，

N

^{は雑音信号，}

X

は雑音信号を含んだ目的信号を示す．

y ¯

⁽_ij^l⁾ を分離後の音源としたとき，

Y = ˜ y

⁽_ij^l⁾

, S ˆ = (

_K

k=1

z

lk

t

ik

v

kj

) H

il

, ˆ S + N = ˆ X

ij

, X = ˜ x

ijを代入すると，次式のマルチチャネルウィナーフィルタとなり，各音源に対応した分離信号を得られる

[7]

．

y ˜

⁽_ij^l⁾

=

K k=1

z

lk

t

ik

v

kj

H

il

X ˆ

⁻_ij¹

x ˜

ij

(14)

3.

チャネル数増加に伴う初期値依存性の分析

MNMF

は自由度の高いモデルであるため，反復更新処理の最中に局所最適解が増えることで，

2

チャネルの場合でも初期値依存による分離性能のばらつきが問題となることが報告されている

[8]

．更に

3

チャネル以上になると，この初期値依存性が顕在化することによって，音源分離がより困難になる

[10]

．ここでは，

ランダム初期値の従来法でチャネル数を増加させた場合の初期値依存性について実験的に提示する．

3. 1

実験条件

実験に用いた混合信号は表

1 [16]

の音楽データに，

図

2

の環境で測定した

RWCP

実環境音声・音響データベースのインパルス応答

(E2A) [17]

を畳み込み作成した．図

2

においてマイクロホンは右から順に

1-14

まで番号が付いている．今回の実験で使用したマイクロホン番号を表

2

に示す．ここで，チャネル数を増やした際に，元のマイクロホンが含まれているようにした．

例えば

3

チャネルのマイクロホンの組には

2

チャネルのマイクロホンの組が含まれている．なお，使用マイクロホン間隔は

5.66cm

である．分離処理に用いたパラメータを表

3

に示す．なお，表

3

をもとに計算した表

1

の各音楽データのスペクトログラムは，

I =513

，

J

(4)

図2 マイクロホンと音源の配置図

Fig. 2 Arrangement of microphones and sound sources.

は

ID1

：

991

，

ID2

：

1598

，

ID3

：

1536

，

ID4

：

1161

である．また，

MNMF

での

IS divergence

の計算

(4)

において行列式が

0

になるのを防ぐために

X

ijの対角要素に

10

⁻¹⁰を足している．プログラムは

Sawada

らのアルゴリズム

[7]

を

MATLAB

で実装した．ただし，音源数は既知として

pairwize-merge

は導入せず，

Mul- tiplicative update rule

の反復適用のみ行っている．

また，文献

[7]

に倣い，初めの

20

回は空間相関行列

H

と潜在変数行列

Z

を更新せず，その他の変数のみを更新した．潜在変数行列

Z

と基底行列

T

，アクティベーション行列

V

には，一様分布から生成した

10

個の初期値パターンを用意し，音源分離を実行する．ただし，

文献

[7]

と同様に空間相関行列

H

^{は対角成分が}

1 /M

の対角行列，潜在変数行列

Z

^は

0.2

〜

0.4

の一様乱数をもたせた．分離性能の評価基準は，分離信号が目的とする正解信号に対してどの程度ひずんでいるのかをパワー比で表す

Signal-to-Distortion Ratio (SDR) [18]

を用いた．

SDR

の計算には，

[19]

に公開されているスクリプトを利用した．なお，

bss decomp mtifilt.m

を用いて式

(15)

，

bss mcrit.m

を用いて式

(16)

の計算を行った．

SDR

を計算する際に評価したい音を成分ごとに分解しなければならない．分解すると

s

^est

( t ) = s

^img

( t )+ y

^spat

( t )+ y

^int

( t )+ y

^artif

( t ) (15)

となる．ここで，

s

^estは目的音源の推定信号，

s

^img^は目的音源の正解信号，

y

^spatは空間（フィルタリング）

ひずみ，

y

^intは目的音源以外の音源の信号，

y

^artif^は分離処理による信号のひずみを表す．これらは最小

2

表1 実験に用いた音楽データ Table 1 Music data used for the experiment.

ID Author/Song Snip Part

1 Bearlin 85-99 piano

Roads (14 sec) ambient vocals 2 Another Dreamer 69-94 drums The Ones We Love (25 sec) vocals guitar

3 Fort Minor 54-78 drums

Remember The Name (24 sec) vocals violin+synth

4 Anonymous 43-61 drums

Ultimate Nz Tour (18 sec) guitar synth

表2 チャネル数ごとのマイクロホン番号 Table 2 Microphone IDs of each channel.

2ch 6,8 3ch 6,8,10 4ch 4,6,8,10 5ch 4,6,8,10,12 6ch 2,4,6,8,10,12

表3 分離処理に用いるパラメータ Table 3 Parameters of a separation process.

Reverberation time 300ms Sampling rate 16kHz Flame size 1024

Shift size 256 Number of basis K 30 Number of source L 3 Number of iteration 500

乗法による予測によって求めることができる．なお，

フィルタサイズは

512 (32ms)

とした．そして，これらの成分を用いてパワー比を計算すると

SDR = 10 log

₁₀

t

s

^img

( t )

²

t

y

^spat

( t )

²

+ y

^int

( t )

²

+ y

^artif

( t )

²

(16)

を求めることができる．この尺度を用いる場合は各音源の独立したデータが必要である．

3. 2

初期値依存性

図

3

は

2

チャネルを用いたときの

MNMF

において，行列

Z

^，

T

^，

V

^{にランダムな初期値を}

10

回与えて音源分離を行ったときの分離性能の結果を示している．音楽データは表

1

の

ID4

を使用した．この図から，

1

回目の分離では

SDR

が約

6 . 5 dB

だが，

3

回目では

SDR

が約

1 dB

というように設定した初期値によって分離性能が大きく異なっていることが分かる．

3. 3

チャネル数増加に伴う初期値依存性

ランダム初期値の従来法において，単純にチャネル

(5)

図3 音源分離性能の初期値依存性

Fig. 3 Initial-value dependency of sound source separation performance.

図4 チャネル数増加に伴う初期値依存性 Fig. 4 Initial-value dependency with increasing the

number of channels.

数を増やした場合の分離性能の結果を示す．図

4

は各音楽データとチャネル数ごとの分離後に得られた

3

音源の平均

SDR

を示したものである．エラーバーは

SDR

のばらつきの大きさを表した標準偏差である．この図から，チャネル数が増加しても分離性能が必ずしも向上しないことや標準偏差が大きくなることが分かる．これは，局所最適解による初期値依存性がチャネル数の増加に伴って，より顕在化したためだと考えられる．

4.

^{提案手法}

4. 1

着眼点

MNMF

の分離性能は，空間相関行列

H

に対する初期値依存性が最も大きいことが分かっている

[9]

．そこで，行列

H

に着目する．ここでは，初期値がランダムの従来法で得られた分離後の行列

H

^{に対して，}

SDR

が最も高いものとその他との関係性について，二つの行列

H

の非対角成分の差の絶対値を距離として用いて分析を行った．この距離はそれぞれの音源に対応す

図5 bestHとの距離とSDRの関係性(2ch) Fig. 5 Relationship between distance to bestH and

SDR.

表4 チャネル数ごとの相関係数 Table 4 Correlation coeﬃcient for each channel.

2ch -0.87 3ch -0.91 4ch -0.94 5ch -0.91 6ch -0.86

る二つのマイクロホン間の相関同士の違いの大きさを表している．行列

H

間の差異を評価するには，対角成分に含まれるパワーよりも非対角成分の位相情報を用いた方が

2

点間を比較するには望ましいと考え，この距離を採択した．図

5

では，最も

SDR

が高いものを

bestH

と表記した．

bestH

から距離が離れていくほど

SDR

が低下する傾向が見られる．表

4

に示されるように，各チャネル数で距離と

SDR

には高い負の相関が見られる．そこで，提案法ではこれらの関係性に着目し，複数のランダムな初期値に対する分離後の行列

H

に対して，上記距離に基づいて階層的クラスタ分析を行う．その結果，得られたクラスタの中で同じものに属する信号同士をアンサンブル平均して，

SDR

という観点から単一のランダム初期値から復元された分離信号よりも更に高性能な分離信号を算出する手法を提案する．

4. 2

階層的クラスタ分析

[11]

とは，数値分類法の一種である．異なる集団に属する複数の個体から個体間の距離に基づいて，類似するものを順次集めてクラスタを作成する手法である．なお，個体間距離には分離後の行列

H

の非対角成分に含まれる位相情報を利用し，

二つの行列間の差の絶対値の位相を距離として計算した．表

5

は五つの個体について，全ての組合せについて距離を計算し，行列の形式で配列した距離行列であ

(6)

表5 距離行列 Table 5 Distance matrix.

図6 クラスタ形成の様子 Fig. 6 State of cluster formation.

る．数値が小さいほど，互いに類似度が高い（距離が近い）ことを示す．クラスタ分析を行う際には，このような距離データを基準としてクラスタを分類する．

図

6

はクラスタ形成の様子を示している．はじめに

A

〜

E

の五つの標本点がある．その中で最も距離が近い組合せは，

A

と

B

である．

A

と

B

でクラスタを形成し，この

2

点の重心を求める．次に

AB

の重心，

C

，

D

，

E

の

4

点で最も距離の近い組合せを探索する．

C

と

D

が最も距離が近い組合せなので，

C

と

D

でクラスタを形成し，重心を求めて新たな組合せを探索するといった処理を残りの標本点がなくなるまで繰り返し行う．それと同時にクラスタが形成される途中過程を階層のように表すことができ，図

7

のようなデンドログラム^（注¹^）ができる．ただ分類するだけではなく，結果として出力されるデンドログラムから任意の数のクラスタに分類することが可能である．例えば図

7

を三つのクラスタに分類する場合は，縦線を横に切るような線を引き，その線から下につながっている葉を一つのクラスタとする．なお，クラスタ間の距離計算にはウォード法

[12]

を使用した．

（注1）：木構造に似ているグラフで，ラベルが付いている箇所を葉と言い，葉から伸びている線が連結するまでの高さが短いほど個体が類似している．

図7 クラスタ分析の例 Fig. 7 Example of cluster analysis.

4. 3

行列距離の求め方

行列

H

^{の各成分は}

M × M

^{の行列から構成されて} おり，これらの非対角成分の差の絶対値の位相をクラスタ分析に用いる距離とした．行列距離を

D

，標本数を

N

として，_N

C

2個の重複しない組合せから全ての距離について以下の式から算出する．なお，この距離は距離の公理を満たす（付録参照）．

D =

I

i=1

L l=1

a

il

(17)

a

il

=

M1

m1=1 M2

m2=1

2arcsin( | ( h

⁽m^N1⁼mⁿ2⁾

− h

⁽m^N1⁼mⁿ2⁾

|

2 ) u

m1m2

(18)

U =

⎡

⎢ ⎢

⎢ ⎣

u

¹¹

· · · · u

¹m₂

.. . . . . .. . .. . . . . .. . u

m11

· · · · u

m1m2

⎤

⎥ ⎥

⎥ ⎦ ⁼

⎡

⎢ ⎢

⎢ ⎣

0 1 · · · 1 .. . . . . . . . .. . .. . . . . 1 0· · · · 0

⎤

⎥ ⎥

⎥ ⎦

(19)

ただし，

MNMF

の性質上，異なる初期値で分離するたびに行列

H

の

l

番目に一意の音源情報が定まらない．そこで，

L !

個の並び替えを考慮して，全通りの距離

D

を計算する．その中で，最小の距離を同じ順で

l

が並んでいると判断し，クラスタ分析に適用する距離として算出する．その様子を図

8

に示す．

4. 3. 1

ウォード法

ウォード法とは，二つのクラスタを結合したときにクラスタ内の分散が小さく，かつクラスタ間の分散の比を最大化する基準でクラスタを形成する手法である．

標本点を

x

iとし，二つの標本点

x

1，

x

2に対して距離を用いる場合は

D ( x

1

, x

2

)

と表す．同様に各クラスタ

(7)

図8 行列H間距離の計算

Fig. 8 Calculation of distance between matrix H.

を

C

iとすると，クラスタ間距離は

D ( C

¹

, C

²

) = E ( C

¹

∪ C

²

) −E ( C

¹

) −E ( C

²

) (20)

と定義される．ただし，

E ( C

i

) =

x∈C_i

( D ( x, c

i

))

²

(21)

であり，

c

iはクラスタの重心となる標本平均ベクトルであり，以下の式から求める．

c

i

= 1

|C

i

|

x∈Ci

x (22)

4. 4

アンサンブル平均

[13]

とは，同一の信号を複数回観測し，加算平均することで雑音を抑圧する手法である．

x

^{は観測信号，}

s

は目的音源の正解信号，

w

^は雑音信号ならば，

x

n

= s

n

+ w

n

(23)

と表せる．更に，観測信号を何度も取得し，それらの平均を計算することで，

1 N

N n=1

x

n

= 1 N

N n=1

( s

n

+ w

n

) (24)

となる．観測回数が

N

回のとき，もしも同じ目的信号を繰り返し取得できれば，それらを平均することで不規則に発生する雑音の影響を少なくすることができ，

N →∞

^{で目的音源}

s

に近づいていく．このとき，目的信号の振幅は等しく，一方で雑音信号は

1/ √

N

^倍となる．

SN

比は

√

N

倍に向上し，相対的に目的信号が

図9 信号に対するアンサンブル平均の例 Fig. 9 Example of ensemble processing on signals.

強調されることになる．提案法では，クラスタ分析の後に得られた同じクラスタ内に属する信号に対してアンサンブル平均を適用する．

4. 5

信号の並び替え

4. 3

で述べたように，

MNMF

は異なる初期値で分離するたびに行列

H

^の

l

がもつ音源情報の順番は異なる．同様に復元した分離信号も一意の箇所に割り当てられない．ただし，アンサンブル平均する際には同じ種類の音源の分離信号同士で行うため，分離信号の順番を揃えておく必要がある．そこで，行列

H

間の距離

D

を計算するときの並び替え情報を利用する．図

8

に示されるように距離

D

の計算には，

L !

個の並び替えを考慮して全通りの中から最小のものを算出している．同時に並び替え情報を取得し，それらをもとに復元した信号を並び替えるようにした．

4. 6

信号に対するアンサンブル平均

初期値パターンが

10

個であるため，クラスタ数を

2

〜

9

に設定して分析する．音楽データは表

1

の

ID4

を使用した．分類の結果，同じクラスタに属する行列

H

によって得られた分離信号のうち，同一音源に対応する分離信号をアンサンブル平均して算出した信号から

SDR

を計算した．図

9

にアンサンブル平均のイメージを示す．図

10

は

2

チャネルのデンドログラムを示し，最も

SDR

が高いクラスタを赤色，最も低いクラスタを青色で囲んでいる．なお，葉の部分の数値は分離実験に用いた初期値パターンを生成したときのシード値を示している．同じクラスタに属する信号同士をアンサンブル平均することで，

best

（従来法における最高

SDR

）よりも高い

SDR

を得ることができ

(8)

図10 デンドログラム(2ch) Fig. 10 Dendrogram (2ch).

表6 クラスタ数とSDRの関係性

Table 6 Relationship between number of cluster and SDR.

た．また，最も

SDR

の高いクラスタは

best

を含んでおり，最も

SDR

が低いクラスタは，これとは離れた位置に存在している．更に，

SDR

が最高のクラスタは，分類されたクラスタの中で最大の要素数を含んでいる傾向が見られた（他のチャネル数でも同様）．表

6

に要素数最大のクラスタに属する信号同士をアンサンブル平均して計算した

SDR

の分析結果を示す．なお，表中のクラスタ数

1

はクラスタ分析をせずに全ての分離信号同士をアンサンブル平均して算出した信号から

SDR

を計算したものである．チャネル数とクラスタ数にもよるが，おおむね

best

を超える

SDR

（赤色で表示）が算出されており，

average

（従来法における平均

SDR

）に対しては，全てのパターンで上回っていることが確認できる．

4. 7

提案法の手順まとめ

本論文の提案法は以下のとおりである．

（

1

）

MNMF

の行列

Z

^，

T

^，

V

^{にランダムな}

10

個の初期値パターンを用意し，乗算更新式の適用による

MNMF

のパラメータ推定を

10

回行う．

（

2

）分離後に得られた行列

H

をもとにクラスタリングする．

（

3

）要素数最大のクラスタに属する行列

H

^とそれらに対応する

Z

，

T

，

V

を用いて，式

(14)

により音源分離を行い，分離信号を算出する．

（

4

）各音源分離で得られた分離信号のうち，同一の音源に対応するものをアンサンブル平均することで，

仮定した音源数

( L = 3)

と同数の分離信号を算出する．

要素数最大という基準でクラスタを選ぶため，音源分離をするときに事前知識を使わず従来の初期値依存性の問題を緩和することができる．

5.

^実 ^験

4. 6

では，表

1

の音楽データ

ID4

に対して分析を行った．ここでは，

ID1

〜

ID3

に対しても同様の分析を行い，評価実験を通して，提案法の有効性について検証する．実験条件は

3. 1

^{と同じである．}

5. 1

提案法を各指標と比較

表

6

に示すように，クラスタ数

2

〜

9

に分類した中で最も高い

SDR

が得られたクラスタ数

3

の

SDR (“proposed cluster = 3”)

を

4. 6

でも用いた以下の指標と比較する．

•

ランダム初期値の従来法における平均

SDR (“random average”

と表記

)

•

従来法における最高

SDR (“random best”) 5. 2

実験結果

5. 2. 1

では，従来法と提案法で得られた分離性能を示す．

5. 2. 2

^では，

ID4

を分離したときのチャネル数増加に伴う計算時間を示す．

5. 2. 3

では，

6

チャネルの

ID4

を分離したときを対象として，更新回数と

SDR

の関係性を示す．計算には，

Intel Core i7-4790 (3.40 GHz) CPU

を搭載した

MATLAB 8.2

（

64

ビット）を使用した．

5. 2. 1

分離性能の比較

図

11

は分離性能の比較結果である．なお，音楽データ

ID1

〜

ID4

から得られた結果の平均を示す．各音楽データの結果から平均を求めた場合でも，従来法よりも高い

SDR

が算出された．また，各チャネル数において同等の性能が得られたことが確認できる．ただし，

従来法の

best

に性能が及ばない部分も見られる．

5. 2. 2

チャネル数増加に伴う計算時間

図

12

は従来法と提案法における計算時間である．なお，提案法はクラスタ分析に掛かる時間を含む．本論

(9)

図11 提案法による実験結果 Fig. 11 Experimental result.

図12 計算時間 Fig. 12 Computational time.

文の実験条件により，提案法は各チャネル数で

10

回ずつ分離をしてからクラスタ分析を適用するので，従来法の約

10

倍の計算時間が掛かる．また，チャネル数の増加に伴って，計算時間が増加することが分かる．

計算量はおよそ

O(n

³

)

である．

5. 2. 3

更新回数と

SDR

の関係性

図

13

は

100

，

200

，

300

，

400

，

500

回ごとに階層的クラスタ分析とアンサンブル平均を適用したときの結果である．本論文の実験条件により，

500

回の更新回数のもとで分離を行っているが，図

13

から提案法は

200

〜

300

回の間で

SDR

が収束していることから，少ない更新回数で高い性能を得られることが分かる．そのため，図

12

における

(“proposed cluster”)

で費やしている時間のおよそ

2/5

まで削減することが可能である

(“reduction”)

．

5. 3

初期値パターン数についての検証

ここでは，ランダム初期値のパターン数について検証する．これまでパターン数を

10

に固定して実験を行ってきたが，更に

5

〜

15

まで一つずつパターン数を増やして提案法を適用する．なお使用音楽データは

ID4

である．

図13 更新回数とSDRの関係性

Fig. 13 Relationship between number of iteration and SDR.

図14 初期値パターン数5-15 (cluster = 3) Fig. 14 Number of initial-value patterns 5-15 (cluster =

3).

図

14

は各パターン数における分離性能の比較結果である．ただし，

5. 1

^{と同様にクラスタ数}

3

とし，

(“ch average”)

は各パターン数における全チャネル数の

SDR

の平均を示す．各パターン数において

SDR

が約

8 dB

となっていることが分かる．

図

15

はパターン数

5

，図

16

はパターン数

10

，図

17

はパターン数

15

において，提案法を適用したときの結果である．それぞれのグラフから，少ないクラスタ数に分類した場合よりも多くのクラスタに分類した方が

SDR

低下が見られる．他のパターン数においても同じ傾向が見られた．

5. 4

考察

図

11

から提案法において，各チャネル数において従来法の

(“random average”)

よりも高い分離性能をもつ信号が算出できていることが分かる．従来法ではチャネル数とともに行列の自由度が増加するため，局所最適解に陥りやすくなり分離性能の低下，ばらつきの拡大が課題となる．一方，提案法では各チャネル数で同等の分離性能が得られていることから，分離性能

(10)

図15 初期値パターン数5 Fig. 15 Number of initial-value patterns 5.

の向上に加えて安定化という側面からも有効だと考えられる．ただし，

best

よりも分離性能が及ばない部分に関しては，表

6

の

3ch

に示されるように，

best

の

SDR

が他の

SDR

よりも抜き出て高いため，他の信号と加算平均することで却って低下してしまったのだと考えられる．

図

12

から，音源分離の試行回数とチャネル数に依存して計算コストが増加していくことが分かる．ただ

し，図

13

から提案法では

1

回の音源分離に要する更新回数が

200

〜

300

の間で

SDR

が収束していることが分かるため，更新回数の削減によって，更に高速な分離が可能だと考えられる．

図

14

から，パターン数

5

〜

15

の範囲内で大きな分離性能の差異は見られなかった．パターン数が多すぎると，同一クラスタ内に属する行列

H

から復元された信号の目的音が全く同じではなく，雑音が無相関ではないものが増加する可能性があるため，アンサンブル平均の効果が薄くなったのだと考えられる．またパターン数が少なすぎても，アンサンブル平均の効果はあまり得られないと考えられる．更に

2

チャネルではパターン数

9

，

3

11

，

4

10

のときに最高の分離性能が得られている．チャネル数によって違いはあるが，パターン数

10

付近が妥当だと考えられる．

図

15

，図

16

，図

17

から，いずれのパターン数の場合でも多くのクラスタに分類したときに比べ，少ないクラスタに分類したときの方が高い分離性能が得られており，各チャネル数同士の性能の差異も小さいことが分かる．そのため，パターン数に関係なく，少ないクラスタに分類したときのものから分離信号を復元することが望ましいと考えられる．

6.

むすび

本論文では，

MNMF

のチャネル数増加に伴う初期値依存性によって起こる分離性能低下の問題を解決するために，階層的クラスタ分析とアンサンブル平均を用いた音源分離手法を提案した．ランダム初期値の従来法で音源分離を行うと分離性能のばらつきが見られた．そこで提案法では，階層的クラスタ分析を用いることで，複数のランダム初期値で音源分離をして得られた行列

H

を分類し，同じクラスタ内の行列

H

^から復元された信号同士をアンサンブル平均することによって，単一の分離信号よりも更に高い分離性能をもつ信号を算出することができた．また，チャネル数が増加すると分離性能が低下する従来法に比べ，提案法では各チャネル数で一定の性能が得られていることから，チャネル数にかかわらず音源分離が行えると考えられる．ただし，試行回数が少ないため今後パラメータを増やすなど，回数を重ねた実験を行う必要がある．

現状では，実験を行うのに多大な時間を要するため，

今後，計算時間の短縮を検討していく必要がある．

(11)

文献

[1] T.-W. Lee, Independent Component Analysis-Theory and Applications, Kluwer, Norwell, MA, 1998.

[2] A. Hiroe, “Solution of permutation problem in frequency domain ICA using multivariate probability density functions,” ICA 2006 (LNCS 3889), pp.601–

608, 2006.

[3] T. Kim, T. Eltoft, and T.-W. Lee, “Independent vector analysis: An extension of ICA to multivariate components,” ICA 2006 (LNCS 3889), pp.165–172, 2006.

[4] O. Yilmaz and S. Rickard, “Blind separation of speech mixtures via time-frequency masking,” IEEE Trans. Signal Process., vol.52, no.7, pp.1837–1847, 2004.

[5] D.D. Lee and H.S. Seung, “Learning the parts of objects with nonnegative Matrix Factorization,” Na- ture, vol.401, pp.788–791, 1999.

[6] D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE Trans. Audio, Speech, Language Process., vol.24, no.9, pp.1626–1641, 2016.

[7] H. Sawada, H. Kameoka, S. Araki, and N. Ueda,

“Multichannel extensions of non-negative matrix factorization with complex-valued data,” IEEE Trans.

Audio, Speech, Language Process., vol.21, no.5, pp.971–982, 2013.

[8] 吉山文教，上ノ原進吾，西島恵介，古家賢一，“マルチチャネル非負値行列因子分解における分離性能の高い初期値の判別法，”音響講論集，pp.777–780, 2014.

[9] 三浦伊織，太刀岡勇気，成田知宏，石井純，吉山文教，

上ノ原進吾，古家賢一，“マルチチャネルNMFを用いた音源分離における初期値依存性の挙動解析と音声認識での評価，”信学論（D），vol.J100-D, no.3, pp.376–384, March 2017.

[10] 浦本昂伸，太刀岡勇気，成田知宏，三浦伊織，上ノ原進吾，

古家賢一，“マルチチャネルNMFを用いたブラインド音源分離のためのチャネル数増加に伴う逐次的初期化法，”信学論（D），vol.J101-D, no.3, pp.569–577, March 2018.

[11] 新納浩幸，Rで学ぶクラスタ解析，オーム社，2007.

[12] J.H. Ward, Jr., “Hierarchical grouping to optimize an objective function,” J. American Statical Associ- ation, vol.58, pp.236–244, 1963.

[13] 日野幹雄，スペクトル解析，朝倉書店，1977.

[14] C. Fevotte, N. Bertin, and J.-L. Durrieu, “Nonneg- ative matrix factorization with the Itakura-Saito divergence: With application to music analysis,” Neu- ral Comput., vol.21, no.3, pp.793–830, 2009.

[15] M. Nakano, H. Kameoka, J.L. Roux, Y. Kitano, N. Ono, and S. Sagayama, “Convergence-guaranteed multiplicative algorithms for non-negative matrix factorization with beta-divergence,” Proc. MLSP 2010, pp.283–288, 2010.

[16] S. Araki, F. Nesta, E. Vincent, Z. Koldovsk´y, G.

Nolte, A. Ziehe, and A. Benichoux, “The 2011 signal separation evaluation campaign (SiSEC2011): Audio source separation,” Latent Variable Analysis and Sig- nal Separation, pp.414–422, Springer, Bearlin, 2012.

[17] RWCP, “実環境音声・音響データベース(RWCP-SSD)，” 音声資源コンソーシアム，http://research.nii.ac.jp/src/

RWCP-SSD.html,閲覧日:2017/05/31.

[18] E. Vincent, H. Sawada, P. Boﬁll, S. Makino, and J.

Rosca, “First stereo audio source separation evaluation campaigh: Data algprithm and results,” Inde- pendent Component Analysis and Signal Separation, pp.552–559, Springer, Bearlin, 2007.

[19] Stereo Audio Source Separation Evaluation Cam- paign, http://www.irisa.fr/metiss/SASSEC07/?show

=criteria,閲覧日:2018/08/10.

付録

距離の公理

本論文におけるクラスタ分析の際に用いた距離は距離の公理を満たす．距離の公理とは

R

^{を空でない集合} として，任意の点

x, y, z ∈ R

に対し，次の性質を満たすものである．

•

正値性

d ( x, y ) = |x − y| ≥ 0 , d ( x, y ) = |x − y| = 0 ↔ x = y

絶対値の性質より，

|x| ≥ 0

，

|x| = 0 ↔ x = 0

•

対称性

d ( x, y ) = |x − y| = | − ( x − y )| = |y − x| = d ( y, x )

•

三角不等式

図A·1 距離の公理 Fig. A·1 metric deﬁnition.

(12)

d ( x, y ) = |x − y||x − z + z − y|

= | ( x − z ) + ( z − y ) |

≤ |x − z| + |z − y| = d ( x, z ) + d ( z, y )

絶対値の性質より，

|x + y| ≤ |x| + |y|

図

A · 1

のように

x = H

¹，

y = H

²，

z = o

とした上で用いた．

（平成30年5月31日受付，9月27日再受付，

12月4日早期公開）

浦本昂伸

2017年大分大学工学部知能情報システム工学科卒業．現在は同大大学院工学研究科博士前期課程に在籍．音源分離を研究テーマとしている．

上ノ原進吾

2011年東京都市大学環境情報学部情報メディア学科卒業．2012年より大分大学工学部技術職員．以来，音声・音響信号処理の教育研究の支援に従事．日本音響学会会員．

古家賢一（正員：シニア会員）

1985年九州芸工大・音響設計卒．1987 年同大大学院情報伝達専攻修士課程了．同年NTT入社．以来，音声・音響信号処理の研究に従事．2012年より大分大学工学部教授．博士（芸術工学）．1991年佐藤論文賞受賞．IEEEシニア会員，AES，米国音響学会，日本音響学会学会各会員．

上ノ原進吾

マルチチャネル非負値行列因子分解における階層的クラスタ分析 を用いた音源分離性能の向上 *

浦本 昂伸

上ノ原進吾

古家 賢一

Improvement of Sound Source Separation by Using Hierarchical Cluster Analysis in Multichannel Nonnegative Matrix Factorization

Takanobu URAMOTO

, Shingo UENOHARA

, and Ken’ichi FURUYA

1.

[1]

(Independent Vector Analysis:

IVA) [2], [3]

DUET (Degenerate Un- mixing Estimation Technique) [4]

(Nonnegative Matrix Factorization: NMF) [5]

IVA

NMF

(Independent Low-rank Matrix Analysis: ILRMA) [6]

NMF

NMF

NMF (Multichannel NMF: MNMF)

[7]

MNMF

IVA

ILRMA

MNMF

≤

MNMF

>

[8], [9]

MNMF

[10]

MNMF

2.

MNMF

3.

4.

5.

6.

2. MNMF

2. 1

MNMF [7]

NMF [5]

X

2. 2

H, Z, T, V

MNMF

L

[7]

2. 2

M

˜ x =

[˜ x

, · · · , x ˜

]

x ˜

m

Short Time Fourier Transform (STFT)

i (1 ≤ i ≤ I )

j (1 ≤ j ≤ J )

˜ x

X

i , j

X

X

= ˜ x

x ˜

i , j

X

= ˜ x

˜ x

=

⎡

⎢ ⎣

| x ˜

|

· · · x ˜

x ˜

.. . . . . .. . x ˜

x ˜

マルチチャネル非負値行列因子分解における階層的クラスタ分析を用いた音源分離性能の向上 *

浦本昂伸

古家賢一

⎥ ⎦ ⁽¹⁾