• 検索結果がありません。

上ノ原進吾

N/A
N/A
Protected

Academic year: 2021

シェア "上ノ原進吾"

Copied!
12
0
0

読み込み中.... (全文を見る)

全文

(1)

マルチチャネル非負値行列因子分解における階層的クラスタ分析 を用いた音源分離性能の向上 *

浦本 昂伸

上ノ原進吾

古家 賢一

Improvement of Sound Source Separation by Using Hierarchical Cluster Analysis in Multichannel Nonnegative Matrix Factorization

Takanobu URAMOTO

, Shingo UENOHARA

, and Ken’ichi FURUYA

あらまし 非負値行列因子分解(Nonnegative Matrix Factorization: NMF)とは,非負値の行列を二つの非 負値行列に因子分解する手法である.音響分野では,NMFをマルチチャネル拡張することで空間情報を活用し,

高精度に音源分離を行う手法であるマルチチャネルNMF (Multichannel NMF: MNMF)が提案されている.し かし,MNMFは自由度の高いモデルであるため局所最適解に陥りやすく,分離性能の初期値依存性が課題となっ ている.先行研究として,2チャネルを用いた研究が盛んに行われているが,本論文では,3チャネル以上にチャ ネル数を増やした場合を検討する.音源の分離実験より,ランダムな初期値を設定した場合には,チャネル数を 増加させても,分離性能が向上しないことが確認された.そこで,ランダム初期値を設定した従来法の分離結果 として得られる空間相関行列を用い,分離信号に対して階層的クラスタ分析を行う.分析結果として得られたク ラスタの中で同じものに属する信号同士をアンサンブル平均することで,新たな信号を算出する手法を提案した.

ランダム初期値の場合よりも分離性能が向上することから,提案法の有効性を確認した.

キーワード 音源分離,雑音除去,非負値行列因子分解(NMF),マルチチャネルNMF,階層的クラスタ分析

1.

ま え が き

近年,スマートフォンやハンズフリー機器,テレビ 会議システムなどの音声を取り扱うオーディオ機器が 身の回りに広く普及している.様々な音が混在する環 境下での利用が想定され,実際に利用する場合には,

周囲の雑音や他話者の音声の影響によって,目的音の 抽出が困難になるという問題が生じる.この問題の解 決には,音源分離技術が必要であり,様々なアプロー チが提案されている.例えば,音源の独立性を仮定 することで雑音と目的音を分離する独立成分分析

[1]

や独立ベクトル分析

(Independent Vector Analysis:

IVA) [2], [3]

,音源信号がスパースと仮定し時間周波数 マスキングにより分離する

DUET (Degenerate Un- mixing Estimation Technique) [4]

,頻出する基底ご とに分離して雑音の成分を除く非負値行列因子分解

大分大学,大分市

Oita University, Dannnoharu, 700 Oita-shi, 870–1192 Japan

*本論文は学生論文特集秀逸論文である.

DOI:10.14923/transinfj.2018PDP0007

(Nonnegative Matrix Factorization: NMF) [5]

IVA

NMF

による低ランク近似分解を導入し,空間モデ ルと音源モデルを同時に推定することで分離を達成 する独立低ランク行列分析

(Independent Low-rank Matrix Analysis: ILRMA) [6]

などがある.

NMF

で は単一チャネルのモノラル信号から複数の音源に分離 できるが,基底ごとに分解した音を各音源に対応付け るのは容易ではない.そこで,

NMF

をマルチチャネ ル拡張し,多チャネル信号に対応したマルチチャネル

NMF (Multichannel NMF: MNMF)

が提案されてい る

[7]

MNMF

ではチャネル間の空間情報を活用し,

音源数を事前に設定することで,音源と基底の対応付 けが可能である.

IVA

ILRMA

MNMF

よりも,

モデルパラメータ推定が容易かつ低コストで分離可能 であるが,優決定条件(音源数

観測マイク数)の場 合において有効な手法である.一方,

MNMF

は劣決 定条件(音源数

>

観測マイク数)に有効な手法であ り,観測環境下に多くの音源が存在する場合でも,少 ないマイク数で分離できる.ただし,自由度の高いモ

(2)

デルであるため,局所最適解に陥りやすく,分離性能 の初期値依存性が課題となる

[8], [9]

.また,チャネル 数が増加するほど自由度が増加するので,この初期値 依存性が顕在化して分離が困難となる.先行研究によ り,チャネル数を増加させた

MNMF

に対して有効な 手法が提案されており,分離行列にランダムな初期値 を設定する従来法に比べると事前に計算した初期値を 設定することで,分離性能が向上し,ばらつきが安定 することが分かっている

[10]

.ただし,問題点として 初期値を計算するには,あらかじめ音源の到来方向が 既知でなければいけないなどの制約条件が必要となる.

本論文では,

MNMF

のチャネル数増加によって引 き起こる分離性能低下の問題を解決するための手法と して,事前の初期値設定を行わず,ランダム初期値の まま音源分離をして得られた分離信号を利用し,新た な信号を算出する手法を提案する.この手法では,複 数のランダム初期値を用いた音源分離の後,得られた 行列をもとにクラスタ分析を行う.そして,同じクラ スタに属する行列から復元した信号をアンサンブル平 均することで,単一のランダム初期値の分離信号より も高い分離性能をもつ新たな信号を算出する.得られ た信号から分離性能を評価して,提案法の有効性を検 証する.

論文の構成は以下のようである.

2.

では,

MNMF

について説明し,

3.

では,ランダムに初期値を設定し チャネル数を増加させた場合の分離性能の初期値依存 性について実験的に分析を行う.

4.

では,チャネル数 を増加させた場合に有効な階層的クラスタ分析とアン サンブル平均を用いた手法を提案し,

5.

では,提案法 の評価実験を行う.最後に

6.

で本論文をまとめ,今 後の課題を提示する.

2. MNMF

2. 1

概 要

MNMF [7]

とは,

NMF [5]

をマルチチャネル拡張し たものであり,複素観測行列

X

2. 2

に述べる四つ の行列

H, Z, T, V

に分解する.

MNMF

では空間情 報を用いてスペクトル基底を

L

個の音源にクラスタ リングすることで事前の学習なしで音源分離を実現す る.位相情報を扱うために複素数を用いるので,複素 数における非負性に対応するものとして,エルミート 半正定値行列を用いる

[7]

2. 2

定 式 化

M

をマイクロホン数として入力ベクトルを

˜ x =

x

1

, · · · , x ˜

M

]

とする.ただし,は転置を表す.

x ˜

m

m

番目のマイクロホンでの

Short Time Fourier Transform (STFT)

の複素係数であり,スペクトログ ラムを指す.周波数

i (1 i I )

,時間

j (1 j J )

のとき

˜ x

ijで表すと行列

X

i , j

成分を

X

ijとし,

X

ij

= ˜ x

ij

x ˜

Hij若しくは

i , j

それぞれについて

X

ij

= ˜ x

ij

˜ x

Hij

=

⎢ ⎣

| x ˜

1

|

2

· · · x ˜

1

x ˜

M

.. . . . . .. . x ˜

M

x ˜

1

· · · |˜ x

M

|

2

⎥ ⎦ (1)

となる.ただし,Hはエルミート転置を表し,対角成 分には各マイクロホンで観測したパワー(実数),非対 角成分にはマイクロホン間の位相差(複素数)が示さ れる.すなわち,行列

X

は,

I

J

列のそれぞれの要 素が

M × M

のエルミート半正定値行列であり,これ らの行列からなる階層的な構造をもつ.この行列

X

MNMF

で分解すると,

K

個の基底からなる基底行列

T ( R

I×K

)

,アクティベーション行列

V ( R

K×J

)

, 音源の空間情報を示す空間相関行列

H

と音源の空間情 報と各基底を関連付ける潜在変数行列

Z(∈ R

L×K

)

と いう四つの行列の積

X ˆ

に分解され,次式で示される.

X X ˆ = ( HZ T ) V (2)

ただし,

はアダマール積を表す.行列

H

は行列

X

と同様にそれぞれの要素が

M × M

の複素行列をもつ

I

L

列の階層的なエルミート半正定値行列である.

1

は式

(2)

を図式化したもので,このとき,右辺は

X ˆ

ij

=

K k=1

L l=1

H

il

z

lk

t

ik

v

kj

(3)

と表すことができ,理想的には行列

X

ˆX

ijを要素 にもつ行列

X ˆ

は等しくなる.しかし,一般的には誤差 が生じるため,

MNMF

では行列

X

と行列

X ˆ

との距離

1 MNMFで分解された行列の例(グレーは複素数)

Fig. 1 Example of a decomposed matrix by using MNMF (Gray denotes complex values).

(3)

D

( X, X ˆ ) =

I

i=1

J j=1

d

( X

ij

, X ˆ

ij

) (4)

を定義し,この距離を最小化する行列

T , V , H , Z

を 求める.今回はダイナミックレンジが大きい音楽や音 声に適している

Itakura-Saito (IS) divergence [14]

を 用いる.式

(4)

の右辺における

X

ij

X ˆ

ij間の距離に ついて以下のように定義する.

d

IS

( X

ij

, X ˆ

ij

) =

tr ( X

ij

X ˆ

ij1

) log det X

ij

X ˆ

ij1

M (5)

ただし,

tr (

)

は対角要素の和を表している.

2. 3

行列分解アルゴリズム

D

IS

(X, X) ˆ

を最小化するために,

Multiplicative up- date rule [15]

と呼ばれる反復アルゴリズムを,ランダ ムな非負の値で初期化した行列

T

V

Z

並びに各要 素へ単位行列をもたせた行列

H

に繰り返し適用する.

IS divergence

を用いた場合,更新式は以下のように なる.

t

ik

t

ik

l

z

lk

j

v

kj

tr (ˆ X

ij1

X

ij

X ˆ

ij1

H

il

)

l

z

lk

j

v

kj

tr (ˆ X

ij1

H

il

) (6)

v

kj

v

kj

l

z

lk

i

t

ik

tr (ˆ X

ij1

X

ij

X ˆ

ij1

H

il

)

l

z

lk

i

t

ik

tr (ˆ X

ij1

H

il

) (7)

z

lk

z

lk

i,j

t

ik

v

kj

tr (ˆ X

ij1

X

ij

X ˆ

ij1

H

il

)

i,j

t

ik

v

kj

tr (ˆ X

ij1

H

il

) (8) H

ilについては次式の

A

B

を係数にもつ代数リッカ チ方程式を解くことで求めることができる.

A =

k

z

lk

t

ik

j

v

kj

X ˆ

ij1

(9)

B = H

il

k

z

lk

t

ik

j

v

kj

X ˆ

ij1

X

ij

X

ij1

H

il

(10)

H

il

AH

il

= B (11)

ただし,

H

ilは更新前の行列

H

ilを表しており,解き 方は文献

[7]

に示されている.

2. 4

正 規 化

行列

H

と行列

Z

については,更新ごとに発散を防

ぐために正規化を行わなければならない.正規化は以 下の式で行った.

H

il

= H

il

tr ( H

il

) ,

z

lk

= z

lk

l

z

lk

(12)

2. 5

音 源 分 離

音源分離を行うために次式で表されるウィナーフィ ルタを用いる.

Y = S ˆ

S ˆ + N X (13)

た だ し ,

Y

は 目 的 信 号 ,

S ˆ

は 目 的 信 号 の 推 定 値 ,

N

は雑音信号,

X

は雑音信号を含んだ目的信号を 示 す.

y ¯

(ijl) を 分 離 後 の 音 源 と し た と き ,

Y = ˜ y

(ijl)

, S ˆ = (

K

k=1

z

lk

t

ik

v

kj

) H

il

, ˆ S + N = ˆ X

ij

, X = ˜ x

ijを 代入すると,次式のマルチチャネルウィナーフィルタ となり,各音源に対応した分離信号を得られる

[7]

y ˜

(ijl)

=

K k=1

z

lk

t

ik

v

kj

H

il

X ˆ

ij1

x ˜

ij

(14)

3.

チャネル数増加に伴う初期値依存性の 分析

MNMF

は自由度の高いモデルであるため,反復更 新処理の最中に局所最適解が増えることで,

2

チャネ ルの場合でも初期値依存による分離性能のばらつきが 問題となることが報告されている

[8]

.更に

3

チャネ ル以上になると,この初期値依存性が顕在化すること によって,音源分離がより困難になる

[10]

.ここでは,

ランダム初期値の従来法でチャネル数を増加させた場 合の初期値依存性について実験的に提示する.

3. 1

実 験 条 件

実験に用いた混合信号は表

1 [16]

の音楽データに,

2

の環境で測定した

RWCP

実環境音声・音響デー タベースのインパルス応答

(E2A) [17]

を畳み込み作成 した.図

2

においてマイクロホンは右から順に

1-14

ま で番号が付いている.今回の実験で使用したマイクロ ホン番号を表

2

に示す.ここで,チャネル数を増やし た際に,元のマイクロホンが含まれているようにした.

例えば

3

チャネルのマイクロホンの組には

2

チャネル のマイクロホンの組が含まれている.なお,使用マイ クロホン間隔は

5.66cm

である.分離処理に用いたパ ラメータを表

3

に示す.なお,表

3

をもとに計算した 表

1

の各音楽データのスペクトログラムは,

I =513

J

(4)

2 マイクロホンと音源の配置図

Fig. 2 Arrangement of microphones and sound sources.

ID1

991

ID2

1598

ID3

1536

ID4

1161

であ る.また,

MNMF

での

IS divergence

の計算

(4)

にお いて行列式が

0

になるのを防ぐために

X

ijの対角要素 に

10

10を足している.プログラムは

Sawada

らのア ルゴリズム

[7]

MATLAB

で実装した.ただし,音 源数は既知として

pairwize-merge

は導入せず,

Mul- tiplicative update rule

の反復適用のみ行っている.

また,文献

[7]

に倣い,初めの

20

回は空間相関行列

H

と潜在変数行列

Z

を更新せず,その他の変数のみを更 新した.潜在変数行列

Z

と基底行列

T

,アクティベー ション行列

V

には,一様分布から生成した

10

個の初 期値パターンを用意し,音源分離を実行する.ただし,

文献

[7]

と同様に空間相関行列

H

は対角成分が

1 /M

の対角行列,潜在変数行列

Z

0.2

0.4

の一様乱数を もたせた.分離性能の評価基準は,分離信号が目的と する正解信号に対してどの程度ひずんでいるのかをパ ワー比で表す

Signal-to-Distortion Ratio (SDR) [18]

を用いた.

SDR

の計算には,

[19]

に公開されているス クリプトを利用した.なお,

bss decomp mtifilt.m

を 用いて式

(15)

bss mcrit.m

を用いて式

(16)

の計算 を行った.

SDR

を計算する際に評価したい音を成分 ごとに分解しなければならない.分解すると

s

est

( t ) = s

img

( t )+ y

spat

( t )+ y

int

( t )+ y

artif

( t ) (15)

となる.ここで,

s

estは目的音源の推定信号,

s

img 目的音源の正解信号,

y

spatは空間(フィルタリング)

ひずみ,

y

intは目的音源以外の音源の信号,

y

artif 分離処理による信号のひずみを表す.これらは最小

2

1 実験に用いた音楽データ Table 1 Music data used for the experiment.

ID Author/Song Snip Part

1 Bearlin 85-99 piano

Roads (14 sec) ambient vocals 2 Another Dreamer 69-94 drums The Ones We Love (25 sec) vocals guitar

3 Fort Minor 54-78 drums

Remember The Name (24 sec) vocals violin+synth

4 Anonymous 43-61 drums

Ultimate Nz Tour (18 sec) guitar synth

2 チャネル数ごとのマイクロホン番号 Table 2 Microphone IDs of each channel.

2ch 6,8 3ch 6,8,10 4ch 4,6,8,10 5ch 4,6,8,10,12 6ch 2,4,6,8,10,12

3 分離処理に用いるパラメータ Table 3 Parameters of a separation process.

Reverberation time 300ms Sampling rate 16kHz Flame size 1024

Shift size 256 Number of basis K 30 Number of source L 3 Number of iteration 500

乗法による予測によって求めることができる.なお,

フィルタサイズは

512 (32ms)

とした.そして,これ らの成分を用いてパワー比を計算すると

SDR = 10 log

10

t

s

img

( t )

2

t

y

spat

( t )

2

+ y

int

( t )

2

+ y

artif

( t )

2

(16)

を求めることができる.この尺度を用いる場合は各音 源の独立したデータが必要である.

3. 2

初期値依存性

3

2

チャネルを用いたときの

MNMF

におい て,行列

Z

T

V

にランダムな初期値を

10

回与え て音源分離を行ったときの分離性能の結果を示してい る.音楽データは表

1

ID4

を使用した.この図か ら,

1

回目の分離では

SDR

が約

6 . 5 dB

だが,

3

回目 では

SDR

が約

1 dB

というように設定した初期値に よって分離性能が大きく異なっていることが分かる.

3. 3

チャネル数増加に伴う初期値依存性

ランダム初期値の従来法において,単純にチャネル

(5)

3 音源分離性能の初期値依存性

Fig. 3 Initial-value dependency of sound source sep- aration performance.

4 チャネル数増加に伴う初期値依存性 Fig. 4 Initial-value dependency with increasing the

number of channels.

数を増やした場合の分離性能の結果を示す.図

4

は 各音楽データとチャネル数ごとの分離後に得られた

3

音源の平均

SDR

を示したものである.エラーバーは

SDR

のばらつきの大きさを表した標準偏差である.こ の図から,チャネル数が増加しても分離性能が必ずし も向上しないことや標準偏差が大きくなることが分か る.これは,局所最適解による初期値依存性がチャネ ル数の増加に伴って,より顕在化したためだと考えら れる.

4.

提 案 手 法

4. 1

着 眼 点

MNMF

の分離性能は,空間相関行列

H

に対する初 期値依存性が最も大きいことが分かっている

[9]

.そこ で,行列

H

に着目する.ここでは,初期値がランダム の従来法で得られた分離後の行列

H

に対して,

SDR

が最も高いものとその他との関係性について,二つの 行列

H

の非対角成分の差の絶対値を距離として用い て分析を行った.この距離はそれぞれの音源に対応す

5 bestHとの距離とSDRの関係性(2ch) Fig. 5 Relationship between distance to bestH and

SDR.

4 チャネル数ごとの相関係数 Table 4 Correlation coefficient for each channel.

2ch -0.87 3ch -0.91 4ch -0.94 5ch -0.91 6ch -0.86

る二つのマイクロホン間の相関同士の違いの大きさを 表している.行列

H

間の差異を評価するには,対角 成分に含まれるパワーよりも非対角成分の位相情報を 用いた方が

2

点間を比較するには望ましいと考え,こ の距離を採択した.図

5

では,最も

SDR

が高いもの を

bestH

と表記した.

bestH

から距離が離れていく ほど

SDR

が低下する傾向が見られる.表

4

に示され るように,各チャネル数で距離と

SDR

には高い負の 相関が見られる.そこで,提案法ではこれらの関係性 に着目し,複数のランダムな初期値に対する分離後の 行列

H

に対して,上記距離に基づいて階層的クラスタ 分析を行う.その結果,得られたクラスタの中で同じ ものに属する信号同士をアンサンブル平均して,

SDR

という観点から単一のランダム初期値から復元された 分離信号よりも更に高性能な分離信号を算出する手法 を提案する.

4. 2

階層的クラスタ分析

階層的クラスタ分析

[11]

とは,数値分類法の一種で ある.異なる集団に属する複数の個体から個体間の距 離に基づいて,類似するものを順次集めてクラスタ を作成する手法である.なお,個体間距離には分離後 の行列

H

の非対角成分に含まれる位相情報を利用し,

二つの行列間の差の絶対値の位相を距離として計算し た.表

5

は五つの個体について,全ての組合せについ て距離を計算し,行列の形式で配列した距離行列であ

(6)

5 距 離 行 列 Table 5 Distance matrix.

6 クラスタ形成の様子 Fig. 6 State of cluster formation.

る.数値が小さいほど,互いに類似度が高い(距離が 近い)ことを示す.クラスタ分析を行う際には,この ような距離データを基準としてクラスタを分類する.

6

はクラスタ形成の様子を示している.はじめに

A

E

の五つの標本点がある.その中で最も距離が近 い組合せは,

A

B

である.

A

B

でクラスタを形 成し,この

2

点の重心を求める.次に

AB

の重心,

C

D

E

4

点で最も距離の近い組合せを探索する.

C

D

が最も距離が近い組合せなので,

C

D

でクラ スタを形成し,重心を求めて新たな組合せを探索する といった処理を残りの標本点がなくなるまで繰り返し 行う.それと同時にクラスタが形成される途中過程を 階層のように表すことができ,図

7

のようなデンドロ グラム(注1ができる.ただ分類するだけではなく,結 果として出力されるデンドログラムから任意の数のク ラスタに分類することが可能である.例えば図

7

を三 つのクラスタに分類する場合は,縦線を横に切るよう な線を引き,その線から下につながっている葉を一つ のクラスタとする.なお,クラスタ間の距離計算には ウォード法

[12]

を使用した.

(注1:木構造に似ているグラフで,ラベルが付いている箇所を葉と言 い,葉から伸びている線が連結するまでの高さが短いほど個体が類似し ている.

7 クラスタ分析の例 Fig. 7 Example of cluster analysis.

4. 3

行列距離の求め方

行列

H

の各成分は

M × M

の行列から構成されて おり,これらの非対角成分の差の絶対値の位相をクラ スタ分析に用いる距離とした.行列距離を

D

,標本数 を

N

として,N

C

2個の重複しない組合せから全ての 距離について以下の式から算出する.なお,この距離 は距離の公理を満たす(付録参照).

D =

I

i=1

L l=1

a

il

(17)

a

il

=

M1

m1=1 M2

m2=1

2arcsin( | ( h

(mN1=mn2)

h

(mN1=mn2)

|

2 ) u

m1m2

(18)

U =

⎢ ⎢

⎢ ⎣

u

11

· · · · u

1m2

.. . . . . .. . .. . . . . .. . u

m11

· · · · u

m1m2

⎥ ⎥

⎥ ⎦ =

⎢ ⎢

⎢ ⎣

0 1 · · · 1 .. . . . . . . . .. . .. . . . . 1 0· · · · 0

⎥ ⎥

⎥ ⎦

(19)

ただし,

MNMF

の性質上,異なる初期値で分離す るたびに行列

H

l

番目に一意の音源情報が定まら ない.そこで,

L !

個の並び替えを考慮して,全通りの 距離

D

を計算する.その中で,最小の距離を同じ順で

l

が並んでいると判断し,クラスタ分析に適用する距 離として算出する.その様子を図

8

に示す.

4. 3. 1

ウォード法

ウォード法とは,二つのクラスタを結合したときに クラスタ内の分散が小さく,かつクラスタ間の分散の 比を最大化する基準でクラスタを形成する手法である.

標本点を

x

iとし,二つの標本点

x

1

x

2に対して距離 を用いる場合は

D ( x

1

, x

2

)

と表す.同様に各クラスタ

(7)

8 行列H間距離の計算

Fig. 8 Calculation of distance between matrix H.

C

iとすると,クラスタ間距離は

D ( C

1

, C

2

) = E ( C

1

C

2

) −E ( C

1

) −E ( C

2

) (20)

と定義される.ただし,

E ( C

i

) =

x∈Ci

( D ( x, c

i

))

2

(21)

であり,

c

iはクラスタの重心となる標本平均ベクトル であり,以下の式から求める.

c

i

= 1

|C

i

|

x∈Ci

x (22)

4. 4

アンサンブル平均

アンサンブル平均

[13]

とは,同一の信号を複数回観 測し,加算平均することで雑音を抑圧する手法である.

x

は観測信号,

s

は目的音源の正解信号,

w

は雑音信 号ならば,

x

n

= s

n

+ w

n

(23)

と表せる.更に,観測信号を何度も取得し,それらの 平均を計算することで,

1 N

N n=1

x

n

= 1 N

N n=1

( s

n

+ w

n

) (24)

となる.観測回数が

N

回のとき,もしも同じ目的信 号を繰り返し取得できれば,それらを平均することで 不規則に発生する雑音の影響を少なくすることができ,

N →∞

で目的音源

s

に近づいていく.このとき,目的 信号の振幅は等しく,一方で雑音信号は

1/

N

倍と なる.

SN

比は

N

倍に向上し,相対的に目的信号が

9 信号に対するアンサンブル平均の例 Fig. 9 Example of ensemble processing on signals.

強調されることになる.提案法では,クラスタ分析の 後に得られた同じクラスタ内に属する信号に対してア ンサンブル平均を適用する.

4. 5

信号の並び替え

4. 3

で述べたように,

MNMF

は異なる初期値で分 離するたびに行列

H

l

がもつ音源情報の順番は異 なる.同様に復元した分離信号も一意の箇所に割り当 てられない.ただし,アンサンブル平均する際には同 じ種類の音源の分離信号同士で行うため,分離信号の 順番を揃えておく必要がある.そこで,行列

H

間の 距離

D

を計算するときの並び替え情報を利用する.図

8

に示されるように距離

D

の計算には,

L !

個の並び替 えを考慮して全通りの中から最小のものを算出してい る.同時に並び替え情報を取得し,それらをもとに復 元した信号を並び替えるようにした.

4. 6

信号に対するアンサンブル平均

初期値パターンが

10

個であるため,クラスタ数を

2

9

に設定して分析する.音楽データは表

1

ID4

を使用した.分類の結果,同じクラスタに属する行列

H

によって得られた分離信号のうち,同一音源に対 応する分離信号をアンサンブル平均して算出した信号 から

SDR

を計算した.図

9

にアンサンブル平均のイ メージを示す.図

10

2

チャネルのデンドログラム を示し,最も

SDR

が高いクラスタを赤色,最も低い クラスタを青色で囲んでいる.なお,葉の部分の数値 は分離実験に用いた初期値パターンを生成したときの シード値を示している.同じクラスタに属する信号同 士をアンサンブル平均することで,

best

(従来法にお ける最高

SDR

)よりも高い

SDR

を得ることができ

(8)

10 デンドログラム(2ch) Fig. 10 Dendrogram (2ch).

6 クラスタ数とSDRの関係性

Table 6 Relationship between number of cluster and SDR.

た.また,最も

SDR

の高いクラスタは

best

を含んで おり,最も

SDR

が低いクラスタは,これとは離れた 位置に存在している.更に,

SDR

が最高のクラスタ は,分類されたクラスタの中で最大の要素数を含んで いる傾向が見られた(他のチャネル数でも同様).表

6

に要素数最大のクラスタに属する信号同士をアンサ ンブル平均して計算した

SDR

の分析結果を示す.な お,表中のクラスタ数

1

はクラスタ分析をせずに全て の分離信号同士をアンサンブル平均して算出した信号 から

SDR

を計算したものである.チャネル数とクラ スタ数にもよるが,おおむね

best

を超える

SDR

(赤 色で表示)が算出されており,

average

(従来法にお ける平均

SDR

)に対しては,全てのパターンで上回っ ていることが確認できる.

4. 7

提案法の手順まとめ

本論文の提案法は以下のとおりである.

1

MNMF

の行列

Z

T

V

にランダムな

10

個 の初期値パターンを用意し,乗算更新式の適用による

MNMF

のパラメータ推定を

10

回行う.

2

) 分離後に得られた行列

H

をもとにクラスタ リングする.

3

) 要素数最大のクラスタに属する行列

H

とそ れらに対応する

Z

T

V

を用いて,式

(14)

により 音源分離を行い,分離信号を算出する.

4

) 各音源分離で得られた分離信号のうち,同一 の音源に対応するものをアンサンブル平均することで,

仮定した音源数

( L = 3)

と同数の分離信号を算出する.

要素数最大という基準でクラスタを選ぶため,音源 分離をするときに事前知識を使わず従来の初期値依存 性の問題を緩和することができる.

5.

4. 6

では,表

1

の音楽データ

ID4

に対して分析を 行った.ここでは,

ID1

ID3

に対しても同様の分析 を行い,評価実験を通して,提案法の有効性について 検証する.実験条件は

3. 1

と同じである.

5. 1

提案法を各指標と比較

6

に示すように,クラスタ数

2

9

に分類した 中で最も高い

SDR

が得られたクラスタ数

3

SDR (“proposed cluster = 3”)

4. 6

でも用いた以下の 指標と比較する.

ランダム初期値の従来法における平均

SDR (“random average”

と表記

)

従来法における最高

SDR (“random best”) 5. 2

実 験 結 果

5. 2. 1

では,従来法と提案法で得られた分離性能 を示す.

5. 2. 2

では,

ID4

を分離したときのチャネル 数増加に伴う計算時間を示す.

5. 2. 3

では,

6

チャネ ルの

ID4

を分離したときを対象として,更新回数と

SDR

の関係性を示す.計算には,

Intel Core i7-4790 (3.40 GHz) CPU

を搭載した

MATLAB 8.2

64

ビッ ト)を使用した.

5. 2. 1

分離性能の比較

11

は分離性能の比較結果である.なお,音楽デー タ

ID1

ID4

から得られた結果の平均を示す.各音楽 データの結果から平均を求めた場合でも,従来法より も高い

SDR

が算出された.また,各チャネル数にお いて同等の性能が得られたことが確認できる.ただし,

従来法の

best

に性能が及ばない部分も見られる.

5. 2. 2

チャネル数増加に伴う計算時間

12

は従来法と提案法における計算時間である.な お,提案法はクラスタ分析に掛かる時間を含む.本論

(9)

11 提案法による実験結果 Fig. 11 Experimental result.

12 計 算 時 間 Fig. 12 Computational time.

文の実験条件により,提案法は各チャネル数で

10

回 ずつ分離をしてからクラスタ分析を適用するので,従 来法の約

10

倍の計算時間が掛かる.また,チャネル 数の増加に伴って,計算時間が増加することが分かる.

計算量はおよそ

O(n

3

)

である.

5. 2. 3

更新回数と

SDR

の関係性

13

100

200

300

400

500

回ごとに階層的 クラスタ分析とアンサンブル平均を適用したときの結 果である.本論文の実験条件により,

500

回の更新回 数のもとで分離を行っているが,図

13

から提案法は

200

300

回の間で

SDR

が収束していることから,少 ない更新回数で高い性能を得られることが分かる.そ のため,図

12

における

(“proposed cluster”)

で費や している時間のおよそ

2/5

まで削減することが可能で ある

(“reduction”)

5. 3

初期値パターン数についての検証

ここでは,ランダム初期値のパターン数について検 証する.これまでパターン数を

10

に固定して実験を 行ってきたが,更に

5

15

まで一つずつパターン数を 増やして提案法を適用する.なお使用音楽データは

ID4

である.

13 更新回数とSDRの関係性

Fig. 13 Relationship between number of iteration and SDR.

14 初期値パターン数5-15 (cluster = 3) Fig. 14 Number of initial-value patterns 5-15 (cluster =

3).

14

は各パターン数における分離性能の比較結 果である.ただし,

5. 1

と同様にクラスタ数

3

とし,

(“ch average”)

は各パターン数における全チャネル数 の

SDR

の平均を示す.各パターン数において

SDR

が 約

8 dB

となっていることが分かる.

15

はパターン数

5

,図

16

はパターン数

10

,図

17

はパターン数

15

において,提案法を適用したとき の結果である.それぞれのグラフから,少ないクラス タ数に分類した場合よりも多くのクラスタに分類した 方が

SDR

低下が見られる.他のパターン数において も同じ傾向が見られた.

5. 4

考 察

11

から提案法において,各チャネル数において 従来法の

(“random average”)

よりも高い分離性能を もつ信号が算出できていることが分かる.従来法では チャネル数とともに行列の自由度が増加するため,局 所最適解に陥りやすくなり分離性能の低下,ばらつき の拡大が課題となる.一方,提案法では各チャネル数 で同等の分離性能が得られていることから,分離性能

(10)

15 初期値パターン数5 Fig. 15 Number of initial-value patterns 5.

16 初期値パターン数10 Fig. 16 Number of initial-value patterns 10.

17 初期値パターン数15 Fig. 17 Number of initial-value patterns 15.

の向上に加えて安定化という側面からも有効だと考え られる.ただし,

best

よりも分離性能が及ばない部分 に関しては,表

6

3ch

に示されるように,

best

SDR

が他の

SDR

よりも抜き出て高いため,他の信号 と加算平均することで却って低下してしまったのだと 考えられる.

12

から,音源分離の試行回数とチャネル数に依 存して計算コストが増加していくことが分かる.ただ

し,図

13

から提案法では

1

回の音源分離に要する更 新回数が

200

300

の間で

SDR

が収束していること が分かるため,更新回数の削減によって,更に高速な 分離が可能だと考えられる.

14

から,パターン数

5

15

の範囲内で大きな分 離性能の差異は見られなかった.パターン数が多すぎ ると,同一クラスタ内に属する行列

H

から復元され た信号の目的音が全く同じではなく,雑音が無相関で はないものが増加する可能性があるため,アンサンブ ル平均の効果が薄くなったのだと考えられる.またパ ターン数が少なすぎても,アンサンブル平均の効果は あまり得られないと考えられる.更に

2

チャネルでは パターン数

9

3

チャネルではパターン数

11

4

チャネ ルではパターン数

10

のときに最高の分離性能が得ら れている.チャネル数によって違いはあるが,パター ン数

10

付近が妥当だと考えられる.

15

,図

16

,図

17

から,いずれのパターン数の場 合でも多くのクラスタに分類したときに比べ,少ない クラスタに分類したときの方が高い分離性能が得られ ており,各チャネル数同士の性能の差異も小さいこと が分かる.そのため,パターン数に関係なく,少ない クラスタに分類したときのものから分離信号を復元す ることが望ましいと考えられる.

6.

む す び

本論文では,

MNMF

のチャネル数増加に伴う初期 値依存性によって起こる分離性能低下の問題を解決す るために,階層的クラスタ分析とアンサンブル平均を 用いた音源分離手法を提案した.ランダム初期値の従 来法で音源分離を行うと分離性能のばらつきが見られ た.そこで提案法では,階層的クラスタ分析を用いる ことで,複数のランダム初期値で音源分離をして得ら れた行列

H

を分類し,同じクラスタ内の行列

H

から 復元された信号同士をアンサンブル平均することに よって,単一の分離信号よりも更に高い分離性能をも つ信号を算出することができた.また,チャネル数が 増加すると分離性能が低下する従来法に比べ,提案法 では各チャネル数で一定の性能が得られていることか ら,チャネル数にかかわらず音源分離が行えると考え られる.ただし,試行回数が少ないため今後パラメー タを増やすなど,回数を重ねた実験を行う必要がある.

現状では,実験を行うのに多大な時間を要するため,

今後,計算時間の短縮を検討していく必要がある.

(11)

文 献

[1] T.-W. Lee, Independent Component Analysis-Theory and Applications, Kluwer, Norwell, MA, 1998.

[2] A. Hiroe, “Solution of permutation problem in fre- quency domain ICA using multivariate probability density functions,” ICA 2006 (LNCS 3889), pp.601–

608, 2006.

[3] T. Kim, T. Eltoft, and T.-W. Lee, “Independent vec- tor analysis: An extension of ICA to multivariate components,” ICA 2006 (LNCS 3889), pp.165–172, 2006.

[4] O. Yilmaz and S. Rickard, “Blind separation of speech mixtures via time-frequency masking,” IEEE Trans. Signal Process., vol.52, no.7, pp.1837–1847, 2004.

[5] D.D. Lee and H.S. Seung, “Learning the parts of objects with nonnegative Matrix Factorization,” Na- ture, vol.401, pp.788–791, 1999.

[6] D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization,” IEEE Trans. Audio, Speech, Language Process., vol.24, no.9, pp.1626–1641, 2016.

[7] H. Sawada, H. Kameoka, S. Araki, and N. Ueda,

“Multichannel extensions of non-negative matrix fac- torization with complex-valued data,” IEEE Trans.

Audio, Speech, Language Process., vol.21, no.5, pp.971–982, 2013.

[8] 吉山文教,上ノ原進吾,西島恵介,古家賢一,“マルチチャ ネル非負値行列因子分解における分離性能の高い初期値の 判別法,音響講論集,pp.777–780, 2014.

[9] 三浦伊織,太刀岡勇気,成田知宏,石井 純,吉山文教,

上ノ原進吾,古家賢一,“マルチチャネルNMFを用いた 音源分離における初期値依存性の挙動解析と音声認識で の評価,信学論(D),vol.J100-D, no.3, pp.376–384, March 2017.

[10] 浦本昂伸,太刀岡勇気,成田知宏,三浦伊織,上ノ原進吾,

古家賢一,“マルチチャネルNMFを用いたブラインド音 源分離のためのチャネル数増加に伴う逐次的初期化法, 学論(D)vol.J101-D, no.3, pp.569–577, March 2018.

[11] 新納浩幸,Rで学ぶクラスタ解析,オーム社,2007.

[12] J.H. Ward, Jr., “Hierarchical grouping to optimize an objective function,” J. American Statical Associ- ation, vol.58, pp.236–244, 1963.

[13] 日野幹雄,スペクトル解析,朝倉書店,1977.

[14] C. Fevotte, N. Bertin, and J.-L. Durrieu, “Nonneg- ative matrix factorization with the Itakura-Saito di- vergence: With application to music analysis,” Neu- ral Comput., vol.21, no.3, pp.793–830, 2009.

[15] M. Nakano, H. Kameoka, J.L. Roux, Y. Kitano, N. Ono, and S. Sagayama, “Convergence-guaranteed multiplicative algorithms for non-negative matrix factorization with beta-divergence,” Proc. MLSP 2010, pp.283–288, 2010.

[16] S. Araki, F. Nesta, E. Vincent, Z. Koldovsk´y, G.

Nolte, A. Ziehe, and A. Benichoux, “The 2011 signal separation evaluation campaign (SiSEC2011): Audio source separation,” Latent Variable Analysis and Sig- nal Separation, pp.414–422, Springer, Bearlin, 2012.

[17] RWCP, “実環境音声・音響データベース(RWCP-SSD),” 音声資源コンソーシアム,http://research.nii.ac.jp/src/

RWCP-SSD.html,閲覧日:2017/05/31.

[18] E. Vincent, H. Sawada, P. Bofill, S. Makino, and J.

Rosca, “First stereo audio source separation evalua- tion campaigh: Data algprithm and results,” Inde- pendent Component Analysis and Signal Separation, pp.552–559, Springer, Bearlin, 2007.

[19] Stereo Audio Source Separation Evaluation Cam- paign, http://www.irisa.fr/metiss/SASSEC07/?show

=criteria,閲覧日:2018/08/10.

付 録

距離の公理

本論文におけるクラスタ分析の際に用いた距離は距 離の公理を満たす.距離の公理とは

R

を空でない集合 として,任意の点

x, y, z R

に対し,次の性質を満た すものである.

正値性

d ( x, y ) = |x y| ≥ 0 , d ( x, y ) = |x y| = 0 x = y

絶対値の性質より,

|x| ≥ 0

|x| = 0 x = 0

対称性

d ( x, y ) = |x y| = | − ( x y )| = |y x| = d ( y, x )

三角不等式

A·1 距離の公理 Fig. A·1 metric definition.

(12)

d ( x, y ) = |x y||x z + z y|

= | ( x z ) + ( z y ) |

≤ |x z| + |z y| = d ( x, z ) + d ( z, y )

絶対値の性質より,

|x + y| ≤ |x| + |y|

A · 1

のように

x = H

1

y = H

2

z = o

とした上 で用いた.

(平成30531日受付,927日再受付,

124日早期公開)

浦本 昂伸

2017年大分大学工学部知能情報システ ム工学科卒業.現在は同大大学院工学研 究科博士前期課程に在籍.音源分離を研究 テーマとしている.

上ノ原進吾

2011年東京都市大学環境情報学部情報 メディア学科卒業.2012年より大分大学 工学部技術職員.以来,音声・音響信号処 理の教育研究の支援に従事.日本音響学会 会員.

古家 賢一 (正員:シニア会員)

1985年九州芸工大・音響設計卒.1987 年同大大学院情報伝達専攻修士課程了.同 NTT入社.以来,音声・音響信号処理 の研究に従事.2012年より大分大学工学 部教授.博士(芸術工学).1991年佐藤論 文賞受賞.IEEEシニア会員,AES,米国 音響学会,日本音響学会学会各会員.

Fig. 1 Example of a decomposed matrix by using MNMF (Gray denotes complex values).
図 2 マイクロホンと音源の配置図
図 3 音源分離性能の初期値依存性
図 6 クラスタ形成の様子 Fig. 6 State of cluster formation.
+5

参照

関連したドキュメント

音節の外側に解放されることがない】)。ところがこ

 基本波を用いる近似はピクセル単位の時間放射能曲線に対しては用いることができる

「課題を解決し,目標達成のために自分たちで考

MENU キーを 3 秒間押して設定モードに入ります。次に ( DISP ) キーと ( FUNC ) キー を同時に 3

※ 硬化時 間につ いては 使用材 料によ って異 なるの で使用 材料の 特性を 十分熟 知する こと

太宰治は誰でも楽しめることを保証すると同時に、自分の文学の追求を放棄していませ

・分速 13km で飛ぶ飛行機について、飛んだ時間を x 分、飛んだ道のりを ykm として、道のりを求め

「東京都スポーツ推進計画」を、平成 30 年 3 月に「東京都スポーツ推進総合計画」を策定すると ともに、平成 25 年