2 DS SS (SS+DS) Fig. 2 Separation algorithm for motorcycle sound by combining DS and SS (SS+DS). 3. [3] DS SS 2 SS+DS 1 1 B SS SS 4. NMF 4. 1 (NMF) Y

(1)

Separation of Motorcycle Sound by Near Field Microphone Array and Nonnegative Matrix Factorization

Chisaki YOSHINAGA†,Nonmember, Yosuke TATEKURA†a),Member,

Kazuaki HAMADA††, and Tetsuya KIMURA††,Nonmembers †_{静岡大学大学院工学研究科，浜松市}

Shizuoka University, Hamamatsu-shi, 432–8561 Japan ††_{ヤマハ発動機株式会社，磐田市}

Yamaha Motor Co., Ltd., Iwata-shi, 438–8501 Japan a) E-mail: [email protected] あらまし二輪車のエンジン音を構成する音をそれぞれ分離抽出するため，近接配置されたマイクロホンアレーによるビームフォーミングと非負値行列因子分解を統合した手法を提案する．実測データに提案法を適用させた結果，聴感上で良好に分離できることが確認された．キーワード音源分離，マイクロホンアレー，ビームフォーミング，非負値行列因子分解

1.

まえがき二輪車のエンジン音はそのユーザに関心を寄せられており，二輪車の開発現場ではエンジン音のチューニングに注力している．効率良くエンジン音を開発するため，それを構成する排気音

/

機械音の分離抽出が求められている．特にアイドリング状態のエンジン音については，開発現場で評価する多種多様な運転条件の中でも重視される項目の一つである．したがって，アイドリング状態における排気音

/

機械音の分離抽出を簡易かつ高度に実現することにより，開発効率の向上に大きく寄与することが期待される．これまで開発現場では，エンジン部分にピックアップセンサを取り付けたり，マフラー部をミュートすることによって各構成音を抽出していたが，より忠実に構成音を分解するためには，二輪車にデバイス等を何ら取り付けることなく観測された音に対して信号処理を適用させることが望ましい．複数の音源から構成される一体的な音源は，マイクロホンを音源から遠方に配置するほど各音源の位置がほぼ同一とみなされるため，音源位置や到来方位に基づいて各音源に指向性を形成するのは困難となる．これを回避する手段として，マイクロホンを複数個並べ

DS) [1]

に基づくビームフォーミングとスペクトルサブトラクション

(Spectral Subtraction: SS) [2]

を組み合わせた手法により，二輪車のエンジン音から排気音と機械音の抽出を試みた

[3]

．しかしながら，音質，分離精度ともに不十分であった．そこで本論文では，

[3]

のアルゴリズムの後段に非負値行列因子分解

(Nonnegative Matrix Factorization:

NMF) [4]

を組み合わせることにより，アイドリング状態におけるより高精度な二輪車エンジン音の分離を試みる．

2.

二輪車のエンジン音の特徴二輪車の構造より，エンジン音はマフラーの吐出口を主な音源とする排気音とエンジン本体を主な音源とする機械音とに大別される．以下，本論文では，二輪車のエンジン音は排気音と機械音の二つのみから構成されるものと仮定する．地上からの高さ

0.5 m

，二輪車側方からの距離

0.5 m

に配置されたマイクロホンにより二輪車エンジン音（アイドリング状態）を観測したところ，添付データ

1:

fig1.wav

のようであった．その時間波形の一部を図

1

に示す．時間波形は周期的な特徴を有し，その

1

周期は，パルス状の特徴をもつ区間

A

とゼロバイアス付近に小さな振幅が集中する区間

B

の

2

区間から構成されている．これより，区間

A

には排気音，区間

B

には機械音がそれぞれ強く含まれていると考えられる．図 1 二輪車エンジン音の時間波形の例 Fig. 1 An example of time waveform of the

(2)

図 2 DSと SS を組み合わせた二輪車エンジン音の分離アルゴリズム (SS+DS)

Fig. 2 Separation algorithm for motorcycle sound by combining DS and SS (SS+DS).

3.

アレー信号処理による各音源の抽出

[3]

DS

に基づくビームフォーミングと

SS

の組み合わせによる二輪車エンジン音の分離アルゴリズムを図

2

に示す．なお，以降ではこのアレー信号処理アルゴリズムを単に

SS+DS

と呼ぶ．このアルゴリズムでは，まず，任意の

1

マイクロホンで観測された信号より，機械音のパワースペクトルの推定を行う．ここでは図

1

の区間

B

に相当する箇所の平均パワースペクトルを用いた．次に，推定された機械音のパワースペクトルを用いてチャネルごとに

SS

の計算を行い，それらの同期加算することによって排気音を抽出する．同様に機械音の分離方法として，分離された排気音のパワースペクトルを用いた

SS

と同期加算を行う．この方法で二輪車エンジン音の分離を試みたところ，分離精度の不十分さ，音質の劣化に加え，分離された結果がマイクロホンアレーのどの素子で観測したものとも異なることが課題であった．

4.

アレー信号処理と

NMF

の統合による排気音と機械音の分離

4. 1

非負値行因子分解

(NMF)

非負値行列因子分解とは，非負値のデータを加法性の成り立つ構成成分に分解することを目的とした多変量解析手法である．観測信号のスペクトログラム

Y = [y

fn

]

F ×Nを行列とみなすと，

Y HU

(1)

のように，周波数特性を表す基底行列

H = [h

fk

]

F ×K とその時間変化を表すアクティベーション行列

U =

[

v

kn

]

_K×N に分解することができる．ここで，

f (= 1,

. . . , F )

は周波数のインデックス，

n (= 1, . . . , N)

は短時間フレームのインデックスを表し，

k (= 1, . . . , K)

は任意に決定される基底数である．また，

[

a

_ij

]

_I×Jは

i

行

j

列に要素

a

をもつ

I × J

行列を表す．そして，図 3 SS+DSと NMF の統合による分離アルゴリズム Fig. 3 Separation algorithm by combining SS+DS

and NMF.

H

と

U

はランダムな非負値で初期化され，式

(1)

の両辺の解離度が最小となるよう乗法更新によって

H

と

U

の最適化を行う．

NMF

により，基底数に応じた各構成要素が抽出されるが，

H

と

U

をランダムに初期化した場合，各基底がどちらの音源に属するものであるのかを明確にすることはできない．

4. 2

アレー信号処理と

NMF

の統合アルゴリズムここで，

3.

で述べた

SS+DS

と

NMF

の統合による，二輪車エンジン音の分離アルゴリズムについて述べる．提案アルゴリズムのブロック図を図

3

に示す．最初に，二輪車近傍に配置されたマイクロホンアレーで観測された信号より，

3.

に則して排気音

ˆ

s

1

(

t)

と機械音

ˆ

s

2

(

t)

をそれぞれ推定する．次に，排気音

/

機械音の推定値

s

ˆ

1

(

t), ˆs

2

(

t)

を利用して，

NMF

における基底行列

H

を初期化する．これは，基底行列の初期値として

s

ˆ

1

(

t), ˆs

2

(

t)

を用いることで，基底行列の最適近傍から更新できることが見込まれるために，ランダムな初期値を用いた場合と比べて高速に最適化することを図るものである．そして，マイクロホンアレーのうちのいずれかのマイクによる観測信号に対して

NMF

を行い，排気音と機械音を分離する．基底行列の初期化については，まず，

3.

で推定された

ˆ

s

_i

(

t)

を分析フレーム長で区切り，これを信号ベクトル

ˆ

s

_i

(

t) = [ˆs

i

(1) ˆ

s

i

(2)

· · · ˆs

i

(

N)]

T

(

i = 1, 2)

とする．次に，これを離散時間フーリエ変換によって周波数領域の信号

S

ˆ

i

(

f) = [ ˆ

S

i

(1) ˆ

S

i

(2)

· · · ˆ

S

i

(

N)]

T

(

i = 1, 2)

に変換する．ここで，排気音

/

機械音に関する基底数をそれぞれ

K

1

, K

2

(

K = K

1

+

K

2

)

とすると，排気音に関する基底行列

H

ˆ

1を

ˆ

H

1

=

ˆ

S

1

(

f) · · ·

S

ˆ

1

(

f)

F ×K1

(2)

のように，信号ベクトル

S

ˆ

i

(

f)

を

K

1列分だけ並べた

(3)

F ×K と設定される．ランダムな初期値から基底行列を最適化させた場合，各基底は排気音

/

機械音のどちらを構成する基底であるのか判断するのが困難となるが，提案手法のような処理を行うことにより，基底に対して一種のラベリングの効果が期待される．ただし，初期値となる基底を排気音

/

機械音のどちらかの初期値と設定したとしても，更新学習の結果，もう一方の構成音の基底として最適化されることも考えられる．基底の拘束化については，今後の課題である．

5.

実測データを用いた提案手法の評価提案手法の有効性を検証するため，アイドリング状態である二輪車実機のエンジン音の分離を試みた．

5. 1

実験条件アイドリング状態の二輪車のエンジン音を屋外にて測定した際の収録環境を図

4

に示す．

8

素子のマイクロホンを地上から

0.50 m

の高さ，二輪車から

0.50 m

の距離で，素子間隔

0.23 m

で配置した．各マイクロホンを二輪車の前方より，

Mic. 1,

· · · , Mic. 8

と表す．図 4 エンジン音の収録環境．図中の破線は地面からの高さを示す

Fig. 4 Arrangement of the microphones for recording motorcycle sound, in which the dashed lines indicate height from the ground.

スペクトログラムは短時間フーリエ変換（分析フレーム長

1024

点，フレームシフト

512

点，

Hanning

窓）により計算した．

NMF

の基底数は予備実験の結果より

100

とし，音源数は

2

であるため，

K

1と

K

2をともに

50

とした．式

(1)

の両辺の解離度の計算には，

Kullback-Leibler divergence

を用いた．

5. 2

実験結果

5. 2. 1

出力波形の比較

SS+DS

と，

SS+DS

の後段へ

NMF

を統合した手法（提案法）のそれぞれを用いた場合の排気音

/

機械音の時間波形を比較する．本節では

SS+DS

のみの場合を

NMF

処理前，提案法については

NMF

処理後と表記する．なお音質評価として，各分離音の試聴による比較，各分離音を用いた再構成音を

SNR

により評価した．まず，各手法によって得られた排気音の時間波形を図

5

に示す．これより，両手法とも排気音の特徴が抽出されていることはわかるが，時間波形の外形に大きな差はみられなかった．次に，各手法により抽出された機械音の時間波形を図

6

に示す．図より，

NMF

処理前の機械音の振幅が全体的に小さいことがわかる．また，元のエンジン音を示す図

1

の区間

B

と比較しても振幅が小さく，

SS+DS

によって振幅が減少したと考えられる．それに対し，

NMF

処理後では，観測信号中で機械音を強く含む部分（図中の破線の丸）と比較しても振幅の減少はなく，全体的に波形の違いも見られなかった．以上より，時間波形では排気音における抽出結果の差は図 5 NMF処理前後の排気音の時間波形 Fig. 5 Time waveform of separated exhaust sound

(4)

図 6 NMF処理前後の機械音の時間波形 Fig. 6 Time waveform of separated mechanical sound

before/after NMF. みられなかったが，機械音に関しては

NMF

処理後の方が高精度に抽出されていた．

5. 2. 2

分離音の試聴次に，分離音の試聴による比較を行う．添付データ

2: fig5a.wav

，

fig5b.wav

はそれぞれ

NMF

処理前後の排気音であり，添付データ

3: fig6a.wav

，

fig6b.wav

はそれぞれ

NMF

処理前後の機械音である．まず，排気音について比較すると，

NMF

処理前のものには音質の劣化が生じていたが，

NMF

処理を行うことで音質，分離精度が共に向上していた．同様に，機械音についても，

NMF

処理前で生じた音質の劣化が

NMF

処理後には感じられず，分離精度も向上していることが確認できた．以上より，排気音

/

機械音の両音において

NMF

処理後の方が聴感上の分離精度は良好であることが確認された．また

NMF

では，単一マイクロホンにおける観測信号から排気音

/

機械音への分離を行っているため，分離された音もそのマイクロホンで観測された排気音のみの音

/

機械音のみの音に近いと考えられる．

5. 2. 3

主観評価試聴結果の有効性を確認するため，添付データ中の排気音

/

機械音の各音について，

NMF

処理の有無による音質の差を被験者に評価してもらう主観評価実験を行った．被験者は，二輪車が趣味であったり所有するなどしてエンジン音に馴染みがあり，正常な聴力を有する

20

歳代の男性

6

名である．被験者には音をヘッドホンによって提示した．評価を行う前に，被験者にはアイドリング状態の二輪車の音（添付データ

1

の

fig1.wav

）を提示し，各被験者の評価しやすい音量となるよう，オーディオインタフェースの音量を調整させた．まず，排気音については，被験者に「マフラー部のみの音（アイドリング状態の音からエンジン部の音が除去された音）の音質」という教示を与え，これを

5

図 7 NMF処理前後の排気音に関する主観評価結果 Fig. 7 Result of the subjective evaluation for the

ex-haust sound before/after NMF.

段階（

5:

非常に良い，

4:

良い，

3:

どちらともいえない，

2:

悪い，

1:

非常に悪い）の評定尺度法を用いて判断させた．提示音は

NMF

処理前後の排気音（添付データ

2

の

fig5a.wav

と

fig5b.wav

）でそれぞれ

2

回分用意し，これをランダムに並べ替えた．図

7

に排気音に関する

Mean opinion score

（

MOS

）を示す．ここで，図中のエラーバーは標準偏差を表している．

NMF

処理前後の

MOS

の差が統計的に有意であるかを確かめるために，有意水準

5%

で両側検定の

t

検定を行ったところ，

t(11) = 3.46

，

P < 0.01

であり，有意差があることがわかった．このことから，抽出された排気音における聴感上の音質は，提案手法によって向上することが明らかとなった．機械音については，被験者には「エンジン部のみの音（アイドリング状態の音からどれだけマフラー部の音が除去されたか）であるかどうか」という教示のもとに，

5

段階（

5:

エンジン音が非常によく抽出されている，

4:

エンジン音が抽出されている，

3:

どちらともいえない，

2:

エンジン音があまり抽出されていない，

1:

エンジン音が全く抽出されていない）の評定尺度法を用いて判断させた．排気音のときと比べて機械音の評価における教示とカテゴリーを異なるものとしたのは，同様にした場合，被験者は元のアイドリング状態に近い音（排気音と機械音が良好に分離できていない音）を良い音質として評価する傾向にあることが予備実験から明らかとなったからである．提示音は

NMF

処理前後の機械音（添付データ

3

の

fig6a.wav

と

fig6b.wav

）でそれぞれ

2

回分用意し，これをランダムに並べ替えた．図

8

に機械音に関する

MOS

値と標準偏差を示す．

NMF

処理前後の

MOS

の差が統計的に有意か確かめるために，有意水準

5%

で両側検定

(5)

図 8 NMF処理前後の機械音に関する主観評価結果 Fig. 8 Result of the subjective evaluation for the

me-chanical sound before/after NMF.

図 9 再構成音の SNR の比較

Fig. 9 Comparison of reconstructed sound by SNR.

の

t

検定を行ったところ，

t(11) = 9.10

，

P < 0.01

であり，有意な差があることがわかった．よって，機械音に関しても，提案手法によって聴感上の分離音質の向上が明らかとなった．

5. 2. 4

再構成音の客観評価最後に，

SNR

によって分離音のひずみに関する客観評価を行う．現時点では排気音

/

機械音のみを収録した原音が得られないため，直接的に客観評価できない．そこで，各分離音を再び合わせることによって再構成音を作成し，以下の

SNR

を計算することによって分離手法間のひずみを評価する．

SNR [dB] =

t

y

2

(

t)

t

[

y

2

(

t) − {e

N

(

t) + m

N

(

t)}]

2

(4)

ここで，

y(t)

は

Mic.6

での観測信号，

e

N

(

t)

は

NMF

で分離された排気音，

m

N

(

t)

は

NMF

で分離された機械音を示す．各手法における再構成音の

SNR

を図

9

に示す．これより，

NMF

を用いることで

SNR

が約

20dB

向上したことがわかる．よって，

SS+DS

に

NMF

を統合させることで，少ない歪で排気音

/

機械音を分離することができたと考えられる．機械音のみの原音が得られないため，直接的に分離精度を客観評価することができなかった．したがって，分離された排気音

/

機械音を客観的に評価する指標を確立した上で，提案手法の分離精度を評価することが今後の課題である．文献

[1] J. Benesty, W. Kellermann, Eds., Microphone Array Signal Processing, Springer, Berlin, 2008.

[2] S.F. Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Trans. Acoust. Speech Signal Process., vol.ASSP-27, no.2, pp.113– 120, 1979. [3] 吉永智咲，中山裕美子，東俊希，立蔵洋介，“近接配置されたマイクロホンアレーによるバイクのマフラー・エンジン音の抽出，”第 57 回システム制御情報学会研究発表講演会論文集，SCI’13, 114-2, 2013. [4] 澤田宏，“非負値行列因子分解 NMF の基礎とデータ/ 信号解析への応用，”信学誌，vol.95, no.9, pp.829–833, Sept. 2012. 付録添付データ一覧表 A· 1 添付データ 1 Table A· 1 Attached data 1. ファイル名 fig1.wav 保存場所 /wavfile データの種類音声データの形式 WAV 説明二輪車のエンジン音表 A· 2 添付データ 2 Table A· 2 Attached data 2. ファイル名 fig5a.wav, fig5b.wav 保存場所 /wavfile データの種類音声データの形式 WAV 説明 NMF処理前後の排気音表 A· 3 添付データ 3 Table A· 3 Attached data 3. ファイル名 fig5a.wav, fig5b.wav 保存場所 /wavfile データの種類音声データの形式 WAV 説明 NMF処理前後の機械音（平成 26 年 4 月 3 日受付，8 月 13 日再受付）