2 DS SS (SS+DS) Fig. 2 Separation algorithm for motorcycle sound by combining DS and SS (SS+DS). 3. [3] DS SS 2 SS+DS 1 1 B SS SS 4. NMF 4. 1 (NMF) Y

Loading.... (view fulltext now)

Loading....

Loading....

Loading....

Loading....

全文

(1)

Separation of Motorcycle Sound by Near Field Microphone Array and Nonnegative Matrix Factorization

Chisaki YOSHINAGA,Nonmember, Yosuke TATEKURA†a),Member,

Kazuaki HAMADA††, and Tetsuya KIMURA††,Nonmembers 静岡大学大学院工学研究科,浜松市

Shizuoka University, Hamamatsu-shi, 432–8561 Japan ††ヤマハ発動機株式会社,磐田市

Yamaha Motor Co., Ltd., Iwata-shi, 438–8501 Japan a) E-mail: tatekura.yosuke@shizuoka.ac.jp あらまし 二輪車のエンジン音を構成する音をそれ ぞれ分離抽出するため,近接配置されたマイクロホン アレーによるビームフォーミングと非負値行列因子分 解を統合した手法を提案する.実測データに提案法を 適用させた結果,聴感上で良好に分離できることが確 認された. キーワード 音源分離,マイクロホンアレー,ビー ムフォーミング,非負値行列因子分解

1.

ま え が き 二輪車のエンジン音はそのユーザに関心を寄せられ ており,二輪車の開発現場ではエンジン音のチューニ ングに注力している.効率良くエンジン音を開発する ため,それを構成する排気音

/

機械音の分離抽出が求 められている.特にアイドリング状態のエンジン音に ついては,開発現場で評価する多種多様な運転条件の 中でも重視される項目の一つである.したがって,ア イドリング状態における排気音

/

機械音の分離抽出を 簡易かつ高度に実現することにより,開発効率の向上 に大きく寄与することが期待される.これまで開発現 場では,エンジン部分にピックアップセンサを取り付 けたり,マフラー部をミュートすることによって各構 成音を抽出していたが,より忠実に構成音を分解する ためには,二輪車にデバイス等を何ら取り付けること なく観測された音に対して信号処理を適用させること が望ましい. 複数の音源から構成される一体的な音源は,マイク ロホンを音源から遠方に配置するほど各音源の位置が ほぼ同一とみなされるため,音源位置や到来方位に基 づいて各音源に指向性を形成するのは困難となる.こ れを回避する手段として,マイクロホンを複数個並べ

DS) [1]

に基づくビームフォーミングとスペクトルサ ブトラクション

(Spectral Subtraction: SS) [2]

を組 み合わせた手法により,二輪車のエンジン音から排気 音と機械音の抽出を試みた

[3]

.しかしながら,音質, 分離精度ともに不十分であった. そこで本論文では,

[3]

のアルゴリズムの後段に非負 値行列因子分解

(Nonnegative Matrix Factorization:

NMF) [4]

を組み合わせることにより,アイドリング 状態におけるより高精度な二輪車エンジン音の分離を 試みる.

2.

二輪車のエンジン音の特徴 二輪車の構造より,エンジン音はマフラーの吐出口 を主な音源とする排気音とエンジン本体を主な音源と する機械音とに大別される.以下,本論文では,二輪 車のエンジン音は排気音と機械音の二つのみから構成 されるものと仮定する. 地上からの高さ

0.5 m

,二輪車側方からの距離

0.5 m

に配置されたマイクロホンにより二輪車エンジン音 (アイドリング状態)を観測したところ,添付データ

1:

fig1.wav

のようであった.その時間波形の一部を図

1

に示す.時間波形は周期的な特徴を有し,その

1

周期 は,パルス状の特徴をもつ区間

A

とゼロバイアス付近 に小さな振幅が集中する区間

B

2

区間から構成さ れている.これより,区間

A

には排気音,区間

B

に は機械音がそれぞれ強く含まれていると考えられる. 図 1 二輪車エンジン音の時間波形の例 Fig. 1 An example of time waveform of the

(2)

図 2 DSと SS を組み合わせた二輪車エンジン音の分離 アルゴリズム (SS+DS)

Fig. 2 Separation algorithm for motorcycle sound by combining DS and SS (SS+DS).

3.

アレー信号処理による各音源の抽出

[3]

DS

に基づくビームフォーミングと

SS

の組み合わせ による二輪車エンジン音の分離アルゴリズムを図

2

に 示す.なお,以降ではこのアレー信号処理アルゴリズ ムを単に

SS+DS

と呼ぶ.このアルゴリズムでは,ま ず,任意の

1

マイクロホンで観測された信号より,機 械音のパワースペクトルの推定を行う.ここでは図

1

の区間

B

に相当する箇所の平均パワースペクトルを用 いた.次に,推定された機械音のパワースペクトルを 用いてチャネルごとに

SS

の計算を行い,それらの同 期加算することによって排気音を抽出する.同様に機 械音の分離方法として,分離された排気音のパワース ペクトルを用いた

SS

と同期加算を行う. この方法で二輪車エンジン音の分離を試みたところ, 分離精度の不十分さ,音質の劣化に加え,分離された 結果がマイクロホンアレーのどの素子で観測したもの とも異なることが課題であった.

4.

アレー信号処理と

NMF

の統合による排気音 と機械音の分離

4. 1

非負値行因子分解

(NMF)

非負値行列因子分解とは,非負値のデータを加法性 の成り立つ構成成分に分解することを目的とした多 変量解析手法である.観測信号のスペクトログラム

Y = [y

fn

]

F ×Nを行列とみなすと,

Y  HU

(1)

のように,周波数特性を表す基底行列

H = [h

fk

]

F ×K とその時間変化を表すアクティベーション行列

U =

[

v

kn

]

K×N に分解することができる.ここで,

f (= 1,

. . . , F )

は周波数のインデックス,

n (= 1, . . . , N)

は短 時間フレームのインデックスを表し,

k (= 1, . . . , K)

は任意に決定される基底数である.また,

[

a

ij

]

I×J

i

j

列に要素

a

をもつ

I × J

行列を表す.そして, 図 3 SS+DSと NMF の統合による分離アルゴリズム Fig. 3 Separation algorithm by combining SS+DS

and NMF.

H

U

はランダムな非負値で初期化され,式

(1)

の 両辺の解離度が最小となるよう乗法更新によって

H

U

の最適化を行う.

NMF

により,基底数に応じた各構成要素が抽出さ れるが,

H

U

をランダムに初期化した場合,各基 底がどちらの音源に属するものであるのかを明確にす ることはできない.

4. 2

アレー信号処理と

NMF

の統合アルゴリズム ここで,

3.

で述べた

SS+DS

NMF

の統合によ る,二輪車エンジン音の分離アルゴリズムについて述 べる.提案アルゴリズムのブロック図を図

3

に示す. 最初に,二輪車近傍に配置されたマイクロホンア レーで観測された信号より,

3.

に則して排気音

ˆ

s

1

(

t)

と機械音

ˆ

s

2

(

t)

をそれぞれ推定する.次に,排気音

/

機 械音の推定値

s

ˆ

1

(

t), ˆs

2

(

t)

を利用して,

NMF

における 基底行列

H

を初期化する.これは,基底行列の初期 値として

s

ˆ

1

(

t), ˆs

2

(

t)

を用いることで,基底行列の最 適近傍から更新できることが見込まれるために,ラン ダムな初期値を用いた場合と比べて高速に最適化する ことを図るものである.そして,マイクロホンアレー のうちのいずれかのマイクによる観測信号に対して

NMF

を行い,排気音と機械音を分離する. 基底行列の初期化については,まず,

3.

で推定され た

ˆ

s

i

(

t)

を分析フレーム長で区切り,これを信号ベクト ル

ˆ

s

i

(

t) = [ˆs

i

(1) ˆ

s

i

(2)

· · · ˆs

i

(

N)]

T

(

i = 1, 2)

とする. 次に,これを離散時間フーリエ変換によって周波数領域 の信号

S

ˆ

i

(

f) = [ ˆ

S

i

(1) ˆ

S

i

(2)

· · · ˆ

S

i

(

N)]

T

(

i = 1, 2)

に変換する.ここで,排気音

/

機械音に関する基底数 をそれぞれ

K

1

, K

2

(

K = K

1

+

K

2

)

とすると,排気 音に関する基底行列

H

ˆ

1を

ˆ

H

1

=



ˆ

S

1

(

f) · · ·

S

ˆ

1

(

f)









F ×K1

(2)

のように,信号ベクトル

S

ˆ

i

(

f)

K

1列分だけ並べた

(3)







F ×K と設定される. ランダムな初期値から基底行列を最適化させた場合, 各基底は排気音

/

機械音のどちらを構成する基底であ るのか判断するのが困難となるが,提案手法のような 処理を行うことにより,基底に対して一種のラベリン グの効果が期待される.ただし,初期値となる基底を 排気音

/

機械音のどちらかの初期値と設定したとして も,更新学習の結果,もう一方の構成音の基底として 最適化されることも考えられる.基底の拘束化につい ては,今後の課題である.

5.

実測データを用いた提案手法の評価 提案手法の有効性を検証するため,アイドリング状 態である二輪車実機のエンジン音の分離を試みた.

5. 1

実 験 条 件 アイドリング状態の二輪車のエンジン音を屋外にて 測定した際の収録環境を図

4

に示す.

8

素子のマイク ロホンを地上から

0.50 m

の高さ,二輪車から

0.50 m

の距離で,素子間隔

0.23 m

で配置した.各マイクロ ホンを二輪車の前方より,

Mic. 1,

· · · , Mic. 8

と表す. 図 4 エンジン音の収録環境.図中の破線は地面からの高 さを示す

Fig. 4 Arrangement of the microphones for recording motorcycle sound, in which the dashed lines indicate height from the ground.

スペクトログラムは短時間フーリエ変換(分析フレー ム長

1024

点,フレームシフト

512

点,

Hanning

窓) により計算した.

NMF

の基底数は予備実験の結果よ り

100

とし,音源数は

2

であるため,

K

1と

K

2をと もに

50

とした.式

(1)

の両辺の解離度の計算には,

Kullback-Leibler divergence

を用いた.

5. 2

実 験 結 果

5. 2. 1

出力波形の比較

SS+DS

と,

SS+DS

の後段へ

NMF

を統合した手 法(提案法)のそれぞれを用いた場合の排気音

/

機械 音の時間波形を比較する.本節では

SS+DS

のみの場 合を

NMF

処理前,提案法については

NMF

処理後と 表記する.なお音質評価として,各分離音の試聴によ る比較,各分離音を用いた再構成音を

SNR

により評 価した. まず,各手法によって得られた排気音の時間波形を 図

5

に示す.これより,両手法とも排気音の特徴が抽 出されていることはわかるが,時間波形の外形に大き な差はみられなかった. 次に,各手法により抽出された機械音の時間波形を 図

6

に示す.図より,

NMF

処理前の機械音の振幅が 全体的に小さいことがわかる.また,元のエンジン 音を示す図

1

の区間

B

と比較しても振幅が小さく,

SS+DS

によって振幅が減少したと考えられる.それ に対し,

NMF

処理後では,観測信号中で機械音を強 く含む部分(図中の破線の丸)と比較しても振幅の減 少はなく,全体的に波形の違いも見られなかった.以 上より,時間波形では排気音における抽出結果の差は 図 5 NMF処理前後の排気音の時間波形 Fig. 5 Time waveform of separated exhaust sound

(4)

図 6 NMF処理前後の機械音の時間波形 Fig. 6 Time waveform of separated mechanical sound

before/after NMF. みられなかったが,機械音に関しては

NMF

処理後の 方が高精度に抽出されていた.

5. 2. 2

分離音の試聴 次に,分離音の試聴による比較を行う.添付データ

2: fig5a.wav

fig5b.wav

はそれぞれ

NMF

処理前後 の排気音であり,添付データ

3: fig6a.wav

fig6b.wav

はそれぞれ

NMF

処理前後の機械音である.まず,排 気音について比較すると,

NMF

処理前のものには音 質の劣化が生じていたが,

NMF

処理を行うことで音 質,分離精度が共に向上していた.同様に,機械音に ついても,

NMF

処理前で生じた音質の劣化が

NMF

処理後には感じられず,分離精度も向上していること が確認できた.以上より,排気音

/

機械音の両音にお いて

NMF

処理後の方が聴感上の分離精度は良好であ ることが確認された.また

NMF

では,単一マイクロ ホンにおける観測信号から排気音

/

機械音への分離を 行っているため,分離された音もそのマイクロホンで 観測された排気音のみの音

/

機械音のみの音に近いと 考えられる.

5. 2. 3

主 観 評 価 試聴結果の有効性を確認するため,添付データ中の 排気音

/

機械音の各音について,

NMF

処理の有無によ る音質の差を被験者に評価してもらう主観評価実験を 行った.被験者は,二輪車が趣味であったり所有する などしてエンジン音に馴染みがあり,正常な聴力を有 する

20

歳代の男性

6

名である.被験者には音をヘッ ドホンによって提示した.評価を行う前に,被験者に はアイドリング状態の二輪車の音(添付データ

1

fig1.wav

)を提示し,各被験者の評価しやすい音量と なるよう,オーディオインタフェースの音量を調整さ せた. まず,排気音については,被験者に「マフラー部の みの音(アイドリング状態の音からエンジン部の音が 除去された音)の音質」という教示を与え,これを

5

図 7 NMF処理前後の排気音に関する主観評価結果 Fig. 7 Result of the subjective evaluation for the

ex-haust sound before/after NMF.

段階(

5:

非常に良い,

4:

良い,

3:

どちらともいえ ない,

2:

悪い,

1:

非常に悪い)の評定尺度法を用い て判断させた.提示音は

NMF

処理前後の排気音(添 付データ

2

fig5a.wav

fig5b.wav

)でそれぞれ

2

回分用意し,これをランダムに並べ替えた.図

7

に 排気音に関する

Mean opinion score

MOS

)を示す. ここで,図中のエラーバーは標準偏差を表している.

NMF

処理前後の

MOS

の差が統計的に有意であるか を確かめるために,有意水準

5%

で両側検定の

t

検定 を行ったところ,

t(11) = 3.46

P < 0.01

であり,有 意差があることがわかった.このことから,抽出され た排気音における聴感上の音質は,提案手法によって 向上することが明らかとなった. 機械音については,被験者には「エンジン部のみの 音(アイドリング状態の音からどれだけマフラー部の 音が除去されたか)であるかどうか」という教示のも とに,

5

段階(

5:

エンジン音が非常によく抽出されて いる,

4:

エンジン音が抽出されている,

3:

どちらと もいえない,

2:

エンジン音があまり抽出されていな い,

1:

エンジン音が全く抽出されていない)の評定 尺度法を用いて判断させた.排気音のときと比べて機 械音の評価における教示とカテゴリーを異なるものと したのは,同様にした場合,被験者は元のアイドリン グ状態に近い音(排気音と機械音が良好に分離できて いない音)を良い音質として評価する傾向にあること が予備実験から明らかとなったからである.提示音は

NMF

処理前後の機械音(添付データ

3

fig6a.wav

fig6b.wav

)でそれぞれ

2

回分用意し,これをラン ダムに並べ替えた.図

8

に機械音に関する

MOS

値と 標準偏差を示す.

NMF

処理前後の

MOS

の差が統計 的に有意か確かめるために,有意水準

5%

で両側検定

(5)

図 8 NMF処理前後の機械音に関する主観評価結果 Fig. 8 Result of the subjective evaluation for the

me-chanical sound before/after NMF.

図 9 再構成音の SNR の比較

Fig. 9 Comparison of reconstructed sound by SNR.

t

検定を行ったところ,

t(11) = 9.10

P < 0.01

で あり,有意な差があることがわかった.よって,機械 音に関しても,提案手法によって聴感上の分離音質の 向上が明らかとなった.

5. 2. 4

再構成音の客観評価 最後に,

SNR

によって分離音のひずみに関する客 観評価を行う.現時点では排気音

/

機械音のみを収録 した原音が得られないため,直接的に客観評価できな い.そこで,各分離音を再び合わせることによって再 構成音を作成し,以下の

SNR

を計算することによっ て分離手法間のひずみを評価する.

SNR [dB] =



t

y

2

(

t)



t

[

y

2

(

t) − {e

N

(

t) + m

N

(

t)}]

2

(4)

ここで,

y(t)

Mic.6

での観測信号,

e

N

(

t)

NMF

で分離された排気音,

m

N

(

t)

NMF

で分離された 機械音を示す.各手法における再構成音の

SNR

を 図

9

に示す.これより,

NMF

を用いることで

SNR

が約

20dB

向上したことがわかる.よって,

SS+DS

NMF

を統合させることで,少ない歪で排気音

/

機 械音を分離することができたと考えられる. 機械音のみの原音が得られないため,直接的に分離精 度を客観評価することができなかった.したがって, 分離された排気音

/

機械音を客観的に評価する指標を 確立した上で,提案手法の分離精度を評価することが 今後の課題である. 文 献

[1] J. Benesty, W. Kellermann, Eds., Microphone Array Signal Processing, Springer, Berlin, 2008.

[2] S.F. Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Trans. Acoust. Speech Signal Process., vol.ASSP-27, no.2, pp.113– 120, 1979. [3] 吉永智咲,中山裕美子,東 俊希,立蔵洋介,“近接配置 されたマイクロホンアレーによるバイクのマフラー・エン ジン音の抽出,”第 57 回システム制御情報学会研究発表講 演会論文集,SCI’13, 114-2, 2013. [4] 澤田 宏,“非負値行列因子分解 NMF の基礎とデータ/ 信号解析への応用,”信学誌,vol.95, no.9, pp.829–833, Sept. 2012. 付 録 添付データ一覧 表 A· 1 添付データ 1 Table A· 1 Attached data 1. ファイル名 fig1.wav 保存場所 /wavfile データの種類 音声 データの形式 WAV 説明 二輪車のエンジン音 表 A· 2 添付データ 2 Table A· 2 Attached data 2. ファイル名 fig5a.wav, fig5b.wav 保存場所 /wavfile データの種類 音声 データの形式 WAV 説明 NMF処理前後の排気音 表 A· 3 添付データ 3 Table A· 3 Attached data 3. ファイル名 fig5a.wav, fig5b.wav 保存場所 /wavfile データの種類 音声 データの形式 WAV 説明 NMF処理前後の機械音 (平成 26 年 4 月 3 日受付,8 月 13 日再受付)

Updating...

参照

Updating...

関連した話題 :