非負値行列因子分解を用いたピアノ音の個体差分析に関する研究

(1)

北陸先端科学技術大学情報科学研究科情報科学専攻

小林慶祐

2014年3月

(2)

修士論文

非負値行列因子分解を用いたピアノ音の個体差分析に関する研究

指導教員

赤木正人教授

審査委員主査

赤木正人教授

審査委員

鵜木祐史准教授

審査委員

党建武教授

北陸先端科学技術大学院大学情報科学研究科情報科学専攻

1210023 ^{小林慶祐}

提出年月: 2014年2月

(3)

しか表現出来ない．そのため，個体差を含む実楽器音を使用する場合，大規模な実楽器音の単音データベースを所有するか，実際に演奏する必要がある．単音データベースは楽器の種類によっては非常に少なく，高価であるため，容易に入手しづらい．また，演奏する場合には，演奏者の技量に左右され，楽器の演奏が未経験であれば，演奏することすらままならない．従って，個体差を含む実楽器音を用いた音楽制作は困難になっている．

この楽器音の個体差を扱うにあたり，楽器の生成機構をモデル化する研究が行われてきた．特に発音機構がとても複雑なピアノに関する研究は数多く行われてきた．しかし，

提案されているモデルを用いても，ピアノ音を完全に再現は出来ない．また，制御パラメータが多く，実験的にしかパラメータの値を決める事が出来ないため，音色再現は非常に困難である．山家らはピアノ音の個体差と演奏時の印象評価を対応づけるにあたり，調波構造と時間波形それぞれに個体差が含まれると指摘している．しかし，山家らが指摘しているのはピアノ音の立ち上がりの箇所であり，他の箇所については触れられていない．

また，Leeらが指摘するように，調波構造は時間的に変動をするものであるため，一部分のみを分析するのでは不十分である．

本研究は上記の問題点を解決するために，ピアノ音の調波構造とその時間変動を同時に扱いながら個体差の分析を行う．この分析にあたり，非負値行列因子分解 (Non-negative Matrix Factorization; NMF) を分析手法として用いる．NMFはサウンドスペクトログラムを，K 個の調波構造を表す基底行列と，それらに対応する時間変動パターンを表すアクティベーション行列の2つの行列に分解することができる．また，基底行列の一部をピアノ音の共通成分で固定する事が出来れば，ピアノ音の共通成分と，それ以外の成分，つまり入力ピアノ音固有の成分が表れると考えられる．NMFで分析するにあたり，ピアノの発音機構を考慮した結果，入力はパワースペクトログラムではなく，対数パワースペクトログラムを入力として用いる．

(4)

た．定常部は響板，ふた等の反響と，立ち上がり部は打鍵，打弦時に発生する雑音と，減衰部は弦の2段階減衰と対応していると考えられる．ピアノ音を表現出来る基底数を求めた後，具体的な個体差を示すために，基底行列の一部をピアノ音の共通成分で固定して再度分析を行った．その結果，個体差成分として響板などによる反響時の調波構造，弦の2 段階減衰の後半の緩やかな減衰部分が，グランドピアノ音，アップライトピアノ音それぞれ表れた．特に弦の2段階減衰は共通成分で最初の急峻な減衰が表れ，グランドピアノ音とアップライトピアノ音,それぞれの発音機構の影響が表れていた．これらに対し，MIDI 音源では，打源位置による第6〜8倍音のピーク値の影響や，2段階減衰，ダンパの影響などが反映されていないことも，分析結果の比較によりわかった．

本研究ではピアノ音の個体差分析として対数パワースペクトログラムを用いてNMFで分析を行った．この分析では，要因が直列でつながっているものを分析出来るので，他の楽器でも要因が直列的であれば，同様に個体差を導出出来ると考えられる．また，この得られた個体差成分を別の音源のものと入れ替え，対数パワースペクトログラムを再合成，

そしてそこから，時間波形に戻せば，音色変換が行えることが考えられる．今回MIDI音源では弦の2段階減衰とダンパの影響が表現出来ていなかった．そこで，NMFで分析してそのときに得られた減衰部を表すアクティベーションを実音源のアクティベーションに入れ替えて，スペクトログラム，そして時間波形を再合成すれば，より実音源に近い MIDI音源に変換出来ると思われる．このように，今回得られた個体差の情報を用いて，

音色変換や，演奏の表情付けなどに転用出来ると期待される．

(5)

1.2.2 . . . . 2

1.3 本研究の目的 . . . . 2

1.4 本論文の構成 . . . . 3

第2章ピアノの発音原理 4 2.1 ピアノの種類 . . . . 4

2.2 ピアノ音の発音機構 . . . . 4

2.3 インハーモニシティ . . . . 9

2.4 まとめ . . . . 9

第3章ピアノ音の個体差分析手法 11 3.1 ピアノ音の個体差分析の流れ . . . . 11

3.2 非負値行列因子分解 . . . . 11

3.2.1 距離尺度 . . . . 12

3.2.2 更新則 . . . . 12

3.3 高域強調処理 . . . . 14

3.4 対数パワースペクトログラムを用いた非負値行列因子分解による分析 . . . 14

3.5 値のスケール変換 . . . . 15

3.6 まとめ . . . . 16

第4章非負値行列因子分解を用いたピアノ音の個体差分析 17 4.1 基底数K の決定 . . . . 17

4.1.1 実験目的 . . . . 17

(6)

4.2.2 実験条件 . . . . 31

4.2.3 分析結果と考察 . . . . 31

4.3 まとめ . . . . 39

第5章総合検討 40 5.1 グランドピアノ音間での個体差の違い . . . . 40

5.2 アップライトピアノ音間での個体差の違い . . . . 43

5.3 各ピアノ間での個体差の違い . . . . 46

5.3.1 アクティベーションベクトルの差異 . . . . 46

5.3.2 定常部ベクトルの差異 . . . . 46

5.3.3 高周波数領域の影響 . . . . 50

5.4 まとめ . . . . 51

第6章結論 53 6.1 本研究のまとめ . . . . 53

6.2 今後の展望 . . . . 53

謝辞 55

参考文献 58

付録 58

研究業績 126

(7)

2.5 . . . . 7

2.6 響板の各周波数における相対的な強さのパターン . . . . 8

2.7 パラメータB と第n倍音の周波数値の変化. . . . 10

3.1 ピアノ音分析のブロック図 . . . . 11

3.2 各距離尺度における2変数の近さ度合い . . . . 13

3.3 高域強調無しでNMF による分析をしたときの基底行列 . . . . 15

4.1 分析窓幅512 点での分析結果 . . . . 19

4.2 分析窓幅2048 点での分析結果 . . . . 20

4.3 分析窓幅4096 点での分析結果 . . . . 21

4.4 基底数とSDRの関係 . . . . 24

4.5 K = 1 の場合の分離結果(RWC1) . . . . 25

4.6 K = 2 の場合の分離結果(RWC1) . . . . 26

4.7 K = 3 の場合の分離結果(RWC1) . . . . 27

4.8 K = 4 の場合の分離結果(RWC1) . . . . 28

4.9 K = 5 の場合の分離結果(RWC1) . . . . 29

4.10 基底固定を用いるNMF の概念図 . . . . 30

4.11 グランドピアノ音の共通成分 . . . . 33

4.12 アップライトピアノ音の共通成分 . . . . 33

4.13 グランドピアノ音の分析結果 (GP2) . . . . 34

4.14 グランドピアノ音の分析結果 (RWC3) . . . . 35

4.15 基底行列の一部を固定してNMFを適応した結果(UP1) . . . . 36

(8)

5.3 アップライトピアノ音の非固定部の定常部ベクトル . . . . 44

5.4 アップライトピアノ音の非固定部のアタックベクトル . . . . 45

5.5 各ピアノ音の減衰部ベクトルのアクティベーション . . . . 47

5.6 各ピアノ音の共通成分の減衰部ベクトルのアクティベーション . . . . 48

5.7 各ピアノ音の定常部ベクトル . . . . 49

5.8 アップライトピアノ音の基底行列(UP3) . . . . 51

1 YAMAHA GRAND C3 . . . . 60

2 GP1のマイク設置 . . . . 60

3 GP2のマイク設置 . . . . 62

4 アップライトピアノのマイク設置 . . . . 63

5 K = 1 の場合の分離結果(MIDI) . . . . 66

6 K = 2 の場合の分離結果(MIDI) . . . . 67

7 K = 3 の場合の分離結果(MIDI) . . . . 68

8 K = 4 の場合の分離結果(MIDI) . . . . 69

9 K = 5 の場合の分離結果(MIDI) . . . . 70

10 K = 1 の場合の分離結果(UP1) . . . . 71

11 K = 2 の場合の分離結果(UP1) . . . . 72

12 K = 3 の場合の分離結果(UP1) . . . . 73

13 K = 4 の場合の分離結果(UP1) . . . . 74

14 K = 5 の場合の分離結果(UP1) . . . . 75

15 K = 1 の場合の分離結果(UP2) . . . . 76

16 K = 2 の場合の分離結果(UP2) . . . . 77

17 K = 3 の場合の分離結果(UP2) . . . . 78

18 K = 4 の場合の分離結果(UP2) . . . . 79

19 K = 5 の場合の分離結果(UP2) . . . . 80

20 K = 1 の場合の分離結果(UP3) . . . . 81

21 K = 2 の場合の分離結果(UP3) . . . . 82

22 K = 3 の場合の分離結果(UP3) . . . . 83

23 K = 4 の場合の分離結果(UP3) . . . . 84

24 K = 5 の場合の分離結果(UP3) . . . . 85

25 K = 1 の場合の分離結果(UP4) . . . . 86

26 K = 2 の場合の分離結果(UP4) . . . . 87

27 K = 3 の場合の分離結果(UP4) . . . . 88

(9)

42 K = 3 の場合の分離結果(GP2) . . . . 103

43 K = 4 の場合の分離結果(GP2) . . . . 104

44 K = 5 の場合の分離結果(GP2) . . . . 105

45 K = 1 の場合の分離結果(RWC1) . . . . 106

46 K = 2 の場合の分離結果(RWC1) . . . . 107

47 K = 3 の場合の分離結果(RWC1) . . . . 108

48 K = 4 の場合の分離結果(RWC1) . . . . 109

49 K = 5 の場合の分離結果(RWC1) . . . . 110

50 K = 1 の場合の分離結果(RWC3) . . . . 111

51 K = 2 の場合の分離結果(RWC3) . . . . 112

52 K = 3 の場合の分離結果(RWC3) . . . . 113

53 K = 4 の場合の分離結果(RWC3) . . . . 114

54 K = 5 の場合の分離結果(RWC3) . . . . 115

55 基底行列の一部を固定してNMFを適応した結果(UP1) . . . . 117

59 基底行列の一部を固定してNMFを適応した結果(MAPS) . . . . 121

60 基底行列の一部を固定してNMFを適応した結果(GP1) . . . . 122

61 基底行列の一部を固定してNMFを適応した結果(GP2) . . . . 123

62 基底行列の一部を固定してNMFを適応した結果(RWC1). . . . 124

63 基底行列の一部を固定してNMFを適応した結果(RWC3). . . . 125

(10)

表目次

4.1 基底数K = 3 とK = 4の各基底ベクトル間での相関係数 . . . . 22

4.2 基底数K = 3 とK = 5の各基底ベクトル間での相関係数 . . . . 23

5.1 グランドピアノ音の減衰の傾き . . . . 43

5.2 アップライトピアノ音の減衰の傾き . . . . 43

5.3 各ピアノ間の相関係数の平均値 . . . . 50

1 収録機材一覧 . . . . 61

2 収録音の設定 . . . . 64

3 GP1収録時のマイク位置 . . . . 64

4 GP2収録時のマイク位置 . . . . 65

5 アップライトピアノ音収録時のマイク位置 . . . . 65

(11)

する必要がない．また，Vocaloid [1]に代表されるような歌声合成ソフトウェアを用いることにより，楽器音のみの楽曲だけでなく，歌唱曲の制作も行える.

DTM で使われる音源としては，MIDI (Musical Instruments Digital Interface) 音源に代表されるソフトウェア音源が一般的に用いられている．しかし，それらの多くは楽器音の中でも，典型的な音しか表現出来ない．ソフトウェア音源の代わりに個体差を含む実楽器音を使用する場合，大規模な実楽器音の単音データベースを所有するか，実際に演奏する必要がある．楽器の単音データベースの数は少なく，高価であるため，容易に入手しづらい．また，演奏する場合には，演奏者の技量に左右され，楽器の演奏が未経験であれば，演奏することすらままならない．従って，個体差を含む実楽器音を用いた音楽制作は困難になっている．

1.2 ^{本研究の背景}

1.2.1 ピアノ音の個体差

まずはじめに，楽器音の個体差を以下のように定義する．

定義楽器音の個体差とは材質，構造，などに起因する楽器音の差異

この楽器音の個体差には，音高，音量，演奏者，演奏法に関しては同一の条件である．つまり，外的要因による影響がない，純粋にその楽器固有の持つ成分こそが，楽器音の個体差である．

(12)

1.2.2 従来手法の問題点

ピアノ音の個体差を扱うにあたり，楽器の生成機構のモデル化に関する研究が従来から行われてきた[2–7]. しかし，これらのモデルを用いてもピアノ音を完全に再現出来ず，

再現しているのはピアノを構成している一部の影響である．また，これらのモデルは制御パラメータが多く，実験的にしかパラメータの値を決める事が出来ないため，実楽器音の音色再現は難しい．

楽音の個体差を扱う研究として音色変換に関するものがある．時間波形に対してテンプレートフィルタリングを行うもの [8]や，スペクトルを変形して音色を変化させる方法 [9]

などがある．しかし，これらの手法は変換こそ出来るが，個体差が何なのかについては明記されていない．

個体差そのものについては，山家ら[10]はピアノ音の個体差が調波構造及び時間波形それぞれにあると指摘している．したがって，テンプレートフィルタリングを用いた方法は時間波形のみを，スペクトルを変形させる手法に関しては調波構造のみをターゲットにしているので，山家らが指摘している調波構造と時間波形それぞれの関係性はわからない．

また，山家らが指摘している箇所は，ピアノ音の立ち上がり部分であり，音の定常的な部分や減衰特性などについては触れられていない．そもそも，Lee et al. [11] が指摘するように，調波構造は時間的に変動するので，山家らの分析のように，ある一時点における時間波形とその調波構造だけでは不十分と言える．従って，ピアノ音の個体差を分析するには，調波構造とその長期の時間変動を同時に扱う必要がある．

1.3 ^{本研究の目的}

本研究の目的はピアノ音の調波構造とその時間変動を同時に分析し，ピアノ音の個体差を明らかにすることである．ピアノ音の個体差分析にあたり，本研究では非負値行列因子分解 (Non-negative Matrix Factorization; NMF) [12] を用いる．NMF は元々画像処理に用いられる手法だが，近年音響信号に適用され，音源分離や自動採譜などで非常に優れた効果を発揮している [9, 13–16]．NMF は入力音のサウンドスペクトログラムを，K個の調波構造パターンと，その時間変動の2つに分離する事が出来る．つまり，周波数情報である調波構造と，時間変動の両方を同時に扱う事が出来る手法である．また，K個のパターンのうち，R(R < K)個をピアノの共通成分でうまく固定することにより，ピアノ音を，R個の共通成分パターン，K−R個の個体差パターンで表現することが可能と考えられる．つまり，このK−R個の成分が，入力音の個体差そのものと考えられる．

この個体差を分析することにより，音楽の演奏表現[17]や音色変換[18]などにおける

(13)

であるNMF の基本原理についての紹介も行う．

第4章 第3章で示した分析手法を基に行った，ピアノ音の個体差分析実験について記載する．

第5章 ピアノの発音原理と，先ほどの分析結果を踏まえて，ピアノ音の個体差についての考察を行う．

第6章 本研究で得られた結果についてまとめる．

(14)

第 2 ^{章ピアノの発音原理}

本章では，ピアノの発音原理について述べ，そこから考えられる個体差として表れる違いについて考察を行う．

2.1 ^{ピアノの種類}

ピアノは大きく分けて2種類存在する．グランドピアノとアップライトピアノである．

グランドピアノは図 2.1に示すように大型である．グランドピアノ内でも，奥行きが

270 cmもあるフルコンサートから，奥行き150 cm程度のミニグランドまで様々である．

アップライトピアノは図2.2に示す通り，グランドピアノに比べ小型であり，グランドピアノが置けないような部屋，及び家庭用ピアノとして普及している．

これら2種類のピアノの大きな違いは2つである．1つはピアノそのものの大きさ．もう一つは打弦機構である”アクション”の違いである．グランドピアノ，アップライトピアノそれぞれのアクションを図 2.3, 2.4に示す．図から分かる通り，グランドピアノはハンマーが弦の下から打つものであるのに対し，アップライトは縦に張られた弦を横からハンマーが打つ機構になっている．グランドピアノでは，ハンマーが下から弦を叩くので，打弦後は重力によって打弦前の位置まで戻される．しかし，アップライトピアノでは，ハンマーが横から弦を叩いた後，元の位置に戻るために．バネの力を利用している．ヤマハ楽器では，この2つの機構の違いによって，グランドピアノはアップライトピアノの2倍の早さで打弦できるという [19]. つまり，アップライトピアノの方が打弦時の接触時間が長いということがわかる．弦との接触時間が長いということは，それだけ弦の振動を抑えているという事と等価であるため，アップライトピアノはグランドピアノよりも弦振動の減衰が早いと考えられる．

2.2 ^{ピアノ音の発音機構}

ピアノの発音機構の概形図を図に示す．この発音機構は，大きく分けてつの段階

(15)

(16)

図 2.3: グランドピアノのアクション

(17)

れらの影響も個体差として表れてくる事が予想される．

(18)

図2.6:響板の各周波数における相対的な強さのパターン

(19)

弦の自由振動F₀は式 (2.2)で計算され，式 (2.1)のf₁とほぼ同じ値である．

F₀ = 1 2L

√ T

µ (2.2)

ただし， Lは弦の長さ，T は張力，µは単位長さ辺りの質量 (線密度)を表す．Bはインハーモニシティ係数と呼ばれ式(2.3)によって計算される．

B = π³Ed⁴

64T L² (2.3)

Eはヤング率，dは弦の直径,T, Lは先ほどと同じである．このBは一般に[10⁻⁵,10⁻²]の

値をとる [22]. このBの値によって図 2.7に示すように，高調波でも特に第10倍音以降

の周波数の値が変わってくる．このインハーモニシティの違いは個体差として表れてくるはずである．

2.4 ^まとめ

本章では，ピアノの種類による構造の違い，並びにピアノの発音機構について説明を行った．ピアノの発音機構から個体差として考えられる要因は(1)打鍵時のノイズ, (2)ハンマーが打弦時の打撃音，(3) 弦の振動，(4) 駒・響板の影響の4種類である．特に，弦の振動においてはインハーモニシティが見られるため，これらの要因毎に分離して個体差がどのようにあるのかを見ていく必要がある．

(20)

0 2 4 6 8 10 12 14 16 18 20 0

1000 2000 3000 4000 5000 6000

n

frequency [Hz]

Frequency of n−th harmonic component

B=1.0*10⁻³ B=5.0*10⁻⁴ B=1.0*10⁻⁵

図 2.7: パラメータB と第n倍音の周波数値の変化

(21)

3.1 ピアノ音の個体差分析の流れ

図 3.1にピアノ音の個体差分析の流れを示す．NMFの入力として対数パワースペクトログラムを使うので，NMF に適応させるためにも様々な前処理を施してある．それぞれの処理については次節で説明する．

3.2 ^{非負値行列因子分解}

NMF とは，ある非負値行列Y(∈ R^Ω^×^T) を異なる2つの非負値行列U(∈ R^Ω^×^K)と V(∈R^K^×^T) の積に近似分解する手法であり，式 (3.1)によって定義される．

Y_ω,t ≈Yˆ_ω,t =

∑K

k

U_ω,kV_k,t (3.1)

ここで，Ωは周波数ビン数，Tはフレーム数，KはNMFの基底数を表す．また，ω, tはそれぞれ周波数ビン番号，フレーム番号を示す．音響信号にNMFを適応する場合，パワー (振幅)スペクトログラムが行列Y に相当する．行列U は基底行列と呼ばれ，U の各列ベクトルは調波構造を表す．また，行列V はアクティベーション行列と呼ばれ，各行ベクトルは，Uの各調波構造の時間変動を表現する．

このようにNMFは調波構造と，それぞれに対応する時間変動の両者を同時に見る事が出来る．

(22)

3.2.1 距離尺度

NMFは非負値行列Y を2つの異なる非負値行列U, V に分解する．単に分解するだけでは，解が定まらない．そこで，解が収束するようにある一定のルールに基づいてU, V の最適化を行う．そのルールとしては，ユークリッド距離(式 (3.2))や一般化KL ダイバージェンス(式 (3.3))，板倉齋藤距離(式 (3.4)) [23, 24]などが主として用いられている．

D_euc(x|y) = (x−y)² (3.2)

D_KL(x|y) = (x−y) +ylog y

x (3.3)

D_IS(x|y) = y

x−log y

x −1 (3.4)

各距離尺度における，2つの変数の近さ度合いを表した図が図 3.2である．

3.2.2 更新則

U, V の最適化は先ほどの距離尺度を基に，乗法更新則と言われる方法で値の更新を行う．ユークリッド距離での更新則は式 (3.6)のようになる．

U ←U. Y V^t

U V V^t (3.5)

V ←V. U^tY

U^tU V (3.6)

∗^t は転置，∗. はアダマール積を表す．導出方法としては補助関数法と呼ばれる，目的関数の上限関数を設計し，その上限関数を最小化することにより，目的関数を最小化する手法である [25, 26]．

以下にユークリッド距離に置ける場合の更新則の導出方法を記述する．

D_Euc(Y|U V) = ||Y −U V||²F

= ∑

ω,t

|Y_ω,t−∑

k

U_ω,kV_k,t|²

= ∑

(|Y_ω,t|²−2|Y_ω,t||∑

U_ω,kV_k,t|+|∑

U_ω,kV_k,t|²) (3.7)

(23)

0 2 4 6 8 10 12 14 16 18 20 0

10 20 30 40 50

x

D(5|x)

図 3.2: 各距離尺度における2変数の近さ度合い

という大小関係を示す不等式である．2次関数であれば式 (3.9)のようになる．

(∑

i

x_i)² = (∑ λ_ix_i

λ_i)² ≤∑

i

λ_i(x_i

λ_i)² =∑

i

x²_i

λ_i (3.9)

つまり，第3項に対してJensenの不等式を立てると式のようになる．

|∑

U_ω,kV_k,t|² ≤∑|U_ω,kV_k,t|²

λ (3.10)

(24)

この式 (3.11)をU_ω,kとV_k,tについて解くと U_ω,k =

∑

tY_ω,tV_k,t

∑

t V_k,t² λk,ω,t

(3.12)

Vω,k =

∑

tY_ω,tU_k,t

∑

t U_k,t² λ_k,ω,t

(3.13) となる．このλは全てのλ_i和が1となる係数であれば何でも良いので，式 (3.14)のようにした．

λ_k,ω,t = U_ω,kV_k,t

∑

k⁰Uω,k⁰Vk⁰,t

(3.14) よって，式(3.13)に式(3.14)を代入すると，式(3.16)のようになり，更新式が導出出来る．

Uω,k =

∑

tY_ω,tV_k,t

∑

tV_k,t∑

k⁰U_ω,k0V_k0,t

(3.15) V_ω,k =

∑

tYω,tUk,t

∑

tU_k,t∑

k⁰U_ω,k0V_k0,t

(3.16) U, V の更新に先立ち，各行列の初期値は乱数を用いる．この初期値を元に更新を行うので，NMFは初期値依存のアルゴリズムであるので，局所最適解に陥る危険性がある．

3.3 ^{高域強調処理}

本研究の予備実験より，図3.3に示す通り，分析対象の信号に対し，高域強調処理を施さない状態では，低周波数領域の値が大きく，高周波数領域の値は結果にほとんど影響しなかった

そこで，周波数による値の偏りを無くすために高域強調処理を行った．分析対象の全音源に対し，スペクトル傾斜を回帰直線近似で求めたところ，平均 6.6 dB/octの傾きがあったため，この傾きを打ち消す高域通過フィルタとして式 (3.17)に示すフィルタを高域強調処理に用いた．

H(z) = 1−0.97z⁻¹ (3.17)

(25)

1 1.5 2

x 10⁻³

0 1000 2000

Frequency[Hz]

1 1.5 2

x 10⁻³

1 1.5 2

x 10⁻³

図 3.3: 高域強調無しでNMFによる分析をしたときの基底行列

NMF は，各要因の和で表現する手法である．そのため，X を要因A, B, C, ... の和で表現するにあたり，要因が並列的な関係なら式(3.18)に示す通り，そのままの和で十分表現出来る．

X = A+B+C+...+N (3.18)

しかし，各要因が従属的な関係なら，式 (3.19)に示す通り対数をとらない限り，各要因の和で表現する事が出来ない．

X = logA+ logB+ logC+...+ logN

= log(A×B×C×D) (3.19)

ピアノの発音原理は従属的な流れであることから，音の要素も従属的なフィルタの影響を受けると考えた．そこで，従属的な要因を分離するために今回はパワースペクトログラムの対数をとった．

(26)

囲が有限になるので，対数パワースペクトログラムの最小値を全体から減算することで，

値を全て非負値にすることができる．

3.6 ^まとめ

これまで各節にて紹介した処理，すなわち，高域強調処理，対数パワースペクトログラムの非負値化，を用いてNMFにてピアノ音の個体差分析を行う．分析結果等については次章にて説明する．

(27)

この実験では，NMF の基底数を決める事を目的に行った．NMF は基底数K 個のパターンに分離，表現する手法である．しかし，基底数K は一般的には決め打ちである．

NMF の基底数を自動的に求めるアルゴリズムはいくつか提案されてはいる [27, 28]ものの，ある1つの楽器音を分析するための方法ではない．そのため，基底数を変化させて，

分析に適切な基底数を決める必要がある．NMFの基底数を決定するにあたり，K の値を 1 から5まで変化させて，それぞれの分離結果及び，信号対歪み比の値を用いて決めた．

4.1.2 実験条件

ピアノ音の個体差の分析にあたり，分析対象のピアノ音として，グランドピアノ音4つとアップライトピアノ音5つを用いた．グランドピアノ音のうち2種はRWC研究用音楽データベース:楽器音 (以下RWC-DBとする) [29]からグランドピアノ音源2つ, MIDI Aligned Piano Sound (以下MAPS-DBとする) [30]からアップライトピアノ音源1つを用

いた．RWC-DBには，グランドピアノ音源が3つ収録されているが，うち一つが音が鳴り

終わる前に切れてしまっているものがあったため，2つのみの使用した．また，MAPS-DB には，物理モデル音源やソフトウェア音源があるが，今回は実音源を対象としているので用いなかった．残りのグランドピアノ音2つとアップライトピアノ音4つは著者が収録したものを用いる．

今後，便宜上RWC-DBの2つの音源をそれぞれRWC1，RWC3，MAPS-DBの音源を MAPSと称する．また，収録したグランドピアノ音2つをGP1，GP2, アップライトピア

ノ音つをと名付ける．

(28)

分析窓幅によって，周波数解像度が変化することは周知の事実である．今回窓幅を2048 点としたことには理由がある．図 4.1 4.3に分析窓幅の異なる場合のNMF での分析結果を示す．

図 4.1は分析窓幅が512 点で分析したときの結果であり，図 4.2は，2048 点で分析したときの結果，そして，図 4.3は4096 点で分析を行ったときの結果である．また，各図において(a)は基底行列を，(b)はアクティベーション行列を表す．

これらから分かる事として，512 点では，基底ベクトルである周波数情報がわからず，

調波構造らしい構造すら見えてこない．調波構造は2048点のものと，4096 点のものは確認される．このとき，調波構造の概形についてはほとんど変わらない事から，4096 点のものではなく，2048 点のものでも表現出来ていると考えられる．また，4096点でのアクティベーションベクトルについて着目すると，第3ベクトルの減衰部分がピーク付近の値がほぼ同じ値になっており，2048 点での結果のような急峻なピークが見られなかった．

4096点以上での分析だと，時間変動がぼやてけしまう結果が生じたため，周波数解像度と時間変動のバランスをとった2048 点でのSTFTを行った．

(29)

810 x 10−3246810 x 10−3

Basis Matrix 246810 x 10−3 (a)

0

500010000

15000

Activation Matrix 0

500010000

15000 00.510

500010000

15000

time[s]

図4.1:分析窓幅512点での分析結果

(30)

1.52 x 10−30.511.52 x 10−3

Basis Matrix 0.511.52 x 10−3 (a)

0

2

4

6

x 104Activation Matrix 0246x 104 00.511.522.50246x 104

time[s]

(b) 図4.2:分析窓幅2048点での分析結果

(31)

1012 x 10−424681012 x 10−4

Basis Matrix 24681012 x 10−4 (a)

0

510

15

x 104Activation Matrix 05

10

15

x 104 00.5105

10

15

x 104

time[s]

(b) 図4.3:分析窓幅4096点での分析結果

(32)

表 4.1: 基底数K = 3 とK = 4の各基底ベクトル間での相関係数 1st (K=4) 2nd (K=4) 3rd (K=4) 4th (K=4)

1st (K=3) 0.89 0.62 -0.66 0.12

2nd (K=3) -0.52 0.50 0.72 -0.33

3rd (K=3) 0.53 -0.29 -0.51 0.98

4.1.3 ^{分析結果と考察}

各基底数における分析結果の一例を図4.5〜 4.9に示す(他の結果は付録参照)．基底数 K = 1の分析結果(図 4.5) では，基底行列に調波構造が，アクティベーションに波形の概形が表れていることを確認出来た．

基底数K = 2の分析結果(図 4.6)では,全体周波数領域を表す第1ベクトルと4 kHz以下の成分を表す第2ベクトルに分かれていた．第2アクティベーションベクトルが，徐々に値が増えている事，また，第1ベクトルが減衰していることから，高周波数成分が早く減衰するが，低周波数領域は長く残るという特徴がこの2つのベクトルの動きから考えられる．K = 3 の分析結果(図 4.7)に着目すると，アクティベーションベクトルが定常部，

音の立ち上がり部，減衰部の3つに分かれていた．特に，調波構造を強く示しているのが第1ベクトルである定常部であり，第3ベクトルである減衰部はK = 1,2ほど強く示してはいなかった．ピアノの発音機構は(1) 打鍵，(2)ハンマーによる打弦，(3)弦の振動, (4)響板という形で伝わり，発音する．このシステムと対応させると，第1ベクトルは調波構造を表しかつ，定常的なアクティベーションなので，(4) の響板による影響があてはまると思われる．第2ベクトルは最初に強い値を持つが，すぐにアクティベーションが下がるところ，また，基底ベクトルはほぼフラットな概形だが，基本周波数(220Hz)以下の低域成分が強く表れている事から，打鍵時の下部雑音並びに，打弦時の衝突音が混合して表れていると考えられる．

K = 4の結果(図 4.8)をK = 3 の結果と対比させると，定常部がK = 4のときの結果の第1ベクトルと第2ベクトルに分離されていると考えられる．実際に各ベクトル間での相関を計算したところ，図4.1に示すように，K = 4の第1ベクトル，第2ベクトルは共にK = 3の第1ベクトルと最も相関が高かった．

また，基底数K = 5の結果(図 4.9)にも注目すると，第1，第2ベクトルは2つで定常部を表現しようとしていて，第3，第4ベクトルが立ち上がり部を表現しているとアクティベーションから推測される．先ほど同様，相関係数を計算すると，5つのベクトルのうち，第と第ベクトルは，基底数の第ベクトルと相関が高く，第と第ベ

(33)

値を決定するためにも，分離されて出来る基底行列Uとアクティベーション行列V の積で再合成される対数スペクトログラムYˆ と元の対数スペクトログラムY との歪み率(Signal to distortionratio;SDR) を計算することにより定量的に評価する．計算式は式(4.2)に示すものである．

SDR= 10 log 10 S

S−SˆdB (4.1)

(Sは原信号,Sは目的信号を表す)ˆ

この式を用いて全音源に対してSDRを計算し，それぞれの基底数ごとの平均値をプロットしたものが図 4.4である．SDRは値が高いほど，歪みが少ない事を表す．この結果より，基底数K = 3まではSDRの値が直線的に上昇しているが，K = 4以降ではSDRの上昇幅が小さくなり，約11 dBでほとんど横ばいになっていた．

これらのことを踏まえると，K ≤ 3では，ピアノの発音機構の要因を十分に分離出来なく，歪みも大きいという傾向があり，4≤ K では冗長な分離結果や，発音機構と対応していない分離結果などが見られた．また，基底数を増やしてもSDR の値の上昇幅は上がらず，むしろSDRの値そのものは横ばいという傾向が見られた．つまり，ピアノ音を表現するにあたり，基底数Kの値は3が適していると考えられる．

(34)

1 2 3 4 5 0

2 4 6 8 10 12

K : Number of bases

Mean of SDR [dB]

Relationship between number of bases and SDR

図 4.4: 基底数とSDRの関係

(35)

11.11.21.31.41.51.61.7 x 10−3

Basis Matrix (a)

00.51

66.5

77.5

88.5

9

x 104Activation Matrix 図4.5:K=1の場合の分離結果(RWC1)

(36)

11.21.41.61.8 x 10−3

Basis Matrix 0.811.21.41.61.8 x 10−3 (a)

0

2

4

6

8x 104Activation Matrix 00.511.522.502468x 104

time[s]

(b) 図4.6:K=2の場合の分離結果(RWC1)

(37)

23 x 10−3123 x 10−3

Basis Matrix 123 x 10−3 (a)

0

2

4

6x 104Activation Matrix 0246x 104 00.510246x 104

time[s]

図4.7:K=3の場合の分離結果(RWC1)

(38)

12 x 10−3012 x 10−3

Basis Matrix 012 x 10−3012 x 10−3 (a)

0

5x 104Activation Matrix 05x 104 05x 104 00.511.522.505x 104

time[s]

(b) 図4.8:K=4の場合の分離結果(RWC1)

(39)

2 x 10−302 x 10−302 x 10−3

Basis Matrix 02 x 10−302 x 10−3 (a)

0

5x 104Activation Matrix 05x 104 05x 104 05x 104 00.5105x 104

time[s]

図4.9:K=5の場合の分離結果(RWC1)

(40)

図 4.10: 基底固定を用いるNMFの概念図

4.2 基底行列の部分固定を用いた非負値行列因子分解によるピアノ音の個体差分析

4.2.1 ^実験目的

先ほどの分析で, 基底数を3にすることにより，定常部，立ち上がり部，減衰部の3つに基底ベクトルが分類された．以降，定常部を表す第1ベクトルを定常部ベクトル，音の立ち上がりを示す第2ベクトルをアタックベクトル，減衰を示す第3ベクトルを減衰部ベクトルを名付ける．

この基底数K = 3の結果では，ピアノの発音機構と関連のある結果が得られたが，そこから個体差が具体的にどのようなものなのかはわからなかった．そこで，個体差をより明確に抽出するために，基底行列の一部を固定して，再度NMF で分析を行う．

NMF入力の非負値行列を基底行列とアクティベーション行列に近似分解する．このとき，得られる基底行列の一部(図 4.10中のU_{f ix})を予め別の成分で固定することにより，

その固定した成分に対応するアクティベーションベクトル(図 4.10 中の V_{f ix})に，固定した成分の時間変動が得られる．また，非固定部 (図 4.10中のU_{f ree})はNMF の更新により，得られ，固定した成分(U_{f ix})では表現出来ない成分が表れるはずである．また，この非固定部に対応した時間変動(V_{f ree})も同様にNMF の更新で得られる．つまり，固定する成分として，ピアノ音の共通成分を用いれば，固定部に対応したアクティベーションベクトルに，共通成分の時間変動が，非固定部の基底行列には，その入力音特有の成分，つまり，入力音の個体差が表れてくるはずである．

(41)

音ならそれぞれのアップライトピアノ音の基底ベクトルの最小値を用いた．この実験では先ほどの仮定より基底数K は6 とした．

4.2.3 分析結果と考察

図4.11にグランドピアノ音の共通成分として用いた基底行列，図 4.12にアップライトピアノ音の共通成分として用いた基底行列を示す．図 4.11の第1ベクトルである定常部ベクトルは調波構造がよく見られるが，図 4.12の定常部ベクトルは2 kHz 以上から調波構造のようなものが散見される．しかし，2 kHz 以下では局所的なピークはあるものの，

いわゆる調波構造は観測されなかった．

第2ベクトルであるアタックベクトルに着目すると，図 4.11では，細かい変動こそあるが，ほとんどフラットな形状をしている．一方図 4.12では，定常部ベクトルほど激しく変動はしてないが，かなり定常部ベクトルと似通った特徴が表れていた．

減衰部ベクトルでは，図4.11では，全体的にフラットな形状をしているが，1〜2 kHz,

4 kHz以上の部分でピークが散見された．ところが図 4.12では，2〜4 kHzあたりでは調

波構造を反転させたような谷の構造が観測された．また，500 Hz 以下の低周波数領域のパワーが強いのも特徴である．

そして，図, 4.13, 4.14にグランドピアノ音の分析結果の一部を，図 4.15, 4.16, 4.17にアップライトピアノ音の分析結果の一部を示す．各図における(a),(b)はそれぞれ基底行列，アクティベーション行列である．また，図4.13(a), 4.14図(a) の第1ベクトルから第 3ベクトルが，図 4.11に示した通り，共通成分として固定した基底行列である. 同様に，

図 4.15(a), 4.16(a), 4.17(a) の第1ベクトルから第3ベクトルが図 4.12に示した，共通成分として固定した基底行列である．

分析結果の非固定部第〜第ベクトルのほどんとが，定常部ベクトル，アタック

(42)

また，減衰部ベクトルでは，共通成分の第3ベクトルと，個体差の第6ベクトルでピアノ音の2段階減衰が表現されるが，最初の急峻な減衰が第3ベクトル，後半の緩やかな減衰が第6ベクトルと，2つに分かれている．このことから，緩やかな減衰が個体差として大きく影響している事が考えられる．

(43)

0 0.5 1 1.5

x 10⁻³

0 1000 2000

Frequency[Hz]

0 0.5 1 1.5

x 10⁻³

0 0.5 1 1.5

x 10⁻³

図 4.11: グランドピアノ音の共通成分

1000 2000 3000 4000 5000

Frequency[Hz]

Basis Matrix

(44)

012 x 10−3012 x 10−3

Basis Matrix 012 x 10−3012 x 10−3012 x 10−3 (a)

0

5x 104Activation Matrix 05x 104 05x 104 05x 104 05x 104 00.511.522.5305x 104

time[s]

(b) 図4.13:グランドピアノ音の分析結果(GP2)

(45)

012 x 10−3012 x 10−3

0

5

x 104Activation Matrix 05x 104 05x 104 05x 104 05x 104 00.5105x 104

time[s]

(b) 図4.14:グランドピアノ音の分析結果(RWC3)

(46)

012 x 10−3012 x 10−3

0

5x 104Activation Matrix 05x 104 05x 104 05x 104 05x 104 00.511.522.5305x 104

time[s]

(b) 図4.15:基底行列の一部を固定してNMFを適応した結果(UP1)

(47)

01 x 10−301 x 10−3

0

5x 104Activation Matrix 05x 104 05x 104 05x 104 05x 104 00.511.505x 104

time[s]

(b) 図4.16:基底行列の一部を固定してNMFを適応した結果(UP2)

(48)

01 x 10−301 x 10−3

0

5

x 104Activation Matrix 05x 104 05x 104 05x 104 05x 104 00.511.522.505x 104

time[s]

(b) 図4.17:基底行列の一部を固定してNMFを適応した結果(MAPS)

(49)

間波形に持って行くことはあまりにも乱暴すぎる．そのため，一つの指標として今回得られた時間変動波形を利用出来るのではないかと思われる．

今回基底数6で分析を行った際，定常部のスペクトルピークと，減衰部のアクティベーションに個体差が強く反映されていることがわかった．しかし，他の部分，例えばアタックベクトルなどにはうまいこと個体差が見えてこなかった．また，一部音源に関しては，

アタックベクトルが個体差に表れず，そのかわり減衰部のアクティベーションが2つ表れるなど，共通成分と個体差の和という仮定通りにいかないものもあった．ほとんどの音源では，先ほどのように個体差が表れた結果が得られたが，分離結果自体に一部例外が見られたので，基底数をいくつにすべきかというのは今後も議論が必要と考えられる．

4.3 ^まとめ

この章では分析結果に基づいてNMFの基底数を決定した．また，具体的に個体差を示すために，基底の一部をグランドピアノ音同士，アップライトピアノ音同士，それぞれの共通成分で固定して，再度NMFで分析を行った．その結果，定常部ベクトルに特有のピークを示し，減衰ベクトルのうち，緩やかに減衰する成分が個体差として強く表れていたことがわかった．

(50)

第 5 ^{章総合検討}

5.1 グランドピアノ音間での個体差の違い

図 4.11に示す通りグランドピアノ音間の共通成分で定常部ベクトルは調波構造が綺麗に表れている．特に4 kHz付近までの構造がよく保存されているため，図に示す通り，各グランドピアノ音の基底行列の第4ベクトルはGP1 (図 5.1(a))とRWC3 (図 5.1(d)) では本当に必要な成分のピークしか表れていない．これらに対し，GP2 (図 5.1(b)) では第 1, 2, 4, 5, 6, 7 倍音及び，2 〜4 kHz の倍音成分がピークとして表れ，4 kHz以上の高域成分ではピーク間の谷の部分が表れている．また，RWC1 (図 5.1(c))では，第1, 2 倍音

及び，3 kHz 付近を中心としたピークが大きく表れている．これらの成分は共通成分だけ

では表現出来ない成分であり，音源毎に全く異なった特徴を示しているので，個体差として大きく表れていると考えられる．特に各音源の第4アクティベーションベクトルの動きに注目すると，図 4.13(b)のように音の立ち上がりから約0.5〜1.0 秒ほど経過してから上がり始め，弧を描きながら，ダンパーがおりた部分でパワーが落ちている．この動きをピアノの発音機構と対応させて考えると，ふたによる反響と響板の影響が考えられる．元々基底数K = 3で分析したとき，定常部，アタック部，減衰部の3つに分けられた．このことを考慮すると，第4ベクトルは定常部の個体差と考えられるので，響板の影響が強く反映されていると推測される．

また，各分析結果の第6アクティベーションベクトルに注目すると減衰傾向がある．したがって，共通成分の第3ベクトルである減衰部ベクトルでは表すことが出来ない成分が第6ベクトルに表れていると考えられる．グランドピアノ音の固定部，非固定部それぞれの減衰部ベクトルに対応するアクティベーションを図5.2に一例を記載した．図 5.2(a) が共通成分のアクティベーションで，(b)が非固定部のアクティベーションである．この図から，ピアノ音の特徴である2段階減衰のうち，音の立ち上がり直後の急峻な減衰は，

(a)の共通成分のアクティベーションに表れ，後半の緩やかな減衰は(b) である非固定部のアクティベーションに表れていた．音源固有の個体差を考えると，非固定部である第6 ベクトルが表す，緩やかな減衰が要素として重要であると考えられる．そこで，各音源の第ベクトルの減衰の傾きを調べたところ表のようになった．これらの結果より，弦

(51)

0 1000 2000 3000 4000 5000 0

0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8x 10⁻³

Frequency [Hz]

Amplitude [deg]

4th activation vector

(b)

0 1000 2000 3000 4000 5000

0 0.5 1 1.5 2 2.5 3 3.5x 10⁻³

Frequency [Hz]

Amplitude [deg]

(c)

0.4 0.6 0.8 1 1.2x 10⁻³

Amplitude [deg]

(52)

0 0.5 1 1.5 2 2.5 0

1 2 3 4 5 6

7x 10⁴

Time [sec]

Amplitude [deg]

3rd activation vector

(a)

0 0.5 1 1.5 2 2.5

0 1 2 3 4 5 6 7

8x 10⁴

Time [sec]

Amplitude [deg]

(b)

(53)

5.2 アップライトピアノ音間での個体差の違い

図 5.3に非固定部である，第4基底ベクトルを記載した．図 5.3(a) はUP1 の結果，

5.3(b) はUP2, そして 5.3(c)はMAPS の結果を表している．各音源の特徴として，UP1 では偶数次倍音のピークが大きく，UP2では 0.5〜2 kHzに大きなピークがあり，MAPS

は 2 kHzを中心に，前後それぞれおよそ 1.2 kHz にわたって大きなピークを持っていた．

この第4ベクトルのアクティベーションに着目すると，約 0.5から2.2 sec までゆるやかな弧を描いていた．したがって，これらも響板の等の反響による影響と推測される．

グランドピアノ音同様，アップライトピアノ音でも減衰が第3ベクトルと第6ベクトルに分かれていた．第6ベクトルの緩やかな減衰の傾きを表 5.2にまとめた．グランドピアノ音同様，音源によって傾きが異なっていたが，グランドピアノ音ほど傾きにバラつきはなかった．

図5.4にアップライトピアノ音の基底ベクトル，アクティベーションベクトルそれぞれの第5ベクトル(非固定部)を記載した．図 5.4(a),(c),(e)は，それぞれUP1, UP2,MAPS の非固定部のアタックベクトル，図 5.4(b)(d)(f)がそれぞれUP1, UP2,MAPS アクティベーションベクトルである．MAPS ではアクティベーションにアタックらしきピークがあるが，それ以外は，ほとんどがダンパーがおりた後の成分を捉えていた．それぞれの基底ベクトルを見ると，全て第6倍音に大きなピークを持っている事から，ダンパが下りる影響が表れている事がここからもわかる．つまり，第5ベクトルは主にダンパが下りるときからの影響を表していると考えると，UP1 (図 5.4(a))では，第2〜4倍音成分は小さいが，ほとんど全周波数でフラットな形状をしている．UP2(図 5.4(c))では，周波数が高くなるにつれ，値が少しずつ上がっている事から，残響として高周波数成分が残りやすい性質があると推測される．MAPS(図 5.4(e))ではおよそ500 Hz 以下の成分が多く，第2倍

(54)

0 1000 2000 3000 4000 5000 0

0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8x 10⁻³

Frequency [Hz]

Amplitude [deg]

(a)

0 1000 2000 3000 4000 5000

0 0.5 1 1.5x 10⁻³

Frequency [Hz]

Amplitude [deg]

(b)

0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8x 10⁻³

Amplitude [deg]

非負値行列因子分解を用いた ピアノ音の個体差分析に関する研究

小林 慶祐

修 士 論 文

非負値行列因子分解を用いた ピアノ音の個体差分析に関する研究

赤木正人 教授

赤木正人 教授

鵜木祐史 准教授

党建武 教授

1210023 小林 慶祐

表 目 次

1.2 本研究の背景

1.2.1 ピアノ音の個体差

1.2.2 従来手法の問題点

1.3 本研究の目的

第 2 章 ピアノの発音原理

2.1 ピアノの種類

2.2 ピアノ音の発音機構

2.4 まとめ

n

frequency [Hz]

Frequency of n−th harmonic component

3.1 ピアノ音の個体差分析の流れ

3.2 非負値行列因子分解

3.2.1 距離尺度

3.2.2 更新則

x

D(5|x)

3.3 高域強調処理

Frequency[Hz]

3.6 まとめ

4.1.2 実験条件

time[s]

time[s]

time[s]

4.1.3 分析結果と考察

K : Number of bases

Mean of SDR [dB]

Relationship between number of bases and SDR

time[s]

time[s]

time[s]

time[s]

4.2 基底行列の部分固定を用いた非負値行列因子分解による ピアノ音の個体差分析

4.2.1 実験目的

4.2.3 分析結果と考察

Frequency[Hz]

time[s]

time[s]

time[s]

time[s]

time[s]

4.3 まとめ

第 5 章 総合検討

5.1 グランドピアノ音間での個体差の違い

5.2 アップライトピアノ音間での個体差の違い

非負値行列因子分解を用いたピアノ音の個体差分析に関する研究

小林慶祐

修士論文

非負値行列因子分解を用いたピアノ音の個体差分析に関する研究

赤木正人教授

赤木正人教授

鵜木祐史准教授

党建武教授

1210023 ^{小林慶祐}

表目次

1.2 ^{本研究の背景}

1.3 ^{本研究の目的}

第 2 ^{章ピアノの発音原理}

2.1 ^{ピアノの種類}

2.2 ^{ピアノ音の発音機構}

2.4 ^まとめ

3.2 ^{非負値行列因子分解}

3.3 ^{高域強調処理}

3.6 ^まとめ

4.1.3 ^{分析結果と考察}

4.2 基底行列の部分固定を用いた非負値行列因子分解によるピアノ音の個体差分析

4.2.1 ^実験目的

4.3 ^まとめ

第 5 ^{章総合検討}