北陸先端科学技術大学 情報科学研究科情報科学専攻
小林 慶祐
2014年3月
修 士 論 文
非負値行列因子分解を用いた ピアノ音の個体差分析に関する研究
指導教員
赤木正人 教授
審査委員主査
赤木正人 教授
審査委員
鵜木祐史 准教授
審査委員
党建武 教授
北陸先端科学技術大学院大学 情報科学研究科情報科学専攻
1210023 小林 慶祐
提出年月: 2014年2月
しか表現出来ない.そのため,個体差を含む実楽器音を使用する場合,大規模な実楽器音 の単音データベースを所有するか,実際に演奏する必要がある.単音データベースは楽器 の種類によっては非常に少なく,高価であるため,容易に入手しづらい.また,演奏する 場合には,演奏者の技量に左右され,楽器の演奏が未経験であれば,演奏することすらま まならない.従って,個体差を含む実楽器音を用いた音楽制作は困難になっている.
この楽器音の個体差を扱うにあたり,楽器の生成機構をモデル化する研究が行われて きた.特に発音機構がとても複雑なピアノに関する研究は数多く行われてきた.しかし,
提案されているモデルを用いても,ピアノ音を完全に再現は出来ない.また,制御パラ メータが多く,実験的にしかパラメータの値を決める事が出来ないため,音色再現は非常 に困難である.山家らはピアノ音の個体差と演奏時の印象評価を対応づけるにあたり,調 波構造と時間波形それぞれに個体差が含まれると指摘している.しかし,山家らが指摘し ているのはピアノ音の立ち上がりの箇所であり,他の箇所については触れられていない.
また,Leeらが指摘するように,調波構造は時間的に変動をするものであるため,一部分 のみを分析するのでは不十分である.
本研究は上記の問題点を解決するために,ピアノ音の調波構造とその時間変動を同時に 扱いながら個体差の分析を行う.この分析にあたり,非負値行列因子分解 (Non-negative Matrix Factorization; NMF) を分析手法として用いる.NMFはサウンドスペクトログラ ムを,K 個の調波構造を表す基底行列と,それらに対応する時間変動パターンを表すア クティベーション行列の2つの行列に分解することができる.また,基底行列の一部をピ アノ音の共通成分で固定する事が出来れば,ピアノ音の共通成分と,それ以外の成分,つ まり入力ピアノ音固有の成分が表れると考えられる.NMFで分析するにあたり,ピアノ の発音機構を考慮した結果,入力はパワースペクトログラムではなく,対数パワースペク トログラムを入力として用いる.
た.定常部は響板,ふた等の反響と,立ち上がり部は打鍵,打弦時に発生する雑音と,減 衰部は弦の2段階減衰と対応していると考えられる.ピアノ音を表現出来る基底数を求め た後,具体的な個体差を示すために,基底行列の一部をピアノ音の共通成分で固定して再 度分析を行った.その結果,個体差成分として響板などによる反響時の調波構造,弦の2 段階減衰の後半の緩やかな減衰部分が,グランドピアノ音,アップライトピアノ音それぞ れ表れた.特に弦の2段階減衰は共通成分で最初の急峻な減衰が表れ,グランドピアノ音 とアップライトピアノ音,それぞれの発音機構の影響が表れていた.これらに対し,MIDI 音源では,打源位置による第6〜8倍音のピーク値の影響や,2段階減衰,ダンパの影響 などが反映されていないことも,分析結果の比較によりわかった.
本研究ではピアノ音の個体差分析として対数パワースペクトログラムを用いてNMFで 分析を行った.この分析では,要因が直列でつながっているものを分析出来るので,他の 楽器でも要因が直列的であれば,同様に個体差を導出出来ると考えられる.また,この得 られた個体差成分を別の音源のものと入れ替え,対数パワースペクトログラムを再合成,
そしてそこから,時間波形に戻せば,音色変換が行えることが考えられる.今回MIDI音 源では弦の2段階減衰とダンパの影響が表現出来ていなかった.そこで,NMFで分析し てそのときに得られた減衰部を表すアクティベーションを実音源のアクティベーション に入れ替えて,スペクトログラム,そして時間波形を再合成すれば,より実音源に近い MIDI音源に変換出来ると思われる.このように,今回得られた個体差の情報を用いて,
音色変換や,演奏の表情付けなどに転用出来ると期待される.
1.2.2 . . . . 2
1.3 本研究の目的 . . . . 2
1.4 本論文の構成 . . . . 3
第2章 ピアノの発音原理 4 2.1 ピアノの種類 . . . . 4
2.2 ピアノ音の発音機構 . . . . 4
2.3 インハーモニシティ . . . . 9
2.4 まとめ . . . . 9
第3章 ピアノ音の個体差分析手法 11 3.1 ピアノ音の個体差分析の流れ . . . . 11
3.2 非負値行列因子分解 . . . . 11
3.2.1 距離尺度 . . . . 12
3.2.2 更新則 . . . . 12
3.3 高域強調処理 . . . . 14
3.4 対数パワースペクトログラムを用いた非負値行列因子分解による分析 . . . 14
3.5 値のスケール変換 . . . . 15
3.6 まとめ . . . . 16
第4章 非負値行列因子分解を用いたピアノ音の個体差分析 17 4.1 基底数K の決定 . . . . 17
4.1.1 実験目的 . . . . 17
4.2.2 実験条件 . . . . 31
4.2.3 分析結果と考察 . . . . 31
4.3 まとめ . . . . 39
第5章 総合検討 40 5.1 グランドピアノ音間での個体差の違い . . . . 40
5.2 アップライトピアノ音間での個体差の違い . . . . 43
5.3 各ピアノ間での個体差の違い . . . . 46
5.3.1 アクティベーションベクトルの差異 . . . . 46
5.3.2 定常部ベクトルの差異 . . . . 46
5.3.3 高周波数領域の影響 . . . . 50
5.4 まとめ . . . . 51
第6章 結論 53 6.1 本研究のまとめ . . . . 53
6.2 今後の展望 . . . . 53
謝辞 55
参考文献 58
付録 58
研究業績 126
2.5 . . . . 7
2.6 響板の各周波数における相対的な強さのパターン . . . . 8
2.7 パラメータB と第n倍音の周波数値の変化. . . . 10
3.1 ピアノ音分析のブロック図 . . . . 11
3.2 各距離尺度における2変数の近さ度合い . . . . 13
3.3 高域強調無しでNMF による分析をしたときの基底行列 . . . . 15
4.1 分析窓幅512 点での分析結果 . . . . 19
4.2 分析窓幅2048 点での分析結果 . . . . 20
4.3 分析窓幅4096 点での分析結果 . . . . 21
4.4 基底数とSDRの関係 . . . . 24
4.5 K = 1 の場合の分離結果(RWC1) . . . . 25
4.6 K = 2 の場合の分離結果(RWC1) . . . . 26
4.7 K = 3 の場合の分離結果(RWC1) . . . . 27
4.8 K = 4 の場合の分離結果(RWC1) . . . . 28
4.9 K = 5 の場合の分離結果(RWC1) . . . . 29
4.10 基底固定を用いるNMF の概念図 . . . . 30
4.11 グランドピアノ音の共通成分 . . . . 33
4.12 アップライトピアノ音の共通成分 . . . . 33
4.13 グランドピアノ音の分析結果 (GP2) . . . . 34
4.14 グランドピアノ音の分析結果 (RWC3) . . . . 35
4.15 基底行列の一部を固定してNMFを適応した結果(UP1) . . . . 36
5.3 アップライトピアノ音の非固定部の定常部ベクトル . . . . 44
5.4 アップライトピアノ音の非固定部のアタックベクトル . . . . 45
5.5 各ピアノ音の減衰部ベクトルのアクティベーション . . . . 47
5.6 各ピアノ音の共通成分の減衰部ベクトルのアクティベーション . . . . 48
5.7 各ピアノ音の定常部ベクトル . . . . 49
5.8 アップライトピアノ音の基底行列(UP3) . . . . 51
1 YAMAHA GRAND C3 . . . . 60
2 GP1のマイク設置 . . . . 60
3 GP2のマイク設置 . . . . 62
4 アップライトピアノのマイク設置 . . . . 63
5 K = 1 の場合の分離結果(MIDI) . . . . 66
6 K = 2 の場合の分離結果(MIDI) . . . . 67
7 K = 3 の場合の分離結果(MIDI) . . . . 68
8 K = 4 の場合の分離結果(MIDI) . . . . 69
9 K = 5 の場合の分離結果(MIDI) . . . . 70
10 K = 1 の場合の分離結果(UP1) . . . . 71
11 K = 2 の場合の分離結果(UP1) . . . . 72
12 K = 3 の場合の分離結果(UP1) . . . . 73
13 K = 4 の場合の分離結果(UP1) . . . . 74
14 K = 5 の場合の分離結果(UP1) . . . . 75
15 K = 1 の場合の分離結果(UP2) . . . . 76
16 K = 2 の場合の分離結果(UP2) . . . . 77
17 K = 3 の場合の分離結果(UP2) . . . . 78
18 K = 4 の場合の分離結果(UP2) . . . . 79
19 K = 5 の場合の分離結果(UP2) . . . . 80
20 K = 1 の場合の分離結果(UP3) . . . . 81
21 K = 2 の場合の分離結果(UP3) . . . . 82
22 K = 3 の場合の分離結果(UP3) . . . . 83
23 K = 4 の場合の分離結果(UP3) . . . . 84
24 K = 5 の場合の分離結果(UP3) . . . . 85
25 K = 1 の場合の分離結果(UP4) . . . . 86
26 K = 2 の場合の分離結果(UP4) . . . . 87
27 K = 3 の場合の分離結果(UP4) . . . . 88
42 K = 3 の場合の分離結果(GP2) . . . . 103
43 K = 4 の場合の分離結果(GP2) . . . . 104
44 K = 5 の場合の分離結果(GP2) . . . . 105
45 K = 1 の場合の分離結果(RWC1) . . . . 106
46 K = 2 の場合の分離結果(RWC1) . . . . 107
47 K = 3 の場合の分離結果(RWC1) . . . . 108
48 K = 4 の場合の分離結果(RWC1) . . . . 109
49 K = 5 の場合の分離結果(RWC1) . . . . 110
50 K = 1 の場合の分離結果(RWC3) . . . . 111
51 K = 2 の場合の分離結果(RWC3) . . . . 112
52 K = 3 の場合の分離結果(RWC3) . . . . 113
53 K = 4 の場合の分離結果(RWC3) . . . . 114
54 K = 5 の場合の分離結果(RWC3) . . . . 115
55 基底行列の一部を固定してNMFを適応した結果(UP1) . . . . 117
56 基底行列の一部を固定してNMFを適応した結果(UP2) . . . . 118
57 基底行列の一部を固定してNMFを適応した結果(UP3) . . . . 119
58 基底行列の一部を固定してNMFを適応した結果(UP4) . . . . 120
59 基底行列の一部を固定してNMFを適応した結果(MAPS) . . . . 121
60 基底行列の一部を固定してNMFを適応した結果(GP1) . . . . 122
61 基底行列の一部を固定してNMFを適応した結果(GP2) . . . . 123
62 基底行列の一部を固定してNMFを適応した結果(RWC1). . . . 124
63 基底行列の一部を固定してNMFを適応した結果(RWC3). . . . 125
表 目 次
4.1 基底数K = 3 とK = 4の各基底ベクトル間での相関係数 . . . . 22
4.2 基底数K = 3 とK = 5の各基底ベクトル間での相関係数 . . . . 23
5.1 グランドピアノ音の減衰の傾き . . . . 43
5.2 アップライトピアノ音の減衰の傾き . . . . 43
5.3 各ピアノ間の相関係数の平均値 . . . . 50
1 収録機材一覧 . . . . 61
2 収録音の設定 . . . . 64
3 GP1収録時のマイク位置 . . . . 64
4 GP2収録時のマイク位置 . . . . 65
5 アップライトピアノ音収録時のマイク位置 . . . . 65
する必要がない.また,Vocaloid [1]に代表されるような歌声合成ソフトウェアを用いる ことにより,楽器音のみの楽曲だけでなく,歌唱曲の制作も行える.
DTM で使われる音源としては,MIDI (Musical Instruments Digital Interface) 音源に 代表されるソフトウェア音源が一般的に用いられている.しかし,それらの多くは楽器音 の中でも,典型的な音しか表現出来ない.ソフトウェア音源の代わりに個体差を含む実楽 器音を使用する場合,大規模な実楽器音の単音データベースを所有するか,実際に演奏 する必要がある.楽器の単音データベースの数は少なく,高価であるため,容易に入手し づらい.また,演奏する場合には,演奏者の技量に左右され,楽器の演奏が未経験であれ ば,演奏することすらままならない.従って,個体差を含む実楽器音を用いた音楽制作は 困難になっている.
1.2 本研究の背景
1.2.1 ピアノ音の個体差
まずはじめに,楽器音の個体差を以下のように定義する.
定義 楽器音の個体差とは材質,構造,などに起因する楽器音の差異
この楽器音の個体差には,音高,音量,演奏者,演奏法に関しては同一の条件である.つ まり,外的要因による影響がない,純粋にその楽器固有の持つ成分こそが,楽器音の個体 差である.
1.2.2 従来手法の問題点
ピアノ音の個体差を扱うにあたり,楽器の生成機構のモデル化に関する研究が従来か ら行われてきた[2–7]. しかし,これらのモデルを用いてもピアノ音を完全に再現出来ず,
再現しているのはピアノを構成している一部の影響である.また,これらのモデルは制御 パラメータが多く,実験的にしかパラメータの値を決める事が出来ないため,実楽器音の 音色再現は難しい.
楽音の個体差を扱う研究として音色変換に関するものがある.時間波形に対してテンプ レートフィルタリングを行うもの [8]や,スペクトルを変形して音色を変化させる方法 [9]
などがある.しかし,これらの手法は変換こそ出来るが,個体差が何なのかについては明 記されていない.
個体差そのものについては,山家ら[10]はピアノ音の個体差が調波構造及び時間波形そ れぞれにあると指摘している.したがって,テンプレートフィルタリングを用いた方法は 時間波形のみを,スペクトルを変形させる手法に関しては調波構造のみをターゲットにし ているので,山家らが指摘している調波構造と時間波形それぞれの関係性はわからない.
また,山家らが指摘している箇所は,ピアノ音の立ち上がり部分であり,音の定常的な 部分や減衰特性などについては触れられていない.そもそも,Lee et al. [11] が指摘する ように,調波構造は時間的に変動するので,山家らの分析のように,ある一時点における 時間波形とその調波構造だけでは不十分と言える.従って,ピアノ音の個体差を分析する には,調波構造とその長期の時間変動を同時に扱う必要がある.
1.3 本研究の目的
本研究の目的はピアノ音の調波構造とその時間変動を同時に分析し,ピアノ音の個体差 を明らかにすることである.ピアノ音の個体差分析にあたり,本研究では非負値行列因子 分解 (Non-negative Matrix Factorization; NMF) [12] を用いる.NMF は元々画像処理に 用いられる手法だが,近年音響信号に適用され,音源分離や自動採譜などで非常に優れた 効果を発揮している [9, 13–16].NMF は入力音のサウンドスペクトログラムを,K個の 調波構造パターンと,その時間変動の2つに分離する事が出来る.つまり,周波数情報で ある調波構造と,時間変動の両方を同時に扱う事が出来る手法である.また,K個のパ ターンのうち,R(R < K)個をピアノの共通成分でうまく固定することにより,ピアノ音 を,R個の共通成分パターン,K−R個の個体差パターンで表現することが可能と考え られる.つまり,このK−R個の成分が,入力音の個体差そのものと考えられる.
この個体差を分析することにより,音楽の演奏表現[17]や音色変換[18]などにおける
であるNMF の基本原理についての紹介も行う.
第4章 第3章で示した分析手法を基に行った,ピアノ音の個体差分析実験について記載 する.
第5章 ピアノの発音原理と,先ほどの分析結果を踏まえて,ピアノ音の個体差について の考察を行う.
第6章 本研究で得られた結果についてまとめる.
第 2 章 ピアノの発音原理
本章では,ピアノの発音原理について述べ,そこから考えられる個体差として表れる違 いについて考察を行う.
2.1 ピアノの種類
ピアノは大きく分けて2種類存在する.グランドピアノとアップライトピアノである.
グランドピアノは図 2.1に示すように大型である.グランドピアノ内でも,奥行きが
270 cmもあるフルコンサートから,奥行き150 cm程度のミニグランドまで様々である.
アップライトピアノは図2.2に示す通り,グランドピアノに比べ小型であり,グランド ピアノが置けないような部屋,及び家庭用ピアノとして普及している.
これら2種類のピアノの大きな違いは2つである.1つはピアノそのものの大きさ.も う一つは打弦機構である”アクション”の違いである.グランドピアノ,アップライトピア ノそれぞれのアクションを図 2.3, 2.4に示す.図から分かる通り,グランドピアノはハン マーが弦の下から打つものであるのに対し,アップライトは縦に張られた弦を横からハン マーが打つ機構になっている.グランドピアノでは,ハンマーが下から弦を叩くので,打 弦後は重力によって打弦前の位置まで戻される.しかし,アップライトピアノでは,ハン マーが横から弦を叩いた後,元の位置に戻るために.バネの力を利用している.ヤマハ楽 器では,この2つの機構の違いによって,グランドピアノはアップライトピアノの2倍の 早さで打弦できるという [19]. つまり,アップライトピアノの方が打弦時の接触時間が長 いということがわかる.弦との接触時間が長いということは,それだけ弦の振動を抑えて いるという事と等価であるため,アップライトピアノはグランドピアノよりも弦振動の減 衰が早いと考えられる.
2.2 ピアノ音の発音機構
ピアノの発音機構の概形図を図 に示す.この発音機構は,大きく分けて つの段階
図 2.3: グランドピアノのアクション
れらの影響も個体差として表れてくる事が予想される.
図2.6:響板の各周波数における相対的な強さのパターン
弦の自由振動F0は式 (2.2)で計算され,式 (2.1)のf1とほぼ同じ値である.
F0 = 1 2L
√ T
µ (2.2)
ただし, Lは弦の長さ,T は張力,µは単位長さ辺りの質量 (線密度)を表す.Bはイン ハーモニシティ係数と呼ばれ式(2.3)によって計算される.
B = π3Ed4
64T L2 (2.3)
Eはヤング率,dは弦の直径,T, Lは先ほどと同じである.このBは一般に[10−5,10−2]の
値をとる [22]. このBの値によって図 2.7に示すように,高調波でも特に第10倍音以降
の周波数の値が変わってくる.このインハーモニシティの違いは個体差として表れてくる はずである.
2.4 まとめ
本章では,ピアノの種類による構造の違い,並びにピアノの発音機構について説明を 行った.ピアノの発音機構から個体差として考えられる要因は(1)打鍵時のノイズ, (2)ハ ンマーが打弦時の打撃音,(3) 弦の振動,(4) 駒・響板の影響 の4種類である.特に,弦 の振動においてはインハーモニシティが見られるため,これらの要因毎に分離して個体差 がどのようにあるのかを見ていく必要がある.
0 2 4 6 8 10 12 14 16 18 20 0
1000 2000 3000 4000 5000 6000
n
frequency [Hz]
Frequency of n−th harmonic component
B=1.0*10−3 B=5.0*10−4 B=1.0*10−5
図 2.7: パラメータB と第n倍音の周波数値の変化
3.1 ピアノ音の個体差分析の流れ
図 3.1にピアノ音の個体差分析の流れを示す.NMFの入力として対数パワースペクト ログラムを使うので,NMF に適応させるためにも様々な前処理を施してある.それぞれ の処理については次節で説明する.
3.2 非負値行列因子分解
NMF とは,ある非負値行列Y(∈ RΩ×T) を異なる2つの非負値行列U(∈ RΩ×K)と V(∈RK×T) の積に近似分解する手法であり,式 (3.1)によって定義される.
Yω,t ≈Yˆω,t =
∑K
k
Uω,kVk,t (3.1)
ここで,Ωは周波数ビン数,Tはフレーム数,KはNMFの基底数を表す.また,ω, tはそ れぞれ周波数ビン番号,フレーム番号を示す.音響信号にNMFを適応する場合,パワー (振幅)スペクトログラムが行列Y に相当する.行列U は基底行列と呼ばれ,U の各列ベ クトルは調波構造を表す.また,行列V はアクティベーション行列と呼ばれ,各行ベク トルは,Uの各調波構造の時間変動を表現する.
このようにNMFは調波構造と,それぞれに対応する時間変動の両者を同時に見る事が 出来る.
3.2.1 距離尺度
NMFは非負値行列Y を2つの異なる非負値行列U, V に分解する.単に分解するだけ では,解が定まらない.そこで,解が収束するようにある一定のルールに基づいてU, V の 最適化を行う.そのルールとしては,ユークリッド距離(式 (3.2))や一般化KL ダイバー ジェンス(式 (3.3)),板倉齋藤距離(式 (3.4)) [23, 24]などが主として用いられている.
Deuc(x|y) = (x−y)2 (3.2)
DKL(x|y) = (x−y) +ylog y
x (3.3)
DIS(x|y) = y
x−log y
x −1 (3.4)
各距離尺度における,2つの変数の近さ度合いを表した図が図 3.2である.
3.2.2 更新則
U, V の最適化は先ほどの距離尺度を基に,乗法更新則と言われる方法で値の更新を行 う.ユークリッド距離での更新則は式 (3.6)のようになる.
U ←U. Y Vt
U V Vt (3.5)
V ←V. UtY
UtU V (3.6)
∗t は転置,∗. はアダマール積を表す.導出方法としては補助関数法と呼ばれる,目的関 数の上限関数を設計し,その上限関数を最小化することにより,目的関数を最小化する手 法である [25, 26].
以下にユークリッド距離に置ける場合の更新則の導出方法を記述する.
DEuc(Y|U V) = ||Y −U V||2F
= ∑
ω,t
|Yω,t−∑
k
Uω,kVk,t|2
= ∑
(|Yω,t|2−2|Yω,t||∑
Uω,kVk,t|+|∑
Uω,kVk,t|2) (3.7)
0 2 4 6 8 10 12 14 16 18 20 0
10 20 30 40 50
x
D(5|x)
図 3.2: 各距離尺度における2変数の近さ度合い
という大小関係を示す不等式である.2次関数であれば式 (3.9)のようになる.
(∑
i
xi)2 = (∑ λixi
λi)2 ≤∑
i
λi(xi
λi)2 =∑
i
x2i
λi (3.9)
つまり,第3項に対してJensenの不等式を立てると式のようになる.
|∑
Uω,kVk,t|2 ≤∑|Uω,kVk,t|2
λ (3.10)
この式 (3.11)をUω,kとVk,tについて解くと Uω,k =
∑
tYω,tVk,t
∑
t Vk,t2 λk,ω,t
(3.12)
Vω,k =
∑
tYω,tUk,t
∑
t Uk,t2 λk,ω,t
(3.13) となる.このλは全てのλi和が1となる係数であれば何でも良いので,式 (3.14)のよう にした.
λk,ω,t = Uω,kVk,t
∑
k0Uω,k0Vk0,t
(3.14) よって,式(3.13)に式(3.14)を代入すると,式(3.16)のようになり,更新式が導出出来る.
Uω,k =
∑
tYω,tVk,t
∑
tVk,t∑
k0Uω,k0Vk0,t
(3.15) Vω,k =
∑
tYω,tUk,t
∑
tUk,t∑
k0Uω,k0Vk0,t
(3.16) U, V の更新に先立ち,各行列の初期値は乱数を用いる.この初期値を元に更新を行う ので,NMFは初期値依存のアルゴリズムであるので,局所最適解に陥る危険性がある.
3.3 高域強調処理
本研究の予備実験より,図3.3に示す通り,分析対象の信号に対し,高域強調処理を施 さない状態では,低周波数領域の値が大きく,高周波数領域の値は結果にほとんど影響し なかった
そこで,周波数による値の偏りを無くすために高域強調処理を行った.分析対象の全 音源に対し,スペクトル傾斜を回帰直線近似で求めたところ,平均 6.6 dB/octの傾きが あったため,この傾きを打ち消す高域通過フィルタとして式 (3.17)に示すフィルタを高 域強調処理に用いた.
H(z) = 1−0.97z−1 (3.17)
1 1.5 2
x 10−3
0 1000 2000
Frequency[Hz]
1 1.5 2
x 10−3
1 1.5 2
x 10−3
図 3.3: 高域強調無しでNMFによる分析をしたときの基底行列
NMF は,各要因の和で表現する手法である.そのため,X を要因A, B, C, ... の和で 表現するにあたり,要因が並列的な関係なら式(3.18)に示す通り,そのままの和で十分表 現出来る.
X = A+B+C+...+N (3.18)
しかし,各要因が従属的な関係なら,式 (3.19)に示す通り対数をとらない限り,各要因 の和で表現する事が出来ない.
X = logA+ logB+ logC+...+ logN
= log(A×B×C×D) (3.19)
ピアノの発音原理は従属的な流れであることから,音の要素も従属的なフィルタの影響 を受けると考えた.そこで,従属的な要因を分離するために今回はパワースペクトログラ ムの対数をとった.
囲が有限になるので,対数パワースペクトログラムの最小値を全体から減算することで,
値を全て非負値にすることができる.
3.6 まとめ
これまで各節にて紹介した処理,すなわち,高域強調処理,対数パワースペクトログラ ムの非負値化,を用いてNMFにてピアノ音の個体差分析を行う.分析結果等については 次章にて説明する.
この実験では,NMF の基底数を決める事を目的に行った.NMF は基底数K 個のパ ターンに分離,表現する手法である.しかし,基底数K は一般的には決め打ちである.
NMF の基底数を自動的に求めるアルゴリズムはいくつか提案されてはいる [27, 28]もの の,ある1つの楽器音を分析するための方法ではない.そのため,基底数を変化させて,
分析に適切な基底数を決める必要がある.NMFの基底数を決定するにあたり,K の値を 1 から5まで変化させて,それぞれの分離結果及び,信号対歪み比の値を用いて決めた.
4.1.2 実験条件
ピアノ音の個体差の分析にあたり,分析対象のピアノ音として,グランドピアノ音4つ とアップライトピアノ音5つを用いた.グランドピアノ音のうち2種はRWC研究用音 楽データベース:楽器音 (以下RWC-DBとする) [29]からグランドピアノ音源2つ, MIDI Aligned Piano Sound (以下MAPS-DBとする) [30]からアップライトピアノ音源1つを用
いた.RWC-DBには,グランドピアノ音源が3つ収録されているが,うち一つが音が鳴り
終わる前に切れてしまっているものがあったため,2つのみの使用した.また,MAPS-DB には,物理モデル音源やソフトウェア音源があるが,今回は実音源を対象としているので 用いなかった.残りのグランドピアノ音2つとアップライトピアノ音4つは著者が収録し たものを用いる.
今後,便宜上RWC-DBの2つの音源をそれぞれRWC1,RWC3,MAPS-DBの音源を MAPSと称する.また,収録したグランドピアノ音2つをGP1,GP2, アップライトピア
ノ音 つを と名付ける.
分析窓幅によって,周波数解像度が変化することは周知の事実である.今回窓幅を2048 点としたことには理由がある.図 4.1 4.3に分析窓幅の異なる場合のNMF での分析結果 を示す.
図 4.1は分析窓幅が512 点で分析したときの結果であり,図 4.2は,2048 点で分析し たときの結果,そして,図 4.3は4096 点で分析を行ったときの結果である.また,各図 において(a)は基底行列を,(b)はアクティベーション行列を表す.
これらから分かる事として,512 点では,基底ベクトルである周波数情報がわからず,
調波構造らしい構造すら見えてこない.調波構造は2048点のものと,4096 点のものは確 認される.このとき,調波構造の概形についてはほとんど変わらない事から,4096 点の ものではなく,2048 点のものでも表現出来ていると考えられる.また,4096点でのアク ティベーションベクトルについて着目すると,第3ベクトルの減衰部分がピーク付近の 値がほぼ同じ値になっており,2048 点での結果のような急峻なピークが見られなかった.
4096点以上での分析だと,時間変動がぼやてけしまう結果が生じたため,周波数解像度 と時間変動のバランスをとった2048 点でのSTFTを行った.
810 x 10−3246810 x 10−3
Basis Matrix 246810 x 10−3 (a)
0
500010000
15000
Activation Matrix 0
500010000
15000 00.510
500010000
15000
time[s]
図4.1:分析窓幅512点での分析結果1.52 x 10−30.511.52 x 10−3
Basis Matrix 0.511.52 x 10−3 (a)
0
2
4
6
x 104Activation Matrix 0246x 104 00.511.522.50246x 104
time[s]
(b) 図4.2:分析窓幅2048点での分析結果1012 x 10−424681012 x 10−4
Basis Matrix 24681012 x 10−4 (a)
0
510
15
x 104Activation Matrix 05
10
15
x 104 00.5105
10
15
x 104
time[s]
(b) 図4.3:分析窓幅4096点での分析結果表 4.1: 基底数K = 3 とK = 4の各基底ベクトル間での相関係数 1st (K=4) 2nd (K=4) 3rd (K=4) 4th (K=4)
1st (K=3) 0.89 0.62 -0.66 0.12
2nd (K=3) -0.52 0.50 0.72 -0.33
3rd (K=3) 0.53 -0.29 -0.51 0.98
4.1.3 分析結果と考察
各基底数における分析結果の一例を図4.5〜 4.9に示す(他の結果は付録参照).基底数 K = 1の分析結果(図 4.5) では,基底行列に調波構造が,アクティベーションに波形の概 形が表れていることを確認出来た.
基底数K = 2の分析結果(図 4.6)では,全体周波数領域を表す第1ベクトルと4 kHz以 下の成分を表す第2ベクトルに分かれていた.第2アクティベーションベクトルが,徐々 に値が増えている事,また,第1ベクトルが減衰していることから,高周波数成分が早く 減衰するが,低周波数領域は長く残るという特徴がこの2つのベクトルの動きから考えら れる.K = 3 の分析結果(図 4.7)に着目すると,アクティベーションベクトルが定常部,
音の立ち上がり部,減衰部の3つに分かれていた.特に,調波構造を強く示しているのが 第1ベクトルである定常部であり,第3ベクトルである減衰部はK = 1,2ほど強く示し てはいなかった.ピアノの発音機構は(1) 打鍵,(2)ハンマーによる打弦,(3)弦の振動, (4)響板という形で伝わり,発音する.このシステムと対応させると,第1ベクトルは調 波構造を表しかつ,定常的なアクティベーションなので,(4) の響板による影響があては まると思われる.第2ベクトルは最初に強い値を持つが,すぐにアクティベーションが下 がるところ,また,基底ベクトルはほぼフラットな概形だが,基本周波数(220Hz)以下の 低域成分が強く表れている事から,打鍵時の下部雑音並びに,打弦時の衝突音が混合して 表れていると考えられる.
K = 4の結果(図 4.8)をK = 3 の結果と対比させると,定常部がK = 4のときの結果 の第1ベクトルと第2ベクトルに分離されていると考えられる.実際に各ベクトル間での 相関を計算したところ,図4.1に示すように,K = 4の第1ベクトル,第2ベクトルは共 にK = 3の第1ベクトルと最も相関が高かった.
また,基底数K = 5の結果(図 4.9)にも注目すると,第1,第2ベクトルは2つで定 常部を表現しようとしていて,第3,第4ベクトルが立ち上がり部を表現しているとアク ティベーションから推測される.先ほど同様,相関係数を計算すると,5つのベクトルの うち,第 と第 ベクトルは,基底数 の第 ベクトルと相関が高く,第 と第 ベ
値を決定するためにも,分離されて出来る基底行列Uとアクティベーション行列V の積で 再合成される対数スペクトログラムYˆ と元の対数スペクトログラムY との歪み率(Signal to distortionratio;SDR) を計算することにより定量的に評価する.計算式は式(4.2)に示 すものである.
SDR= 10 log 10 S
S−SˆdB (4.1)
(Sは原信号,Sは目的信号を表す)ˆ
この式を用いて全音源に対してSDRを計算し,それぞれの基底数ごとの平均値をプロッ トしたものが図 4.4である.SDRは値が高いほど,歪みが少ない事を表す.この結果よ り,基底数K = 3まではSDRの値が直線的に上昇しているが,K = 4以降ではSDRの 上昇幅が小さくなり,約11 dBでほとんど横ばいになっていた.
これらのことを踏まえると,K ≤ 3では,ピアノの発音機構の要因を十分に分離出来 なく,歪みも大きいという傾向があり,4≤ K では冗長な分離結果や,発音機構と対応 していない分離結果などが見られた.また,基底数を増やしてもSDR の値の上昇幅は上 がらず,むしろSDRの値そのものは横ばいという傾向が見られた.つまり,ピアノ音を 表現するにあたり,基底数Kの値は3が適していると考えられる.
1 2 3 4 5 0
2 4 6 8 10 12
K : Number of bases
Mean of SDR [dB]
Relationship between number of bases and SDR
図 4.4: 基底数とSDRの関係
11.11.21.31.41.51.61.7 x 10−3
Basis Matrix (a)
00.51
66.5
77.5
88.5
9
x 104Activation Matrix 図4.5:K=1の場合の分離結果(RWC1)
11.21.41.61.8 x 10−3
Basis Matrix 0.811.21.41.61.8 x 10−3 (a)
0
2
4
6
8x 104Activation Matrix 00.511.522.502468x 104
time[s]
(b) 図4.6:K=2の場合の分離結果(RWC1)23 x 10−3123 x 10−3
Basis Matrix 123 x 10−3 (a)
0
2
4
6x 104Activation Matrix 0246x 104 00.510246x 104
time[s]
図4.7:K=3の場合の分離結果(RWC1)12 x 10−3012 x 10−3
Basis Matrix 012 x 10−3012 x 10−3 (a)
0
5x 104Activation Matrix 05x 104 05x 104 00.511.522.505x 104
time[s]
(b) 図4.8:K=4の場合の分離結果(RWC1)2 x 10−302 x 10−302 x 10−3
Basis Matrix 02 x 10−302 x 10−3 (a)
0
5x 104Activation Matrix 05x 104 05x 104 05x 104 00.5105x 104
time[s]
図4.9:K=5の場合の分離結果(RWC1)図 4.10: 基底固定を用いるNMFの概念図
4.2 基底行列の部分固定を用いた非負値行列因子分解による ピアノ音の個体差分析
4.2.1 実験目的
先ほどの分析で, 基底数を3にすることにより,定常部,立ち上がり部,減衰部の3つ に基底ベクトルが分類された. 以降,定常部を表す第1ベクトルを定常部ベクトル,音 の立ち上がりを示す第2ベクトルをアタックベクトル,減衰を示す第3ベクトルを減衰部 ベクトルを名付ける.
この基底数K = 3の結果では,ピアノの発音機構と関連のある結果が得られたが,そ こから個体差が具体的にどのようなものなのかはわからなかった.そこで,個体差をより 明確に抽出するために,基底行列の一部を固定して,再度NMF で分析を行う.
NMF入力の非負値行列を基底行列とアクティベーション行列に近似分解する.このと き,得られる基底行列の一部(図 4.10中のUf ix)を予め別の成分で固定することにより,
その固定した成分に対応するアクティベーションベクトル(図 4.10 中の Vf ix)に,固定し た成分の時間変動が得られる.また,非固定部 (図 4.10中のUf ree)はNMF の更新によ り,得られ,固定した成分(Uf ix)では表現出来ない成分が表れるはずである.また,この 非固定部に対応した時間変動(Vf ree)も同様にNMF の更新で得られる.つまり,固定す る成分として,ピアノ音の共通成分を用いれば,固定部に対応したアクティベーションベ クトルに,共通成分の時間変動が,非固定部の基底行列には,その入力音特有の成分,つ まり,入力音の個体差が表れてくるはずである.
音ならそれぞれのアップライトピアノ音の基底ベクトルの最小値を用いた.この実験では 先ほどの仮定より基底数K は6 とした.
4.2.3 分析結果と考察
図4.11にグランドピアノ音の共通成分として用いた基底行列,図 4.12にアップライト ピアノ音の共通成分として用いた基底行列を示す.図 4.11の第1ベクトルである定常部 ベクトルは調波構造がよく見られるが,図 4.12の定常部ベクトルは2 kHz 以上から調波 構造のようなものが散見される.しかし,2 kHz 以下では局所的なピークはあるものの,
いわゆる調波構造は観測されなかった.
第2ベクトルであるアタックベクトルに着目すると,図 4.11では,細かい変動こそあ るが,ほとんどフラットな形状をしている.一方図 4.12では,定常部ベクトルほど激し く変動はしてないが,かなり定常部ベクトルと似通った特徴が表れていた.
減衰部ベクトルでは,図4.11では,全体的にフラットな形状をしているが,1〜2 kHz,
4 kHz以上の部分でピークが散見された.ところが図 4.12では,2〜4 kHzあたりでは調
波構造を反転させたような谷の構造が観測された.また,500 Hz 以下の低周波数領域の パワーが強いのも特徴である.
そして,図, 4.13, 4.14にグランドピアノ音の分析結果の一部を,図 4.15, 4.16, 4.17に アップライトピアノ音の分析結果の一部を示す.各図における(a),(b)はそれぞれ基底行 列,アクティベーション行列である.また,図4.13(a), 4.14図(a) の第1ベクトルから第 3ベクトルが,図 4.11に示した通り,共通成分として固定した基底行列である. 同様に,
図 4.15(a), 4.16(a), 4.17(a) の第1ベクトルから第3ベクトルが図 4.12に示した,共通成 分として固定した基底行列である.
分析結果の非固定部 第 〜第 ベクトル のほどんとが,定常部ベクトル,アタック
また,減衰部ベクトルでは,共通成分の第3ベクトルと,個体差の第6ベクトルでピア ノ音の2段階減衰が表現されるが,最初の急峻な減衰が第3ベクトル,後半の緩やかな減 衰が第6ベクトルと,2つに分かれている.このことから,緩やかな減衰が個体差として 大きく影響している事が考えられる.
0 0.5 1 1.5
x 10−3
0 1000 2000
Frequency[Hz]
0 0.5 1 1.5
x 10−3
0 0.5 1 1.5
x 10−3
図 4.11: グランドピアノ音の共通成分
1000 2000 3000 4000 5000
Frequency[Hz]
Basis Matrix
012 x 10−3012 x 10−3
Basis Matrix 012 x 10−3012 x 10−3012 x 10−3 (a)
0
5x 104Activation Matrix 05x 104 05x 104 05x 104 05x 104 00.511.522.5305x 104
time[s]
(b) 図4.13:グランドピアノ音の分析結果(GP2)012 x 10−3012 x 10−3
Basis Matrix 012 x 10−3012 x 10−3012 x 10−3 (a)
0
5
x 104Activation Matrix 05x 104 05x 104 05x 104 05x 104 00.5105x 104
time[s]
(b) 図4.14:グランドピアノ音の分析結果(RWC3)012 x 10−3012 x 10−3
Basis Matrix 012 x 10−3012 x 10−3012 x 10−3 (a)
0
5x 104Activation Matrix 05x 104 05x 104 05x 104 05x 104 00.511.522.5305x 104
time[s]
(b) 図4.15:基底行列の一部を固定してNMFを適応した結果(UP1)01 x 10−301 x 10−3
Basis Matrix 01 x 10−301 x 10−301 x 10−3 (a)
0
5x 104Activation Matrix 05x 104 05x 104 05x 104 05x 104 00.511.505x 104
time[s]
(b) 図4.16:基底行列の一部を固定してNMFを適応した結果(UP2)01 x 10−301 x 10−3
Basis Matrix 01 x 10−301 x 10−301 x 10−3 (a)
0
5
x 104Activation Matrix 05x 104 05x 104 05x 104 05x 104 00.511.522.505x 104
time[s]
(b) 図4.17:基底行列の一部を固定してNMFを適応した結果(MAPS)間波形に持って行くことはあまりにも乱暴すぎる.そのため,一つの指標として今回得ら れた時間変動波形を利用出来るのではないかと思われる.
今回基底数6で分析を行った際,定常部のスペクトルピークと,減衰部のアクティベー ションに個体差が強く反映されていることがわかった.しかし,他の部分,例えばアタッ クベクトルなどにはうまいこと個体差が見えてこなかった.また,一部音源に関しては,
アタックベクトルが個体差に表れず,そのかわり減衰部のアクティベーションが2つ表れ るなど,共通成分と個体差の和という仮定通りにいかないものもあった.ほとんどの音源 では,先ほどのように個体差が表れた結果が得られたが,分離結果自体に一部例外が見ら れたので,基底数をいくつにすべきかというのは今後も議論が必要と考えられる.
4.3 まとめ
この章では分析結果に基づいてNMFの基底数を決定した.また,具体的に個体差を示 すために,基底の一部をグランドピアノ音同士,アップライトピアノ音同士,それぞれ の共通成分で固定して,再度NMFで分析を行った.その結果,定常部ベクトルに特有の ピークを示し,減衰ベクトルのうち,緩やかに減衰する成分が個体差として強く表れてい たことがわかった.
第 5 章 総合検討
5.1 グランドピアノ音間での個体差の違い
図 4.11に示す通りグランドピアノ音間の共通成分で定常部ベクトルは調波構造が綺麗 に表れている.特に4 kHz付近までの構造がよく保存されているため,図に示す通り,各 グランドピアノ音の基底行列の第4ベクトルはGP1 (図 5.1(a))とRWC3 (図 5.1(d)) で は本当に必要な成分のピークしか表れていない.これらに対し,GP2 (図 5.1(b)) では第 1, 2, 4, 5, 6, 7 倍音及び,2 〜4 kHz の倍音成分がピークとして表れ,4 kHz以上の高域 成分ではピーク間の谷の部分が表れている.また,RWC1 (図 5.1(c))では,第1, 2 倍音
及び,3 kHz 付近を中心としたピークが大きく表れている.これらの成分は共通成分だけ
では表現出来ない成分であり,音源毎に全く異なった特徴を示しているので,個体差とし て大きく表れていると考えられる.特に各音源の第4アクティベーションベクトルの動き に注目すると,図 4.13(b)のように音の立ち上がりから約0.5〜1.0 秒ほど経過してから上 がり始め,弧を描きながら,ダンパーがおりた部分でパワーが落ちている.この動きをピ アノの発音機構と対応させて考えると,ふたによる反響と響板の影響が考えられる.元々 基底数K = 3で分析したとき,定常部,アタック部,減衰部の3つに分けられた.この ことを考慮すると,第4ベクトルは定常部の個体差と考えられるので,響板の影響が強く 反映されていると推測される.
また,各分析結果の第6アクティベーションベクトルに注目すると減衰傾向がある.し たがって,共通成分の第3ベクトルである減衰部ベクトルでは表すことが出来ない成分が 第6ベクトルに表れていると考えられる.グランドピアノ音の固定部,非固定部それぞ れの減衰部ベクトルに対応するアクティベーションを図5.2に一例を記載した.図 5.2(a) が共通成分のアクティベーションで,(b)が非固定部のアクティベーションである.この 図から,ピアノ音の特徴である2段階減衰のうち,音の立ち上がり直後の急峻な減衰は,
(a)の共通成分のアクティベーションに表れ,後半の緩やかな減衰は(b) である非固定部 のアクティベーションに表れていた.音源固有の個体差を考えると,非固定部である第6 ベクトルが表す,緩やかな減衰が要素として重要であると考えられる.そこで,各音源の 第 ベクトルの減衰の傾きを調べたところ表 のようになった. これらの結果より,弦
0 1000 2000 3000 4000 5000 0
0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8x 10−3
Frequency [Hz]
Amplitude [deg]
4th activation vector
(b)
0 1000 2000 3000 4000 5000
0 0.5 1 1.5 2 2.5 3 3.5x 10−3
Frequency [Hz]
Amplitude [deg]
4th activation vector
(c)
0.4 0.6 0.8 1 1.2x 10−3
Amplitude [deg]
4th activation vector
0 0.5 1 1.5 2 2.5 0
1 2 3 4 5 6
7x 104
Time [sec]
Amplitude [deg]
3rd activation vector
(a)
0 0.5 1 1.5 2 2.5
0 1 2 3 4 5 6 7
8x 104
Time [sec]
Amplitude [deg]
6th activation vector
(b)
5.2 アップライトピアノ音間での個体差の違い
図 5.3に非固定部である,第4基底ベクトルを記載した.図 5.3(a) はUP1 の結果,
5.3(b) はUP2, そして 5.3(c)はMAPS の結果を表している.各音源の特徴として,UP1 では偶数次倍音のピークが大きく,UP2では 0.5〜2 kHzに大きなピークがあり,MAPS
は 2 kHzを中心に,前後それぞれおよそ 1.2 kHz にわたって大きなピークを持っていた.
この第4ベクトルのアクティベーションに着目すると,約 0.5から2.2 sec までゆるやか な弧を描いていた.したがって,これらも響板の等の反響による影響と推測される.
グランドピアノ音同様,アップライトピアノ音でも減衰が第3ベクトルと第6ベクトル に分かれていた.第6ベクトルの緩やかな減衰の傾きを表 5.2にまとめた.グランドピア ノ音同様,音源によって傾きが異なっていたが,グランドピアノ音ほど傾きにバラつきは なかった.
図5.4にアップライトピアノ音の基底ベクトル,アクティベーションベクトルそれぞれ の第5ベクトル(非固定部)を記載した.図 5.4(a),(c),(e)は,それぞれUP1, UP2,MAPS の非固定部のアタックベクトル,図 5.4(b)(d)(f)がそれぞれUP1, UP2,MAPS アクティ ベーションベクトルである.MAPS ではアクティベーションにアタックらしきピークが あるが,それ以外は,ほとんどがダンパーがおりた後の成分を捉えていた.それぞれの基 底ベクトルを見ると,全て第6倍音に大きなピークを持っている事から,ダンパが下りる 影響が表れている事がここからもわかる.つまり,第5ベクトルは主にダンパが下りると きからの影響を表していると考えると,UP1 (図 5.4(a))では,第2〜4倍音成分は小さい が,ほとんど全周波数でフラットな形状をしている.UP2(図 5.4(c))では,周波数が高く なるにつれ,値が少しずつ上がっている事から,残響として高周波数成分が残りやすい性 質があると推測される.MAPS(図 5.4(e))ではおよそ500 Hz 以下の成分が多く,第2倍
0 1000 2000 3000 4000 5000 0
0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8x 10−3
Frequency [Hz]
Amplitude [deg]
4th activation vector
(a)
0 1000 2000 3000 4000 5000
0 0.5 1 1.5x 10−3
Frequency [Hz]
Amplitude [deg]
4th activation vector
(b)
0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8x 10−3
Amplitude [deg]
4th activation vector