楽器音に対する仮想音源のパラメータ推定

全文

(1)情報処理学会研究報告. Vol.2013-MUS-100 No.5 2013/8/31. IPSJ SIG Technical Report. 楽器音に対する仮想音源のパラメータ推定糸山克寿1,a). 奥乃博1. 概要：本稿では，音源分離などに起因する雑音や歪みを含む楽器音に対して，それらを含まないクリーンな楽器音を得るための仮想楽器音源のパラメータ推定法について述べる．多数の楽器音をランダムに生成し，楽器音からフレームベースの音響特徴量とその統計量を計算する．重回帰分析を用いて音源パラメータと音響特徴量との関係を学習し，未知楽器音のパラメータをその関係性を用いて推定する．評価実験の結果，推定対象のパラメータが少ない場合には学習データを十分に用意することで，実用上十分な精度でのパラメータ推定を実現した．. 1. 序論. ない．もう 1 つは音高，音量，ビブラート，ポルタメント，励振. YouTube*1 やニコニコ動画*2 に代表される消費者生成メ. 波形，フィルタ，残響など，楽器の演奏法，歌い方，録音. ディア (consumer generated media; CGM) の製作や編集. 環境などの様々な音響信号生成過程に基づく，数値的な表. を支援する技術の需要は増加している．作曲や編曲，楽器. 現である．具体的には，musical instrument digital inter-. の演奏などの方法で音楽を楽しむためには専門的な知識，. face (MIDI) 音源や virtual studio technology instruments. 経験，機器が必要であり，これまでは限られた人々のみが. (VSTi) 音源などの音源パラメータが想定される．こちら. これを行うことができたが，様々なソフトウェアやコンテ. はパラメトリックな表現ともいえる．この表現は以下のよ. ンツ配信基盤の充実により，多くの人がコンテンツの作成. うな利点を持つ．. を楽しむようになっている．CGM 上のコンテンツにおけ. 加工が容易．楽器の種類，音高，残響といった音響信号. る主流の一つは，既存楽曲の模倣やアレンジなど，コンテ. 上で操作することが難しい音楽的要素であっても，対. ンツの再利用である．複数の楽曲を組み合わせるマッシュ. 応するパラメータを操作すれば容易に操作可能であ. アップや，自らの楽器演奏を既存楽曲に重ねるものなどが. る．また，ビブラートやポルタメントなどの歌い方や. あり，基本的には既存楽曲の音響信号をそのまま用いるこ. 演奏の特徴を抽出して他のデータに適用することで，. とが多い．一方で楽曲中の特定の音楽要素，例えば混合音. これらの要素を別の演奏に移植することができる．. 中のギターソロや歌声のビブラートなど，を取り出すこと. データ量が小さい．音楽音響信号に対する情報圧縮とし. ができれば，製作される作品の品質向上や幅の拡大が期待. て有用である．さらに，高品質な機器を用いることで. される．. それだけ高品質な演奏が得られる．この特性はヤマハのリモートライブ*3 などに応用されている．. 楽器音や歌声は，2 つの表現方法があるといえる．1 つは音響信号そのものである．これはノンパラメトリックな. 一方問題点として，音響信号からの推定が困難であること. 表現ともいえる．音楽 CD などで広く用いられており汎用. が挙げられる．これらを取得するには，一般には MIDI ピ. 性が高いという利点があるが，以下のような問題点を持つ．. アノなどの専用の機器が必要である．. 加工が困難．フィルタやエフェクトなどによる，後処理的な簡単な加工のみが可能であり，録音された音源に. 源のパラメータを推定する手法について述べる．現在では. 対して音高や楽器の種類を操作することは困難である．. 様々な仮想楽器音源が開発・公開されており，多くの楽曲. データ量が大きい．高品質な音源の実時間配信には向か 1 a) *1 *2. 本稿では，楽器音から MIDI や VSTi などの仮想楽器音. 京都大学 Kyoto University, Sakyo, Kyoto 606-8501, Japan itoyama(at)kuis.kyoto-u.ac.jp http://www.youtube.com/ http://www.nicovideo.jp/. ⓒ 2013 Information Processing Society of Japan. の製作に用いられている．モデルとなっている楽器は，ピアノ・ギター・バイオリンなどのアコースティック楽器，アナログシンセサイザーやテルミンなどの電気・電子楽器など，多岐にわたる．したがって，仮に現在公開されてい *3. http://www.y2lab.com/project/remotelive/. 1.

(2) 情報処理学会研究報告. Vol.2013-MUS-100 No.5 2013/8/31. IPSJ SIG Technical Report. るあらゆる仮想楽器音源を収集することができれば，その中には任意の楽曲で使われている楽器音に十分に類似した音を演奏できるものがあると言える．これらの仮想楽器音源で演奏される楽器音には音源分離 [1–5] に起因する歪みやノイズが全く含まれない．したがって，仮想楽器音源を用いた分離音や混合音に対する音源パラメータを推定できれば，分離歪みやノイズの除去が実現できる．手法の概要を図 1 に示す．提案法は 2 つの特徴をもつ．. ( 1 ) 任意の音源を対象とする．すなわち，内部構造がブラックボックス化されており，音源パラメータと音響. 図 1. Overview of the proposed method.. 信号やその特徴との関係性が未知であることを仮定する．. や 0–1 (VSTi) といった，ある範囲内の値として表現され. ( 2 ) 分離歪みやノイズを含む分離音を入力とし，入力音か. る．本稿では単純のため全てのパラメータの範囲を 0–1 に. ら歪みやノイズを取り除いた楽器音を合成可能な音源. 正規化して扱う．各パラメータは，その設定方式から大き. パラメータを出力する．. く 2 つに分けられる．. 提案法は以下の 2 ステップからなる．. ( 1 ) 学習ステップ．学習用パラメータをランダムに生成し，そのパラメータから楽器音を合成する．楽器音を短時間フレームに分割してフレームごとに音響特徴抽出し，時間差分，集約，次元圧縮を行う．音響特徴空. ( 1 ) 連続パラメータ．音量や残響の長さなど，上限と下限の間で作用が連続的に変化するもの．生成される楽器音に連続的に影響を及ぼす．. ( 2 ) 選択パラメータ．波形生成器の種類を正弦波，三角波，ノコギリ波，矩形波などから一つを選択するなどの，. 間でのパラメータの直交性を仮定し，音響特徴量-音源. 離散集合から一つを選択するもの．生成される楽器音. パラメータ間の重線形回帰モデルの回帰係数を反復推. に離散的に影響を及ぼす．パラメータ x の範囲を以下. 定する．. ( 2 ) 推定ステップ．入力楽器音を学習ステップと同様にフレーム分割し，音響特徴を抽出する．重線形回帰モデルを用いて，音響特徴に対する最適な音源パラメータを計算する．. のように分割することで実装されることが多い．. • 0 ≤ x < 0.25 のとき正弦波， • 0.25 ≤ x < 0.5 のとき三角波， • 0.5 ≤ x < 0.75 のときノコギリ波， • 0.75 ≤ x ≤ 1 のとき矩形波．. 類似の研究として，楽器の物理モデルパラメータ推定が. 本研究では音源パラメータは音響特徴に線型に影響を及ぼ. 挙げられる．多くは特定の楽器，例えばギターなどの撥弦. すと仮定する．音響特徴と連続パラメータとの関係の表現. 楽器 [6, 7] やバイオリンなどの擦弦楽器 [8] に特化してい. にこの仮定は適しているが，選択パラメータには向かない．. る．弦などの振動を微分方程式で陽にモデル化し，入力楽. そこで，選択パラメータを線型モデルに適したものに以下. 器音に対して最適な弦の太さや張力などの物理パラメータ. のように拡張・圧縮する．. を推定する．もう一つの類似研究として，Vocaloid*4 のパ. パラメータ拡張パラメータの次元を選択対象である集合. ラメータを推定する VocaListener [9,10] が挙げられる．歌声の音量や音高と，Vocaloid の音源パラメータとの対応関係に基づき，入力歌声に対して最適なパラメータを反復推定する．これらの研究の問題点は，(1) ノイズや歪みを含まないクリーンな楽器音や歌声を対象とすること，(2) 特定の楽器や音源を前提としており，任意の音源を対象とできる汎用性に欠けることである．. の大きさに増やす．それぞれの要素を以下のような. 1-of-K 表現で表す． • 正弦波のとき (1, 0, 0, 0)， • 三角波のとき (0, 1, 0, 0)， • ノコギリ波のとき (0, 0, 1, 0)， • 矩形波のとき (0, 0, 0, 1)．. パラメータ圧縮拡張されたパラメータの中での最大値に. 2. 回帰モデル. 対応する，元の集合中の要素を用いる．上記の例を用. 2.1 楽器音源のパラメータ. ギリ波となる．. いると，(1, 0, 0, 0) は正弦波，(0.3, 0.5, 0.8, 0.2) はノコ. MIDI や VSTi などの楽器音源は，その楽器の形態や演奏方法に依存するものとしないものの両方を含んだ，様々なパラメータをもつ．各パラメータは基本的に，0–127 (MIDI). 2.2 回帰モデル学習重線形回帰モデルで音源パラメータと音響特徴との関係を学習する．学習に用いる n 個の楽器音から抽出された. *4. http://www.vocaloid.com/. ⓒ 2013 Information Processing Society of Japan. 音響特徴を x1 , . . . , xn ，それぞれに対応する音源パラメー. 2.

(3) 情報処理学会研究報告. Vol.2013-MUS-100 No.5 2013/8/31. IPSJ SIG Technical Report. タを y1 , . . . , yn とする．回帰係数行列 A および a0 を用い. スペクトル重心振幅スペクトルの周波数重心．. m. て，回帰モデルは以下で表される．. i=1. y = a0 + Ax. (1). 最適な回帰係数 A および a0 は，以下の目的関数の最小化で得る． 2. yi − a0 − Axi + λ. i=1. . ai · aj. m. i=j. 表す．ai は A の各行ベクトルである．目的関数の第 2 項. は，定数 λ のもとで A の各行の直交性を得るためのもので. ある．この目的関数を各行ベクトルに関して解くと，以下を. a0m. i=1. (2). x と x · y は，それぞれベクトルの L2 ノルムと内積を. akm. fi はスペクトル yi に対応する周波数．. スペクトル幅スペクトル重心を中心とした，振幅スペクトルの重み付き 2 乗誤差．. n . 得る．. yi fi. m. ynk xnm − m =m akm n xnm xnm 2 = n xnm + λ k =k ak m n xnm − m =m a0m n xnm xnm 2 = n xnm. f¯ はスペクトル重心．. スペクトルロールオフ振幅スペクトルの 95 パーセンタイル点．スペクトルフラックス振幅スペクトルの隣接フレーム間の差の L2 ノルム．スペクトルピーク振幅スペクトルの，振幅の大きい 5%の周波数における平均振幅．. . n. yi (f¯ − fi )2 m. (3). スペクトルバレー振幅スペクトルの，振幅の小さい 5%の. (4). スペクトルコントラストスペクトルピークとスペクトル. 各行ベクトルにこれを反復的に適用することで，目的関数を最小化する係数行列を得る．. 周波数における平均振幅．バレーの差．メル周波数ケプストラム係数 (MFCC). 信号全体の音色. を表現する．本研究では 12 次元の MFCC を用いた．高調波成分の振幅調波構造成分の音色を表現する．本研. 3. 音響特徴抽出. 究では 10 次までの高調波成分を用いた．この特徴は. PreFEst [13] を用いて抽出する．. 音響特徴の抽出は 4 ステップからなる．. フレームごとに抽出された低次の音響特徴は，楽器音の. ( 1 ) フレームごとに低次の特徴を抽出する． ( 2 ) 隣接する数フレームでの特徴量の変化量を求める． ( 3 ) 特徴量ごとに値を集約し固定長のベクトルを得る．. 瞬間的な特徴を表現するものであり，時間的な変動を表さない．特徴の時間変動成分をとらえるため，特徴に対し. ( 4 ) 主成分分析を用いて次元を圧縮する．. て 3 種類の時間微分を計算する．隣接フレームの差分，近. 3.1 Low-level Features. 似直線の傾き．さらに隣接フレームの差分からは，2 次の. 傍 50ms での近似直線の傾き，および近傍 100ms での近. 主に楽器音の音色を表現する音響特徴を，楽器同定および音楽ムード推定の従来研究 [11, 12] を参考に設計した．楽器音から短時間フレームを切り出し，各フレームをフー. 時間微分も同様に計算する．結果として，各フレームから. 32 × (1 + 3 + 3) = 224 次元の特徴ベクトルが得られる．. リエ変換して振幅スペクトルを得る．信号 x1 , . . . , xn とス. 3.2 集約と次元圧縮. 出する．. 各楽器音からフレームごとに抽出された特徴ベクトルの数. ペクトル y1 , . . . , ym から，合計 32 次元の以下の特徴を抽信号の二乗平均平方根信号全体のエネルギー．. n. i=1. n. x2i. 小さいエネルギーを持つ周波数の割合．. m s.t.. y¯ =. ゼロ交差数信号が軸と交差する回数．. #{xi | xi xi+1 < 0} ⓒ 2013 Information Processing Society of Japan. は楽器音の長さに応じて異なる．回帰モデルを用いて音源パラメータと特徴量の関係を学習するためには，各楽器音から得られる特徴ベクトルの長さは全て等しい必要があ. エネルギー分布の偏り各周波数の平均エネルギーよりも. #{yi | yi < y¯} m. 各楽器音の長さはパラメータによって様々であるため，. i=1. m. る．このステップでは，フレームごとに抽出された特徴量の時系列を様々な統計量へと集約することで，あらゆる長さの楽器音から画一の次元の特徴ベクトルを得る．. yi. 25 の統計量を特徴量の要素ごとに計算する．総和，平均，分散，歪度，尖度これらの統計量は特徴量の分布の性質を表現する．最小値，最大値，中央値，10/90 パーセンタイル値これらの統計量は特徴量の分布の性質を表現する．中央. 3.

(4) 情報処理学会研究報告. Vol.2013-MUS-100 No.5 2013/8/31. IPSJ SIG Technical Report. 数のパラメータをランダムに選択し，さらに実験 1 では 10,. 100, 1000 の，実験 2 では 1000 のパラメータをランダムに生成する．パラメータ選択から生成までのプロセスは 10 回繰り返し，特定のパラメータによって評価が偏ることを避ける．ランダム生成したパラメータを 10 グループに分図 2 19 temporal subregions.. け，交差検定を行う．なお，楽器音の音高は MIDI ノートナンバー 69 (440Hz)，音長は 1 秒に固定する．. 値と 10/90 パーセンタイル値は平均や最大値，最小値. 推定された音源パラメータと元の音源パラメータとの誤. よりも外れ値の影響を受けにくい．さらに，これらの. 差の大きさで評価する．誤差 e は，連続パラメータと選択. 値の位置（時刻）も計算する．. パラメータでそれぞれ以下のように定義する．. 離散コサイン変換係数この統計量は，特徴量の楽器音全体にわたる時間変化を表現する．本研究では 10 次までの係数を用いた．振幅エンベロープの ADSR（アタック，ディケイ，サステイン，リリース）に代表されるように，楽器音は異なる特徴をもついくつかの区間の組み合わせからなるものがある．このような区間的な特徴を捉えるため，音響信号に対. e= ec =. ec + es , パラメータ数. . |pest,i − pref,i |. i. ⎧ ⎨0 推定されたパラメータが正しい場合 es = ⎩1 推定されたパラメータが正しくない場合 i. して 3 つの区間を設定する．(1) 音響信号全体，(2) 励振区. pref,i と pest,i はそれぞれランダム生成されたパラメータと. 間（MIDI ノートオンからノートオフまで），(3) 残響区間. 回帰モデルから推定されたパラメータである．. （MIDI ノートオフから無音まで）．さらに，これらの区間に対してさらに細かい部分区間を設定する．(a) 開始から. 4.1 音源. 終了まで，(b) 開始から区間の {20, 40, 60, 80} パーセント. 実験 1 では表 1 に示す音源を用いた．実験 2 では，表 1 に. 点まで，(c) 区間の {20, 40, 60, 80} パーセント点から終了. 用いた音源のうち，4Front R-Piano, DSK Strings, Synth1. まで，(d) 区間開始から {200, 400, 600, 800, 1000}ms の. の 3 音源を用いた．. 間，(e) 区間終了までの {200, 400, 600, 800, 1000}ms の間（図 2）．集約ステップまでで，各楽器音から 224 × 7 × 3 × 19 =. 4.2 結果実験 1 の結果を表 2 に，実験 2 の結果を表 3 に示す．. 319200 次元の特徴ベクトルが得られる．このままの特徴. 実験 1 の結果より，推定すべきパラメータの数を増やすと. ベクトルを用いても回帰モデルを学習することは可能であ. 推定誤差が増加し，学習データの数を増やすと推定誤差が. るが，特徴ベクトルの冗長性とモデル学習に要する計算コ. 減少していることが分かる．また，Spicy Guitar など，他. ストを削減するため，主成分分析で特徴量の次元を圧縮す. よりも大幅に推定誤差が大きい音源があることが分かる．. る．本研究では累積寄与率の閾値を 0.99 とした．ただし. この原因は今後調査を進める必要がある．実験 2 の結果よ. モデルパラメータの推定のためには，特徴ベクトルの次元. り，パラメータ数を増やすと推定誤差が増加し，また雑音. は音源パラメータの次元よりも大きくなければならないこ. の音量が増加すると推定誤差も増加することが分かる．. とに注意する．. 4. 評価実験提案法を評価するため，2 つの実験を行った．実験 1 は，. 多くの MIDI 音源は 0-127 の 7bit 整数でパラメータを制御する．VSTi もこれに準ずると仮定すると，1.0 / 128 =. 0.008 よりも小さい誤差はゼロと見なしてもよいといえる．パラメータが音響信号や音響特徴に与える影響はパラメー. ランダムに生成するパラメータの数によって，パラメータ. タによって異なるので，今後は BSS Eval [14] などで音響. 推定精度がどのように変化するか調査する．実験 2 は，提. 的な推定誤差を測定することも必要である．. 案法の雑音への頑健性を調査する．多数の音源パラメータをランダムに生成し，楽器音合成，特徴量抽出，回帰モデ. 5. 結論. ル学習を行う．別に用意したテスト用音源パラメータから. 本稿では，VSTi などの仮想楽器音源のパラメータを推. 楽器音合成と特徴量抽出を行い，その特徴量から回帰モデ. 定する手法について述べた．音源パラメータと音響特徴の. ルを用いて音源パラメータを再推定する．実験 2 では楽器. 関係を重線形回帰モデルで学習する．評価実験では，提案. 音生成の際に雑音を付与し，雑音の含まれた音響特徴から. 法は一部の条件では良い精度でパラメータを推定したが，. 元の（すなわち，雑音を含まない）音源パラメータを推定. 雑音の増加と推定すべきパラメータ数の増加に応じて推定. する．推定するパラメータの数は 1, 2, 4, 8 とした．この. 精度が劣化することが明らかになった．今後は，雑音への. ⓒ 2013 Information Processing Society of Japan. 4.

(5) 情報処理学会研究報告. Vol.2013-MUS-100 No.5 2013/8/31. IPSJ SIG Technical Report. 名前. 楽器. 表 1 実験に用いた音源パラメータ数 URL. 4Front R-Piano. electric piano. 13. http://www.yohng.com/software/rpiano.html. DSK AkoustiK KeyZ. pianoforte. 18. http://www.dskmusic.com/dsk-akoustik-keyz/. DSK ChoirZ. choir/pad. 81. http://www.dskmusic.com/dsk-choirz/. DSK Darkness Theory. PCM synthesizer. 61. http://www.dskmusic.com/dsk-darkness-theory/. DSK Electrik GuitarZ. electric guitar. 35. http://www.dskmusic.com/dsk-electrik-guitarz/. DSK Elektrik Keys. electric keyboard. 36. http://www.dskmusic.com/dsk-elektrik-keys/. DSK RhodeZ. rhodes. 23. http://www.dskmusic.com/dsk-rhodez/. DSK SaxophoneZ. saxophone. 19. http://www.dskmusic.com/dsk-saxophonez/ http://www.dskmusic.com/dsk-strings/. DSK Strings. strings. 41. ファミシンセ II. 8bit. 16. http://www.geocities.jp/mu station/vstlabo/famisynth.html. neon. subtractive synthesizer. 14. http://japan.steinberg.net/jp/support. Phat Bass. bass guitar. 9. http://www.dreamvortex.co.uk/instruments/. Spicy Guitar. guitar. 22. http://www.spicyguitar.com/. /unsupported products/vst classics vol 2.html. Synth1. subtractive synthesizer. 99. http://www.geocities.jp/daichi1969/softsynth/. Transcender SE. subtractive synthesizer. 20. http://www.dreamvortex.co.uk/instruments/. # of parameters. 表 2 実験 1 の結果 2. 1. 4. 8. # of training sounds. 9. 90. 900. 9. 90. 900. 9. 90. 900. 9. 90. 900. 4Front R-Piano. 0.047. 0.008. 0.005. 0.149. 0.017. 0.012. 0.185. 0.062. 0.042. 0.251. 0.131. 0.098. DSK AkoustiK KeyZ. 0.102. 0.011. 0.005. 0.196. 0.076. 0.061. 0.282. 0.107. 0.078. 0.291. 0.194. 0.170. DSK ChoirZ. 0.124. 0.022. 0.008. 0.184. 0.069. 0.024. 0.306. 0.141. 0.107. 0.353. 0.218. 0.200. DSK Darkness Theory. 0.153. 0.091. 0.077. 0.248. 0.035. 0.011. 0.239. 0.152. 0.106. 0.266. 0.200. 0.192. DSK Electrik GuitarZ. 0.019. 0.004. 0.002. 0.101. 0.015. 0.008. 0.216. 0.068. 0.042. 0.328. 0.188. 0.142. DSK Elektrik Keys. 0.177. 0.021. 0.010. 0.256. 0.116. 0.045. 0.208. 0.151. 0.103. 0.263. 0.200. 0.171. DSK RhodeZ. 0.081. 0.009. 0.004. 0.238. 0.065. 0.030. 0.260. 0.152. 0.093. 0.334. 0.200. 0.170. DSK SaxophoneZ. 0.089. 0.006. 0.003. 0.305. 0.113. 0.104. 0.222. 0.091. 0.076. 0.247. 0.173. 0.149 0.128. DSK Strings. 0.100. 0.028. 0.014. 0.162. 0.048. 0.034. 0.195. 0.085. 0.044. 0.249. 0.172. ファミシンセ II. 0.250. 0.150. 0.037. 0.250. 0.125. 0.125. 0.250. 0.250. 0.250. 0.375. 0.333. 0.250. neon. 0.071. 0.007. 0.004. 0.112. 0.021. 0.010. 0.203. 0.067. 0.036. 0.262. 0.142. 0.114. Phat Bass. 0.102. 0.010. 0.006. 0.106. 0.022. 0.010. 0.174. 0.057. 0.032. 0.257. 0.155. 0.107. Spicy Guitar. 0.246. 0.244. 0.243. 0.273. 0.210. 0.244. 0.239. 0.173. 0.139. 0.272. 0.228. 0.209. Synth1. 0.191. 0.059. 0.031. 0.200. 0.233. 0.250. 0.168. 0.086. 0.057. 0.253. 0.156. 0.131. Transcender SE. 0.039. 0.006. 0.002. 0.086. 0.012. 0.005. 0.165. 0.045. 0.017. 0.255. 0.105. 0.061. Average. 0.119. 0.045. 0.030. 0.191. 0.078. 0.065. 0.221. 0.112. 0.081. 0.284. 0.186. 0.153. 表 3 実験 2 の結果 −∞. noise level [dB]. −20. # of parameters. 1. 2. 4. 8. 1. 2. 4. 8. 4Front R-Piano. 0.047. 0.091. 0.183. 0.256. 0.065. 0.099. 0.172. 0.354. DSK Strings. 0.015. 0.025. 0.034. 0.076. 0.019. 0.029. 0.061. 0.124. Synth1. 0.018. 0.021. 0.050. 0.177. 0.025. 0.037. 0.074. 0.191. # of parameters. 1. 2. 4. 8. 1. 2. 4. 8. 4Front R-Piano. 0.093. 0.114. 0.236. 0.377. 0.107. 0.113. 0.254. 0.402. DSK Strings. 0.037. 0.048. 0.102. 0.180. 0.060. 0.071. 0.167. 0.272. Synth1. 0.053. 0.092. 0.123. 0.222. 0.071. 0.098. 0.144. 0.315. −10. noise level [dB]. ⓒ 2013 Information Processing Society of Japan. 0. 5.

(6) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2013-MUS-100 No.5 2013/8/31. 頑健性の向上，パラメータ数への頑健性の向上，およびより多くの楽器音源を用いた評価を行う予定である．謝辞. 本研究の一部は，科研費基盤 (S) No.24220006 および科研費若手 (B) No.24700168 の支援を受けた．. 参考文献 [1]. [2]. [3]. [4]. [5]. [6]. [7]. [8]. [9]. [10]. [11]. [12]. [13]. [14]. Casey, M. A. and Westner, A.: Separation of Mixed Audio Sources by Independent Subspace Analysis, ICMC2000, pp. 154–161 (2000). Virtanen, T. and Klapuri, A.: Separation of Harmonic Sounds Using Linear Models for the Overtone Series, ICASSP2002, pp. 1757–1760 (2002). Every, M. R. and Szymanski, J. E.: A Spectral-filtering Approach to Music Signal Separation, DAFx-04, pp. 197–200 (2004). Woodruff, J., Pardo, B. and Dannenberg, R.: Remixing Stereo Music with Score-informed Source Separation, ISMIR2006, pp. 314–319 (2006). Viste, H. and Evangelista, G.: A Method for Separation of Overlapping Partials Based on Similarity of Temporal Envelopes in Multichannel Mixtures, IEEE Trans. Audio, Speech and Lang. Process., Vol. 14, No. 3, pp. 1051–1061 (2006). Su, A. W. Y. and Liang, S.-F.: A Class of Physical Modeling Recurrent Networks for Analysis/Synthesis of Plucked String Instruments, IEEE Trans. Neural Netw., Vol. 13, No. 5, pp. 1137–1148 (online), DOI: 10.1109/TNN.2002.1031945 (2002). Riionheimo, J. and Välim¨ aki, V.: Parameter Estimation of a Plucked String Synthesis Model Using a Genetic Algorithm with Perceptual Fitness Calculation, EURASIP J. Adv. Signal Process., Vol. 2003, No. 8, pp. 791–805 (online), DOI: 10.1155/S1110865703302100 (2003). Sterling, M. and Bocko, M.: Empirical Physical Modeling for Bowed String Instruments, ICASSP2010, pp. 433–436 (online), DOI: 10.1109/ICASSP.2010.5495754 (2010). Nakano, T. and Goto, M.: VocaListener: A Singing-toSinging Synthesis System Based on Iterative Parameter Estimation, SMC2009, pp. 343–348 (2009). Goto, M., Nakano, T., Kajita, S., Matsusaka, Y., Nakaoka, S. and Yokoi, K.: VocaListener and VocaWatcher: Imitating a Human Singer by Using Signal Processing, ICASSP2012, pp. 5393–5396 (online), DOI: 10.1109/ICASSP.2012.6289140 (2012). Kitahara, T.: Computational Musical Instrument Recognition and Its Application to Content-based Music Information Retrieval, PhD Thesis, Kyoto University (2007). Lu, L., Liu, D. and Zhang, H.-J.: Automatic Mood Detection and Tracking of Music Audio Signals, IEEE Trans. Audio, Speech and Lang. Process., Vol. 14, No. 1, pp. 5–18 (2006). Goto, M.: A Real-time Music-scene-analysis System: Predominant-F0 Estimation for Detecting Melody and Bass Lines in Real-world Audio Signals, Speech Communication, Vol. 43, No. 4, pp. 311–329 (2004). Vincent, E., Gribonval, R. and Févotte, C.: Performance Measurement in Blind Audio Source Separation, IEEE Trans. Audio, Speech and Lang. Process., Vol. 14, No. 4, pp. 1462–1469 (2006).. ⓒ 2013 Information Processing Society of Japan. 6.

(7)