• 検索結果がありません。

るあらゆる仮想楽器音源を収集することができれば, その中には任意の楽曲で使われている楽器音に十分に類似した音を演奏できるものがあると言える. これらの仮想楽器音源で演奏される楽器音には音源分離 [1 5] に起因する歪みやノイズが全く含まれない. したがって, 仮想楽器音源を用いた分離音や混合音に対

N/A
N/A
Protected

Academic year: 2021

シェア "るあらゆる仮想楽器音源を収集することができれば, その中には任意の楽曲で使われている楽器音に十分に類似した音を演奏できるものがあると言える. これらの仮想楽器音源で演奏される楽器音には音源分離 [1 5] に起因する歪みやノイズが全く含まれない. したがって, 仮想楽器音源を用いた分離音や混合音に対"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

楽器音に対する仮想音源のパラメータ推定

糸山 克寿

1,a)

奥乃 博

1 概要:本稿では,音源分離などに起因する雑音や歪みを含む楽器音に対して,それらを含まないクリーン な楽器音を得るための仮想楽器音源のパラメータ推定法について述べる.多数の楽器音をランダムに生成 し,楽器音からフレームベースの音響特徴量とその統計量を計算する.重回帰分析を用いて音源パラメー タと音響特徴量との関係を学習し,未知楽器音のパラメータをその関係性を用いて推定する.評価実験の 結果,推定対象のパラメータが少ない場合には学習データを十分に用意することで,実用上十分な精度で のパラメータ推定を実現した.

1.

序論

YouTube*1やニコニコ動画*2に代表される消費者生成メ

ディア(consumer generated media; CGM)の製作や編集

を支援する技術の需要は増加している.作曲や編曲,楽器 の演奏などの方法で音楽を楽しむためには専門的な知識, 経験,機器が必要であり,これまでは限られた人々のみが これを行うことができたが,様々なソフトウェアやコンテ ンツ配信基盤の充実により,多くの人がコンテンツの作成 を楽しむようになっている.CGM上のコンテンツにおけ る主流の一つは,既存楽曲の模倣やアレンジなど,コンテ ンツの再利用である.複数の楽曲を組み合わせるマッシュ アップや,自らの楽器演奏を既存楽曲に重ねるものなどが あり,基本的には既存楽曲の音響信号をそのまま用いるこ とが多い.一方で楽曲中の特定の音楽要素,例えば混合音 中のギターソロや歌声のビブラートなど,を取り出すこと ができれば,製作される作品の品質向上や幅の拡大が期待 される. 楽器音や歌声は,2つの表現方法があるといえる.1つ は音響信号そのものである.これはノンパラメトリックな 表現ともいえる.音楽CDなどで広く用いられており汎用 性が高いという利点があるが,以下のような問題点を持つ. 加工が困難. フィルタやエフェクトなどによる,後処理 的な簡単な加工のみが可能であり,録音された音源に 対して音高や楽器の種類を操作することは困難である. データ量が大きい. 高品質な音源の実時間配信には向か 1 京都大学

Kyoto University, Sakyo, Kyoto 606-8501, Japan a) itoyama(at)kuis.kyoto-u.ac.jp *1 http://www.youtube.com/ *2 http://www.nicovideo.jp/ ない. もう1つは音高,音量,ビブラート,ポルタメント,励振 波形,フィルタ,残響など,楽器の演奏法,歌い方,録音 環境などの様々な音響信号生成過程に基づく,数値的な表 現である.具体的には,musical instrument digital inter-face (MIDI)音源やvirtual studio technology instruments

(VSTi) 音源などの音源パラメータが想定される.こちら はパラメトリックな表現ともいえる.この表現は以下のよ うな利点を持つ. 加工が容易. 楽器の種類,音高,残響といった音響信号 上で操作することが難しい音楽的要素であっても,対 応するパラメータを操作すれば容易に操作可能であ る.また,ビブラートやポルタメントなどの歌い方や 演奏の特徴を抽出して他のデータに適用することで, これらの要素を別の演奏に移植することができる. データ量が小さい. 音楽音響信号に対する情報圧縮とし て有用である.さらに,高品質な機器を用いることで それだけ高品質な演奏が得られる.この特性はヤマハ のリモートライブ*3などに応用されている. 一方問題点として,音響信号からの推定が困難であること が挙げられる.これらを取得するには,一般にはMIDIピ アノなどの専用の機器が必要である. 本稿では,楽器音からMIDIやVSTiなどの仮想楽器音 源のパラメータを推定する手法について述べる.現在では 様々な仮想楽器音源が開発・公開されており,多くの楽曲 の製作に用いられている.モデルとなっている楽器は,ピ アノ・ギター・バイオリンなどのアコースティック楽器, アナログシンセサイザーやテルミンなどの電気・電子楽器 など,多岐にわたる.したがって,仮に現在公開されてい *3 http://www.y2lab.com/project/remotelive/

(2)

るあらゆる仮想楽器音源を収集することができれば,その 中には任意の楽曲で使われている楽器音に十分に類似した 音を演奏できるものがあると言える.これらの仮想楽器音 源で演奏される楽器音には音源分離[1–5]に起因する歪み やノイズが全く含まれない.したがって,仮想楽器音源を 用いた分離音や混合音に対する音源パラメータを推定でき れば,分離歪みやノイズの除去が実現できる.手法の概要 を図1に示す.提案法は2つの特徴をもつ. ( 1 )任意の音源を対象とする.すなわち,内部構造がブ ラックボックス化されており,音源パラメータと音響 信号やその特徴との関係性が未知であることを仮定 する. ( 2 )分離歪みやノイズを含む分離音を入力とし,入力音か ら歪みやノイズを取り除いた楽器音を合成可能な音源 パラメータを出力する. 提案法は以下の2ステップからなる. ( 1 )学習ステップ.学習用パラメータをランダムに生成 し,そのパラメータから楽器音を合成する.楽器音を 短時間フレームに分割してフレームごとに音響特徴抽 出し,時間差分,集約,次元圧縮を行う.音響特徴空 間でのパラメータの直交性を仮定し,音響特徴量-音源 パラメータ間の重線形回帰モデルの回帰係数を反復推 定する. ( 2 )推定ステップ.入力楽器音を学習ステップと同様にフ レーム分割し,音響特徴を抽出する.重線形回帰モデ ルを用いて,音響特徴に対する最適な音源パラメータ を計算する. 類似の研究として,楽器の物理モデルパラメータ推定が 挙げられる.多くは特定の楽器,例えばギターなどの撥弦 楽器[6, 7]やバイオリンなどの擦弦楽器 [8]に特化してい る.弦などの振動を微分方程式で陽にモデル化し,入力楽 器音に対して最適な弦の太さや張力などの物理パラメータ を推定する.もう一つの類似研究として,Vocaloid*4のパ ラメータを推定するVocaListener [9, 10]が挙げられる.歌 声の音量や音高と,Vocaloidの音源パラメータとの対応関 係に基づき,入力歌声に対して最適なパラメータを反復推 定する.これらの研究の問題点は,(1)ノイズや歪みを含 まないクリーンな楽器音や歌声を対象とすること,(2)特 定の楽器や音源を前提としており,任意の音源を対象とで きる汎用性に欠けることである.

2.

回帰モデル

2.1 楽器音源のパラメータ MIDIやVSTiなどの楽器音源は,その楽器の形態や演奏 方法に依存するものとしないものの両方を含んだ,様々なパ ラメータをもつ.各パラメータは基本的に,0–127 (MIDI) *4 http://www.vocaloid.com/

1 Overview of the proposed method.

や0–1 (VSTi)といった,ある範囲内の値として表現され る.本稿では単純のため全てのパラメータの範囲を0–1に 正規化して扱う.各パラメータは,その設定方式から大き く2つに分けられる. ( 1 )連続パラメータ.音量や残響の長さなど,上限と下限 の間で作用が連続的に変化するもの.生成される楽器 音に連続的に影響を及ぼす. ( 2 )選択パラメータ.波形生成器の種類を正弦波,三角波, ノコギリ波,矩形波などから一つを選択するなどの, 離散集合から一つを選択するもの.生成される楽器音 に離散的に影響を及ぼす.パラメータxの範囲を以下 のように分割することで実装されることが多い. • 0 ≤ x < 0.25のとき正弦波, • 0.25 ≤ x < 0.5のとき三角波, • 0.5 ≤ x < 0.75のときノコギリ波, • 0.75 ≤ x ≤ 1のとき矩形波. 本研究では音源パラメータは音響特徴に線型に影響を及ぼ すと仮定する.音響特徴と連続パラメータとの関係の表現 にこの仮定は適しているが,選択パラメータには向かない. そこで,選択パラメータを線型モデルに適したものに以下 のように拡張・圧縮する. パラメータ拡張 パラメータの次元を選択対象である集合 の大きさに増やす.それぞれの要素を以下のような 1-of-K表現で表す. 正弦波のとき(1, 0, 0, 0) 三角波のとき(0, 1, 0, 0) ノコギリ波のとき(0, 0, 1, 0) 矩形波のとき(0, 0, 0, 1). パラメータ圧縮 拡張されたパラメータの中での最大値に 対応する,元の集合中の要素を用いる.上記の例を用 いると,(1, 0, 0, 0)は正弦波,(0.3, 0.5, 0.8, 0.2)はノコ ギリ波となる. 2.2 回帰モデル学習 重線形回帰モデルで音源パラメータと音響特徴との関係 を学習する.学習に用いるn個の楽器音から抽出された 音響特徴をx1, . . . , xn,それぞれに対応する音源パラメー

(3)

タをy1, . . . , ynとする.回帰係数行列Aおよびa0を用い て,回帰モデルは以下で表される. y = a0+Ax (1) 最適な回帰係数Aおよびa0は,以下の目的関数の最小化 で得る. n  i=1 yi− a0− Axi2+λ  i=j ai· aj (2) xx · yは,それぞれベクトルのL2ノルムと内積を 表す.aiAの各行ベクトルである.目的関数の第2項 は,定数λのもとでAの各行の直交性を得るためのもので ある. この目的関数を各行ベクトルに関して解くと,以下を 得る. akm =  nynkxnm−m=makmnxnmxnm  nx2nm+λk=kakm (3) a0m=  nxnm−  m=ma0m  nxnmxnm  nx2nm (4) 各行ベクトルにこれを反復的に適用することで,目的関数 を最小化する係数行列を得る.

3.

音響特徴抽出

音響特徴の抽出は4ステップからなる. ( 1 )フレームごとに低次の特徴を抽出する. ( 2 )隣接する数フレームでの特徴量の変化量を求める. ( 3 )特徴量ごとに値を集約し固定長のベクトルを得る. ( 4 )主成分分析を用いて次元を圧縮する. 3.1 Low-level Features 主に楽器音の音色を表現する音響特徴を,楽器同定およ び音楽ムード推定の従来研究[11, 12]を参考に設計した. 楽器音から短時間フレームを切り出し,各フレームをフー リエ変換して振幅スペクトルを得る.信号x1, . . . , xnとス ペクトルy1, . . . , ymから,合計32次元の以下の特徴を抽 出する. 信号の二乗平均平方根 信号全体のエネルギー. n i=1x2i n エネルギー分布の偏り 各周波数の平均エネルギーよりも 小さいエネルギーを持つ周波数の割合. #{yi| yi< ¯y} m s.t. y =¯ m i=1yi m ゼロ交差数 信号が軸と交差する回数. #{xi| xixi+1< 0} スペクトル重心 振幅スペクトルの周波数重心. m i=1yifi m fiはスペクトルyiに対応する周波数. スペクトル幅 スペクトル重心を中心とした,振幅スペク トルの重み付き2乗誤差. m i=1yi( ¯f − fi)2 m ¯ fはスペクトル重心. スペクトルロールオフ 振幅スペクトルの95パーセンタ イル点. スペクトルフラックス 振幅スペクトルの隣接フレーム間 の差のL2ノルム. スペクトルピーク 振幅スペクトルの,振幅の大きい5%の 周波数における平均振幅. スペクトルバレー 振幅スペクトルの,振幅の小さい5%の 周波数における平均振幅. スペクトルコントラスト スペクトルピークとスペクトル バレーの差. メル周波数ケプストラム係数 (MFCC) 信号全体の音色 を表現する.本研究では12次元のMFCCを用いた. 高調波成分の振幅 調波構造成分の音色を表現する.本研 究では10次までの高調波成分を用いた.この特徴は PreFEst [13]を用いて抽出する. フレームごとに抽出された低次の音響特徴は,楽器音の 瞬間的な特徴を表現するものであり,時間的な変動を表 さない.特徴の時間変動成分をとらえるため,特徴に対し て3種類の時間微分を計算する.隣接フレームの差分,近 傍50msでの近似直線の傾き,および近傍100msでの近 似直線の傾き.さらに隣接フレームの差分からは,2次の 時間微分も同様に計算する.結果として,各フレームから 32× (1 + 3 + 3) = 224次元の特徴ベクトルが得られる. 3.2 集約と次元圧縮 各楽器音の長さはパラメータによって様々であるため, 各楽器音からフレームごとに抽出された特徴ベクトルの数 は楽器音の長さに応じて異なる.回帰モデルを用いて音源 パラメータと特徴量の関係を学習するためには,各楽器音 から得られる特徴ベクトルの長さは全て等しい必要があ る.このステップでは,フレームごとに抽出された特徴量 の時系列を様々な統計量へと集約することで,あらゆる長 さの楽器音から画一の次元の特徴ベクトルを得る. 25の統計量を特徴量の要素ごとに計算する. 総和,平均,分散,歪度,尖度 これらの統計量は特徴量 の分布の性質を表現する. 最小値,最大値,中央値,10/90パーセンタイル値 こ れらの統計量は特徴量の分布の性質を表現する.中央

(4)

2 19 temporal subregions. 値と10/90パーセンタイル値は平均や最大値,最小値 よりも外れ値の影響を受けにくい.さらに,これらの 値の位置(時刻)も計算する. 離散コサイン変換係数 この統計量は,特徴量の楽器音全 体にわたる時間変化を表現する.本研究では10次ま での係数を用いた. 振幅エンベロープのADSR(アタック,ディケイ,サス テイン,リリース)に代表されるように,楽器音は異なる 特徴をもついくつかの区間の組み合わせからなるものがあ る.このような区間的な特徴を捉えるため,音響信号に対 して3つの区間を設定する.(1)音響信号全体,(2)励振区 間(MIDIノートオンからノートオフまで),(3)残響区間 (MIDIノートオフから無音まで).さらに,これらの区間 に対してさらに細かい部分区間を設定する.(a) 開始から 終了まで,(b)開始から区間の{20, 40, 60, 80}パーセント 点まで,(c)区間の{20, 40, 60, 80}パーセント点から終了 まで,(d) 区間開始から{200, 400, 600, 800, 1000}msの 間,(e)区間終了までの{200, 400, 600, 800, 1000}msの間 (図2). 集約ステップまでで,各楽器音から224× 7 × 3 × 19 = 319200次元の特徴ベクトルが得られる.このままの特徴 ベクトルを用いても回帰モデルを学習することは可能であ るが,特徴ベクトルの冗長性とモデル学習に要する計算コ ストを削減するため,主成分分析で特徴量の次元を圧縮す る.本研究では累積寄与率の閾値を0.99とした.ただし モデルパラメータの推定のためには,特徴ベクトルの次元 は音源パラメータの次元よりも大きくなければならないこ とに注意する.

4.

評価実験

提案法を評価するため,2つの実験を行った.実験1は, ランダムに生成するパラメータの数によって,パラメータ 推定精度がどのように変化するか調査する.実験2は,提 案法の雑音への頑健性を調査する.多数の音源パラメータ をランダムに生成し,楽器音合成,特徴量抽出,回帰モデ ル学習を行う.別に用意したテスト用音源パラメータから 楽器音合成と特徴量抽出を行い,その特徴量から回帰モデ ルを用いて音源パラメータを再推定する.実験2では楽器 音生成の際に雑音を付与し,雑音の含まれた音響特徴から 元の(すなわち,雑音を含まない)音源パラメータを推定 する.推定するパラメータの数は1, 2, 4, 8とした.この 数のパラメータをランダムに選択し,さらに実験1では10, 100, 1000の,実験2では1000のパラメータをランダムに 生成する.パラメータ選択から生成までのプロセスは10 回繰り返し,特定のパラメータによって評価が偏ることを 避ける.ランダム生成したパラメータを10グループに分 け,交差検定を行う.なお,楽器音の音高はMIDIノート ナンバー69 (440Hz),音長は1秒に固定する. 推定された音源パラメータと元の音源パラメータとの誤 差の大きさで評価する.誤差eは,連続パラメータと選択 パラメータでそれぞれ以下のように定義する. e = パラメータ数ec+es , ec=  i |pest,i− pref,i| es= i ⎧ ⎨ ⎩ 0 推定されたパラメータが正しい場合 1 推定されたパラメータが正しくない場合 pref,ipest,iはそれぞれランダム生成されたパラメータと 回帰モデルから推定されたパラメータである. 4.1 音源 実験1では表1に示す音源を用いた.実験2では,表1に

用いた音源のうち,4Front R-Piano, DSK Strings, Synth1

の3音源を用いた. 4.2 結果 実験1の結果を表 2に,実験2の結果を表 3に示す. 実験1の結果より,推定すべきパラメータの数を増やすと 推定誤差が増加し,学習データの数を増やすと推定誤差が 減少していることが分かる.また,Spicy Guitarなど,他 よりも大幅に推定誤差が大きい音源があることが分かる. この原因は今後調査を進める必要がある.実験2の結果よ り,パラメータ数を増やすと推定誤差が増加し,また雑音 の音量が増加すると推定誤差も増加することが分かる. 多くのMIDI音源は0-127の7bit整数でパラメータを制 御する.VSTiもこれに準ずると仮定すると,1.0 / 128 = 0.008よりも小さい誤差はゼロと見なしてもよいといえる. パラメータが音響信号や音響特徴に与える影響はパラメー タによって異なるので,今後はBSS Eval [14]などで音響 的な推定誤差を測定することも必要である.

5.

結論

本稿では,VSTiなどの仮想楽器音源のパラメータを推 定する手法について述べた.音源パラメータと音響特徴の 関係を重線形回帰モデルで学習する.評価実験では,提案 法は一部の条件では良い精度でパラメータを推定したが, 雑音の増加と推定すべきパラメータ数の増加に応じて推定 精度が劣化することが明らかになった.今後は,雑音への

(5)

1 実験に用いた音源

名前 楽器 パラメータ数 URL

4Front R-Piano electric piano 13 http://www.yohng.com/software/rpiano.html DSK AkoustiK KeyZ pianoforte 18 http://www.dskmusic.com/dsk-akoustik-keyz/

DSK ChoirZ choir/pad 81 http://www.dskmusic.com/dsk-choirz/

DSK Darkness Theory PCM synthesizer 61 http://www.dskmusic.com/dsk-darkness-theory/ DSK Electrik GuitarZ electric guitar 35 http://www.dskmusic.com/dsk-electrik-guitarz/

DSK Elektrik Keys electric keyboard 36 http://www.dskmusic.com/dsk-elektrik-keys/ DSK RhodeZ rhodes 23 http://www.dskmusic.com/dsk-rhodez/ DSK SaxophoneZ saxophone 19 http://www.dskmusic.com/dsk-saxophonez/

DSK Strings strings 41 http://www.dskmusic.com/dsk-strings/

ファミシンセII 8bit 16 http://www.geocities.jp/mu station/vstlabo/famisynth.html neon subtractive synthesizer 14 http://japan.steinberg.net/jp/support

/unsupported products/vst classics vol 2.html Phat Bass bass guitar 9 http://www.dreamvortex.co.uk/instruments/ Spicy Guitar guitar 22 http://www.spicyguitar.com/

Synth1 subtractive synthesizer 99 http://www.geocities.jp/daichi1969/softsynth/ Transcender SE subtractive synthesizer 20 http://www.dreamvortex.co.uk/instruments/

2 実験1の結果 # of parameters 1 2 4 8 # of training sounds 9 90 900 9 90 900 9 90 900 9 90 900 4Front R-Piano 0.047 0.008 0.005 0.149 0.017 0.012 0.185 0.062 0.042 0.251 0.131 0.098 DSK AkoustiK KeyZ 0.102 0.011 0.005 0.196 0.076 0.061 0.282 0.107 0.078 0.291 0.194 0.170 DSK ChoirZ 0.124 0.022 0.008 0.184 0.069 0.024 0.306 0.141 0.107 0.353 0.218 0.200 DSK Darkness Theory 0.153 0.091 0.077 0.248 0.035 0.011 0.239 0.152 0.106 0.266 0.200 0.192 DSK Electrik GuitarZ 0.019 0.004 0.002 0.101 0.015 0.008 0.216 0.068 0.042 0.328 0.188 0.142 DSK Elektrik Keys 0.177 0.021 0.010 0.256 0.116 0.045 0.208 0.151 0.103 0.263 0.200 0.171 DSK RhodeZ 0.081 0.009 0.004 0.238 0.065 0.030 0.260 0.152 0.093 0.334 0.200 0.170 DSK SaxophoneZ 0.089 0.006 0.003 0.305 0.113 0.104 0.222 0.091 0.076 0.247 0.173 0.149 DSK Strings 0.100 0.028 0.014 0.162 0.048 0.034 0.195 0.085 0.044 0.249 0.172 0.128 ファミシンセII 0.250 0.150 0.037 0.250 0.125 0.125 0.250 0.250 0.250 0.375 0.333 0.250 neon 0.071 0.007 0.004 0.112 0.021 0.010 0.203 0.067 0.036 0.262 0.142 0.114 Phat Bass 0.102 0.010 0.006 0.106 0.022 0.010 0.174 0.057 0.032 0.257 0.155 0.107 Spicy Guitar 0.246 0.244 0.243 0.273 0.210 0.244 0.239 0.173 0.139 0.272 0.228 0.209 Synth1 0.191 0.059 0.031 0.200 0.233 0.250 0.168 0.086 0.057 0.253 0.156 0.131 Transcender SE 0.039 0.006 0.002 0.086 0.012 0.005 0.165 0.045 0.017 0.255 0.105 0.061 Average 0.119 0.045 0.030 0.191 0.078 0.065 0.221 0.112 0.081 0.284 0.186 0.153 表3 実験2の結果 noise level [dB] −∞ −20 # of parameters 1 2 4 8 1 2 4 8 4Front R-Piano 0.047 0.091 0.183 0.256 0.065 0.099 0.172 0.354 DSK Strings 0.015 0.025 0.034 0.076 0.019 0.029 0.061 0.124 Synth1 0.018 0.021 0.050 0.177 0.025 0.037 0.074 0.191 noise level [dB] −10 0 # of parameters 1 2 4 8 1 2 4 8 4Front R-Piano 0.093 0.114 0.236 0.377 0.107 0.113 0.254 0.402 DSK Strings 0.037 0.048 0.102 0.180 0.060 0.071 0.167 0.272 Synth1 0.053 0.092 0.123 0.222 0.071 0.098 0.144 0.315

(6)

頑健性の向上,パラメータ数への頑健性の向上,およびよ り多くの楽器音源を用いた評価を行う予定である. 謝辞 本研究の一部は,科研費 基盤(S) No.24220006およ

び科研費 若手(B) No.24700168の支援を受けた.

参考文献

[1] Casey, M. A. and Westner, A.: Separation of Mixed Audio Sources by Independent Subspace Analysis, ICMC2000, pp. 154–161 (2000).

[2] Virtanen, T. and Klapuri, A.: Separation of Harmonic Sounds Using Linear Models for the Overtone Series, ICASSP2002, pp. 1757–1760 (2002).

[3] Every, M. R. and Szymanski, J. E.: A Spectral-filtering Approach to Music Signal Separation, DAFx-04, pp. 197–200 (2004).

[4] Woodruff, J., Pardo, B. and Dannenberg, R.: Remixing Stereo Music with Score-informed Source Separation, IS-MIR2006, pp. 314–319 (2006).

[5] Viste, H. and Evangelista, G.: A Method for Separation of Overlapping Partials Based on Similarity of Tempo-ral Envelopes in Multichannel Mixtures, IEEE Trans. Audio, Speech and Lang. Process., Vol. 14, No. 3, pp. 1051–1061 (2006).

[6] Su, A. W. Y. and Liang, S.-F.: A Class of Physi-cal Modeling Recurrent Networks for Analysis/Synthesis of Plucked String Instruments, IEEE Trans. Neural Netw., Vol. 13, No. 5, pp. 1137–1148 (online), DOI: 10.1109/TNN.2002.1031945 (2002).

[7] Riionheimo, J. and V¨alim¨aki, V.: Parameter Estimation of a Plucked String Synthesis Model Using a Genetic Al-gorithm with Perceptual Fitness Calculation, EURASIP J. Adv. Signal Process., Vol. 2003, No. 8, pp. 791–805 (online), DOI: 10.1155/S1110865703302100 (2003). [8] Sterling, M. and Bocko, M.: Empirical Physical

Mod-eling for Bowed String Instruments, ICASSP2010, pp. 433–436 (online), DOI: 10.1109/ICASSP.2010.5495754 (2010).

[9] Nakano, T. and Goto, M.: VocaListener: A Singing-to-Singing Synthesis System Based on Iterative Parameter Estimation, SMC2009, pp. 343–348 (2009).

[10] Goto, M., Nakano, T., Kajita, S., Matsusaka, Y., Nakaoka, S. and Yokoi, K.: VocaListener and Vo-caWatcher: Imitating a Human Singer by Using Signal Processing, ICASSP2012, pp. 5393–5396 (online), DOI: 10.1109/ICASSP.2012.6289140 (2012).

[11] Kitahara, T.: Computational Musical Instrument Recog-nition and Its Application to Content-based Music Infor-mation Retrieval, PhD Thesis, Kyoto University (2007). [12] Lu, L., Liu, D. and Zhang, H.-J.: Automatic Mood Detection and Tracking of Music Audio Signals, IEEE Trans. Audio, Speech and Lang. Process., Vol. 14, No. 1, pp. 5–18 (2006).

[13] Goto, M.: A Real-time Music-scene-analysis System: Predominant-F0 Estimation for Detecting Melody and Bass Lines in Real-world Audio Signals, Speech Com-munication, Vol. 43, No. 4, pp. 311–329 (2004). [14] Vincent, E., Gribonval, R. and F´evotte, C.: Performance

Measurement in Blind Audio Source Separation, IEEE Trans. Audio, Speech and Lang. Process., Vol. 14, No. 4, pp. 1462–1469 (2006).

図 1 Overview of the proposed method.
図 2 19 temporal subregions. 値と 10/90 パーセンタイル値は平均や最大値,最小値 よりも外れ値の影響を受けにくい.さらに,これらの 値の位置(時刻)も計算する. 離散コサイン変換係数 この統計量は,特徴量の楽器音全 体にわたる時間変化を表現する.本研究では 10 次ま での係数を用いた. 振幅エンベロープの ADSR (アタック,ディケイ,サス テイン,リリース)に代表されるように,楽器音は異なる 特徴をもついくつかの区間の組み合わせからなるものがあ る.このような区間的な特
表 2 実験 1 の結果 # of parameters 1 2 4 8 # of training sounds 9 90 900 9 90 900 9 90 900 9 90 900 4Front R-Piano 0.047 0.008 0.005 0.149 0.017 0.012 0.185 0.062 0.042 0.251 0.131 0.098 DSK AkoustiK KeyZ 0.102 0.011 0.005 0.196 0.076 0.061 0.282 0.107 0.078 0.2

参照

関連したドキュメント

 音楽は古くから親しまれ,私たちの生活に密着したも

5 On-axis sound pressure distribution compared by two different element diameters where the number of elements is fixed at 19... 4・2 素子間隔に関する検討 径の異なる

歌雄は、 等曲を国民に普及させるため、 1908年にヴァイオリン合奏用の 箪曲五線譜を刊行し、 自らが役員を務める「当道音楽会」において、

また適切な音量で音が聞 こえる音響設備を常設設 備として備えている なお、常設設備の効果が適 切に得られない場合、クラ

「旅と音楽の融を J をテーマに、音旅演出家として THE ROYAL EXPRESS の旅の魅力をプ□デュース 。THE ROYAL

では、シェイク奏法(手首を細やかに動かす)を音

「1.地域の音楽家・音楽団体ネットワークの運用」については、公式 LINE 等 SNS

平成 24