• 検索結果がありません。

修修修修 士士士士 論論論論 文文文文 概概概概 要要要要 書書書書 2011

N/A
N/A
Protected

Academic year: 2022

シェア "修修修修 士士士士 論論論論 文文文文 概概概概 要要要要 書書書書 2011"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)修 士 論 文 概 要 書 2011 年 1 月提出 専攻名 (専門分野). 研究指導名 研 究 題 目. 情報理工学. 氏 名. 画像情報研究. 学籍番号. 指 導. 植村あい子 CD. 5109B009-9. 甲藤 二郎. 印. 教 員. Doubly Nested Circle of Fifths を用いた和音認識. 1. はじめに 音楽は和音の遷移を中心に捉えることも多く,和音 は音楽の構成を決める重要な要素である.このこと から和音認識を目的とする研究は多く行われている. そこで本研究は,自動採譜や作曲支援・音楽情報検 索などへの応用を目的として,実音源からの和音認 識を試みる. 2. 和音認識に関する従来研究 Fujishima らの研究[1]では,クロマベクトルを提案 し,和音テンプレートとクロマベクトルのユークリ ッド距離の最小化で和音名を求めた.特徴量にクロ マベクトル,和声モデルに HMM を用いた研究では Sheh らのもの[2]があり,彼らは音楽信号と和声進 行から EM アルゴリズムを用いて学習を行った.ま た,[3]では HMM の初期値に音楽的知識をモデルと して取り込み,認識率を改善した.そして,チュー ニングしたクロマベクトルに対し,テンプレートベ ースで和音名を求めるものも見られる[4]. 一方,本研究室においては,音楽的知識に特徴ベク トルを写像する試みとして,Circle of Fifths の調性 の類似に着目し,写像によって得られた特徴量を用 いて調性の推定を行っている[5]. 3. 提案手法 本研究は[5]の手法を踏襲して,実音源 DNCOF ベク トルの生成と和音認識までの手順を提案する.この 流れを以下に示す.. 3.1. クロマベクトル クロマベクトルは,周波数パワースペクトルを特定 のピッチクラスに振り分けたものである. ここで,各フレームに切り出された信号に対して定 Q 変換[6]を行う.得られたスペクトルのパワーのオ クターブを吸収して,36bin クロマベクトルを求め る.ここでスペクトルのパワーが他の bin にも分配 されてしまい,明瞭なクロマベクトルが得られない ことを避けるため,Harte ら[4]の手法を用いてチュ ーニングを行い 12bin クロマベクトル Chroma(t) を得た. 3.2. コードベクトル コードベクトルは major と minor の 24 種の和音が どのような尤度を持つかを表す 24 次元のベクトル である.コードベクトルの各要素は,12bin クロマ ベクトル Chroma(t)を入力とし,その重み付け和と する.和音の構成音のうち,各音の重要度は異なり, この重要度を反映させる.この重要度は[7]の和音テ ンプレートを参考にした. 3.3. Doubly Nested Circle of Fifths Doubly Nested Circle of Fifths[3]は三和音の関係 を示している.これは,隣り合う三和音は似ており, 対角上の三和音は似ていないという特徴がある.実 際には,隣り合った三和音は 3 音中 1 音違うという 関係にある.. 図 2. 図 1 DNCOF ベクトル生成の流れ. 処理は 11250Hz にダウンサンプリングした wav 信 号を,複数のフレームに切り出して行う.各フレー ムは 8192 個のサンプルから構成され,1つのフレ ームに対して1つの DNCOF ベクトルが求められ る.. Doubly Nested Circle of Fifths. ここで,3.2 節で得られたコードベクトルを図 2 の 平面に射影する.この手順は次の通りである. (1) DNCOF を円に見立て,major と minor それぞ れ各和音の方向に向かうベクトルを用意 (2) (1)にある調における和音の重みをかける (3) コードベクトルの要素倍する (4) 成分が閾値より大きいものだけ残す (5) major と minor それぞれで求まったベクトルの 大きさを比較し大きい方を DNCOF ベクトルとする.

(2) 3.4. 和音認識 フレームごとに DNCOF ベクトルを求めていくと, 楽曲全体にわたり図 3 のような DNCOF ベクトルの 時系列が得られる.図 3 では縦軸が和音の種類,横 軸はフレーム番号を示している.プロットの濃さは 和音の純度を示しており,ある和音の方向にコード ベクトルの値が偏るほど純度が高くなる. これを和音の遷移情報とみなし,HMM を用いて和 音認識を試みる. HMM の各要素は以下のように定める. (1)状態 major,minor の和音をのみを扱う(全 24 状態) (2)遷移確率 正解データは[8]を使用し,学習を行った.なお,こ のラベルには major, minor 以外の和音も含まれるの で,根音と第 3 音により major と minor に分けた. (3)出力確率 ある和音のとき,そのプロットが出現する確率を定 める.信号は DNCOF 時系列の 1 プロットつまり、 DNCOF ベクトルの座標となる.ここでは座標の偏 角と von Mises 分布の確率密度関数を用いる. (4)出力信号系列 ここでは DNCOF ベクトルの時系列である. (5)状態系列 ここでは和音の系列を表している.出力信号系列か ら状態系列を推定することが和音認識の目的となる. そして,最尤な和音遷移の決定にはビタビアルゴリ ズムを用いた. 3.5. DNCOF 情報応用 DNCOF ベクトルによる認識で求まった和音情報を クロマベクトルの認識への応用を試みる.応用方法 は次の通りである. (1) DNCOF ベクトルから3つの和音候補を求める (2) 1 の候補とクロマベクトルで求まった和音正解候 補を比較し,1の候補に近くなるよう順位を入れ替 える DNCOF ベクトルでは, DNCOF 順で major と minor が離れているため,クロマベクトルでの誤認識を防 げると期待できる. 3.6. 和音認識結果 フレームごとに DNCOF ベクトルを求めていくと, 楽曲全体にわたり DNCOF ベクトルの時系列が得ら れる.これを和音の遷移情報とみなし,HMM を用 いて和音認識を試みた. 今回は各楽曲の調は既知とし,正解データは[8]を利 用した.データセットには[8]で公開されている 179 曲 を 用 い て 学 習 し , ア ル バ ム (Please Please Me(CD1:14 曲), Beatles For Sale(CD2:14 曲)の 28 曲を認識した.表 1 に CD ごと,全体のの認識率の 平均を示す.. 表 1:和音認識結果 CD1 CD2 28 曲全体 DNCOF ベクトル 35.3% 38.5% 36.9% クロマベクトル 41.3% 47.8% 44.5% DNCOF+クロマ 42.3% 48.1% 45.2% 今回は比較手法として,MIREX2009 で D. Ellis が コード提供しているクロマベクトル+HMM による 和音認識手法[9]を取り上げた.ただし,[9]に挙げら れている beat-synchronous chroma ではなく,提案方 式と同じクロマベクトルを使用した. DNCOF ベクトル自体の精度はクロマベクトルより も低くなったが,DNCOF 情報を応用することによ って,クロマベクトルの認識率が上がった.次に, それぞれの結果のプロットを示す. ○ ― ― ― ―. DNCOFプロット DNCOF chroma DNCOF+chroma 正解. 図3 ”Words of Love”の 350~450 フレーム目の結果. 赤色で囲まれた区間では,クロマベクトルによる認 識では Dm であるが,DNCOF 情報を用いたクロマ ベクトルでの認識では,D になっており,major と minor の一音違いの誤認識が改善されている.また, DNCOF プロットは正解データに近い位置にあるこ とが確認できた. 4. おわりに 本研究では,DNCOF ベクトルは和音情報として有 効であることを確認した.今後は DNCOF ベクトル 自身の精度を上げるとともに,この和音情報を和音 認識や応用を検討していく. 参考文献 1) T. Fujishima, “Real-time chord recognition of musical sound: A system using common lisp music,”Proc. ICMC, pp. 464-467, Oct.1999. 2) A. Sheh and D. P. Ellis, “Chord segmentation and recognition using EM-trained hidden markov models,”Proc. ISMIR, pp. 183-189, Oct.2003. 3) J. P. Bello and J. Pickens, “A robust mid-level representation for harmonic content in music signal,”Proc. ISMIR, pp. 304– 311, Sep.2005. 4) C. Harte and M. Sandler,“Automatic chord identification using a quantised chromagram,” in Proc. Audio Eng. Soc.,Spain,May.2005. 5) T.Inoshita and J. Katto, “Key Estimation using Circle of Fifths,” 15th International Multimedia Modeling Conference, Jan.2009. 6) Judith C. Brown and MillerS. Puckette,“An efficient algorithm for the calculation of a constant Q transform,” J. Acoust. Soc. Am.,92(5), pp.2698–2701,1992. 7) Oudre. et.al,“Template-Based Chord Recognition : Influence of the Chord Types ,”Proc. ISMIR,pp. 153– 158,Oct.2009. 8) sophonics : http://isophonics.net/ 9) Supervised Chord Recognition for Music Audio in Matlab : http://labrosa.ee.columbia.edu/ projects/chords/.

(3)

参照

関連したドキュメント

そこで , 本研究では機械学習の 1 つである Support Vector Machine(SVM) を用いた動的な チューニングを行う機能を追加した c-satws を作成した.. SVM

ハイパー グラフは , 数学におけるグラフを一般化 ( 拡張 ) したもので あり , エッジ ( ハイパーエッジ ) が任意個数のノードを連結

非暗号化状態の SIP と RTP 、既存の音声暗号化シ ステム、提案手法、それぞれの通信確立手法を比較 評価する。RTP

通信データサイズによる MN の分類のために,閾値 τ を用いる.閾値 τ は単位を [KB] とし,予め MR に設 定しておく.通信データサイズが閾値 τ 以上の MN を 上位 MAP ,閾値 τ 以下の MN

力指向配置とは無向グラフ描画法の一つで,ノードを 質量 0 のリング,エッジをばねという物理モデルに置き

各 3D 映画に対して毎秒 1 フレームで,フレーム 毎に含まれる視差角を算出した.視差分析の結果で は,各フレームの 90%ile , 50%ile , 10%ile

どがあくまで IP マルチキャストの拡張・発展形といった のものが多い。ネットワーク層で動作する IP

バッファ長を増やすことで回避できるブロックの発生回数 が最も多いバッファに対してバッファ長を 1-flit だけ増や