• 検索結果がありません。

カバーソング同定法と音声指紋を組み合わせることによるマッシュアップを考慮したメドレー楽曲における楽曲断片検出法の提案

N/A
N/A
Protected

Academic year: 2021

シェア "カバーソング同定法と音声指紋を組み合わせることによるマッシュアップを考慮したメドレー楽曲における楽曲断片検出法の提案"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)Vol.2019-MUS-122 No.12 Vol.2019-EC-51 No.12 2019/2/22. 情報処理学会研究報告 IPSJ SIG Technical Report. カバーソング同定法と音声指紋を組み合わせることによる マッシュアップを考慮したメドレー楽曲における 楽曲断片検出法の提案 佐藤 僚太1,a). 竹川 佳成2,b). 平田 圭二2,c). 概要:本稿では,メドレー楽曲におけるマッシュアップを考慮した楽曲断片検出法について述べる.メド レー楽曲とは,複数楽曲の一部分の区間を接続することで作られる新たな形式の楽曲のことを指す.メド レー楽曲では原曲をテンポやキー,音の追加や削除などのアレンジやマッシュアップを行うことで,一曲 であるかのように楽曲断片同士の接続を行っている.我々は,メドレー楽曲において何の曲がどこからど こまで登場しているか同定するため,Wang の音声指紋とカバーソング同定法(Cover Song Identification, CSI)である Serr` a らの相互再帰定量化 (Cross Recurrence Quantification, CRQ) を組み合わせた楽曲断 片検出法の提案する.メドレー楽曲とその構成楽曲から音声指紋を抽出し,2 曲の類似度行列である行列 CR とカバーソングを定量的に評価するための累積値行列 Q を作成し,開始地点を同定することで楽曲断 片の検出っを試みる.実験結果から,やや低い精度ではあるものの,パラメータの検討によって本手法の 楽曲断片検出の精度が向上することが示唆された.. A Proposal of Musical Segment Detection Method for Mashup Medley Using Cover Song Identification and Audio Fingerprinting Ryota Sato1,a). Yoshinari Takegawa2,b). 1. はじめに 聴き手がメドレー楽曲を聴取することによる能動的音楽 鑑賞 [4] がされている.メドレー楽曲とは,編曲された複 数の楽曲断片から作られる新たな形式の楽曲を指す.メド レー楽曲では音楽的展開が考慮されているため,ひとつの. Keiji Hirata2,c). 本研究では,次のような特徴を持ったメドレー楽曲の音 響情報を対象としている.. • メドレー楽曲内の楽曲断片は次のようなカバー曲的な 編曲がされている. – Digital Audio Workstation (DAW) 等によって編曲 されている. 楽曲の聴取であるかのように複数楽曲の聴取が行われる.. – キーやテンポが変更されている(図 2). ひとつの楽曲を聴取するようにメドレー楽曲を聴取するこ. – 主旋律に対して音の追加や削除などが行われている. とで,未知楽曲を知る機会を与え,未知楽曲を単体で聴取 する衝動を促す. 1. 2. a) b) c). 公立はこだて未来大学大学院 Graduate School of Future University Hakodate 公立はこだて未来大学 Future University Hakodate [email protected] [email protected] [email protected]. c 2019 Information Processing Society of Japan ⃝. (図 3). • 歌声が楽器音に置き換えられている • 2 曲以上の楽曲が同時に進行する(マッシュアップ) 区間がある(図 4). • メドレー楽曲の曲長やメドレー楽曲内で使用する楽曲 数において制限はないが,10 分以上で 50 曲以上のも のが多い.. 1.

(2) Vol.2019-MUS-122 No.12 Vol.2019-EC-51 No.12 2019/2/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 境界が構成楽曲の構成とならないため,楽曲の変わり目を 検出することが困難である.また,マッシュアップと同様 に複数楽曲を一曲のように聴取する手段である DJ MIX を 対象にした楽曲認識の研究がいくつかあるが [3][6][8],メ 図 1 原曲に含まれる旋律の例. ロディが同時刻に 2 つ以上存在して干渉し合うような楽曲 を対象にした研究は少ない.我々が以前提案したメドレー 楽曲を対象にした楽曲断片検出手法 [10] は,「メドレー楽 曲中では複数の楽曲が同じ時刻において存在しない」とい う制約を設けたが,実世界で存在するメドレー楽曲を対象. 図 2 図 1 のキーを 2 つ下げ,テンポを早めた変更を加えた例. とするためには,マッシュアップを考慮する必要がある. そのため,マッシュアップがされているメドレー楽曲から の楽曲断片検出を実現するために,以下の要件を満たした 手法を用いることが望ましい.. • 同時刻に 2 つ以上存在するメロディの成分を独立に扱 図 3 図 1 の主旋律に対して音の追加や削除を行った例. うことが可能. • 原曲と編曲された楽曲のマッチングが可能 • メドレー楽曲の時刻上で楽曲断片が出現している開始 時刻と終了時刻が同定可能 本論文ではこれらの要件を満たす楽曲断片検出システム 図 4 図 1 を別の楽曲とマッシュアップを行った例. の構築に向け,我々が以前提案した楽曲断片検出法を改良 し,Serr` a らの相互再帰定量化 (Cross Recurrence Quan-. メドレー楽曲の楽曲の変わり目は,音楽的展開が考慮さ. tification, CRQ) によるカバーソング同定法 (Cover Song. れているため,楽曲が変わったことに気づかないような自. Identification, CSI)[7] と,Wang の音声指紋を用いたアル. 然なものであることが多く,聴き手が楽曲断片を認識する. ゴリズム [9] を組み合わせた楽曲断片検出手法の提案を行. のが困難である.また,マッシュアップされている区間に. う.CSI タスクの手法は原曲とそれを編曲した楽曲との. おいても,2 曲以上の楽曲が同時に発音しているため,楽. マッチングを目的としているため,編曲による影響を考慮. 曲断片を認識するのが難しいという問題がある.特に,楽. した楽曲断片の検出を行うことができる.CRQ を用いた. 曲断片が聴き手の未知楽曲である時の検出が困難であり,. 手法では,メロディ抽出の精度に依存することや,メロディ. 第三者の存在無しにはメドレー楽曲を構成している全ての. 以外の要素がマッチングに影響する可能性がある.音声指. 楽曲を網羅することが難しい.メドレー楽曲の音響情報か. 紋は,メロディの成分の強い部分を独立に扱うことができ. ら自動で楽曲断片を検出し,メドレー楽曲のどの部分にど. るため,同じ時刻に 2 つ以上のメロディが存在する場合に. の楽曲が使われているかを知ることが可能なシステムが存. それぞれのメロディを独立に扱うことで,マッシュアップ. 在すれば,聴き手が未知である楽曲を第三者に頼ること無. を考慮したマッチングが期待される.. く知ることができる.メドレー楽曲内で使用されている楽 曲を,第三者に頼ることなく未知楽曲も含めて全て認識で きることで,聴き手の未知楽曲に対する能動的音楽鑑賞を より促すことができる.. 2. 関連研究 本章では,提案システムで用いる CRQ 手法と音声指紋 アルゴリズムの 2 つの先行研究について解説する.. 本論文では,聴き手がメドレー楽曲を構成するの全ての 楽曲を認識可能なシステムを構築するため,マッシュアッ. 2.1 音声指紋. プされているメドレー楽曲から楽曲断片を検出すること. 本研究では,同時刻に 2 つ以上存在するメロディを独立. を目指す.聴き手が楽曲断片を検出するプロセスでは,楽. に扱うため,音声指紋を特徴量としてシステムを構築して. 曲認識と,楽曲のどの部分がメドレー楽曲のどこからどこ. いる.音声指紋は,街中で流れている楽曲をスマートフォ. まで登場しているかという区間検出が必要となる.しかし. ンなどに通して楽曲認識することを目的とした手法である.. メドレー楽曲では,ひとつの楽曲であるかのような音楽的. Wang はこれを実現するために,高速かつノイズや音質劣. 展開をするために,楽曲断片同士を連結する際に前述のよ. 化に頑健な特徴量を用いることが必要だとしている [9].音. うなカバー曲的な編曲がされている.そのため,Foote の. 声指紋では,これを満たす特徴量としてスペクトログラム. Self-Similarity Matrix[2] や Dannenberg ら [1] の楽曲構造. 上でエネルギーの強いポイント(ピーク)を用いている.. 分析では,多くの場合でメドレー楽曲中に繰り返し構造の. オーディオファイルから抽出したピークの 1 つを基点と. c 2019 Information Processing Society of Japan ⃝. 2.

(3) Vol.2019-MUS-122 No.12 Vol.2019-EC-51 No.12 2019/2/22. 情報処理学会研究報告 IPSJ SIG Technical Report. して他のピークとペアを形成し楽曲認識を行っている(図. 類似マス: 値を増やす. 5).このペア Ln は,ある 2 つのピーク P1 ,P2 の情報を. 非類似マス→非類似マス: 大幅に値を減らす. 用いて以下のように表される.. Ln : <t1 , f1 , f2 , ∆t>. (1). ここでの t1 ,t2 はそれぞれ P1 ,P2 の時刻を表し,∆t は. t1 と t2 の差(t2 − t1 )を表す.また,f1 ,f2 はそれぞれ P1 ,P2 の周波数を表す.. 0. 0. 1. 0 0. 0. 1 0.5 2 0.5 0. 1. 1. 0. 0. 0. 0. 1. 1 0.5 0.5 4.5 0. 0. 1. 0. 0. 0. 0. 2. 1. 0 0.5 4.5 4.5. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 1. 1. 1. 0. 1 2.5 4. 2. 3 0.5. 1. 1. 0. 0. 1. 0. 3. 2. 1. 1. 0. 5 3.5 2.5. 1. 0. !. !". 類似マス→非類似マス: 値を減らす. P2 :< t2, f2 >. ×. 行列 CR と累積値行列 Q. 周波数. 図 6. ×. ×. 音声指紋. P1 :< t1, f1 >. ×. ×. 楽曲. ×. 音声指紋. 時刻. 音声指紋. 行列CRの計算 (→3.2節). OTI. 音声指紋. OTIの決定(→3.1節) メドレー. →2.1節. 図 5 ランドマークの形成過程. 2.2 Cross Recurrence Quantification. 累積値行列の計算 (→2.2節). 楽曲断片 累積値行列. 開始地点行列. for Cover Song Identification 開始地点の決定[10]. 本研究では,Serr` a らの提案したカバーソング同定法 [7] を用いることで,原曲同士のマッチングに頑健な音声指 紋をカバーソング同定に応用している.Serr` a らの提案し. 図 7. 楽曲断片検出システム構成図. たカバーソング同定法 [7] は,Marwan らが提案した CRQ アルゴリズム [5] をカバーソング同定に応用したものであ. の構成楽曲から音声指紋を抽出し,Optimal Transposition. る.Marwan らは CRQ アルゴリズムにおいて,2 つの信. Index(OTI) を計算する.次に,Serr` a らの CSI 手法に基づ. 号の異なる時刻における類似度行列である行列 CR を定義. き,行列 CR と累積値行列を作成し,累積値行列の最大値. した.Serr` a らはカバーソング同定に行列 CR を応用する. とそのインデックスを得る.そして,佐藤ら [10] の手法に. ため,入力にクロマグラムを用いている.2 つの楽曲信号. 基づき,累積値行列から得られた最大値とそのインデック. のクロマグラムから行列 CR を作成した後,動的計画法に. スを用いて開始地点行列を作成し,同定した開始地点を用. 基づいて累積値行列を作成し,カバーソング同定を行って. いて楽曲断片を検出する(図 8).. いる(図 6) .動的計画法に基づくことで,カバーソング同 定のマッチングにおいて,テンポの違いを吸収することを. 3.1 音声指紋における OTI の計算. 期待している.また,この累積値行列は,行列内で最も高. 本項では,メドレー楽曲と構成楽曲の音声指紋から OTI. い値を持つ地点が類似区間の終了地点であるという特徴を. を計算する手法について説明する.音声指紋によってある. 持っており,この値を各楽曲間で比較することでカバーソ. 2 つのピーク P1 ,P2 の情報を持つリストが得られる.. ング同定を行っている.. 3. メドレー楽曲における楽曲断片検出手法 本節ではマッシュアップされているメドレー楽曲から楽 曲断片を検出する提案手法ついて説明する.提案手法の 構成を図 7 に示す.本手法ではまず,メドレー楽曲とそ. c 2019 Information Processing Society of Japan ⃝. Ln : <t1 , f1 , f2 , ∆t>. (2). t1 ,t2 はそれぞれ P1 ,P2 の時刻を表し,∆t は t1 と t2 の差 (t2 − t1 )を表す.また,f1 ,f2 はそれぞれ P1 ,P2 の周波 数を表す.このうち,時間の情報を削除した L′n : <f1 , f2 > を用いて OTI の計算を行う.. 3.

(4) Vol.2019-MUS-122 No.12 Vol.2019-EC-51 No.12 2019/2/22. 情報処理学会研究報告 IPSJ SIG Technical Report. 3.2 音声指紋による行列 CR の作成 本項では,メドレー楽曲と構成楽曲の音声指紋から行. 要素の値の累積が開始した地点を格納. 列 CR を計算する手法について説明する.3.1 項で計算し. 類似区間の開始地点が参照可能 0. 0. 0. 2. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. たピークのリストを用いて,Serr` a らの CSI 手法に基づき. CRP 行列を作成する 10.Serr` a らの CSI 手法では,ある. (3,3). 楽曲信号 a における時刻 i のクロマベクトル x とある楽. (3,3). 曲信号 b における時刻 j のクロマベクトル y の類似度を, 式に基づいて計算し,行列 CR の (i, j) 成分における値と していた.. 累積値行列. 本手法では,以下の式に基づいて音声指紋を考慮した行. 開始地点行列. 図 8. 列 CR を作成する..  CR. 開始地点行列. tA ,tB. =1. 0. n ∑ m ∑ OT I(L′A , L′B ) = arg max { Θ(L′An · circshift(L′Bm , id))} −12≤id≤12 i=0 j=0. (3). ここで,circshift(L′ , id) は,L′n : <f1 + id, f2 + id> の ように,L′ のインデックスを id 個ずらす処理を表す.ま た,Θ(·) は,. if Θ(L′A · circshift(L′B , id)). (6). otherwise. ここで,tA ,tB はそれぞれ Ln : <t1 , f1 , f2 , ∆t> の t を表 す.この式に基づいて行列を作成することで,ある楽曲信 号 A における時刻 i のピーク x とある楽曲信号 B におけ る時刻 j のピーク y の,それぞれ他のピークとのペアの形 成の仕方が,周波数に関して同様のものであるかどうかと いう 2 値の CRP 行列を作成する..  1 if x = 0 Θ(x) = 0 otherwise. 周波数が合致する要素を数え上げることで,キーの差分で ×. ある OTI を計算している.. 楽曲Bの音声指紋. を表す.本手法では,インデックスをずらしながらペアの. ×. (4). ●. ×. 一致. ×. +1 × 原曲キー × -1 × -2 ×. ×. 楽曲Aの音声指紋. × × × ×. ×. 一 致. …. +12 ×. …. × ×. ×. 図 10 音声指紋を考慮した行列 CR の作成. × ×. 楽曲A. 4. 評価実験. 楽曲B. マッシュアップのあるメドレー楽曲の楽曲断片の検出に. OTI = -2. 図 9. ついて,提案手法の精度評価を行った.. 4.1 実験条件. 音声指紋における OTI の計算. 検出された楽曲断片を正解データと比較し,F 値を用い て精度評価を行う(図 13).構成楽曲数が 5∼10 曲かつ 2. 最後に,計算した OTI を用いて以下のように. L′A. のイン. 分以下のマッシュアップを含むメドレー楽曲とその構成楽 曲の,メロディと伴奏のみに限定したデータを用いた.各. デックスをずらす.. メドレー楽曲とその構成楽曲はそれぞれ既存のものを用い. L′AT r. =. circshift(L′A , OT I). c 2019 Information Processing Society of Japan ⃝. (5). ており,全ての時刻上で 2 曲以上の楽曲でマッシュアップ. 4.

(5) Vol.2019-MUS-122 No.12 Vol.2019-EC-51 No.12 2019/2/22. 情報処理学会研究報告 IPSJ SIG Technical Report. されている.楽曲断片の開始時刻・終了時刻の正解データ. 表 1 マッシュアップを含むメドレー楽曲における楽曲断片検出の. F 値 (%). は,本実験の音源データを作成する際に手動で付与した.. メドレー楽曲. 音声指紋を抽出する際のパラメータは,デフォルトの ものを用いた.CRP 行列を作成する際のパラメータは,. a. b. c. d. e. 1. 70.06. 69.89. 56.41. 67.93. 63.02. Serr` a らの検証に基づき,k = 0.1,行列 Q を作成する際の. 2. 21.02. 53.85. 70.38. 18.87. 69.24. パラメータは,累積する値を 100,γo = 5.0, γe = 0.5 と. 3. 31.69. 60.84. 62.45. 53.98. 57.15. 4. 72.38. 17.33. 51.08. 68.97. 11.16. 5. 57.25. 67.95. 59.42. 48.31. 43.68. 6. 67.92. 64.08. 13.67. 66.61. 61.80. 7. 68.66. 19.41. ―. 59.86. 58.75. 8. 12.07. ―. ―. 53.98. 49.91. 9. ―. ―. ―. 60.53. ―. 楽. した.. 曲. 10 図 11. メドレー楽曲 a でマッシュアップがされている部分の例. 平均. ―. ―. ―. 50.03. ―. 50.13. 50.48. 52.24. 54.91. 51.84. 平均. 51.92. 4.3 結果に対する考察 楽曲2. 楽曲3. 楽曲4. 楽曲5. 楽曲7. 楽曲1. 楽曲8. マッシュアップされたメドレー楽曲に対する楽曲断片検 出の結果は,全体的にやや低い精度となった.. 楽曲6. 全体的に精度を向上するために,音声指紋や CRQ のパ メドレー楽曲. 図 12. ラメータを検討する必要がある.本論文で作成される行. メドレー楽曲 a における構成楽曲の登場区間. 列 CR に対応させる形で,本論文では CRQ の累積値行列 を作成する際の加算値を 100 とした.また,その他のパラ メータに関しては,音声指紋や CRQ のそれぞれにおいて デフォルトのパラメータを使用した.本論文の目的は,音 声指紋や CRQ が想定している目的や入力と完全に合致し. システム 出力. 楽曲A. 楽曲B. ていないため,パラメータの検討をする必要がある.. 楽曲C. また,楽曲断片検出法が不適切である可能性が考えられ 正解. 楽曲A. 楽曲C. 楽曲A. る.佐藤ら [10] の手法では,マッシュアップを考慮しない. 楽曲B. 楽曲断片検出を行っており, 「メドレー楽曲中では複数の楽 曲が同じ時刻において存在しない」という制約を設け,他. <latexit sha1_base64="uBipiRklt2vJAaMvpBlvfnQKWkI=">AAACZXichVHLSsNAFD2Nr1ofrQ9EcKFYFFflRgRFXBTcuGyrbYVaShKnGpomIUkLtfgD4lZduFIQET/DjT/gwi8QcangxoW3aUC0qHeYmTNn7rlzZka1Dd31iB5DUld3T29fuD8yMDg0HI2NjOZcq+ZoIqtZhuVsq4orDN0UWU/3DLFtO0KpqobIq5X11n6+LhxXt8wtr2GLYlXZM/WyrikeU5mtVCkWpwT5MdMJ5ADEEUTKil1jB7uwoKGGKgRMeIwNKHC5FSCDYDNXRJM5h5Hu7wscIsLaGmcJzlCYrfC4x6tCwJq8btV0fbXGpxjcHVbOYI4e6IZe6Z5u6Zk+fq3V9Gu0vDR4VttaYZeiR5Ob7/+qqjx72P9S/enZQxkrvledvds+07qF1tbXD85eN1czc815uqQX9n9Bj3THNzDrb9pVWmTOEeEPkH8+dyfILSZkSsjppXhyLfiKMKYwiwV+72UksYEUsnxuGcc4wWnoSRqSxqWJdqoUCjRj+BbS9CdyQYoo</latexit>. TP. FN <latexit sha1_base64="DkO5QI/y/4TtuYYMWUyiNp2FazI=">AAACZXichVG7SgNBFD1Z3/EVH4hgoRgUq3BXBEUsAoJYSUyMCiqyu07i4r7YnQQ0+ANiqxZWCiLiZ9j4AxZ+gYhlBBsLbzYLoqLeYWbOnLnnzpkZ3bPMQBI9xpSGxqbmlta2eHtHZ1d3oqd3NXBLviHyhmu5/rquBcIyHZGXprTEuucLzdYtsabvzdf218rCD0zXWZH7ntiytaJjFkxDk0xlF5a2E0lKURgjP4EagSSiyLiJa2xiBy4MlGBDwIFkbEFDwG0DKggec1uoMOczMsN9gUPEWVviLMEZGrN7PBZ5tRGxDq9rNYNQbfApFneflSMYowe6oSrd0y090/uvtSphjZqXfZ71ulZ4291Hg7m3f1U2zxK7n6o/PUsUMBN6Ndm7FzK1Wxh1ffngrJqbzY5VxumSXtj/BT3SHd/AKb8aV8sie444f4D6/bl/gtXJlEopdXkqmZ6LvqIVQxjFBL/3NNJYRAZ5PreAY5zgNPakdCr9ykA9VYlFmj58CWX4A1Izihg=</latexit>. の楽曲の結果と比較しながら楽曲の登場区間を決定してい. FP <latexit sha1_base64="feluAwHmLkQ7Uz2xbu8EY0XiBOo=">AAACZXichVHLSsNAFD2Nr1pf9YEILhSL4qrciKCIi4IgLvuwWqhFkjitwTQJSVqoxR8Qt+rClYKI+Blu/AEX/QIRlwpuXHibBkSLeoeZOXPmnjtnZlTb0F2PqBGSOjq7unvCvZG+/oHBoejwyJZrVRxNZDXLsJycqrjC0E2R9XTPEDnbEUpZNcS2erDW3N+uCsfVLXPTq9miUFZKpl7UNcVjKr2e3I3GKE5+TLcDOQAxBJG0ojfYwR4saKigDAETHmMDClxuecgg2MwVUGfOYaT7+wJHiLC2wlmCMxRmD3gs8SofsCavmzVdX63xKQZ3h5XTmKVHuqVXeqA7eqaPX2vV/RpNLzWe1ZZW2LtDxxOZ939VZZ497H+p/vTsoYhl36vO3m2fad5Ca+mrh+evmZX0bH2OruiF/V9Sg+75Bmb1TbtOifQFIvwB8s/nbgdbC3GZ4nJqMZZYDb4ijEnMYJ7fewkJbCCJLJ9bxAlOcRZ6kgakMWm8lSqFAs0ovoU09QlWM4oa</latexit>. た.しかし本論文では,他の楽曲と比較することなく楽曲 TP P recision = TP + FP TP TP + FN 2Recall · P recision measure = Recall + P recision Recall = <latexit sha1_base64="DbDJfxyRlX/QophhIbpbAq8f+MQ=">AAACfnichVHBSisxFD2OPq31qVU3iptiUQSx3hHBIgqCIK6kVquCSpmJqQ6mM8PMtKCluPcHXLhSEBFBP8KNP+DCTxCXCm7e4t1OB8QnT29IcnJyz81JYrrK8gOipyatueVXa1usPd7xu7OrO9HTu+47ZU/IvHCU422ahi+VZct8YAVKbrqeNEqmkhvmwUJ9f6MiPd9y7LXg0JU7JWPPtoqWMAKmComBnBSGUsm55HbRM0R1LVvjPra4XCskUpSmMJJfgR6BFKLIOokrbGMXDgTKKEHCRsBYwYDPbQs6CC5zO6gy5zGywn2JGuKsLXOW5AyD2QMe93i1FbE2r+s1/VAt+BTF3WNlEsP0SNf0Sg90Q8/057+1qmGNupdDns2GVrqF7pP+1fcfVSWeA+x/qL71HKCITOjVYu9uyNRvIRr6ytHp6+pMbrg6Qhf0wv7P6Ynu+QZ25U1crsjcGeL8Afq/z/0VrE+mdUrrK1Op+dnoK2IYxBBG+b2nMY8lZJHnc49xiVvcadBGtHFtopGqNUWaPnwKLfMX0FCSWw==</latexit>. F <latexit sha1_base64="qYNpVAs4DdiZmhDKCxeFsBBcYSI=">AAACoHichVHLahRBFD1pH4njIxPdCG6aDBFBHKqDkJAoBATJzpmJkwQzYaiu3IlFqh9U1wzEJj/gD7hwFUFE/AwXutSFi3yCuIzgxoW3exqCBvUWVXXq1D23TlWFqdGZE+Jowjtz9tz5yakLtYuXLl+Zrs9cXc+SoVXUVYlJ7GYoMzI6pq7TztBmaklGoaGNcO9Bsb8xIpvpJH7s9lPajuRurAdaScdUv7788E5EMhta8u/7vYGVKp/vkJLG9NRO4vyWJaUL9UE+pm+fMP16QzRFGf5pEFSggSpaSf0NethBAoUhIhBiOMYGEhm3LQQQSJnbRs6cZaTLfcIBaqwdchZxhmR2j8ddXm1VbMzromZWqhWfYrhbVvqYE1/EW3EsPop34qv4+ddaeVmj8LLPczjWUtqffn597cd/VRHPDk9PVP/07DDAYulVs/e0ZIpbqLF+9OzF8dpSZy6/KV6Jb+z/UByJ93yDePRdvW5T5yVq/AHBn899GqzPNwPRDNp3Gyv3qq+Ywg3M4ha/9wJWsIoWunzuIT7gEz57s96q98hrj1O9iUpzDb+F9+QX9QmhOw==</latexit>. 断片検出の結果を出力したため,精度が低くなってしまっ. 正解. <latexit sha1_base64="ZW7N8K3r2bOiCSPUcOTBpNcQ650=">AAACgXichVFBS+NAFP6MumrVtepFWA/F4uKyUF6KoKgLgiAe02pVUCnJ7FSHpklI0oKWXjzuH/DgSUFc2dP6F7z4Bzz4E8SjghcPvqQBcWV3X5jMN99735tvZizPVkFIdNuhdXZ1f+jp7Uv1Dwx+HEoPj6wHbt0XsiRc2/U3LTOQtnJkKVShLTc9X5o1y5YbVnUpym80pB8o11kL9z25UzN3HVVRwgyZKqfHDV8KFaUz3zLbFd8UzTWjxePrstEqp7OUozgy74GegCySMNz0ObbxHS4E6qhBwkHI2IaJgL8t6CB4zO2gyZzPSMV5iRZSrK1zleQKk9kq/3d5tZWwDq+jnkGsFryLzcNnZQaTdEMX9EDX9Ivu6PmvvZpxj8jLPs9WWyu98tCPsdWn/6pqPIfYe1X903OICmZjr4q9ezETnUK09Y2Do4fVueJk8zOd0j37P6FbuuITOI1HcVaQxWOk+AH0P6/7PVjP53TK6YXp7OJC8hS9+IQJTPF9z2ARKzBQ4n0P8RO/cal1al800vLtUq0j0YziTWjzLxngk9Q=</latexit> sha1_base64="bs8QlLljyYde7WbNFuyzJJm+ZMk=">AAACVXichVG7SgNBFD1ZX3F9JMFGsAmGiFW4a6NYCTaWeZgHxBB2N6Mu2ewuu5tADP5AWgsLKwUR8TNs/AGL9DZiGcHGwrubgKiod5iZM2fm3DlzR3NMw/OJBhFpYnJqeiY6K8/NywuLsfh8ybPbri6Kum3abkVTPWEalij6hm+KiuMKtaWZoqw1d4P9cke4nmFb+37XEbWWemQZh4au+kxl6/EUZSiM5E+gjEEK47DjNzhAAzZ0tNGCgAWfsQkVHrcqFBAc5mroMecyMsJ9gVPIrG3zKcEnVGabPB7xqjpmLV4HOb1QrfMtJneXlUmk6ZFuaUgPdEfP9P5rrl6YI/DS5VkbaYVTj/WXC2//qlo8+zj+VP3p2cchtkKvBnt3QiZ4hT7Sd07Oh4XtfLq3Rlf0wv4vaUD3/AKr86pf50T+AjLXX/le7Z+gtJFRKKPkCFGsYBXrXOZN7GAPWRT5ugb6OIs8SbKUGP2TFBl/WAJfQlr6AAYJh7c=</latexit> sha1_base64="3craRQZzQrFv1eVM6i2gG9PRQXg=">AAACdnichVHLSsNAFD3GV62v6krQRVEURSg3bhRBEARxmapVQaUk41SHpklI0oKWblz6Ay5cKYiKK/0FN/6ACz9BXCq4ceFNWhAV9YbJnDl3zp0zcy3PVkFI9NikNbe0trUnOpKdXd09vam+rrXALftC5oRru/6GZQbSVo7MhSq05YbnS7Nk2XLdKi5E+fWK9APlOqvhvie3S+auowpKmCFT+dSQ4UuhonR6Lr1V8E1RXTVqPCYXjVo+NUIZiiP9E+gNMIJGGG7qAlvYgQuBMkqQcBAytmEi4G8TOggec9uoMuczUnFeooYka8u8S/IOk9ki/3d5tdlgHV5HNYNYLfgUm4fPyjRG6YGu6IXu6Zqe6P3XWtW4RuRln2errpVevvdoYOXtX1WJ5xB7n6o/PYcoYCb2qti7FzPRLURdXzk4flmZXR6tjtEZPbP/U3qkO76BU3kV51m5fIIkN0D//tw/wdpURqeMniUkMIhhjPMzT2MeSzCQ4+MOcYkb3GrN2oRG9VZpTY2e9eNLaFMftYyS7Q==</latexit> sha1_base64="8j+9NBOkUrfAnxu3GTHie7D7f0U=">AAACgXichVFNS+tAFD1Gn0/73tOqG0EXxaL4EMqNG8UPEARxGT+qgkpJxmnfYJqEJC1o6calf8CFKwVRcaV/wY1/wIU/QVwqvI0Lb9KAqKg3TObMuffcOTNjebYKQqK7Jq255Ufrz7b21K/ffzo6013dK4Fb8YXMC9d2/TXLDKStHJkPVWjLNc+XZtmy5aq1PRvlV6vSD5TrLIc7ntwsmyVHFZUwQ6YK6X7Dl0JF6cx0ZqPom6K2bNR5jMwZ9UI6SzmKI/MR6AnIIgnDTZ9iA1twIVBBGRIOQsY2TAT8rUMHwWNuEzXmfEYqzkvUkWJthaskV5jMbvO/xKv1hHV4HfUMYrXgXWwePiszGKRbOqdHuqELuqfnT3vV4h6Rlx2erYZWeoXO/d6l/9+qyjyH+Peq+tJziCLGY6+KvXsxE51CNPTV3YPHpYnFwdoQHdMD+z+iO7rmEzjVJ3GyIBcPkeIH0N9f90ewMprTKacvUHZmKnmKNvRhAMN832OYwTwM5HnfPZzhEldas/ZXI220Uao1JZoevAlt8gUYoJPQ</latexit>. シ ス テ ム. 区間内. 区間外. TP. FP. 区間内 区間外. <latexit sha1_base64="uBipiRklt2vJAaMvpBlvfnQKWkI=">AAACZXichVHLSsNAFD2Nr1ofrQ9EcKFYFFflRgRFXBTcuGyrbYVaShKnGpomIUkLtfgD4lZduFIQET/DjT/gwi8QcangxoW3aUC0qHeYmTNn7rlzZka1Dd31iB5DUld3T29fuD8yMDg0HI2NjOZcq+ZoIqtZhuVsq4orDN0UWU/3DLFtO0KpqobIq5X11n6+LhxXt8wtr2GLYlXZM/WyrikeU5mtVCkWpwT5MdMJ5ADEEUTKil1jB7uwoKGGKgRMeIwNKHC5FSCDYDNXRJM5h5Hu7wscIsLaGmcJzlCYrfC4x6tCwJq8btV0fbXGpxjcHVbOYI4e6IZe6Z5u6Zk+fq3V9Gu0vDR4VttaYZeiR5Ob7/+qqjx72P9S/enZQxkrvledvds+07qF1tbXD85eN1czc815uqQX9n9Bj3THNzDrb9pVWmTOEeEPkH8+dyfILSZkSsjppXhyLfiKMKYwiwV+72UksYEUsnxuGcc4wWnoSRqSxqWJdqoUCjRj+BbS9CdyQYoo</latexit>. <latexit sha1_base64="feluAwHmLkQ7Uz2xbu8EY0XiBOo=">AAACZXichVHLSsNAFD2Nr1pf9YEILhSL4qrciKCIi4IgLvuwWqhFkjitwTQJSVqoxR8Qt+rClYKI+Blu/AEX/QIRlwpuXHibBkSLeoeZOXPmnjtnZlTb0F2PqBGSOjq7unvCvZG+/oHBoejwyJZrVRxNZDXLsJycqrjC0E2R9XTPEDnbEUpZNcS2erDW3N+uCsfVLXPTq9miUFZKpl7UNcVjKr2e3I3GKE5+TLcDOQAxBJG0ojfYwR4saKigDAETHmMDClxuecgg2MwVUGfOYaT7+wJHiLC2wlmCMxRmD3gs8SofsCavmzVdX63xKQZ3h5XTmKVHuqVXeqA7eqaPX2vV/RpNLzWe1ZZW2LtDxxOZ939VZZ497H+p/vTsoYhl36vO3m2fad5Ca+mrh+evmZX0bH2OruiF/V9Sg+75Bmb1TbtOifQFIvwB8s/nbgdbC3GZ4nJqMZZYDb4ijEnMYJ7fewkJbCCJLJ9bxAlOcRZ6kgakMWm8lSqFAs0ovoU09QlWM4oa</latexit>. FN <latexit sha1_base64="DkO5QI/y/4TtuYYMWUyiNp2FazI=">AAACZXichVG7SgNBFD1Z3/EVH4hgoRgUq3BXBEUsAoJYSUyMCiqyu07i4r7YnQQ0+ANiqxZWCiLiZ9j4AxZ+gYhlBBsLbzYLoqLeYWbOnLnnzpkZ3bPMQBI9xpSGxqbmlta2eHtHZ1d3oqd3NXBLviHyhmu5/rquBcIyHZGXprTEuucLzdYtsabvzdf218rCD0zXWZH7ntiytaJjFkxDk0xlF5a2E0lKURgjP4EagSSiyLiJa2xiBy4MlGBDwIFkbEFDwG0DKggec1uoMOczMsN9gUPEWVviLMEZGrN7PBZ5tRGxDq9rNYNQbfApFneflSMYowe6oSrd0y090/uvtSphjZqXfZ71ulZ4291Hg7m3f1U2zxK7n6o/PUsUMBN6Ndm7FzK1Wxh1ffngrJqbzY5VxumSXtj/BT3SHd/AKb8aV8sie444f4D6/bl/gtXJlEopdXkqmZ6LvqIVQxjFBL/3NNJYRAZ5PreAY5zgNPakdCr9ykA9VYlFmj58CWX4A1Izihg=</latexit>. たと考えられる. 加えて,極端に精度が低くなってしまう楽曲(メドレー 楽曲 a の楽曲 2 など)が存在する原因として,OTI の計 算手法が適切でないことが考えられる.極端に精度が低く なってしまう楽曲のほぼ全てが,正しく OTI の検出がで. 図 13. 楽曲 A の F 値を計算する例. きていなかった.この問題は,音声指紋のプロット数など のパラメータ調整によって解消できる可能性があるが,本 論文で提案した OTI の計算手法が適切でない可能性もあ. 4.2 実験結果 実験による各メドレー楽曲に対する精度を表 1 に示す. ―は構成楽曲が少ないため,ID に対応する楽曲が存在し ないことを表す.. ると考えられる.. 5. おわりに 本論文では,マッシュアップによってメロディが同時刻. 全てのメドレー楽曲における F 値の平均は 51.92%で. に 2 つ以上存在するようなメドレー楽曲を対象に,音声指. あった.F 値が最も高いメドレー楽曲は 54.91%であった. 紋とカバーソング同定法である CRQ を組み合わせること. (メドレー楽曲 d) .対して F 値が最も低いメドレー楽曲は. による楽曲断片検出法を提案した.メドレー楽曲とその構. 50.13%であった(メドレー楽曲は ID2).. 成楽曲から原曲同士のマッチングに頑健な音声指紋を抽出. c 2019 Information Processing Society of Japan ⃝. 5.

(6) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2019-MUS-122 No.12 Vol.2019-EC-51 No.12 2019/2/22. することで,同時刻で 2 つ以上存在するメロディを独立し て扱うことを期待した.音声指紋を原曲とその編曲された 楽曲とのマッチングが可能なものにするため,キーとテン ポの違いを吸収したマッチング手法を試みた.キーの違い を吸収するため,本手法で音声指紋における OTI の計算 手法を提案した.テンポの違いを吸収するため,入力する データを整形し,Serr` a らのカバーソング同定法に基づい て行列 CR と累積値行列を作成した.作成した累積値行列 から,佐藤らの手法に基づいて楽曲が類似している区間を 検出することで楽曲断片検出を試みた.マッシュアップが されたメドレー楽曲から楽曲断片を検出する精度評価にお いて,精度の低かった楽曲の考察から,パラメータの再検 討や楽曲断片検出法を改良する必要性が示唆された.今後 はまず,各パラメータの適切な値と本楽曲断片検出法の妥 当性について検証する必要がある.また,精度評価におい てメロディと伴奏のみに限定した音源を用いるなどの様々 な制約を設けたため,実際の音源に対して頑健な手法とな るよう改良を行う. 謝辞 本研究を通じて,ご指導を賜りました寺井あすか 准教授(公立はこだて未来大学)に深く感謝いたします. 本研究は JSPS 科研費(16H01744,16K12560)の助成を 受けたものです. 参考文献 [1]. [2]. [3]. [4]. [5]. [6]. [7]. [8]. [9]. [10]. Dannenberg, R. B. and Goto, M.:Music Structure Analysis from Acoustic Signals, In D. Havelock, Kuwano, S., Vorl¨ander, M., editors, Handbook of Signal Processing in Acoustics, pp.477-482 (2011). Foote, J.: Visualizing Music and Audio using Self Similarity, In Proc. ACM International Conference on Multimedia, pp.77-80 (1999). Glazyrin, N.: Towards extraction of ground truth data from DJ Mixes, Music Information Retrieval Conference (ISMIR), (2017). Goto, M.: Active Music Listening Interfaces Based on Signal Processing, In Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp..1441-1444 (2007). Marwan, N., Romano, M. C., Thiel, M. and Kurths, J.: Recurrence Plots for the Analysis of Complex Systems. Physics Reports, vol.438, No.5, pp237-329 (2007). Schwarz, D. and Fourer D.: Towards extraction of grand truth data from DJ Mixes, Music Information Retrieval Conference (ISMIR), (2015). Serr` a, J., Serra, X. and Andrzejak, R. G.: Cross Recurrence quantification, New Journal of Physics, Vol.11, No.9, pp.093017 (2009). Sonnleitner, R., Arzt, A. and Widmer, G.: Landmarkbased audio fingerprinting for DJ Mix monitoring, Music Information Retrieval Conference (ISMIR), (2016). Wang, A.: An Industrial Strength Audio Search Algorithm, In Proc. International Society for Music Information Retrieval Conference (ISMIR), pp.7-13 (2015). 佐藤僚太,竹川佳成,平田圭二:カバーソング同定法を応 用した楽曲断片検出法の提案, (社)情報処理学会音楽情 報科学 (SIGMUS) Vol.2018-MUS-118,No.17 (2018).. c 2019 Information Processing Society of Japan ⃝. 6.

(7)

図 1 原曲に含まれる旋律の例 図 2 図 1 のキーを 2 つ下げ,テンポを早めた変更を加えた例 図 3 図 1 の主旋律に対して音の追加や削除を行った例 図 4 図 1 を別の楽曲とマッシュアップを行った例 メドレー楽曲の楽曲の変わり目は,音楽的展開が考慮さ れているため,楽曲が変わったことに気づかないような自 然なものであることが多く,聴き手が楽曲断片を認識する のが困難である.また,マッシュアップされている区間に おいても, 2 曲以上の楽曲が同時に発音しているため,楽 曲断片を認識するのが難しいと

参照

関連したドキュメント

従って、こ こでは「嬉 しい」と「 楽しい」の 間にも差が あると考え られる。こ のような差 は語を区別 するために 決しておざ

本研究は,地震時の構造物被害と良い対応のある震害指標を,構造物の疲労破壊の

る、関与していることに伴う、または関与することとなる重大なリスクがある、と合理的に 判断される者を特定したリストを指します 51 。Entity

このように資本主義経済における競争の作用を二つに分けたうえで, 『資本

歌雄は、 等曲を国民に普及させるため、 1908年にヴァイオリン合奏用の 箪曲五線譜を刊行し、 自らが役員を務める「当道音楽会」において、

、肩 かた 深 ふかさ を掛け合わせて、ある定数で 割り、積石数を算出する近似計算法が 使われるようになりました。この定数は船

太宰治は誰でも楽しめることを保証すると同時に、自分の文学の追求を放棄していませ

高(法 のり 肩と法 のり 尻との高低差をいい、擁壁を設置する場合は、法 のり 高と擁壁の高さとを合