第 7 章 深層学習を用いた実験
7.4 提案手法による実際の楽曲を対象とした認識の実験
7.4.1 概要
本実験では前の項で作成した識別器を使用し、実際の楽曲を対象として認識を行い精度 を確認する。
認識対象の楽曲は k 最近傍法の実験と同様、ドラムマイナスワン楽曲に、ある特定の打 楽器音1種類を5秒毎に11ヶ所挿入したものを使用する。挿入する打楽器音は識別する13 カテゴリから 1 つずつ選択する。各打楽器カテゴリと、それに対応する選択した打楽器の
一覧をTable7.1に示す。
67
Table7.1 各打楽器カテゴリとそれに対応する選択した打楽器の一覧
打楽器カテゴリ 選択した打楽器
バスドラム バスドラム
クラッシュ クラッシュシンバル
ハイハット ハイハットシンバル
スネアドラム スネアドラム
タム ロータム
気鳴 ホイッスル
鈴 鈴
複合 タンバリン
膜鳴 ボンゴ
打奏金属製 トライアングル
擦奏 ギロ
振奏 シェーカー
打奏木製 カスタネット
また k 最近傍法の実験では、調波音が挿入した打楽器音をかき消してしまう問題があっ たため、今回は音量調整も行っている。このように編集した楽曲を 3 種類のマイナスワン 楽曲×13種類の打楽器音=39曲作成し、HPSSを前処理として使用した後、分離後の打楽 器成分に対して実験を行う。
7.4.2 実験結果
各打楽器カテゴリそれぞれの、該当の対象楽曲に対する認識率(すべての打楽器挿入点 のうち、正しく認識できた数の割合)をFig7.5に示す。
これを見ると、タムを除くドラムセット系のカテゴリに関しては、良好な認識結果が得 られているといえる。これの理由としては k 最近傍法の場合と同様、豊富な学習用データ により十分な学習ができているからだと考えられる。タムに関しては、楽器の材質が膜鳴 とほぼ同じなため、この2カテゴリ間で誤認識が起こってしまったと考えられる。
それ以外の楽器カテゴリに関しては、あまり良い認識結果は得られなかった。これの全 体的な原因の傾向としては、やはり k 最近傍法の場合と同様、十分な数の学習用データが なく学習が中途半端だったことが大きいと思われる。ただし、擦奏や振奏カテゴリに関し ては音量調整をしても聞き取りにくい音であるので調波音にかき消されてしまった事も考 えられ、また複合カテゴリは楽器の性質上、複数の打楽器が同時に発音した結果誤認識に なってしまうということも考えられる。逆に、気鳴楽器は調波音の傾向が強いため、学習 用データが少なくても比較的高い認識率になったと考えられる。
68
Fig7.5 各打楽器カテゴリそれぞれの該当の対象楽曲に対する認識率 0
10 20 30 40 50 60 70 80 90 100
バス ドラ ム
ク ラッ シュ
ハイ ハッ ト
スネ アド ラム
タ ム 気
鳴 鈴 複 合 膜
鳴 打 奏 金 属 製
擦 奏 振
奏 打 奏 木 製 認
識 率(
%)
69