提案手法による実際の楽曲を対象とした認識の実験

第 7 章深層学習を用いた実験

7.4 提案手法による実際の楽曲を対象とした認識の実験

7.4.1 概要

本実験では前の項で作成した識別器を使用し、実際の楽曲を対象として認識を行い精度を確認する。

認識対象の楽曲は k 最近傍法の実験と同様、ドラムマイナスワン楽曲に、ある特定の打楽器音1種類を5秒毎に11ヶ所挿入したものを使用する。挿入する打楽器音は識別する13 カテゴリから 1 つずつ選択する。各打楽器カテゴリと、それに対応する選択した打楽器の

一覧をTable7.1に示す。

Table7.1 各打楽器カテゴリとそれに対応する選択した打楽器の一覧

打楽器カテゴリ選択した打楽器

バスドラムバスドラム

クラッシュクラッシュシンバル

ハイハットハイハットシンバル

スネアドラムスネアドラム

タムロータム

気鳴ホイッスル

鈴鈴

複合タンバリン

膜鳴ボンゴ

打奏金属製トライアングル

擦奏ギロ

振奏シェーカー

打奏木製カスタネット

また k 最近傍法の実験では、調波音が挿入した打楽器音をかき消してしまう問題があったため、今回は音量調整も行っている。このように編集した楽曲を 3 種類のマイナスワン楽曲×13種類の打楽器音=39曲作成し、HPSSを前処理として使用した後、分離後の打楽器成分に対して実験を行う。

7.4.2 実験結果

各打楽器カテゴリそれぞれの、該当の対象楽曲に対する認識率（すべての打楽器挿入点のうち、正しく認識できた数の割合）をFig7.5に示す。

これを見ると、タムを除くドラムセット系のカテゴリに関しては、良好な認識結果が得られているといえる。これの理由としては k 最近傍法の場合と同様、豊富な学習用データにより十分な学習ができているからだと考えられる。タムに関しては、楽器の材質が膜鳴とほぼ同じなため、この2カテゴリ間で誤認識が起こってしまったと考えられる。

それ以外の楽器カテゴリに関しては、あまり良い認識結果は得られなかった。これの全体的な原因の傾向としては、やはり k 最近傍法の場合と同様、十分な数の学習用データがなく学習が中途半端だったことが大きいと思われる。ただし、擦奏や振奏カテゴリに関しては音量調整をしても聞き取りにくい音であるので調波音にかき消されてしまった事も考えられ、また複合カテゴリは楽器の性質上、複数の打楽器が同時に発音した結果誤認識になってしまうということも考えられる。逆に、気鳴楽器は調波音の傾向が強いため、学習用データが少なくても比較的高い認識率になったと考えられる。

Fig7.5 各打楽器カテゴリそれぞれの該当の対象楽曲に対する認識率 0

10 20 30 40 50 60 70 80 90 100

バスドラム

クラッシュ

ハイハット

スネアドラム

タム気

鳴鈴複合膜

鳴打奏金属製

擦奏振

奏打奏木製認

識率(

ドキュメント内機械学習を利用した打楽器の音源同定 (ページ 66-69)

第 7 章 深層学習を用いた実験

7.4 提案手法による実際の楽曲を対象とした認識の実験

7.4.1 概要

7.4.2 実験結果

第 7 章深層学習を用いた実験