ニューラルネットワークによる管楽器音の識別利用統計を見る

(1)

論文

ニューラルネットワークによる管楽器音の識別

高村聡増田竜太関口芳廣

（平成2年8月31日受理）

Identification of Tones of Wind Instruments by Means of Neural

Networks

SatoshiTAKAMURA RyoutaMASUDA YoshihiroSEKIGUCHI

Abstract It is difficult to identify musical instruments only by hearing their tones， especially in the following cases： ①Their timbre are similar．②Their pitches are the same．③The length of the notes played is short． We are developing a wind instruments tone−identification system which can work even in the above mentioned cases． In this system， the instrumental tones are analyzed by LPC（Linear Predictive Coding）， the frequency spectrum is detected， and the type of instrument is deter・ mined by using neural networks． This system is able to identify wind instruments better than human beings can．

1．はじめに

音で楽器の種類を判断することは小中学校の音楽教育にもあり，一見簡単なように思われがちだが，実際には一般の人はもとより，かなり訓練した人にとっても，状況によっては非常に困難な場合が多い。特に， ①楽器の種類が似ている場合，②音の高さが同じ場合， ③音の長さが短い場合には，その音でいくつかの楽器を即座に区別することは極めて難しい。筆者らは前記①∼③のような状況のもとでも，できるだけ正確に楽器音から楽器の種類を識別できるシステムを検討している。その結果ニューラルネットワークを利用した識別システムがかなり役立ちそうなことが確かめられてきたので報告する。＊日本航空大学校＊＊_{狽梼q情報工学科} ＊Japan Aviation Academy ＊＊_{cepartment of Electrical Engineering and Computer Sci’} ence また通常，楽器の音を分析するためには，非常に高い周波数領域まで細かく分析することが行われているが，本論文で提案する方法は，約5KHzまでの分析であり，周波数スペクトルの成分数も少なく20個である。よって，サンプリング周波数が低く，多くの記憶容量は不要で，処理も単純なので，一般のパソコンで充分実現できるシステムである。実験の結果，管楽器（木管，金管楽器それぞれ3種類）を音で，人間よりかなりよく識別できている。 2．原理楽器音を識別することを念頭において，楽器音の性質，分析に使用する線形予測分析法，そして識別に利用するニューラルネットワークについて検討する。 2．1 楽器音の性質1・2・3）音の「大きさ」，「高さ」，「音色」を音の3要素という。楽器音の識別を考えるとき，最も重要なものは「音色」である。「音色」を決定する要素には以下のような

(2)

ものがある。 ①周波数特性：「音色」を決定する最も基本的な要素である。定常状態の音の場合，その周波数特性は楽器によっておよそ一定である。「楽音」は「基本音」とその「倍音」によって構成されるが，「倍音」の構成は，楽器によって異なっている。また，一般に楽器音には，基本音，倍音以外の音，いわゆるノイズも含まれている。 ②時間的変化：音の立ち上がり，立ち下がりなど，定常状態以外での，振幅の増減，周波数の変化の様子などもそれぞれの楽器に特徴がある。 ③ビブラート：基本周波数，振幅，倍音構成が周期的に変化するが，これも楽器や演奏者によって特徴がある。 ④倍音の周波数のずれ：倍音は高次になるほど基本音の周波数の整数倍からずれる傾向がある。これは弦楽器に顕著であるが，管楽器でもずれる場合がある。弦楽器の場合，倍音列は基本音の全ての倍音を含んでいるが，管楽器の場合，開管の楽器と閉管の楽器で異なる。開管の楽器（トランペット，トロンボーンなど）の倍音列には基本周波数の全ての倍音が含まれるが，閉管の楽器（クラリネットなど）の倍音列には奇数倍音のみが含まれる。本論文で対象とする6つの管楽器は，いずれも音響的には開管の楽器であり，その倍音列には，基本音の全ての倍音が含まれている。管楽器の「音色」を決定する楽器の構造については，以下のようなことが考えられる。 ①管の太さ：太い管は低倍音が出やすく，細い管は高倍音が出やすい。従って，太い管でできている楽器の音は丸く重い響きを持つ。細い管の楽器の音は鋭く明るい響きを持つ。 ②管の形状：直線形の楽器（例えぽトランペット）の音は倍音が豊かで，明るい感じがするが，曲線形の楽器（例えぽホルン）の音は柔らかく丸い感じの音になりやすい。そのほか，「円錐管」か「円筒管」かといった内腔の形，また音が出る部分のいわゆる朝顔の形も「音色」に影響する。 ③管の材質：硬く弾性に富み，軽い材質ほどよく共振する。逆に，柔らかく重い材質は共振しにくい。管楽器は，開管，閉管のちがい，基本的な管の長さのちがい，弁やスライドによる管長の延長や短縮などその構造のちがい等により，出せる音域が異なる。図 1に本論文で対象とする6つの楽器の音域を示す4）。 2．2 線形予測分析5）時系列データを扱う方法に線形予測分析法（linear predictive coding：LPC）がある。オーボエ中央 …C……−c…・…cl c2 c3

サクソフオン iDes

ファゴ・ソト b トランペットトロンボーンホルン B ・i

iE

Hi・ d f3 as21 1d 2

@i

as・i bl f2 i 図1 本論文で対象とする管楽器の音域4）

現時点での標本値X，と過去のp個の標本値

（Xt−p，＿， X，−1）との間に， X，＋ΣατXτ一i＝εt…・…・…・………・・………・………（1）の線形一次結合が成り立つと仮定する（但し，i＝1，2， …，p）。ここでEtは，平均が0の互いに無相関な確率変数である。（1）式で現時点での標本値を過去のp個のデータで予測することができ，それを（2）式のXt’とする。 Xt’＝一ΣaiXt−i……・・……・…・……・………・……（2）よってεtは，予測値と実際の標本値との差εt＝X， −Xt’で，線形予測残差と呼ばれる。線形予測分析は，この線形予測残差の二乗和が最小になるように，最小二乗法を使って線形予測係数（αii i＝1，2，．．．，p）を求めるものである。計算は， p個の式からなる線形連立一次方程式を解いて求めることが出来るが，実際には，自己相関法などが使われ，Durbin の再帰的解法などで効率的に解くことが出来る。線形予測分析は，（1）式のEtを入力， X，を出力としたとき，これは自己回帰（AR）過程であり，全極モデルであるので，伝達関数はZ変換を利用して， H（z）＝1／（1＋Σαi2−i）………・・…・・……・・…・…・・（3）となる。ここで，楽器の音源をインパルスと仮定し，楽器の伝達関数を全極型と仮定すると，楽器の伝達関数として（3）式が当てはまり，z−i＝exp（一元2πグT）（Tはサンプリング周期）と置くことにより， H（f）＝1／（1＋Σαiexp（一ノ2πガT））……・・……・（4）となり，任意の周波数fに対する楽器の周波数伝達特性が求められ，1H（f）1で，スペクトル成分がもとまる。例として，トローンボーンのb音を分析した結果を図2に示す。図2では，（a）線形予測分析によるスペクトルの他に（b）FFT（高速フーリエ変換）によるスペクトルを参考のために表示している。FFTによるスペク

(3)

トルでは，基本音の倍音がよく観察でき，線形予測分析による結果は，FFTによるスペクトルの包絡になっている。このスペクトル包絡が楽器固有の特徴を表わしていることになる。 IFT習丁冶Lpc s 図2 楽器の周波数スペクトルの例（楽器：トロンボーン、音程：b）に出力が最大となった出力層のユニットに対応するカテゴリーが識別結果となる。学習させる時には，教師信号として，答のカテゴリーに対応する出力層のユニットには1を，それ以外の出力層のユニットには0 を与える。 3．識別システム7）作成したシステムは，楽器音を入力して楽器の識別を行うシステムで，10m秒毎のフレーム単位でパラメータを求め，予め学習用データで学習されたウエイトを用いたニューラルネットワークで，フレーム毎に識別を行っている。 eeOHz_{@ 図5に処理の流れ図を示す。} 3．1 データ分析部 2．3 ニューラルネットワーク6）ニューラルネットワークは，脳の神経細胞のネットワーク状の結合（シナプス結合）と比較して説明される場合もあるが，現在，工学的応用で使われているモデルは，入力層，いくつかの中間層，出力層からなる多層パーセプトロンが多い（図3）。この一つ一つのユニットでは前層の出力を入力とし，各々の入力に重み付けをして，それらすべての和をとった後，しきい値関数を通したものを出力としている（図4）。しきい値関数としては，シグモイド関数がよく用いられる。このモデルでの学習方法として，逆伝播学習法（バックプロパゲーション法）があり，計算機上での学習を可能にしている。この学習法のアルゴリズムの概要を以下に示す。

入力パラメータ

①すべてのウエイト（慨Dに対し初期値をランダムに設定する。 ②学習用データのパターンを入力層にいれ出力層に向かって各ユニットの出力を計算していく。 ③出力層から入力層に向かって，得られた結果と教師信号との誤差を伝播していき，誤差が最小となるように最急降下法を行いウエイトを変更していく。 ④収束するまで②③を繰り返す。ニューラルネットワークをパターン認識に用いるときには，出力層のユニットを，識別するカテゴリーに対応させて用意しておき，識別に使うパラメータを入力層にいれ，予め求めてあるウエイトを使って，出力層に向かってユニットの出力を計算していき，最終的

出力

入力層

中間層

出力層

図3 ニューラルネットワークの3層モデル

Op1 0p2 … Opn

、レ／

0

↓

wJs

Unit j

OpJ＝f（ΣW」1・Opi）

図4 ニューラルネットワークのユニット・モデル

(4)

楽器音ローパス・フィルタ

A／D変換

前処理

ハミング窓

LPCスペクトル分析

ニューラルネットワーク

識別結果

データ分析部

〕識別部

図5 処理の流れ入力された楽器音信号は，カットオフ周波数4．7 KHzのローパス・フィルタを通し，10 KHzでサンプリング，12ビットの量子化を行っている。次に，分析をする前に前処理を行う。ここでは，差分フィルタ（（5）式）を通しており，これにより約6 dB／octの補正が行われ，原波形のまま分析したのでは小さくなってしまう高域の成分を強調している。 X￠’＝Xt−Xt−1 （5）次に分析を行うにあたって，波形を切り出すが，単純にもとのデータの一部分を取り出して周波数分析を行うと，切りだしたデータの始点と終点付近での影響が大きく，正確な周波数分析が出来なくなる。そこで，この影響を少なくするために，波形に対して窓掛けを行う。ここでは，窓関数として周波数領域における分解能が高く，スペクトルの洩れが少ないハミング窓（10 m秒と25．6m秒）を用いている。ハミング窓は次式で定義される。（Twはハミング窓長）仰ノ（t）＝0．54−0．46cos（2πτ／Tw） t≦Tw （6）

Wω＝O t＞Tw

次に線形予測分析を行い，周波数スペクトルを求める。線形予測係数は，自己相関係数からD−L−1法を用いて求めている。分析次数は12次で，得られた12個の線形予測係数から，全極モデルの伝達関数により， 250Hz∼4000 Hzまでを1／20オクターブ毎に80個のスペクトル成分を求め，そこから連続した4個の周波数のうちで最大のものを取り出し，ほぼ1／5オクターブ毎20個のスペクトル成分として取り出している。また，このスペクトル成分の大きさは，対数スケールにしている。

3．2 識別部

識別部では，3層のニューラルネットワークを用いて，6つの楽器の識別を行っている。ニューラルネットワークの構成は，入力層のユニット数を20個，中間層のユニット数を可変，出力層のユニット数を6個にしている。入力には，前述の分析部で求めた20個のスペクトルを入れる。このスペクトルの大きさは，音の大きさによって変わりフレーム毎にバラバラなので，入力層に入れるときには正規化を行わなけれぽならない。正規化の方法は，0∼最大値の範囲が一1∼1に当てはまるように線形に圧縮した後に，入力層でシグモイド関数に通している。以下に正規化の式を示す。ここで，Siは入力されたパラメータ，Smaxは1フレームのパラメータの中で最大のもの，OI，は入力層のユニットの出力， f（x）はシグモイド関数である。 Si’：＝（2S∠／Smax）− 1 （1≦i≦20）（7） OI，＝2f（S，’）−1 （1≦i≦20）（8） f（x）＝ 1／（1−←exp（x））（9）学習の方法は，逆伝播学習法を用いている。学習時に学習させるデータの数がバラバラなので数を揃えて，どの楽器も同じ数（例えぽ後述のb音の実験では 135個ずつ）だけ学習させている。この様にデータ数を揃えないと，片寄った学習がされて，うまく識別できないものが出てくる。また，学習させる時の学習率（図 4のウエイト1死を変化させる割合）は，学習の進行度合いに合わせて，識別率が低いときには学習率を高く，識別率が上がって来るに従って学習率を低くしている。この様にすることによって，学習の速度が速くなり，かつ学習が進むにつれて振動が抑えられるので，より正確に学習が出来る。 4．実験

4．1 方法

学習データ（ニューラルネットワークの学習用に使用）とテストデータ（識別実験に使用）は，図6の6 種類の楽器音でよく使用される1オクターブの長音階の音を，文献4）のレコードよりサンプリングし分析したものであり，いずれも各楽器の一つ一つの音に対して100フレーム前後のデータがある。サソプリングし

(5)

た音階の音域を図6に示す。この音域の中でb音がいずれの楽器にも存在する。識別実験は，次の①②で行った。 ①まず，学習データを入力し，10m秒毎に線形予測分析を行い，得られた周波数スペクトルを利用して，ニューラルネットワークの学習を行う。学習は500回繰り返して行う。 ②できたニューラルネットワークにテストデータを入力し，システムの能力を検査する。具体的には，次の項目について比較実験を行った。 1）音程に無関係の識別ができるか：音程に無関係に識別できれぽシステムが非常に簡単になる。各音程毎に識別できれぽ，まず音程を判定し，次いで楽器を識別するという2段階構造のシステムが将来予想される。 a）1オクターブの長音階の各音を全てデータとする。 b）共通の音程であるb音のみをデータとする。 2）中間層のユニット数：中間層のユニット数を3個から16個に変化させ，それぞれについて識別率を求める。 3）線形予測分析の間隔：分析窓の間隔が短けれぽ計算量は少ないがスペクトルの抽出は安定しない。分析窓の間隔が長ければ，計算量は多くなるがスペクトル抽出は安定する。 a）10．Om秒で・・ミング窓を掛ける。 b）25．6m秒でハミング窓を掛ける。 4）ニューラルネットワークと人間の識別率との比較。 a）b音についてニューラルネットワークにより識別する。 b）b音について人間が聞いて識別する。まず被験者は，ニューラルネットワークの学習に使用した学習データをD／A変換した出力を，各楽器毎に音を約1秒間，3回ずつ2回繰り返し聞き，各々の楽器の音を学習する。次に，サンプリングしたテストデータをD／A変換して出力し，どの楽器の音であるか回答する。テストデータは，全部で 12個（6種類を2個ずつ）用意した。被験者は成人7名で，特に音楽の専門家ではない。

4．2 結果

ニューラルネットワークによる楽器音の識別の結果を表1にまとめて示す。 1）入力データの音程について・音程に無関係なデータ 1オクターブの音階の音を全てまとめて入力データとしたとき，学習データの認識率は94％止まりである。テストデータに対しては最高85％の識別率である。（図7）・b音のデータについて b音のみデータとして使用した場合，学習データは 99％，テストデータは88％の最高識別率が得られている。（図8） 2）中間層のユニット数は少なすぎると十分な識別率が得られない。実験的には，b音のデータでは6∼8 個程度，音程に無関係なデータでは9∼14個程度が適当であろう。（表1） 3）線形予測分析の分析窓長について入力がb音のみの場合，ハミング窓幅10．Om秒， 25．6m秒いずれの場合にもほぼ完全に識別学習ができる（表1）。学習回数と識別率の関係を図9に示す。実験では最高学習回数を，いずれも500回に統一したが，100回以降はほとんど変化がないため図9には100回までの関係を示す。テストデータについては，比較的識別率が高い中間オーボエサクソフオーンファゴットトランペットトロンボーンホルン中央一一一 b−一一一一c−一一一一一一cl c2 c3 ， bl b1， l b’−bll BF−一一bl l i b一b ’i Bトー一一一b： l B：一一一一一一bl ：図6 サンプリングした音階の音域麺 100 goi＿．i＿↓＿1ッふ日0 ％？0 60 ギ＿＿＿：＿＿．＋学習デー一タロテストデーター：…癒詩・・尋二二二㌧÷・ゴ：吉＼みゴ：‡ 50 10 11 12 13 14 15 中闇層の数図7 1オクターブの長音階の音による識別率（10msのハミング窓による線形予測分析）

(6)

層のユニット数5∼9の場合，分析窓幅が25．6m秒の方が約2％ほど識別率がよい（図10）。 4）人が聞いた場合の識別について（b音のみ）識別結果を表2にのせる。A／D変換でサンプリングしたデータをD／A変換して出力しているため，出力音は実際の音と若干異なる。また，定常状態の部分の同じ高さの音を取り出したため人にとっては識別しにくく，平均32．1％の識別率であった。墾 100 90 80 ％ 70 60 ＋学習データロテストデータ 50 10 11 12 13 14 15 中間層の数図8 b音による識別率（10 msの・・ミング窓による線形予測分析）表1 ニューラルネットワークによる識別結果（％）中 _音階音 _b 音間 _10．Oms＊ 10．0皿s＊ 25．6ms＊

層学習iテスト学習iテスト学習iテスト

：60．6156．1 @ ： V7．7i72．1 ：82．2171．5 ：： X7．7181．5 @ ： X9．2i83．6 ：99．0180．2 ：：98．1182．6 @ ： X9．2i76．3 ：99．3185．4 ： 6 ： W7．4｝82．9 ：： X9．4187．6 ： 1 X9．5；90．8 ： 7 ：_{X0．9181．9} @ 1 ： X9．2188．4 @ ｝： X9．5188．1 @ ： 8 @9 P0 11 ：_{X1．7183．5} @ ：「 X9．4183．4 @ ： 1 X9．8183．7 @ ： 12 P3 P4 ： X3．5183．7 @ ： X0．8i85．3 ：92・gi84・9 「 X9．5183．3 @ ： V9．5i67．6 ：99・7182・3 ： X9．8182．0 @ ： X9．5i86．3 ：79・6i70・1 15 ｝W7．5181．3 ：｝ U3．い63．5 ： 1 V7．7164．4 ： 16 ：X3．7184．5 ‘ ： U3．2154．8 ’ ： V3．9168．8 1 ＊分析窓長 5．まとめニューラルネットワークを利用した楽器音の識別システムを作り，検討した。その結果・「楽器音の識別」にニューラルネットワークを適用することは有効である。人が聞いたときより，かなり劃％ 100 90 60 70 60 50 40 30 20 10 10 20 30 40 50 60 ？0 60 90 学習回数（回）図9 学習回数と識別率の推移（25．6msのハミング窓による線形予測分析）（b音のみの識別、中間層の数＝5） tOO 90

‖e。

％ 70 60 50 →− LPC（10．oぷ5）［］ LPC（25、6mS）弄・．、、 10 11 12 中間層の数図10 分析窓の長さと識別率（b音のみの識別）表2 人が聞いた場合の識別率（7人の総合）楽器の回答した楽器識別率種類 ob sax fg trp trb hrn 計（％）識 ob 2 2 3 6 1 0 14 14．3 別 sax 5 3 2 1 1 2 14

_2L4

す fg 4 0 7 1 1 1 14 50．0 る trp 1 3 3 6 0 1 14 42．9 楽 trb 1 2 0 0 4 7 14 28．6 器 hr皿 1 1 1 0 5 5 14 35．7 平均識別率 32． 1％

〔：：∴一∴∵∵∵、∵こ∴∵：㍍烈

(7)

識別率が高い。・1：オクターブの音階をまとめて学習させ識別する方法では，識別率がやや低い。今後学習データ数の増加などを行い検討が必要である。・b音のみの識別は1オクターブの音階に比べて識別率は高い。しかし，学習データに比較してテストデータの識別率のダウンがやや大きいため，さらに工夫する必要がある。・分析窓の長さに関しては，長い方が識別率はよい。ただし，長すぎると短い音の抽出ができず，計算量も多くなる。等のことがいえる。楽器音の入力などには大学院生の佐納成重君のこi援助をいただいた。深く感謝いたします。

参考文献

1）Ulrich Michels編，角倉一郎日本語版監修：図解音楽辞典，白水社，（1989．11） 2）溝部国光：正しい音階（音楽音響学）第3版，日本楽譜出版社，（1985） 3）安藤由典：楽器の音響学，㈱音楽の友社，（1971．10） 4）レコード「吹奏楽器入門」，K25C−171キングレコード株式会社，録音1981．08．12，東京芸術大学第六ホール 5）古井貞煕：デジタル音声処理，東海大学出版社，（1985．09） 6）中野馨，飯沼一元，ニューロンネットグループ，桐谷滋：入門と実習ニューロコンピュータ，技術評論社，（1989．09） 7）増田竜太：音声認識におけるニューラルネットを用いた話者適応に関する研究，山梨大学工学部計算機科学科平成元年度卒業論文，（1990．03）

ニューラルネットワークによる管楽器音の識別 利用統計を見る