• 検索結果がありません。

ニューラルネットワークによる管楽器音の識別 利用統計を見る

N/A
N/A
Protected

Academic year: 2021

シェア "ニューラルネットワークによる管楽器音の識別 利用統計を見る"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

論 文

ニューラルネットワークによる管楽器音の識別

高村聡 増田竜太 関口芳廣

(平成2年8月31日受理)

Identification of Tones of Wind Instruments by Means of Neural

Networks

SatoshiTAKAMURA RyoutaMASUDA YoshihiroSEKIGUCHI

      Abstract   It is difficult to identify musical instruments only by hearing their tones, especially in the following cases:   ①Their timbre are similar.②Their pitches are the same.③The length of the notes played is short.   We are developing a wind instruments tone−identification system which can work even in the above mentioned cases. In this system, the instrumental tones are analyzed by LPC(Linear Predictive Coding), the frequency spectrum is detected, and the type of instrument is deter・ mined by using neural networks. This system is able to identify wind instruments better than human beings can.

1.はじめに

 音で楽器の種類を判断することは小中学校の音楽教 育にもあり,一見簡単なように思われがちだが,実際 には一般の人はもとより,かなり訓練した人にとって も,状況によっては非常に困難な場合が多い。特に, ①楽器の種類が似ている場合,②音の高さが同じ場合, ③音の長さが短い場合には,その音でいくつかの楽器 を即座に区別することは極めて難しい。  筆者らは前記①∼③のような状況のもとでも,でき るだけ正確に楽器音から楽器の種類を識別できるシス テムを検討している。その結果ニューラルネットワー クを利用した識別システムがかなり役立ちそうなこと が確かめられてきたので報告する。 *日本航空大学校 **狽梼q情報工学科 *Japan Aviation Academy **cepartment of Electrical Engineering and Computer Sci’ ence  また通常,楽器の音を分析するためには,非常に高 い周波数領域まで細かく分析することが行われている が,本論文で提案する方法は,約5KHzまでの分析で あり,周波数スペクトルの成分数も少なく20個である。 よって,サンプリング周波数が低く,多くの記憶容量 は不要で,処理も単純なので,一般のパソコンで充分 実現できるシステムである。  実験の結果,管楽器(木管,金管楽器それぞれ3種 類)を音で,人間よりかなりよく識別できている。 2.原  理  楽器音を識別することを念頭において,楽器音の性 質,分析に使用する線形予測分析法,そして識別に利 用するニューラルネットワークについて検討する。  2.1 楽器音の性質1・2・3)  音の「大きさ」,「高さ」,「音色」を音の3要素とい う。楽器音の識別を考えるとき,最も重要なものは「音 色」である。「音色」を決定する要素には以下のような

(2)

ものがある。 ①周波数特性:「音色」を決定する最も基本的な要素  である。定常状態の音の場合,その周波数特性は楽  器によっておよそ一定である。「楽音」は「基本音」  とその「倍音」によって構成されるが,「倍音」の構  成は,楽器によって異なっている。また,一般に楽  器音には,基本音,倍音以外の音,いわゆるノイズ  も含まれている。 ②時間的変化:音の立ち上がり,立ち下がりなど,定  常状態以外での,振幅の増減,周波数の変化の様子  などもそれぞれの楽器に特徴がある。 ③ビブラート:基本周波数,振幅,倍音構成が周期的  に変化するが,これも楽器や演奏者によって特徴が  ある。 ④倍音の周波数のずれ:倍音は高次になるほど基本音  の周波数の整数倍からずれる傾向がある。これは弦  楽器に顕著であるが,管楽器でもずれる場合がある。  弦楽器の場合,倍音列は基本音の全ての倍音を含ん でいるが,管楽器の場合,開管の楽器と閉管の楽器で 異なる。開管の楽器(トランペット,トロンボーンな ど)の倍音列には基本周波数の全ての倍音が含まれる が,閉管の楽器(クラリネットなど)の倍音列には奇 数倍音のみが含まれる。本論文で対象とする6つの管 楽器は,いずれも音響的には開管の楽器であり,その 倍音列には,基本音の全ての倍音が含まれている。  管楽器の「音色」を決定する楽器の構造については, 以下のようなことが考えられる。 ①管の太さ:太い管は低倍音が出やすく,細い管は高  倍音が出やすい。従って,太い管でできている楽器  の音は丸く重い響きを持つ。細い管の楽器の音は鋭  く明るい響きを持つ。 ②管の形状:直線形の楽器(例えぽトランペット)の  音は倍音が豊かで,明るい感じがするが,曲線形の  楽器(例えぽホルン)の音は柔らかく丸い感じの音  になりやすい。そのほか,「円錐管」か「円筒管」か  といった内腔の形,また音が出る部分のいわゆる朝  顔の形も「音色」に影響する。 ③管の材質:硬く弾性に富み,軽い材質ほどよく共振  する。逆に,柔らかく重い材質は共振しにくい。  管楽器は,開管,閉管のちがい,基本的な管の長さ のちがい,弁やスライドによる管長の延長や短縮など その構造のちがい等により,出せる音域が異なる。図 1に本論文で対象とする6つの楽器の音域を示す4)。  2.2 線形予測分析5)  時系列データを扱う方法に線形予測分析法(linear predictive coding:LPC)がある。 オーボエ 中央 …C……−c…・…cl   c2   c3

サクソフオ ン iDes

ファゴ・ソ ト b トランペッ ト トロンボーン ホルン B ・i

iE

Hi・ d       f3    as21 1d 2

@i

   as・i bl   f2 i     図1 本論文で対象とする管楽器の音域4)

 現時点での標本値X,と過去のp個の標本値

(Xt−p,_, X,−1)との間に,  X,+ΣατXτ一i=εt…・…・…・………・・………・………(1) の線形一次結合が成り立つと仮定する(但し,i=1,2, …,p)。ここでEtは,平均が0の互いに無相関な確率 変数である。  (1)式で現時点での標本値を過去のp個のデータで 予測することができ,それを(2)式のXt’とする。  Xt’=一ΣaiXt−i……・・……・…・……・………・……(2) よってεtは,予測値と実際の標本値との差εt=X, −Xt’で,線形予測残差と呼ばれる。  線形予測分析は,この線形予測残差の二乗和が最小 になるように,最小二乗法を使って線形予測係数(αii i=1,2,...,p)を求めるものである。計算は, p個の式 からなる線形連立一次方程式を解いて求めることが出 来るが,実際には,自己相関法などが使われ,Durbin の再帰的解法などで効率的に解くことが出来る。  線形予測分析は,(1)式のEtを入力, X,を出力とした とき,これは自己回帰(AR)過程であり,全極モデル であるので,伝達関数はZ変換を利用して,  H(z)=1/(1+Σαi2−i)………・・…・・……・・…・…・・(3) となる。  ここで,楽器の音源をインパルスと仮定し,楽器の 伝達関数を全極型と仮定すると,楽器の伝達関数とし て(3)式が当てはまり,z−i=exp(一元2πグT)(Tはサ ンプリング周期)と置くことにより,  H(f)=1/(1+Σαiexp(一ノ2πガT))……・・……・(4) となり,任意の周波数fに対する楽器の周波数伝達特 性が求められ,1H(f)1で,スペクトル成分がもとま る。  例として,トローンボーンのb音を分析した結果を 図2に示す。図2では,(a)線形予測分析によるスペク トルの他に(b)FFT(高速フーリエ変換)によるスペク トルを参考のために表示している。FFTによるスペク

(3)

トルでは,基本音の倍音がよく観察でき,線形予測分 析による結果は,FFTによるスペクトルの包絡になっ ている。このスペクトル包絡が楽器固有の特徴を表わ していることになる。 IFT習丁冶Lpc s 図2 楽器の周波数スペクトルの例    (楽器:トロンボーン、音程:b) に出力が最大となった出力層のユニットに対応するカ テゴリーが識別結果となる。学習させる時には,教師 信号として,答のカテゴリーに対応する出力層のユ ニットには1を,それ以外の出力層のユニットには0 を与える。 3.識別システム7)     作成したシステムは,楽器音を入力して楽器の識別    を行うシステムで,10m秒毎のフレーム単位でパラ    メータを求め,予め学習用データで学習されたウエイ    トを用いたニューラルネットワークで,フレーム毎に    識別を行っている。 eeOHz@ 図5に処理の流れ図を示す。     3.1 データ分析部  2.3 ニューラルネットワーク6)  ニューラルネットワークは,脳の神経細胞のネット ワーク状の結合(シナプス結合)と比較して説明され る場合もあるが,現在,工学的応用で使われているモ デルは,入力層,いくつかの中間層,出力層からなる 多層パーセプトロンが多い(図3)。この一つ一つのユ ニットでは前層の出力を入力とし,各々の入力に重み 付けをして,それらすべての和をとった後,しきい値 関数を通したものを出力としている(図4)。しきい値 関数としては,シグモイド関数がよく用いられる。  このモデルでの学習方法として,逆伝播学習法(バッ クプロパゲーション法)があり,計算機上での学習を 可能にしている。この学習法のアルゴリズムの概要を 以下に示す。

入力パラメータ

①すべてのウエイト(慨Dに対し初期値をランダ  ムに設定する。 ②学習用データのパターンを入力層にいれ出力層  に向かって各ユニットの出力を計算していく。 ③出力層から入力層に向かって,得られた結果と  教師信号との誤差を伝播していき,誤差が最小  となるように最急降下法を行いウエイトを変更  していく。 ④収束するまで②③を繰り返す。  ニューラルネットワークをパターン認識に用いると きには,出力層のユニットを,識別するカテゴリーに 対応させて用意しておき,識別に使うパラメータを入 力層にいれ,予め求めてあるウエイトを使って,出力 層に向かってユニットの出力を計算していき,最終的

出力

入力層

中間層

出力層

図3 ニューラルネットワークの3層モデル

Op1 0p2  …   Opn

、レ/

0

wJs

Unit j

     OpJ=f(ΣW」1・Opi)

図4 ニューラルネットワークのユニット・モデル

(4)

楽器音 ロ ーパス ・ フ ィ ルタ

A/D変換

前処理

ハミング窓

LPCスペクトル分析

ニューラルネッ ト ワーク

識別結果

データ分析部

〕識別部

図5 処理の流れ  入力された楽器音信号は,カットオフ周波数4.7 KHzのローパス・フィルタを通し,10 KHzでサンプ リング,12ビットの量子化を行っている。  次に,分析をする前に前処理を行う。ここでは,差 分フィルタ((5)式)を通しており,これにより約6 dB/octの補正が行われ,原波形のまま分析したので は小さくなってしまう高域の成分を強調している。   X¢’=Xt−Xt−1       (5)  次に分析を行うにあたって,波形を切り出すが,単 純にもとのデータの一部分を取り出して周波数分析を 行うと,切りだしたデータの始点と終点付近での影響 が大きく,正確な周波数分析が出来なくなる。そこで, この影響を少なくするために,波形に対して窓掛けを 行う。ここでは,窓関数として周波数領域における分 解能が高く,スペクトルの洩れが少ないハミング窓(10 m秒と25.6m秒)を用いている。ハミング窓は次式で 定義される。(Twはハミング窓長)  仰ノ(t)=0.54−0.46cos(2πτ/Tw)    t≦Tw        (6)

 Wω=O      t>Tw

 次に線形予測分析を行い,周波数スペクトルを求め る。線形予測係数は,自己相関係数からD−L−1法を 用いて求めている。分析次数は12次で,得られた12個 の線形予測係数から,全極モデルの伝達関数により, 250Hz∼4000 Hzまでを1/20オクターブ毎に80個の スペクトル成分を求め,そこから連続した4個の周波 数のうちで最大のものを取り出し,ほぼ1/5オクター ブ毎20個のスペクトル成分として取り出している。 また,このスペクトル成分の大きさは,対数スケール にしている。

 3.2 識別部

 識別部では,3層のニューラルネットワークを用い て,6つの楽器の識別を行っている。ニューラルネッ トワークの構成は,入力層のユニット数を20個,中間 層のユニット数を可変,出力層のユニット数を6個に している。入力には,前述の分析部で求めた20個のス ペクトルを入れる。  このスペクトルの大きさは,音の大きさによって変 わりフレーム毎にバラバラなので,入力層に入れると きには正規化を行わなけれぽならない。正規化の方法 は,0∼最大値の範囲が一1∼1に当てはまるように 線形に圧縮した後に,入力層でシグモイド関数に通し ている。以下に正規化の式を示す。ここで,Siは入力さ れたパラメータ,Smaxは1フレームのパラメータの中 で最大のもの,OI,は入力層のユニットの出力, f(x)は シグモイド関数である。   Si’:= (2S∠/Smax)− 1   (1≦i≦20)       (7)   OI,=2f(S,’)−1   (1≦i≦20)    (8)   f(x)= 1/ (1−←exp(x))       (9)  学習の方法は,逆伝播学習法を用いている。学習時 に学習させるデータの数がバラバラなので数を揃え て,どの楽器も同じ数(例えぽ後述のb音の実験では 135個ずつ)だけ学習させている。この様にデータ数を 揃えないと,片寄った学習がされて,うまく識別でき ないものが出てくる。また,学習させる時の学習率(図 4のウエイト1死を変化させる割合)は,学習の進行度 合いに合わせて,識別率が低いときには学習率を高く, 識別率が上がって来るに従って学習率を低くしてい る。この様にすることによって,学習の速度が速くな り,かつ学習が進むにつれて振動が抑えられるので, より正確に学習が出来る。 4.実  験

 4.1 方  法

 学習データ(ニューラルネットワークの学習用に使 用)とテストデータ(識別実験に使用)は,図6の6 種類の楽器音でよく使用される1オクターブの長音階 の音を,文献4)のレコードよりサンプリングし分析 したものであり,いずれも各楽器の一つ一つの音に対 して100フレーム前後のデータがある。サソプリングし

(5)

た音階の音域を図6に示す。この音域の中でb音がい ずれの楽器にも存在する。  識別実験は,次の①②で行った。 ①まず,学習データを入力し,10m秒毎に線形予測分 析を行い,得られた周波数スペクトルを利用して, ニューラルネットワークの学習を行う。学習は500回繰 り返して行う。 ②できたニューラルネットワークにテストデータを入 力し,システムの能力を検査する。  具体的には,次の項目について比較実験を行った。 1)音程に無関係の識別ができるか:音程に無関係に  識別できれぽシステムが非常に簡単になる。各音程  毎に識別できれぽ,まず音程を判定し,次いで楽器  を識別するという2段階構造のシステムが将来予想  される。  a)1オクターブの長音階の各音を全てデータとす   る。  b)共通の音程であるb音のみをデータとする。 2)中間層のユニット数:中間層のユニット数を3個  から16個に変化させ,それぞれについて識別率を求  める。 3)線形予測分析の間隔:分析窓の間隔が短けれぽ計  算量は少ないがスペクトルの抽出は安定しない。分  析窓の間隔が長ければ,計算量は多くなるがスペク  トル抽出は安定する。  a)10.Om秒で・・ミング窓を掛ける。  b)25.6m秒でハミング窓を掛ける。 4)ニューラルネットワークと人間の識別率との比  較。  a)b音についてニューラルネットワークにより識   別する。  b)b音について人間が聞いて識別する。まず被験   者は,ニューラルネットワークの学習に使用した 学習データをD/A変換した出力を,各楽器毎に 音を約1秒間,3回ずつ2回繰り返し聞き,各々 の楽器の音を学習する。次に,サンプリングした テストデータをD/A変換して出力し,どの楽器 の音であるか回答する。テストデータは,全部で 12個(6種類を2個ずつ)用意した。被験者は成 人7名で,特に音楽の専門家ではない。

 4.2 結  果

 ニューラルネットワークによる楽器音の識別の結果 を表1にまとめて示す。 1)入力データの音程について ・音程に無関係なデータ  1オクターブの音階の音を全てまとめて入力データ としたとき,学習データの認識率は94%止まりであ る。テストデータに対しては最高85%の識別率であ る。(図7) ・b音のデータについて  b音のみデータとして使用した場合,学習データは 99%,テストデータは88%の最高識別率が得られてい る。(図8) 2)中間層のユニット数は少なすぎると十分な識別率  が得られない。実験的には,b音のデータでは6∼8  個程度,音程に無関係なデータでは9∼14個程度が  適当であろう。(表1) 3)線形予測分析の分析窓長について  入力がb音のみの場合,ハミング窓幅10.Om秒,  25.6m秒いずれの場合にもほぼ完全に識別学習が  できる(表1)。学習回数と識別率の関係を図9に示  す。実験では最高学習回数を,いずれも500回に統一  したが,100回以降はほとんど変化がないため図9に  は100回までの関係を示す。  テストデータについては,比較的識別率が高い中間 オーボエ サクソフオーン ファゴッ ト トラ ンペッ ト トロンボーン ホルン 中央 一一一 b−一一一一c−一一一一一一cl  c2  c3  ,   bl   b1,  l   b’−bll BF−一一bl    l i b一b ’i Bトー一一一b:    l B:一一一一一一bl    : 図6 サンプリングした音階の音域 麺 100 goi_.i_↓_1ッふ 日0 %  ?0 60  ギ___:__.    + 学習デー一タ    ロテストデータ ー:…癒詩・・尋二二二㌧÷・ゴ:吉\みゴ:‡ 50        10  11  12  13  14  15          中闇層の数 図7 1オクターブの長音階の音による識別率    (10msのハミング窓による線形予測分析)

(6)

層のユニット数5∼9の場合,分析窓幅が25.6m秒 の方が約2%ほど識別率がよい(図10)。 4)人が聞いた場合の識別について(b音のみ) 識別結果を表2にのせる。A/D変換でサンプリング  したデータをD/A変換して出力しているため,出 力音は実際の音と若干異なる。また,定常状態の部 分の同じ高さの音を取り出したため人にとっては識 別しにくく,平均32.1%の識別率であった。 墾 100 90 80 %   70 60 +学習データ ロテストデータ 50       10   11  12   13   14  15       中間層の数 図8 b音による識別率    (10 msの・・ミング窓による線形予測分析) 表1 ニューラルネットワークによる識別結果(%) 中 音階音 b 音 間 10.Oms* 10.0皿s* 25.6ms*

層 学習iテスト 学習iテスト 学習iテスト

    :60.6156.1 @   : V7.7i72.1    :82.2171.5    :     : X7.7181.5 @   : X9.2i83.6    :99.0180.2    :     :98.1182.6 @   : X9.2i76.3    :99.3185.4    : 6     : W7.4}82.9    :     : X9.4187.6    :     1 X9.5;90.8    : 7     :X0.9181.9 @   1     : X9.2188.4 @   }     : X9.5188.1 @   :  8 @9 P0 11     :X1.7183.5 @   :     「 X9.4183.4 @   :     1 X9.8183.7 @   : 12 P3 P4     : X3.5183.7 @   : X0.8i85.3    :92・gi84・9     「 X9.5183.3 @   : V9.5i67.6    :99・7182・3     : X9.8182.0 @   : X9.5i86.3    :79・6i70・1 15     }W7.5181.3    :     } U3.い63.5    :     1 V7.7164.4    : 16     :X3.7184.5    ‘     : U3.2154.8    ’     : V3.9168.8    1 * 分析窓長 5.ま と め ニューラルネットワークを利用した楽器音の識別シ ステムを作り,検討した。 その結果 ・「楽器音の識別」にニューラルネットワークを適用す ることは有効である。人が聞いたときより,かなり 劃 % 100 90 60 70 60 50 40 30 20 10    10    20    30    40    50    60    ?0    60    90          学習回数  (回) 図9 学習回数と識別率の推移    (25.6msのハミング窓による線形予測分析)    (b音のみの識別、中間層の数=5) tOO    90

‖e。

%   70 60 50 →−  LPC(10.oぷ5) []  LPC(25、6mS) 弄・.、、         10 11 12       中間層の数 図10 分析窓の長さと識別率    (b音のみの識別) 表2 人が聞いた場合の識別率(7人の総合) 楽器の 回答した楽器 識別率 種類 ob  sax    fg  trp  trb  hrn 計 (%) 識  ob 2   2   3   6   1  0 14 14.3 別 sax 5   3   2   1   1   2 14

2L4

す  fg 4   0   7   1   1   1 14 50.0 る trp 1   3   3   6   0   1 14 42.9 楽 trb 1   2   0   0   4   7 14 28.6 器 hr皿 1   1   1   0   5   5 14 35.7       平均識別率 32. 1%

〔::∴一∴∵∵∵、∵こ∴∵:㍍烈

(7)

 識別率が高い。 ・1:オクターブの音階をまとめて学習させ識別する方  法では,識別率がやや低い。今後学習データ数の増  加などを行い検討が必要である。 ・b音のみの識別は1オクターブの音階に比べて識別  率は高い。しかし,学習データに比較してテストデー  タの識別率のダウンがやや大きいため,さらに工夫  する必要がある。 ・分析窓の長さに関しては,長い方が識別率はよい。  ただし,長すぎると短い音の抽出ができず,計算量  も多くなる。 等のことがいえる。  楽器音の入力などには大学院生の佐納成重君のこi援 助をいただいた。深く感謝いたします。

参考文献

1)Ulrich Michels編,角倉一郎日本語版監修:図解音楽辞典,  白水社,(1989.11) 2)溝部国光:正しい音階(音楽音響学)第3版,日本楽譜出版  社, (1985) 3)安藤由典:楽器の音響学,㈱音楽の友社,(1971.10) 4)レコード「吹奏楽器入門」,K25C−171キングレコード株式会  社,録音1981.08.12,東京芸術大学第六ホール 5)古井貞煕:デジタル音声処理,東海大学出版社,(1985.09) 6)中野馨,飯沼一元,ニューロンネットグループ,桐谷滋:入  門と実習ニューロコンピュータ,技術評論社,(1989.09) 7)増田竜太:音声認識におけるニューラルネットを用いた話  者適応に関する研究,山梨大学工学部計算機科学科平成元年  度卒業論文,(1990.03)

参照

関連したドキュメント

ピアノの学習を取り入れる際に必ず提起される

These two kinds of oil behave similar characteristics, but it can be shown that the difference of the pressure increasing rate or P-T curves are come from the difference of

私大病院で勤務していたものが,和田村の集成材メーカーに移ってい

英国のギルドホール音楽学校を卒業。1972

2017 年夏より始まったシリーズ 企画「SHIRAI’s CAFE」。自身も 音楽に親しむ芸術監督・白井晃

今回のわが国の臓器移植法制定の国会論議をふるかぎり,只,脳死体から

分別 保管 収集 運搬 再生 処分 排出事業者

データ取得 系統運⽤・需給運⽤ 分析・解析