MIDI信号を用いた演奏音楽からの感情抽出の試み
(平成7年11月30日 原稿受付)
電気工学科玉木明和 電気工学科矢鳴虎夫 電気工学科加藤清史
ATrial of Emotion Extraction from Musical Performance with MIDI Signal
by Akikazu TAMAKI Torao YANARU Kiyoshi KATO
Abstract
The authors make a simulation model in which the emotion is changing by hearing the some musical sound. The model consists of two stages,中e first stage extracts the musical feelings from the musical feature and the second stage changes the current emotion by the musicaHeelings.
The mechanism of the two stages are constructed by the 31ayer neural network. The MIDI sig.
nal is used for the musical input data instead of audio musical sound which is generated by a musical instrument. Therefore, the musical feature is detected from MIDI signals. By using MIDI signal, the performance information is communicated among the electronic musical instru.
ment devices.
この感情変化は彼が育った音楽環境に左右されるもので
1.はじめに
ある。
情報処理の対象として種々のものが扱われ始め,最近 音楽を聴くことによって感情がどのように変化するか は,感性情報処理といわれる人間の感性に関わる情報の 調べるためにシミュレーションを試みたので報告する。
研究が行われている[1]。コンピュータミュージックな 音声から音楽情報を検出することは難しいので,音楽を どに代表される音楽に関する研究は古くから行われてき 聴くことはその演奏のMIDI信号を入力することで代用 たが,感性情報処理の一環として種々の方法で音楽とコ した。感情抽出及び変化機構にはニューラルネットを用 ンピュータに関する研究が盛んに行われている[2]。人 い,音楽環境としてニューラルネットの学習データを対 間の情報処理機構の一部を利用したニューラルネットは 応させる。この学習データは音楽を聴いた被験者から得 多くの分野で応用されているが,音のデータベースに られたものである。
ニューラルネットを応用したものもある[3]。
瀦らはコンピュータを用いた自動瀬システムの開 2・MIDI信号
発を行っているが,それは演奏の必要な情報を楽譜情報 コンピュータで電子楽器を制御するために定められた と演奏者情報に分けて扱っている。演奏者情報は演奏時 規格であり,MIDI信号によって電子楽器の種々の制御 の演奏者の感1青変化を反映するための情報であり,自動 ができる。MIDI信号はRS232C規格を使用しており,
演奏をより人間的なものに近づけるために用いるもので スタートビット及びストップビットが1ビット,パリ ある。 ティ無し,転送速度31.25kボーの非同期通信である。
人間は音楽を聴くと感情が音楽の流れとともに変化す ここではMIDIキーボードから出力される信号のうち,
る。演奏者も自己の演奏の流れとともに感情が変化する。 ノートオン信号とノートオフ信号を使用する。図1に
58 玉木明和・矢鳴虎夫・加藤清史
ノートオン信号とノートオフ信号を示す。これらは3バ 時はその時刻にノートナンバで示す音高の音がベロシ イトで構成され,信号を送信する時間は約1ミリ秒とな ティが示す音量で発音することを,ベロシティが0の時 る。ノートオン信号は音高(ピッチ)と音量を指定し音 は消音することを示す。図3では,最初(時刻0.00秒)
を鳴らすものである。ノートオフ信号は指定された音高 にノートナンバ3Cの音がベロシティ40で鳴り,その音 の音を消すものである。図1のnはチャネル番号であり, が時刻0.33秒で消音されている。
演奏するMIDI楽器を指定する。ノートナンバは音高を, 基本セルは音階上の音を表し,その音が鳴っているか ベロシティは強さ(音量など)を表し,0から127まで 否かを表す。MIDI信号は128個の音高を指定できるの の値をとる。ノートオン信号でベロシティを0とすると で,基本セルは128個ある。ノートオン信号を入力し基 指定された音を消すことを意味し,ノートオフ信号の代 本セルを活性化(値=1)し,或いは,ノートオフ信号 わりに使うこともできる。 を入力し静止(値=0)させる。人間では聴覚の有毛細
3.シミュレーションモデル 胞に対応し余韻をもたすために・瀧化及び静止に時間
遅れ機構を持つ。時刻tにおける基本セルの興奮度をP 図2に示すように,本システムではMIDI信号を入力 (t)とすると時刻t+△tの興奮度P(t+△t)は次の式で
し,信号変換,特徴抽出,感情抽出,感情変化の4つの 表される。
段階を経てシミュレーションを行う。各セルは0〜1の
値をとるものとする.演奏されたMIDI信号から,その P(t+△t)=f(αA+βP(t)) (1)
送信された時刻,ノートナンバ,ベロシティをファイル ここで,
に記録する。ファイルに記録されたMIDI信号の演奏記 f.O z>1.0 録を用いて感情変化のシミュレーシ。ンを行う。 f(・)=、 z≦1.。
3.1 信号変換機構
図3に演奏記鋤ら得られる演奏データを示す。時刻 α・β・Aは定数である・
はその信号が送信された相対時間(最初の信号の時刻を Aは対応するベロシティの値を128で割った値である。
基準とする。)を秒単位で示し,ノートナンバは音高を ノートオフ信号の時はAは0となる。α=1.0,β=0.5,
示し,ベロシティは音量を示す。ベロシティが0以上の A=0.5(ベロシティ=64)の場合の例を図4に示す。
ノートオン信号
時刻 9nH ノートナンパ ベロシティ 3バイト ノートナンバ へ㍉シティ
ノートオフ信号 図3演奏データ
8nH ノートナンバ ベロシティ 3バイト n:チャネル番号=(0〜F)
㌫㌘く)一(・−127)
器1.。
図1 MIDI信号 度
MIDl
「]
P基l 喧{1 Eセ、
信号 Pル1
信号変換機構 特徴抽出機構
「「ki
遠ワii讐iiルiL」
感情抽出機構
[i魏ii留i元iL.i
感情変化機構
↑
0.00 0.02 0.15 0.33 0.36 0.37 3C 40 43 3C 40 43 40 40 40 00 00 00
…霧i α゜ 今時間「]
1セ1 ノートオン ノートオフ 1ルl
ll α=1・0,β=0・5,A=0.5の場合
【_ _ 」
図4 基本セルの変化
図2 システムのブロック図
3.2 特徴抽出機構 ・音名の抽出
基本セルから音楽特徴としてテンポ,音高,和音を抽 音域特徴で音高の持つ情報を大まかに伝えることがで 出する。これらはファジィ的に扱い,44個の音楽特徴と きるが,細かい情報を補うために12個の音名を抽出する。
して抽出する。したがって,音楽特徴セルは合計44個か 12音の音名とは,C, C#, D, D#, E, F, F#, G,
らなる。 G#,A, A#, Bである。音高を1オクターブ内の12個
・テンポの抽出 の音名に圧縮する。
テンポは低速,中速,高速の3段階に分けそれぞれに ・和音の抽出
セル3個を用いる。ここでは,テンポをある時間内に 和音については,音高を12音に圧縮した1オクターブ 鳴っている音の数で代用した。同時になっている音の数 での3和音を考え,それぞれメジャーとマイナーの2種 を数えるので,和音などの場合は実際のテンポとは異な 類の特徴を用いた。すなわち,根音と長3度,完全5度 る。図5に高速域,中速域低速域の閾値をtpf, tpm, のもの,そして,根音と短3度,完全5度のものである。
tpsとした時のテンポ特徴セルの興奮度を表すグラフを したがって,それぞれ12個の根音があるのでセル24個を 示す。例えば,tpf=8, tpm=4, tps=2であり,6個 用いる。
の音が鳴っているとすると,それぞれのセルの興奮度は 3.3 感情抽出機構
高速域セル=0.5,中速域セル=0.5,低速域セル=0と 鑑賞している音楽から抽出する感情として,「喜び」,
なる。 「怒り」,「哀しみ」,「楽しみ」を用い,これらを補助感
・音域の抽出 情セル4個で表す。この感情名は便宜的に付けた名前で 音高は個別には抽出せずに音域特徴を用いる。ピァノ あり,人間各個人が感ずる感情名とは異なる。音楽特徴 の音域を参考に低音域(〜C2),中低音域(C 2〜C セルの状態によって,補助感情セルの状態を決定する。
3),中音域(C3〜C4),中高音域(C 4〜C5),
ノートナンバ 464850 586062 707274 828486
音名 C2 C3 C4 C5 (a)低音域セル
ノートナンバ 464850 586062 707274 828486
一鳴っている音の数 音名 C2 C3 C4 C5
(a) 低速域セル (b)中低音域セル
ニセlr の数墾↑1:L二二ニ
ノートナン 、 464850 586062 707274 828486
音名 C2 C3 C4 C5
一鳴っている音の数 鴉ナンバ 464850 586062 707274 828486 音名 C2 C3 C4 C5 (c) 高速域セル
(e)高音域セル
図5 テンポの定義 図6 音高域の定義
60 玉木明和・矢鳴虎夫・加藤清史
この決定機構として・入力層44個・1!間層36個・及ぴ 4.ニュ_ラルネットの学習 出力層4個からなる3層ニューラル不ットを用いた。感
情抽出機構の概略を図7に示す。音楽特徴セルの興奮度 感情抽出機構及び感情変化機構はともに3層ニューラ をニューラルネットの入力層に入力し,出力層の4個の ルネットを用いているので,ネットワークの結合係数で セル(すなわち,「喜び」,「怒り」,「哀しみ」,「楽しみ」 ある重みの学習を行う必要がある。これらの重みの学習 の度合いを表すセル)の値を補助感情セルに伝える。 には学習データを作成し,バックプロパゲーション法で 3.4 感情変化機構 行った。
図2のブロック図では明示していないが,フィード 4.1 感情抽出機構の学習
バック機能を持っており,感情セルと補助感情セルに 種々の音楽フレーズに対して,感情のそれぞれの大き よって,感情セルを変化する。感情セルも補助感情セル さを教師データとして,音楽環境を学習する。被験者に と同じ4つの感情を表すため4個のセルからなる。最新 2小節程度の短いフレーズを聴かせ,4つの感情,「喜 の補助感情セルと現在の感情セルの状態によって最終出 び」,「怒り」,「哀しみ」,「楽しみ」のどれを感じたかを 力である感情セルを更新する。この機構も,入力層8個, 答えるアンケートを行った。図9に示す曲(花)のフ 中間層15個,及び,出力層4個からなる3層ニューラル レーズでは「喜び」を感じたと答えたので,「喜び」の ネットで構成した。図8に感情変化機構の概略を示す。 学習するためのフレーズとなる。すなわち,この曲から 感情セルの直前の値と演奏音楽から抽出された補助感情 抽出される感情の学習データは,「喜び」=1,「怒り」
セルの値によって,感情セルが更新される。したがって, =0,「哀しみ」=0,「楽しみ」=0である。
入力層には,補助感情セルの値と感情セルの直前の値を また,図10にこのフレーズにおいて抽出された音楽特 入力する。すなわち,直前の感情と抽出された感情から, 徴を示す。これは,このフレーズを演奏したときの各音 現在の感情を更新するのである。 楽特徴の最大値を示している。図10で示す44個の音楽特
音楽特徴セル
入力層 中間層 出力層
セル44個 セル36個 セル4個 図7 感情抽出機構
喜 怒 哀 楽
補 助 感 情 セ
ノレ
単音
C cc8 D D8● E F
0.㎜〕00 0.000000 0.160006 0.000000 .0516980.00㎜
F99 G G日 A A9● B
0.(万ll29 0.199322 0.000000 0.039855 .000000 0.000000
和音(メジャー)
C C甘 D D8● E F
0.000000 0.000㏄0 0.000㏄0 αOUU㎜0.㎜ .0000α)
F縛 G G日 A A8 B
0.000000 0.000000 0.000000 0.000000 0.000000 0.㎜
Delay 和音(マイナー)
セル8個 セル15個 セル4個 喜
怒 警
哀 ル
C C88 D Dll E F
0.000000 0.0000000.00㎜ 0.00αXX)0.000000 .000㏄0
Fl9 G G縛 A A B
0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 音高
楽 低域 中低域 dl域 中高域 高域 0000000 .160006 0342004 0000000 0000000
テンポ 図8 感情変化機構
低速 0.4α5870
中速
.473684 高速 0.120445
≡基≡≡⊆≡ 図1・噺として用いた曲(花)のフレーズの音楽特徴
図9 「喜び」として用いた曲(花)のフレーズ
表1 感情変化機構学習データ
補助感情セル
喜び 怒り 哀しみ 楽しみ
平静 1.0,0.0,0.0,0.5 0.0,1.0,0.0,0.0 0.0,0.0,1.0,0.0 0.5,0.0,0.0,1.0
喜び 1.0,0.0,0.0,0.5 0.5,0.5,0.0,0.0 0.0,0.0,0.0,0.0 1.0,0.0,0.0,1.0
直前の感情
怒り 0.5,0.5,0.0,0.0 0.0,1.0,0.0,0.0 0.0,0.5,0.5,0.0 0.0,0.0,0.0,0.0
哀しみ 0.0,0.0,0.0,0.0 0.0,0.5,0.5,0.0 0.0,0.0,1.0,0.0 0.0,0.0,0.5,0.5
楽しみ 1.0,0.0,0.0,1.0 0.0,0.0,0.0,0.0 0.0,0.0,0.5,0.5 0.5,0.0,0.0,1.0
(注意)
各欄は出力層のセルの興奮度を「喜び」,「怒り」,「哀しみ」,「楽しみ」の順で示す.
徴を入力層に入力したときに,出力層が,「喜び」=1, 力したときのシミュレーションを行った。信号変換機構
「怒り」=0,「哀しみ」=0,「楽しみ」=0となるよう のパラメータはα=1.0とし,β=0.5及びβ=0.1と に学習する。他の感情を感じた曲の学習データに対して して行った。β=0.5の場合の感情セルの変化を図11に も学習を行う。「怒り」,「哀しみ」,「楽しみ」を感じた 示す。(a)は感情「喜び」のセルの興奮度の時間変化を 曲のフレーズ及び音楽特徴を付録に示す。 示し,10秒前後で大きな値となっている。(b)の「怒 4.2 感情変化機構の学習 り」は10秒前後では小さな値となっているが,11秒では 音楽を聴いて感情が変化するのであるが,直前の感情 大きな値となっている。(c)の「哀しみ」は10秒前後で
と音楽から抽出された感情の組み合わせにより,感情変 小さな値になっている。(d)の「楽しみ」は「喜び」と 化を推定して,学習用データを作成した。表1にその学 ほぼ同じように変化しているが,全体的に,「喜び」よ 習用データを示す。補助感情及び直前の感情の「喜び」, り値が大きいようである。
「怒り」,「哀しみ」,「楽しみ」は対応するセルだけが興 また,同じ演奏記録に対して,β=0.1の場合を図12 奮度が1で,他のセルは0であることを示す。また, に示す。β=0.1の場合もβ=0.5の場合とほぼ同様の変
「平静」は直前の感情のすべてのセルの興奮度が0であ 化が見られたが,細かい部分には違いがでている。これ ることを意味する。例えば,直前の感情が「喜び」=1, は音楽特徴を検出する時間に違いがあるためである。
元慧㌫㌶㌫㌫竺曇蒜三鴎 6・考察
しみ」=0の場合には,表1の1番左側の上から2番目 音楽を聴いたときの感情変化を感情抽出及び感情変化 の欄の内容にしたがって,出力層の興奮度が「喜び」= の2段階に分けてモデル化を行い,シミュレーションを 1.0,「怒り」=0,「哀しみ」=0,「楽しみ」=0.5とな 行ったが,改良すべき多くの問題点がある。
るように学習する。 このシミュレーションでは音楽演奏を実際の音声では なく,演奏指令であるMIDI信号を入力データとしてい 5・実験結果 るため,人間が音楽を聴くときに感情変化に多大な影響
前述したように,4つの感情「喜び」,「怒り」,「哀し を与える音色に関する情報を無視している点がある。
み」,「楽しみ」を表す2小節程度のフレーズを演奏した ここでは,音楽特徴として44個の特徴を用いたが,そ MIDI信号を入力し,感情抽出機構iの学習を行った。感 の中の大半を占める和音の特徴がほとんど検出されてい 情変化機構は表1に示すもので学習を行った。以上の感 ない。和音は人間が音楽を聴くときの重要な要因であり,
情抽出機構,感情変化機構の学習を行った後に,感情抽 和音の特徴抽出法の改良が必要である。
出を行いたい曲を演奏したMIDI信号の記録を入力し, 感情抽出機構及び感情変化機構の学習に使用した学習 最終出力である感情セルの状態の変化によって,抽出さ データがシミュレーションに重要な影響を与える。抽出 れた音楽感情を調べた。感1青抽出及び感情変化は1秒間 機構の学習データは被験者のアンケート結果から得たも 隔でシミュレーションを行った。 のであるが,2小節程度のフレーズの演奏から抽出され 「僕たちの失敗」という曲の一部を演奏した記録を入 た音楽特徴の最大値を用いており,このフレーズの演奏
62 玉木明和・矢鳴虎夫・加藤清史
時間では感情変化が起こらないことを前提としている。
また,変化機構については,抽出された感情と現在の感 情から感情変化を予想して学習用データを作成した。こ れもアンケートなどを行い学習データを作る必要があろ
う。
頴
7.おわりに
・ 1 2・ ° 2° 今回はただ一つの音楽環境について形成された音楽経
く ロ ロくの
ω富び ω怒り 験に対して感情変化を調べたが,今後は種々の環境に対 する感情変化を調べる必要がある。
また,このシミュレーション結果の評価方法として回
1
0
篇
答した被験者に感情変化の結果を見せ,評価するのも一 案である。前述した問題点を改良して,被験者が納得す るシミュレーションが得られるようにしたい。そして,
演奏音楽から的確な感情抽出ができるようになれば自動 演奏への応用を考えていきたい。
剛1忘丁』』亦一 ゜ 時品,, 2° 最後に,実際にプログラムの作成及び実験を行ってく ω肌み (引楽しみ れた重松宏敏君と水本浩司君に感謝する。
鮪 賦
図11β=0.5の時の感情変化
賦
時llll(s) 時lln(s)
参考文献
[1]井口,他, 感性情報処理 ,オーム社,1994
[2]大照,橋本, 仮想音楽空間 ,オーム社,1994
[3]Feiten, B., Gunzel, S., Automatic Indexing of a Sound Database Using Self−organizing Neural Nets , Computer Music Joumal, Vol.18, Num.3, pp.53−65
[4]重松,水本, ニューラルネットワークを用いた音楽情報 からの感情抽出 ,平成5年度九州工業大学工学部電気工 学科卒業論文,1994
付録1 「怒り」として用いた曲(キャッッアイ)のフレーズと音楽特徴 学習データ:喜び=0,怒り=1,哀しみ=0,楽しみ=0
・・・・… @ 怒・ 藁一≡一一一一一三辱一
単音
C C D D E F
0.㎜0.000㎜ 0.046944 O.000t1000.181nZ7 .00000〔1
#F G G A A甜 B
0.㎜ 0.㎜0.000㎜0.002〔〕91O.UOOω0O.197518
頴 和音(メジヤー)
0 10 20 0 10 20
時洲(s、1) 時問(s)
(c) 哀しみ (の 楽しみ
図12β=0.1の時の感情変化
C C# D D# E F
0.000000 0.0000000.0〔貝)00〔ハ 0.0α1000o.〔㎜⊃0.【)0αX則
Fお G G縛 A A縛 B
0.000㎜0.000(叉X】O.0000UO0.【㎜}0O.00〔}0α」O.0(X㎜)
和音(マイナー)
C C縛 D Dβ E F
0.0000000,000α】00.000000 0.0000000.00{X叉)00.αXlO〔則
F# G G# A A# 1〕
0.000000 0.000000 0.000000 O.000000 0.OUOOOO 〔」.(xxx瓦薗〕
音高 低域 0000000
中低域 246553
中域 Ol81027
中高域 高域 OOOOOOO O OOOOOO
テンポ ・ 低速 中速 高速
0.332353 3〔〕1471 0366176
付録2 「哀しみ」として用いた曲(四季の歌)のフレーズと 付録3 「楽しみ」として用いた曲(山口さんちのツトム君)の 音楽特徴. フレーズと音楽特徴
学習データ:喜び=0,怒り=0,哀しみ=1,楽しみ=0 学習データ:喜び=0,怒り=0,哀しみ=0,楽しみ=1
一 =F一ヨi三=弱i∋≡≡ ∋ i一ヨ莚垂巨
単音
単音
C C# D D縛 E F
0.㎜0.0001)000.㎜0.000000 0.170885 .00αXヌ〕
F# G G# A A# B
0.0403080.1励340.000000 0.045478 0.onOOOO 0.071191
和音(メジャー)
C C# D D# E F
0.000000 0.000000 0.000㏄0 0.OOOOOO 0.000000 0.000000
F討 G G縛 ∧ ∧# B
0.0000000.1㎜0.㎜ .000〔㎜ .α)Ot)000.0000〔m
和音(マイナー)
C C# D D# E F
o.㎜0.000000O.Ol㎜0.000000 0.000000 .OOOOOO
F# G G党 A A# B
0.000000 0.0000000.㎜ .0000000.000000 0コ000000
C C# D D E F
0.227363 0.0000000.⊂XX㎜O O.脱XlOUO 】.057233O.〔IUOOOO
F# G G A A口 13
0.㎜0.1923350.00〔㎜) 0.〔XX叉コO{ハ,0【】αX叉, O.〔】0〔XX田
和音(メジヤー)
C C党 D D E F
0.083975 0.000000 0.000000 0.000000(ハ.αめooo .000000
F# G Gロ A A# B
0.㎜0000.000000 0.000000 0.0000UOt}.{X}0000 0.00〔旭00
和音《マイナー)
C C舘 D D E F
0.000000 0.α㎜沿0.OOO【}00 o.㎜)O.000000 .oooooo
F# G G A A B
0.0000000.00㎜00.000000 0.000000 .000000 0.000000 音高
音高
低域 r11低域 rl1域 中高域 高域
0.000000.0000000.0443060.㏄OO〔】OO,α㎜1) 低域 中低云或 中域 中高域 高域
0.㎜00.22惚0.2⌒.㎜0.α㎜)
テンポ テンポ・
低速 中速 高速
0.342505 .491461 0.166034 低速 司1速 高速
0.㎜.1θ13−4