カラー静止画像の印象にマッチした楽曲の
半自動生成に関する研究
根本 彩惠
1,†1齋藤 康之
2,a) 概要:画像,音楽は人の情動に大きな影響を与える.画像を見る際にその画像の印象に合った楽曲が流れ れば,より深く画像の印象を与えることができると考えられる.本研究では,画像の色情報に対応する「印 象語」を獲得し,楽曲を半自動で生成することを目的とする. キーワード:カラー静止画像,楽曲生成,印象語,配色,HMMA study on an implementation of semiautomatic composition of music
which matches impressions of color still image
Sae NEMOTO
1,†1Yasuyuki SAITO
2,a)Abstract: This paper shows a creation method of music pieces which match with impressions of an input
color still image. The picture and the music have a strong influence on the emotion of the person. When people watch an image such as a picture or a photograph, it is considered that they can feel deeper the impression of the image if a music which matches the image impression is played.
Keywords: color still image, musical piece, impression word, color scheme, hidden Markov model
1.
はじめに
画像や音楽は人の情動に大きな影響を与える.人が絵画 や写真などの画像を見る際に,その画像にあった音楽を流 すことができれば,画像の印象をより深く伝えられるであ ろう.画像内の物体には色,形があり,各々には音楽と何 らかの関連性があることが分かっている.関連研究とし て,配色の印象に基づいた演奏支援システム[1]やカラー 画像を領域分割し色情報から楽曲を生成する研究[2] があ る.前者は画像の配色により異なる印象を与えることに注 目し,既存の楽曲をどのように演奏するかという研究であ る.後者は画像を領域分割し色情報から楽曲を生成する研 1 木更津工業高等専門学校 専攻科 制御・情報システム工学専攻 Advanced Course, Dept. of Control and Information System Engineering, NITKC, Chiba, 292–0041, Japan2 木更津工業高等専門学校 情報工学科
NIT, Kisarazu College, Kisarazu, Chiba, 292–0041, Japan †1 現在,シーメンスヘルスケア株式会社 a) [email protected] 究であるが,改善すべき点として「画像の特徴」と楽曲と の対応づけを個人の主観によって直接的に行っていること が挙げられる.そこで本研究では,画像の色情報を「配色 の印象」に変換し,心理的な実験理論に基づき楽曲を半自 動的に生成することを目的とする.各人が画像に抱く印象 や所望する楽曲は異なるため楽曲を生成する際にユーザが 介入することとする.
2.
配色,楽曲と心理学的知見
画像の配色や楽曲は人の感情に関与していると言われて おり[3][4],心理学的知見により画像と楽曲との対応を見 出せると考えられる. 2.1 PCCSPCCS(Practical Color Coordinate System)は,財団法 人日本色彩研究所が定義した色彩調和を主な目的としたカ ラーシステムである.明度と彩度を「トーン」という概念
図1 PCCSトーン 図2 PCCS色相環の例 (図1)でまとめ,「色相」「トーン」の2系列で色彩調和の 基本形列を表している.図2にPCCS色相環の例を示す. 色彩から多くの人が共通して受ける印象として,高明度 は「柔らかい色」「膨張色」「軽い色」,低明度は「硬い色」 「収縮色」「重い色」とされる.また,高彩度は「派手」,低 彩度は「地味」などが一般的に挙げられ,高彩度・暖色系 は「興奮色」,低彩度・寒色系は「沈静色」とされる[5]. 2.2 Hevnerの研究 音楽心理学者のHevnerの研究では,楽曲構成要素とし て調性・テンポ・音高・リズム・和声・旋律の6つを挙げて いる.Hevnerは,この6つの楽曲構造要素と8つの印象 語群によって表現される印象との相関係を調べた(表1). 8つの印象語群は図3のように円形に並べられ,各群の 中の形容語は互いに類似性が高く,隣り合う群はやや関連 するが類似性はそれほど高くない.そして,円形の反対側 に位置する群の形容語は反対の意味を持つように並べられ ている[6]. 図3 8つの印象語群
3.
隠れマルコフモデル
作曲において,作曲者が想定するコード進行とそのコー ドの音の長さは確定的ではない.そこで,それらを 1つ の状態とみなし,確率モデルで表現することを考える.観 測できる情報をコードの音とするとコード進行は直接観測 できず隠れ状態と考えられる.そのため,隠れマルコフモ デル(hidden Markov model:以下HMM)でモデル化す ることで,隠れたコード進行を表現できると考えられる. HMMは図4に示すように,出力ベクトルOtを出力する 確率分布が bi であるような状態が,状態遷移確率aij を もって接続されたものとして定義される[7].4.
画像からの半自動楽曲生成方法
本システムでは入力画像から得られる配色の印象を楽曲 に変換し,電子音楽ファイルSMF(standard MIDI file)として出力する.システムの流れ図を図5に示す.処理過
図4 HMMの例 4.1 画像処理部 入力画像は RGB画像各色8ビットとする.RGB色空 間から人間の感覚として色を評価するHSV色空間へ変換 し,その値を元に色相・トーンを分析し配色から得られる印 象語を抽出する.印象語はHevnerの8つの印象語群の中
から「awe-inspiring, dark, dreamy, calm, delicate, bright, agitated, emphatic」を引用する.楽曲の情報と印象を心 理学的に対応させており,これらを用いることにより心理 的に見た配色と関係性が見出せると考えられる.本研究で は,画像全体と画像を4分割した各々に処理を施し,5つ の印象語を抽出する. 4.1.1 色の分析と減色および配色画像の作成 画像内の全画素に対し,各画素の色が PCCS 色相環, PCCSトーンの概念のどこに位置するか分析する.色相は 有彩色の場合,24の色相のどれであるか,トーンは12種 のどれであるかを調べる.あらかじめ色見本[8] に従い, PCCS色相環,トーンの各色において代表色のHの値,色 相番号をデータベースに登録しておく.RGB空間におけ る色同士の距離を調べることによって注目画素の色がデー タベース中のどの色に最も近いかを分析する.その距離d は,調べたい画素のRGBの値をRj, Gj, Bjとし,あらか じめ登録されているRGBの値をRk, Gk, Bk とすると, d = √ (Rj− Rk)2+ (Gj− Gk)2+ (Bj− Bk)2 (1) で求まる.配色の組み合わせを分析しやすくするため,画 像内の全画素に対して分類された色相とトーンをもとに, 対応する色に変換して減色を行う.減色画像内に含まれる 代表色の画素数Nk の比率Skを式(2)により求める. Sk= Nk Ntotal (2) ここでNtotal= ∑ Nk で,全画素数に等しい.このSk を 縦の長さとし,適当な横幅を与えて配色画像を作成する. 4.1.2 印象語の抽出 印象語が対応する明度・彩度の割合を事前に指定してお き,その情報と配色画像の明度・彩度の割合を比較し,あ てはまる印象語を抽出する.本研究では,文献[8] を参考 図5 システム流れ図 表2 抽出される印象語と明度,彩度の対応 印象語 彩度 明度 dark 0∼20 0∼30 dreamy 20∼40 25∼50 delicate 20∼40 75∼100 awe-inspiring 60∼80 0∼33 calm 60∼80 50∼75 bright 60∼80 66∼100 emphatic 60∼80 33∼66 agitated 80∼100 25∼75 表3 調性の決定 調性 印象語
ハ長調 delicate bright agitated emphatic イ短調 awe-inspiring dark dreamy calm
にして,表2のように印象語を明度・彩度に対応づけた. 4.2 楽曲生成部 画像処理部で得られた5つの印象語をもとに楽曲生成を 行う.楽曲の構成は一般的な楽曲に用いられるイントロ, A メロ,B メロ,サビ,アウトロで構成し,得られた印 象語をユーザがそれらに対応づける.その後,対応にした がって楽曲を作成し,最後に楽曲を繋げ1つの楽曲として 出力する.画像から得られる印象語は同じでも,ユーザが 関与することで様々な楽曲を生成できる.なお,同じ印象 語が抽出された場合は,重複使用を許す. 4.2.1 調性,コード進行,テンポの決定 Hevnerは印象語を長調と短調に分類した.本研究では, ハ長調とイ短調を扱うこととし,得られた印象語が属する グループの多い方の調性を楽曲の調性とする.表3は,調
性と印象語の対応を示す.例えば「bright,calm,delicate,
calm,calm」が得られたとするとハ長調となる. ハ長調ならばC, F,G,イ短調ならばAm,Dm,Eと してコードを決定する.この際,コード進行を HMMで モデル化する.確率的に状態遷移することで,印象の異な るコード進行になると考えられる.状態遷移図を図6に示 す.なお,Tはトニック,Dはドミナント,Sはサブドミ ナントを意味する.
図7 伴奏パターン 表4 テンポの決定 抽象的なテンポ 印象語 重み 速い delicate 6 bright 20 agitated 21 emphatic 6 遅い awe-inspiring -14 dark -12 dreamy -16 calm -20 伴奏は図7に示したパターンの中からユーザが指定し, コードに合わせて決定する. 楽曲全体のテンポはHevnerの研究より印象語により決 定する(表4).まず,得られた印象語が属するグループの 多さにより,楽曲全体のテンポを「速い」「遅い」という ような抽象的なテンポとして決定する.次に,表4に示し たHevnerの研究により得られた重みを用いて,式(3)で 具体的なテンポの決定を行う. テンポ= 88 +重みの合計 (44≤テンポ≤ 184) (3) ただし,式(3)では,決定された抽象的なテンポのグループ に属する印象語の重みだけを用いる.また,通常の楽曲で 用いられるテンポの範囲に収まるように,上限・下限を設け る.「遅い」テンポ,「速い」テンポの中間となる,88を基準
のテンポとする[9].たとえば,「bright,calm,delicate, calm,calm」が得られたとすると,「bright」「delicate」が
「速い」に属し,「calm」は「遅い」に属するので,抽象的な テンポは「遅い」と決定される.さらに,calm(重み-20) が3つなので,式(3)より具体的なテンポは28となるが, 最終的に下限値の44に決定される. 4.2.2 メロディ・トラックの作成 事前に印象語とメロディのリズムパターンを対応付けて おき,データベースに登録しておく.印象語に基づいて決 定されたリズムパターン内の音長をランダムに並び替え 図8 印象語と音高パターンの対応 る.休符は,2小節で1 回までの出現とする.Hevnerの 研究から,メロディを固定または流動に決定する.固定は ある並び替えられたリズムを8小節間繰り返し,流動は1 小節ごとにリズムの変更を行う.表5に対応を示す. 音高は,事前に印象語と対応付けておいた音高パターン をもとに決定する方法と,画像の明度から決定する方法を 構築する. (A) 印象語から音高パターンを決定する方法 平易なメロディラインの多い童謡を手本に,多くのフ レーズの変化単位である2小節を音高の変化パターンの単 位とする.印象語と音高パターンの対応を図8に示す.そ の音高パターンを2小節分とし,上で得られたリズムの音 長を距離に見立てて実際の音高を決定する. (B) 画像の明度から音高変化を決定する方法 楽曲のフレーズの音高は上昇→下降または下降→上昇と なることが多い.そこで,ユーザが画像のどの行の明度に 注目するか入力し,指定された行の左端から注目し,画像 の右端に来たらまた左端まで戻ることで,フレーズの折り 返しを表現する.その都度,注目画素から画像の横幅の 1 10 に相当する距離の範囲内にある画素の明度の平均を各々求 める.そのデータを楽譜の2小節分とし,上で得られたリ ズムの音長を距離に見立て,その両端の明度の差dV を求 める.dV > 0のときは音高を上昇させ,dV < 0のときは 下降させ,dV = 0のときは同じ音高を維持する. 4.2.3 リズム・トラックの作成 抽出された印象語を用いて,ドラムセットの各々の音色 でリズム・トラックの作成を行う.ドラムパターンは一般 的な楽曲に使われる「8ビート,16ビート,ロッカバラー
図9 システムの外観 表6 印象語とドラムパターンの対応 印象語 ドラムパターン dark ロッカバラード,スウィング dreamy ロッカバラード,スウィング delicate ロッカバラード,スウィング awe-inspiring ロッカバラード,スウィング,ボサノバ calm 8ビート,ロッカバラード bright 8ビート,シャッフル emphatic 8ビート,ソンゴ agitated 8ビート,ソンゴ ド,スウィング,ボサノバ,シャッフル,ソンゴ」の7種 類とする.印象語とドラムパターンの対応には主観評価実 験で得られた結果を用いる[10].それは,被験者に各々の ドラムパターンを2回聞いてもらい,反対の意味の印象語 群(例:明るい,暗い)のどちらに近いかを評価してもら う実験である(5.1節参照). 4.3 システムの実装 Qt[11]により作成したシステムの外観を図9に示す.ま ず,ユーザはOpenのボタンを押し画像を選択する.選択 された画像が表示されAnalyzeのボタンを押すと画像が解 析され,印象語が抽出される.その後,部分楽曲ごとに使 用する印象語と伴奏パターンを選択し,Make Musicボタ ンを押すと楽曲が生成される.Listen Musicボタンを押す と,MIDIシーケンサの「世界樹」が起動され[13],生成さ れた楽曲を聞くことができる.
5.
実験結果
5.1 予備実験結果 印象語とドラムパターンの対応を決めるため,4.2.3項 で示した方法により12名(本校吹奏楽部員)に主観評価 実験を行ってもらった[10].予備実験により決定した印象 語とドラムパターンの対応を表6に示す. 5.2 主観評価実験1 実際にユーザにシステムを使用してもらい,メロディ生 成方法(A)により楽曲を作成し,主観評価実験を行った. 異なる印象語が抽出される画像 3枚を評価してもらった. 評価項目は,以下の 5つである. 1) 画像にマッチしているか 2) メロディが自然か 3) ドラムが自然か 4) 伴奏が自然か 5) ユーザの好みが反映されているか 8名の被験者(本校吹奏楽部員)に5段階で評価しても らった.評価は5が最も当てはまることを示す.文献[12] から入手して実験に使用した画像を図 10に,評価結果を 図11 に示す.どの画像の結果についても画像にマッチし た楽曲になったといえる.また,画像によって多少のばら つきがあるものの,ユーザの好みもある程度は反映されて いるといえる.メロディ,伴奏も概ね自然であるといえる. しかし,ドラムが不自然という回答が多かった.これは, ドラムの音の大きさを変えておらず,曲全体のバランスが 考慮されていなかったからだと考えられる.また,曲のテ ンポがドラムと合っていない場合もあり不自然に感じてい たとも考えられる.テンポの変化があまりなかったという 回答もあった.テンポ決定をする際の重みが小さかったと 考えられる. 5.3 主観評価実験2 メロディ生成方法(B)により楽曲を作成し,再び主観評 価実験を行った.異なる印象語が抽出される画像 3枚を 10 名の被験者(本校学生)に5段階で評価してもらった. 評価項目は主観評価実験1と同様である.文献[12]から入 手して実験に用いた画像を図12に,評価結果を図13に示 す.どの画像の結果についても概ね画像にマッチした楽曲 になり,ユーザの好みも反映されているが,メロディ,伴 奏,ドラムの個々の要素については改善を要するといえる.6.
まとめ
本研究では画像の色情報を「配色の印象」に変換し,心 理的な実験理論に基づき楽曲を半自動的に生成することを 目的とし半自動楽曲生成方法の検討,実装を行った.入力 画像から印象語を抽出し,楽曲を生成し,主観評価実験を 行った.ユーザが伴奏パターンを指定することでユーザの 好みを概ね反映した伴奏が可能となった. 今後は,リズム・トラックと伴奏のメロディとの関わり 合いを見直す必要がある.そして,より多くの被験者によ る主観評価実験を行う予定である.また,使用される調や 楽器の数を増やすことで作成される楽曲の幅を広げていく とともに,デジタルフォトフレームやスマートフォン,タ ブレット端末などでも実装したい.(b) (c) 図10 主観評価実験1で使用した画像 (1)画像にマッチしているか (2)メロディが自然か (3)ドラムが自然か (4)伴奏が自然か (5)ユーザの好みが反映 図11 主観評価実験結果1 謝辞 本研究の一部は,日本学術振興会の科学研究補助 費 基盤研究(A) 26240025による. 参考文献 [1] 神田 尚子:配色イメージに基づいた演奏支援システム, 電気通信大学 平成22年度 卒業論文(2011). [2] 前田 和博:カラー画像からの楽曲生成,木更津高専 専攻 科 特別研究論文(2010). [3] 社団法人日本流行色協会:色のイメージ事典,同朋舎出 版(1991). [4] 山崎 晃男:音楽と感情についての心理学的研究,大阪樟 蔭女子大学人間科学研究紀要, 8, pp.221–232 (2009). [5] 色彩カラー研究所, 入手先⟨http://www.ts-depot.com/color/color/ basic03.html⟩
[6] Hevner, K.: Expression in music: A discussion of ex-perimental studies and theories, Psychological Review,
(b) (c) 図12 主観評価実験2で使用した画像 (1)画像にマッチしているか (2)メロディが自然か (3)ドラムが自然か (4)伴奏が自然か (5)ユーザの好みの反映 図13 主観評価実験結果2 Vol.42, pp.186–204 (1935). [7] 徳田 恵一:隠れマルコフモデルによる音声認識と音声合 成,情報処理学会誌,Vol.45, No.10, pp.1005–1011 (2004). [8] WSJ - Good! よいホームページを創ろう講座5.3, 入手先⟨http://www.wsj21.net/ghp/ghp0c 03.html⟩ [9] BPMについての簡単な説明, 入手先⟨http://www14.plala.or.jp/nekokirin/ 02aboutbpm/01aboutbpm.html⟩ [10] 根本 彩惠:画像の印象にマッチした楽曲の半自動生成に 関する研究,木更津高専 専攻科 特別研究論文(2015). [11] Blancbette, J. and Summerfield, M.:入門Qt4プログラ
ミング,オライリー・ジャパン(2007). [12] PHOTO PIN,入手先⟨http://photopin.com/⟩ [13] おーぷんMIDIぷろじぇくと,
入手先⟨http://openmidiproject.sourceforge.jp/ Sekaiju.html/⟩