IPSJ SIG Technical Report Vol.2016-MUS-111 No /5/21 1, 1 2,a) HMM A study on an implementation of semiautomatic composition of music which matc

(1)

カラー静止画像の印象にマッチした楽曲の

半自動生成に関する研究

根本彩惠

1,†1

_{齋藤康之}

2,a) 概要：画像，音楽は人の情動に大きな影響を与える．画像を見る際にその画像の印象に合った楽曲が流れれば，より深く画像の印象を与えることができると考えられる．本研究では，画像の色情報に対応する「印象語」を獲得し，楽曲を半自動で生成することを目的とする．キーワード：カラー静止画像，楽曲生成，印象語，配色，HMM

A study on an implementation of semiautomatic composition of music

which matches impressions of color still image

Sae NEMOTO

1,†1

Yasuyuki SAITO

2,a)

Abstract: This paper shows a creation method of music pieces which match with impressions of an input

color still image. The picture and the music have a strong influence on the emotion of the person. When people watch an image such as a picture or a photograph, it is considered that they can feel deeper the impression of the image if a music which matches the image impression is played.

Keywords: color still image, musical piece, impression word, color scheme, hidden Markov model

1. はじめに

画像や音楽は人の情動に大きな影響を与える．人が絵画や写真などの画像を見る際に，その画像にあった音楽を流すことができれば，画像の印象をより深く伝えられるであろう．画像内の物体には色，形があり，各々には音楽と何らかの関連性があることが分かっている．関連研究として，配色の印象に基づいた演奏支援システム[1]やカラー画像を領域分割し色情報から楽曲を生成する研究[2] がある．前者は画像の配色により異なる印象を与えることに注目し，既存の楽曲をどのように演奏するかという研究である．後者は画像を領域分割し色情報から楽曲を生成する研 1 _{木更津工業高等専門学校専攻科制御・情報システム工学専攻} Advanced Course, Dept. of Control and Information System Engineering, NITKC, Chiba, 292–0041, Japan

2 _{木更津工業高等専門学校情報工学科}

NIT, Kisarazu College, Kisarazu, Chiba, 292–0041, Japan †1 _{現在，シーメンスヘルスケア株式会社} a) _{[email protected]} 究であるが，改善すべき点として「画像の特徴」と楽曲との対応づけを個人の主観によって直接的に行っていることが挙げられる．そこで本研究では，画像の色情報を「配色の印象」に変換し，心理的な実験理論に基づき楽曲を半自動的に生成することを目的とする．各人が画像に抱く印象や所望する楽曲は異なるため楽曲を生成する際にユーザが介入することとする．

2. 配色，楽曲と心理学的知見

画像の配色や楽曲は人の感情に関与していると言われており[3][4]，心理学的知見により画像と楽曲との対応を見出せると考えられる． 2.1 PCCS

PCCS（Practical Color Coordinate System）は，財団法人日本色彩研究所が定義した色彩調和を主な目的としたカラーシステムである．明度と彩度を「トーン」という概念

(2)

図1 PCCSトーン図2 PCCS色相環の例（図1）でまとめ，「色相」「トーン」の2系列で色彩調和の基本形列を表している．図2にPCCS色相環の例を示す．色彩から多くの人が共通して受ける印象として，高明度は「柔らかい色」「膨張色」「軽い色」，低明度は「硬い色」「収縮色」「重い色」とされる．また，高彩度は「派手」，低彩度は「地味」などが一般的に挙げられ，高彩度・暖色系は「興奮色」，低彩度・寒色系は「沈静色」とされる[5]． 2.2 Hevnerの研究音楽心理学者のHevnerの研究では，楽曲構成要素として調性・テンポ・音高・リズム・和声・旋律の6つを挙げている．Hevnerは，この6つの楽曲構造要素と8つの印象語群によって表現される印象との相関係を調べた（表1）． 8つの印象語群は図3のように円形に並べられ，各群の中の形容語は互いに類似性が高く，隣り合う群はやや関連するが類似性はそれほど高くない．そして，円形の反対側に位置する群の形容語は反対の意味を持つように並べられている[6]．図3 8つの印象語群

3. 隠れマルコフモデル

作曲において，作曲者が想定するコード進行とそのコードの音の長さは確定的ではない．そこで，それらを 1つの状態とみなし，確率モデルで表現することを考える．観測できる情報をコードの音とするとコード進行は直接観測できず隠れ状態と考えられる．そのため，隠れマルコフモデル（hidden Markov model：以下HMM）でモデル化することで，隠れたコード進行を表現できると考えられる． HMMは図4に示すように，出力ベクトルOtを出力する確率分布が bi であるような状態が，状態遷移確率aij をもって接続されたものとして定義される[7]．

4. 画像からの半自動楽曲生成方法

本システムでは入力画像から得られる配色の印象を楽曲に変換し，電子音楽ファイルSMF（standard MIDI file）

として出力する．システムの流れ図を図5に示す．処理過

(3)

図4 HMMの例 4.1 画像処理部入力画像は RGB画像各色8ビットとする．RGB色空間から人間の感覚として色を評価するHSV色空間へ変換し，その値を元に色相・トーンを分析し配色から得られる印象語を抽出する．印象語はHevnerの8つの印象語群の中

から「awe-inspiring, dark, dreamy, calm, delicate, bright, agitated, emphatic」を引用する．楽曲の情報と印象を心理学的に対応させており，これらを用いることにより心理的に見た配色と関係性が見出せると考えられる．本研究では，画像全体と画像を4分割した各々に処理を施し，5つの印象語を抽出する． 4.1.1 色の分析と減色および配色画像の作成画像内の全画素に対し，各画素の色が PCCS 色相環， PCCSトーンの概念のどこに位置するか分析する．色相は有彩色の場合，24の色相のどれであるか，トーンは12種のどれであるかを調べる．あらかじめ色見本[8] に従い， PCCS色相環，トーンの各色において代表色のHの値，色相番号をデータベースに登録しておく．RGB空間における色同士の距離を調べることによって注目画素の色がデータベース中のどの色に最も近いかを分析する．その距離d は，調べたい画素のRGBの値をRj, Gj, Bjとし，あらかじめ登録されているRGBの値をRk, Gk, Bk とすると， d = √ (Rj− Rk)2+ (Gj− Gk)2+ (Bj− Bk)2 (1) で求まる．配色の組み合わせを分析しやすくするため，画像内の全画素に対して分類された色相とトーンをもとに，対応する色に変換して減色を行う．減色画像内に含まれる代表色の画素数Nk の比率Skを式(2)により求める． Sk= Nk Ntotal (2) ここでNtotal= ∑ Nk で，全画素数に等しい．このSk を縦の長さとし，適当な横幅を与えて配色画像を作成する． 4.1.2 印象語の抽出印象語が対応する明度・彩度の割合を事前に指定しておき，その情報と配色画像の明度・彩度の割合を比較し，あてはまる印象語を抽出する．本研究では，文献[8] を参考図5 システム流れ図表2 抽出される印象語と明度，彩度の対応印象語彩度明度 dark 0∼20 0∼30 dreamy 20∼40 25∼50 delicate 20∼40 75∼100 awe-inspiring 60∼80 0∼33 calm 60∼80 50∼75 bright 60∼80 66∼100 emphatic 60∼80 33∼66 agitated 80∼100 25∼75 表3 調性の決定調性印象語

ハ長調 delicate bright agitated emphatic イ短調 awe-inspiring dark dreamy calm

にして，表2のように印象語を明度・彩度に対応づけた． 4.2 楽曲生成部画像処理部で得られた5つの印象語をもとに楽曲生成を行う．楽曲の構成は一般的な楽曲に用いられるイントロ， A メロ，B メロ，サビ，アウトロで構成し，得られた印象語をユーザがそれらに対応づける．その後，対応にしたがって楽曲を作成し，最後に楽曲を繋げ1つの楽曲として出力する．画像から得られる印象語は同じでも，ユーザが関与することで様々な楽曲を生成できる．なお，同じ印象語が抽出された場合は，重複使用を許す． 4.2.1 調性，コード進行，テンポの決定 Hevnerは印象語を長調と短調に分類した．本研究では，ハ長調とイ短調を扱うこととし，得られた印象語が属するグループの多い方の調性を楽曲の調性とする．表3は，調

性と印象語の対応を示す．例えば「bright，calm，delicate，

calm，calm」が得られたとするとハ長調となる．ハ長調ならばC, F，G，イ短調ならばAm，Dm，Eとしてコードを決定する．この際，コード進行を HMMでモデル化する．確率的に状態遷移することで，印象の異なるコード進行になると考えられる．状態遷移図を図6に示す．なお，Tはトニック，Dはドミナント，Sはサブドミナントを意味する．

(4)

図7 伴奏パターン表4 テンポの決定抽象的なテンポ印象語重み速い delicate 6 bright 20 agitated 21 emphatic 6 遅い awe-inspiring -14 dark -12 dreamy -16 calm -20 伴奏は図7に示したパターンの中からユーザが指定し，コードに合わせて決定する．楽曲全体のテンポはHevnerの研究より印象語により決定する（表4）．まず，得られた印象語が属するグループの多さにより，楽曲全体のテンポを「速い」「遅い」というような抽象的なテンポとして決定する．次に，表4に示したHevnerの研究により得られた重みを用いて，式(3)で具体的なテンポの決定を行う．テンポ= 88 +重みの合計 (44≤テンポ≤ 184) (3) ただし，式(3)では，決定された抽象的なテンポのグループに属する印象語の重みだけを用いる．また，通常の楽曲で用いられるテンポの範囲に収まるように，上限・下限を設ける．「遅い」テンポ，「速い」テンポの中間となる，88を基準

のテンポとする[9]．たとえば，「bright，calm，delicate， calm，calm」が得られたとすると，「bright」「delicate」が

「速い」に属し，「calm」は「遅い」に属するので，抽象的なテンポは「遅い」と決定される．さらに，calm（重み-20）が3つなので，式(3)より具体的なテンポは28となるが，最終的に下限値の44に決定される． 4.2.2 メロディ・トラックの作成事前に印象語とメロディのリズムパターンを対応付けておき，データベースに登録しておく．印象語に基づいて決定されたリズムパターン内の音長をランダムに並び替え図8 印象語と音高パターンの対応る．休符は，2小節で1 回までの出現とする．Hevnerの研究から，メロディを固定または流動に決定する．固定はある並び替えられたリズムを8小節間繰り返し，流動は1 小節ごとにリズムの変更を行う．表5に対応を示す．音高は，事前に印象語と対応付けておいた音高パターンをもとに決定する方法と，画像の明度から決定する方法を構築する． (A) 印象語から音高パターンを決定する方法平易なメロディラインの多い童謡を手本に，多くのフレーズの変化単位である2小節を音高の変化パターンの単位とする．印象語と音高パターンの対応を図8に示す．その音高パターンを2小節分とし，上で得られたリズムの音長を距離に見立てて実際の音高を決定する． (B) 画像の明度から音高変化を決定する方法楽曲のフレーズの音高は上昇→下降または下降→上昇となることが多い．そこで，ユーザが画像のどの行の明度に注目するか入力し，指定された行の左端から注目し，画像の右端に来たらまた左端まで戻ることで，フレーズの折り返しを表現する．その都度，注目画素から画像の横幅の 1 10 に相当する距離の範囲内にある画素の明度の平均を各々求める．そのデータを楽譜の2小節分とし，上で得られたリズムの音長を距離に見立て，その両端の明度の差dV を求める．dV > 0のときは音高を上昇させ，dV < 0のときは下降させ，dV = 0のときは同じ音高を維持する． 4.2.3 リズム・トラックの作成抽出された印象語を用いて，ドラムセットの各々の音色でリズム・トラックの作成を行う．ドラムパターンは一般的な楽曲に使われる「8ビート，16ビート，ロッカバラー

(5)

図9 システムの外観表6 印象語とドラムパターンの対応印象語ドラムパターン dark ロッカバラード，スウィング dreamy ロッカバラード，スウィング delicate ロッカバラード，スウィング awe-inspiring ロッカバラード，スウィング，ボサノバ calm 8ビート，ロッカバラード bright 8ビート，シャッフル emphatic 8ビート，ソンゴ agitated 8ビート，ソンゴド，スウィング，ボサノバ，シャッフル，ソンゴ」の7種類とする．印象語とドラムパターンの対応には主観評価実験で得られた結果を用いる[10]．それは，被験者に各々のドラムパターンを2回聞いてもらい，反対の意味の印象語群（例：明るい，暗い）のどちらに近いかを評価してもらう実験である（5.1節参照）． 4.3 システムの実装 Qt[11]により作成したシステムの外観を図9に示す．まず，ユーザはOpenのボタンを押し画像を選択する．選択された画像が表示されAnalyzeのボタンを押すと画像が解析され，印象語が抽出される．その後，部分楽曲ごとに使用する印象語と伴奏パターンを選択し，Make Musicボタンを押すと楽曲が生成される．Listen Musicボタンを押すと，MIDIシーケンサの「世界樹」が起動され[13]，生成された楽曲を聞くことができる．

5. 実験結果

5.1 予備実験結果印象語とドラムパターンの対応を決めるため，4.2.3項で示した方法により12名（本校吹奏楽部員）に主観評価実験を行ってもらった[10]．予備実験により決定した印象語とドラムパターンの対応を表6に示す． 5.2 主観評価実験1 実際にユーザにシステムを使用してもらい，メロディ生成方法(A)により楽曲を作成し，主観評価実験を行った．異なる印象語が抽出される画像 3枚を評価してもらった．評価項目は，以下の 5つである． 1) 画像にマッチしているか 2) メロディが自然か 3) ドラムが自然か 4) 伴奏が自然か 5) ユーザの好みが反映されているか 8名の被験者（本校吹奏楽部員）に5段階で評価してもらった．評価は5が最も当てはまることを示す．文献[12] から入手して実験に使用した画像を図 10に，評価結果を図11 に示す．どの画像の結果についても画像にマッチした楽曲になったといえる．また，画像によって多少のばらつきがあるものの，ユーザの好みもある程度は反映されているといえる．メロディ，伴奏も概ね自然であるといえる．しかし，ドラムが不自然という回答が多かった．これは，ドラムの音の大きさを変えておらず，曲全体のバランスが考慮されていなかったからだと考えられる．また，曲のテンポがドラムと合っていない場合もあり不自然に感じていたとも考えられる．テンポの変化があまりなかったという回答もあった．テンポ決定をする際の重みが小さかったと考えられる． 5.3 主観評価実験2 メロディ生成方法(B)により楽曲を作成し，再び主観評価実験を行った．異なる印象語が抽出される画像 3枚を 10 名の被験者（本校学生）に5段階で評価してもらった．評価項目は主観評価実験1と同様である．文献[12]から入手して実験に用いた画像を図12に，評価結果を図13に示す．どの画像の結果についても概ね画像にマッチした楽曲になり，ユーザの好みも反映されているが，メロディ，伴奏，ドラムの個々の要素については改善を要するといえる．

6. まとめ

本研究では画像の色情報を「配色の印象」に変換し，心理的な実験理論に基づき楽曲を半自動的に生成することを目的とし半自動楽曲生成方法の検討，実装を行った．入力画像から印象語を抽出し，楽曲を生成し，主観評価実験を行った．ユーザが伴奏パターンを指定することでユーザの好みを概ね反映した伴奏が可能となった．今後は，リズム・トラックと伴奏のメロディとの関わり合いを見直す必要がある．そして，より多くの被験者による主観評価実験を行う予定である．また，使用される調や楽器の数を増やすことで作成される楽曲の幅を広げていくとともに，デジタルフォトフレームやスマートフォン，タブレット端末などでも実装したい．

(6)

(b) (c) 図10 主観評価実験1で使用した画像 (1)画像にマッチしているか (2)メロディが自然か (3)ドラムが自然か (4)伴奏が自然か (5)ユーザの好みが反映図11 主観評価実験結果1 謝辞本研究の一部は，日本学術振興会の科学研究補助費基盤研究(A) 26240025による．参考文献 [1] 神田尚子：配色イメージに基づいた演奏支援システム，電気通信大学平成22年度卒業論文(2011). [2] 前田和博：カラー画像からの楽曲生成，木更津高専専攻科特別研究論文(2010). [3] 社団法人日本流行色協会：色のイメージ事典，同朋舎出版(1991). [4] 山崎晃男：音楽と感情についての心理学的研究，大阪樟蔭女子大学人間科学研究紀要, 8, pp.221–232 (2009). [5] 色彩カラー研究所，入手先_{⟨http://www.ts-depot.com/color/color/} basic03.html⟩

[6] Hevner, K.: Expression in music: A discussion of ex-perimental studies and theories, Psychological Review,

(b) (c) 図12 主観評価実験2で使用した画像 (1)画像にマッチしているか (2)メロディが自然か (3)ドラムが自然か (4)伴奏が自然か (5)ユーザの好みの反映図13 主観評価実験結果2 Vol.42, pp.186–204 (1935). [7] 徳田恵一：隠れマルコフモデルによる音声認識と音声合成，情報処理学会誌，Vol.45, No.10, pp.1005–1011 (2004). [8] WSJ - Good! よいホームページを創ろう講座5.3，入手先⟨http://www.wsj21.net/ghp/ghp0c 03.html⟩ [9] BPMについての簡単な説明，入手先⟨http://www14.plala.or.jp/nekokirin/ 02aboutbpm/01aboutbpm.html⟩ [10] 根本彩惠：画像の印象にマッチした楽曲の半自動生成に関する研究，木更津高専専攻科特別研究論文(2015). [11] Blancbette, J. and Summerfield, M.：入門Qt4プログラ

ミング，オライリー・ジャパン(2007). [12] PHOTO PIN,入手先⟨http://photopin.com/⟩ [13] おーぷんMIDIぷろじぇくと，

入手先_{⟨http://openmidiproject.sourceforge.jp/} Sekaiju.html/⟩

IPSJ SIG Technical Report Vol.2016-MUS-111 No /5/21 1, 1 2,a) HMM A study on an implementation of semiautomatic composition of music which matc

カラー静止画像の印象にマッチした楽曲の

半自動生成に関する研究

根本 彩惠

齋藤 康之

A study on an implementation of semiautomatic composition of music

which matches impressions of color still image

Sae NEMOTO

Yasuyuki SAITO

1.

はじめに

2.

配色，楽曲と心理学的知見

3.

隠れマルコフモデル

4.

画像からの半自動楽曲生成方法

5.

実験結果

6.

まとめ

根本彩惠

_{齋藤康之}