• 検索結果がありません。

IPSJ SIG Technical Report Vol.2016-MUS-111 No /5/21 1, 1 2,a) HMM A study on an implementation of semiautomatic composition of music which matc

N/A
N/A
Protected

Academic year: 2021

シェア "IPSJ SIG Technical Report Vol.2016-MUS-111 No /5/21 1, 1 2,a) HMM A study on an implementation of semiautomatic composition of music which matc"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

カラー静止画像の印象にマッチした楽曲の

半自動生成に関する研究

根本 彩惠

1,†1

齋藤 康之

2,a) 概要:画像,音楽は人の情動に大きな影響を与える.画像を見る際にその画像の印象に合った楽曲が流れ れば,より深く画像の印象を与えることができると考えられる.本研究では,画像の色情報に対応する「印 象語」を獲得し,楽曲を半自動で生成することを目的とする. キーワード:カラー静止画像,楽曲生成,印象語,配色,HMM

A study on an implementation of semiautomatic composition of music

which matches impressions of color still image

Sae NEMOTO

1,†1

Yasuyuki SAITO

2,a)

Abstract: This paper shows a creation method of music pieces which match with impressions of an input

color still image. The picture and the music have a strong influence on the emotion of the person. When people watch an image such as a picture or a photograph, it is considered that they can feel deeper the impression of the image if a music which matches the image impression is played.

Keywords: color still image, musical piece, impression word, color scheme, hidden Markov model

1.

はじめに

画像や音楽は人の情動に大きな影響を与える.人が絵画 や写真などの画像を見る際に,その画像にあった音楽を流 すことができれば,画像の印象をより深く伝えられるであ ろう.画像内の物体には色,形があり,各々には音楽と何 らかの関連性があることが分かっている.関連研究とし て,配色の印象に基づいた演奏支援システム[1]やカラー 画像を領域分割し色情報から楽曲を生成する研究[2] があ る.前者は画像の配色により異なる印象を与えることに注 目し,既存の楽曲をどのように演奏するかという研究であ る.後者は画像を領域分割し色情報から楽曲を生成する研 1 木更津工業高等専門学校 専攻科 制御・情報システム工学専攻 Advanced Course, Dept. of Control and Information System Engineering, NITKC, Chiba, 292–0041, Japan

2 木更津工業高等専門学校 情報工学科

NIT, Kisarazu College, Kisarazu, Chiba, 292–0041, Japan †1 現在,シーメンスヘルスケア株式会社 a) [email protected] 究であるが,改善すべき点として「画像の特徴」と楽曲と の対応づけを個人の主観によって直接的に行っていること が挙げられる.そこで本研究では,画像の色情報を「配色 の印象」に変換し,心理的な実験理論に基づき楽曲を半自 動的に生成することを目的とする.各人が画像に抱く印象 や所望する楽曲は異なるため楽曲を生成する際にユーザが 介入することとする.

2.

配色,楽曲と心理学的知見

画像の配色や楽曲は人の感情に関与していると言われて おり[3][4],心理学的知見により画像と楽曲との対応を見 出せると考えられる. 2.1 PCCS

PCCS(Practical Color Coordinate System)は,財団法 人日本色彩研究所が定義した色彩調和を主な目的としたカ ラーシステムである.明度と彩度を「トーン」という概念

(2)

1 PCCSトーン 図2 PCCS色相環の例 (図1)でまとめ,「色相」「トーン」の2系列で色彩調和の 基本形列を表している.図2にPCCS色相環の例を示す. 色彩から多くの人が共通して受ける印象として,高明度 は「柔らかい色」「膨張色」「軽い色」,低明度は「硬い色」 「収縮色」「重い色」とされる.また,高彩度は「派手」,低 彩度は「地味」などが一般的に挙げられ,高彩度・暖色系 は「興奮色」,低彩度・寒色系は「沈静色」とされる[5]. 2.2 Hevnerの研究 音楽心理学者のHevnerの研究では,楽曲構成要素とし て調性・テンポ・音高・リズム・和声・旋律の6つを挙げて いる.Hevnerは,この6つの楽曲構造要素と8つの印象 語群によって表現される印象との相関係を調べた(表1). 8つの印象語群は図3のように円形に並べられ,各群の 中の形容語は互いに類似性が高く,隣り合う群はやや関連 するが類似性はそれほど高くない.そして,円形の反対側 に位置する群の形容語は反対の意味を持つように並べられ ている[6]. 図3 8つの印象語群

3.

隠れマルコフモデル

作曲において,作曲者が想定するコード進行とそのコー ドの音の長さは確定的ではない.そこで,それらを 1つ の状態とみなし,確率モデルで表現することを考える.観 測できる情報をコードの音とするとコード進行は直接観測 できず隠れ状態と考えられる.そのため,隠れマルコフモ デル(hidden Markov model:以下HMM)でモデル化す ることで,隠れたコード進行を表現できると考えられる. HMMは図4に示すように,出力ベクトルOtを出力する 確率分布が bi であるような状態が,状態遷移確率aij を もって接続されたものとして定義される[7].

4.

画像からの半自動楽曲生成方法

本システムでは入力画像から得られる配色の印象を楽曲 に変換し,電子音楽ファイルSMF(standard MIDI file)

として出力する.システムの流れ図を図5に示す.処理過

(3)

4 HMMの例 4.1 画像処理部 入力画像は RGB画像各色8ビットとする.RGB色空 間から人間の感覚として色を評価するHSV色空間へ変換 し,その値を元に色相・トーンを分析し配色から得られる印 象語を抽出する.印象語はHevnerの8つの印象語群の中

から「awe-inspiring, dark, dreamy, calm, delicate, bright, agitated, emphatic」を引用する.楽曲の情報と印象を心 理学的に対応させており,これらを用いることにより心理 的に見た配色と関係性が見出せると考えられる.本研究で は,画像全体と画像を4分割した各々に処理を施し,5つ の印象語を抽出する. 4.1.1 色の分析と減色および配色画像の作成 画像内の全画素に対し,各画素の色が PCCS 色相環, PCCSトーンの概念のどこに位置するか分析する.色相は 有彩色の場合,24の色相のどれであるか,トーンは12種 のどれであるかを調べる.あらかじめ色見本[8] に従い, PCCS色相環,トーンの各色において代表色のHの値,色 相番号をデータベースに登録しておく.RGB空間におけ る色同士の距離を調べることによって注目画素の色がデー タベース中のどの色に最も近いかを分析する.その距離d は,調べたい画素のRGBの値をRj, Gj, Bjとし,あらか じめ登録されているRGBの値をRk, Gk, Bk とすると, d =(Rj− Rk)2+ (Gj− Gk)2+ (Bj− Bk)2 (1) で求まる.配色の組み合わせを分析しやすくするため,画 像内の全画素に対して分類された色相とトーンをもとに, 対応する色に変換して減色を行う.減色画像内に含まれる 代表色の画素数Nk の比率Skを式(2)により求める. Sk= Nk Ntotal (2) ここでNtotal= ∑ Nk で,全画素数に等しい.このSk を 縦の長さとし,適当な横幅を与えて配色画像を作成する. 4.1.2 印象語の抽出 印象語が対応する明度・彩度の割合を事前に指定してお き,その情報と配色画像の明度・彩度の割合を比較し,あ てはまる印象語を抽出する.本研究では,文献[8] を参考 図5 システム流れ図 表2 抽出される印象語と明度,彩度の対応 印象語 彩度 明度 dark 0∼20 0∼30 dreamy 20∼40 25∼50 delicate 20∼40 75∼100 awe-inspiring 60∼80 0∼33 calm 60∼80 50∼75 bright 60∼80 66∼100 emphatic 60∼80 33∼66 agitated 80∼100 25∼75 表3 調性の決定 調性 印象語

ハ長調 delicate bright agitated emphatic イ短調 awe-inspiring dark dreamy calm

にして,表2のように印象語を明度・彩度に対応づけた. 4.2 楽曲生成部 画像処理部で得られた5つの印象語をもとに楽曲生成を 行う.楽曲の構成は一般的な楽曲に用いられるイントロ, A メロ,B メロ,サビ,アウトロで構成し,得られた印 象語をユーザがそれらに対応づける.その後,対応にした がって楽曲を作成し,最後に楽曲を繋げ1つの楽曲として 出力する.画像から得られる印象語は同じでも,ユーザが 関与することで様々な楽曲を生成できる.なお,同じ印象 語が抽出された場合は,重複使用を許す. 4.2.1 調性,コード進行,テンポの決定 Hevnerは印象語を長調と短調に分類した.本研究では, ハ長調とイ短調を扱うこととし,得られた印象語が属する グループの多い方の調性を楽曲の調性とする.表3は,調

性と印象語の対応を示す.例えば「bright,calm,delicate,

calm,calm」が得られたとするとハ長調となる. ハ長調ならばC, F,G,イ短調ならばAm,Dm,Eと してコードを決定する.この際,コード進行を HMMで モデル化する.確率的に状態遷移することで,印象の異な るコード進行になると考えられる.状態遷移図を図6に示 す.なお,Tはトニック,Dはドミナント,Sはサブドミ ナントを意味する.

(4)

7 伴奏パターン 表4 テンポの決定 抽象的なテンポ 印象語 重み 速い delicate 6 bright 20 agitated 21 emphatic 6 遅い awe-inspiring -14 dark -12 dreamy -16 calm -20 伴奏は図7に示したパターンの中からユーザが指定し, コードに合わせて決定する. 楽曲全体のテンポはHevnerの研究より印象語により決 定する(表4).まず,得られた印象語が属するグループの 多さにより,楽曲全体のテンポを「速い」「遅い」という ような抽象的なテンポとして決定する.次に,表4に示し たHevnerの研究により得られた重みを用いて,式(3)で 具体的なテンポの決定を行う. テンポ= 88 +重みの合計 (44テンポ≤ 184) (3) ただし,式(3)では,決定された抽象的なテンポのグループ に属する印象語の重みだけを用いる.また,通常の楽曲で 用いられるテンポの範囲に収まるように,上限・下限を設け る.「遅い」テンポ,「速い」テンポの中間となる,88を基準

のテンポとする[9].たとえば,「bright,calm,delicate, calm,calm」が得られたとすると,「bright」「delicate」が

「速い」に属し,「calm」は「遅い」に属するので,抽象的な テンポは「遅い」と決定される.さらに,calm(重み-20) が3つなので,式(3)より具体的なテンポは28となるが, 最終的に下限値の44に決定される. 4.2.2 メロディ・トラックの作成 事前に印象語とメロディのリズムパターンを対応付けて おき,データベースに登録しておく.印象語に基づいて決 定されたリズムパターン内の音長をランダムに並び替え 図8 印象語と音高パターンの対応 る.休符は,2小節で1 回までの出現とする.Hevnerの 研究から,メロディを固定または流動に決定する.固定は ある並び替えられたリズムを8小節間繰り返し,流動は1 小節ごとにリズムの変更を行う.表5に対応を示す. 音高は,事前に印象語と対応付けておいた音高パターン をもとに決定する方法と,画像の明度から決定する方法を 構築する. (A) 印象語から音高パターンを決定する方法 平易なメロディラインの多い童謡を手本に,多くのフ レーズの変化単位である2小節を音高の変化パターンの単 位とする.印象語と音高パターンの対応を図8に示す.そ の音高パターンを2小節分とし,上で得られたリズムの音 長を距離に見立てて実際の音高を決定する. (B) 画像の明度から音高変化を決定する方法 楽曲のフレーズの音高は上昇→下降または下降→上昇と なることが多い.そこで,ユーザが画像のどの行の明度に 注目するか入力し,指定された行の左端から注目し,画像 の右端に来たらまた左端まで戻ることで,フレーズの折り 返しを表現する.その都度,注目画素から画像の横幅の 1 10 に相当する距離の範囲内にある画素の明度の平均を各々求 める.そのデータを楽譜の2小節分とし,上で得られたリ ズムの音長を距離に見立て,その両端の明度の差dV を求 める.dV > 0のときは音高を上昇させ,dV < 0のときは 下降させ,dV = 0のときは同じ音高を維持する. 4.2.3 リズム・トラックの作成 抽出された印象語を用いて,ドラムセットの各々の音色 でリズム・トラックの作成を行う.ドラムパターンは一般 的な楽曲に使われる「8ビート,16ビート,ロッカバラー

(5)

9 システムの外観 表6 印象語とドラムパターンの対応 印象語 ドラムパターン dark ロッカバラード,スウィング dreamy ロッカバラード,スウィング delicate ロッカバラード,スウィング awe-inspiring ロッカバラード,スウィング,ボサノバ calm 8ビート,ロッカバラード bright 8ビート,シャッフル emphatic 8ビート,ソンゴ agitated 8ビート,ソンゴ ド,スウィング,ボサノバ,シャッフル,ソンゴ」の7種 類とする.印象語とドラムパターンの対応には主観評価実 験で得られた結果を用いる[10].それは,被験者に各々の ドラムパターンを2回聞いてもらい,反対の意味の印象語 群(例:明るい,暗い)のどちらに近いかを評価してもら う実験である(5.1節参照). 4.3 システムの実装 Qt[11]により作成したシステムの外観を図9に示す.ま ず,ユーザはOpenのボタンを押し画像を選択する.選択 された画像が表示されAnalyzeのボタンを押すと画像が解 析され,印象語が抽出される.その後,部分楽曲ごとに使 用する印象語と伴奏パターンを選択し,Make Musicボタ ンを押すと楽曲が生成される.Listen Musicボタンを押す と,MIDIシーケンサの「世界樹」が起動され[13],生成さ れた楽曲を聞くことができる.

5.

実験結果

5.1 予備実験結果 印象語とドラムパターンの対応を決めるため,4.2.3項 で示した方法により12名(本校吹奏楽部員)に主観評価 実験を行ってもらった[10].予備実験により決定した印象 語とドラムパターンの対応を表6に示す. 5.2 主観評価実験1 実際にユーザにシステムを使用してもらい,メロディ生 成方法(A)により楽曲を作成し,主観評価実験を行った. 異なる印象語が抽出される画像 3枚を評価してもらった. 評価項目は,以下の 5つである. 1) 画像にマッチしているか 2) メロディが自然か 3) ドラムが自然か 4) 伴奏が自然か 5) ユーザの好みが反映されているか 8名の被験者(本校吹奏楽部員)に5段階で評価しても らった.評価は5が最も当てはまることを示す.文献[12] から入手して実験に使用した画像を図 10に,評価結果を 図11 に示す.どの画像の結果についても画像にマッチし た楽曲になったといえる.また,画像によって多少のばら つきがあるものの,ユーザの好みもある程度は反映されて いるといえる.メロディ,伴奏も概ね自然であるといえる. しかし,ドラムが不自然という回答が多かった.これは, ドラムの音の大きさを変えておらず,曲全体のバランスが 考慮されていなかったからだと考えられる.また,曲のテ ンポがドラムと合っていない場合もあり不自然に感じてい たとも考えられる.テンポの変化があまりなかったという 回答もあった.テンポ決定をする際の重みが小さかったと 考えられる. 5.3 主観評価実験2 メロディ生成方法(B)により楽曲を作成し,再び主観評 価実験を行った.異なる印象語が抽出される画像 3枚を 10 名の被験者(本校学生)に5段階で評価してもらった. 評価項目は主観評価実験1と同様である.文献[12]から入 手して実験に用いた画像を図12に,評価結果を図13に示 す.どの画像の結果についても概ね画像にマッチした楽曲 になり,ユーザの好みも反映されているが,メロディ,伴 奏,ドラムの個々の要素については改善を要するといえる.

6.

まとめ

本研究では画像の色情報を「配色の印象」に変換し,心 理的な実験理論に基づき楽曲を半自動的に生成することを 目的とし半自動楽曲生成方法の検討,実装を行った.入力 画像から印象語を抽出し,楽曲を生成し,主観評価実験を 行った.ユーザが伴奏パターンを指定することでユーザの 好みを概ね反映した伴奏が可能となった. 今後は,リズム・トラックと伴奏のメロディとの関わり 合いを見直す必要がある.そして,より多くの被験者によ る主観評価実験を行う予定である.また,使用される調や 楽器の数を増やすことで作成される楽曲の幅を広げていく とともに,デジタルフォトフレームやスマートフォン,タ ブレット端末などでも実装したい.

(6)

(b) (c) 図10 主観評価実験1で使用した画像 (1)画像にマッチしているか (2)メロディが自然か (3)ドラムが自然か (4)伴奏が自然か (5)ユーザの好みが反映 図11 主観評価実験結果1 謝辞 本研究の一部は,日本学術振興会の科学研究補助 費 基盤研究(A) 26240025による. 参考文献 [1] 神田 尚子:配色イメージに基づいた演奏支援システム, 電気通信大学 平成22年度 卒業論文(2011). [2] 前田 和博:カラー画像からの楽曲生成,木更津高専 専攻 科 特別研究論文(2010). [3] 社団法人日本流行色協会:色のイメージ事典,同朋舎出 版(1991). [4] 山崎 晃男:音楽と感情についての心理学的研究,大阪樟 蔭女子大学人間科学研究紀要, 8, pp.221–232 (2009). [5] 色彩カラー研究所, 入手先⟨http://www.ts-depot.com/color/color/ basic03.html

[6] Hevner, K.: Expression in music: A discussion of ex-perimental studies and theories, Psychological Review,

(b) (c) 図12 主観評価実験2で使用した画像 (1)画像にマッチしているか (2)メロディが自然か (3)ドラムが自然か (4)伴奏が自然か (5)ユーザの好みの反映 図13 主観評価実験結果2 Vol.42, pp.186–204 (1935). [7] 徳田 恵一:隠れマルコフモデルによる音声認識と音声合 成,情報処理学会誌,Vol.45, No.10, pp.1005–1011 (2004). [8] WSJ - Good! よいホームページを創ろう講座5.3, 入手先⟨http://www.wsj21.net/ghp/ghp0c 03.html⟩ [9] BPMについての簡単な説明, 入手先⟨http://www14.plala.or.jp/nekokirin/ 02aboutbpm/01aboutbpm.html [10] 根本 彩惠:画像の印象にマッチした楽曲の半自動生成に 関する研究,木更津高専 専攻科 特別研究論文(2015). [11] Blancbette, J. and Summerfield, M.:入門Qt4プログラ

ミング,オライリー・ジャパン(2007). [12] PHOTO PIN,入手先⟨http://photopin.com/⟩ [13] おーぷんMIDIぷろじぇくと,

入手先⟨http://openmidiproject.sourceforge.jp/ Sekaiju.html/

図 1 PCCS トーン 図 2 PCCS 色相環の例 (図 1 )でまとめ, 「色相」 「トーン」の 2 系列で色彩調和の 基本形列を表している.図 2 に PCCS 色相環の例を示す. 色彩から多くの人が共通して受ける印象として,高明度 は「柔らかい色」 「膨張色」 「軽い色」 ,低明度は「硬い色」 「収縮色」 「重い色」とされる.また,高彩度は「派手」 ,低 彩度は「地味」などが一般的に挙げられ,高彩度・暖色系 は「興奮色」 ,低彩度・寒色系は「沈静色」とされる [5] . 2.2 Hevner の研
図 4 HMM の例 4.1 画像処理部 入力画像は RGB 画像各色 8 ビットとする. RGB 色空 間から人間の感覚として色を評価する HSV 色空間へ変換 し,その値を元に色相・トーンを分析し配色から得られる印 象語を抽出する.印象語は Hevner の 8 つの印象語群の中 から「 awe-inspiring, dark, dreamy, calm, delicate, bright, agitated, emphatic 」を引用する.楽曲の情報と印象を心 理学的に対応させており,これらを用いる
図 7 伴奏パターン 表 4 テンポの決定 抽象的なテンポ 印象語 重み 速い delicate 6 bright 20 agitated 21 emphatic 6 遅い awe-inspiring -14 dark -12 dreamy -16 calm -20 伴奏は図 7 に示したパターンの中からユーザが指定し, コードに合わせて決定する. 楽曲全体のテンポは Hevner の研究より印象語により決 定する(表 4 ) .まず,得られた印象語が属するグループの 多さにより,楽曲全体のテンポを「速い」
図 9 システムの外観 表 6 印象語とドラムパターンの対応 印象語 ドラムパターン dark ロッカバラード,スウィング dreamy ロッカバラード,スウィング delicate ロッカバラード,スウィング awe-inspiring ロッカバラード,スウィング,ボサノバ calm 8 ビート,ロッカバラード bright 8 ビート,シャッフル emphatic 8 ビート,ソンゴ agitated 8 ビート,ソンゴ ド,スウィング,ボサノバ,シャッフル,ソンゴ」の 7 種 類とする.印象語とドラム

参照

関連したドキュメント

III.2 Polynomial majorants and minorants for the Heaviside indicator function 78 III.3 Polynomial majorants and minorants for the stop-loss function 79 III.4 The

191 IV.5.1 Analytical structure of the stop-loss ordered minimal distribution 191 IV.5.2 Comparisons with the Chebyshev-Markov extremal random variables 194 IV.5.3 Small

Amount of Remuneration, etc. The Company does not pay to Directors who concurrently serve as Executive Officer the remuneration paid to Directors. Therefore, “Number of Persons”

WHO Technical Report Series, No.992, Annex5, Supplement 8の「Temperature mapping of storage areas Technical supplement to WHO Technical Report Series, No..

、コメント1点、あとは、期末の小 論文で 70 点とします(「全て持ち込 み可」の小論文式で、①最も印象に 残った講義の要約 10 点、②最も印象 に残った Q&amp;R 要約

②上記以外の言語からの翻訳 ⇒ 各言語 200 語当たり 3,500 円上限 (1 字当たり 17.5

7 号機原子炉建屋(以下「K7R/B」という。 )の建屋モデル及び隣接応答倍率を図 2-1~図 2-5 に,コントロール建屋(以下「C/B」という。

目印3 目印4 目印5 目印6 目印7. 先端の重り12