音楽の知識表現：自動作編曲への応用

(1)

音楽の知識表現：自動作編曲への応用

Musical Knowledge Representations:

Applications to Automatic Music Composition/Arrangement

北原鉄朗

1∗

1

_{日本大学文理学部情報科学科}

1

_{Department of Information Science, College of Humanities and Sciences, Nihon University}

Abstract: Music is one of the most computer-friendly types of art because musical works can be

described in a symbolic form. In this presentation, we present some examples of musical knowledge representations and their applications to automatic music composition and arrangement.

1 はじめに

音楽（特に西洋音楽）は，数ある芸術メディアの中でも最も計算機処理に適したものの 1 つと言えるであろう．これは「楽譜」という記号的記述体系が確立されていることによるところが大きい．音楽は，音の組み合わせによる芸術であるが，出鱈目に組み合わせても聴取者が理解可能な音楽にはならない．たとえば，周 波数 f1の音と周波数 f2の音を同時に鳴らすとき，こ れらが協和するには f1と f2がシンプルな整数比になる必要がある．そのため，シンプルな整数比を作れる周波数をあらかじめ選んでおき，それらを用いて演奏することが普通である．これは，本来連続的である周波数軸を離散化することにほかならない．時間軸についても，ある時間長を考え，その 2n_{倍や 1/2}n_倍の長さの音を組み合わせることが多い．このように周波数軸と時間軸が離散化され，そのことを前提に，楽曲は「音符」という記号の組み合わせで記述される．そして，この「音符」という記号を用いることで，計算機上での知識表現が可能になり，自動作曲や自動編曲などが可能になる．本講演では，音楽の基本的な事柄を述べた後，音楽データをどのように計算機上で表現するかについて述べ，音楽知識（特に作曲や編曲に用いることができる知識）をどう計算機上で表現して自動作曲や自動編曲を実現するかを論ずる．できるだけ一般に受け入れられている考え方を述べるつもりであるが，事例紹介は筆者自身の研究に偏り，また私見がたぶんに含まれることをあらかじめご了承願いたい． ∗_{連絡先：日本大学文理学部情報科学科} 東京都桜上水 3-25-40 E-mail: [email protected]

2 音楽の基礎知識

2.1 音高と音階に関する基礎知識

周波数軸における閉区間 [f1, 2f1] からいくつかの周 波数を選び出すことを考える．たとえば，f1= 262Hz とすると，[262Hz, 524Hz] から選び出すことになる． このとき，互いの周波数比ができるだけシンプルな整数比になるように選び出すことで，同時に鳴らしても不協和になることを避けることができる．たと えば，f8 = 2f1, f5 = 32f1, f2 = 34f5, f6 = 32f2, f4=4₃f1, f3=₄5f1, f7= 3₂f3とすると，8 つの周波数 f1, f2(= 9₈f1), f3(= 5₄f1), f4(= 4₃f1), f5(= 3₂f1), f6(= 5 3f1), f7(= 15 8f1), f8(= 2f1) が選ばれる．このようにして選ばれた 8 つの周波数に C, D, E, F, G, A, B, C という名前を付ける．f8は f1の整数倍（オクターブ）の関係にあり，音楽的役割は同じであるため，同じ名前を与え区別しない．これらの名前を音名と呼び，音名の集合を音階と呼ぶ．また，2 つの音名の周波数比を 音程と呼ぶ．隣り合う音名の音程を計算すると，f2/f1= f5/f4 = f7/f6 = 9/8(≈ 1.125), f3/f2 = f6/f5 = 10/9(≈ 1.111), f4/f3 = f8/f7 = 16/15(≈ 1.067 とな る．大雑把に考えると 9/8≈ 10/9 ≈ (16/15)2_なので， 9/8 または 10/9 の音程を全音，16/15 の音程を半音と呼ぶ．ただし，全音の音程が 2 種類できると都合が悪いことが多いため，全音の音程が (12√ 2)2(≈ 1.122)，半 音の音程が 12√ 2(≈ 1.059) になるように周波数を変更す る場合がある．このように変更した音名と周波数の関係を十二平均律，元々の周波数比に基づいて決めたものを純正律と呼ぶ． C と D のように全音の関係にある音名では，C の半音上または D の半音下を考えることができる．C の半音上を C♯_{，D の半音下を D}♭_{と書く．音楽理論ではこれらは} 厳密に区別されるが，十二平均律では同じ周波数である． [招待講演1] 人工知能学会研究会資料 SIG-KBS-B901

(2)

このようにして作った音階 _{{C, C}♯_(D♭_{), D, D}♯_(E♭_{), E,} F, F♯_(G♭_{), G, G}♯_(G♭_{), A, A}♯_(B♭_{), B}_{} を半音階と呼ぶ．} 西洋音楽は基本的に半音階に属する音が用いられるが，すべての音名を満遍なく用いるわけではない．主に用いられるのが_{{C, D, E, F, G, A, B} で，演奏が C で終} わるときに解決感（楽曲が終わったような感じ）を与える（主音と呼ぶ）とき，その楽曲は「ハ長調である」という．このような長調や短調で用いられる 7 音からなる音階をダイアトニックスケールという．これまでの議論から，C と D，D と E は全音の音程であるのに対して，E と F は半音の音程である．一般に，長調の音階における隣り合う音名の音程は (全音, 全音, 半音, 全音, 全音, 全音, 半音) である． なお，全音 1 つ分の音程を長 2 度，全音 2 つ分の音 程を長 3 度と呼び，長 2 度・長 3 度から半音 1 つ分狭 めた音程を短 2 度・短 3 度と呼ぶ．

2.2 和音に関する知識

複数の音を同時に鳴らしたものを和音と呼ぶ．ただし，分散和音のように完全に同時ではない場合もある．ハ長調の音階を前提とすると，ハ長調の音階_{{C, D, E,} F, G, A, B} から 1 つ飛ばしに 3 つ音名を選ぶことで三

和音を構成する．具体的には，C-E-G, D-F-A, E-G-B, F-A-C, G-B-D, A-C-E, B-D-F である．このように，ダイアトニックスケールから構成した 7 つの三和音をダイアトニックコードという．

C-E-G は C-E が長 3 度に対して E-G が短 3 度である．このように長 3 度の上に短 3 度がある和音を長和音と呼び，主音を使って C major，あるいは単に C と書く．一方，D-F-A は D-F が短 3 度で F-A が長 3 度である．このように短 3 度の上に長 3 度がある和音を短和音と呼び，主音を使って D minor または Dm と書く．これらをコードネーム表記という．上の 7 つの和音をコードネームで表記すると，C, Dm, Em, F, G, Am, Bm(−5)_となる1_{．C を主和音，F を下属和音，G を属} 和音と呼び，主和音は下属和音に，下属和音は属和音に，属和音は主和音に遷移しやすい性質があり，楽曲の最後は通常主和音が用いられる．

2.3 音長・音価に関する知識

ある基準となる音の長さを考え，それを四分音符と名付ける．四分音符 4 つ分の長さを 1 小節とするとき， その楽曲は「四分の四拍子である」という．n 分音符 の 2 倍の長さの音符を「n/2 分音符」，1/2 倍の長さの 音符を「2n 分音符」という．ただし，四分音符の 4 倍 の長さを 1 分音符とは言わず「全音符」という．全音 1_Bm(−5)の説明は省略する．符は 1 小節分の長さの音符という意味なので，拍子が変われば全音符の長さも変化する．音符には付点を付 けることができる．付点が n 個付いた音符は元の音符 の∑n k=01/2 k _{= 2}_{− 1/2}n_{倍の長さを表す．} 実際の演奏では，同じ長さの音符であっても意図的に長く弾いたり短く弾いたりする．このように楽譜上の音の長さと実際の演奏上の音の長さを区別したい場合は，楽譜上の音の長さを音価と呼ぶ．また，秒単位で表される物理的な時間に変換するには，四分音符を何秒で弾くのかという情報が必要である．これをテンポと呼び，BPM (beats per minute) で表す．テンポは時々刻々と変化することもよくある．

3 音楽データ表現の基礎知識

音楽を計算機上のデータとして表現・記述する方法を考える．音楽は音の芸術であるから，音楽を計算機上でデータ化する最も素直な方法は，音そのものを記録することである．しかし，音そのものを記録したデータから演奏内容を取り出すことは容易ではない．そのため，演奏内容を分析したり機械学習モデルへの入力に使って自動作曲や自動編曲に活用する場合は，演奏内容を記号的な表現で記録したものが多く使われる． • 波形（音響信号） 空気の振動をそのまま記録したものである．マイクなどから入ってきた音に対して標本化を行って時間軸を間引き，量子化を行って整数に変換することで，整数列として記録するものである．音そのものの情報を完全に含むが，そこから音楽的な内容（主旋律，和声，リズムなど）を取り出すのは容易ではない． • スペクトログラム 横軸を時刻，縦軸を周波数とした平面において，その時刻，その周波数における振幅を色の濃さで表したものである．これは短時間フーリエ変換などを用いることで得られる．位相の情報が欠けているので，音響信号に戻す際には位相を復元する必要がある． • ピアノロール 横軸を時刻，縦軸を音の高さとした平面に各演奏音を横棒として配置したものである．PC 上で動作する音楽作成ソフトウェア（DAW などと呼ばれる）においてメインとなる楽曲編集画面である． • MIDI MIDI は，本来電子楽器間でデータをやりとりするための規格である．ノートオンメッセージや

(3)

ノートオフメッセージなどがあり，それらが MIDI ケーブルを経由して電子楽器に入力されることで，外部からの演奏や制御が可能になる．ノートオンメッセージは，音を鳴らす命令であり，音の高さ（ノートナンバー），音の強さ（ヴェロシティ）などをパラメータに持つ．ノートナンバーは音の高さを表す整数で，いわゆる「中央のド」を 60 とし，半音上がるごとに+1，半音下がるごとに-1 することで定義する．ノートオフメッセージは音を消す命令である．リアルタイムに電子楽器にこれらのメッセージを送るのではなく，データとして記録する際には，あるメッセージを送ったらどのぐらい待って次のメッセージを送ればいいのかを記録する必要がある．このような隣り合うメッセージの送信タイミングの間隔をデルタタイムといい，tick という単位で表す．四分音符 1 つ分を 480 ticks と定義した場合（ticks per beat と呼ばれ，ヘッダなどに書き込んでおく），ノートナンバー 60 のノートオンメッセージを送信し，960 ticks 待ってから同じノートナンバーのノートオフメッセージを送信したら，「ド」の二分音符が演奏されることになる．基本的に，上述のピアノロールと相互変換可能である． • 譜面 譜面は，2. で述べたような方法で演奏する内容を記録したものである．実際の演奏では，テンポや発音タイミング，音長，音の強さなどを意図的に変化させて「表情」を付けることが多い．しかし，譜面にはそういった「表情」は記録されない．一方，MIDI は演奏をそのまま記録・再現するための規格であり，発音タイミング，音長，音の強さの細かな変化も記録可能である．これは，譜面は作曲家が演奏家に指示を与える（演奏家は自分の判断で「表情」を付ける）のに対し，MIDI は機械がその通りに音を出すことを目的とした表現形式であると考えれば分かりやすい． • リードシート 主旋律の譜面にコードネーム表記の和音進行と歌詞のみを書いたものである．伴奏部が譜面として与えられないため，伴奏を演奏する際にはコードネームから具体的な演奏内容を考える必要がある．コードネームから具体的な音の配置を考えることをヴォイシングという． • その他 楽曲内容をより直感的に理解できることを目的とした，より高次の表現方法がいろいろと研究されている．筆者が考案した旋律概形 [1]（後述）はその 1 つである．

4 楽曲を分析・生成するための知識

表現

音階（たとえばハ長調の音階={C, D, E, F, G, A, B}）と音価（全音符，二分音符，四分音符，八分音符， cdots）を定義すれば，1 つの音符はその組として表さ れるので，それを並べることで旋律を形成することができる．しかし，出鱈目に並べればいいわけではない．「音楽」として成立させるには，人間が聴いて不自然さがなく並べる必要がある．計算機にとって，不自然さのない旋律を作る最も現実的な方法は，既存の旋律の特徴をそのまま反映させることである．プロの音楽家が作曲した旋律には音楽的な不自然さが含まれていないと想定できるので，そういった旋律を多数集め，その傾向を計算機上で表現し，それに沿って旋律を生成すればよい．本章ではそのための知識表現について考える．

4.1 音符のマルコフモデル

旋律は，音符（および休符）の時系列と考えることができる．ここでは簡単のため，休符はその直前の音が続いているものと同じものと考える．たとえば，C の四分音符の後に四分休符があるとき，この全体を C の二分音符と同一視する．これにより，旋律を（休符のない）音符の時系列とみなすことがで きる．旋律 M = n1n2· · · nm（ni：音符）がどの程度音楽的にもっともらしいかは，この旋律の生起確 率 P (M ) として評価することができる．音符の時系 列にマルコフ性があると仮定すれば，これは P (M ) = P (n1)P (n2|n1)· · · P (nm|nm−1) と書き換えることがで きる．もちろん，マルコフモデルを多重化して P (M ) = P (n1)P (n2|n1)P (n3|n1, n2)· · · P (nm|nm−2, nm−1) としてもよい． 音符 ni をどう定義するかは自明ではない．音符は基本的に音高と音価の組であるが，単純にこう定義すると取りうる値のバリエーションがかなり多くなる．その場合は，音高の時系列と音価の時系列を独立にモデル化することがある．音高については，実装上は MIDI ノートナンバーを採用することが多い．この場 合，ni ∈ {0, 1, 2, · · · , 127} である．実際にはピアノで 演奏可能な範囲より外の音を使うことはほぼないため， ni ∈ {21, 22, · · · , 108} と限定してもよいし，演奏楽器 があらかじめ分かっている場合は，さらに音域を限定できることも多い．このように MIDI ノートナンバー

(4)

を使うということは，C♯_{と D}♭_{を区別しないことを意} 味する．音楽理論的には区別されているこれらの異名同音を区別しないことの是非は，議論の余地があろう．さらに，探索空間を限定したい場合は，音高の代わりに音名を使うことも多い．音名を 0 から 11 の整数で表す（これらを C, C♯_,_{· · ·, B に割り当てる）ことにす} ると，MIDI ノートナンバーから音名への変換は，12 で割った余りを求めればよい．この場合，与えられた旋律のもっともらしさを計算するだけであればよいが，このモデルを用いて旋律を生成するには，各音符のオクターブ位置を決める必要がある．オクターブ位置の決定は決して自明な問題ではない．音価については，マルコフモデルを用いる事例はあまり多くない．音価は，強拍・弱拍の中でうまく決定する必要があり，直前の音符の音価だけから適切な音価を決定するのはほとんど不可能であるからと思われる．たとえば，Orpheus [2] では，音高はマルコフモデルとしてモデル化されていたが，音価はリズム木と呼ばれる木構造を用いてモデル化されていた．

4.2 和音のマルコフモデル

上では音符を要素として知識表現を考えてきたが，和音（具体的にはコードネーム）を要素とした表現も考えることができる．2. で述べたように，主和音は下属和音に，下属和音は属和音に，下属和音は主和音に遷移しやすいという特性がある．そのことから，和音進行をマルコフモデルとして記述するのは，広く行われている．和音進行と，その和音進行の下で演奏される旋律には，密接な関係がある．たとえば，C major の下でその構成音（C, E, G）を旋律に用いても不協和を生じないが，これらと短 2 度や長 2 度の関係にある音（D, F, A, B）を長時間鳴らすと不協和の原因になりかねない．このような和音進行と旋律の関係は，隠れマルコフモデルで表すことができる．和音を「状態」，旋律中の音高を「観測シンボル」とみなせば，ある和音の下で旋律にどのような音高がよく用いられるかは，状態からの観測シンボルの出力確率として表される．和音進行の傾向は，状態間の遷移確率として表される．このモデルを使うと，与えられた旋律に対してもっともらしい和音進行を付与することが出来る．

4.3 PCFG の利用

日本人にとって最も馴染み深い和音進行であろう，お辞儀で使われる和音進行「C G C」を考えよう．和音の機能の名称でいえば「主和音・属和音・主和音」で ある．主和音を T ，属和音を D，和音進行を H とすれ ば，この和音進行は，C, G を終端記号，T , D, H を非 終端記号とした，次の文脈自由文法で生成されたものと考えることができる． H → T T → T T T → D T T → C D→ G このような考えから，和音進行を確率文脈自由文法（PCFG）でモデル化することがよく行われる．与えられた和音進行の和声解析の他，和音進行の生成に用いることができる．コードネーム（C, G など）を非終端記号とし，旋律中の音高（ここではコードネームと区別できるように小文字で c, d,· · · と表す）を終端記号で表せば，与え られた旋律に対する和声解析を行うことができる [3]．たとえば， H → T T → T T T → D T T → C D→ G C→ c C→ e G→ d c→ c d e→ e f という文脈自由文法を考えれば，旋律「c d e f」には和音 C が当てはまり，c, e が和声音，d, f が非和声音であることが分かる． PCFG は音価のモデル化にも有用である．二分音符を 2 つの四分音符に分割し，四分音符を 2 つの八分音符に分割する生成規則などをうまく定めれば，音価列に対して拍節構造を推定したり，音価列の生成に活用することができる．PCFG を用いて音高と音価のモデル化を行った研究として，中村らのモデルがある [4]．

4.4 単旋律のその他の木構造表現

旋律を木構造として表す理論の中で最も有名な方法の 1 つが GTTM (Generative Theory of Tonal Music) であろう [5]．これは，シェンカー理論に基づいた音楽認知の理論で，グルーピング構造の分析などができる．詳しくは [6] を参照されたい．他にも，旋律を木構造で表す方法は存在する．たとえば，Pachet は，旋律をプレフィックス木で表す方法を採用した [7]．

(5)

4.5 ポリフォニーの PCFG

ポリフォニーとは，複数の旋律が互いに依存しつつも独立に同時に演奏されることで成り立つ多重奏である．亀岡らは，時間方向と音高方向の両方に対して導 出を行う 2 次元 PCFG を提案した [8]．たとえば，「全音符の C」から「二分音符の C ＋二分音符の E」を導出し，「二分音符の C」から「二分音符の A-C」という和音を導出する．このようにして，時間方向と音高方向の両方に対して導出（音符の分割と和音化）を再帰的に繰り返すことでポリフォニーの楽曲が得られる，というモデルである．

4.6 同時性と経時性の確率表現

適切なポリフォニー楽曲を得るには，声部（それぞれの旋律を声部という）同士が適切な響きを生むことと，声部毎の旋律が適切な音の遷移からなっていることの両方を満たす必要がある．筆者は，前者を同時性 (simultaneity)，後者を経時性 (sequentiality) と呼んでいる．筆者らは，同時性と経時性を同時に満たすポリフォニー楽曲を生成するためのモデルを Bayesian Net-work で構築した [9]．Bayesian NetNet-work 中の各ノードが 1 つの音符を表し，同時性と経時性が条件付確率として表されるモデルである．このモデルでは，各声部が同じリズムを持つとの制約を入れたが，この制約がない場合，ある声部のどの音符が別の声部のどの音符と同時なのかはリズムによって変化し，モデルの構築は簡単ではない．

5 自動作編曲などへの応用

自動作編曲は，その名の通り計算機が自動的に作編曲を行うことである．作曲と編曲の区切りは必ずしも明確ではないが，ここでは「主旋律を創ること」を作曲，「主旋律が与えられ，主旋律以外のパートを創ること」を編曲と定義する [10]．以下，それぞれについて，筆者自身および関連する研究者の研究事例を中心に現状について議論する．

5.1 自動作曲

自動作曲は，計算機が自動的に主旋律を創ることを意味するため，「何を入力とするか」が規定されていない．そのため，各研究者の研究哲学に基づいて，様々な情報が入力として採用されている．深山らの Orpheus[2] は，日本語歌詞を入力とする自動作曲システムである．日本語はピッチアクセント言語であり，音に高低を付けて発音する．そのため，歌詞を読む際の音の高低と旋律の音の高低をできるだけ一致させるという作曲法がよく知られている．Orpheus でも歌詞の音の高低と旋律の音の高低が一致するように旋律を生成する．また，筆者らが開発している JamSketch[1] は，入力データとして旋律概形を用いる．旋律概形は，音楽的な素養のない人でもマウスやタッチスクリーンなどで描画可能な，旋律の大まかな形を表した曲線である．ユーザがこれを描画すると，その旋律概形に沿った旋律を生成する．実際には，ユーザが描画した旋律概形への近さの他，旋律としての音楽的妥当性，与えられた和音進行とのマッチ度などを条件付確率として定義し，これらの重み付き和が最大になる旋律を遺伝的アルゴリズムで探索する．

5.2 自動編曲

自動編曲は，主旋律が入力として与えられることは共通だが，様々な問題設定が考えられる．1 つは，特定の楽曲構造を仮定した上での和声付けである．たとえば，ソプラノ・アルト・テノール・バスの四声を仮定し，この四声からなる和声（四声体和声という）を生成するという問題が考えられる．筆者らは，ソプラノパートを入力として残りのパートの旋律を生成する処理を Bayesian Network で実現した [9]．四声体和声の自動生成は，和声付けとしては標準的に取り組まれており，様々な研究者によって研究されている（e.g., [11, 12]）．また，主旋律に対して和音進行をコードネームレベルで付与するという問題も広く取り組まれている（e.g., [13]）．典型的な実現法は隠れマルコフモデルの利用であるが，様々な方法が考えられる．コードネームは，和音を 1 つのシンボルで表したものであり，具体的にどの音（音高）を弾くかは選択の余地がある．特に，ジャズでは，コードネームに表記されていなくてもテンションノートと呼ばれる付加的な音符を追加して演奏することが多い．このように，コードネームから具体的な音高の組み合わせを決めることをヴォイシングという．筆者らは Bayesian Network を用いてヴォイシングを実現する方法を提案した [14]．すでに主旋律と和音進行が与えられている状態で，聴いたときの印象を変えるために，和音進行に変化を与えたり別の和音進行に差し替えたりする場合がある．これをリハーモナイゼーションと呼ばれ，いくつかの研究事例が存在する（e.g., [15]）．

6 おわりに

本稿では，音楽に関する基礎知識を概説した後，音楽のデータ表現，楽曲を分析・生成するための知識表現について述べ，自動作曲・自動編曲について言及し

(6)

た．音楽は言語と共通する特徴を持ちながらも，時間方向と音高方向の両方に要素が連なっていることが特徴的である．そのため，特にポリフォニーを扱うには単に自然言語のデータ表現形式を借用するには不十分であり，本稿で紹介した 2 次元 PCFG のような新たな工夫が必要となる．これはおそらく自然言語でも同様だと思うが，音符と音符のような局所的な依存関係は，すでにまずまずのモデル化ができていると考えている．一方，主題部・展開部・再現部のような大局的な構造を学習するには，まだまだ研究の積み重ねが必要である．あくまで私見であるが，「飽きずに聴ける 5 分の楽曲」を計算機が自律的に生成できるようになるには，かなり高いハードルがあるように感じている．本稿は，紙面の都合上，文字だらけの原稿になってしまった．近年，[6] を始め良書が増えつつあるので，ぜひそちらをお読みいただき，本稿で分かりにくかった部分を補っていただければ幸いである．

謝辞

本研究は，科学研究費（JP16K16180, JP16H01744, JP17H00749, and JP19K12288）より支援を受けた．嵯峨山茂樹氏，平田圭二氏，東条敏氏，浜中雅俊氏，吉井和佳氏，中村栄太氏，松原正樹氏，大村英史氏，深山覚氏をはじめ，普段から議論させていただいている情報処理学会音楽情報科学研究会関係諸氏に感謝する．

参考文献

[1] T. Kitahara, S. Giraldo, and R. Ram´ırez. Jams-ketch: Improvisation support system with ga-based melody creation from user’s drawing. In

Proc. of Int’l Symp. on Computer Music Multi-disciplinary Research, pp. 352–363, 2017. [2] 深山覚, 中妻啓, 米林裕一郎, 酒向慎司, 西本卓也, 小野順貴, 嵯峨山茂樹. Orpheus: 歌詞の韻律に基づいた自動作曲システム. 情処研報, 2008-MUS-76, pp. 179–184, 2008. [3] 諸岡孟, 西本卓也, 嵯峨山茂樹. 非和声音を考慮した確率文脈自由文法による自動和声解析. 音講論集（秋）, 2007. [4] 中村栄太, 浜中雅俊, 平田圭二, 吉井和佳. Gttm に基づくメロディ音符列の確率的木構造モデル. 第 30 回人工知能学会全国大会, 3G4-OS-15b-4, 2016.

[5] F. Lerdahl and R. Jackendoﬀ. A Generative

The-ory of Tonal Music. MIT Press, 1983.

[6] 東条敏, 平田圭二. 音楽・数学・言語：情報科学が拓く音楽の地平. 近代科学社, 2017.

[7] Francois Pachet. The continuator: Musical in-teraction with style. Journal of New Music

Re-search, Vol. 32, No. 3, pp. 333–341, 2003.

[8] Hirokazu Kameoka, Kazuki Ochiai, Masahiro Nakano, Masato Tsuchiya, and Shigeki Sagayama. Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms. In Proceedings

of Information Society of Music Information Retrieval Conference (ISMIR 2012), 2012.

[9] Syunpei Suzuki and Tetsuro Kitahara. Four-part harmonization using bayesian networks: Pros and cons of introducing chord nodes. Journal of

New Music Research, Vol. 43, No. 3, pp. 331–353,

2014.

[10] 松原正樹, 深山覚, 奥村健太, 寺村佳子, 大村英史, 橋田光代, 北原鉄朗. 創作過程の分類に基づく自動音楽生成研究のサーベイ. コンピュータソフトウェア, Vol. 30, No. 1, pp. 101–118, 2013. [11] K. Ebcioglu. An expert system for

harmoniz-ing four-part chrales. Computer Music Journal, Vol. 12, No. 3, pp. 43–51, 1988.

[12] Gaetan Hadjeres, Francois Pachet, and Frank Nielsen. DeepBach: a steerable model for bach chorales generation, 2017. [13] 川上隆, 中井満, 下平博, 嵯峨山茂樹. 隠れマルコフモデルを用いた旋律への自動和声付け. 情処研報, 99-MUS-34, pp. 79–82, 2000. [14] 北原鉄朗, 勝占真規子, 片寄晴弘, 長田典子. ベイジアンネットワークを用いた自動コードヴォイシングシステム. 情処学論, Vol. 50, No. 3, pp. 1067–1078, 2009. [15] 後藤真孝, 平田圭二. ハービー君：演繹オブジェクト指向に基づいてジャズらしいコードにリハーモナイズするシステム. 情報処理学会研究報告, 96-MUS-16. 2007.

音楽の知識表現：自動作編曲への応用