言語の構文解析から音楽の構造分析へ

(1)

1 はじめに お店にいるときに「ホタルの光」を聞くと，我々はああ閉店の時間かと思う。それは我々が閉店をこの曲の「意味」として学習したからである。もともとこの曲は懐古の情を唄うスコットランド民謡であり，閉店の意味などかけらもない。筆者はエディンバラのバーで酔ったお客さんたちがこの曲を合唱し始めたので，あわてて荷物を片付けて帰る準備をしてしまった経験がある。音楽がこのように音楽外の意味を持つときには，次の三段階が想定できる[5]。まず（1）音楽が楽器を使って現実の音を模倣する形象的意味（例えば木管によるかっこうの鳴き声，ティンパニによる雷鳴の音など），次に（2）旋律の進行や和音が情動や気分といった個人の心理状態を模倣する指示的意味（例えば上行・下行音階がそれぞれ緊張・弛緩を示し，長三和音・短三和音がそれぞれ明るさ・不安を示すことなどから，曲全体が人間のある気分を指し示すこと），最後に（3）音楽が特定の行事に使われ，社会との関連性を人工的に付与する象徴的意味（例えば国歌など）である。「ホタルの光」は音楽の内部にある何かが帰宅のプレッシャーを催すわけではない。この曲が単に帰宅という社会的行為と人工的に結びつけられた結果，そのような象徴的意味を持つに至ったのである。それでは音楽は内部に独自の意味を持つのだろうか。その前段として言語の意味について考えてみよう。言語の意味は外的参照を伴い，ある個別の状況において発せられたときにその機能を発現する。「外は晴れている」と言えば，外は晴れている状況においてこの文は真になる。「桜は咲いたか」と聞けば，その時点で咲いている桜があるときに yes と答えられる。しかし，こうした外的参照と状況埋め込みを抜きにしても，これらの文は「外は晴れている」状況や「桜が咲いている」状況をまとめて記述しているため，言語には『内包的』意味があるという。 1_{〒 041-8655 北海道函館市亀田中野町 116-2 公立はこだて未来大学システム情報科学部；Future University}

Hakodate, School of Systems Information Science, 116-2 Kamedanakano-cho, Hakodate, Hokkaido, 041-8655 Japan （e-mail: [email protected]）

2_{〒 923-1211 石川県能美市旭台 1-1 北陸先端科学技術大学院大学情報科学系知能ロボティクス領域；Japan}

Advanced Institute of Science and Technology (JAIST), School of Information Science, Intelligent Robotics Area, 1-1 Asahidai, Nomi, Ishikawa, 923-1292 Japan

2019 年 5 月 21 日受稿，2019 年 7 月 1 日受理

29

解説

言語の構文解析から音楽の構造分析へ

平田圭二

1_，

_{東条敏}

2

From Syntactic Analysis of Language To Structural Analysis of

Music

(2)

言語に比べると，音楽の内包的意味は甚だ希薄あるいは曖昧であると言わざるを得ない。例えば，ドという音が 1 音鳴った時，その音自体はいかなる内包的意味も持たない。しかし，ドとソが同時に鳴った時や，ドとソが時間的に続けて鳴った時，音どうしのグルーピングにより，あるゲシュタルトが生まれ，意味が生み出される。このように，言語でも音楽でも，その内包的な意味はゲシュタルトによって生まれると考えられる。しかし，昨夜の素晴らしいコンサートの様子を周りの人に忠実に伝えたくて，たくさんの文字数でありったけの修辞を費やしも，その音楽の細部までも伝えきることは不可能である。逆に，文学作品や本稿のような技術的論文の内容を音楽で正確に表現し記述することも不可能である。音楽と言語は何かは共通していて，何かは異なっているのである。本稿ではこのような音楽と言語の共通性と相違点について議論していこう。 2 音楽と言語の起源 今日我々がいうところの歌は，生物進化の過程において日常言語と同じルーツを持つものと考えられる[14]。音楽の起源は言語が未発達な時期でのコミュニケーション方法であり，したがって言語の出自は音楽である。古代ギリシア時代，言葉，音楽のみならず舞踊，演劇などの技芸を総合的に μουσική（mousiké）と呼んでいた。これは，言葉と音楽が未分化というより，表裏一体で互いに分離できないものとして認識されていたという方が正しい。実際，音楽は今も言語に組み込まれている。中国語には四声があり，音の抑揚が正しくないと伝わらない。フランス語のアクセントは主に高低で表現する。イタリア語は主に母音の長短で表現する。そして，ドイツ語のアクセントは母音の発声の強弱に依る。これら抑揚，強弱，高低，長短とはまさに音符の記譜の概念である。するとある言語がその地域で歌われる歌・音楽と親密な関係にあるという主張も自然なことと思われる[17]。しかし中世以降，西洋調性音楽の誕生と発展とともに，言語と音楽は明確に袂を分かつ。かのチャールズ・ダーウィンは The Desent of Man （1871）の中で，『はるかな過去には，男も女も，言語によって自らの愛を明確に表現することはできなかったであろう。その代わりに使ったのは音楽ではないか。旋律とリズムの力によって愛する人を惹きつけようとしたのではないだろうか。』と述べた。このことは Philip Ball[1]が BBC のインタビューに答え，もっとはっきりと，『音楽は料理や農耕，会話や子育てなどと違い，人々の生活に明らかな恩恵をもたらさない。音楽は歓喜や悲しみ，舞踏など確かに我々に満足をもたらすが，それに生物進化上はっきりわかるアドバンテージがあったと言えるかどうか』と述べている。言語と音楽がまだ未分化だった頃，言語を補完していた『音楽的側面』のみを取り出し，象徴的意味として効率的に機能する装置を目指して開発されてきたものが，現代における音楽（特に大衆音楽）といえるのではないだろうか。 3 人間の言語の階層 現代の我々の多くは，音楽と言語は全く異なるコミュニケーションメディアだと考えているので，音楽を理解・生成する能力と言語のそれとを分けて考えがちである。しかし前述したように，言語と音楽は，もともと渾然一体となって人間どうしのコミュニケーションを支えた媒体であった。ということは，音楽を処理する認知機能あるいは脳機能と言語のそれとの間に，ある程度の共通部分があると仮定しても構わないのではないだろうか。

(3)

ここでは，まず言語を処理する機能の方から考えていくことにしよう。近代的な言語理論の始祖の一人，ノーム・チョムスキー（Noam Chomsky; 1928-）は人間の言語の複雑さを論じる際に，形式文法（抽象的な記号列の生成能力）の階層を定義した[6]。その階層においては正規文法と文脈自由文法の区別が重要であり，いずれもさらに一般的な仮想計算機チューリングマシンによって生成される文字列の部分集合となる。さてでは我々の言語はチョムスキー階層のどのくらいに位置するのだろう。岡ノ谷らの研究[16]によればジュウシマツの歌には文法があり，それは有限状態オートマトンで表現されることから正規文法をなす。このとき，オートマトンの一つの遷移に関わる入力文字はジュウシマツの発声する一音素である。それに対して人間の言語はほぼ文脈自由言語になっている。このことを以下に説明しよう。形式言語の定義においてはオートマトンの遷移に関わる入力は一文字であると考えてきたが，人間の言語の認識においては一単語が入力単位であると考える。例えば「金沢にカニを食べに行く」という文を考えてみよう。「金沢」には「行く」わけであるし，「カニを」「食べる」わけであるからこれらの名詞句と述語の関係には係り受け関係がある。日本語はこの係り受け関係が交差しないこと，すなわち，「係り」から「受け」に矢印を引くと矢印が交わらないことが原則である。よって「金沢に行ってカニを食べる」は OK でも「金沢にカニを行って食べる」は不自然だというわけである（図 1 ）。「単語間の依存関係は交差しない」ということは，我々の言語の重要な特徴の 1 つである。係り受けの矢印の始点・終点を括弧の開く・閉じるに対応させると，係り受け非交差は，「直近に開いた括弧が閉じないうちに，それ以前の括弧を閉じない」ことと同等になる。今度はプッシュダウン・スタックというメモリ領域を考えてみよう。これは情報を一列に並べて貯蔵する縦置きの筒で，筒の上端の開口部のみから情報を積み込んだり取り出したりできるものと考えればよい。括弧を開くという操作は，いつかそれが閉じられる必要があることを「宿題」として記憶する必要がある。よってこの情報をスタックに上の口から押し込んで（push）記憶し，括弧を閉じるという操作はスタックからこの記憶を取り出して（pop）宿題を片付けることと考えられる。スタックは上の口だけ開いているので取り出すことのできるのは一番上に載っている宿題のみである。プッシュダウン・スタックをメモリ領域にもつ計算機のモデルがプッシュダウン・オートマトンであり，プッシュダウン・オートマトン1_{で受理される言語が文脈自由言語である[6]。} 文脈自由言語を生成する規則を英語を例にとって考えてみよう。まず構文の構成要素を次のように定める。 S Sentence 文 NP Noun Phrase 名詞句 N Noun 名詞 Det Determiner 冠詞 VP Verb Phrase 動詞句 IV Intransitive Verb 自動詞 TV Transitive Verb 他動詞上記各々の構成要素が他のどのような構成要素に分解されるかを記載したのが文法規則である。この分解には以下のように矢印（→）を用いる。矢印を逆向きに読めば，右辺の構成要素を連接すると左辺が構成されると解釈できる。 S → NP VP ：文は名詞句（主語）と動詞句（述語）から構成される 図 1 係り受けの制限

(4)

NP → Det N ：名詞句は冠詞と名詞から構成される NP → N ：名詞単独で名詞句になる VP → IV ：自動詞単独で動詞句になる VP → TV NP ：動詞句は他動詞と名詞句（目的語）から構成される N → dog, cat, man, girl, apple, house, … IV → walk, swim, … TV → love, eat, … Det → a, the, … いずれの規則も矢印（→）の左辺は変数と考えられ，右辺のように書き換えることが可能であると読むことができる。上記規則のうち，下半分はいわゆる辞書であり語彙である。これらはこれ以上書き換えが不可能である。形式言語の用語によれば，書き換えができない各単語はそこで書き換えの終点という意味で終端記号（Terminal symbol）といい小文字で書く。一方，書き換え可能な変数は非終端記号（Non-terminal symbol）といい大文字で書く。上記の規則を見ると，いずれも矢印の左辺が単独の非終端記号であり，何か別の文字に挟まれている（文脈に依存している）ことはない。これが文脈自由と呼ばれる所以である。例えば a X b → a Y Z b のように左辺のＸが a，b に挟まれているときのみ，右辺への書き換えが可能であるとする文法規則は文脈依存であるという。自然言語文の構文を見てみると，一つの係り受け関係が文の中で句としてまとまった意味となる部分木を作り，文全体はこうした部分木どうしを接合してさらに大きな木構造を作っている。ここに部分木から全体木への階層が生まれる。プッシュダウン・スタックは人間の脳の中の一時記憶装置であり，耳で聞いた単語が一時的に蓄えられ，いつかそれと係り受けする単語が来ることを予測するしくみである。逆に言えば生物進化のうちに人間だけがこのような記憶装置を具備することによって階層構造を持つ文を理解するようになったとも言えよう。さて一度このような記憶装置を身につけてしまったら，耳が音楽を聴くときに活用されないということは逆に考えにくいのではないだろうか。すなわち人間は音楽を聴くときも，ある楽句の記憶をもとにそれと関連する楽句を予測するような聞き方をしていないだろうか。さらには，短期記憶をプッシュダウン・スタックとして用いることから音楽にも「予測から帰結へ」という文脈自由文法と同様な構造があるのではないだろうか2_。 4 和声進行規則の言語クラス 4.1 文法発見とはどんな問題か 人間にとって，時系列データや順序に従うデータを理解する道具としての文法は強力である。我々はその文法を使って言語と音楽の共通性と相違点を探ろうとしているので，まず文法という道具自体について，少し考えてみよう。自然言語のテキストや単語の列も，楽譜に含まれる音符と休符の列も，読む方向あるいは時間軸に沿って並べられている記号列と考えられる。その記号がどんな規則によって並べられているかを表すものが文法である。今我々が着目している記号や部分的な記号列（これらをひっくるめて以下「記号」と呼ぼう）に対して，すぐ隣にある記号あるいは遠く離れたところに現れる記号との関係を記述すれば，今着目している記号がそこに出現している意味が分かるだろう。さらに，今の次にどんな記号が来そうなのかを予測することもできよう。ここで文法が果たしている機能は大きく二つある。一つは同じものや似たものどうしや関連したものどうしをグループにまとめることであり，もう一つは着目しているモノを他のモノと関係付けることである。数理の言葉では，前者は集合に，後者は二項関係に対応する。さらに，複雑な知識や認知を表現するために，グループのグループを作ったり，グループどうしを関係付けたり，関係

(5)

付けどうしを関係付けたり，関係付けのグループを作ったりすることが行われ，自然にグループと関係付けに関する階層性が導入される。こうして文法による理解は木構造で表現されるのである。ちなみに，グルーピングによる音楽理解が GTTM（ 5 節）に，音と音の関係付けによる音楽理解が暗意-実現モデル3_{に対応しているのは，} 偶然ではないだろう。文法の研究が最も進んでいる領域は自然言語であるから，自然言語の構文解析の手法を他の対象に援用してみようという発想が生まれる。例えば，遺伝子の中の DNA の配列も同じように記号列であり，その解析にも自然言語の解析技術が応用され，一定の成功を収めた[11]。ならば，コンピュータに音楽を理解させたり生成させたりするのにも，自然言語処理の方法論をうまくて適用すればいいのではないか。前章で見たように，自然言語に人間が処理できるクラスの文法が備わっているように，音楽にも人間が処理できるクラスの文法が備わっていると仮定するところから考え始めることができる。例えば形態素解析（意味を持つ最小限の文字列の認識）は近隣の音符を集めた楽句認識に相当すると考えられる。しかし，音楽には文という単位がないし，名詞や動詞のような単語カテゴリーもない。さてどのように楽句と楽句の間に何か有意味な関係を見出す操作を定義し，自然言語における構文解析に対応する処理を実現すればいいのだろうか。音楽の三要素は旋律，和声，リズムであると言われているので，本稿ではまず和声の文法から考えてみよう。 4.2 カデンツの文脈自由性 和声の理論において，カデンツ（独 Kadenz）とは，曲の終了感をもたらすような和音の並びである。長調・短調からなる調性音楽においては，曲は通常音階度数Ⅰの和音（トニック）から開始される。またⅤの和音は最も緊張をもたらすとし，ドミナントと呼ばれる。この緊張はⅠの和音（トニック）への進行によって「解決される」という。この完全五度下方への進行 I ˜˜ V - I が典型的なカデンツである。ここで ˜ の部分はトニック（Ⅰ）への意識を維持しつつも，ある程度自由な経過句を許容する。カデンツには I ˜˜ IV - V - I I ˜˜ IV - I も用いられる。またこの進行は繰り返しや埋め込みなどの方法により，自然言語の文脈自由文法同様の方法で広義のより大きなカデンツ構造を作る。 Ⅴの和音がドミナントの機能を持つときは，そうであるとはっきりわかるように三和音以外の音が加えられ，しばしば属七の和音（V7）が用いられる。我々は実際に音楽を聞いてこのように遠隔に働く依存構造を認識している。V → I という進行は先に述べたように終止感を表すが，このⅤを導くためにさらにⅤをあたかもトニックと見立ててこの臨時トニックに対するドミナントを先行させることがある。これが二重ドミナント（doppel-dominant）であり V/V と表記される。いま長三和音をローマ数字大文字による度数，短三和音をローマ数字小文字による度数で表記する。Ｇの完全五度上の音はＤであるから，ⅱ（D, F, A）の和音のＦの音を半音上げた長三和音Ⅱ（D, F#, A）がこれに対応する。これは V → I という終止形においてさらにⅤの中にも V/V → V という終止形を再帰的に潜り込ませた形になっている。これはカデンツの中へのカデンツの埋め込みであり，プッシュダウン・スタックの動きそのものである。よって自然な和音進行というのは文脈自由文法を形成する[19]。和声進行の規則を文脈自由文法の規則に書こうという試みは[15]以来，既に多くの試みが行われている。一つの和音記号に対してはその転回形や構成音をどこまで含めるかを表示できる内部素性があると便利である。このようなしくみを実現する文法を HPSG（Head-driven Phrase Structure

(6)

Grammar）[10]という。HPSG を用いて和音列の構文解析には[13]の研究例がある。 4.3 音楽の組み合わせカテゴリー文法 先に述べたように，英語の文が名詞句（主語）と動詞句（述語）から成立することは文脈自由規則として S → NP VP のように書ける。すなわち VP は隣接する NP と接合して文Ｓを構成する。この接合においては隣接する相手を「喰う」（bite する）側と喰われる側を明示することによってどちらがヘッドかを明示することができる。すなわちこの規則ではＳを構成する上では VP のほうがヘッドであり，VP と書く代わりに「NP を喰ってＳとなるもの」と書くことにする。いま喰う対象を ʻ/ʼ（スラッシュ）の右側に，喰った結果を左側に書くと述語動詞は ʻS/NPʼ となる。 S → NP S/NP このＳを構成するようすは証明図のように上段から下段への接合操作として書くことができる。 NP S/NP S いま品詞を含めて文の木構造を作る上での，木 の接点となるものをカテゴリー（category）と呼 ぶことにしよう。このようにして構成される文法を組み合わせカテゴリー文法（Combinatorial Category Grammar; CCG）という。さてここからは CCG による音楽のシンタックスを考えよう。Dm7-G7-C には二通りのカデンツの解釈が考えられる。Dm をＧの 5 度下と考えると Dm-G と G-C は連鎖した二つのカデンツであり，Dm7 は F6_{の代用と考えると，F-G-C} （IV-V-I）の形のカデンツとなる。もし Dm7-G7 が解決される前に，さらに間に A7-Dm7-G7 という進行が挟まれば，この二つは C-(Dm7-G7)-(A7-Dm7-G7)-C と考えると，同じ最後の C によって解決されることになる。このようなドミナント連鎖を形成する規則は coordination 規則と呼ばれ ʻ&ʼ で記すことにする。以下では，和音Xがドミナントの機能を帯びる場合は XD_{（D は dominant）と書く。カテゴ} リー文法の記法にしたがい ʻX/Yʼ（Xは和音 Y の完全五度上の和音）と記すと，これは右に（XからYに）向かって完全五度下への進行を含意する。右に隣接する和音Yはトニックとして解決される場合もあれば，さらに次なるドミナントとして機能することもあると考え，YD\T_{（D\T は} dominant or tonic）と記す。図 2 は[3,4]に掲載された，和音連鎖に対するカデンツ解釈の例である。図中では簡単のため一様に XD_/YD\T_{を X/Y} 図 2 CCG による和声解析

(7)

と略記しており，トニックに解決されたもののみ，肩にTを書いて明示してある。

4.4 Generative Syntax Model（GSM）

Martin Rohmeier [9] の生成的統語モデル（Generative Syntax Model; GSM）はやはりチョムスキー的な階層的木構造を生成するモデルである。すなわち一つの和音は前後の和音と依存関係を持ち，特に隣接する和音とはどちらがどちらを支配するかの関係において「機能的ヘッド」（二つの和音のうち，支配的な和音が上位カテゴリーとなる機能）を持つとする。まず，集合の記号を以下のように用意する。 P＝{piece, P} （楽曲)

K＝{Cmaj, Cmin, C♯maj, C♯min, ...} （調)

R＝{TR, SR, DR} （リージョン)

F ＝{t, s, d, tp, sp, dp, tcp} （和性機能)

S ＝{I, II, ..., VII, V/I, ..., VII/I, ...} （音階度数) O＝{Cm, F7, B♭7, ...} （コードシンボル) 次に，木を構成するための文法規則を四つのレベルに分けて定義する。楽句レベルにおいては，楽曲（piece）は楽句 P の連鎖 P+_{であるとし，各} 楽句はトニックのシーズ（種）となるカテゴリーを TR（tonic region）をヘッドとする。 piecekey＝x∈K→ P+, P → TR. 次の機能レベルでは TR が DR（dominant region），SR（subdominant region）をもたらし，さらに t （tonic）， d （dominant）， s （subdominant）を導く。t，d，s それぞれは Hugo Riemann4_{の tp（tonic parallel），tcp（tonic}

counter-parallel），dp（dominant parallel），sp

図 3 バッハのコラール ʻErmuntre Dich, mein schwacher Geisʼ の最初四小

(8)

（subdominant parallel）を導く5_。 TR → DRt TR → t t → tp DR → SRd DR → d t → tcp TR → TRDR SR → s s → sp XR → XRXR（XR∈R） d → dp 以下は転調規則である。転調を司る関数 (f, k)：F × K → K は， (d, B♭maj)＝ Fmaj や (tp, A♭maj)＝ Fmin などのように働く。 Xkey＝y→ TRkey＝ (X, y)

Xkey＝y maj/min→ Xkey＝y min/maj

以下の規則は和声機能から音階上の度数を明示した音階度数レベルへのインタフェースである。 t → I tp →



VI 長調のとき III 短調のとき t → I IV I dp → VII 短調のとき s → IVsp →



II 長調のとき VI, ♭II 短調のとき d → V | VII tcp →



III 長調のとき VI 短調のとき以上，文法理論に基づく音楽の生成モデルを概観した。近年は文法を仮定した音楽構造認知・生成においても機械学習によるモデルが高い性能を達成していることを指摘しておく。特に文法規則の選択においては，汎用性の高い確率文脈自由文法（Probabilistic Context-Free Grammar; PCFG）を，和声進行においては，大局的な文法規則とは独立に，局所的な n-グラムあるいは隠れマルコフモデル（Hidden Markov Model; HMM）を用いることが有効である[21,12]。 5 調性音楽の生成モデル Heinrich Schenker（1868-1935）によるシェンカー理論とは，音楽に簡約という概念を導入し，調性音楽には共通の和声進行の骨格があるとする理論である。この簡約の結果とは楽曲に含まれる多くのピッチイベントから重要度の高いものとなる。このような重要度の関係を形式的に記述するには一般に木構造が用いられる。しかしながら今まで存在した音楽理論で木構造に陽に言及する理論はなかなかなく，Lehrdahl と Jackendoff による the Generative Theory of Tonal Music（以下 GTTM と略記)[7]がおそらく唯一この目的に適うものであった。グループの境界にある音はグループ内部の音より重要であり，拍の乗る音はそうでない音より重要である。特に 4 拍子の曲であれば 1 拍めは 3 拍めより重要であり，3 拍めは 2，4 拍めより重要である。このようにして隣接する音どうしで重要度を比較し，主にボトムアップに音どうしの勝ち抜き戦を行い，負けた枝が勝った枝に吸収される ように描かれた木がタイムスパン木である。また， このタイムスパン木を生成するプロセスがタイムスパン分析である。主にボトムアップと書いたが， タイムスパン木においては木の安定性 （stability）という概念により，木が長さ的にバランスのとれた二分木であることを要請したり，繰り返し構造を持つ曲には繰り返し部分に同じ木を割り振ることを要請することがあるため，部分的にトップダウンなプロセスを含む。このグループ解析の結果，グループ境界の構成が階層的（勝ち抜き戦）であるため，このタイムスパン分析も階層性をなし，その結果タイムスパン木は一つの代表音を頂点として階層的に重要度を帯びることになる。図 4 においてはレベル a にある音が最も重要で，その下位にレベル b ，さらに下位に c があると考える。逆に言うと，このレベルに従って曲の構造を簡約化（reduction）し ていくのがタイムスパン簡約である。簡約の過程 においてはレベルが上るにつれて曲は簡素化・抽象化され，オリジナルから遠ざかることになる。こうした簡約化が可能であるのは，GTTM では

強簡約仮説（strong reduction hypothesis）と呼

ばれる次のような仮説が成り立つとしているからである；

(9)

・聴者は，音楽のすべての音を聴きその中から，心理的に音楽の骨格を形成するように適切に音を選択する，・その選択の過程において，自然に音に重要度の差異をつけ，重要な音が根幹構造を作る一方で，重要でない音はその根幹構造の装飾音として扱われる。 GTTM では，このタイムスパン木を構成するために 2 種類の文法規則が定義される。1 つは構文規則（well-formedness rule）であり，もう 1 つは選好規則（preference rule）である。構文規則はその名のとおりグループなり拍節なりを構成する上で必ず満たさなければならない規則であり，選好規則は一般的な傾向を記述した蓋然性を含む規則である。例えば，図 4 第 3 小節 2 拍目に A dur（イ長調）のドミナントがある。機能を考えればその直後の D dur（二長調）と先にグルーピングされるべきであるが，構成音の重複と音高差を考えると，直前の G dur（ト長調）もグルーピング候補と考えても構わないだろう。このようなグルーピングが競合する場合に，優先度を付けるのが選好規則である。こうして，図 4 に示すように楽曲から重要な音をボトムアップに順次比較し，階層的な木構造が構成される[2]。

GTTM の提唱者である Fred Lerdahl と Ray Jackendoff は次のように述べている：『我々が見い出したことは，音楽の生成理論は言語の生成理論とは異なり，一つの楽曲に複数の構造を割当てるという点と，好ましい解釈としてその構造に重みをつけたり軽くしたりすることで一貫性を保ちながら各々の構造を区別させられるという点である。…音楽分析結果を生成する選好規則が重要な役割を果たすのに対し，言語の生成文法には対応するものが存在しない。この選好規則の有無が，音楽の生成理論と言語の生成理論の大きな違いである。』（筆者訳，抜粋[7, p. 9] 選考規則の存在が，音楽の内包的意味の曖昧さ（人間のゲシュタルトの曖昧さ）を反映していると考えられる。 6 おわりに 昨今，人工知能に対する期待はますます大きくなっている。囲碁や将棋などのボードゲームではとっくの昔に人間を凌駕し，今や人間と人工知能が協働して新しい戦略を編み出す状況となってい

図 4 マタイ受難曲 ʻO Haupt voll Blut und

(10)

る。写真やビデオの世界でも多くのブレークスルーが報告されており，どんな写真を見せてもそれが猫かどうか識別できたり，次の瞬間に風景がどう変わるのかが予測できたり。この原稿を書いている内にもその程度のニュースが陳腐化してしまうような勢いである。では翻って，音楽に関してはどうか。バッハのコラール全作品を機械学習した人工知能が，新しい音楽を作り出すことはできるようになったが，果たして言語やボードゲームや写真ほどの『クオリティ』に達しているだろうか。数万のジャズアドリブフレーズを学習したり，巨匠による演奏を何百曲と集めてきても，まだ人間の感性に合致するところまでは到達していないようだ。このような人工知能による音楽創造には限界があることの理由として，いくつか可能性が考えられる。単純に，まだ正解データが不足しているから。作曲や演奏する人工知能には『人格』が必要だから。聴覚や脳や身体性に基づく審美眼を持たないから（記号接地問題に通じる）。楽譜には音高と時間の二次元平面以上の意味が含まれているから（フレーム問題に通じる)[18]。これらは，高次のモデル表現と推論のボトルネックと言っても良いかも知れない。音楽が我々に突きつけるこの限界，つまり高次の知識表現と推論のボトルネックを克服する一つの鍵が，本稿で述べた言語の構文解析と音楽の構造分析のアナロジーではないかと我々は考えている。言語と音楽のルーツの同一性を捉え，人間の脳に内在する言語認知野が音楽にも同様に機能していると仮定するのは，今のところ妥当な出発点に思える。本稿の表題に立ち返り，人間の音楽と言語，コンピュータによる音楽と言語をどう結び付けるかについて，筆者らが考える未来への道すじの一つを紹介したところで本稿を終えよう。さらに深い議論に興味のある読者には，筆者らの書籍[20]を手にとっていただけると幸甚である。 脚注 注 1 正確には受理の可能性を網羅的に探索する必要があるため，非決定性のプッシュダウン・オートマトンが必要である。注 2 人間には大局的な依存関係を含む階層的フレーズ構造を処理する認知的機能が備わっており，音楽の統語処理と言語の文法処理において共通しているだけでなく，行動や数式の理解等においても機能しているという主張もある（統語等価性仮説と呼ばれる)[5]。注 3 局所的に隣接する音どうしの音高，音価，発音タイミングに基づくゲシュタルトから生じる後続音への期待や不確定さから音楽的意味を構築するモデル[8] 注 4 ドイツの音楽理論学者，作曲家。1849-1919。注 5 ここで parallel（独語）は Riemann 理論の用語であり，英語では relative，日本語では平行と言う。三度下の和音を parallel と呼び，三度上の和音を counter parallel と呼ぶ。ジャズ理論の代理和音に相当する。 文献

[1] P. Ball. The Music Instinct, Vintage Books (2010) (邦訳：夏目大訳. 『音楽の科学』,河出書房新社 (2011))

[2] M. Hamanaka, K. Hirata and S. Tojo. Implementing A Generative Theory of Tonal Music, Journal of New Music Research, 35 (4), 249-277 (2007)

[3] M. Granroth-Wilding and M. Steedman. Statistical Parsing for Harmonic Analysis of Jazz Chord Sequences, Proc. of ICMC2012 (2012) [4] M. Granroth-Wilding and M. Steedman. A

Robust Parser-Interpreter for Jazz Chord Sequences, Journal of New Music Research, 43, 354-374 (2014)

[5] S. Koelsch. Brain and Music, John Wiley & Suns, Ltd. (2013) (邦訳：佐藤正之編訳「音楽と脳科学」,北大路書房, 2016)

[6] D. C. Kozen. Automata and Computability, Springer (1997)

[7] F. Lerdahl and R. Jackendoff. A Generative Theory of Tonal Music. Cambridge, MA: MIT Press (1983)

(11)

Basic Melodic Structures, The University of Chicago Press (1990)

[9] M. Rohmeier. Towards a Generative Syntax of Tonal Harmony. Journal of Mathematics and Music, 5(1), 35-53 (2011)

[10] I. A. Sag, T. Wasow, and E. M. Bender. Syntactic Theory, CSLI Publications (2003)

[11] D. B. Searls. Investigating the Linguistics of DNA with Definite Clause Grammars, in Logic Programming: Proceedings of the North American Conference (E. Luskand R. Overbeek, eds.), pp. 189-208, The MIT Press, (1989) [12] S. Sakamoto, S. Arn, M. Matsubbara, and S. Tojo.

Harmonic analysis based on Tonal Pitch Space, KSE2016 (2016)

[13] S. Tojo, Y. Oka, and M. Nishida. Analysis of Chord Progression by HPSG, in AIAʼ06 Proceedings of the 24th IASTED international conference on Artificial intelligence and applications, ACTA Press (2006)

[14] N. L. Wallin, B. Merker, and S. Brown. (eds.). The Origins of Music. The MIT Press (2000) [15] T. Winograd. Linguistics and the computer

analysis of tonal harmony, Journal of Music Theory, 12(1), 2-49 (1968) [16] 岡ノ谷一夫. 『小鳥の歌からヒトの言葉へ』岩波科学ライブラリー, 岩波書店 (2003) [17] ゲオルギアーデス, T. G. (1954) (木村敏訳 1994) 『音楽と言語』講談社学術文庫. [18] コープ, D. (2005) (平田圭二, 今井慎太郎, 大村英史, 東条敏訳 2019)『人工知能が音楽を創る─ 創造性のコンピュータモデル』音楽之友社. [19] 東条敏. われらの脳の言語認識システムが生み出す音楽 (藤田耕司岡ノ谷一夫編. 進化言語学の構築), ひつじ書房 (2012) [20] 東条敏, 平田圭二. 音楽・数学・言語─情報科学が拓く音楽の地平, 近代科学社 (2017) [21] 吉井和佳. 音楽と統計的記号処理, 音楽情報処理・音楽信号処理の最前線. 映像情報メディア学会誌, 71(4), 457-461 (2017)

言語の構文解析から音楽の構造分析へ

解説

言語の構文解析から音楽の構造分析へ

平田 圭二

東条 敏

From Syntactic Analysis of Language To Structural Analysis of

Music







平田圭二

_{東条敏}