1 はじめに お店にいるときに「ホタルの光」を聞くと, 我々はああ閉店の時間かと思う。それは我々が閉 店をこの曲の「意味」として学習したからである。 もともとこの曲は懐古の情を唄うスコットランド 民謡であり,閉店の意味などかけらもない。筆者 はエディンバラのバーで酔ったお客さんたちがこ の曲を合唱し始めたので,あわてて荷物を片付け て帰る準備をしてしまった経験がある。 音楽がこのように音楽外の意味を持つときには, 次の三段階が想定できる[5]。まず(1)音楽が楽 器を使って現実の音を模倣する形象的意味(例え ば木管によるかっこうの鳴き声,ティンパニによ る雷鳴の音など),次に(2)旋律の進行や和音が 情動や気分といった個人の心理状態を模倣する指 示的意味(例えば上行・下行音階がそれぞれ緊 張・弛緩を示し,長三和音・短三和音がそれぞれ 明るさ・不安を示すことなどから,曲全体が人間 のある気分を指し示すこと),最後に(3)音楽が 特定の行事に使われ,社会との関連性を人工的に 付与する象徴的意味(例えば国歌など)である。 「ホタルの光」は音楽の内部にある何かが帰宅の プレッシャーを催すわけではない。この曲が単に 帰宅という社会的行為と人工的に結びつけられた 結果,そのような象徴的意味を持つに至ったので ある。 それでは音楽は内部に独自の意味を持つのだろ うか。その前段として言語の意味について考えて みよう。言語の意味は外的参照を伴い,ある個別 の状況において発せられたときにその機能を発現 する。「外は晴れている」と言えば,外は晴れて いる状況においてこの文は真になる。「桜は咲い たか」と聞けば,その時点で咲いている桜がある ときに yes と答えられる。しかし,こうした外的 参照と状況埋め込みを抜きにしても,これらの文 は「外は晴れている」状況や「桜が咲いている」 状況をまとめて記述しているため,言語には『内 包的』意味があるという。 1〒 041-8655 北 海 道 函 館 市 亀 田 中 野 町 116-2 公 立 は こ だ て未 来 大 学 シ ス テム 情 報 科 学 部;Future University
Hakodate, School of Systems Information Science, 116-2 Kamedanakano-cho, Hakodate, Hokkaido, 041-8655 Japan (e-mail: [email protected])
2〒 923-1211 石川県能美市旭台 1-1 北陸先端科学技術大学院大学情報科学系 知能ロボティクス領域;Japan
Advanced Institute of Science and Technology (JAIST), School of Information Science, Intelligent Robotics Area, 1-1 Asahidai, Nomi, Ishikawa, 923-1292 Japan
2019 年 5 月 21 日受稿,2019 年 7 月 1 日受理
29
解説
言語の構文解析から音楽の構造分析へ
平田 圭二
1,東条 敏
2From Syntactic Analysis of Language To Structural Analysis of
Music
言語に比べると,音楽の内包的意味は甚だ希薄 あるいは曖昧であると言わざるを得ない。例えば, ドという音が 1 音鳴った時,その音自体はいかな る内包的意味も持たない。しかし,ドとソが同時 に鳴った時や,ドとソが時間的に続けて鳴った時, 音どうしのグルーピングにより,あるゲシュタル トが生まれ,意味が生み出される。 このように,言語でも音楽でも,その内包的な 意味はゲシュタルトによって生まれると考えられ る。しかし,昨夜の素晴らしいコンサートの様子 を周りの人に忠実に伝えたくて,たくさんの文字 数でありったけの修辞を費やしも,その音楽の細 部までも伝えきることは不可能である。逆に,文 学作品や本稿のような技術的論文の内容を音楽で 正確に表現し記述することも不可能である。音楽 と言語は何かは共通していて,何かは異なってい るのである。 本稿ではこのような音楽と言語の共通性と相違 点について議論していこう。 2 音楽と言語の起源 今日我々がいうところの歌は,生物進化の過程 において日常言語と同じルーツを持つものと考え られる[14]。音楽の起源は言語が未発達な時期で のコミュニケーション方法であり,したがって言 語の出自は音楽である。 古代ギリシア時代,言葉,音楽のみならず舞踊, 演劇などの技芸を総合的に μουσική(mousiké) と呼んでいた。 これは,言葉と音楽が未分化というより,表裏 一体で互いに分離できないものとして認識されて いたという方が正しい。 実際,音楽は今も言語に組み込まれている。中 国語には四声があり,音の抑揚が正しくないと伝 わらない。フランス語のアクセントは主に高低で 表現する。イタリア語は主に母音の長短で表現す る。そして,ドイツ語のアクセントは母音の発声 の強弱に依る。これら抑揚,強弱,高低,長短と はまさに音符の記譜の概念である。するとある言 語がその地域で歌われる歌・音楽と親密な関係に あるという主張も自然なことと思われる[17]。 しかし中世以降,西洋調性音楽の誕生と発展と ともに,言語と音楽は明確に袂を分かつ。かのチ ャ ー ル ズ・ダ ー ウ ィ ン は The Desent of Man (1871)の中で, 『はるかな過去には,男も女も,言語によっ て自らの愛を明確に表現することはできなか ったであろう。その代わりに使ったのは音楽 ではないか。旋律とリズムの力によって愛す る人を惹きつけようとしたのではないだろう か。』 と述べた。このことは Philip Ball[1]が BBC のイ ンタビューに答え,もっとはっきりと, 『音楽は料理や農耕,会話や子育てなどと違 い,人々の生活に明らかな恩恵をもたらさな い。音楽は歓喜や悲しみ,舞踏など確かに 我々に満足をもたらすが,それに生物進化上 はっきりわかるアドバンテージがあったと言 えるかどうか』 と述べている。 言語と音楽がまだ未分化だった頃,言語を補完 していた『音楽的側面』のみを取り出し,象徴的 意味として効率的に機能する装置を目指して開発 されてきたものが,現代における音楽(特に大衆 音楽)といえるのではないだろうか。 3 人間の言語の階層 現代の我々の多くは,音楽と言語は全く異なる コミュニケーションメディアだと考えているので, 音楽を理解・生成する能力と言語のそれとを分け て考えがちである。しかし前述したように,言語 と音楽は,もともと渾然一体となって人間どうし のコミュニケーションを支えた媒体であった。と いうことは,音楽を処理する認知機能あるいは脳 機能と言語のそれとの間に,ある程度の共通部分 があると仮定しても構わないのではないだろうか。
ここでは,まず言語を処理する機能の方から考 えていくことにしよう。 近代的な言語理論の始祖の一人,ノーム・チョ ムスキー(Noam Chomsky; 1928-)は人間の言 語の複雑さを論じる際に,形式文法(抽象的な記 号列の生成能力)の階層を定義した[6]。その階 層においては正規文法と文脈自由文法の区別が重 要であり,いずれもさらに一般的な仮想計算機チ ューリングマシンによって生成される文字列の部 分集合となる。さてでは我々の言語はチョムス キー階層のどのくらいに位置するのだろう。岡ノ 谷らの研究[16]によればジュウシマツの歌には文 法があり,それは有限状態オートマトンで表現さ れることから正規文法をなす。このとき,オート マトンの一つの遷移に関わる入力文字はジュウシ マツの発声する一音素である。それに対して人間 の言語はほぼ文脈自由言語になっている。このこ とを以下に説明しよう。 形式言語の定義においてはオートマトンの遷移 に関わる入力は一文字であると考えてきたが,人 間の言語の認識においては一単語が入力単位であ ると考える。例えば「金沢にカニを食べに行く」 という文を考えてみよう。「金沢」には「行く」 わけであるし,「カニを」「食べる」わけであるか らこれらの名詞句と述語の関係には係り受け関係 がある。日本語はこの係り受け関係が交差しない こと,すなわち,「係り」から「受け」に矢印を 引くと矢印が交わらないことが原則である。よっ て「金 沢 に 行 っ て カ ニ を 食 べ る」は OK で も 「金沢にカニを行って食べる」は不自然だという わけである(図 1 )。 「単語間の依存関係は交差しない」ということ は,我々の言語の重要な特徴の 1 つである。係り 受けの矢印の始点・終点を括弧の開く・閉じるに 対応させると,係り受け非交差は,「直近に開い た括弧が閉じないうちに,それ以前の括弧を閉じ ない」ことと同等になる。 今度はプッシュダウン・スタックというメモリ 領域を考えてみよう。これは情報を一列に並べて 貯蔵する縦置きの筒で,筒の上端の開口部のみか ら情報を積み込んだり取り出したりできるものと 考えればよい。括弧を開くという操作は,いつか それが閉じられる必要があることを「宿題」とし て記憶する必要がある。よってこの情報をスタッ クに上の口から押し込んで(push)記憶し,括 弧を閉じるという操作はスタックからこの記憶を 取り出して(pop)宿題を片付けることと考えら れる。スタックは上の口だけ開いているので取り 出すことのできるのは一番上に載っている宿題の みである。プッシュダウン・スタックをメモリ領 域にもつ計算機のモデルがプッシュダウン・オー トマトンであり,プッシュダウン・オートマト ン1で受理される言語が文脈自由言語である[6]。 文脈自由言語を生成する規則を英語を例にとっ て考えてみよう。まず構文の構成要素を次のよう に定める。 S Sentence 文 NP Noun Phrase 名詞句 N Noun 名詞 Det Determiner 冠詞 VP Verb Phrase 動詞句 IV Intransitive Verb 自動詞 TV Transitive Verb 他動詞 上記各々の構成要素が他のどのような構成要素に 分解されるかを記載したのが文法規則である。こ の分解には以下のように矢印(→)を用いる。矢 印を逆向きに読めば,右辺の構成要素を連接する と左辺が構成されると解釈できる。 S → NP VP :文は名詞句(主語)と動詞 句(述語)から構成される 図 1 係り受けの制限
NP → Det N :名詞句は冠詞と名詞から構 成される NP → N :名詞単独で名詞句になる VP → IV :自動詞単独で動詞句になる VP → TV NP :動 詞 句 は 他 動 詞 と 名 詞 句 (目的語)から構成される N → dog, cat, man, girl, apple, house, … IV → walk, swim, … TV → love, eat, … Det → a, the, … いずれの規則も矢印(→)の左辺は変数と考えら れ,右辺のように書き換えることが可能であると 読むことができる。上記規則のうち,下半分はい わゆる辞書であり語彙である。これらはこれ以上 書き換えが不可能である。形式言語の用語によれ ば,書き換えができない各単語はそこで書き換え の 終 点 と い う 意 味 で 終 端 記 号(Terminal symbol)といい小文字で書く。一方,書き換え 可 能 な 変 数 は 非 終 端 記 号(Non-terminal symbol)といい大文字で書く。 上記の規則を見ると,いずれも矢印の左辺が単 独の非終端記号であり,何か別の文字に挟まれて いる(文脈に依存している)ことはない。これが 文脈自由と呼ばれる所以である。例えば a X b → a Y Z b のように左辺のXが a,b に挟まれているときの み,右辺への書き換えが可能であるとする文法規 則は文脈依存であるという。 自然言語文の構文を見てみると,一つの係り受 け関係が文の中で句としてまとまった意味となる 部分木を作り,文全体はこうした部分木どうしを 接合してさらに大きな木構造を作っている。ここ に部分木から全体木への階層が生まれる。プッシ ュダウン・スタックは人間の脳の中の一時記憶装 置であり,耳で聞いた単語が一時的に蓄えられ, いつかそれと係り受けする単語が来ることを予測 するしくみである。逆に言えば生物進化のうちに 人間だけがこのような記憶装置を具備することに よって階層構造を持つ文を理解するようになった とも言えよう。 さて一度このような記憶装置を身につけてしま ったら,耳が音楽を聴くときに活用されないとい うことは逆に考えにくいのではないだろうか。す なわち人間は音楽を聴くときも,ある楽句の記憶 をもとにそれと関連する楽句を予測するような聞 き方をしていないだろうか。さらには,短期記憶 をプッシュダウン・スタックとして用いることか ら音楽にも「予測から帰結へ」という文脈自由文 法と同様な構造があるのではないだろうか2。 4 和声進行規則の言語クラス 4.1 文法発見とはどんな問題か 人間にとって,時系列データや順序に従うデー タを理解する道具としての文法は強力である。 我々はその文法を使って言語と音楽の共通性と相 違点を探ろうとしているので,まず文法という道 具自体について,少し考えてみよう。 自然言語のテキストや単語の列も,楽譜に含ま れる音符と休符の列も,読む方向あるいは時間軸 に沿って並べられている記号列と考えられる。そ の記号がどんな規則によって並べられているかを 表すものが文法である。今我々が着目している記 号や部分的な記号列(これらをひっくるめて以下 「記号」と呼ぼう)に対して,すぐ隣にある記号 あるいは遠く離れたところに現れる記号との関係 を記述すれば,今着目している記号がそこに出現 している意味が分かるだろう。さらに,今の次に どんな記号が来そうなのかを予測することもでき よう。 ここで文法が果たしている機能は大きく二つあ る。一つは同じものや似たものどうしや関連した ものどうしをグループにまとめることであり,も う一つは着目しているモノを他のモノと関係付け ることである。数理の言葉では,前者は集合に, 後者は二項関係に対応する。さらに,複雑な知識 や認知を表現するために,グループのグループを 作ったり,グループどうしを関係付けたり,関係
付けどうしを関係付けたり,関係付けのグループ を作ったりすることが行われ,自然にグループと 関係付けに関する階層性が導入される。こうして 文法による理解は木構造で表現されるのである。 ち な み に,グ ル ー ピ ン グ に よ る 音 楽 理 解 が GTTM( 5 節)に,音と音の関係付けによる音 楽理解が暗意-実現モデル3に対応しているのは, 偶然ではないだろう。 文法の研究が最も進んでいる領域は自然言語で あるから,自然言語の構文解析の手法を他の対象 に援用してみようという発想が生まれる。例えば, 遺伝子の中の DNA の配列も同じように記号列で あり,その解析にも自然言語の解析技術が応用さ れ,一定の成功を収めた[11]。ならば,コンピ ュータに音楽を理解させたり生成させたりするの にも,自然言語処理の方法論をうまくて適用すれ ばいいのではないか。前章で見たように,自然言 語に人間が処理できるクラスの文法が備わってい るように,音楽にも人間が処理できるクラスの文 法が備わっていると仮定するところから考え始め ることができる。例えば形態素解析(意味を持つ 最小限の文字列の認識)は近隣の音符を集めた楽 句認識に相当すると考えられる。しかし,音楽に は文という単位がないし,名詞や動詞のような単 語カテゴリーもない。さてどのように楽句と楽句 の間に何か有意味な関係を見出す操作を定義し, 自然言語における構文解析に対応する処理を実現 すればいいのだろうか。音楽の三要素は旋律,和 声,リズムであると言われているので,本稿では まず和声の文法から考えてみよう。 4.2 カデンツの文脈自由性 和声の理論において,カデンツ(独 Kadenz) とは,曲の終了感をもたらすような和音の並びで ある。長調・短調からなる調性音楽においては, 曲は通常音階度数Ⅰの和音(トニック)から開始 される。またⅤの和音は最も緊張をもたらすとし, ドミナントと呼ばれる。この緊張はⅠの和音(ト ニック)への進行によって「解決される」という。 この完全五度下方への進行 I ˜˜ V - I が典型的なカデンツである。ここで ˜ の部分はト ニック(Ⅰ)への意識を維持しつつも,ある程度 自由な経過句を許容する。カデンツには I ˜˜ IV - V - I I ˜˜ IV - I も用いられる。またこの進行は繰り返しや埋め込 みなどの方法により,自然言語の文脈自由文法同 様の方法で広義のより大きなカデンツ構造を作る。 Ⅴの和音がドミナントの機能を持つときは,そう であるとはっきりわかるように三和音以外の音が 加えられ,しばしば属七の和音(V7)が用いら れる。 我々は実際に音楽を聞いてこのように遠隔に働 く依存構造を認識している。V → I という進行は 先に述べたように終止感を表すが,このⅤを導く ためにさらにⅤをあたかもトニックと見立ててこ の臨時トニックに対するドミナントを先行させる ことがある。これが二重ドミナント(doppel-dominant)であり V/V と表記される。いま長三 和音をローマ数字大文字による度数,短三和音を ローマ数字小文字による度数で表記する。Gの完 全五度上の音はDであるから,ⅱ(D, F, A)の 和音のFの音を半音上げた長三和音Ⅱ(D, F#, A)がこれに対応する。これは V → I という終止 形においてさらにⅤの中にも V/V → V という終 止形を再帰的に潜り込ませた形になっている。 これはカデンツの中へのカデンツの埋め込みで あり,プッシュダウン・スタックの動きそのもの である。よって自然な和音進行というのは文脈自 由文法を形成する[19]。 和声進行の規則を文脈自由文法の規則に書こう という試みは[15]以来,既に多くの試みが行われ ている。一つの和音記号に対してはその転回形や 構成音をどこまで含めるかを表示できる内部素性 があると便利である。このようなしくみを実現す る文法を HPSG(Head-driven Phrase Structure
Grammar)[10]という。HPSG を用いて和音列 の構文解析には[13]の研究例がある。 4.3 音楽の組み合わせカテゴリー文法 先に述べたように,英語の文が名詞句(主語) と動詞句(述語)から成立することは文脈自由規 則として S → NP VP のように書ける。すなわち VP は隣接する NP と 接合して文Sを構成する。この接合においては隣 接する相手を「喰う」(bite する)側と喰われる 側を明示することによってどちらがヘッドかを明 示することができる。すなわちこの規則ではSを 構成する上では VP のほうがヘッドであり,VP と書く代わりに「NP を喰ってSとなるもの」と 書くことにする。いま喰う対象を ʻ/ʼ(スラッシ ュ)の右側に,喰った結果を左側に書くと述語動 詞は ʻS/NPʼ となる。 S → NP S/NP このSを構成するようすは証明図のように上段か ら下段への接合操作として書くことができる。 NP S/NP S いま品詞を含めて文の木構造を作る上での,木 の接点となるものをカテゴリー(category)と呼 ぶことにしよう。このようにして構成される文法 を 組 み 合 わ せ カ テ ゴ リ ー 文 法(Combinatorial Category Grammar; CCG)という。 さてここからは CCG による音楽のシンタック スを考えよう。Dm7-G7-C には二通りのカデン ツの解釈が考えられる。Dm をGの 5 度下と考え ると Dm-G と G-C は連鎖した二つのカデンツで あ り,Dm7 は F6の 代 用 と 考 え る と,F-G-C (IV-V-I)の形のカデンツとなる。 もし Dm7-G7 が解決される前に,さらに間に A7-Dm7-G7 という進行が挟まれば,この二つは C-(Dm7-G7)-(A7-Dm7-G7)-C と考えると,同じ最後の C によって解決されるこ とになる。このようなドミナント連鎖を形成する 規則は coordination 規則と呼ばれ ʻ&ʼ で記すこと にする。 以下では,和音Xがドミナントの機能を帯びる 場 合 は XD(D は dominant)と 書 く。カ テ ゴ リー文法の記法にしたがい ʻX/Yʼ(Xは和音 Y の 完全五度上の和音)と記すと,これは右に(Xか らYに)向かって完全五度下への進行を含意する。 右に隣接する和音Yはトニックとして解決され る場合もあれば,さらに次なるドミナントとして 機 能 す る こ と も あ る と 考 え,YD\T(D\T は dominant or tonic)と記す。図 2 は[3,4]に掲載 された,和音連鎖に対するカデンツ解釈の例であ る。図中では簡単のため一様に XD/YD\Tを X/Y 図 2 CCG による和声解析
と略記しており,トニックに解決されたもののみ, 肩にTを書いて明示してある。
4.4 Generative Syntax Model(GSM)
Martin Rohmeier [9] の 生 成 的 統 語 モ デ ル (Generative Syntax Model; GSM)はやはりチョ ムスキー的な階層的木構造を生成するモデルであ る。すなわち一つの和音は前後の和音と依存関係 を持ち,特に隣接する和音とはどちらがどちらを 支配するかの関係において「機能的ヘッド」(二 つの和音のうち,支配的な和音が上位カテゴリー となる機能)を持つとする。 まず,集合の記号を以下のように用意する。 P={piece, P} (楽曲)
K={Cmaj, Cmin, C♯maj, C♯min, ...} (調)
R={TR, SR, DR} (リージョン)
F ={t, s, d, tp, sp, dp, tcp} (和性機能)
S ={I, II, ..., VII, V/I, ..., VII/I, ...} (音階度数) O={Cm, F7, B♭7, ...} (コードシンボル) 次に,木を構成するための文法規則を四つのレ ベルに分けて定義する。楽句レベルにおいては, 楽曲(piece)は楽句 P の連鎖 P+であるとし,各 楽句はトニックのシーズ(種)となるカテゴリー を TR(tonic region)をヘッドとする。 piecekey=x∈K→ P+, P → TR. 次 の 機 能 レ ベ ル で は TR が DR(dominant region),SR(subdominant region)をもたらし, さ ら に t (tonic), d (dominant), s (subdominant)を 導 く。t,d,s そ れ ぞ れ は Hugo Riemann4の tp(tonic parallel),tcp(tonic
counter-parallel),dp(dominant parallel),sp
図 3 バッハのコラール ʻErmuntre Dich, mein schwacher Geisʼ の最初四小
(subdominant parallel)を導く5。 TR → DRt TR → t t → tp DR → SRd DR → d t → tcp TR → TRDR SR → s s → sp XR → XRXR(XR∈R) d → dp 以下は転調規則である。転調を司る関数 (f, k):F × K → K は, (d, B♭maj)= Fmaj や (tp, A♭maj)= Fmin などのように働く。 Xkey=y→ TRkey= (X, y)
Xkey=y maj/min→ Xkey=y min/maj
以下の規則は和声機能から音階上の度数を明示し た音階度数レベルへのインタフェースである。 t → I tp →
VI 長調のとき III 短調のとき t → I IV I dp → VII 短調のとき s → IVsp →
II 長調のとき VI, ♭II 短調のとき d → V | VII tcp →
III 長調のとき VI 短調のとき 以上,文法理論に基づく音楽の生成モデルを概 観した。近年は文法を仮定した音楽構造認知・生 成においても機械学習によるモデルが高い性能を 達成していることを指摘しておく。特に文法規則 の選択においては,汎用性の高い確率文脈自由文 法 (Probabilistic Context-Free Grammar; PCFG)を,和声進行においては,大局的な文法 規則とは独立に,局所的な n-グラムあるいは隠 れ マ ル コ フ モ デ ル(Hidden Markov Model; HMM)を用いることが有効である[21,12]。 5 調性音楽の生成モデル Heinrich Schenker(1868-1935)によるシェン カー理論とは,音楽に簡約という概念を導入し, 調性音楽には共通の和声進行の骨格があるとする 理論である。この簡約の結果とは楽曲に含まれる 多くのピッチイベントから重要度の高いものとな る。このような重要度の関係を形式的に記述する には一般に木構造が用いられる。しかしながら今 まで存在した音楽理論で木構造に陽に言及する理 論はなかなかなく,Lehrdahl と Jackendoff によ る the Generative Theory of Tonal Music(以下 GTTM と略記)[7]がおそらく唯一この目的に適 うものであった。 グループの境界にある音はグループ内部の音よ り重要であり,拍の乗る音はそうでない音より重 要である。特に 4 拍子の曲であれば 1 拍めは 3 拍 めより重要であり,3 拍めは 2,4 拍めより重要 である。このようにして隣接する音どうしで重要 度を比較し,主にボトムアップに音どうしの勝ち 抜き戦を行い,負けた枝が勝った枝に吸収される ように描かれた木がタイムスパン木である。また, このタイムスパン木を生成するプロセスがタイム スパン分析である。主にボトムアップと書いたが, タ イ ム ス パ ン 木 に お い て は 木 の 安 定 性 (stability)という概念により,木が長さ的にバ ランスのとれた二分木であることを要請したり, 繰り返し構造を持つ曲には繰り返し部分に同じ木 を割り振ることを要請することがあるため,部分 的にトップダウンなプロセスを含む。 このグループ解析の結果,グループ境界の構成 が階層的(勝ち抜き戦)であるため,このタイム スパン分析も階層性をなし,その結果タイムスパ ン木は一つの代表音を頂点として階層的に重要度 を帯びることになる。図 4 においてはレベル a に ある音が最も重要で,その下位にレベル b ,さら に下位に c があると考える。逆に言うと,このレ ベルに従って曲の構造を簡約化(reduction)し ていくのがタイムスパン簡約である。簡約の過程 においてはレベルが上るにつれて曲は簡素化・抽 象化され,オリジナルから遠ざかることになる。 こうした簡約化が可能であるのは,GTTM では強簡約仮説(strong reduction hypothesis)と呼
ばれる次のような仮説が成り立つとしているから である;
・聴者は,音楽のすべての音を聴きその中から, 心理的に音楽の骨格を形成するように適切に 音を選択する, ・その選択の過程において,自然に音に重要度 の差異をつけ,重要な音が根幹構造を作る一 方で,重要でない音はその根幹構造の装飾音 として扱われる。 GTTM では,このタイムスパン木を構成する ために 2 種類の文法規則が定義される。1 つは構 文規則(well-formedness rule)であり,もう 1 つは選好規則(preference rule)である。構文規 則はその名のとおりグループなり拍節なりを構成 する上で必ず満たさなければならない規則であり, 選好規則は一般的な傾向を記述した蓋然性を含む 規則である。例えば,図 4 第 3 小節 2 拍目に A dur(イ長調)のドミナントがある。機能を考え ればその直後の D dur(二長調)と先にグルーピ ングされるべきであるが,構成音の重複と音高差 を考えると,直前の G dur(ト長調)もグルーピ ング候補と考えても構わないだろう。このような グルーピングが競合する場合に,優先度を付ける のが選好規則である。こうして,図 4 に示すよう に楽曲から重要な音をボトムアップに順次比較し, 階層的な木構造が構成される[2]。
GTTM の提唱者である Fred Lerdahl と Ray Jackendoff は次のように述べている: 『我々が見い出したことは,音楽の生成理論 は言語の生成理論とは異なり,一つの楽曲に 複数の構造を割当てるという点と,好ましい 解釈としてその構造に重みをつけたり軽くし たりすることで一貫性を保ちながら各々の構 造を区別させられるという点である。…音楽 分析結果を生成する選好規則が重要な役割を 果たすのに対し,言語の生成文法には対応す るものが存在しない。この選好規則の有無が, 音楽の生成理論と言語の生成理論の大きな違 いである。』(筆者訳,抜粋[7, p. 9] 選考規則の存在が,音楽の内包的意味の曖昧さ (人間のゲシュタルトの曖昧さ)を反映している と考えられる。 6 おわりに 昨今,人工知能に対する期待はますます大きく なっている。囲碁や将棋などのボードゲームでは とっくの昔に人間を凌駕し,今や人間と人工知能 が協働して新しい戦略を編み出す状況となってい
図 4 マタイ受難曲 ʻO Haupt voll Blut und
る。写真やビデオの世界でも多くのブレークス ルーが報告されており,どんな写真を見せてもそ れが猫かどうか識別できたり,次の瞬間に風景が どう変わるのかが予測できたり。この原稿を書い ている内にもその程度のニュースが陳腐化してし まうような勢いである。 では翻って,音楽に関してはどうか。バッハの コラール全作品を機械学習した人工知能が,新し い音楽を作り出すことはできるようになったが, 果たして言語やボードゲームや写真ほどの『クオ リティ』に達しているだろうか。数万のジャズア ドリブフレーズを学習したり,巨匠による演奏を 何百曲と集めてきても,まだ人間の感性に合致す るところまでは到達していないようだ。 このような人工知能による音楽創造には限界が あることの理由として,いくつか可能性が考えら れる。単純に,まだ正解データが不足しているか ら。作曲や演奏する人工知能には『人格』が必要 だから。聴覚や脳や身体性に基づく審美眼を持た ないから(記号接地問題に通じる)。楽譜には音 高と時間の二次元平面以上の意味が含まれている から(フレーム問題に通じる)[18]。これらは, 高次のモデル表現と推論のボトルネックと言って も良いかも知れない。 音楽が我々に突きつけるこの限界,つまり高次 の知識表現と推論のボトルネックを克服する一つ の鍵が,本稿で述べた言語の構文解析と音楽の構 造分析のアナロジーではないかと我々は考えてい る。言語と音楽のルーツの同一性を捉え,人間の 脳に内在する言語認知野が音楽にも同様に機能し ていると仮定するのは,今のところ妥当な出発点 に思える。本稿の表題に立ち返り,人間の音楽と 言語,コンピュータによる音楽と言語をどう結び 付けるかについて,筆者らが考える未来への道す じの一つを紹介したところで本稿を終えよう。さ らに深い議論に興味のある読者には,筆者らの書 籍[20]を手にとっていただけると幸甚である。 脚 注 注 1 正確には受理の可能性を網羅的に探索する必要 があるため,非決定性のプッシュダウン・オート マトンが必要である。 注 2 人間には大局的な依存関係を含む階層的フレー ズ構造を処理する認知的機能が備わっており,音 楽の統語処理と言語の文法処理において共通して いるだけでなく,行動や数式の理解等においても 機能しているという主張もある(統語等価性仮説 と呼ばれる)[5]。 注 3 局所的に隣接する音どうしの音高,音価,発音 タイミングに基づくゲシュタルトから生じる後続 音への期待や不確定さから音楽的意味を構築する モデル[8] 注 4 ドイツの音楽理論学者,作曲家。1849-1919。 注 5 ここで parallel(独語)は Riemann 理論の用語 であり,英語では relative,日本語では平行と言 う。三度下の和音を parallel と呼び,三度上の和 音を counter parallel と呼ぶ。ジャズ理論の代理 和音に相当する。 文 献
[1] P. Ball. The Music Instinct, Vintage Books (2010) (邦訳:夏目大 訳. 『音楽の科学』,河出書 房新社 (2011))
[2] M. Hamanaka, K. Hirata and S. Tojo. Implementing A Generative Theory of Tonal Music, Journal of New Music Research, 35 (4), 249-277 (2007)
[3] M. Granroth-Wilding and M. Steedman. Statistical Parsing for Harmonic Analysis of Jazz Chord Sequences, Proc. of ICMC2012 (2012) [4] M. Granroth-Wilding and M. Steedman. A
Robust Parser-Interpreter for Jazz Chord Sequences, Journal of New Music Research, 43, 354-374 (2014)
[5] S. Koelsch. Brain and Music, John Wiley & Suns, Ltd. (2013) (邦訳:佐藤正之 編訳「音楽と脳科 学」,北大路書房, 2016)
[6] D. C. Kozen. Automata and Computability, Springer (1997)
[7] F. Lerdahl and R. Jackendoff. A Generative Theory of Tonal Music. Cambridge, MA: MIT Press (1983)
Basic Melodic Structures, The University of Chicago Press (1990)
[9] M. Rohmeier. Towards a Generative Syntax of Tonal Harmony. Journal of Mathematics and Music, 5(1), 35-53 (2011)
[10] I. A. Sag, T. Wasow, and E. M. Bender. Syntactic Theory, CSLI Publications (2003)
[11] D. B. Searls. Investigating the Linguistics of DNA with Definite Clause Grammars, in Logic Programming: Proceedings of the North American Conference (E. Luskand R. Overbeek, eds.), pp. 189-208, The MIT Press, (1989) [12] S. Sakamoto, S. Arn, M. Matsubbara, and S. Tojo.
Harmonic analysis based on Tonal Pitch Space, KSE2016 (2016)
[13] S. Tojo, Y. Oka, and M. Nishida. Analysis of Chord Progression by HPSG, in AIAʼ06 Proceedings of the 24th IASTED international conference on Artificial intelligence and applications, ACTA Press (2006)
[14] N. L. Wallin, B. Merker, and S. Brown. (eds.). The Origins of Music. The MIT Press (2000) [15] T. Winograd. Linguistics and the computer
analysis of tonal harmony, Journal of Music Theory, 12(1), 2-49 (1968) [16] 岡ノ谷一夫. 『小鳥の歌からヒトの言葉へ』岩 波科学ライブラリー, 岩波書店 (2003) [17] ゲ オ ル ギ ア ー デ ス, T. G. (1954) (木 村 敏 訳 1994) 『音楽と言語』講談社学術文庫. [18] コープ, D. (2005) (平田圭二, 今井慎太郎, 大村 英史, 東条敏 訳 2019)『人工知能が音楽を創る─ 創造性のコンピュータモデル』音楽之友社. [19] 東条敏. われらの脳の言語認識システムが生み 出す音楽 (藤田耕司 岡ノ谷一夫 編. 進化言語学 の構築), ひつじ書房 (2012) [20] 東条敏, 平田圭二. 音楽・数学・言語─情報科学 が拓く音楽の地平, 近代科学社 (2017) [21] 吉井和佳. 音楽と統計的記号処理, 音楽情報処 理・音楽信号処理の最前線. 映像情報メディア学 会誌, 71(4), 457-461 (2017)