言語学とAI ─自然言語処理技術の進展と言語学の役割─

(1)

1．は　じ　め　に

言語学はヒトの言語に関する科学的な研究を行う学問領域である．また，AI は知的な働きをするコンピュータに関する計算機科学・工学の一領域である [McCarthey 07]．言語が人間の知性の所以の一端であり，人間だけが言語を操れる [Berwick 15] という観点からは，計算機による言語の処理は必然的に AI の対象に含まれる．この AI の一分野は自然言語処理（Natural Language Processing：NLP）と呼ばれる領域をなしており，言語学から多くのことを学んで進展してきた．一方の言語学においては，特に計算の（computational）側面から言語にアプローチする立場を計算言語学（Computational Linguistics：CL）と呼ぶ．NLP と CL の研究対象・コミュニティは重なる部分が大きく，この二つの名称もしばしば類義語として用いられてきた．そこで本稿では，NLP 技術の進展において果たしてきた，あるいは，果たすべき言語学の役割について検討する．まず，近年目覚ましい進展を見せている深層学習を適用したエンドツーエンド学習（end-to-end learn-ing）のアプローチにより，多くの NLP 応用システムや基盤的な言語処理機能が実現されつつあることを例をあげながら示す．このような状況においては，伝統的な NLP システムにおいて果たしてきた言語学の役割は，限定的なものへと変わらざるを得ない．一方，想定する NLP 機能の全体をエンドツーエンド学習で実現することは困難である，あるいは，得策ではないという立場も十分にあり得る．この場合は，目的とする機能を実現する要素を適切にモジュール化し，可能ならば，各モジュールをエンドツーエンドで学習できるように，適切にその入出力を設定する必要がある．今後の NLP の重要な方向性が意味理解 [Russell 02]，あるいは，理解に基づく処理の実現であるとすれば，可用性の高い意味表現形式を定めることが望まれる．そこで本稿の後半では，このような観点からも注目を集め始めている抽象的意味表現形式（Abstract Meaning Representation：AMR）[Banarescu 13] の概要と展開について述べる．言語学，AI/NLP 双方とも歴史と広がりをもつ領域であり，本稿ではその一端を私見を交えて紹介するに過ぎないが，最後に NLP からの言語学関連領域への貢献の可能性についても簡単に述べ，本稿のまとめとしたい．

2．言語の特性と言語学

2･1 言語の特性：創造性，恣意性言語とは何か，あるいは，言語を規定する特性について，さまざまな議論がなされてきている．多くの文献で共通して指摘される特性である創造性（creativity）と恣意性（arbitrariness）は，特に NLP においても考慮すべき重要な特性である．以下に説明するように，創造性は言語の統語論（syntax）的側面に，恣意性は言語の意味論（semantics）的側面に主に関係している．対話システムなどの NLP 応用システムにおいては，対話の状況に即した発話の意味や機能を扱う語用論（pragmatics）的側面も考慮する必要があるが，本稿では，統語的側面と意味的側面に関わる話題に限定する． § 1　創造性創造性の説明にはさまざまな表現があるが，例えばある言語学の入門書 [Fromkin 10] は以下のように書いている：“Any speaker of any human language can produce and understand an in nite number of sentences.”（任意の言語のすべての話者は，無限の文を生み出し，また，理解することができる）．NLP におい

言語学と AI

　─自然言語処理技術の進展と言語学の役割─

Linguistics and AI

　─ The Changing Role of Linguistics in Advancing NLP Technologies ─

林　　良彦

早稲田大学理工学術院

Yoshihiko Hayashi Faculty of Science and Engineering, Waseda University. [email protected]

Keywords:

natural language processing（NLP）, computational linguistics（CL）, NLP pipeline, compositionality, end-to-end learning, abstract meaning representation（AMR）.

(2)

ても，できれば制限のない，あるいは制限の少ない入力を扱いたいので，創造性は最も考慮しなければならない特性である．人間は，有限の処理装置とリソースによって無限の文・言語表現のバリエーションを扱えるということから，これを可能とするための心的な機構が存在するはずである．このようなメカニズム，あるいは，知識を，（広い意味での）文法（grammar）と呼ぶ．人間の子供は乏しい言語的刺激（poverty of stimulus）からでも母語を習得できることから，チョムスキー（Noam Chomsky）は，ヒトはこの知識＝普遍文法（Universal Grammar： UG）を生得的に備えていると主張している． § 2 　恣意性恣意性とは，言語における単語の意味と形式，あるいは，意味と発音の間に自然法則などによる必然的な結び付きがないことをいう．図 1 に [Ogden 89]（オリジナルは 1923 年刊行）で提唱された意味の三角形（semantic triangle）と呼ばれる図式を示す．心的な存在である概念（concept）は現実世界における指示対象（referent）を参照し（refers to），記号（sign）と対応する（symbolizes）．言語における単語などは記号に含まれる．一方，記号は指示対象を表す（stands for）とされる．しかし，この両者の間には直接的な関係はなく，結び付きは恣意的である．図において関係性が点線で示されているのは，このためである．意味を扱う NLP においては，どのように文の意味を表現するか，また，その意味表現をどのように導出するか，そもそも，意味表現の基本部品となる単語の意味表現を語彙知識をどのように獲得・表現するか，といったことが課題となる．一方で，意味の根拠付け（グラウンディング，grounding）をどのように行うか，あるいは意味表現をどうやって相互運用可能なもの（interoperability）にするかという問題もあり，これらの解決は広い意味での AI の課題であると考えられる． 2･2 言語学におけるいくつかの対立軸言語学の長い歴史 [中川 09, Thomas 11] においては，いくつかの対立する思想や概念が提示されてきた．ここでは，以降の議論に関係すると思われるいくつかの「対立軸」をピックアップして示す．これらの軸は必ずしも独立したものではなく，相互に関連している．（i）研究の立場：帰納的 vs. 演繹的チョムスキーの言語学（一般に生成文法（generative grammar）と称される）は，収集された言語データの分析に基づいて言語使用における規則性を記述しようとする構造主義言語学への批判＊1_{に立脚していることはよく} 知られている．おおざっぱにいえば，構造主義言語学は帰納的（inductive）で，チョムスキーの言語学は演繹的（deductive）であるとされる．これらの立場は，経験主義（empiricism），合理主義（rationalism）という言葉で表されることもあり，NLP（あるいは AI）の分野においても一つの対立軸となっている．NLP において主流を占める方法論の歴史的経緯を見れば，規則や知識に基づく合理主義的方法論からデータに基づく経験主義的方法論へと遷移しており，（好き嫌いは別として）この流れは変わらないものと考えられる．（ii）研究の対象：言語能力と言語運用近代言語学，特に構造主義言語学の祖とされるソシュール（Ferdinand de Saussure）は，ある言語社会によって共有される言語知識の体系をラング（langue）と呼び，個人の実際の場面での言語の使用を指すパロール（parole）と峻別し，言語学は前者を研究の対象とすべきだとした．現在の主流となっているデータに基づく NLP/CL は，言語能力が発揮された結果として産出された言語データを大量に収集・分析するという方法論を取っている．このような考え方の起源はソシュールの言語学にある [中川 09] と考えることができる．一方，チョムスキーによる言語能力（competence）と言語運用（performance）も，詳細な議論はあるにせよ，それぞれソシュールのラングとパロールの区分に対応するものと考えることができる．チョムスキーは，科学としての言語学の目的は言語能力の解明にあることを強調している．（iii）言語の役割：コミュニケーション vs. 思考言語の本質的な役割が，情報・知識の伝達を含む広義のコミュニケーション（communication）の手段にあるか，あるいは思考（thought）を形づくるメカニズムであるかについても多くの議論がある．言語の使用場面を対象とする語用論が前者に重きを置いているというのは，ある意味で当然であろうが，言語の認知的側面に着目する認知言語学（cognitive linguistics）＊2_{に属する学} 図 1　意味の三角形＊1 言語データの統計的分析・学習に基づくアプローチに対するチョムスキーの批判的な立場，およびそれに対峙する計算機科学の代表的な考え方については，[Norvig 11] に的確に，しかも興味深くまとめられている．＊2 ところで，認知言語学の根底をなす考え方は，用法基盤モデル（usage-based model）と呼ばれる．言語の構造は一般的な認知過程の反映である言語の使用により定まると考える．

(3)

派の多くもこの立場を取っている．一方で，チョムスキーらは明確に後者の立場にあり，そのスタンスは例えば次のように言明される [Berwick 15]．“Statistically speaking, for whatever that is worth, the overwhelming use of language is internal─ for thought”（統計的にいえば，言語の使用は，それが価値のあるものである限り，圧倒的に内的なもの，すなわち思考のためである）．思考が基本的には人間の内的な心的過程であることから，工学としての NLP の主な目的は，知識の抽出や伝達を含めた広義のコミュニケーション支援にあり，この方向性は今後ともおおむね変わらないものと考えられる． 2･3 言語学の諸領域言語学の対象は幅広いので，研究のスタンス（例：認知言語学），アプローチの特徴（例：計算言語学）などによって，「○○言語学」のように分類される．その一方で，どのような構造や現象を研究対象とするかにより，以下のような領域（言語学では部門と呼ばれることもある）に分類することがよく行われる [Bender 13]． ● 音韻論（phonology）：音節などの弁別的要素を利用し，言語における音の組織的な構成を研究する． ● 語彙論または形態論（morphology）：形態素を単位とし，語形成や語の構造を研究する． ● 統語論（syntax）：線状に配列されている語が組み合わされて構造をなし，文が形成される仕組みを研究する． ● 意味論（semantics）：語，句，文が表す意味について研究する．特に単語の意味に関する領域を語彙意味論（lexical semantics）と呼ぶ．小さな単位の意味が統語的な構造に従って組み合わされ，より大きな単位の意味を形づくるとする構成性（compositionality）の考え方は，意味論の主要なテーマの一つであり，後述するように意味を扱う NLP システムの設計原理にもなっている． ● 語用論（pragmatics）：使用場面や文脈において言語表現が果たす機能について研究する．以上に加え，音声生成・知覚の物理的な特徴について研究する音声学（phonetics）や，辞書（lexicon または dictionary）として構造化される言語知識に関する辞書学（lexicography）なども言語学の領域の分類に含めることがある．

3． NLP 応用システムのアーキテクチャ

本章では，NLP 応用システムのアーキテクチャに着目し，言語学の果たす役割や構成性の原理（principle of compositionality）の位置付けについて再検討する． 3･1 NLP パイプライン多くのソフトウェアシステムと同様に，NLP システムも特定の機能を受けもつモジュール群により構成される．これらのモジュールが直列に配列される場合，特に NLP パイプライン（NLP pipeline）と呼ぶ． NLP応用システムの例として，仮想的な情報抽出システムの構成を図 2 に示す．このシステムは記事中に現れる固有名（Named Entity：NE）間の関係を抽出するものであるが，図に示すように，記事から抽出した各文に対して必要な範囲での汎用的な言語解析（形態素解析，構文解析，固有名認識，意味解析）を行った結果に対して，このタスクに固有である関係抽出処理を実行する．ここでのポイントは，基本的な言語処理モジュールの多くが前章で示した言語学の各部門の知見に基づき実装されてきたことである．パイプラインによるアーキテクチャには，各モジュールを独立して開発できる，あるいは，既存の優れたモジュールを導入できるといった利点がある一方，実行時には上流の（＝先行する）モジュールにおける問題が下流のモジュールに先送りされるという問題がある．一般には，上流のモジュールにおける誤った結果を下流のモジュールにおいて修復することは難しい．このような場合，システムのトータルの精度は，各モジュールの精度の掛け算となってしまう．また，各モジュールでは処理の曖昧性が問題となるが，より高位のレベルの情報を扱う下流のモジュールでこれらの曖昧性が解消されることを期待して，ある段階での処理結果を下流へ「垂れ流す」ような構成がとられることも多い．例えば，構文解析で発生する統語構造の多義を意味解析により解消する・絞り込むという場合である．この場合，絞り込みや解消が行われるまでは，保持しておくべき中間構造は原理的には指数的に増大する． 3･2 エンドツーエンド学習最近の機械学習技術，特にニューラルネットワークによる深層学習の進展により，上記で述べたようなパイプラインアーキテクチャに基づくシステム構成は，特に翻訳のような系列間の変換とみなせる応用に対しては無用になる可能性が明確化してきた．入出力の対応関係を直接的に学習する形態をエンドツーエンド学習＊3_という．この方式によるシステムにおいては，固有の機能に特化したモジュール群を準備する必要はなく，また，前に述図 2　典型的な NLP パイプライン＊3 end-to-end とは，もともとは通信で結ばれる両端を表すコンピュータネットワークの用語である．

(4)

べたパイプラインアーキテクチャに由来する問題点も考慮する必要がなくなる． 3･3 例：機械翻訳 NLPの歴史のかなりの部分は機械翻訳（machine translation）の歴史 [長尾 09] であるとされ，多くの要素技術が機械翻訳の文脈で開発されてきた．後述するように，機械翻訳はエンドツーエンド学習が最も効果的な形で適用された領域でもある． 1980年台においては，規則に基づくトランスファ方

式（Knowledge-Based Machine Translation：KBMT）が主流の方式であった．KBMT は NLP パイプラインと構成性の原理に基づく．すなわち，入力文を原言語の文法に従って分解（解析）し，部分ごとに目的言語への変換を行った後に，これらを目的言語の文法に従って再構成（生成）することで翻訳結果を得る．各過程は基本的には言語学の知識を参照して人手で構築された言語的な規則体系に基づいており，これらの三つのプロセスが上位レベルのパイプラインを構成する．この後，1990 年代～ 2014 年頃までは，統計的機械翻訳（Statistical Machine Translation：SMT）[渡辺 14] が研究の中心であった．純粋な SMT ではいっさいの言語構造の仮定を置かず，対訳コーパスから原言語と目的言語の対応関係を統計的に学習する．当初は単語を対応関係の基本的な単位としていたが，近年では，句に基づく翻訳（Phrase-Based Machine Translation：PBMT）が主流となっていた．PBMT は，語よりも長い単位である「句」を基本的な単位とし，それを組み合わせることにより，より良い翻訳結果を得ようとする．ここでの句は必ずしも言語学的な構成素ではなく単語列であるので，構成性の原理に基づいた処理とはいえないが，中間的な表現レベルを設定し，これを組み合わせるという点では共通点がある．その後，ここ数年はニューラル翻訳（Neural Machine Translation：NMT）が著しい進展を示している．その基本原理となっているのは，シーケンスツーシーケンス（sequence-to-sequence model）と呼ばれるモデルである [Sutskever 14]．その基本形を図 3 に示すようにこのモデルは，入力系列（原言語の単語列）の符号化を行うエンコーダと出力系列（目的言語における単語列）への復号化を行うデコーダから構成される＊4_{．それぞれは，} 系列の学習に適したリカレントニューラルネットワーク（Recurrent Neural Network：RNN）を改良した LSTM （Long Short-Term Memory）により構成され，形態論や統語論といった言語学の領域に対応するようなサブモジュールは存在しない．また，構成性の原理を陽に表すような明示的な言語的構造の表象も存在しない． Googleは，2016 年秋に Web 上の翻訳サービスのエンジンを PBMT から NMT に置き換えた．明らかな翻訳精度の向上が見られたことから，大きな話題となった [鶴岡 17]．彼らの NMT システムは図 3 に示したような単純なモデルではなく，多層の LSTM から構成されており [Wu 16]，また，膨大な対訳コーパスによる学習が行われている．[Johnson 16] では，直接に入出力関係を学習していない言語ペアに対しても，それまでに対応関係を学習した言語ペアの組合せにより，ある程度の精度で翻訳が可能であること（zero-shot translation と称される）が示された．彼らはこの成果を機械学習の観点からは，マルチタスク学習（multitask learning），転移学習（transfer learning）の成功例であると主張している．この結果は，特定の言語ペアに依存しない，ある種の中間言語（interlingua）がニューラルネットワーク中で得られる可能性を示すということで，多くの NLP 研究者に衝撃を与えた．以上のような機械翻訳技術の現況から示唆されることは，（1）入出力が適切に表現され，（2）目的のタスクに適合したニューラルネットワークの構成が定められ，（3）必要十分な量の学習データが利用可能，という条件が満たされれば，言語学的に考えて必要と思われる処理ステップや中間的なデータを陽に意識せずとも NLP システムが実現可能であるということである．特に機械翻訳の場合は，対訳データがほぼそのまま学習データとして利用できることから，エンドツーエンドの枠組みに乗りやすいという特徴がある．＊4 アテンションモデルなどの拡張については [渡辺 16] を参照．図 3　NMT のためのシーケンスツーシーケンスモデル（独英翻訳の例）

(5)

4．深層学習による基盤的な言語処理

機械翻訳のような系列間の変換とみなせる応用システムがエンドツーエンドの学習により実現可能であることが了解されたとして，より複雑な構造を出力として得たい問題，例えば構文解析はどうすれば実現できるだろうか．あるいは，漠然とした言語表現間の意味的類似性を捉えられるような意味の表現を言語表現に与えるにはどうしたらよいだろうか．技術的な詳細は優れた解説 [岡崎 16, 渡辺 16] に委ねるとして，このような基盤的な言語処理機能を深層学習によって実現する研究例を示し，その含意について考える． 4･1 構　文　解　析 NLPシステムは，言語の創造性によって生成される無限のバリエーションをもつ文を扱う必要がある．従来型の NLP システムでは，言語知識を適用して入力文を解析することにより，目的のタスクに適したレベルの抽象度をもつ内部表現を得る．構文解析（syntactic parsing）はこのための基盤的な処理として重要な位置を占めてきた．感情表現の分類，意味関係の分類などのタスクを深層学習に基づいて実現する場合も，構文解析によって木構造を得ておくことが有用であるとされている [Li 15]．一般に構文解析の形態は，句構造を求める句構造解析（phrase structure parsing）と，単語間の依存関係を求める依存構造解析（dependency parsing）に分けられる．日本語の構文解析手法としてよく用いられる係り受け解析は後者に属する．前者については，Socher らによる再帰的ニューラルネットワーク（Recursive Neural Network：RNN）＊5_{を用いる一連の研究 [Socher 10,} Socher 12, Socher 13]がよく知られているが，[岡崎 16, 渡辺 16] で適切に解説されているので，ここでは後者の研究例として Chen らによる依存構造解析器 [Chen 14] を説明する． Chanらの解析器は遷移に基づく依存構造解析器

（transition-based dependency parser）[Kübler 09] であり，構文解析の過程は基本的な動作を決定する系列であるとみなされる．この解析器の動作原理を図 4 に示す．解析器はスタック，バッファ，決定した依存関係を保持するリストを有し，解析の各ステップでは，三つの動作（スタックの上部から前方への係り受けを定める（LEFT-ARC）；スタックの上部から後方への係り受けを定める（RIGHT-ARC）；次の単語を読み込む（SHIFT））から一つを選択し実行する．この選択は 3 クラスの分類問題として定式化できる．[Chen 14] では，解析状況から得られる情報を素性として用いるシンプルなニューラルネットワークにより分類器を構成し，精度と効率のバランスを達成している．この研究で興味深いことは，単語の品詞（NN, JJ など）や，単語間の統語的な依存関係の種別を表すラベル（subj, obj, nmodなど）を素性に加えている点である．これにより，依存構造の学習の副産物として，品詞や関係ラベルにも分散表現（後述）が与えられることになり，品詞や関係ラベルの間の類似性を捉えるデータを提供する．この研究が示唆することは，従来の言語学では離散的なカテゴリーであることを疑うことがなかった品詞のような概念が連続性をもつものとして扱うこともできるということである． 4･2 分　散　表　現単語や句，文といった言語表現の単位，あるいは，語義や概念といった抽象的な単位に対して，実数値ベクトルにより与える表現を分散表現（distributed representation）という．実数値ベクトルによる表現の利点は，これらの間の距離もしくは類似度を定量的に定めることができることにある．一般的に分散表現ベクトルは，＊5 リカレントニューラルネットワークも RNN と略されるので混同に注意．リカレントニューラルネットワークは再帰的ニューラルネットワークの特殊な場合とみなせる．図 4　依存構造解析器の動作（[Chen 14] より転載）

(6)

数学的手段やニューラルネットワークによって，低次元（low dimensional）でゼロ要素が少ない密なベクトル（dense vector）として得られる．ここで，ベクトルの各次元には特定の意味はなく，全次元に分散する数値の分布が対象を記述する．分散表現の考え方自体は新しいものではない [Hinton 86]が，コーパスにおける共起情報から単語に対して分散表現を与える Word2Vec [Mikolov 13] と呼ばれる手法の登場により大きな注目を浴びるようになった． Word2Vecにより得られた分散表現（単語埋込みベクトル（word embedding）ともいう）を用いて簡単なベクトル演算を行うことで，意味的に類似する単語や意味的・文法的に類推関係にある単語を求めることができる． 4･3 構成的な意味表現学習 4･2 節で示したように，意味論の大きな関心の一つは意味の構成性にある．文に対しても分散意味表現が得られれば，例えば文間の意味的類似度を簡単に定量化できるようになる．このため，Word2Vec や GloVe [Pennington 14]などの手法により求めた単語の分散表現をもとに，句や文に対する意味表現をベクトルとして与える研究が盛んになっている [Baroni 14，岡崎 16]．ここで注意すべきことは，句や文に対して与えたい分散表現は実数値ベクトルであるため，機械学習において通常は人手により与える分類カテゴリーなどとは異なり，教師データを準備することが困難な点である．このため，入力と同一の文を出力に再現する自己符号化器（autoencoder）を構成する [Socher 11] ことが試みられている．一方，[Socher 10] は，構文解析のタスク実行の副産物としてネットワーク中に文の分散意味表現が学習される可能性を示した．この結果は，感情分析のタスクにより，さらに発展させられた [Socher 12]． [Tai 15]は，文ペアの間の意味的関連度（semantic relatedness）＊6_{を予測するという意味表現に密接に関連} するタスクをターゲットとすることにより，文の意味表現を改良することを試みた．この研究の主張は，文の構文構造（句構造，依存構造）に対応する木構造 LSTM （tree-structured LSTM）（図 5）を構成し，文間の意味的関連度というタスクに応じて設定する目的関数に基づいて学習を行うことにより，より良い文の意味表現が得られるという点にある．実際，文の意味的関連度のタスクにおいては，依存構造に基づく木構造 LSTM が高い精度を示し，SemEval に参加した諸システム（これらは素性エンジニアリングを目一杯行っている）と同等または凌駕する精度を示した．以上から，系列間の変換問題よりも複雑なデータ構造を扱う構文解析や，あるいは，実数値ベクトルとしての意味表現を求める意味表現学習においても，エンドツーエンド学習，あるいは，適切に設定されたタスクの副産物として，所望の処理結果が得られる可能性が示唆された．このような状況においては，入出力のデータをいかに深層学習に適した形にエンコードするか，どのように質をある程度担保しながら学習データを大量に収集するか，ということが課題となる．これらの課題に対して，言語学，あるいは，言語学的知識・センスは依然として有用であろうが，果たす役割は限定的なものにならざるを得ないだろう．

5． AMR：シンボリックな意味表現の復権

文の分散意味表現は実数値のベクトルとして獲得されるので，ベクトル演算により意味的類似度の定量化や，類推関係の推定といった意味処理が実現できるという利点がある．その一方で，シンボリックな意味表現を構成し，これをもとに高度な意味処理や論理的な推論処理を明示的に行いたいという考えも根強い．本章では，そのような期待に応え得る意味表現形式として最近注目を浴びている抽象的意味表現（Abstract Meaning Representations：AMR）＊7_{を取り上げる．構文} 解析技術の進展にペンツリーバンク（Penn Treebank） [Marcus 93]が果たした大きな役割を意味理解において果たそうというのが AMR の大きな目的であり，AMR による意味注釈が付与されたコーパスの実現を目指している [Banarescu 13]．意味タスクの評価キャンペーンである SemEval の最近の会合では，文から AMR 形式の意味表現を求める構文意味解析 [May 16]（SemEval- 2016/2017），その逆を行う文生成（SemEval-2017）がシェアードタスクとして取り上げられている． 5･1 AMR の概要 AMRによる意味表現は，言語表現における詳細な差＊6 SemEval-2014 という評価ワークショップの一タスクとして設定された [Marelli 14]．＊7 http://amr.isi.edu/ 図 5　（a）通常の LSTM と（b）木構造 LSTM（[Tai 15] より転載）

(7)

異を捨象し，意味の本質的な部分を簡潔に表現することを目的としている．[Banarescu 13] には，言語学の観点から考慮すべきさまざまな英語の言語表現パターンと，それに対する AMR 意味表現の例が示されている．

AMRのデータ形式には複数の表記法があるが，有向

非巡回グラフ（Directed Acyclic Graph：DAG）が基本構造である．図 6 に“The boy wants to go”という文に対する AMR 意味表現の DAG 構造を示す．グラフにおけるノードは概念，または，概念のインスタンスを表し，エッジはノード間に成立する関係を表す．図 6 のグラフ構造は，以下の neo-Davidson 形式の論理表現と等価である．  w, b, g : instance（w, want-01）instance（g, g-01）

instance（b, boy）arg0（w, b）arg1（w, g）

arg0（g, b）.

この例では，変数 w, b, g はそれぞれ，want-01, boy,

go-01という概念のインスタンスを表し，“The boy”と

いう原文の連続区間（span）に対応する b は，“want” に対応する w から見ると :arg0 という項（argument） であると同時に，“go”に対応する g における arg0 という項でもある．このような構造は，グラフにおけるリエントラント構造により表されている．

ここで，want-01 などの概念は PropBank [Palmer 05] において対応するフレームセットと対応している．付随する 01 などの数字は，語義番号に相当する．また，ノード間の関係種別を表す :arg0 などはロールトークンと呼ばれる．AMR ではおよそ 100 種類の関係種別 を用意しており，PropBank 流の :argn などの述語項， :cause, :location, :mannerなどの一般的な意味関係のほか，量や日付などに対する識別子が定義されている．さらに，固有名に対してエンティティリンキング（entity linking，または，Wikication）を行い，wiki により参照先を指定することで，外部知識源へのグラウンディングを表すことができる． AMRの意味関係において重要なことは，すべての関係にその逆関係が存在することである．例えば上記にお いて，b（boy）は w（want）に対して :arg0-of の関係

にある（boy は want という動詞概念における動作主である）という指定ができる．このような逆関係を利用することにより，“the boy from the college”や，“a girl who reads the book”のような修飾・限定構造の意味を表すことができる．

以上に概観したように，AMR は PropBank との連

携を強く意識している．PropBank プロジェクト＊8_は，

述語項構造（predicate argument structure），意味役割（semantic role）に関する注釈付きコーパスを構築している．PropBank において特徴的なことは，意味役割の定義を動詞ごとに行っていることである．したがって，上記の例の arg0 などのニモニックは，対象の動詞に固有の意味役割＊9_{を表す．この点で，Agent（動作主）や} Theme（動作対象）といった汎用的な意味役割の体系を用いる他のリソースとは異なる． 5･2 AMR の制約・限界 AMRは文の中心的な意味をシンプルに表すことが目的である．このため，品詞の違いや冠詞の有無などは捨象される．語順も微妙に意味に影響を与える場合があるが表現されない．また，前置詞などは関係種別に吸収される．モダリティーや否定極性の扱いはやや特殊である．論理的な意味表現形式としてより大きな問題と思われるのは，全称量化子（universal quantiﬁer）をもたないことである．しかしこの問題は，否定の極性を工夫して用いることによって回避できることが示されている [Bos 16]． 5･3 AMR の NLP への適用 § 1　意味的構文解析 AMRに基づく意味表現をさまざまな NLP のタスクに適用しようとする際にまず必要となるのが，入力文に対して AMR 意味表現を与える処理である．この処理を意味的構文解析（semantic parsing）と呼ぶ．AMR による意味表現は抽象度が高く，同義関係にある表現に対して統一的な概念を割り当てることや，共参照の解消などのかなり高度な解析処理が必要となる．このため，通常の統語的構文解析に比べると難度は高い．これまでに提案された代表的な意味的構文解析器として，JAMR [Flanigan 14] と CAMR [Wang 16] がよく知られている．両者とも AMR 意味表現が付与されたコーパスを利用する機械学習に基づいているが，その動作原理は異なる． JAMRは，グラフ全体の評価値が最大となるようにエッジ集合を選択する MSCG（Maximum Spanning，＊8 http://propbank.github.io/ ＊9 ただし多くの動詞に共通して見られる意味役割については， :arg0は agent（動作主），arg1 は patient（被動作主）などの対応がある．図 6　AMR による意味表現の例

(8)

Connected Subgraph）と呼ばれるグラフアルゴリズムに基づく．CAMR は依存構造解析木を入力とし，あらかじめ定義された基本的なグラフ操作を遷移的に適用することにより，AMR グラフへと変換する遷移型のアルゴリズムに基づく．なお，AMR コーパスは文と対応するグラフを与えるだけであるので，学習段階においては，入力文のどの部分がグラフのどこに対応するかを対応付ける（align-ment）ことが必要となる．このために JAMR ではルールベースの手法を実装しており，CAMR もこの対応付け処理を利用している．別の手段としては，統計的機械翻訳におけるアライメント手法を適用すること [Wehbe 14]が提案されている．これを行うため，AMR グラフを深さ優先探索によりリニアなトークン列へと変換するという前処理が行われる． § 2　意味的構文解析の評価尺度意味的構文解析の精度を評価するため，また，複数人によって意味表現を付与する場合の評定者間一致度を求めるため，定量的な評価尺度が必要である．[Cai 13] は Smatch と呼ばれるグラフ構造間での一致度に基づく評価尺度を提案しており，この尺度が SemEval でも用いられている．Smatch は基本的に二つのグラフにおいて一致する部分（より正確には論理表現したときに一致するリテラル）をもとに適合度，再現率を計算し，これら から F 値を求める． § 3　NLP 応用システム意味的構文解析によって得られたタスク非依存の AMR 意味表現を中間表現とし，これに対してタスク依存の処理を行うことによって，NLP 応用システムを構築することができる． AMRを用いた最初の NLP 応用システムとして，意味

に基づく機械翻訳（semantic-based machine translation）

[Jones 12]がある．このシステムでは事前に，原言語，目的言語それぞれの言語における AMR コーパスからハイパーエッジ置換え文法（Hyperedge Replacement Grammar：HRG）＊10_{の規則を重み付きで学習しておく．} 翻訳時には，原言語の HRG を適用することにより入力文を AMR 意味表現に変換し，次に目的言語の HRG を適用することにより目的言語文を生成する．実際には，用いられる HRG の各規則は，対応する文字列を指定する同期文法（synchronous grammar）の形式をとっている．[Jones 12] では，意味表現として言語に依存しないグラフ構造と言語（英語）の統語構造を意識したグラフ構造を用いた場合の比較を行っており，後者のほうが良い翻訳結果となったと報告している．このことは，翻訳のような応用においては，抽象度の高い意味表現が必ずしも有効・有用ではない可能性を示唆する．これは，かつて機械翻訳の方式的な優劣が議論された際に，中間言語方式では言語表現のニュアンスが失われるといった主張があったことを思い起こさせる．一方で，[Xue 14] では，英語と中国語・チェコ語間の翻訳例に対する AMR 意味表現を分析し，特定の言語に依存しない中間言語（interlingua）の役割を AMR 意味表現にもたせるためには，各言語の言語依存的な構造を吸収する必要があり，このためには，相応に大きめで複雑な部分グラフを翻訳辞書として準備しておくことが必要であるとしている．なお，AMR の機械翻訳以外の NLP 応用システムへの適用としては，生成形の要約（abstractive summa-rization）[Liu 15] やエンティティリンキング [Pan 15] などがすでに試みられている．

6．その他のトピック

「言語学と AI」というテーマに関しては，言語知識と世界知識の役割分担や連携に関する話題も重要であるが，本稿では取り上げることができなかった．例えば，フィルモア（Charles Fillmore）のフレーム意味論 [Fillmore 03] はミンスキーのフレーム理論 [Minsky 74]，ジャッケンドフ（Ray Jackendoff）の語彙概念構造 [Jackendoff 90] はシャンクの概念依存構造 [Schank 72]といった知識表現の方法論と関係性を有している．プステヨフスキー（James Pustejovsky）＊11_{の生成語彙} 論 [Pustejovsky 95] は，この理論が提唱するクオリア構造を通じて言語知識とオントロジーの連携を図っている [Pustejovsky 06]．また，リンクデータの枠組みを利用して，言語資源相互や言語資源と知識資源の連携を図る取組み（Linked Data in Linguistics：LDL）が活発化しており [Chiarcos 12]，Lemon と呼ばれる辞書とオントロジーに関する標準的なデータモデルも提案されている [McCrae 11]． AMRによる言語データについても，リンクデータ化することによりその付加価値を高める試みが報告されている [Burns 16]．このような取組みは，言語データ・言語知識を外部の共有化された知識資源にグラウンディングすることであり，言語処理と知識処理の有用な連動につながる一方，ユーザにとって身近な自然言語によって構造化された知識資源へアクセスする手段を提供する [林 12]．言語は，構造化された知識だけではなく，実世界における知覚情報とも関連性を有している．言語の創造性の核心は生得的なものであるにせよ，我々は日々環境から得る知覚情報により，言語に関係する知識（knowledge ＊10 ハイパーエッジとは任意の数のノードを結ぶエッジのことをいい，このようなエッジが許されるグラフをハイパーグラフと呼ぶ．＊11 Pustejovsky は計算機科学の研究者であるが，言語学の文献で最も引用されている研究者の一人ではないかと思われる．

(9)

of language）を豊かなものにしているはずである．知覚に根ざした認知（grounded cognition）[Barsalou 08] は，認知科学，心理言語学の領域で精力的に研究されてきたが，深層学習により音声，画像，映像といった知覚メディアを扱う技術が向上したことにより，言語情報と知覚情報の統合・融合に関わる工学的な研究が進展するものと思われる．現時点では，画像情報と言語の分散表現を統合する研究 [Kiela 16, Silberer 16] が一定の成果を上げている．

7．お　わ　り　に

以上，深層学習の有用性や，さらなる可能性が明確となっている状況を踏まえ，NLP における言語学の役割や相互の関係性について，私見を交えて考察した．これまでの機械学習アプローチにおいては，言語学的知識・知見は主に素性エンジニアリングに生かされてきた．すべてがエンドツーエンドの深層学習では実現できないという立場に立てば，エンドツーエンド学習が成立する範囲でモジュール化を図り，可用性の高い入出力形式を設計するといった点で言語学的知識・知見が生かされることになると思われる．また，言語学的な知識を深層学習におけるバイアスとして直接取り込む方向性もあり得るだろう．一方で，NLP や AI からの言語学への貢献に関しては，従来は主に解析機能などのツールの提供にとどまってきたが，実数値ベクトルとして表される分散表現や各種の特徴量を用いることにより，非カテゴリカルな言語現象＊11_{を適切に扱う可能性が開かれる．また，さまざま} な言語学の問題に広い意味での機械学習手法を適用する研究が現れてきた．例えば，[Hamilton 16] は意味変化の分析に単語の分散表現を用いており，[高村 17] はこの手法を発展させて外来語の意味変化の分析を行っている．また，[Murawaki 15] は，オートエンコーダを用いて言語を連続空間にマッピングし，言語類型（typology）の分析や言語の発生系統の推定を行っている．理論言語学のような領域は別として，上記のような言語学上の課題に関して，機械学習や数理的手法を適用する，あるいは，そのための手法を開発する研究が今後はより活発化することが期待される．なお，今後の NLP システムにおける内部表象（例：意味表現）のレベル・形式は，意図や目的をもって設定される場合（例：AMR）だけでなく，機械学習の結果によって自ずから定まる場合（例：Google NMT）もあることになる．一般に，ニューラルネットワークによって得られる表現はそのままでは明示的な解釈ができないことが多いので，可視化や解釈可能なデータ表現の抽出なども課題になる．謝　辞本稿執筆の機会を与えていただいた担当編集委員の古崎晃司先生，貴重なコメントをいただいた NLP 研究者各位に感謝します．なお本稿の内容の一部は，JSPS 科研費 #26540144，#25280117，#15K12873 の援助を受けた．

◇　参　考　文　献　◇

[Banarescu 13] Banarescu, L., et al.: Abstract meaning representation for sembanking, Proc. 7th Linguistic

Annotation Workshop and Interoperability with Discourse, pp.

178-186（2013）

[Baroni 14] Baroni, M., et al.: Frege in space: A program of compositional distributional semantics, Linguistic Issues in

Language Technology, Vol. 9, pp. 241-346（2014）

[Barsalou 08] Barsalou, L. W.: Grounded cognition, Annual

Review of Psychology, Vol. 59, pp. 617-645（2008）

[Bender 13] Bender, E. M.: Linguistic Fundamentals for Natural

Language Processing: 100 Essentials from Morphology and Syntax, Morgan & Claypool Publishers（2013）

[Berwick 15] Berwick, R. C. and Chomsky, N.: Why Only Us:

Language and Evolution, The MIT Press（2015）

[Bos 16] Bos, J.: Expressive power of abstract meaning representations, Computational Linguistics, Vol. 42, No. 3, pp. 527-535（2016）

[Burns 16] Burns, G. A., et al.: Abstract meaning represen- tations as linked data, Proc. ISWC 2016, pp.12-20（2016） [Cai 13] Cai, S. and Knight, K.: Smatch: An evaluation metric

for semantic feature structures, Proc. ACL 2013, pp. 748-752 （2013）

[Chen 14] Chen, D. and Manning, C.: A Fast and accurate dependency parser using neural networks, Proc. EMNLP

2014, pp. 740-750（2014）

[Chiarcos 12] Chiarcos, C., Nordhoff, S. and Hellmann, S., eds.:

Linked Data in Linguistics - Representing and Connecting Language Data and Language Metadata, Springer（2012） [Fillmore 03] Fillmore, C. J., et al.: Background to framenet,

International J. Lexicography, Vol. 16, No. 3, p. 235（2003） [Flanigan 14] Flanigan, J., et al.: A discriminative graph-based

parser for the abstract meaning representation, Proc. ACL

2014, pp. 1426-1436（2014）

[Fromkin 10] Fromkin, V., Rodman, R. and Hyams, N.: An

Introduction to Language, Cengage Learning（2010） [Hamilton 16] Hamilton, W. L., Leskovec, J. and Jurafsky,

D.: Diachronic word embeddings reveal statistical laws of semantic change, Proc. ACL 2016, pp. 1489-1501（2016） [林 12] 林良彦著，人工知能学会編集，来村徳信編：言語的オン

トロジーの構築と展開，オントロジーの普及と応用，pp. 67-89，オーム社（2012）

[Hinton 86] Hinton, G. E., et al.: Parallel Distributed Processing:

Explorations in the Microstructure of Cognition, Vol. 1, chapter

Distributed Representations, pp. 77-109, MIT Press（1986） [Jackendoff 90] Jackendoff, R.: Semantic Structures, MIT Press

（1990）

[Johnson 16] Johnson, M., et al.: Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation, arXiv:1611.04558（2016）

[Jones 12] Jones, B., et al.: Semantics-based machine translation with hyperedge replacement grammars, Proc. COLING 2012, pp. 1359-1376（2012）

[Kiela 16] Kiela, D., Ver, A. L. and Clark, S.: Comparing data sources and architectures for deep visual representation learning in semantics, Proc. EMNLP 2016, pp. 447-456（2016） ＊12 [Manning 99] では，英語の“near”が前置詞と形容詞の両

(10)

[Kübler 09] Kübler, S., et al.: Dependency Parsing, Morgan and Claypool Publishers（2009）

[Li 15] Li, J., et al.: When Are Tree Structures necessary for deep learning of representations?, Proc. EMNLP 2015, pp. 2304-2314（2015）

[Liu 15] Liu, F., et al.: Toward abstractive summarization using semantic representations, Proc. HLT-NAACL 2015, pp. 1077-1086（2015）

[Manning 99] Manning, C. D. and Schütze, H.: Foundations of

Statistical Natural Language Processing, MIT Press（1999） [Marcus 93] Marcus, M. P., et al.: Building a large annotated

corpus of English: The penn treebank, Computational

Linguistics, Vol. 19, No. 2, pp. 313-330（1993）

[Marelli 14] Marelli, M., et al.: SemEval-2014 Task 1: Evaluation of compositional distributional semantic models on full sentences through semantic relatedness and textualentailment, Proc. SemEval 2014, pp. 1-8（2014） [May 16] May, J.: SemEval-2016 Task 8: Meaning representation

parsing, Proc. SemEval 2016, pp. 1063-1073（2016）

[McCarthey 07] McCarthey, J.: What is Artificial Intelligence?, http://www-formal.stanford.edu/jmc/whatisai/ （2007）

[McCrae 11] McCrae, J., Spohr, D. and Cimiano, P.: Linking lexical resources and ontologies on the semantic web with lemon, Proc. ESWC 2011, pp. 245-259（2011）

[Mikolov 13] Mikolov, T., et al.: Distributed representations of words and phrases and their compositionality, Proc. NIPS

2013, pp. 3111-3119（2013）

[Minsky 74] Minsky, M.: A Framework for Representing Knowledge, Technical report, Massachusetts Institute of Technology（1974）

[Murawaki 15] Murawaki, Y.: Continuous space representations of linguistic typology and their application to phylogenetic inference, Proc. HLT-NAACL 2015, pp. 324-334（2015） [長尾 09] 長尾真著，言語処理学会編：言語処理の歴史，言語処

理学事典，pp. 2-20，共立出版（2009）

[中川 09] 中川裕志著，言語処理学会編：言語処理概観：古代から現代へ，言語処理学事典，pp. 21-24，共立出版（2009） [Norvig 11] Norvig, P.: On Chomsky and the Two Cultures of

Statistical Learning, _{http://norvig.com/chomsky.html} （2011）

[Ogden 89] Ogden, C. and Richards, I.: The Meaning of Meaning:

A Study of the In fluence of Language upon Thought and of the Science of Symbolism, Harcourt Brace Jovanovich（1989） [岡崎 16] 岡崎直観：言語処理における分散表現学習のフロンティ

ア（特集：ニューラルネットワーク研究のフロンティア），人工知能，Vol. 31, No. 2, pp. 189-201（2016）

[Palmer 05] Palmer, M., et al.: The proposition bank: An annotated corpus of semantic roles, Compututational

Linguistics, Vol. 31, No. 1, pp. 71-106（2005）

[Pan 15] Pan, X., et al.: Unsupervised entity linking with abstract meaning representation, Proc. HLT-NAACL 2015, pp. 1130-1139（2015）

[Pennington 14] Pennington, J., et al.: GloVe: Global vectors for word representation, Proc. EMNLP2014, pp. 1532-1543（2014） [Pustejovsky 95] Pustejovsky, J.: The Generative Lexicon, The

MIT Press（1995）

[Pustejovsky 06] Pustejovsky, J., et al.: Towards a generative lexical resource: The brandeis semantic ontology, Proc. LREC

2006, pp. 1702-1705（2006）

[Russell 02] Russell, S. J. and Norvig, P.: Artificial Intelligence: A

Modern Approach, 2nd Edition, Prentice Hall（2002） [Schank 72] Schank, R. C.: Conceptual dependency: A theory of

natural language understanding, Cognitive Psychology, Vol. 3, No. 4, pp. 532-631（1972）

[Silberer 16] Silberer, C., Ferrari, V. and Lapata, M.: Visually grounded meaning representations, IEEE Trans. on Pattern

Analysis and Machine Intelligence（2016）

[Socher 10] Socher, R., Manning, C. D. and Ng, A. Y.: Learning continuous phrase representations and syntactic parsing with recursive neural networks, Proc. NIPS 2010 Deep Learning

and Unsupervised Feature Learning Workshop, pp. 1-9（2010） [Socher 11] Socher, R., et al.: Dynamic pooling and unfolding recursive autoencoders for paraphrase detection, Proc. NIPS

2011, pp. 801-809（2011）

[Socher 12] Socher, R., et al.: Semantic compositionality through recursive matrix-vector spaces, Proc. EMNLP 2012, pp. 1201-1211（2012）

[Socher 13] Socher, R., et al.: Parsing with compositional vector grammars, Proc. ACL 2013, pp. 455-465（2013）

[Sutskever 14] Sutskever, I., Vinyals, O. and Le, Q. V.: Sequence to sequence learning with neural networks, Proc. NIPS’14, pp. 3104-3112（2014）

[Tai 15] Tai, K. S., et al.: Improved semantic representations from tree-structured long short-term memory networks, Proc. ACL/

IJCNLP 2015, pp. 1556-1566（2015）

[高村 17] 高村大也，永田亮，川崎義史：外来語の意味変化に対する数理的分析，言語処理学会第 23 回年次大会発表論文集，pp. 907-910（2017）

[Thomas 11] Thomas, M.: Fifty Key Thinkers on Language and

Linguistics, Routledge Key Guides, Routledge（2011） [鶴岡 17] 鶴岡慶雅：ニューラル機械翻訳の衝撃，情報処理，Vol.

58, No. 2, pp. 96-97（2017）

[Wang 16] Wang, C., et al.: CAMR at SemEval-2016 Task 8: An extended transition-based amr parser, Proc. SemEval 2016, pp. 1173-1178（2016） [渡辺 14] 渡辺太郎，今村賢治，賀沢秀人，Neubig, G., 中澤敏明：機械翻訳，コロナ社（2014） [渡辺 16] 渡辺太郎：ニューラルネットワークによる構造学習の発展（特集：ニューラルネットワーク研究のフロンティア），人工知能，Vol. 31, No. 2, pp. 202-209（2016）

[Wehbe 14] Wehbe, L., et al.: Aligning context-based statistical models of language with brain activity during reading, Proc.

EMNLP 2014, pp. 233-243（2014）

[Wu 16] Wu, Y., et al.: Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation, arXiv:1609.08144（2016）

[Xue 14] Xue, N., et al.: Not an interlingua, but close: Comparison of English AMRs to Chinese and Czech, Proc. LREC 2014, pp. 1765-1772（2014） 2017年 3 月 12 日　受理

著　者　紹　介

林　　良彦（正会員）早稲田大学理工学術院教授（実体情報学博士プログラム担当）．博士（工学）．早稲田大学大学院理工学研究科博士前期課程修了後，NTT 研究所（1983 ～ 04），大阪大学大学院言語文化研究科（2004 ～ 14），現職（2014 ～）にて，自然言語処理・情報アクセス，計算言語学の研究に従事．この間，スタンフォード大学 CSLI 滞在研究員（1994 ～ 95）．情報通信研究機構専攻研究員（2005 ～ 10）など．情報処理学会，電子情報通信学会，言語処理学会，ACL の各会員．

言語学とAI ─自然言語処理技術の進展と言語学の役割─

1．は じ め に

2． 言語の特性と言語学

言 語 学 と AI

─自然言語処理技術の進展と言語学の役割─

Linguistics and AI

─ The Changing Role of Linguistics in Advancing NLP Technologies ─

林 良彦

Keywords:

3． NLP 応用システムのアーキテクチャ

4． 深層学習による基盤的な言語処理

5． AMR：シンボリックな意味表現の復権

6． その他のトピック

7．お わ り に

◇ 参 考 文 献 ◇

著 者 紹 介

1．は　じ　め　に

2．言語の特性と言語学

言語学と AI

　─自然言語処理技術の進展と言語学の役割─

　─ The Changing Role of Linguistics in Advancing NLP Technologies ─

林　　良彦

4．深層学習による基盤的な言語処理

6．その他のトピック

7．お　わ　り　に

◇　参　考　文　献　◇

著　者　紹　介