1.は じ め に
言語学はヒトの言語に関する科学的な研究を行う学問 領域である.また,AI は知的な働きをするコンピュータ に関する計算機科学・工学の一領域である [McCarthey 07].言語が人間の知性の所以の一端であり,人間だけ が言語を操れる [Berwick 15] という観点からは,計算 機による言語の処理は必然的に AI の対象に含まれる. この AI の一分野は自然言語処理(Natural Language Processing:NLP)と呼ばれる領域をなしており,言語 学から多くのことを学んで進展してきた.一方の言語学 においては,特に計算の(computational)側面から言 語にアプローチする立場を計算言語学(Computational Linguistics:CL)と呼ぶ.NLP と CL の研究対象・コミュ ニティは重なる部分が大きく,この二つの名称もしばし ば類義語として用いられてきた.そこで本稿では,NLP 技術の進展において果たしてきた,あるいは,果たすべ き言語学の役割について検討する. まず,近年目覚ましい進展を見せている深層学習を適 用したエンドツーエンド学習(end-to-end learn-ing)の アプローチにより,多くの NLP 応用システムや基盤的 な言語処理機能が実現されつつあることを例をあげなが ら示す.このような状況においては,伝統的な NLP シ ステムにおいて果たしてきた言語学の役割は,限定的な ものへと変わらざるを得ない. 一方,想定する NLP 機能の全体をエンドツーエンド 学習で実現することは困難である,あるいは,得策では ないという立場も十分にあり得る.この場合は,目的と する機能を実現する要素を適切にモジュール化し,可能 ならば,各モジュールをエンドツーエンドで学習できる ように,適切にその入出力を設定する必要がある.今 後の NLP の重要な方向性が意味理解 [Russell 02],あ るいは,理解に基づく処理の実現であるとすれば,可 用性の高い意味表現形式を定めることが望まれる.そ こで本稿の後半では,このような観点からも注目を集 め始めている抽象的意味表現形式(Abstract Meaning Representation:AMR)[Banarescu 13] の概要と展開 について述べる. 言語学,AI/NLP 双方とも歴史と広がりをもつ領域で あり,本稿ではその一端を私見を交えて紹介するに過ぎ ないが,最後に NLP からの言語学関連領域への貢献の 可能性についても簡単に述べ,本稿のまとめとしたい.2. 言語の特性と言語学
2・1 言語の特性:創造性,恣意性 言語とは何か,あるいは,言語を規定する特性につい て,さまざまな議論がなされてきている.多くの文献で 共通して指摘される特性である創造性(creativity)と恣 意性(arbitrariness)は,特に NLP においても考慮すべ き重要な特性である.以下に説明するように,創造性は 言語の統語論(syntax)的側面に,恣意性は言語の意味 論(semantics)的側面に主に関係している.対話シス テムなどの NLP 応用システムにおいては,対話の状況 に即した発話の意味や機能を扱う語用論(pragmatics) 的側面も考慮する必要があるが,本稿では,統語的側面 と意味的側面に関わる話題に限定する. § 1 創造性 創造性の説明にはさまざまな表現があるが,例え ばある言語学の入門書 [Fromkin 10] は以下のように 書 い て い る:“Any speaker of any human language can produce and understand an in nite number of sentences.”(任意の言語のすべての話者は,無限の文を 生み出し,また,理解することができる).NLP におい言 語 学 と AI
─自然言語処理技術の進展と言語学の役割─
Linguistics and AI
─ The Changing Role of Linguistics in Advancing NLP Technologies ─
林 良彦
早稲田大学理工学術院Yoshihiko Hayashi Faculty of Science and Engineering, Waseda University. [email protected]
Keywords:
natural language processing(NLP), computational linguistics(CL), NLP pipeline, compositionality, end-to-end learning, abstract meaning representation(AMR).ても,できれば制限のない,あるいは制限の少ない入力 を扱いたいので,創造性は最も考慮しなければならない 特性である. 人間は,有限の処理装置とリソースによって無限の 文・言語表現のバリエーションを扱えるということか ら,これを可能とするための心的な機構が存在するはず である.このようなメカニズム,あるいは,知識を,(広 い意味での)文法(grammar)と呼ぶ.人間の子供は乏 しい言語的刺激(poverty of stimulus)からでも母語を 習得できることから,チョムスキー(Noam Chomsky) は,ヒトはこの知識=普遍文法(Universal Grammar: UG)を生得的に備えていると主張している. § 2 恣意性 恣意性とは,言語における単語の意味と形式,あるい は,意味と発音の間に自然法則などによる必然的な結び 付きがないことをいう.図 1 に [Ogden 89](オリジナ ルは 1923 年刊行)で提唱された意味の三角形(semantic triangle)と呼ばれる図式を示す.心的な存在である概念 (concept)は現実世界における指示対象(referent)を 参照し(refers to),記号(sign)と対応する(symbolizes). 言語における単語などは記号に含まれる.一方,記号は 指示対象を表す(stands for)とされる.しかし,この 両者の間には直接的な関係はなく,結び付きは恣意的で ある.図において関係性が点線で示されているのは,こ のためである. 意味を扱う NLP においては,どのように文の意味 を表現するか,また,その意味表現をどのように導出 するか,そもそも,意味表現の基本部品となる単語の 意味表現を語彙知識をどのように獲得・表現するか, といったことが課題となる.一方で,意味の根拠付 け(グラウンディング,grounding)をどのように行う か,あるいは意味表現をどうやって相互運用可能なもの (interoperability)にするかという問題もあり,これら の解決は広い意味での AI の課題であると考えられる. 2・2 言語学におけるいくつかの対立軸 言語学の長い歴史 [中川 09, Thomas 11] においては, いくつかの対立する思想や概念が提示されてきた.ここ では,以降の議論に関係すると思われるいくつかの「対 立軸」をピックアップして示す.これらの軸は必ずしも 独立したものではなく,相互に関連している. (i)研究の立場:帰納的 vs. 演繹的 チョムスキーの言語学(一般に生成文法(generative grammar)と称される)は,収集された言語データの分 析に基づいて言語使用における規則性を記述しようとす る構造主義言語学への批判*1に立脚していることはよく 知られている.おおざっぱにいえば,構造主義言語学は 帰納的(inductive)で,チョムスキーの言語学は演繹的 (deductive)であるとされる.これらの立場は,経験主 義(empiricism),合理主義(rationalism)という言葉で 表されることもあり,NLP(あるいは AI)の分野にお いても一つの対立軸となっている.NLP において主流 を占める方法論の歴史的経緯を見れば,規則や知識に基 づく合理主義的方法論からデータに基づく経験主義的方 法論へと遷移しており,(好き嫌いは別として)この流 れは変わらないものと考えられる. (ii) 研究の対象:言語能力と言語運用 近代言語学,特に構造主義言語学の祖とされるソ シュール(Ferdinand de Saussure)は,ある言語社会 によって共有される言語知識の体系をラング(langue) と呼び,個人の実際の場面での言語の使用を指すパロー ル(parole)と峻別し,言語学は前者を研究の対象とす べきだとした.現在の主流となっているデータに基づ く NLP/CL は,言語能力が発揮された結果として産出 された言語データを大量に収集・分析するという方法論 を取っている.このような考え方の起源はソシュールの 言語学にある [中川 09] と考えることができる.一方, チョムスキーによる言語能力(competence)と言語運 用(performance)も,詳細な議論はあるにせよ,それ ぞれソシュールのラングとパロールの区分に対応するも のと考えることができる.チョムスキーは,科学として の言語学の目的は言語能力の解明にあることを強調して いる. (iii)言語の役割:コミュニケーション vs. 思考 言語の本質的な役割が,情報・知識の伝達を含む広 義のコミュニケーション(communication)の手段にあ るか,あるいは思考(thought)を形づくるメカニズム であるかについても多くの議論がある.言語の使用場面 を対象とする語用論が前者に重きを置いているというの は,ある意味で当然であろうが,言語の認知的側面に着 目する認知言語学(cognitive linguistics)*2に属する学 図 1 意味の三角形 *1 言語データの統計的分析・学習に基づくアプローチに対する チョムスキーの批判的な立場,およびそれに対峙する計算機科 学の代表的な考え方については,[Norvig 11] に的確に,しかも 興味深くまとめられている. *2 ところで,認知言語学の根底をなす考え方は,用法基盤モデル (usage-based model)と呼ばれる.言語の構造は一般的な認知 過程の反映である言語の使用により定まると考える.
派の多くもこの立場を取っている.一方で,チョムスキー らは明確に後者の立場にあり,そのスタンスは例えば 次 の よ う に 言 明 さ れ る [Berwick 15].“Statistically speaking, for whatever that is worth, the overwhelming use of language is internal─ for thought”(統計的にい えば,言語の使用は,それが価値のあるものである限り, 圧倒的に内的なもの,すなわち思考のためである).思 考が基本的には人間の内的な心的過程であることから, 工学としての NLP の主な目的は,知識の抽出や伝達を 含めた広義のコミュニケーション支援にあり,この方向 性は今後ともおおむね変わらないものと考えられる. 2・3 言語学の諸領域 言語学の対象は幅広いので,研究のスタンス(例:認 知言語学),アプローチの特徴(例:計算言語学)など によって,「○○言語学」のように分類される.その一 方で,どのような構造や現象を研究対象とするかにより, 以下のような領域(言語学では部門と呼ばれることもあ る)に分類することがよく行われる [Bender 13]. ● 音韻論(phonology):音節などの弁別的要素を利用 し,言語における音の組織的な構成を研究する. ● 語彙論または形態論(morphology):形態素を単位 とし,語形成や語の構造を研究する. ● 統語論(syntax):線状に配列されている語が組み 合わされて構造をなし,文が形成される仕組みを研 究する. ● 意味論(semantics):語,句,文が表す意味につ いて研究する.特に単語の意味に関する領域を語 彙意味論(lexical semantics)と呼ぶ.小さな単 位の意味が統語的な構造に従って組み合わされ, より大きな単位の意味を形づくるとする構成性 (compositionality)の考え方は,意味論の主要なテー マの一つであり,後述するように意味を扱う NLP システムの設計原理にもなっている. ● 語用論(pragmatics):使用場面や文脈において言 語表現が果たす機能について研究する. 以上に加え,音声生成・知覚の物理的な特徴について 研究する音声学(phonetics)や,辞書(lexicon または dictionary)として構造化される言語知識に関する辞書 学(lexicography)なども言語学の領域の分類に含める ことがある.
3. NLP 応用システムのアーキテクチャ
本章では,NLP 応用システムのアーキテクチャに着 目し,言語学の果たす役割や構成性の原理(principle of compositionality)の位置付けについて再検討する. 3・1 NLP パイプライン 多くのソフトウェアシステムと同様に,NLP システ ムも特定の機能を受けもつモジュール群により構成され る.これらのモジュールが直列に配列される場合,特に NLP パイプライン(NLP pipeline)と呼ぶ. NLP応用システムの例として,仮想的な情報抽出シ ステムの構成を図 2 に示す.このシステムは記事中に現 れる固有名(Named Entity:NE)間の関係を抽出する ものであるが,図に示すように,記事から抽出した各文 に対して必要な範囲での汎用的な言語解析(形態素解析, 構文解析,固有名認識,意味解析)を行った結果に対して, このタスクに固有である関係抽出処理を実行する.ここ でのポイントは,基本的な言語処理モジュールの多くが 前章で示した言語学の各部門の知見に基づき実装されて きたことである. パイプラインによるアーキテクチャには,各モジュー ルを独立して開発できる,あるいは,既存の優れたモ ジュールを導入できるといった利点がある一方,実行時 には上流の(=先行する)モジュールにおける問題が下 流のモジュールに先送りされるという問題がある.一般 には,上流のモジュールにおける誤った結果を下流のモ ジュールにおいて修復することは難しい.このような場 合,システムのトータルの精度は,各モジュールの精度 の掛け算となってしまう.また,各モジュールでは処理 の曖昧性が問題となるが,より高位のレベルの情報を扱 う下流のモジュールでこれらの曖昧性が解消されること を期待して,ある段階での処理結果を下流へ「垂れ流す」 ような構成がとられることも多い.例えば,構文解析で 発生する統語構造の多義を意味解析により解消する・絞 り込むという場合である.この場合,絞り込みや解消が 行われるまでは,保持しておくべき中間構造は原理的に は指数的に増大する. 3・2 エンドツーエンド学習 最近の機械学習技術,特にニューラルネットワークに よる深層学習の進展により,上記で述べたようなパイプ ラインアーキテクチャに基づくシステム構成は,特に翻 訳のような系列間の変換とみなせる応用に対しては無用 になる可能性が明確化してきた.入出力の対応関係を直 接的に学習する形態をエンドツーエンド学習*3という. この方式によるシステムにおいては,固有の機能に特化 したモジュール群を準備する必要はなく,また,前に述 図 2 典型的な NLP パイプライン *3 end-to-end とは,もともとは通信で結ばれる両端を表すコン ピュータネットワークの用語である.べたパイプラインアーキテクチャに由来する問題点も考 慮する必要がなくなる. 3・3 例:機 械 翻 訳 NLPの歴史のかなりの部分は機械翻訳(machine translation)の歴史 [長尾 09] であるとされ,多くの要 素技術が機械翻訳の文脈で開発されてきた.後述するよ うに,機械翻訳はエンドツーエンド学習が最も効果的な 形で適用された領域でもある. 1980年台においては,規則に基づくトランスファ方
式(Knowledge-Based Machine Translation:KBMT) が主流の方式であった.KBMT は NLP パイプラインと 構成性の原理に基づく.すなわち,入力文を原言語の文 法に従って分解(解析)し,部分ごとに目的言語への変 換を行った後に,これらを目的言語の文法に従って再構 成(生成)することで翻訳結果を得る.各過程は基本的 には言語学の知識を参照して人手で構築された言語的な 規則体系に基づいており,これらの三つのプロセスが上 位レベルのパイプラインを構成する. この後,1990 年代~ 2014 年頃までは,統計的機械翻 訳(Statistical Machine Translation:SMT)[渡辺 14] が研究の中心であった.純粋な SMT ではいっさいの言 語構造の仮定を置かず,対訳コーパスから原言語と目的 言語の対応関係を統計的に学習する.当初は単語を対応 関係の基本的な単位としていたが,近年では,句に基づ く翻訳(Phrase-Based Machine Translation:PBMT) が主流となっていた.PBMT は,語よりも長い単位で ある「句」を基本的な単位とし,それを組み合わせるこ とにより,より良い翻訳結果を得ようとする.ここでの 句は必ずしも言語学的な構成素ではなく単語列であるの で,構成性の原理に基づいた処理とはいえないが,中間 的な表現レベルを設定し,これを組み合わせるという点 では共通点がある. その後,ここ数年はニューラル翻訳(Neural Machine Translation:NMT)が著しい進展を示している.その 基本原理となっているのは,シーケンスツーシーケンス (sequence-to-sequence model)と呼ばれるモデルであ る [Sutskever 14].その基本形を図 3 に示すようにこの モデルは,入力系列(原言語の単語列)の符号化を行う エンコーダと出力系列(目的言語における単語列)への 復号化を行うデコーダから構成される*4.それぞれは, 系列の学習に適したリカレントニューラルネットワーク (Recurrent Neural Network:RNN)を改良した LSTM (Long Short-Term Memory)により構成され,形態論や 統語論といった言語学の領域に対応するようなサブモ ジュールは存在しない.また,構成性の原理を陽に表す ような明示的な言語的構造の表象も存在しない. Googleは,2016 年秋に Web 上の翻訳サービスのエ ンジンを PBMT から NMT に置き換えた.明らかな翻 訳精度の向上が見られたことから,大きな話題となった [鶴岡 17].彼らの NMT システムは図 3 に示したような 単純なモデルではなく,多層の LSTM から構成されて おり [Wu 16],また,膨大な対訳コーパスによる学習が 行われている.[Johnson 16] では,直接に入出力関係を 学習していない言語ペアに対しても,それまでに対応関 係を学習した言語ペアの組合せにより,ある程度の精度 で翻訳が可能であること(zero-shot translation と称さ れる)が示された.彼らはこの成果を機械学習の観点か らは,マルチタスク学習(multitask learning),転移学 習(transfer learning)の成功例であると主張している. この結果は,特定の言語ペアに依存しない,ある種の中 間言語(interlingua)がニューラルネットワーク中で得 られる可能性を示すということで,多くの NLP 研究者 に衝撃を与えた. 以上のような機械翻訳技術の現況から示唆されること は,(1)入出力が適切に表現され,(2)目的のタスクに 適合したニューラルネットワークの構成が定められ,(3) 必要十分な量の学習データが利用可能,という条件が 満たされれば,言語学的に考えて必要と思われる処理ス テップや中間的なデータを陽に意識せずとも NLP シス テムが実現可能であるということである.特に機械翻訳 の場合は,対訳データがほぼそのまま学習データとして 利用できることから,エンドツーエンドの枠組みに乗り やすいという特徴がある. *4 アテンションモデルなどの拡張については [渡辺 16] を参照. 図 3 NMT のためのシーケンスツーシーケンスモデル(独英翻訳の例)
4. 深層学習による基盤的な言語処理
機械翻訳のような系列間の変換とみなせる応用システ ムがエンドツーエンドの学習により実現可能であること が了解されたとして,より複雑な構造を出力として得た い問題,例えば構文解析はどうすれば実現できるだろう か.あるいは,漠然とした言語表現間の意味的類似性を 捉えられるような意味の表現を言語表現に与えるにはど うしたらよいだろうか.技術的な詳細は優れた解説 [岡 崎 16, 渡辺 16] に委ねるとして,このような基盤的な言 語処理機能を深層学習によって実現する研究例を示し, その含意について考える. 4・1 構 文 解 析 NLPシステムは,言語の創造性によって生成される 無限のバリエーションをもつ文を扱う必要がある.従 来型の NLP システムでは,言語知識を適用して入力文 を解析することにより,目的のタスクに適したレベル の抽象度をもつ内部表現を得る.構文解析(syntactic parsing)はこのための基盤的な処理として重要な位置 を占めてきた.感情表現の分類,意味関係の分類などの タスクを深層学習に基づいて実現する場合も,構文解析 によって木構造を得ておくことが有用であるとされてい る [Li 15]. 一般に構文解析の形態は,句構造を求める句構造解 析(phrase structure parsing)と,単語間の依存関係を 求める依存構造解析(dependency parsing)に分けられ る.日本語の構文解析手法としてよく用いられる係り受 け解析は後者に属する.前者については,Socher らに よる再帰的ニューラルネットワーク(Recursive Neural Network:RNN)*5を 用 い る 一 連 の 研 究 [Socher 10, Socher 12, Socher 13]がよく知られているが,[岡崎 16, 渡辺 16] で適切に解説されているので,ここでは後者の 研究例として Chen らによる依存構造解析器 [Chen 14] を説明する. Chanらの解析器は遷移に基づく依存構造解析器(transition-based dependency parser)[Kübler 09] であ り,構文解析の過程は基本的な動作を決定する系列であ るとみなされる.この解析器の動作原理を図 4 に示す. 解析器はスタック,バッファ,決定した依存関係を保持 するリストを有し,解析の各ステップでは,三つの動作 (スタックの上部から前方への係り受けを定める(LEFT-ARC);スタックの上部から後方への係り受けを定める (RIGHT-ARC);次の単語を読み込む(SHIFT))から 一つを選択し実行する.この選択は 3 クラスの分類問 題として定式化できる.[Chen 14] では,解析状況から 得られる情報を素性として用いるシンプルなニューラル ネットワークにより分類器を構成し,精度と効率のバラ ンスを達成している. この研究で興味深いことは,単語の品詞(NN, JJ など) や,単語間の統語的な依存関係の種別を表すラベル(subj, obj, nmodなど)を素性に加えている点である.これに より,依存構造の学習の副産物として,品詞や関係ラベ ルにも分散表現(後述)が与えられることになり,品詞 や関係ラベルの間の類似性を捉えるデータを提供する. この研究が示唆することは,従来の言語学では離散的な カテゴリーであることを疑うことがなかった品詞のよう な概念が連続性をもつものとして扱うこともできるとい うことである. 4・2 分 散 表 現 単語や句,文といった言語表現の単位,あるいは, 語義や概念といった抽象的な単位に対して,実数値ベ クトルにより与える表現を分散表現(distributed rep- resentation)という.実数値ベクトルによる表現の利点 は,これらの間の距離もしくは類似度を定量的に定める ことができることにある.一般的に分散表現ベクトルは, *5 リカレントニューラルネットワークも RNN と略されるので混 同に注意.リカレントニューラルネットワークは再帰的ニュー ラルネットワークの特殊な場合とみなせる. 図 4 依存構造解析器の動作([Chen 14] より転載)
数学的手段やニューラルネットワークによって,低次元 (low dimensional)でゼロ要素が少ない密なベクトル (dense vector)として得られる.ここで,ベクトルの各 次元には特定の意味はなく,全次元に分散する数値の分 布が対象を記述する. 分散表現の考え方自体は新しいものではない [Hinton 86]が,コーパスにおける共起情報から単語に対して 分散表現を与える Word2Vec [Mikolov 13] と呼ばれる 手法の登場により大きな注目を浴びるようになった. Word2Vecにより得られた分散表現(単語埋込みベクト ル(word embedding)ともいう)を用いて簡単なベク トル演算を行うことで,意味的に類似する単語や意味的・ 文法的に類推関係にある単語を求めることができる. 4・3 構成的な意味表現学習 4・2 節で示したように,意味論の大きな関心の一つ は意味の構成性にある.文に対しても分散意味表現が 得られれば,例えば文間の意味的類似度を簡単に定量 化できるようになる.このため,Word2Vec や GloVe [Pennington 14]などの手法により求めた単語の分散表 現をもとに,句や文に対する意味表現をベクトルとして 与える研究が盛んになっている [Baroni 14,岡崎 16]. ここで注意すべきことは,句や文に対して与えたい 分散表現は実数値ベクトルであるため,機械学習におい て通常は人手により与える分類カテゴリーなどとは異な り,教師データを準備することが困難な点である.こ のため,入力と同一の文を出力に再現する自己符号化器 (autoencoder)を構成する [Socher 11] ことが試みられ ている.一方,[Socher 10] は,構文解析のタスク実行 の副産物としてネットワーク中に文の分散意味表現が学 習される可能性を示した.この結果は,感情分析のタス クにより,さらに発展させられた [Socher 12]. [Tai 15]は,文ペアの間の意味的関連度(semantic relatedness)*6を予測するという意味表現に密接に関連 するタスクをターゲットとすることにより,文の意味表 現を改良することを試みた.この研究の主張は,文の構 文構造(句構造,依存構造)に対応する木構造 LSTM (tree-structured LSTM)(図 5)を構成し,文間の意味 的関連度というタスクに応じて設定する目的関数に基づ いて学習を行うことにより,より良い文の意味表現が得 られるという点にある.実際,文の意味的関連度のタス クにおいては,依存構造に基づく木構造 LSTM が高い 精度を示し,SemEval に参加した諸システム(これら は素性エンジニアリングを目一杯行っている)と同等ま たは凌駕する精度を示した. 以上から,系列間の変換問題よりも複雑なデータ構造 を扱う構文解析や,あるいは,実数値ベクトルとしての 意味表現を求める意味表現学習においても,エンドツー エンド学習,あるいは,適切に設定されたタスクの副産 物として,所望の処理結果が得られる可能性が示唆され た.このような状況においては,入出力のデータをいか に深層学習に適した形にエンコードするか,どのように 質をある程度担保しながら学習データを大量に収集する か,ということが課題となる.これらの課題に対して, 言語学,あるいは,言語学的知識・センスは依然として 有用であろうが,果たす役割は限定的なものにならざる を得ないだろう.
5. AMR:シンボリックな意味表現の復権
文の分散意味表現は実数値のベクトルとして獲得され るので,ベクトル演算により意味的類似度の定量化や, 類推関係の推定といった意味処理が実現できるという利 点がある.その一方で,シンボリックな意味表現を構成 し,これをもとに高度な意味処理や論理的な推論処理を 明示的に行いたいという考えも根強い. 本章では,そのような期待に応え得る意味表現形式 として最近注目を浴びている抽象的意味表現(Abstract Meaning Representations:AMR)*7を取り上げる.構文 解析技術の進展にペンツリーバンク(Penn Treebank) [Marcus 93]が果たした大きな役割を意味理解において 果たそうというのが AMR の大きな目的であり,AMR による意味注釈が付与されたコーパスの実現を目指して いる [Banarescu 13].意味タスクの評価キャンペーン である SemEval の最近の会合では,文から AMR 形式 の意味表現を求める構文意味解析 [May 16](SemEval- 2016/2017),その逆を行う文生成(SemEval-2017)が シェアードタスクとして取り上げられている. 5・1 AMR の 概 要 AMRによる意味表現は,言語表現における詳細な差 *6 SemEval-2014 という評価ワークショップの一タスクとして 設定された [Marelli 14]. *7 http://amr.isi.edu/ 図 5 (a)通常の LSTM と(b)木構造 LSTM([Tai 15] より転載)異を捨象し,意味の本質的な部分を簡潔に表現すること を目的としている.[Banarescu 13] には,言語学の観点 から考慮すべきさまざまな英語の言語表現パターンと, それに対する AMR 意味表現の例が示されている.
AMRのデータ形式には複数の表記法があるが,有向
非巡回グラフ(Directed Acyclic Graph:DAG)が基本 構造である.図 6 に“The boy wants to go”という文に 対する AMR 意味表現の DAG 構造を示す.グラフにお けるノードは概念,または,概念のインスタンスを表し, エッジはノード間に成立する関係を表す.図 6 のグラフ 構造は,以下の neo-Davidson 形式の論理表現と等価で ある. w, b, g : instance(w, want-01)instance(g, g-01)
instance(b, boy)arg0(w, b)arg1(w, g)
arg0(g, b).
この例では,変数 w, b, g はそれぞれ,want-01, boy,
go-01という概念のインスタンスを表し,“The boy”と
いう原文の連続区間(span)に対応する b は,“want” に対応する w から見ると :arg0 という項(argument) であると同時に,“go”に対応する g における arg0 とい う項でもある.このような構造は,グラフにおけるリエ ントラント構造により表されている.
ここで,want-01 などの概念は PropBank [Palmer 05] において対応するフレームセットと対応している.付 随する 01 などの数字は,語義番号に相当する.また, ノード間の関係種別を表す :arg0 などはロールトーク ンと呼ばれる.AMR ではおよそ 100 種類の関係種別 を用意しており,PropBank 流の :argn などの述語項, :cause, :location, :mannerなどの一般的な意味関係のほ か,量や日付などに対する識別子が定義されている.さ らに,固有名に対してエンティティリンキング(entity linking,または,Wikication)を行い,wiki により参 照先を指定することで,外部知識源へのグラウンディン グを表すことができる. AMRの意味関係において重要なことは,すべての関 係にその逆関係が存在することである.例えば上記にお いて,b(boy)は w(want)に対して :arg0-of の関係
にある(boy は want という動詞概念における動作主で ある)という指定ができる.このような逆関係を利用す ることにより,“the boy from the college”や,“a girl who reads the book”のような修飾・限定構造の意味を 表すことができる.
以上に概観したように,AMR は PropBank との連
携を強く意識している.PropBank プロジェクト*8は,
述語項構造(predicate argument structure),意味役割 (semantic role)に関する注釈付きコーパスを構築して いる.PropBank において特徴的なことは,意味役割の 定義を動詞ごとに行っていることである.したがって, 上記の例の arg0 などのニモニックは,対象の動詞に固 有の意味役割*9を表す.この点で,Agent(動作主)や Theme(動作対象)といった汎用的な意味役割の体系を 用いる他のリソースとは異なる. 5・2 AMR の制約・限界 AMRは文の中心的な意味をシンプルに表すことが目 的である.このため,品詞の違いや冠詞の有無などは捨 象される.語順も微妙に意味に影響を与える場合がある が表現されない.また,前置詞などは関係種別に吸収さ れる.モダリティーや否定極性の扱いはやや特殊である. 論理的な意味表現形式としてより大きな問題と思われる のは,全称量化子(universal quantifier)をもたないこ とである.しかしこの問題は,否定の極性を工夫して用 いることによって回避できることが示されている [Bos 16]. 5・3 AMR の NLP への適用 § 1 意味的構文解析 AMRに基づく意味表現をさまざまな NLP のタスク に適用しようとする際にまず必要となるのが,入力文に 対して AMR 意味表現を与える処理である.この処理を 意味的構文解析(semantic parsing)と呼ぶ.AMR に よる意味表現は抽象度が高く,同義関係にある表現に対 して統一的な概念を割り当てることや,共参照の解消な どのかなり高度な解析処理が必要となる.このため,通 常の統語的構文解析に比べると難度は高い. これまでに提案された代表的な意味的構文解析器とし て,JAMR [Flanigan 14] と CAMR [Wang 16] がよく知 られている.両者とも AMR 意味表現が付与されたコー パスを利用する機械学習に基づいているが,その動作原 理は異なる. JAMRは,グラフ全体の評価値が最大となるように エッジ集合を選択する MSCG(Maximum Spanning, *8 http://propbank.github.io/ *9 ただし多くの動詞に共通して見られる意味役割については, :arg0は agent(動作主),arg1 は patient(被動作主)などの 対応がある. 図 6 AMR による意味表現の例
Connected Subgraph)と呼ばれるグラフアルゴリズム に基づく.CAMR は依存構造解析木を入力とし,あら かじめ定義された基本的なグラフ操作を遷移的に適用す ることにより,AMR グラフへと変換する遷移型のアル ゴリズムに基づく. なお,AMR コーパスは文と対応するグラフを与える だけであるので,学習段階においては,入力文のどの 部分がグラフのどこに対応するかを対応付ける(align-ment)ことが必要となる.このために JAMR ではルー ルベースの手法を実装しており,CAMR もこの対応付 け処理を利用している.別の手段としては,統計的機械 翻訳におけるアライメント手法を適用すること [Wehbe 14]が提案されている.これを行うため,AMR グラフ を深さ優先探索によりリニアなトークン列へと変換する という前処理が行われる. § 2 意味的構文解析の評価尺度 意味的構文解析の精度を評価するため,また,複数人 によって意味表現を付与する場合の評定者間一致度を求 めるため,定量的な評価尺度が必要である.[Cai 13] は Smatch と呼ばれるグラフ構造間での一致度に基づく評 価尺度を提案しており,この尺度が SemEval でも用い られている.Smatch は基本的に二つのグラフにおいて 一致する部分(より正確には論理表現したときに一致す るリテラル)をもとに適合度,再現率を計算し,これら から F 値を求める. § 3 NLP 応用システム 意味的構文解析によって得られたタスク非依存の AMR 意味表現を中間表現とし,これに対してタスク依 存の処理を行うことによって,NLP 応用システムを構 築することができる. AMRを用いた最初の NLP 応用システムとして,意味
に基づく機械翻訳(semantic-based machine translation)
[Jones 12]がある.このシステムでは事前に,原言語, 目的言語それぞれの言語における AMR コーパスから ハイパーエッジ置換え文法(Hyperedge Replacement Grammar:HRG)*10の規則を重み付きで学習しておく. 翻訳時には,原言語の HRG を適用することにより入力 文を AMR 意味表現に変換し,次に目的言語の HRG を 適用することにより目的言語文を生成する.実際には, 用いられる HRG の各規則は,対応する文字列を指定す る同期文法(synchronous grammar)の形式をとって いる.[Jones 12] では,意味表現として言語に依存しな いグラフ構造と言語(英語)の統語構造を意識したグラ フ構造を用いた場合の比較を行っており,後者のほうが 良い翻訳結果となったと報告している. このことは,翻訳のような応用においては,抽象度の 高い意味表現が必ずしも有効・有用ではない可能性を示 唆する.これは,かつて機械翻訳の方式的な優劣が議論 された際に,中間言語方式では言語表現のニュアンスが 失われるといった主張があったことを思い起こさせる. 一方で,[Xue 14] では,英語と中国語・チェコ語間の翻 訳例に対する AMR 意味表現を分析し,特定の言語に依 存しない中間言語(interlingua)の役割を AMR 意味表 現にもたせるためには,各言語の言語依存的な構造を吸 収する必要があり,このためには,相応に大きめで複雑 な部分グラフを翻訳辞書として準備しておくことが必要 であるとしている. なお,AMR の機械翻訳以外の NLP 応用システムへ の適用としては,生成形の要約(abstractive summa-rization)[Liu 15] やエンティティリンキング [Pan 15] な どがすでに試みられている.
6. その他のトピック
「言語学と AI」というテーマに関しては,言語知識 と世界知識の役割分担や連携に関する話題も重要であ るが,本稿では取り上げることができなかった.例え ば,フィルモア(Charles Fillmore)のフレーム意味 論 [Fillmore 03] はミンスキーのフレーム理論 [Minsky 74],ジャッケンドフ(Ray Jackendoff)の語彙概念構 造 [Jackendoff 90] はシャンクの概念依存構造 [Schank 72]といった知識表現の方法論と関係性を有している. プステヨフスキー(James Pustejovsky)*11の生成語彙 論 [Pustejovsky 95] は,この理論が提唱するクオリア構 造を通じて言語知識とオントロジーの連携を図っている [Pustejovsky 06]. また,リンクデータの枠組みを利用して,言語資源相 互や言語資源と知識資源の連携を図る取組み(Linked Data in Linguistics:LDL)が活発化しており [Chiarcos 12],Lemon と呼ばれる辞書とオントロジーに関する 標準的なデータモデルも提案されている [McCrae 11]. AMRによる言語データについても,リンクデータ化す ることによりその付加価値を高める試みが報告されてい る [Burns 16].このような取組みは,言語データ・言語 知識を外部の共有化された知識資源にグラウンディング することであり,言語処理と知識処理の有用な連動につ ながる一方,ユーザにとって身近な自然言語によって構 造化された知識資源へアクセスする手段を提供する [林 12]. 言語は,構造化された知識だけではなく,実世界にお ける知覚情報とも関連性を有している.言語の創造性の 核心は生得的なものであるにせよ,我々は日々環境から 得る知覚情報により,言語に関係する知識(knowledge *10 ハイパーエッジとは任意の数のノードを結ぶエッジのことを いい,このようなエッジが許されるグラフをハイパーグラフと 呼ぶ. *11 Pustejovsky は計算機科学の研究者であるが,言語学の文献で最も引用されている研究者の一人ではないかと思われる.of language)を豊かなものにしているはずである.知覚 に根ざした認知(grounded cognition)[Barsalou 08] は, 認知科学,心理言語学の領域で精力的に研究されてきた が,深層学習により音声,画像,映像といった知覚メディ アを扱う技術が向上したことにより,言語情報と知覚情 報の統合・融合に関わる工学的な研究が進展するものと 思われる.現時点では,画像情報と言語の分散表現を統 合する研究 [Kiela 16, Silberer 16] が一定の成果を上げ ている.
7.お わ り に
以上,深層学習の有用性や,さらなる可能性が明確と なっている状況を踏まえ,NLP における言語学の役割 や相互の関係性について,私見を交えて考察した.これ までの機械学習アプローチにおいては,言語学的知識・ 知見は主に素性エンジニアリングに生かされてきた.す べてがエンドツーエンドの深層学習では実現できないと いう立場に立てば,エンドツーエンド学習が成立する範 囲でモジュール化を図り,可用性の高い入出力形式を設 計するといった点で言語学的知識・知見が生かされるこ とになると思われる.また,言語学的な知識を深層学習 におけるバイアスとして直接取り込む方向性もあり得る だろう. 一方で,NLP や AI からの言語学への貢献に関しては, 従来は主に解析機能などのツールの提供にとどまって きたが,実数値ベクトルとして表される分散表現や各種 の特徴量を用いることにより,非カテゴリカルな言語現 象*11を適切に扱う可能性が開かれる.また,さまざま な言語学の問題に広い意味での機械学習手法を適用する 研究が現れてきた.例えば,[Hamilton 16] は意味変化 の分析に単語の分散表現を用いており,[高村 17] はこ の手法を発展させて外来語の意味変化の分析を行ってい る.また,[Murawaki 15] は,オートエンコーダを用い て言語を連続空間にマッピングし,言語類型(typology) の分析や言語の発生系統の推定を行っている.理論言語 学のような領域は別として,上記のような言語学上の課 題に関して,機械学習や数理的手法を適用する,あるい は,そのための手法を開発する研究が今後はより活発化 することが期待される. なお,今後の NLP システムにおける内部表象(例: 意味表現)のレベル・形式は,意図や目的をもって設定 される場合(例:AMR)だけでなく,機械学習の結果 によって自ずから定まる場合(例:Google NMT)もあ ることになる.一般に,ニューラルネットワークによっ て得られる表現はそのままでは明示的な解釈ができない ことが多いので,可視化や解釈可能なデータ表現の抽出 なども課題になる. 謝 辞 本稿執筆の機会を与えていただいた担当編集委員の古 崎晃司先生,貴重なコメントをいただいた NLP 研究者 各位に感謝します.なお本稿の内容の一部は,JSPS 科 研費 #26540144,#25280117,#15K12873 の援助を受 けた.◇ 参 考 文 献 ◇
[Banarescu 13] Banarescu, L., et al.: Abstract meaning representation for sembanking, Proc. 7th Linguistic
Annotation Workshop and Interoperability with Discourse, pp.
178-186(2013)
[Baroni 14] Baroni, M., et al.: Frege in space: A program of compositional distributional semantics, Linguistic Issues in
Language Technology, Vol. 9, pp. 241-346(2014)
[Barsalou 08] Barsalou, L. W.: Grounded cognition, Annual
Review of Psychology, Vol. 59, pp. 617-645(2008)
[Bender 13] Bender, E. M.: Linguistic Fundamentals for Natural
Language Processing: 100 Essentials from Morphology and Syntax, Morgan & Claypool Publishers(2013)
[Berwick 15] Berwick, R. C. and Chomsky, N.: Why Only Us:
Language and Evolution, The MIT Press(2015)
[Bos 16] Bos, J.: Expressive power of abstract meaning representations, Computational Linguistics, Vol. 42, No. 3, pp. 527-535(2016)
[Burns 16] Burns, G. A., et al.: Abstract meaning represen- tations as linked data, Proc. ISWC 2016, pp.12-20(2016) [Cai 13] Cai, S. and Knight, K.: Smatch: An evaluation metric
for semantic feature structures, Proc. ACL 2013, pp. 748-752 (2013)
[Chen 14] Chen, D. and Manning, C.: A Fast and accurate dependency parser using neural networks, Proc. EMNLP
2014, pp. 740-750(2014)
[Chiarcos 12] Chiarcos, C., Nordhoff, S. and Hellmann, S., eds.:
Linked Data in Linguistics - Representing and Connecting Language Data and Language Metadata, Springer(2012) [Fillmore 03] Fillmore, C. J., et al.: Background to framenet,
International J. Lexicography, Vol. 16, No. 3, p. 235(2003) [Flanigan 14] Flanigan, J., et al.: A discriminative graph-based
parser for the abstract meaning representation, Proc. ACL
2014, pp. 1426-1436(2014)
[Fromkin 10] Fromkin, V., Rodman, R. and Hyams, N.: An
Introduction to Language, Cengage Learning(2010) [Hamilton 16] Hamilton, W. L., Leskovec, J. and Jurafsky,
D.: Diachronic word embeddings reveal statistical laws of semantic change, Proc. ACL 2016, pp. 1489-1501(2016) [林 12] 林 良彦 著,人工知能学会 編集,来村徳信 編:言語的オン
トロジーの構築と展開,オントロジーの普及と応用,pp. 67-89, オーム社(2012)
[Hinton 86] Hinton, G. E., et al.: Parallel Distributed Processing:
Explorations in the Microstructure of Cognition, Vol. 1, chapter
Distributed Representations, pp. 77-109, MIT Press(1986) [Jackendoff 90] Jackendoff, R.: Semantic Structures, MIT Press
(1990)
[Johnson 16] Johnson, M., et al.: Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation, arXiv:1611.04558(2016)
[Jones 12] Jones, B., et al.: Semantics-based machine translation with hyperedge replacement grammars, Proc. COLING 2012, pp. 1359-1376(2012)
[Kiela 16] Kiela, D., Ver, A. L. and Clark, S.: Comparing data sources and architectures for deep visual representation learning in semantics, Proc. EMNLP 2016, pp. 447-456(2016) *12 [Manning 99] では,英語の“near”が前置詞と形容詞の両
[Kübler 09] Kübler, S., et al.: Dependency Parsing, Morgan and Claypool Publishers(2009)
[Li 15] Li, J., et al.: When Are Tree Structures necessary for deep learning of representations?, Proc. EMNLP 2015, pp. 2304-2314(2015)
[Liu 15] Liu, F., et al.: Toward abstractive summarization using semantic representations, Proc. HLT-NAACL 2015, pp. 1077-1086(2015)
[Manning 99] Manning, C. D. and Schütze, H.: Foundations of
Statistical Natural Language Processing, MIT Press(1999) [Marcus 93] Marcus, M. P., et al.: Building a large annotated
corpus of English: The penn treebank, Computational
Linguistics, Vol. 19, No. 2, pp. 313-330(1993)
[Marelli 14] Marelli, M., et al.: SemEval-2014 Task 1: Evaluation of compositional distributional semantic models on full sentences through semantic relatedness and textualentailment, Proc. SemEval 2014, pp. 1-8(2014) [May 16] May, J.: SemEval-2016 Task 8: Meaning representation
parsing, Proc. SemEval 2016, pp. 1063-1073(2016)
[McCarthey 07] McCarthey, J.: What is Artificial Intelligence?, http://www-formal.stanford.edu/jmc/whatisai/ (2007)
[McCrae 11] McCrae, J., Spohr, D. and Cimiano, P.: Linking lexical resources and ontologies on the semantic web with lemon, Proc. ESWC 2011, pp. 245-259(2011)
[Mikolov 13] Mikolov, T., et al.: Distributed representations of words and phrases and their compositionality, Proc. NIPS
2013, pp. 3111-3119(2013)
[Minsky 74] Minsky, M.: A Framework for Representing Knowledge, Technical report, Massachusetts Institute of Technology(1974)
[Murawaki 15] Murawaki, Y.: Continuous space representations of linguistic typology and their application to phylogenetic inference, Proc. HLT-NAACL 2015, pp. 324-334(2015) [長尾 09] 長尾 真 著,言語処理学会 編 :言語処理の歴史,言語処
理学事典,pp. 2-20,共立出版(2009)
[中川 09] 中川裕志 著,言語処理学会 編:言語処理概観:古代か ら現代へ,言語処理学事典,pp. 21-24,共立出版(2009) [Norvig 11] Norvig, P.: On Chomsky and the Two Cultures of
Statistical Learning, http://norvig.com/chomsky.html (2011)
[Ogden 89] Ogden, C. and Richards, I.: The Meaning of Meaning:
A Study of the In fluence of Language upon Thought and of the Science of Symbolism, Harcourt Brace Jovanovich(1989) [岡崎 16] 岡崎直観:言語処理における分散表現学習のフロンティ
ア(特集:ニューラルネットワーク研究のフロンティア),人工 知能,Vol. 31, No. 2, pp. 189-201(2016)
[Palmer 05] Palmer, M., et al.: The proposition bank: An annotated corpus of semantic roles, Compututational
Linguistics, Vol. 31, No. 1, pp. 71-106(2005)
[Pan 15] Pan, X., et al.: Unsupervised entity linking with abstract meaning representation, Proc. HLT-NAACL 2015, pp. 1130-1139(2015)
[Pennington 14] Pennington, J., et al.: GloVe: Global vectors for word representation, Proc. EMNLP2014, pp. 1532-1543(2014) [Pustejovsky 95] Pustejovsky, J.: The Generative Lexicon, The
MIT Press(1995)
[Pustejovsky 06] Pustejovsky, J., et al.: Towards a generative lexical resource: The brandeis semantic ontology, Proc. LREC
2006, pp. 1702-1705(2006)
[Russell 02] Russell, S. J. and Norvig, P.: Artificial Intelligence: A
Modern Approach, 2nd Edition, Prentice Hall(2002) [Schank 72] Schank, R. C.: Conceptual dependency: A theory of
natural language understanding, Cognitive Psychology, Vol. 3, No. 4, pp. 532-631(1972)
[Silberer 16] Silberer, C., Ferrari, V. and Lapata, M.: Visually grounded meaning representations, IEEE Trans. on Pattern
Analysis and Machine Intelligence(2016)
[Socher 10] Socher, R., Manning, C. D. and Ng, A. Y.: Learning continuous phrase representations and syntactic parsing with recursive neural networks, Proc. NIPS 2010 Deep Learning
and Unsupervised Feature Learning Workshop, pp. 1-9(2010) [Socher 11] Socher, R., et al.: Dynamic pooling and unfolding recursive autoencoders for paraphrase detection, Proc. NIPS
2011, pp. 801-809(2011)
[Socher 12] Socher, R., et al.: Semantic compositionality through recursive matrix-vector spaces, Proc. EMNLP 2012, pp. 1201-1211(2012)
[Socher 13] Socher, R., et al.: Parsing with compositional vector grammars, Proc. ACL 2013, pp. 455-465(2013)
[Sutskever 14] Sutskever, I., Vinyals, O. and Le, Q. V.: Sequence to sequence learning with neural networks, Proc. NIPS’14, pp. 3104-3112(2014)
[Tai 15] Tai, K. S., et al.: Improved semantic representations from tree-structured long short-term memory networks, Proc. ACL/
IJCNLP 2015, pp. 1556-1566(2015)
[高村 17] 高村大也,永田 亮,川崎義史:外来語の意味変化に対す る数理的分析,言語処理学会第 23 回年次大会発表論文集,pp. 907-910(2017)
[Thomas 11] Thomas, M.: Fifty Key Thinkers on Language and
Linguistics, Routledge Key Guides, Routledge(2011) [鶴岡 17] 鶴岡慶雅:ニューラル機械翻訳の衝撃,情報処理,Vol.
58, No. 2, pp. 96-97(2017)
[Wang 16] Wang, C., et al.: CAMR at SemEval-2016 Task 8: An extended transition-based amr parser, Proc. SemEval 2016, pp. 1173-1178(2016) [渡辺 14] 渡辺太郎,今村賢治,賀沢秀人,Neubig, G., 中澤敏明: 機械翻訳,コロナ社(2014) [渡辺 16] 渡辺太郎:ニューラルネットワークによる構造学習の発 展(特集:ニューラルネットワーク研究のフロンティア),人工 知能,Vol. 31, No. 2, pp. 202-209(2016)
[Wehbe 14] Wehbe, L., et al.: Aligning context-based statistical models of language with brain activity during reading, Proc.
EMNLP 2014, pp. 233-243(2014)
[Wu 16] Wu, Y., et al.: Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation, arXiv:1609.08144(2016)
[Xue 14] Xue, N., et al.: Not an interlingua, but close: Comparison of English AMRs to Chinese and Czech, Proc. LREC 2014, pp. 1765-1772(2014) 2017年 3 月 12 日 受理