自然言語処理から見た第五世代コンピュータと未来(<特集>第五世代コンピュータと人工知能の未来)

(1)

1．は　じ　め　に

著者自身が新世代コンピュータ開発機構（ICOT: Institute for New Generation Computer Technology）に研究員として所属したのはプロジェクト中期前半の 1985 年 9 月～ 1987 年 11 月の 2 年 3 か月間だけだったが，1979 年から渕一博氏（後の ICOT 所長，故人）が室長を務められていた電子技術総合研究所（現産業技術総合研究所）推論機構研究室に勤務し，設立の経緯を間近に見る機会を得ていた．ICOT 発足の 1982 年に出向することは認められなかったが，渕氏の推薦を得て 1984 ～ 85年に英国インペリアルカレッジの Kowalski 教授のグループに加わって並列論理型言語による構文解析（パージング）＊1 _{の研究を行う機会を得，並列論理型言語に関} 係するテーマに携わることができた．1987 年 12 月に電子技術総合研究所に戻り，翌年京都大学に異動した後も ICOTのいくつかのワーキンググループの委員としてプロジェクト終了までさまざまな形で同プロジェクトと関係をもっていた．第五世代コンピュータプロジェクトが目指したのは，論理型プログラミング言語をベースとした並列処理による知識情報処理システムの構築であり，自然言語処理はその応用の核と位置付けられていた．著者は，電子技術総合研究所入所後はずっと自然言語処理の分野にいたものの，ICOT では自然言語処理担当の 2 研（当時横井俊夫室長）ではなく，基礎担当の 1 研（当時古川康一室長）に所属し，並列論理型言語による自然言語解析と並列プログラミングに関する研究を研究テーマとしていた．そこで本稿では，自然言語処理研究に関して，ある程度客観的な立場から，第五世代コンピュータプロジェクト当時とその後の自然言語処理，および今後の自然言語処理研究や研究を取り巻く環境について述べてみたい．なお，限られた紙数で ICOT の自然言語処理の詳細や過去 30 年間の自然言語処理を概観するのは不可能なので，大きな流れを中心に，当時とその後の自然言語処理の経緯と ICOTの研究環境について，あくまで著者の私見として記してみたい．

2.　第五世代当時の自然言語処理

1980年代は，規則に基づく自然言語処理の全盛時代で，自然言語の文法を記述するためのさまざまな文法理論が提案された．単一化文法として有名な語彙機能文法（LFG: Lexical Functional Grammar）[Bresnan 01, Kaplan 82]，一般化句構造文法（GPSG: Generalized Phrase Structure Grammar）[Gazdar 85]，主辞駆動句構造文法（HPSG: Head-driven Phrase Structure Grammar）[Pollard 87, Sag 03] などが当時提案された代表的な文法理論である．ICOT が主催していたいくつかのワーキンググループの一つでも，郡司隆男氏（当時大阪大学，現在神戸松蔭女子学院大学教授）を中心として，日本語句構造文法 [Gunji 87] の理論的側面の検討が行われた．論理型言語 Prolog は確定節（結論部分がただ一つの正リテラルよりなり，条件部分が正リテラルの連言よりなる論理式）を基本とするプログラミング言語であり，その構文が文脈自由文法と同形のため，自然言語の文法規則と相性が良い．マルセイユ Prolog で実装された Metamorphosis Grammar [Colmerauer 78] をはじめとして，Definite Clause Grammars（DCG）[Pereira 80]，PATR-Ⅱ [Shieber 84] などさまざまな文法記述言語が提案され，主として Prolog 上で実装された．特に

自然言語処理から見た

第五世代コンピュータと未来

The Fifth Generation Computer Systems Project and the Future from the

Perspective of Natural Language Processing

松本　裕治

奈良先端科学技術大学院大学情報科学研究科

Yuji Matsumoto Graduate School of Information Science, Nara Institute of Science and Technology. [email protected], http://cl.naist.jp/

Keywords:

natural language processing, unification grammars, linguistic resources, statistical natural language processing.

「第五世代コンピュータと人工知能の未来」

＊1 自然言語解析の分野では“parsing” を統語解析と呼ぶことが多いが，本稿ではより一般的な「構文解析」を用いる．

(2)

DCGは Dec-10 Prolog 以降の Prolog 処理系に直接埋め込まれた形で実装されている．

論理式の集合に対してどのような戦略で推論を実行するかは自由であり，Prolog は確定節のための選択線形戦略（SLD: Selective Linear Resolution for Definite Clauses）を用いたものであり，その Prolog の処理系がそのまま DCG のトップダウンパーザ＊2_{として動作した．} 一方で，文脈自由文法の構文解析アルゴリズムを確定節の推論に適用することも可能であり，Earley Parsing アルゴリズムを確定節の推論戦略として用いるアイディア [Pereira 83] などが提案された＊3_{．同様に，単一化文} 法や論理型言語に基づく文法は，主として文法的な制約を記述したものであり，どのようなアルゴリズムで解析されるかには依存しないものであるため，制約に基づく文法とも呼ばれた．著者が自然言語処理を始めたのは，論理に基づく言語理解によって計算機と質問応答を行いたいと考えたためである．文を論理式に変換するために Montague 文法 [Dowty 81] の日本語版を実装しようとし，そのために DCG が向いているということで Prolog を利用し始めた．Prolog 処理系による DCG のトップダウン解析はそれなりに効率が良かったが，バックトラックに基づいており，長文での非効率性や左再起規則による無限ループに陥らないように文法を書かなければならないなどの制限があった．これらの問題を回避するため，DCG で記述された文法規則を一定の方法で変換することで， Prologの処理系をそのまま利用し，途中結果を Prolog に組み込みのデータベースに副作用＊4 _{として格納するこ} とにより，同じ句の再計算を抑えたボトムアップパーザ BUP を提案した [Matsumoto 83]．その後，インペリアルカレッジ留学中に，当地で実装されていた並列論理型言語 PARLOG 上で Chart Parsing を直接実行可能になるように DCG 文法規則を変換する方法について研究し，帰国後，ICOT で開発されていた並列論理型言語 GHC （Guarded Horn Clauses）で並列パーザを実装する手法を提案した [Matsumoto 87]．この方法は，動的計画法で生成される途中結果を階層的なリスト構造に蓄積することによって論理型プログラムで嫌われる副作用を利用せずに動的計画法を実装する方法を示したもので，その後，層状ストリームによる並列プログラミング法として一般化した [Okumura 87]. ICOTの自然言語処理研究では，このような言語解析システム以外に，小学校や中学校の国語の教科書の文章を理解して質問に答える談話理解システムのプロトタイプ構築や，談話構造抽出システム，立論テキスト生成システムなど上位の自然言語処理の応用研究も行われた．また，中期から後期にかけては，さまざまな言語処理ツールや日本語文法，日本語辞書などの言語資源が構築された．これらの自然言語処理ツールは，LTB（Language Tool Box）として ICOT Free Software に含まれ，一般公開されている．また，ICOT の自然言語処理グループのリーダだった横井俊夫氏が中心となって 1986 年に開始された EDR 電子化辞書プロジェクトでは，日英単語辞書，概念辞書，対訳辞書，専門用語辞書に加えて，構文構造のタグ付けがなされた日本語および英語のコーパス（それぞれ 20 万文，12 万文）が構築された．現在では，学会などで発表された研究成果の多くがフリーソフトとして公開され，共有されている．また，大規模タグ付きコーパスの構築の重要性も当時とは比べものにならないくらい広く認識されている．これらの風潮を先取りした極めて先見性の高い活動が当時なされたことがわかる． 1980年代の自然言語処理は，文法理論とそれに基づく言語解析以外に，知識表現言語や状況意味論 [Barwise 83]などの関連分野の研究の影響を受けて，詳細な意味表現や文脈の解析へと深化した時期でもあった．特に，知識表現については，従来の意味ネットワークなどのグラフ表示に基づくいわゆる概念対象の表現と，言明を対象とする論理表現の融合として，Krypton [Brachman 83]などのハイブリッド型の知識表現法が提案され，

その後の LogIn [Aït-Kaci 86]，Quixote [Yokota 89]， Frame-Logic [Kifer 95]など項の単一化を拡張した論理型言語へ発展した．ICOT が推進した論理型言語に基づく知識情報処理は，このような進展の方向にも少なからず影響を与えていたと考えられる． 80年代は，自然言語処理の応用として機械翻訳研究が進展した時期でもあった．京都大学長尾研究室で 1982 年より 4 年間推進された Mu プロジェクトや Carnegie Mellon大学の機械翻訳センターで遂行された

Knowledge-based Machine Translationプロジェクトなど世界各地で機械翻訳に関する研究グループが活動し，変換方式，知識に基づくピボット方式などさまざまな規則に基づく機械翻訳手法が進展した．国内でも多くの企業で機械翻訳の研究開発が進められ，製品化された．

3．ICOT の研究環境

その後の自然言語処理の研究経緯について述べる前に，ICOT の研究環境について書いておきたい． ICOTが計画段階であった頃，この分野に入ったばかりの若手研究者であった著者にでもプロジェクトの研究＊2 文脈自由文法規則の左辺（確定節でも同様）から規則を展開しながら構文木の構築を試みる方法をトップダウン，逆に規則の右辺から構文木を構築する方法をボトムアップと呼ぶ．＊3　渕一博氏が 1977 年の情報処理学会記号処理研究会で行った発表[渕 77] が，Earley Deduction と同様のアイディアを提案していたことは ICOT 関係者の間ではよく知られている．同発表は，情報処理学会創立 25 周年記念論文に選定されている．＊4　入出力やデータベースなど大局的にアクセスできる値の格納など非論理的な効果を副作用（side effect）と呼ぶ．ここでは，途中結果をデータベースに格納する処理のこと．

(3)

目標が高過ぎるのではないかという驚きがあった．渕氏に何気なくこの疑問を質問した際に返ってきたのは，研究計画は予算獲得の方便であり，目標は人材育成という明確なものだった．実際，ICOT には人材育成のさまざまな方策が仕組まれていた．これらの多くは，渕氏が考え，指示されたものだと思う． ICOTに派遣される研究者の平均年齢は 30 歳にすると決められていた．国内の第一線の研究者をメンバとするワーキンググループを各研究室が一つ以上組織したが，大学からのメンバは 30 歳代までの助教授，助手クラスを中心に集めることになっていた．プロジェクトの計画に沿うものであれば，自由なテーマで研究し，一流の国際会議に論文投稿することが勧められていた（当時，日本では海外出張に使える予算は極めて限定されていた．科研費は国内旅費にしか使えなかった）．また，国際会議で出会った優秀な若手研究者を数週間 ICOT に招聘するための予算が組まれており，国際会議などで出会った若手研究者を勧誘することが認められていた．招聘された研究者は ICOT の若手研究者と共同研究を行うこととが多かった．それ以外に，関連分野の著名な研究者を招待する予算があり，論理プログラミングの世界で名のある研究者のほとんどが一度は ICOT に招待された．このため，ICOT に居ながらにして，毎週のように，著名な研究者や新進気鋭の若手研究者の講演を聞くことができた．研究以外の雑用はすべて事務部門またはグループリーダが対応した．研究室長やグループリーダには極めて有能でカリスマ的な素質をもったメンバがそろっており，これも渕氏はじめ ICOT 設立に関わった研究者の人を見る目があったことを示していると思う．このような環境で，企業から派遣され，最初は論理プログラミングの知識がほとんどなかった若手が，ICOT の環境の中で見る見るうちに育っていく姿を何人も目撃した．大学の教員になることが研究者として育った証に必ずしもなるわけではないが，ICOT から元の企業，研究所へ戻ったメンバのうちかなりの人数がその後大学で職を得ている．このような奇跡の研究環境を現在実現するのは不可能だと思うが，その何分の一でも実現したいという思いは，大学に異動して以来著者の中にずっと残っており，研究室運営のベースとなっている．第五世代プロジェクトを失敗と結論付けている資料をよく目にするが，少なくとも人材育成の視点からは，これほど成功したプロジェクトはほかには見当たらないのではないだろうか．

4．Post 第五世代の自然言語処理

ICOTが 2 年間の成果普及期間を残して約 11 年のプロジェクトが終了したのが 1992 年だが，この頃に自然言語処理の分野では大きなパラダイムシフトが起こった．IBM の統計的機械翻訳に関する seminal papers [Brown 90, Brown 93]が発表されたのがこの時期であり，また，Ken Church らが大規模コーパスを用いた相互情報量の言語処理への利用を提唱 [Church

90]したのもこの時期である．同時期（1992 年）に

米国 Pennsylvania 大学内に LDC（Linguistic Data Consortium）が設立され，利用条件を明確にした形での言語資源の配布が開始された．最初の配布物の一つである Penn Treebank [Marcus 93] が，品詞タグ付けや構文解析の学習およびテストデータとして標準的に使われるようになった．1980 年代から開発が始まっていた WordNet [Fellbaum 98]が 90 年代になって公開され，大規模な英語シソーラスとして広く使われるようになるとともに，他のさまざまな言語の WordNet が構築されるようになった． 1990年代初頭のこのような動きを受けて，自然言語処理分野は，コーパスおよび統計的手法に基づく研究が主流となる傾向が加速しつつ現在に至る．この時期にこのようなパラダイムシフトが起こったのには次の要因が考えられる． ●_{曖昧性解消の問題：論理制約に基づく文法記述と構} 文解析では本質的な曖昧性に対処することが難しく，曖昧性爆発を起こすか，より厳しい制約を記述する必要があったこと． ● _{頑健な処理に関する問題：制約条件が厳しすぎる文} 法記述は厳格過ぎて，わずかな文法誤りも許容せず解析結果が得られないことがある．多少の文法誤りにも破綻しない頑健な言語解析を行うことに困難があったこと． ● 規則の拡張の問題：自然言語処理システムの規模が大きくなるにつれ，文法規則の規模が増大し，人手でのメンテナンスが文法開発以上の問題になっていたこと． ● 例外への対応：言語が美しい規則性をもつ反面，言語現象にはさまざまな例外があり，単純な文法規則の拡張では，すべての言語現象をカバーする文法を構築することが難しかったこと． ● 電子化データの増大：電子化された大規模テキストデータやタグ付けコーパスの出現，および World Wide Webの普及により電子化データの蓄積が急速に加速されたこと．同時に，このような実データの解析に対する要望が高まったこと． ● 計算能力の進歩：コンピュータの処理能力や記憶容量が飛躍的に増大し，それまでディスクに置く以外に扱えなかったような大規模データ（例えば，新聞記事数年分のテキストデータ）をすべて主記憶に読み込んで処理することが問題なく行えるようになってきたこと．これらの原因の根本は，制約や規則に基づく文法が，時には曖昧性爆発を起こして何万もの解析結果を返し，

(4)

時には文法的例外や厳しすぎる制約のために解析結果が得られないという現象の対応に研究者が疲弊していたという状況にあり，確率や識別学習により曖昧な結果からの解の優先度計算や頑健な解の選択が可能なため，上記の問題の多くを解決できるという期待があったためと考えられる．この風潮が論理型言語を基盤にしていた ICOTの終了時期と符合するのは偶然とはいえ興味深い．コーパスや統計的手法を用いた自然言語処理の高まりに応じて，1993 年に第 1 回の Workshop on Very Large Corpora（WVLC）が ACL（Association for Computational Linguistics）のもとに結成された SIGDAT（Special Interest Group for linguistic DATa and corpus-based approaches to NLP）によって開催された．その後，同じグループによって 1996 年に Conference on Empirical Methods in Natural Language Processing（EMNLP）が開催され，両者が 1999 年，2000 年の共同開催を経て，2001 年からは EMNLP として統合され，現在まで毎年開催されている．主として ACL の年次会議などと併設されることが多かったが，2010 年以降はほとんど単独開催の会議として，採択率 25％程度で，3 ～ 4 並列のセッションをもち，500 名もの参加者を集める国際会議に発展するに至っている．機械学習に基づく自然言語処理では，ACL の別のグループ SIGNLL（Special Interest Group on Natural Language Learning）が主催する Conference on Natural Language Learning （CoNLL）が 1997 年から毎年開催（数回は EMNLP と共同開催）されており，同じように学習に基づく自然言語処理をテーマにしている．特に，1999 年から開始された CoNLL Shared Task では，基本句まとめ上げ（Base Phrase Chunking），固有表現認識（Named Entity Recognition），意味役割付与（Semantic Role Labeling），多言語依存構造解析（Multi-Lingual Dependency Parsing）など自然言語解析のさまざまな基本タスクが取り上げられ，共通課題のデータを増やしながら同一タスクを 2 年連続で対象課題にすることにより，共通の学習データが蓄積され，それぞれのタスクの研究参入者の増加と手法の進展に貢献した．統計的自然言語処理は，1990 年代当初は単純な確率計算や Naïve Bayes，決定木などの分類学習器が用いられていたが，現在までには，最大エントロピー法やサポートベクタマシンなど大規模な素性を扱うことができる学習器，Boosting などのアンサンブル学習，パーセプトロンに基づく MIRA や Passive-Aggressive Algorithm などのオンライン学習などさまざまな手法が適用されるようになっている．また，自然言語の解析は，品詞タグ付けや構文解析など，単純なラベル分類問題ではなく，解として構造（品詞列，構文木，翻訳文など）を返す問題が数多くあるため，構造学習が必要であり，手法として，動的計画法，グラフアルゴリズム，整数線形計画法などさまざまな手法が最適な構造解析を行うために用いられるようになっている．タグ付きコーパスの整備もさまざまな研究グループで進み，Penn Treebank には，当初の構文情報に加えて意味役割を付与した Prop Bank [Palmer 05]，文や節の間の談話関係を付与した Penn Discourse Treebank

[Prasad 08]などが公開されている．意味役割とは述語

（動詞などの用言）と，それに対する必須の項（意味上の主語や目的語など）との関係を意味し，述語に必要な項を文脈から特定する処理は述語項構造解析（Predicate Argument Structure Analysis）とも呼ばれる．

国内でも，係受け情報，述語項構造，名詞間の共参照関係などを付与した京都大学テキストコーパス [黒橋 97]や NAIST テキストコーパス [飯田 10] などのタグ付きコーパスが公開されている．また，国立国語研究所が中心となって進められた日本語コーパスプロジェクト（2006 ～ 10 年度）の成果として約 1 億語規模の日本語コーパス「現代日本語書き言葉均衡コーパス（BCCWJ: Balanced Corpus of Contemporary Written Japanese）＊5

が公開されている．自然言語文の解析では，品詞タグ付け，句構造解析や依存構造解析などの構文解析，述語項構造解析，照応解析，共参照解析などさまざまな階層の言語解析法が機械学習に基づいて研究されてきた．個々の処理については，いかに広い情報（文全体，あるいは文を超えた，大局的な素性）を扱わせることができるかが問題であり，言語解析の階層間については，旧来からのパイプライン処理（一つの層の解析結果を次の層の入力として単純に積み重ねる方法．誤り伝搬の問題がある）ではなく，誤りの伝搬を防ぐ手法，あるいは異なる層の処理を同時に行う手法が研究されている．タグ付けされたデータの大規模化は容易ではないため，小規模なタグ付きデータに加えて大規模なタグなしデータとともに学習を行う半教師付き学習，あるいは大規模なタグなしデータのみを対象とする教師なし学習の研究，タグ付きデータとは異なる分野のタグなし言語データに適用する転移学習や領域適用の手法も研究されている．また，品詞のセットや文書分類のためのカテゴリーのセットが事前に決まっていればよいが，カテゴリーなどのラベルは人手によって決められることが多く，必ずしも最適のものとはいえない．文書のトピックを潜在的な変数として，文書や単語のトピックへの所属確率を推定する LSA（Latent Semantic Analysis）[Hofmann 99]や LDA（Latent Dirichlet Allocation）[Blei 03] などのトピックモデルやその拡張が広く使われるようになってきている．さらに，単語や表現の意味的類似度を

WordNetなどの既存のシソーラス上で測るのではなく，

大規模コーパスでの使用文脈の類似性によって測る文脈

(5)

類似度 [Lee 99] や Deep Neural Net を用いた分散表現 [Collobert 08]の利用など意味情報をカテゴリーではなくベクトルあるいはテンソルとして表現する方法が，さまざまな自然言語解析の性能向上につながることが期待されている．また，複数の単語からなる言語表現の構成的な意味演算を分散表現の上で行う方法も注目を集めている [Socher 13, Tsubaki 13]．自然言語処理の応用分野でも 90 年代以降にさまざまな進展があった．言語解析システムの高性能化に伴い，大規模テキストデータの検索を利用した質問応答（Question Answering），意見情報マイニング（Opinion

Mining, Sentiment Analysisとも呼ばれる）が大きく進展した．QA については，それまで提案された数多くのアルゴリズムを実装してつくられた IBM Watson が米国テレビのクイズ番組 Jeopardy! の優勝者二人を破るという快挙を遂げたことが記憶に新しい読者も多いだろう．統計的機械翻訳（SMT）は，IBM モデルが数学的に明解なモデルだったため，モデルを拡張するためのアライメントモデルやフレーズや木構造の利用などさまざまな手法が取り入れられて着実に進歩するとともに，基本的なツールが一般に公開された＊6_{．機械翻訳を含む複} 雑な自然言語処理応用は，入力文に対するただ一つの解が存在するわけではなく，その評価が非常に難しい． 2002年に BLEU（Bilingual Evaluation Understudy）

[Papineni 02]という機械翻訳のための評価尺度が提案されると，この評価尺度の向上を目指して毎年数多くの研究論文が発表されるようになった．

5．これからの自然言語処理について

ICOTの時代（1980 年代）の自然言語処理が規則に基づく Rationalism の時代とすると，Post-ICOT の 1990 年代は Empiricism の時代といわれる．90 年代の終わりに，多くの研究者が，21 世紀には再び規則の揺り戻し，あるいは規則と統計の融合が盛んになることを予想したが，揺り戻しや融合が起こっているとはいえない状況のままに 10 年以上が経過した．しかし，一方で，前章で触れたように，品詞タグ付けや構文解析の性能は，精度，速度ともかなり進歩し，いろいろな実応用に耐えられるだけのものに育ってきている．初期の統計的手法では，文や文書を単語の集まり（bag-of-words）や単語列として単純に扱ってきた応用タスクが，近年では，自動解析による構文情報や意味情報を取り入れるようになってきている．10 年単位で見れば大きな進展といえるが，例えば，文脈情報の利用となると応用分野にはほとんど用いられていないに等しい．遠い未来を予測することは難しいし，あまり意味がないので，現状として著者が感じていることと未来へ向けた心構えのようなものについて述べようと思う．統計的自然言語処理を進めながら考えていたことは，統計的手法はあくまで近似でしかないということである．当初は，単語の共起程度は学習できても，内部構造のようなもの（言い換えれば，構成的な演算が可能な仕組み）を確率や分類器で学習することは無理であって，入れ物としての表現（単語や知識を表現するためのスケルトン）は人が考えるべきだと思っていた．そのため， HPSGがもつような単語に対する統語的な知識や，語彙概念構造 [Jackendoff 90]，生成語彙 [Pustejovsky 95] のように意味とそれらの合成を計算可能にする単語の表現がどうしても必要だと考えていた．その考えは変わってはいないが，どうすれば単語に対して首尾一貫した情報の記述を行ったり，学習したりできるかがわからないまま，統計的手法がカバーする範囲が広がってきているというのが現状といえる． ICOTに所属していた頃から，研究成果として何を残すか，何を目標にするかということを考えていた．現状の自然言語処理で残されてきたものを端的にいえば，いくつかのアルゴリズム，手法の適用のノウハウ，フリーソフトとして公開されているツール，およびタグ付きコーパスや辞書などの言語データでしかない．特に，データとして生き残っているものが，比較的表面的な情報のタグ付きコーパスと表層に近い情報だけをもった辞書やシソーラスに留まっているのがなぜかを考えることが重要ではないだろうか．前章では触れなかったが，語彙知識獲得，文間の含意関係認識，事象間の関係認識など語や概念間の関係獲得の研究が近年行われているが，ここでも獲得した知識をどのような形で蓄積するかについてはまだ手探りの段階である．一方，何が研究の目標かということについては，もちろん，論文を書くことでも名声を得ることでもなく，本当に正しい解の方向に向かっているかということであろう．実際にはこれは大変難しく，統計的な手法が最終的な解の近似というのなら，統計的自然言語は正しい方向に向かっていないことになる．実際はそうではなく，今よりも役に立つ何かをつくることが目標なら，多くの統計的手法はそれに応えてくれている．別の視点からは，目標を達成するためにむだな（後に残らない）規則や知識をつくることを避けるべきであり，統計的手法でできることを突き詰めることによって，規則が必要な領域を明らかにすることが重要であろう．我々は，統計的な手法のみ，規則のみによって目標が達成できないことは十分に学んでおり，どのようにそれらを生かすかということが問題になる．規則とデータは対比されるものではなく，両者が複雑になればなるほど，データに裏付けされた規則，規則に裏付けされたデータという視点で言語資源の構築を行わなければ，意味のある蓄積物とはならないだろう．＊6 統計的機械翻訳に関する文献やツールの情報は次のページから取得できる．http://www.statmt.org/

(6)

6．お　わ　り　に

ICOT当時から自然言語処理に携わり，また，ICOT に所属した経験をもつ者として，当時の自然言語処理とその後および今後の自然言語処理について概観した．自然言語処理研究が大きく舵を切る時代と符合する形で行われた第五世代コンピュータプロジェクトは，今となっては目に見える結果を多く残しているように見えないかもしれないが，明確な方向性と恵まれた研究環境をもったプロジェクトが，当時の知識情報処理分野にどのような大きな影響を与えたかについては，本特集の古川氏の解説（pp. 159-165）やほかの方々の解説を参照していただきたい．このような影響力をもった第五世代コンピュータプロジェクトが，40 代半ばの渕氏が立上げの中心となり，主として 30 代までの中堅研究者と 20 代からプロジェクトに参加した若手研究者によって進められたことは特筆に値する．形や規模は違っても，同様の研究環境を若手研究者が経験できる機会が実現されればと思う．

◇　参　考　文　献　◇

[Aït-Kaci 86] Aït-Kaci, H. and Nasr, R.: A logic programming language with built-in inheritance, J. Logic Programming, Vol. 3, No. 3, pp. 187-215（1986）

[Barwise 83] Barwise, J. and Perry, J.: Situations and Attitudes, MIT Press（1983）

[Blei 03] Blei, D., Ng, A. and Jordan, M.: Latent dirichlet allocation, J. Machine Learning Research, Vol. 3, pp. 993-1022 （2003）

[Brachman 83] Brachman R., Fikes, R. and Levesque, H.: Krypton: A functional approach to knowledge representation,

IEEE Computer, Vol. 16, No. 10, pp. 67-73（1983）

[Bresnan 01] Bresnan, J.: Lexical-Functional Syntax, Blackwell （2001）

[Brown 90] Brown, P., Cocke, J., Della Pietra, S., Della Pietra, V., Jelinek, F., Lafferty, J., Mercer, R. and Roossin, P.: A statistical approach to machine translation, Computational Linguistics, Vol. 16, No. 2, pp. 79-85（1990）

[Brown 93] Brown, Della Pietra, S., Della Pietra, V. and Mercer, R.: The mathematics of statistical machine translation: Parameter estimation, Computational Linguistics, Vol. 19, No. 2, pp. 263-311（1993）

[Church 90] Church, K. and Hanks, P.: Word association norms, Mutual information and lexicography, Computational

Linguistics, Vol. 16, No. 1, pp. 22-29（1990）

[Collobert 08] Collobert, R. and Weston, J.: A unified architecture for natural language processing: Deep neural networks with multitask learning, Int. Conf. on Machine Learning（2008） [Colmerauer 78] Colmerauer, A.: Metamorphosis grammars,

Natural Language Communication with Computers, pp.

133-189（1978）

[Dowty 81] Dowty, D. R., Wall, R. E. and Peters, S.: Introduction

to Montague Semantics, Kluwer Academic Publishers（1981）

[Fellbaum 98] Fellbaum, C., Miller, G.: WordNet: An Electronic

Lexical Database, A Bradford Book （1998）

[Ferrucci 10] Ferrucci, D., et al: Building Watson: An overview of the DeepQA Project, AI Magazine, Vol. 31, No. 3, pp. 59-79 （2010）

[渕 77] 渕一博：述語論理的プログラミング─ EPILOG の提案─ ,

情処学第 1 回記号処理研究会（1977）

[Gazdar 85] Gazdar, G., et al.: Generalized Phrase Structure

Grammar, Blackwell（1985）

[Gunji 87] Gunji, T.: Japanese Phrase Structure Grammar: A

Unification-based Approach, Riedel Publishing Company

（1987）

[Hofmann 99] Hofmann, T.: Probabilistic latent semantic analysis, Uncertainty in Artificial Intelligence, pp. 289-296 （1999）

[飯田 10] 飯田龍，小町守，井之上直也，乾健太郎，松本裕治：述語項構造と照応関係のアノテーション：NAIST テキストコーパス構築の経験から，自然言語処理，Vol. 17, No. 2, pp. 25-50（2010） [Jackendoff 90] Jackendoff, R.: Semantic Structures, The MIT

Press（1990）

[Kaplan 82] Kaplan, R. M. and Bresnan, J.: Lexical-functional grammar: A formal system for grammatical representation, Bresnan, J., ed., The Mental Representation of Grammatical

Relations, Chapter 4, pp. 173-281, MIT Press（1982） [Kifer 95] Kifer, M., Lausen, G. and Wu, J.: Logical foundation of

object-oriented and frame-based languages, J. ACM, Vol. 42, No. 4, pp. 741-843（1995）

[黒橋 97] 黒橋禎夫，長尾真：京都大学テキストコーパス・プロジェクト，言処学第 3 回年次大会予稿集，D1-1（1997）

[Lee 99] Lee, L.: Measures of distributional similarity, 37th

Annual Meeting of the Association for Computational Linguistics, pp. 25-32（1999）

[Marcus 93] Marcus, M., Santorini, B. and Marcinkiewicz, M.: Building a large annotated corpus of english: The Penn treebank, Computational Linguistics, Vol. 19, No. 2, pp. 313-330（1993）

[Matsumoto 83] Matsumoto, Y., et al.: BUP: A bottom-up parser embedded in prolog, New Generation Computing, Vol. 1, No. 2, pp. 145-158, Springer（1983）

[Matsumoto 87] Matsumoto, Y.: A parallel parsing system for natural language analysis, New Generation Computing, Vol. 5, No. 1, pp. 53-78, Springer（1987）

[Okumura 87] Okumura, A. and Matsumoto, Y.: Parallel programming with layered streams, Int. Symposium on Logic

Programming, pp. 224-232（1987）

[Palmer 05] Palmer, M., Kingsbury, P. and Gildea, D.: The proposition bank: An annotated corpus of semantic roles,

Computational Linguistics, Vol. 31, No. 1, pp. 71-106（2005） [Papineni 02] Papineni, K., Roukos, S., Ward, T. and Zhu, W.:

BLEU: A method for automatic evaluation of machine translation, 40th Annual Meeting of the Association for

Computational Linguistics, pp. 311-318（2002）

[Pereira 80] Pereira, F. and Warren, D.: Definite clause grammars for language analysis - A survey of the formalism and a comparison with augmented transition networks, Artificial

Intelligence, Vol. 13, No. 3, pp. 231-278（1980）

[Pereira 83] Pereira, F. and Warren, D.: Parsing as deduction,

21st Annual Meeting of the Association for Computational Linguistics, pp. 137-144（1983）

[Pollard 87] Pollard, C. and Sag, I. A.: Information-based

Syntax and Semantics, Vol. 1: Fundamentals, Stanford: CSLI

Publications（1987）

[Prasad 08] Prasad, R., Dinesh, N, Lee, A., Miltsakaki, E., Robaldo, L., Joshi, A. and Webber, B.: The Penn discourse treebank 2.0, 6th Int. Conf. on Language Resources and

Evaluation（2008）

[Pustejovsky 95] Pustejovsky, J.: The Generative Lexicon, MIT Press（1995）

[Sag 03] Sag, I. A., Wasow, T. and Bender, E.: Syntactic Theory: A

Formal Introduction, 2nd Edition, University of Chicago Press

（2003）

[Shieber 84] Shieber, S. M.: The design of a computer language for linguistic information, 10th Int. Conf. on Computational

Linguistics and 22nd Annual Meeting of the Association for Computational Linguistics, pp. 362-366（1984）

[Socher 13] Socher, R., Perelygin, A., Wu, J., Chuang, J., Manning, C., Ng, A. and Potts, C.: Recursive deep models for

(7)

semantic compositionality over a sentiment treebank, Conf. on

Empirical Methods in Natural Language Processing, pp.

1631-1642（2013）

[Tsubaki 13] Tsubaki, M., Duh, K., Shimbo, M. and Matsumoto, Y.: Modeling and learning semantic co-compositionality through prototype projections and neural networks, Conf. on

Empirical Methods in Natural Language Processing, pp.

130-140（2013）

[Yokota 89] Yokota, K. and Nishio, S.: Towards integration of deductive databases and object-oriented databases ─ A limited survey, Advanced Database System Symposium（1989）

2014年 1 月 29 日　受理松本　裕治（正会員） 1977年京都大学工学部情報工学科卒業．1979 年同大学院工学研究科修士課程情報工学専攻修了．同年，電子技術総合研究所入所．1984 ～ 85 年英国インペリアルカレッジ客員研究員．1985 ～ 87 年（財）新世代コンピュータ技術開発機構に出向．京都大学助教授を経て，1993 年より奈良先端科学技術大学院大学教授，現在に至る．工学博士．専門は自然言語処理． 2007年度本学会業績賞．情報処理学会，言語処理学会，認知科学会，計量国語学会，AAAI，ACL，ACM 各会員．情報処理学会フェロー．ACL Fellow．

自然言語処理から見た第五世代コンピュータと未来(<特集>第五世代コンピュータと人工知能の未来)

1．は じ め に

2. 第五世代当時の自然言語処理