1.は じ め に
著者自身が新世代コンピュータ開発機構(ICOT: Institute for New Generation Computer Technology)に研究員 として所属したのはプロジェクト中期前半の 1985 年 9 月~ 1987 年 11 月の 2 年 3 か月間だけだったが,1979 年から渕 一博氏(後の ICOT 所長,故人)が室長を務 められていた電子技術総合研究所(現 産業技術総合研 究所)推論機構研究室に勤務し,設立の経緯を間近に 見る機会を得ていた.ICOT 発足の 1982 年に出向する ことは認められなかったが,渕氏の推薦を得て 1984 ~ 85年に英国インペリアルカレッジの Kowalski 教授のグ ループに加わって並列論理型言語による構文解析(パー ジング)*1 の研究を行う機会を得,並列論理型言語に関 係するテーマに携わることができた.1987 年 12 月に電 子技術総合研究所に戻り,翌年京都大学に異動した後も ICOTのいくつかのワーキンググループの委員としてプ ロジェクト終了までさまざまな形で同プロジェクトと関 係をもっていた. 第五世代コンピュータプロジェクトが目指したのは, 論理型プログラミング言語をベースとした並列処理によ る知識情報処理システムの構築であり,自然言語処理は その応用の核と位置付けられていた.著者は,電子技術 総合研究所入所後はずっと自然言語処理の分野にいたも のの,ICOT では自然言語処理担当の 2 研(当時 横井俊 夫室長)ではなく,基礎担当の 1 研(当時 古川康一室長) に所属し,並列論理型言語による自然言語解析と並列プ ログラミングに関する研究を研究テーマとしていた.そ こで本稿では,自然言語処理研究に関して,ある程度客 観的な立場から,第五世代コンピュータプロジェクト当 時とその後の自然言語処理,および今後の自然言語処理 研究や研究を取り巻く環境について述べてみたい.なお, 限られた紙数で ICOT の自然言語処理の詳細や過去 30 年間の自然言語処理を概観するのは不可能なので,大き な流れを中心に,当時とその後の自然言語処理の経緯と ICOTの研究環境について,あくまで著者の私見として 記してみたい.
2. 第五世代当時の自然言語処理
1980年代は,規則に基づく自然言語処理の全盛時代 で,自然言語の文法を記述するためのさまざまな文法理 論が提案された.単一化文法として有名な語彙機能文 法(LFG: Lexical Functional Grammar)[Bresnan 01, Kaplan 82],一般化句構造文法(GPSG: Generalized Phrase Structure Grammar)[Gazdar 85], 主 辞 駆 動句構造文法(HPSG: Head-driven Phrase Structure Grammar)[Pollard 87, Sag 03] などが当時提案された 代表的な文法理論である.ICOT が主催していたいくつ かのワーキンググループの一つでも,郡司隆男氏(当時 大阪大学,現在神戸松蔭女子学院大学教授)を中心とし て,日本語句構造文法 [Gunji 87] の理論的側面の検討が 行われた. 論理型言語 Prolog は確定節(結論部分がただ一つの 正リテラルよりなり,条件部分が正リテラルの連言よ りなる論理式)を基本とするプログラミング言語であ り,その構文が文脈自由文法と同形のため,自然言語の 文法規則と相性が良い.マルセイユ Prolog で実装され た Metamorphosis Grammar [Colmerauer 78] をはじめ として,Definite Clause Grammars(DCG)[Pereira 80],PATR-Ⅱ [Shieber 84] などさまざまな文法記述言 語が提案され,主として Prolog 上で実装された.特に自然言語処理から見た
第五世代コンピュータと未来
The Fifth Generation Computer Systems Project and the Future from the
Perspective of Natural Language Processing
松本 裕治
奈良先端科学技術大学院大学情報科学研究科Yuji Matsumoto Graduate School of Information Science, Nara Institute of Science and Technology. [email protected], http://cl.naist.jp/
Keywords:
natural language processing, unification grammars, linguistic resources, statistical natural language processing.「第五世代コンピュータと人工知能の未来」
*1 自然言語解析の分野では“parsing” を統語解析と呼ぶことが 多いが,本稿ではより一般的な「構文解析」を用いる.
DCGは Dec-10 Prolog 以降の Prolog 処理系に直接埋め 込まれた形で実装されている.
論理式の集合に対してどのような戦略で推論を実行 するかは自由であり,Prolog は確定節のための選択線 形戦略(SLD: Selective Linear Resolution for Definite Clauses)を用いたものであり,その Prolog の処理系が そのまま DCG のトップダウンパーザ*2 として動作した. 一方で,文脈自由文法の構文解析アルゴリズムを確定 節の推論に適用することも可能であり,Earley Parsing アルゴリズムを確定節の推論戦略として用いるアイディ ア [Pereira 83] などが提案された*3.同様に,単一化文 法や論理型言語に基づく文法は,主として文法的な制約 を記述したものであり,どのようなアルゴリズムで解析 されるかには依存しないものであるため,制約に基づく 文法とも呼ばれた. 著者が自然言語処理を始めたのは,論理に基づく言 語理解によって計算機と質問応答を行いたいと考えたた めである.文を論理式に変換するために Montague 文 法 [Dowty 81] の日本語版を実装しようとし,そのため に DCG が向いているということで Prolog を利用し始 めた.Prolog 処理系による DCG のトップダウン解析は それなりに効率が良かったが,バックトラックに基づい ており,長文での非効率性や左再起規則による無限ルー プに陥らないように文法を書かなければならないなど の制限があった.これらの問題を回避するため,DCG で記述された文法規則を一定の方法で変換することで, Prologの処理系をそのまま利用し,途中結果を Prolog に組み込みのデータベースに副作用*4 として格納するこ とにより,同じ句の再計算を抑えたボトムアップパーザ BUP を提案した [Matsumoto 83].その後,インペリア ルカレッジ留学中に,当地で実装されていた並列論理型 言語 PARLOG 上で Chart Parsing を直接実行可能にな るように DCG 文法規則を変換する方法について研究し, 帰国後,ICOT で開発されていた並列論理型言語 GHC (Guarded Horn Clauses)で並列パーザを実装する手法 を提案した [Matsumoto 87].この方法は,動的計画法 で生成される途中結果を階層的なリスト構造に蓄積する ことによって論理型プログラムで嫌われる副作用を利用 せずに動的計画法を実装する方法を示したもので,その 後,層状ストリームによる並列プログラミング法として 一般化した [Okumura 87]. ICOTの自然言語処理研究では,このような言語解析 システム以外に,小学校や中学校の国語の教科書の文章 を理解して質問に答える談話理解システムのプロトタイ プ構築や,談話構造抽出システム,立論テキスト生成シ ステムなど上位の自然言語処理の応用研究も行われた. また,中期から後期にかけては,さまざまな言語処理ツー ルや日本語文法,日本語辞書などの言語資源が構築され た.これらの自然言語処理ツールは,LTB(Language Tool Box)として ICOT Free Software に含まれ,一般 公開されている.また,ICOT の自然言語処理グループ のリーダだった横井俊夫氏が中心となって 1986 年に開 始された EDR 電子化辞書プロジェクトでは,日英単語 辞書,概念辞書,対訳辞書,専門用語辞書に加えて,構 文構造のタグ付けがなされた日本語および英語のコーパ ス(それぞれ 20 万文,12 万文)が構築された. 現在では,学会などで発表された研究成果の多くがフ リーソフトとして公開され,共有されている.また,大 規模タグ付きコーパスの構築の重要性も当時とは比べも のにならないくらい広く認識されている.これらの風潮 を先取りした極めて先見性の高い活動が当時なされたこ とがわかる. 1980年代の自然言語処理は,文法理論とそれに基づ く言語解析以外に,知識表現言語や状況意味論 [Barwise 83]などの関連分野の研究の影響を受けて,詳細な意味 表現や文脈の解析へと深化した時期でもあった.特に, 知識表現については,従来の意味ネットワークなどのグ ラフ表示に基づくいわゆる概念対象の表現と,言明を対 象とする論理表現の融合として,Krypton [Brachman 83]などのハイブリッド型の知識表現法が提案され,
その後の LogIn [Aït-Kaci 86],Quixote [Yokota 89], Frame-Logic [Kifer 95]など項の単一化を拡張した論理 型言語へ発展した.ICOT が推進した論理型言語に基づ く知識情報処理は,このような進展の方向にも少なから ず影響を与えていたと考えられる. 80年代は,自然言語処理の応用として機械翻訳研 究が進展した時期でもあった.京都大学長尾研究室 で 1982 年より 4 年間推進された Mu プロジェクトや Carnegie Mellon大学の機械翻訳センターで遂行された
Knowledge-based Machine Translationプロジェクトな ど世界各地で機械翻訳に関する研究グループが活動し, 変換方式,知識に基づくピボット方式などさまざまな規 則に基づく機械翻訳手法が進展した.国内でも多くの企 業で機械翻訳の研究開発が進められ,製品化された.
3.ICOT の研究環境
その後の自然言語処理の研究経緯について述べる前 に,ICOT の研究環境について書いておきたい. ICOTが計画段階であった頃,この分野に入ったばか りの若手研究者であった著者にでもプロジェクトの研究 *2 文脈自由文法規則の左辺(確定節でも同様)から規則を展開 しながら構文木の構築を試みる方法をトップダウン,逆に規則 の右辺から構文木を構築する方法をボトムアップと呼ぶ. *3 渕 一博氏が 1977 年の情報処理学会記号処理研究会で行った 発表[渕 77] が,Earley Deduction と同様のアイディアを提案 していたことは ICOT 関係者の間ではよく知られている.同発 表は,情報処理学会創立 25 周年記念論文に選定されている. *4 入出力やデータベースなど大局的にアクセスできる値の格納 など非論理的な効果を副作用(side effect)と呼ぶ.ここでは, 途中結果をデータベースに格納する処理のこと.目標が高過ぎるのではないかという驚きがあった.渕氏 に何気なくこの疑問を質問した際に返ってきたのは,研 究計画は予算獲得の方便であり,目標は人材育成という 明確なものだった.実際,ICOT には人材育成のさまざ まな方策が仕組まれていた.これらの多くは,渕氏が考 え,指示されたものだと思う. ICOTに派遣される研究者の平均年齢は 30 歳にする と決められていた.国内の第一線の研究者をメンバとす るワーキンググループを各研究室が一つ以上組織した が,大学からのメンバは 30 歳代までの助教授,助手ク ラスを中心に集めることになっていた.プロジェクトの 計画に沿うものであれば,自由なテーマで研究し,一流 の国際会議に論文投稿することが勧められていた(当 時,日本では海外出張に使える予算は極めて限定され ていた.科研費は国内旅費にしか使えなかった).また, 国際会議で出会った優秀な若手研究者を数週間 ICOT に 招聘するための予算が組まれており,国際会議などで出 会った若手研究者を勧誘することが認められていた.招 聘された研究者は ICOT の若手研究者と共同研究を行 うこととが多かった.それ以外に,関連分野の著名な研 究者を招待する予算があり,論理プログラミングの世界 で名のある研究者のほとんどが一度は ICOT に招待さ れた.このため,ICOT に居ながらにして,毎週のよう に,著名な研究者や新進気鋭の若手研究者の講演を聞く ことができた.研究以外の雑用はすべて事務部門または グループリーダが対応した.研究室長やグループリーダ には極めて有能でカリスマ的な素質をもったメンバがそ ろっており,これも渕氏はじめ ICOT 設立に関わった研 究者の人を見る目があったことを示していると思う. このような環境で,企業から派遣され,最初は論理プ ログラミングの知識がほとんどなかった若手が,ICOT の環境の中で見る見るうちに育っていく姿を何人も目撃 した.大学の教員になることが研究者として育った証に 必ずしもなるわけではないが,ICOT から元の企業,研 究所へ戻ったメンバのうちかなりの人数がその後大学で 職を得ている. このような奇跡の研究環境を現在実現するのは不可能 だと思うが,その何分の一でも実現したいという思いは, 大学に異動して以来著者の中にずっと残っており,研究 室運営のベースとなっている. 第五世代プロジェクトを失敗と結論付けている資料を よく目にするが,少なくとも人材育成の視点からは,こ れほど成功したプロジェクトはほかには見当たらないの ではないだろうか.
4.Post 第五世代の自然言語処理
ICOTが 2 年間の成果普及期間を残して約 11 年の プロジェクトが終了したのが 1992 年だが,この頃に 自然言語処理の分野では大きなパラダイムシフトが 起こった.IBM の統計的機械翻訳に関する seminal papers [Brown 90, Brown 93]が発表されたのがこの時 期であり,また,Ken Church らが大規模コーパスを 用いた相互情報量の言語処理への利用を提唱 [Church90]したのもこの時期である.同時期(1992 年)に
米 国 Pennsylvania 大 学 内 に LDC(Linguistic Data Consortium)が設立され,利用条件を明確にした形で の言語資源の配布が開始された.最初の配布物の一つで ある Penn Treebank [Marcus 93] が,品詞タグ付けや 構文解析の学習およびテストデータとして標準的に使わ れるようになった.1980 年代から開発が始まっていた WordNet [Fellbaum 98]が 90 年代になって公開され, 大規模な英語シソーラスとして広く使われるようになる とともに,他のさまざまな言語の WordNet が構築され るようになった. 1990年代初頭のこのような動きを受けて,自然言語 処理分野は,コーパスおよび統計的手法に基づく研究が 主流となる傾向が加速しつつ現在に至る.この時期にこ のようなパラダイムシフトが起こったのには次の要因が 考えられる. ● 曖昧性解消の問題:論理制約に基づく文法記述と構 文解析では本質的な曖昧性に対処することが難し く,曖昧性爆発を起こすか,より厳しい制約を記述 する必要があったこと. ● 頑健な処理に関する問題:制約条件が厳しすぎる文 法記述は厳格過ぎて,わずかな文法誤りも許容せず 解析結果が得られないことがある.多少の文法誤り にも破綻しない頑健な言語解析を行うことに困難が あったこと. ● 規則の拡張の問題:自然言語処理システムの規模が 大きくなるにつれ,文法規則の規模が増大し,人手 でのメンテナンスが文法開発以上の問題になってい たこと. ● 例外への対応:言語が美しい規則性をもつ反面,言 語現象にはさまざまな例外があり,単純な文法規則 の拡張では,すべての言語現象をカバーする文法を 構築することが難しかったこと. ● 電子化データの増大:電子化された大規模テキス トデータやタグ付けコーパスの出現,および World Wide Webの普及により電子化データの蓄積が急速 に加速されたこと.同時に,このような実データの 解析に対する要望が高まったこと. ● 計算能力の進歩:コンピュータの処理能力や記憶容 量が飛躍的に増大し,それまでディスクに置く以外 に扱えなかったような大規模データ(例えば,新聞 記事数年分のテキストデータ)をすべて主記憶に読 み込んで処理することが問題なく行えるようになっ てきたこと. これらの原因の根本は,制約や規則に基づく文法が, 時には曖昧性爆発を起こして何万もの解析結果を返し,
時には文法的例外や厳しすぎる制約のために解析結果が 得られないという現象の対応に研究者が疲弊していたと いう状況にあり,確率や識別学習により曖昧な結果から の解の優先度計算や頑健な解の選択が可能なため,上記 の問題の多くを解決できるという期待があったためと 考えられる.この風潮が論理型言語を基盤にしていた ICOTの終了時期と符合するのは偶然とはいえ興味深い. コーパスや統計的手法を用いた自然言語処理の高まり に応じて,1993 年に第 1 回の Workshop on Very Large Corpora(WVLC)が ACL(Association for Computational Linguistics)の も と に 結 成 さ れ た SIGDAT(Special Interest Group for linguistic DATa and corpus-based approaches to NLP)によって開催された.その後,同 じグループによって 1996 年に Conference on Empirical Methods in Natural Language Processing(EMNLP) が開催され,両者が 1999 年,2000 年の共同開催を経 て,2001 年からは EMNLP として統合され,現在まで 毎年開催されている.主として ACL の年次会議などと 併設されることが多かったが,2010 年以降はほとんど 単独開催の会議として,採択率 25%程度で,3 ~ 4 並 列のセッションをもち,500 名もの参加者を集める国際 会議に発展するに至っている.機械学習に基づく自然 言語処理では,ACL の別のグループ SIGNLL(Special Interest Group on Natural Language Learning) が 主催する Conference on Natural Language Learning (CoNLL)が 1997 年から毎年開催(数回は EMNLP と 共同開催)されており,同じように学習に基づく自然言 語処理をテーマにしている.特に,1999 年から開始さ れた CoNLL Shared Task では,基本句まとめ上げ(Base Phrase Chunking), 固 有 表 現 認 識(Named Entity Recognition),意味役割付与(Semantic Role Labeling), 多言語依存構造解析(Multi-Lingual Dependency Parsing) など自然言語解析のさまざまな基本タスクが取り上げら れ,共通課題のデータを増やしながら同一タスクを 2 年 連続で対象課題にすることにより,共通の学習データが 蓄積され,それぞれのタスクの研究参入者の増加と手法 の進展に貢献した. 統計的自然言語処理は,1990 年代当初は単純な確率 計算や Naïve Bayes,決定木などの分類学習器が用いら れていたが,現在までには,最大エントロピー法やサポー トベクタマシンなど大規模な素性を扱うことができる学 習器,Boosting などのアンサンブル学習,パーセプトロ ンに基づく MIRA や Passive-Aggressive Algorithm な どのオンライン学習などさまざまな手法が適用されるよ うになっている.また,自然言語の解析は,品詞タグ付 けや構文解析など,単純なラベル分類問題ではなく,解 として構造(品詞列,構文木,翻訳文など)を返す問題 が数多くあるため,構造学習が必要であり,手法として, 動的計画法,グラフアルゴリズム,整数線形計画法など さまざまな手法が最適な構造解析を行うために用いられ るようになっている. タグ付きコーパスの整備もさまざまな研究グループ で進み,Penn Treebank には,当初の構文情報に加え て意味役割を付与した Prop Bank [Palmer 05],文や節 の間の談話関係を付与した Penn Discourse Treebank
[Prasad 08]などが公開されている.意味役割とは述語
(動詞などの用言)と,それに対する必須の項(意味上 の主語や目的語など)との関係を意味し,述語に必要な 項を文脈から特定する処理は述語項構造解析(Predicate Argument Structure Analysis)とも呼ばれる.
国内でも,係受け情報,述語項構造,名詞間の共参 照関係などを付与した京都大学テキストコーパス [黒橋 97]や NAIST テキストコーパス [飯田 10] などのタグ 付きコーパスが公開されている.また,国立国語研究所 が中心となって進められた日本語コーパスプロジェクト (2006 ~ 10 年度)の成果として約 1 億語規模の日本語 コーパス「現代日本語書き言葉均衡コーパス(BCCWJ: Balanced Corpus of Contemporary Written Japanese)*5
が公開されている. 自然言語文の解析では,品詞タグ付け,句構造解析や 依存構造解析などの構文解析,述語項構造解析,照応解 析,共参照解析などさまざまな階層の言語解析法が機械 学習に基づいて研究されてきた.個々の処理については, いかに広い情報(文全体,あるいは文を超えた,大局的 な素性)を扱わせることができるかが問題であり,言語 解析の階層間については,旧来からのパイプライン処理 (一つの層の解析結果を次の層の入力として単純に積み 重ねる方法.誤り伝搬の問題がある)ではなく,誤りの 伝搬を防ぐ手法,あるいは異なる層の処理を同時に行う 手法が研究されている. タグ付けされたデータの大規模化は容易ではないた め,小規模なタグ付きデータに加えて大規模なタグなし データとともに学習を行う半教師付き学習,あるいは大 規模なタグなしデータのみを対象とする教師なし学習の 研究,タグ付きデータとは異なる分野のタグなし言語 データに適用する転移学習や領域適用の手法も研究され ている. また,品詞のセットや文書分類のためのカテゴリー のセットが事前に決まっていればよいが,カテゴリーな どのラベルは人手によって決められることが多く,必ず しも最適のものとはいえない.文書のトピックを潜在 的な変数として,文書や単語のトピックへの所属確率を 推定する LSA(Latent Semantic Analysis)[Hofmann 99]や LDA(Latent Dirichlet Allocation)[Blei 03] な どのトピックモデルやその拡張が広く使われるように なってきている.さらに,単語や表現の意味的類似度を
WordNetなどの既存のシソーラス上で測るのではなく,
大規模コーパスでの使用文脈の類似性によって測る文脈
類似度 [Lee 99] や Deep Neural Net を用いた分散表現 [Collobert 08]の利用など意味情報をカテゴリーではな くベクトルあるいはテンソルとして表現する方法が,さ まざまな自然言語解析の性能向上につながることが期待 されている.また,複数の単語からなる言語表現の構成 的な意味演算を分散表現の上で行う方法も注目を集めて いる [Socher 13, Tsubaki 13]. 自然言語処理の応用分野でも 90 年代以降にさまざ まな進展があった.言語解析システムの高性能化に伴 い,大規模テキストデータの検索を利用した質問応答 (Question Answering),意見情報マイニング(Opinion
Mining, Sentiment Analysisとも呼ばれる)が大きく進 展した.QA については,それまで提案された数多くの アルゴリズムを実装してつくられた IBM Watson が米国 テレビのクイズ番組 Jeopardy! の優勝者二人を破るとい う快挙を遂げたことが記憶に新しい読者も多いだろう. 統計的機械翻訳(SMT)は,IBM モデルが数学的に 明解なモデルだったため,モデルを拡張するためのアラ イメントモデルやフレーズや木構造の利用などさまざ まな手法が取り入れられて着実に進歩するとともに,基 本的なツールが一般に公開された*6.機械翻訳を含む複 雑な自然言語処理応用は,入力文に対するただ一つの 解が存在するわけではなく,その評価が非常に難しい. 2002年に BLEU(Bilingual Evaluation Understudy)
[Papineni 02]という機械翻訳のための評価尺度が提案 されると,この評価尺度の向上を目指して毎年数多くの 研究論文が発表されるようになった.
5.これからの自然言語処理について
ICOTの時代(1980 年代)の自然言語処理が規則に基 づく Rationalism の時代とすると,Post-ICOT の 1990 年代は Empiricism の時代といわれる.90 年代の終わり に,多くの研究者が,21 世紀には再び規則の揺り戻し, あるいは規則と統計の融合が盛んになることを予想した が,揺り戻しや融合が起こっているとはいえない状況の ままに 10 年以上が経過した. しかし,一方で,前章で触れたように,品詞タグ付 けや構文解析の性能は,精度,速度ともかなり進歩し,い ろいろな実応用に耐えられるだけのものに育ってきてい る.初期の統計的手法では,文や文書を単語の集まり (bag-of-words)や単語列として単純に扱ってきた応用タ スクが,近年では,自動解析による構文情報や意味情報 を取り入れるようになってきている.10 年単位で見れば 大きな進展といえるが,例えば,文脈情報の利用となる と応用分野にはほとんど用いられていないに等しい. 遠い未来を予測することは難しいし,あまり意味がな いので,現状として著者が感じていることと未来へ向け た心構えのようなものについて述べようと思う. 統計的自然言語処理を進めながら考えていたことは, 統計的手法はあくまで近似でしかないということであ る.当初は,単語の共起程度は学習できても,内部構造 のようなもの(言い換えれば,構成的な演算が可能な仕 組み)を確率や分類器で学習することは無理であって, 入れ物としての表現(単語や知識を表現するためのスケ ルトン)は人が考えるべきだと思っていた.そのため, HPSGがもつような単語に対する統語的な知識や,語彙 概念構造 [Jackendoff 90],生成語彙 [Pustejovsky 95] の ように意味とそれらの合成を計算可能にする単語の表現 がどうしても必要だと考えていた.その考えは変わって はいないが,どうすれば単語に対して首尾一貫した情報 の記述を行ったり,学習したりできるかがわからないま ま,統計的手法がカバーする範囲が広がってきていると いうのが現状といえる. ICOTに所属していた頃から,研究成果として何を残 すか,何を目標にするかということを考えていた.現状 の自然言語処理で残されてきたものを端的にいえば,い くつかのアルゴリズム,手法の適用のノウハウ,フリー ソフトとして公開されているツール,およびタグ付き コーパスや辞書などの言語データでしかない.特に,デー タとして生き残っているものが,比較的表面的な情報の タグ付きコーパスと表層に近い情報だけをもった辞書や シソーラスに留まっているのがなぜかを考えることが重 要ではないだろうか.前章では触れなかったが,語彙知 識獲得,文間の含意関係認識,事象間の関係認識など語 や概念間の関係獲得の研究が近年行われているが,ここ でも獲得した知識をどのような形で蓄積するかについて はまだ手探りの段階である. 一方,何が研究の目標かということについては,もち ろん,論文を書くことでも名声を得ることでもなく,本 当に正しい解の方向に向かっているかということであろ う.実際にはこれは大変難しく,統計的な手法が最終的 な解の近似というのなら,統計的自然言語は正しい方向 に向かっていないことになる.実際はそうではなく,今 よりも役に立つ何かをつくることが目標なら,多くの統 計的手法はそれに応えてくれている.別の視点からは, 目標を達成するためにむだな(後に残らない)規則や知 識をつくることを避けるべきであり,統計的手法ででき ることを突き詰めることによって,規則が必要な領域を 明らかにすることが重要であろう. 我々は,統計的な手法のみ,規則のみによって目標が 達成できないことは十分に学んでおり,どのようにそれ らを生かすかということが問題になる.規則とデータは 対比されるものではなく,両者が複雑になればなるほど, データに裏付けされた規則,規則に裏付けされたデータ という視点で言語資源の構築を行わなければ,意味のあ る蓄積物とはならないだろう. *6 統計的機械翻訳に関する文献やツールの情報は次のページか ら取得できる.http://www.statmt.org/6.お わ り に
ICOT当時から自然言語処理に携わり,また,ICOT に所属した経験をもつ者として,当時の自然言語処理と その後および今後の自然言語処理について概観した. 自然言語処理研究が大きく舵を切る時代と符合する形 で行われた第五世代コンピュータプロジェクトは,今と なっては目に見える結果を多く残しているように見えな いかもしれないが,明確な方向性と恵まれた研究環境を もったプロジェクトが,当時の知識情報処理分野にどの ような大きな影響を与えたかについては,本特集の古川 氏の解説(pp. 159-165)やほかの方々の解説を参照して いただきたい. このような影響力をもった第五世代コンピュータプ ロジェクトが,40 代半ばの渕氏が立上げの中心となり, 主として 30 代までの中堅研究者と 20 代からプロジェク トに参加した若手研究者によって進められたことは特筆 に値する.形や規模は違っても,同様の研究環境を若手 研究者が経験できる機会が実現されればと思う.◇ 参 考 文 献 ◇
[Aït-Kaci 86] Aït-Kaci, H. and Nasr, R.: A logic programming language with built-in inheritance, J. Logic Programming, Vol. 3, No. 3, pp. 187-215(1986)
[Barwise 83] Barwise, J. and Perry, J.: Situations and Attitudes, MIT Press(1983)
[Blei 03] Blei, D., Ng, A. and Jordan, M.: Latent dirichlet allocation, J. Machine Learning Research, Vol. 3, pp. 993-1022 (2003)
[Brachman 83] Brachman R., Fikes, R. and Levesque, H.: Krypton: A functional approach to knowledge representation,
IEEE Computer, Vol. 16, No. 10, pp. 67-73(1983)
[Bresnan 01] Bresnan, J.: Lexical-Functional Syntax, Blackwell (2001)
[Brown 90] Brown, P., Cocke, J., Della Pietra, S., Della Pietra, V., Jelinek, F., Lafferty, J., Mercer, R. and Roossin, P.: A statistical approach to machine translation, Computational Linguistics, Vol. 16, No. 2, pp. 79-85(1990)
[Brown 93] Brown, Della Pietra, S., Della Pietra, V. and Mercer, R.: The mathematics of statistical machine translation: Parameter estimation, Computational Linguistics, Vol. 19, No. 2, pp. 263-311(1993)
[Church 90] Church, K. and Hanks, P.: Word association norms, Mutual information and lexicography, Computational
Linguistics, Vol. 16, No. 1, pp. 22-29(1990)
[Collobert 08] Collobert, R. and Weston, J.: A unified architecture for natural language processing: Deep neural networks with multitask learning, Int. Conf. on Machine Learning(2008) [Colmerauer 78] Colmerauer, A.: Metamorphosis grammars,
Natural Language Communication with Computers, pp.
133-189(1978)
[Dowty 81] Dowty, D. R., Wall, R. E. and Peters, S.: Introduction
to Montague Semantics, Kluwer Academic Publishers(1981)
[Fellbaum 98] Fellbaum, C., Miller, G.: WordNet: An Electronic
Lexical Database, A Bradford Book (1998)
[Ferrucci 10] Ferrucci, D., et al: Building Watson: An overview of the DeepQA Project, AI Magazine, Vol. 31, No. 3, pp. 59-79 (2010)
[渕 77] 渕一博:述語論理的プログラミング─ EPILOG の提案─ ,
情処学第 1 回記号処理研究会(1977)
[Gazdar 85] Gazdar, G., et al.: Generalized Phrase Structure
Grammar, Blackwell(1985)
[Gunji 87] Gunji, T.: Japanese Phrase Structure Grammar: A
Unification-based Approach, Riedel Publishing Company
(1987)
[Hofmann 99] Hofmann, T.: Probabilistic latent semantic analysis, Uncertainty in Artificial Intelligence, pp. 289-296 (1999)
[飯田 10] 飯田 龍,小町 守,井之上直也,乾健太郎,松本裕治:述 語項構造と照応関係のアノテーション:NAIST テキストコーパ ス構築の経験から,自然言語処理,Vol. 17, No. 2, pp. 25-50(2010) [Jackendoff 90] Jackendoff, R.: Semantic Structures, The MIT
Press(1990)
[Kaplan 82] Kaplan, R. M. and Bresnan, J.: Lexical-functional grammar: A formal system for grammatical representation, Bresnan, J., ed., The Mental Representation of Grammatical
Relations, Chapter 4, pp. 173-281, MIT Press(1982) [Kifer 95] Kifer, M., Lausen, G. and Wu, J.: Logical foundation of
object-oriented and frame-based languages, J. ACM, Vol. 42, No. 4, pp. 741-843(1995)
[黒橋 97] 黒橋禎夫,長尾 真:京都大学テキストコーパス・プロジ ェクト,言処学第 3 回年次大会予稿集,D1-1(1997)
[Lee 99] Lee, L.: Measures of distributional similarity, 37th
Annual Meeting of the Association for Computational Linguistics, pp. 25-32(1999)
[Marcus 93] Marcus, M., Santorini, B. and Marcinkiewicz, M.: Building a large annotated corpus of english: The Penn treebank, Computational Linguistics, Vol. 19, No. 2, pp. 313-330(1993)
[Matsumoto 83] Matsumoto, Y., et al.: BUP: A bottom-up parser embedded in prolog, New Generation Computing, Vol. 1, No. 2, pp. 145-158, Springer(1983)
[Matsumoto 87] Matsumoto, Y.: A parallel parsing system for natural language analysis, New Generation Computing, Vol. 5, No. 1, pp. 53-78, Springer(1987)
[Okumura 87] Okumura, A. and Matsumoto, Y.: Parallel programming with layered streams, Int. Symposium on Logic
Programming, pp. 224-232(1987)
[Palmer 05] Palmer, M., Kingsbury, P. and Gildea, D.: The proposition bank: An annotated corpus of semantic roles,
Computational Linguistics, Vol. 31, No. 1, pp. 71-106(2005) [Papineni 02] Papineni, K., Roukos, S., Ward, T. and Zhu, W.:
BLEU: A method for automatic evaluation of machine translation, 40th Annual Meeting of the Association for
Computational Linguistics, pp. 311-318(2002)
[Pereira 80] Pereira, F. and Warren, D.: Definite clause grammars for language analysis - A survey of the formalism and a comparison with augmented transition networks, Artificial
Intelligence, Vol. 13, No. 3, pp. 231-278(1980)
[Pereira 83] Pereira, F. and Warren, D.: Parsing as deduction,
21st Annual Meeting of the Association for Computational Linguistics, pp. 137-144(1983)
[Pollard 87] Pollard, C. and Sag, I. A.: Information-based
Syntax and Semantics, Vol. 1: Fundamentals, Stanford: CSLI
Publications(1987)
[Prasad 08] Prasad, R., Dinesh, N, Lee, A., Miltsakaki, E., Robaldo, L., Joshi, A. and Webber, B.: The Penn discourse treebank 2.0, 6th Int. Conf. on Language Resources and
Evaluation(2008)
[Pustejovsky 95] Pustejovsky, J.: The Generative Lexicon, MIT Press(1995)
[Sag 03] Sag, I. A., Wasow, T. and Bender, E.: Syntactic Theory: A
Formal Introduction, 2nd Edition, University of Chicago Press
(2003)
[Shieber 84] Shieber, S. M.: The design of a computer language for linguistic information, 10th Int. Conf. on Computational
Linguistics and 22nd Annual Meeting of the Association for Computational Linguistics, pp. 362-366(1984)
[Socher 13] Socher, R., Perelygin, A., Wu, J., Chuang, J., Manning, C., Ng, A. and Potts, C.: Recursive deep models for
semantic compositionality over a sentiment treebank, Conf. on
Empirical Methods in Natural Language Processing, pp.
1631-1642(2013)
[Tsubaki 13] Tsubaki, M., Duh, K., Shimbo, M. and Matsumoto, Y.: Modeling and learning semantic co-compositionality through prototype projections and neural networks, Conf. on
Empirical Methods in Natural Language Processing, pp.
130-140(2013)
[Yokota 89] Yokota, K. and Nishio, S.: Towards integration of deductive databases and object-oriented databases ─ A limited survey, Advanced Database System Symposium(1989)
2014年 1 月 29 日 受理 松本 裕治(正会員) 1977年京都大学工学部情報工学科卒業.1979 年同 大学院工学研究科修士課程情報工学専攻修了.同年, 電子技術総合研究所入所.1984 ~ 85 年英国インペ リアルカレッジ客員研究員.1985 ~ 87 年(財)新 世代コンピュータ技術開発機構に出向.京都大学助 教授を経て,1993 年より奈良先端科学技術大学院大 学教授,現在に至る.工学博士.専門は自然言語処理. 2007年度本学会業績賞.情報処理学会,言語処理学会,認知科学会,計 量国語学会,AAAI,ACL,ACM 各会員.情報処理学会フェロー.ACL Fellow.