• 検索結果がありません。

自然言語処理技術の現状と展望 -エラー分析プロジェクトを通して-:[基礎技術]3.7 知識獲得

N/A
N/A
Protected

Academic year: 2021

シェア "自然言語処理技術の現状と展望 -エラー分析プロジェクトを通して-:[基礎技術]3.7 知識獲得"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)自然言語処理技術の現状と展望 エラー分析プロジェクトを通して. 基応 専般. 3.7 知識獲得 柴田 知秀(京都大学). 知識獲得とは. ることができる.たとえば格フレームの場合,「男. 計算機によるテキスト解析やアプリケーションを. が犯罪を犯した」 「彼が犯罪を犯した」のような表. 高度化するためには,人間が持っている常識的な知. 現が多数現れることをもとに,それらをクラスタリ. 識を計算機に与えなければならない.文法や基本的. ングすることにより,知識を獲得することができる.. な語に関する知識はある程度人手で記述できるが,. Winograd Schema Challenge. 固有名詞に関する知識や語と語の関係などは人手で 記述しきれないので,自動獲得する必要がある.知 識のタイプとしてはさまざまなものが考えられるが,. ある.システムが獲得した知識の中からランダムに. 以下のようなものが挙げられる.. サンプリングして精度を算出し,その精度が高かっ. ・ 同義・上位下位:同じ意味を表すものや,ある語. たとしても,必ずしも獲得された知識がほかのタス. がある語の上位/下位概念を表すもの. クで有用であるとはいえない.そこで,獲得した知. 例)MacBook Air = MBA →ノートパソコン. 識をあるタスクに適用し,その精度が向上するかに. ・ 固有表現:人名,地名,組織名など. よって知識の有用性を確認することが考えられる.. 例)ネイマール:人名,バンプレスト:組織名. 近年,常識的な知識の獲得を評価するものとして,. ・ 格フレーム: 「誰が何をどうした」という名詞と. Winograd Schema Challenge(以降,WSC と呼ぶ). 動詞の間の関係. という評価セットが構築されている 1),2).日本語. 例){人, 男, 彼}が{犯罪,犯行} を犯す. の WSC の例を表 -1 に示す.この評価セットは照. 「誰が何をどうする」) ・ 事態間知識:2 つの事態(. 応解析と呼ばれるタスクであり,たとえば,表 -1. の間の関係. “ 「誰が何をどうする」としばしば「誰. の(1-a)の問題では,“彼女”(照応詞と呼ばれる). が何をどうする」”という時間経過の関係や, “「誰. に対して,“デビー”と“ティナ”(先行詞候補と呼. が何をどうした」結果, 「誰が何をどうする」”と. ばれる)が与えられ,“彼女”が“ティナ”を指し. いう因果関係などが含まれる.. ていることをシステムが正しく認識できるかどうか. 例 )X:{男, 容疑者}が犯罪を犯す⇒X:{男, 容疑. が問われる.この評価セットでは,常識的な知識が. ☆1. 必要な問題が集められており,上記の問題では, 「X. 知識獲得の方法. さんが Y さんに水をかけると,Y さんがびしょび. 知識獲得源としては大規模な Web テキストや. ー分析ワークショップでは日本語 WSC を題材とし,. Wikipedia などが挙げられる.構造化されたテキス. 必要な知識の分析と現状の知識獲得の誤り分析を行. トからはパターン,もしくはルールを用いて知識を. った.. 者} が逮捕される. 獲得することができる.構造化されていない大規模 テキストからは共起関係を手がかりに知識を獲得す ☆1. 22. 知識獲得の研究において難しいのは評価の問題で. 左辺の X と右辺の X は対応付いていることを示す.. 情報処理 Vol.57 No.1 Jan. 2016. しょになる」という事態間知識が必要となる.エラ.

(2) 3.7 知識獲得. (1-a). デビーがティナに水をかけた.. 彼女はびしょびしょになった.. (1-b). デビーがティナに水をかけた.. 彼女はめんどうをおこしたのだ.. (2-a). 猫は犬より賢い.. 彼らは理由なく吠えるからだ.. (2-b). 猫は犬より賢い.. 彼らはいつも足から着地するからだ.. (3-a). 男は隣人の自転車を盗んだ.. 彼は 1 台必要だったからだ.. (3-b). 男は隣人の自転車を盗んだ.. 彼が 1 台余分に持っていたからだ.. 表 -1 日本語 WSC の例(下線を引いた語は先行詞候補,太字の語は正解,波線を引いた語は照応詞を示す). 必要な知識の分析と現状. 3.難問(29). 日本語 WSC を分析したところ,問題を解くため. たとえば,(3-a)や(3-b)のような問題を解. に必要な知識は以下のように分類できることが分か. くには複数の知識を組み合わせる推論を必要と. った(下記で括弧内の数字は 100 問あたりの問題数. し,現状の技術では大変難しい問題である.. を示す) .それぞれの知識とその知識獲得の現状を. 現在の知識獲得技術ではまだ 60% 強ほどしか解. 述べる.. けていない.詳細については参考文献 2)を参照せよ.. 1.選択選好(26) 選択選好とは,ある動詞のある格( 「が」「を」 「に」など)がどのような名詞をとりやすいかと. 今後の展望. 常識的な知識獲得はまだまだ始まったばかりで,. いう知識のことをいう.たとえば,動詞「吠える」. 今後,知識獲得の精度を上げることもさることなが. の「が」は,「猫」よりも「犬」の方をとりやす. ら,どれくらいの知識が必要なのか,どのような粒. いというもので,この知識を用いることにより,. 度で知識を獲得すればいいのかなど,課題がたくさ. 表 -1 の(2-a)の問題を解くことができる.選択. んある.常識的な知識獲得が進み,ここに紹介した. 選好は格フレームという形で精度高く自動獲得. 問題が結構解けるようになると,言語処理が一段進. されている.. んだと言えるであろう.. 2.事態間知識(22) 事態間知識は最初に挙げたとおり, 「誰が何を どうする」としばしば「誰が何をどうする」と いう関係で,以下のような知識を用いることで, 表 -1 の(1-a)の問題を解くことができる.. 参考文献 1) Levesque, H. J. : The Winograd Schema Challenge. In AAAI Spring Symposium: Logical Formalizations of Commonsense Reasoning (2011). 2) 柴田知秀,小浜翔太郎,黒橋禎夫:日本語 Winograd Shema Challenge の構築と分析,言語処理学会第 21 回年次大会論文 集,pp.493-496 (2015). (2015 年 10 月 6 日受付). X:{私, 彼,...}がY:{彼女, ...}に水をかける ⇒Y:{彼女, ...} がびしょびしょになる 事態間知識を Web から自動獲得する研究があ るが,精度はそれほど高くなく,また,カバレ ッジが十分ではないのが現状である.. 柴田 知秀(正会員)[email protected] 2007 年東京大学大学院情報理工学系研究科博士課程修了.博士(情 報理工学).2014 年より京都大学大学院情報学研究科特定講師,現在 に至る.自然言語処理,特に知識獲得や情報検索の研究に従事.言語 処理学会,ACL 各会員.. 情報処理 Vol.57 No.1 Jan. 2016. 23.

(3)

参照

関連したドキュメント

3月6日, 認知科学研究グループが主催す るシンポジウム「今こそ基礎心理学:視覚 を中心とした情報処理研究の最前線」を 開催しました。同志社大学の竹島康博助 教,

会員 工博 金沢大学教授 工学部土木建 設工学科 会員Ph .D金 沢大学教授 工学部土木建 設工学科 会員 工修 三井造船株式会社 会員

会 員 工修 福井 高専助教授 環境都市工学 科 会員 工博 金沢大学教授 工学部土木建設工学科 会員Ph .D.金 沢大学教授 工学部土木建設 工学科 会員

東京大学 大学院情報理工学系研究科 数理情報学専攻. [email protected]

情報理工学研究科 情報・通信工学専攻. 2012/7/12

大谷 和子 株式会社日本総合研究所 執行役員 垣内 秀介 東京大学大学院法学政治学研究科 教授 北澤 一樹 英知法律事務所

⑹外国の⼤学その他の外国の学校(その教育研究活動等の総合的な状況について、当該外国の政府又は関

理工学部・情報理工学部・生命科学部・薬学部 AO 英語基準入学試験【4 月入学】 国際関係学部・グローバル教養学部・情報理工学部 AO