• 検索結果がありません。

自然言語処理技術の現状と展望 -エラー分析プロジェクトを通して-:[基礎技術]3.2 構文解析

N/A
N/A
Protected

Academic year: 2021

シェア "自然言語処理技術の現状と展望 -エラー分析プロジェクトを通して-:[基礎技術]3.2 構文解析"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)河原大輔(京都大学) 自然言語処理技術の現状と展望 エラー分析プロジェクトを通して. 基応 専般. 3.2 構文解析 構文解析とは. 河原 大輔(京都大学). 文は語の並びであり,語と語の間には構造があ 構文解析とは. (2) クロールで 泳いでいる 女の子を 見た. (3) 望遠鏡で 泳いでいる 女の子を 見た 係り先が異なっており,(2)では「見た」,(3)で. る.語間の構造は構文と呼ばれ,これを解析する  文は語の並びであり,語と語の間には構造がある.. は「泳いでいる」に係る.これらを正しく解析する この二文では, 「クロールで」と「望遠鏡で」の係. 語間の構造は構文と呼ばれ,これを解析する処理は 処理は構文解析と呼ばれる.構文の表現形式の代. ためには,後述する語彙的選好知識が必要である. り先が異なっており,(2) では「見た」,(3) では. 構文解析と呼ばれる.構文の表現形式の代表例とし 表例として,句構造と係り受け構造がある.これ. 解析手法 めには,後述する語彙的選好知識が必要である.. て,句構造と係り受け構造がある.これまで,英語 まで,英語では句構造を中心に,日本語では係り では句構造を中心に,日本語では係り受け構造を中 受け構造を中心に研究が進められてきた.本節で 心に研究が進められてきた.本稿では,日本語の係 は,日本語の係り受け構造の解析,すわなち係り り受け構造の解析,すなわち係り受け解析について 受け解析について述べる. 述べる. 係り受け構造は,二つの要素間 (単語や句) の係  係り受け構造は,2 つの要素間(単語や句)の係 り受け関係の集合として文をとらえたものである. り受け関係の集合として文をとらえたものである.. 日本語における係り受け関係は,通常,文節を単 日本語における係り受け関係は,通常,文節を単位 位とし,二つの文節間の関係と考える. 2 つの文節間の関係と考える. とし,.   (1) 女の子が クロールで 泳ぐ. 「泳いでいる」に係る.これらを正しく解析するた.  係り受け解析の手法としては,以前は係り受け規 則,選好を人手で記述していたが,現在では機械学. 解析手法 習をすることが主流である.機械学習は,正解係り 受け情報を人手で付与したタグ付きコーパスを用い 係り受け解析の手法としては,以前は係り受け て行う.日本語の係り受け構造のタグ付きコーパス 規則,選好を人手で記述していたが,現在では機 としては,京都大学テキストコーパス☆ 1 がよく利 械学習することが主流である.機械学習は,正解 用されている. 係り受け情報を人手で付与したタグ付きコーパス  機械学習手法は,このようなコーパスから,「名 を用いて行う.日本語の係り受け構造のタグ付き 詞は動詞に係ることができる」「距離が近い文節に コーパスとしては,京都大学テキストコーパス 1 係りやすい」といった文法的な傾向を学習している.. がよく利用されている. しかし, タグ付きコーパスは数万文規模であり, 「ク. この文は, 「女の子が」 「クロールで」 「泳ぐ」と  この文は, 「女の子が」 「クロールで」 「泳ぐ」と. " 泳ぐ」や「望遠鏡で " 見る」のよう 「名 ロールで 機械学習手法は,このようなコーパスから,. いう三つの文節からなり,係り受け構造は, 「女の 3 つの文節からなり,係り受け構造は, 「女の いう. な語彙的な選好を学習することは難しい.この問題 詞は動詞に係ることができる」 「距離が近い文節に. " 泳ぐ」 "泳ぐ」という二つの 子が → 泳ぐ」 「クロールで → 泳ぐ」という 2 つの 「クロールで. については後述する. 係りやすい」といった文法的な傾向を学習してい  日本語係り受け解析のツールとしては,KNP ☆ 2, る.しかし,タグ付きコーパスは数万文規模であ CaboCha ☆ 3,J.DepP ☆ 4 などが公開されている.解 り, 「クロールで → 泳ぐ」や「望遠鏡で→見る」の 析精度はいずれも 90% 程度である. ような語彙的な選好を学習することは難しい.こ. 係り受け関係からなる.このように,日本語では, 係り受け関係からなる.このように,日本語では, 文末の文節(上記の例では「泳ぐ」 文末の文節 (上記の例では「泳ぐ」))を除き,係り を除き,係り 元は右側にただ 1 つの係り先を持つ.つまり,日本 元は右側にただ一つの係り先をもつ.つまり,日 語の係り受け関係は左から右への一方向である.ま 本語の係り受け関係は左から右への一方向である. た,日本語では原則として,各係り受け関係は互い また,日本語では原則として,各係り受け関係は に交差しないという特徴を持つ. 互いに交差しないという特徴をもつ.  係り受け解析は,入力文に対してこのような係り 係り受け解析は,入力文に対してこのような係 受け構造を明らかにする処理である.係り受け解析 り受け構造を明らかにする処理である.係り受け が難しい例を次に示す.. 解析が難しい例を次に示す. (2)クロールで 泳いでいる 女の子を 見た (3)望遠鏡で 泳いでいる 女の子を 見た. の問題については後述する. 何が難しいのか. 2 日本語係り受け解析のツールとしては,  係り受け解析の 10% の誤りのうち,次の 3 つがKNP , CaboCha3 ,J.DepP4 などが公開されている.解析 主な誤りである. 1 http://nlp.ist.i.kyoto-u.ac.jp/index.php?京都大. 学テキストコーパス. http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP 1.並列構造の誤り 3 2. https://taku910.github.io/cabocha/. 4 http://www.tkl.iis.u-tokyo.ac.jp/ ynaga/jdepp/ 並列構造は,日本語文中に頻出する表現であり, ~. ☆1. 1☆ 2 ☆3.  この 2 文では,「クロールで」と「望遠鏡で」の. 12. 情報処理 Vol.57 No.1 Jan. 2016. ☆4. http://nlp.ist.i.kyoto-u.ac.jp/index.php? 京都大学テキストコーパス http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP https://taku910.github.io/cabocha/ http://www.tkl.iis.u-tokyo.ac.jp/~ynaga/jdepp/.

(2) 3.2 構文解析. 係り受け構造に直結しているため,並列構造の認. などで,」の係り先として,「参詣する」が他の係. 識およびスコープ同定を誤ると,係り受け解析も. り先候補よりも語彙的に優勢であると考えられる.. 1). 「性格と,」 大きく誤ることになる .次の例では, と「真空調理を」が並列と解析され誤っているが, 「性格と, 」は,「∼と」をとりやすい「かみ合っ ての」に係るのが正解であり,並列構造を構成し ていない. (4)まさに,仕出しという仕事の性格と,真空調 理を× 使ってできる合理化,能率化がうまくかみ 合っての○ 成功である. この文における並列構造は, 「合理化」と「能率化」. (6)旅行などで,日頃馴染みのない寺院や神社 に参詣する○ 際にも,幅広く寺社札を受けて来た と× いうことなのでしょう. この問題は,述語がとり得る名詞の知識(格フレ ームと呼ばれる)を大規模コーパスから学習する ことによってある程度解決できる 2).. 今後の展開.  構文解析は,意味解析や言語処理アプリケーショ. の部分のみである.なお,本稿中の例文の表記と. ンの多くが利用する基盤技術であるため,さらなる. して,太字部を係り元,○下線部を正解の係り先,. 精度向上が望まれる.上記の「正解タグ付けの問題」. ×下線部を自動解析結果の誤り係り先とする.. があるため,100% とはいかないまでも,95% 程度. 2.正解タグ付けの問題. は目標として設定できると考えられる.今後,この 目標を達成するために,大規模な知識の獲得および. 係り受け構造の正解タグ付けは,仕様として,文. 利用や,ニューラルネットワークによる学習などが. 節ごとに 1 つの係り先を決めている.ある文節. 盛んに行われると思われる.また,さまざまなドメ. が,意味的には複数の文節と関係があり,それぞ. インのテキストに対して頑健に解析できることも求. れに係ることができても,正解としてはタグ付け. められており,このためにも,対象ドメインのテキ. 基準に従って 1 つに決める必要がある.そのため,. ストからの知識獲得が重要となる.. 自動解析の係り先が意味的には誤りではなくても, 正解係り先とずれることがある.また,実際問題 として正解タグ付け時の誤りも存在する.次の例 では, 「期間中は」が○下線部と×下線部のどち らとも意味的に関係があるが,正解と自動解析で 係り先が異なっている.. 参考文献 1) Kurohashi, S. and Nagao, M. : A Syntactic Analysis Method of Long Japanese Sentences Based on the Detection of Conjunctive Structures. Computational Linguistics, 20(4) : pp.507-534 (1994). 2) Sasano, R., Kawahara, D. and Kurohashi, S. : The Effect of Corpus Size on Case Frame Acquisition for Discourse Analysis, In Proceedings of NAACL-HLT 2009, pp.521-529 (2009). (2015 年 11 月 2 日受付). (5)この期間中は交通規制などで皆さんにご不便 をおかけしますが,○ ご協力をお願いします.× 3.語彙的選好知識のカバレッジ不足. 語彙的な選好知識がないと,正しい係り先を解析 することが難しい場合がある.次の例では「旅行. 河原 大輔(正会員)[email protected]  2002 年京都大学大学院情報学研究科博士課程単位取得認定退学. 東京大学大学院情報理工学系研究科学術研究支援員,(独)情報通信 研究機構主任研究員を経て,2010 年より京都大学大学院情報学研究 科准教授.自然言語処理,知識処理の研究に従事.博士(情報学) .. 情報処理 Vol.57 No.1 Jan. 2016. 13.

(3)

参照

関連したドキュメント

節の構造を取ると主張している。 ( 14b )は T-ing 構文、 ( 14e )は TP 構文である が、 T-en 構文の例はあがっていない。 ( 14a

この 文書 はコンピューターによって 英語 から 自動的 に 翻訳 されているため、 言語 が 不明瞭 になる 可能性 があります。.. このドキュメントは、 元 のドキュメントに 比 べて

関係委員会のお力で次第に盛り上がりを見せ ているが,その時だけのお祭りで終わらせて

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o

つまり、p 型の語が p 型の語を修飾するという関係になっている。しかし、p 型の語同士の Merge

は,医師による生命に対する犯罪が問題である。医師の職責から派生する このような関係は,それ自体としては

自然言語というのは、生得 な文法 があるということです。 生まれつき に、人 に わっている 力を って乳幼児が獲得できる言語だという え です。 語の それ自 も、 から

関係の実態を見逃すわけにはいかないし, 重要なことは労使関係の現実に視