自然言語処理技術の現状と展望 -エラー分析プロジェクトを通して-:[基礎技術]3.2 構文解析
2
0
0
全文
(2) 3.2 構文解析. 係り受け構造に直結しているため,並列構造の認. などで,」の係り先として,「参詣する」が他の係. 識およびスコープ同定を誤ると,係り受け解析も. り先候補よりも語彙的に優勢であると考えられる.. 1). 「性格と,」 大きく誤ることになる .次の例では, と「真空調理を」が並列と解析され誤っているが, 「性格と, 」は,「∼と」をとりやすい「かみ合っ ての」に係るのが正解であり,並列構造を構成し ていない. (4)まさに,仕出しという仕事の性格と,真空調 理を× 使ってできる合理化,能率化がうまくかみ 合っての○ 成功である. この文における並列構造は, 「合理化」と「能率化」. (6)旅行などで,日頃馴染みのない寺院や神社 に参詣する○ 際にも,幅広く寺社札を受けて来た と× いうことなのでしょう. この問題は,述語がとり得る名詞の知識(格フレ ームと呼ばれる)を大規模コーパスから学習する ことによってある程度解決できる 2).. 今後の展開. 構文解析は,意味解析や言語処理アプリケーショ. の部分のみである.なお,本稿中の例文の表記と. ンの多くが利用する基盤技術であるため,さらなる. して,太字部を係り元,○下線部を正解の係り先,. 精度向上が望まれる.上記の「正解タグ付けの問題」. ×下線部を自動解析結果の誤り係り先とする.. があるため,100% とはいかないまでも,95% 程度. 2.正解タグ付けの問題. は目標として設定できると考えられる.今後,この 目標を達成するために,大規模な知識の獲得および. 係り受け構造の正解タグ付けは,仕様として,文. 利用や,ニューラルネットワークによる学習などが. 節ごとに 1 つの係り先を決めている.ある文節. 盛んに行われると思われる.また,さまざまなドメ. が,意味的には複数の文節と関係があり,それぞ. インのテキストに対して頑健に解析できることも求. れに係ることができても,正解としてはタグ付け. められており,このためにも,対象ドメインのテキ. 基準に従って 1 つに決める必要がある.そのため,. ストからの知識獲得が重要となる.. 自動解析の係り先が意味的には誤りではなくても, 正解係り先とずれることがある.また,実際問題 として正解タグ付け時の誤りも存在する.次の例 では, 「期間中は」が○下線部と×下線部のどち らとも意味的に関係があるが,正解と自動解析で 係り先が異なっている.. 参考文献 1) Kurohashi, S. and Nagao, M. : A Syntactic Analysis Method of Long Japanese Sentences Based on the Detection of Conjunctive Structures. Computational Linguistics, 20(4) : pp.507-534 (1994). 2) Sasano, R., Kawahara, D. and Kurohashi, S. : The Effect of Corpus Size on Case Frame Acquisition for Discourse Analysis, In Proceedings of NAACL-HLT 2009, pp.521-529 (2009). (2015 年 11 月 2 日受付). (5)この期間中は交通規制などで皆さんにご不便 をおかけしますが,○ ご協力をお願いします.× 3.語彙的選好知識のカバレッジ不足. 語彙的な選好知識がないと,正しい係り先を解析 することが難しい場合がある.次の例では「旅行. 河原 大輔(正会員)[email protected] 2002 年京都大学大学院情報学研究科博士課程単位取得認定退学. 東京大学大学院情報理工学系研究科学術研究支援員,(独)情報通信 研究機構主任研究員を経て,2010 年より京都大学大学院情報学研究 科准教授.自然言語処理,知識処理の研究に従事.博士(情報学) .. 情報処理 Vol.57 No.1 Jan. 2016. 13.
(3)
関連したドキュメント
節の構造を取ると主張している。 ( 14b )は T-ing 構文、 ( 14e )は TP 構文である が、 T-en 構文の例はあがっていない。 ( 14a
この 文書 はコンピューターによって 英語 から 自動的 に 翻訳 されているため、 言語 が 不明瞭 になる 可能性 があります。.. このドキュメントは、 元 のドキュメントに 比 べて
関係委員会のお力で次第に盛り上がりを見せ ているが,その時だけのお祭りで終わらせて
本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o
つまり、p 型の語が p 型の語を修飾するという関係になっている。しかし、p 型の語同士の Merge
は,医師による生命に対する犯罪が問題である。医師の職責から派生する このような関係は,それ自体としては
自然言語というのは、生得 な文法 があるということです。 生まれつき に、人 に わっている 力を って乳幼児が獲得できる言語だという え です。 語の それ自 も、 から
関係の実態を見逃すわけにはいかないし, 重要なことは労使関係の現実に視