• 検索結果がありません。

Files Project Next NLP err ws pas 20140903

N/A
N/A
Protected

Academic year: 2018

シェア "Files Project Next NLP err ws pas 20140903"

Copied!
13
0
0

読み込み中.... (全文を見る)

全文

(1)

述語項構造タスク

松林優一郎 (東北大学)

(2)

• 複雑な文構造を、述語とそれ関わる構成

要素の簡潔な構造に整理する技術

[ 太郎 ] が 書いた [ 手紙 ]

述語項構造

ヲ格主題

書かれる物 ガ格動作主

書き手

述語

2

(3)

• 「太郎の結婚は3年前にさかのぼる。きっかけは、たま たま入ったサークルで、同級生、花子に出会ったこと だった」

格関係認識+ゼロ照応解析

3

太郎の 結婚は 3年前に さかのぼる。(その) きっかけは、

(〜が) たまたま 入った サークルで、

(〜が) 同級生、花子に 出会った こと だった。

A is ~

~ is B

   

項構造照応関係

同格・コピュラ

(4)

• 「太郎の結婚は3年前にさかのぼる。きっかけは、たま たま入ったサークルで、同級生、花子に出会ったこと だった」

格関係認識+ゼロ照応解析

4

太郎の 結婚は 3年前に さかのぼる。(その) きっかけは、

(〜が) たまたま 入った サークルで、

(〜が) 同級生、花子に 出会った こと だった。

A is ~

~ is B

   

項構造照応関係

同格・コピュラ

(5)

述語項構造解析の現状

解析精度(新聞記事)

– 統語係り受け解析で直接係り受け関係が認め

られる事例:90%〜

ゼロ照応:〜40%

• システム横断的な評価ができていない

複数の表現形式

• 京大形式:述語出現形に対する表層格

• NAIST 形式:述語原形に対する表層格

テスト環境の整備不足

• 評価アルゴリズムに関する共通認識がない

(6)

ワークショップでの目標

• システム横断的な評価・エラー分析

– データフォーマット・評価スクリプトの統一

– 参加者システム個別のエラー分析

– 事例ベースの手がかり分析・システム結果比較

• 現状のコーパス・解析器が、項構造解析が解

くべき現象を網羅しているか検証する

新聞以外のドメイン

– マイナーだが認識されている特殊な現象

(7)

参加者

• 林部 祐太(京都大学)

• 吉野 幸一郎(京都大学)

• 松林 優一郎(東北大学)

中山 周(東北大学)

(8)

複数ドメインに対する評価

• 評価データ: BCCWJ Core-A (東工大・飯田氏提供)

– 22 文章 1625 文 (OC 以外 ) + OC (数未定)

• OW: 2記事

• OY: 6記事

• PB:6記事

• PM:4記事

• PN:4記事

– NAIST テキストコーパス形式

• 参加システムの個別分析

システム横断的な分析

• ドメインごとの傾向・現象の分布把握

(9)

分析方法

1. 各システムのエラー事例を中心に分析

2. テストデータの一部に手がかりに関するラベルを人

手付与する

ラベル(試作中)

制御動詞・繰り上げ動詞構文

機能動詞構文

並列構造理解

発話者/対話者が分かる表現あり

強い選択選好

談話関係理解が必要

どのタイプの問題が現状解けるのか、解けないのか

人間であれば手がかりが説明できるものがどれ程あるか

現状でタイプが明確に説明できるものと説明できないものを弁別

(10)

アノテーションマニュアルを用いた

現象網羅性の検証(京大・林部)

• マニュアル内のタグ付け例から評価セッ

トを作成する

– アノテーションマニュアルは(少なくとも

コーパス内の)扱うべき様々な現象を網羅し

ているはず

– 既存のシステムがどの程度現象を網羅してい

るかを調べるテストセットと考える

(11)

アノテーションマニュアルを用いた

現象網羅性の検証(京大・林部)

• 京大コーパス格関係アノテーションマニュアルを利用

446の例文

• マニュアルから入手出来る情報

現象名:格が明示されていない格要素

説明文:目的語の表層格がガ格になっている場合などには、その格を別の格に 変えることはしない。ガ格がすでに使われている場合の動作主体の格はガ2格と する。

例文とタグ付け例:

訪中している橋本蔵 [相 : ガ ] は九日、李鵬[ 首相 : ト ] と会談した

• [ 日本 : ガ 2] [縁 : ガ ]の ない [欧州 : ト ] と協力する

• [ 二人 : ガ ] [ 自動車 : デ ] [富士山 : ニ ] に 行く。

(12)

今後の予定

〜10月

各種データ整備

– 共通フォーマット・評価スクリプト

• 11月:各自システム実行・エラー分析

• 12月:分析結果共有・分析カテゴリ統

• 1〜2月:再分析・報告内容まとめ

(13)

中・長期の目標

関連タスクとのインタラクション

• 応用処理からの要求を解析内容に吸収

– 各分野で求められている項構造の形式

表層格関係で十分か

格交替の情報は吸収すべきか(受身・使役など)

表現形式上未定義・未解決の問題

共参照のタグ仕様、照応先がない場合の解析など

などなど

• より上流の基礎解析技術へのフィードバック

– 形態素解析と依存構造解析(統語構造・項構造)の 中間に潜む問題

形態素・単語・複合語解析、 MWE (慣用句)認識

参照

関連したドキュメント

Key Words : earthquake- resistant, water pipeline, non-uniformity coefficient, microtopography classification map , microtopography

Tu be Saf et y & P ro du ct fe atu re s 静脈採血関連製品 特殊採血関連製品 静 脈 採 血 関 連 製 品 針 ・ア ク セ サ リ ー 動脈採血関連製品

大学は職能人の育成と知の創成を責務とし ている。即ち,教育と研究が大学の両輪であ

歌雄は、 等曲を国民に普及させるため、 1908年にヴァイオリン合奏用の 箪曲五線譜を刊行し、 自らが役員を務める「当道音楽会」において、

び3の光学活`性体を合成したところ,2は光学異`性体間でほとんど活'性差が認め

[Publications] S.Kanoh,M.Motoi et al.: "Monomer-isomerization, Regioselective Cationic Ring-Opening Polymerization of Oxetane Phthalimide Involving Carbonyl

2位 櫻井翔 設楽統 松岡修造 ムロツヨシ 安住紳一郎. 3位 設楽統 カズレーザー 長谷部誠

Our experimental setting consists of (i) a simpler, more intuitive format for storing binary trees in files; (ii) save/load routines for generating binary trees to files and