述語項構造タスク
松林優一郎 (東北大学)
• 複雑な文構造を、述語とそれ関わる構成
要素の簡潔な構造に整理する技術
[ 太郎 ] が 書いた [ 手紙 ]
述語項構造
ヲ格主題
書かれる物 ガ格動作主
書き手
述語
2
• 「太郎の結婚は3年前にさかのぼる。きっかけは、たま たま入ったサークルで、同級生、花子に出会ったこと だった」
格関係認識+ゼロ照応解析
3
太郎の 結婚は 3年前に さかのぼる。(その) きっかけは、
(〜が) たまたま 入った サークルで、
(〜が) 同級生、花子に 出会った こと だった。
がを
にA is ~
~ is B
項構造照応関係
同格・コピュラ
• 「太郎の結婚は3年前にさかのぼる。きっかけは、たま たま入ったサークルで、同級生、花子に出会ったこと だった」
格関係認識+ゼロ照応解析
4
太郎の 結婚は 3年前に さかのぼる。(その) きっかけは、
(〜が) たまたま 入った サークルで、
(〜が) 同級生、花子に 出会った こと だった。
がを
にA is ~
~ is B
項構造照応関係
同格・コピュラ
述語項構造解析の現状
• 解析精度(新聞記事)
– 統語係り受け解析で直接係り受け関係が認め
られる事例:90%〜
– ゼロ照応:〜40%
• システム横断的な評価ができていない
– 複数の表現形式
• 京大形式:述語出現形に対する表層格
• NAIST 形式:述語原形に対する表層格
– テスト環境の整備不足
• 評価アルゴリズムに関する共通認識がない
ワークショップでの目標
• システム横断的な評価・エラー分析
– データフォーマット・評価スクリプトの統一
– 参加者システム個別のエラー分析
– 事例ベースの手がかり分析・システム結果比較
• 現状のコーパス・解析器が、項構造解析が解
くべき現象を網羅しているか検証する
– 新聞以外のドメイン
– マイナーだが認識されている特殊な現象
参加者
• 林部 祐太(京都大学)
• 吉野 幸一郎(京都大学)
• 松林 優一郎(東北大学)
• 中山 周(東北大学)
複数ドメインに対する評価
• 評価データ: BCCWJ Core-A (東工大・飯田氏提供)
– 22 文章 1625 文 (OC 以外 ) + OC (数未定)
• OW: 2記事
• OY: 6記事
• PB:6記事
• PM:4記事
• PN:4記事
– NAIST テキストコーパス形式
• 参加システムの個別分析
• システム横断的な分析
• ドメインごとの傾向・現象の分布把握
分析方法
1. 各システムのエラー事例を中心に分析
2. テストデータの一部に手がかりに関するラベルを人
手付与する
– ラベル(試作中)
• 制御動詞・繰り上げ動詞構文
• 機能動詞構文
• 並列構造理解
• 発話者/対話者が分かる表現あり
• 強い選択選好
• 談話関係理解が必要
– どのタイプの問題が現状解けるのか、解けないのか
– 人間であれば手がかりが説明できるものがどれ程あるか
• 現状でタイプが明確に説明できるものと説明できないものを弁別
アノテーションマニュアルを用いた
現象網羅性の検証(京大・林部)
• マニュアル内のタグ付け例から評価セッ
トを作成する
– アノテーションマニュアルは(少なくとも
コーパス内の)扱うべき様々な現象を網羅し
ているはず
– 既存のシステムがどの程度現象を網羅してい
るかを調べるテストセットと考える
アノテーションマニュアルを用いた
現象網羅性の検証(京大・林部)
• 京大コーパス格関係アノテーションマニュアルを利用
– 446の例文
• マニュアルから入手出来る情報
– 現象名:格が明示されていない格要素
– 説明文:目的語の表層格がガ格になっている場合などには、その格を別の格に 変えることはしない。ガ格がすでに使われている場合の動作主体の格はガ2格と する。
– 例文とタグ付け例:
• 訪中している橋本蔵 [相 : ガ ] は九日、李鵬[ 首相 : ト ] と会談した
• [ 日本 : ガ 2] は [縁 : ガ ]の ない [欧州 : ト ] と協力する
• [ 二人 : ガ ]で [ 自動車 : デ ] で [富士山 : ニ ] に 行く。
今後の予定
• 〜10月
– 各種データ整備
– 共通フォーマット・評価スクリプト
• 11月:各自システム実行・エラー分析
• 12月:分析結果共有・分析カテゴリ統
合
• 1〜2月:再分析・報告内容まとめ
中・長期の目標
関連タスクとのインタラクション
• 応用処理からの要求を解析内容に吸収
– 各分野で求められている項構造の形式
• 表層格関係で十分か
• 格交替の情報は吸収すべきか(受身・使役など)
• 表現形式上未定義・未解決の問題
– 共参照のタグ仕様、照応先がない場合の解析など
• などなど
• より上流の基礎解析技術へのフィードバック
– 形態素解析と依存構造解析(統語構造・項構造)の 中間に潜む問題
• 形態素・単語・複合語解析、 MWE (慣用句)認識