• 検索結果がありません。

project next sum 20140903

N/A
N/A
Protected

Academic year: 2018

シェア "project next sum 20140903"

Copied!
27
0
0

読み込み中.... (全文を見る)

全文

(1)

Project Next Summarization  

Midterm Meeting

高村大也(東工大西川仁(NTT) 平尾努(NTT)

(2)

あらまし

•  自動要約の評価の現状 

– 自動要約とは  – 評価の評価  – データ 

– 要約器 

•  要約タスクグループの現状 

– 目標 

– プロセス 

•  まとめ 

(3)

自動要約

•  原文書における重要な情報を保持しかつ 読みやすい文書を機械的に作成 

•  単一文書要約/複数文書要約 

(4)

自動要約

•  評価のためには3つが必要 

– 評価の方法  – 要約器 

– データ

(5)

要約の評価

•  大きく2つにわかれる 

– 内容的品質 

•  原文書に含まれる重要な情報を含んでいるか 

– 言語的品質 

•  文章としてどうか 

– これらの誤りは必ずしも独立ではない 

•  大まかな評価の方針は知られているが、体 系的ではない 

(6)

内容的品質 (1/3)

•  参照要約(正解)が必要 

– 参照要約に含まれる情報(モノ,コト)を要約 システムが抽出に失敗した原因を探る 

•  抽出単位の検討 

•  どのようなインフラ(解析器)が必要かの検討 

–  discourse parser, coreference resolver, semantic role  labeler … 

•  テキスト間の類似度尺度の検討 

(7)

内容的品質 (2/3)

•  モノ(entity),コト(event) 

•  Summary Content Units (Nenkova+ 04) 

– 原文書に含まれる述語項構造相当の情報を人 手で注釈づけ

– 言い換えなども吸収

•  Basic Elements (Hovy+ 06) 

– 名詞句、動詞句を自動で抽出、それを要約の 単位とするもの 

(8)

内容的品質 (3/3)

•  原文書に含まれる、重要だと思われる単 位が、要約に含まれないのはなぜか?

– 特徴量の不足

•  形態素解析の誤り、NERの誤り

– 不適切な重みの値

•  学習データの不足

(9)

言語的品質 (1/3)

•  参照要約は必要ない (と思う) 

–  DUCのquality questions が参考になる 

•  1文内での文法誤り 

–  文短縮を利用する場合のみ 

•  参照表現解消に関する誤り 

–  参照表現の指すモノが原文書と同じか 

•  結束性/一貫性に関する誤り 

–  原文書と同じ内容を伝えられるか?  –  文の順,文頭の接続詞 

(10)

言語的品質 (2/3)

•  文短縮 

– ダボス会議を主催するスイスの民間研究機関、 世界経済フォーラムが3日発表した2014 年版の国際競争力ランキングで、日本の順位 は前年より三つ上がり、6位になった。 

(2014年9月3日 YOMIURI ONLINE 

http://www.yomiuri.co.jp/economy/20140903‐OYT1T50085.html?from=hochi より引用) 

•  係り受け解析の失敗等の理由によって非 文法的な文が生成されることがままある 

(11)

言語的品質 (3/3)

•  先行詞がない要約 

– そこでバルト諸国はあらためて軍事的… 

•  ゼロ代名詞の問題 

–  A首相がB国に訪問。C大統領と会談。 

–  D官房長官は成果を強調。今後の予定を公表。 

•  文意が変化する… 

–  A首相がB国に訪問。今後の予定を公表。 

•  自動要約においては致命的

(12)

要約器 (1/2)

•  公開されており、広く用いられている何ら かの要約プログラムは(日本語において は)存在しない 

– 個別の実装が個々の研究グループによって保 有されている状況 

(13)

要約器 (2/2)

•  要約タスク参加者の保有する要約器は 様々 

– 日本語/英語 

– 単一/複数文書要約 

– 新聞/レビュー/ツイッター 

•  各参加者が保有する要約器をまずはその まま利用して要約を作成

(14)

データ (1/2)

•  万人がすぐに入手できるリソースはない 

•  TSC‐1/2/3 

– 日本語の単一/複数文書要約データ 

– 毎日新聞コーパス、読売新聞コーパスがデー タの復元に必要 

•  DUC‐2002/2003/2004 

– 英語の単一/複数文書要約データ  – 広く使われている

(15)

データ (2/2)

•  現時点では同一のデータに対して要約を行 うということはしない 

– 参加者内で英語向けに開発された要約器と日 本語向けに開発された要約器が混在 

•  単一のデータに対して要約を行い分析を行 うかは今後平行して議論 

(16)

自動要約の誤り分析

•  誤り分析をどう行うかは難しい課題 

– 不明瞭な正解と分析方略の不在 

•  評価及び誤り分析のために大量の文書を読む必要 

•  何が要約に含められるべきか自明ではない 

–  2つのサブタスク 

•  単一文書要約と複数文書要約では期待される要約 の性質が異なる 

– 前提とする解析器も様々  – 言語、ドメインの問題も

(17)

目標

1.  要約器出力の分析方略の確立 

–  現時点では要約器出力を分析する体系的な方 法論は存在せず、これを開発したい 

2.  要約アルゴリズムの改良方向の究明 

–  集中的に改良を行うべき点の特定 

3.  自然言語解析へのフィードバック 

–  要約生成における自然言語解析の影響の分析 

(18)

現時点では目標ではないもの

•  ベースライン要約器の準備と利用 

– 多様な要約器での分析の方が今回の目標には 有効 

•  要約コーパスの作成 

–  BCCWJ の一部記事に対して要約を付与 

– 英語を対象に要約研究を行っているメンバー が少なくない 

– 要約作成の困難さ 

•  これらは継続して議論

(19)

プロセス

1.  進め方の議論 (6月∼8月)  2.  予備分析 (9月) 

3.  本分析 (10月∼11月) 

4.  分析方略の作成 (11月)  5.  再分析 (12月∼1月) 

6.  まとめ (2月)

(20)

プロセス (1/6)

•  6月から8月にかけてメールで進め方を議 論してきました 

•  今日、お話差し上げるよう内容 

(21)

プロセス (2/6)

•  予備分析(9月) 

•  一部のメンバーで、ごく少数のデータを手 持ちの要約器で要約

•  要約結果をどのように分析できるか検討

•  検討結果をメンバー全体に共有

(22)

プロセス (3/6)

•  本分析 (10月∼11月) 

•  予備分析の結果を踏まえ、要約器を保有する 全てのメンバーで分析を実施 

•  分析の際には各メンバーが手持ちのデータで 分析を実施 

–  特に、特定のデータを用意し全員がそれを要約す る、といったことはしない 

–   タスクも単一/複数文書要約両方を実施  –  ドメインは新聞に限定 

–  言語は絞らない 

(23)

プロセス (4/6)

•  分析方略の作成(11月) 

•  各メンバーの本分析の結果を突き合わせ、 どのような分析ができるのか、あり得る のかを調査 

•  それらから分析の方略を作成 (目標1) 

– ある種の分析ガイドライン 

– どのような順序でどのような分析をすればい いのか 

(24)

プロセス (5/6)

•  再分析(12月∼1月) 

•  再び手元のデータを手元の要約器で要約 

•  作成した分析方針で要約結果を分析

(25)

プロセス (6/6)

•  まとめ(2月) 

•  再分析の結果を集計 

– 分析方略の精緻化(目標1) 

– 集中的に改良を行うべき点を特定(目標2)  – それを踏まえ、自然言語解析へのフィード

バックを作成(目標3) 

•  3月のワークショップを準備する 

(26)

メンバー (敬称略)

•  浅原正幸(国語研) 

•  小林一郎(お茶大) 

•  嶋田和孝(九工大) 

•  高村大也(東工大) 

•  難波英嗣(広島市大) 

•  西川仁(NTT) 

•  野本忠司(国文学資料館) 

•  平尾努(NTT) 

•  森田一(京大) 

•  山本和英(長岡技科大)

(27)

まとめ

•  要約タスクグループの現状 

– 分析の進め方について方針を決定

– 要約器、データについては現状手持ちのもの で対処

•  自動要約の評価の現状 

– 内容的品質と言語的品質に分割 

参照

関連したドキュメント

(質問者 1) 同じく視覚の問題ですけど我々は脳の約 3 分の 1

aripiprazole水和物粒子が徐々に溶解するのにとも ない、血液中へと放出される。PP

が有意味どころか真ですらあるとすれば,この命題が言及している当の事物も

2021] .さらに対応するプログラミング言語も作

 複雑性・多様性を有する健康問題の解決を図り、保健師の使命を全うするに は、地域の人々や関係者・関係機関との

S SIEM Security Information and Event Management の 略。様々な機器のログを収集し、セキュリティ上の脅 威を検知・分析するもの。. SNS

自閉症の人達は、「~かもしれ ない 」という予測を立てて行動 することが難しく、これから起 こる事も予測出来ず 不安で混乱

 英語の関学の伝統を継承するのが「子どもと英 語」です。初等教育における英語教育に対応でき