• 検索結果がありません。

Files Project Next NLP

N/A
N/A
Protected

Academic year: 2018

シェア "Files Project Next NLP"

Copied!
19
0
0

読み込み中.... (全文を見る)

全文

(1)

Project Next NLP

情報検索タスク

2014/9/3

難波英嗣 ( 広島市立大学 ) 酒井哲也 ( 早稲田大学 )

(2)

目的

「より良い情報検索システムを構築するために今後何が 必要か」を、情報検索システムの出力結果のエラー分析 を通じて議論し、明確にする。

従来の情報検索研究では、「提案手法の検索精度が、従 来手法と比べてどの程度向上するのか」という点で議論 されることが一般的。

本タスクでは、従来手法と比べてではなく、「現在の検 索精度を 100% に近づけていくにはどんな問題を解決し なければならないのか」を明らかにする。

(3)

目的

検索精度の向上には何が必要か?

• 述語構造解析、含意認識、意味解析など の自然言語処理 (NLP) 関連の諸技術?

• 外部の知識 ( 例えば、各種 Open Data 、 オントロジーなど ) ?

エラー分析を通じて明らかにする。

(4)
(5)
(6)

利用可能なデータ

タスク 対象文書 システム出力

NTCIR-3-6 言語横断検索 新聞 ◯(NTCIR-3, 5, 6) NTCIR-9, 10 INTENT Web

NTCIR-1, 2 論文検索 論文概要

NTCIR-9 音声検索 音声認識結果

NTCIR-4, 5, 6 特許検索 特許 NTCIR-11 レシピ検索 料理レシピ

NTCIR-4, 5, 6 Web 検索 Web ◯(NTCIR-5)

(7)

既存データを使う上での検討事

• NTCIR 参加システムの実行結果が入手でき たとしても、新しい技術で再検索しなおすべ き? ( 例えば、 NTCIR-6 CLIR タスクは 7 年 前 )

• NTCIR 参加システムの実行結果が入手でき ないものについては、既存の複数の検索エ ンジンで代用?

      ↓

Terrier や INDRI などの検索エンジンの利用

(8)

テストコレクションの違い (1/

2)

構造が複雑な文書

料理レシピ: 3 階層のカテゴリ、料理名、レシピ名、材料リ スト、手順

特許:発明の名称、請求項、明細(発明の分野、先行技術、 課題、発明の効果)      ↓

       まずは構造が比較的 適合度判定の粒度       単純な文書から

• 2 段階 ( レシピ )

• 3 段階

(9)

テストコレクションの違い (2/

2)

トピックごとの適合文書数の違い

• 1 〜数文書

数十文書 その他

クエリの長さ、構造

文書長

(10)

分析対象データ

タスク 対象文書 システム出力

NTCIR-3-6 言語横断検索 新聞 ◯(NTCIR-3, 5, 6) NTCIR-9, 10 INTENT Web

NTCIR-1, 2 論文検索 論文概要

NTCIR-9 音声検索 音声認識結果

NTCIR-4, 5, 6 特許検索 特許 NTCIR-11 レシピ検索 料理レシピ

NTCIR-4, 5, 6 Web 検索 Web ◯(NTCIR-5)

(11)

エラー分析に向けて

複数システムの結果の比較による分析

• すべてのシステムで検索できない文書を、 まずは分析対象に (recall)

• すべてのシステムが間違って検索した文書 はどんなもの? (precision)

精度が一番高いシステムの分析

(12)

レシピ検索の分析

NTCIR-11 レシピ検索タスク(日英) 検索クエリの例:

{“topicID”:“JA0003”,“dishName”:“ チキン / 南蛮” ,“foodNames”: [“ 肉類 / にわとり / むね” ,” 小麦粉 / 薄力粉“ ,” 鶏卵“ ,” 酒“ ,” みりん

“ ,” しょうゆ“ ,” 塩“ ,” こしょう“ ,” 酢“ ,” 砂糖“ ,” 赤唐辛子 / 輪切り "," たまねぎ "," ピーマン "," にんじん "],"negation":[" 油で揚げない "],"expla nation":[]}

クエリが異なるけれども間違えて 検索される文書の存在

トピック横断的な分析

(13)

エラー分析をする上での観点

( になりそうなもの )

形態素解析

• WSD

照応省略

• Entailment

情報抽出

(14)

RIA との違いを出す、というよりも、「 10 年前に提案された 観点で今でも ( そして今後も ) 使えるものは何?」という観点 からカテゴリを考えていきたい。

技術の進歩とともに変わる観点(カテゴリ)とそうでないもの

(15)

今後の予定

• 9 月中:検索環境 (Terrier, INDRI) の構築

• 11 月上旬:エラー分析のためのカテゴリの 検討

• 12 月中旬:カテゴリに基づいたエラー分析

(16)

他のタスク ( 要約タスク ) との連携

Snippet の評価

NTCIR-2 TSC-1

課題

– A-1 10,30,50%要約率の抜粋 ( 重要文抽出 ) – A-2 20,40% 要約率のアブストラクト

– B 検索結果の適合性判断のための要約

対象文書:新聞記事 ( 報道記事と社説 )

評価

内的な評価:人間が選択した重要文との一致度,主観評価 外的な評価:情報検索タスクに基づく評価.

(17)

Snippet とは

(18)

情報検索タスクに基づく外的な評価

被験者に検索要求と その検索結果として テキストの要約を 提示.被験者は,各 要約を読んで,その 要約が検索要求に 合っているかどうか 判断.被験者が判断 をうまく行えた度合い により評価.

(19)

エラー分析の観点の分類

時間的な変化

言語依存の問題

他のタスクとの関連性

参照

関連したドキュメント

被祝賀者エーラーはへその箸『違法行為における客観的目的要素』二九五九年)において主観的正当化要素の問題をも論じ、その内容についての有益な熟考を含んでいる。もっとも、彼の議論はシュペンデルに近

わからない その他 がん検診を受けても見落としがあると思っているから がん検診そのものを知らないから

(2) 払戻しの要求は、原則としてチケットを購入した会員自らが行うものとし、運営者

契約者は,(1)ロ(ハ)の事項およびハの事項を,需要抑制契約者は,ニの

契約者は,(1)ロ(ハ)の事項およびハの事項を,需要抑制契約者は,ニの

契約者は,(1)ロ(ハ)の事項およびハの事項を,需要抑制契約者は,ニの

それに対して現行民法では︑要素の錯誤が発生した場合には錯誤による無効を承認している︒ここでいう要素の錯

先ほどの事前の御意見のところでもいろいろな施策の要求、施策が必要で、それに対して財