Project Next NLP
情報検索タスク
2014/9/3
難波英嗣 ( 広島市立大学 ) 酒井哲也 ( 早稲田大学 )
目的
「より良い情報検索システムを構築するために今後何が 必要か」を、情報検索システムの出力結果のエラー分析 を通じて議論し、明確にする。
従来の情報検索研究では、「提案手法の検索精度が、従 来手法と比べてどの程度向上するのか」という点で議論 されることが一般的。
本タスクでは、従来手法と比べてではなく、「現在の検 索精度を 100% に近づけていくにはどんな問題を解決し なければならないのか」を明らかにする。
目的
検索精度の向上には何が必要か?
• 述語構造解析、含意認識、意味解析など の自然言語処理 (NLP) 関連の諸技術?
• 外部の知識 ( 例えば、各種 Open Data 、 オントロジーなど ) ?
エラー分析を通じて明らかにする。
利用可能なデータ
タスク 対象文書 システム出力
NTCIR-3-6 言語横断検索 新聞 ◯(NTCIR-3, 5, 6) NTCIR-9, 10 INTENT Web ◯
NTCIR-1, 2 論文検索 論文概要
NTCIR-9 音声検索 音声認識結果 ◯
NTCIR-4, 5, 6 特許検索 特許 ◯ NTCIR-11 レシピ検索 料理レシピ ◯
NTCIR-4, 5, 6 Web 検索 Web ◯(NTCIR-5)
既存データを使う上での検討事
項
• NTCIR 参加システムの実行結果が入手でき たとしても、新しい技術で再検索しなおすべ き? ( 例えば、 NTCIR-6 CLIR タスクは 7 年 前 )
• NTCIR 参加システムの実行結果が入手でき ないものについては、既存の複数の検索エ ンジンで代用?
↓
Terrier や INDRI などの検索エンジンの利用
テストコレクションの違い (1/
2)
構造が複雑な文書
• 料理レシピ: 3 階層のカテゴリ、料理名、レシピ名、材料リ スト、手順
• 特許:発明の名称、請求項、明細(発明の分野、先行技術、 課題、発明の効果) ↓
まずは構造が比較的 適合度判定の粒度 単純な文書から
• 2 段階 ( レシピ )
• 3 段階
テストコレクションの違い (2/
2)
トピックごとの適合文書数の違い
• 1 〜数文書
• 数十文書 その他
• クエリの長さ、構造
• 文書長
分析対象データ
タスク 対象文書 システム出力
NTCIR-3-6 言語横断検索 新聞 ◯(NTCIR-3, 5, 6) NTCIR-9, 10 INTENT Web ◯
NTCIR-1, 2 論文検索 論文概要
NTCIR-9 音声検索 音声認識結果 ◯
NTCIR-4, 5, 6 特許検索 特許 ◯ NTCIR-11 レシピ検索 料理レシピ ◯
NTCIR-4, 5, 6 Web 検索 Web ◯(NTCIR-5)
優先度
エラー分析に向けて
複数システムの結果の比較による分析
• すべてのシステムで検索できない文書を、 まずは分析対象に (recall)
• すべてのシステムが間違って検索した文書 はどんなもの? (precision)
精度が一番高いシステムの分析
レシピ検索の分析
NTCIR-11 レシピ検索タスク(日英) 検索クエリの例:
{“topicID”:“JA0003”,“dishName”:“ チキン / 南蛮” ,“foodNames”: [“ 肉類 / にわとり / むね” ,” 小麦粉 / 薄力粉“ ,” 鶏卵“ ,” 酒“ ,” みりん
“ ,” しょうゆ“ ,” 塩“ ,” こしょう“ ,” 酢“ ,” 砂糖“ ,” 赤唐辛子 / 輪切り "," たまねぎ "," ピーマン "," にんじん "],"negation":[" 油で揚げない "],"expla nation":[]}
クエリが異なるけれども間違えて 検索される文書の存在
↓トピック横断的な分析
エラー分析をする上での観点
( になりそうなもの )
• 形態素解析
• WSD
• 照応省略
• Entailment
• 情報抽出
…
RIA との違いを出す、というよりも、「 10 年前に提案された 観点で今でも ( そして今後も ) 使えるものは何?」という観点 からカテゴリを考えていきたい。
技術の進歩とともに変わる観点(カテゴリ)とそうでないもの
今後の予定
• 9 月中:検索環境 (Terrier, INDRI) の構築
• 11 月上旬:エラー分析のためのカテゴリの 検討
• 12 月中旬:カテゴリに基づいたエラー分析
他のタスク ( 要約タスク ) との連携
Snippet の評価
NTCIR-2 TSC-1
• 課題
– A-1 10,30,50%要約率の抜粋 ( 重要文抽出 ) – A-2 20,40% 要約率のアブストラクト
– B 検索結果の適合性判断のための要約
• 対象文書:新聞記事 ( 報道記事と社説 )
• 評価
– 内的な評価:人間が選択した重要文との一致度,主観評価 – 外的な評価:情報検索タスクに基づく評価.
Snippet とは
情報検索タスクに基づく外的な評価
被験者に検索要求と その検索結果として テキストの要約を 提示.被験者は,各 要約を読んで,その 要約が検索要求に 合っているかどうか 判断.被験者が判断 をうまく行えた度合い により評価.
エラー分析の観点の分類
• 時間的な変化
• 言語依存の問題
• 他のタスクとの関連性