• 検索結果がありません。

Web top-k TF-IDF Indri PRF 5 10 [7] Miyanishi TREC Microblog Track Indri (LM) 3 PRF (RM [8], EXRM [9], TBRM [4] [6]) PRF LM Miyanishi Tweet

N/A
N/A
Protected

Academic year: 2021

シェア "Web top-k TF-IDF Indri PRF 5 10 [7] Miyanishi TREC Microblog Track Indri (LM) 3 PRF (RM [8], EXRM [9], TBRM [4] [6]) PRF LM Miyanishi Tweet"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

DEIM Forum 2015 G4-5

マイクロブログを用いた Web 検索のパーソナライゼーション手法

岡本

里夏

†,††

GARKAVIJS,Viktors

†,††

大山

敬三

††,†

総合研究大学院大学複合科学研究科情報学専攻博士課程

〒 101–8430 東京都千代田区一ツ橋 2–1–2

††

国立情報学研究所

〒 101–8430 東京都千代田区一ツ橋 2–1–2

E-mail:

†{

lica,gvb,oyama

}

@nii.ac.jp

あらまし ソーシャルメディアネットワークサービス (以下,SNS) は,ユーザの発信する情報量の多さから,様々な

場面での活用が検討されている.本研究は Web 検索の場面でマイクロブログから得られる情報を使ったパーソナライ

ゼーションの実現を目的としている.本報告では,マイクロブログサービスの一つである Twitter を用いた Web 検

索のパーソナライゼーションの手法として,Twitter のホーム画面に表示されるユーザ発言の集合(Twitter ではタイ

ムラインという.以下,TL)を文書とした擬似レレバンス・フィードバックによるクエリ拡張を提案する.今回著者

らが行った実験では,Web 検索のデータセットとして Text Retrieval Conference (TREC) Web Track 2013 Ad Hoc

Task のテストコレクションを用いた.2つの比較対照システムと提案手法によるシステムから得られた検索結果につ

いて,TREC のテストコレクションと Twitter ユーザの目線からの主観的評価の二つの側面から比較し,マイクロブ

ログのツイート素性を用いたパーソナライゼーション手法の有効性について検討する.

キーワード

擬似レレバンス・フィードバック, クエリ拡張, Twitter, パーソナライゼーション, 情報検索

1.

は じ め に

今日では,Webから自分に関連度の高い適切な文書を検索 することは一般的である.PCやインターネット接続の普及と 高速化,携帯電話・スマートフォンの普及,および商用のWeb 検索サービスの普及により,ユーザがWeb検索をする機会が 格段に増え,生活に必要不可欠なものとなっている.自分自身 の興味関心に適したWebページを探すことは,検索エンジン を使って行うことが一般的である. また,増え続けるWebページの中から自分に適したものを 探し出すには,従来の検索方法ではしばしば失敗する.一般に, このような検索システムを使用する場合には,検索サービスの キーワードを入力する箇所(検索窓)から検索質問(クエリ) を入力してWebを検索する.検索の失敗を回避したり,検索を 容易にしたりするための手段としては,例えばGoogleのWeb 検索サービスではオートコンプリート機能(注1)がある.オート コンプリート機能は検索者自身の過去の検索履歴や,クエリに 関するトレンドなどを考慮した上で検索窓の下にクエリとなる 候補のキーワードのリストが提示される.しかし,この様な機 能であっても,自分の探したい物事を表すキーワードが表示さ れない場合もある.

さらに,SNS (Social Network Services)を含む各種Web

サービスでは,テキスト・画像・音声・動画をはじめとして様々 な情報の発信が多く行われている.こうしたユーザのやりとり の中には,友人の近況や動画サイトへのリンク,友人たちから の面白いWeb記事の推薦や,今まさに進行中のニュースの内 (注1):https://support.google.com/websearch/answer/106230?hl=ja 容など,自らの興味との関連性が高い文を目にすることも少な くない.この場合,その興味との関連性の高い文は検索のキー ワードとなる語を含む可能性がある. そこで本研究では,検索ユーザの興味関心をフィードバック するものとして,SNSでやりとりされる情報に注目する.検索 者の検索体験向上を目的として,デスクトップ,モバイル端末, ソーシャルネットワークサービス(SNS)等で活動する際のふ るまいを記録し,それらを用いて,疑似レレバンス・フィード バック(PRF)を行うシステムを試作する. 本報告では,マイクロブログサービスの一つであるTwitter のユーザTLをPRF用文書にしたWeb検索のパーソナライ ゼーション手法を提案する.また今回,Text REtrieval

Con-ference (TREC)の2013年のAd Hoc Taskで使用されたテス

トコレクションを利用し,提案手法を適用した実験を行った. 実験に使用した3つのシステムの検索結果のうち,特徴的な検 索結果が得られた9件のクエリについて,検索者の視点を反映 させたレレバンス判定を上位5件の文書に対して行った.その 結果について報告する.

2.

関 連 研 究

ここではTwitter関連の研究,PRFに関する研究,および シミュレーティッド・ワーク・タスクに関する研究について概 観する. 2. 1 Twitterを対象とした疑似レレバンス・フィードバック Miyanishi等によれば,これまでのPRFによるクエリ拡張を 基本としたtime-based言語モデルは,マイクロブログ検索の 性能の改善にとても成功した[12].2012年のTREC Microblog

(2)

たWebページのtop-k TF-IDFの重み付けによる文書拡張に よる手法と,IndriのPRF機能を用い検索上位5文書から10

語をフィードバックしクエリ拡張として利用する検索手法を提 案している[7].Miyanishi等は,2011年と2012年のTREC

Microblog TrackテストコレクションでIndriの言語モデル

(LM)による検索とこれまでに提案されている3つのPRF手

法(RM [8], EXRM [9], TBRM [4] [6])について比較した結果,

いずれのPRF手法も検索結果を改善したが,いくつかのクエ

リについてはLMより悪い結果だったと報告している.これを

踏まえ,Miyanishi等はTweet selectionとTerm selectionに

よる2段階レレバンス・フィードバックモデル(TSF)を提案し ている[12]. ここで挙げた関連研究では,PRF機能を使ったクエリ拡張 で検索を行う対象は,Twitterツイートのコレクションである. 一方,我々の提案手法では,TwitterのユーザTLからクエリ に関係する語を含むツイートをユーザの関心を含む情報と仮定 し,それらをPRFのための文書として扱う.PRFを行う検索 対象はTwitterツイートのコレクションではなく,Webページ のコレクションであるClueWeb12であることが相違点である. 2. 2 Twitter検索 Metzler等はTwitter検索タスクの難しさについて,次の5 項目について挙げている[11]. 大変短い文書(140文字/文書) 変化に富んだ文書品質 言語判定問題 時間的バイアスのかかったクエリ 検索評価指標(時間的評価とレレバンス評価) トレーニング・データの欠如 このうち,今回我々の行った実験と同様の困難さを示している のは,大変短い文書,変化に富んだ文書品質,言語判定問題の 3項目である.

また,Twitter検索とWeb検索の違いについてTeevan等

は,Twitterの検索結果はより多くのsocial chatter (ユーザ同

士のおしゃべり)やsocial event (社交的あるいは社会的なイベ ント)の内容を含む一方,Webの検索結果はより基本的な事実 とnavigational (Web閲覧の誘導的)な内容を含んでいるとし ている[13]. 上記の関連研究はTwitter自身に対する検索に関する研究 である.この論文では,これと異なり,Webページ検索時に Twitterのツイートを擬似レレバンスフィードバックする文書 として利用する. 2. 3 シミュレーティッド・ワーク・タスク

Borlund等はInteractive Information Retrieval (IIR)の為

の評価手法としてシミュレーティッド・ワーク・タスク(SWT:

Simulated Work Task)を提案している[1] [2].SWTについて

Borlund等は 潜在的ユーザのtest personとしての関わり 動的・個人的な情報ニーズの適用 多次元かつ動的なレレバンス判定 の3つの要素から構成されるとしている.SWTの実行は次に 示す4つの段階から成る[2]; (1) システムへの検索文(search statements)の設定,次 の項目を基本とする; (a) 個人の情報ニーズ (b) シミュレートされた情報ニーズ (2) ユーザと専門家による上位15番目までにランクされ たフルテキスト文書のレレバンス評価 (3) ユーザによる検索文の再設定,(a)(b)両方の情報ニー ズの為の2回目のシミュレートされた実行 (4) ユーザによる検索文の再設定,2回目のシミュレート された実行における検索された文書セットからの上位16番目 までの記述語を基本とする. SWTによる調査は,test personの真の情報ニーズの扱いと シミュレートされた情報ニーズの間のふるまいの違いについて 実施される.その場合の仮説は「もし違いが無かった場合,真 の情報ニーズはSWTの適用を通じてシミュレートされた情報 ニーズで正しく置き換え可能」である[1]. これに関連して,実際のタスクとシミュレートされたタスク について,Li等は42名の実験参加者で検証した.その結果,実 際のタスク(real task)とシミュレートされたタスク(simulated

work task)には,いくつかのsub-facetについては顕著な差が

あったものの,全てのsub-facetについて調査されてはいない. しかしLi等は,ユーザの相互的情報検索のふるまいと相互的な パフォーマンスについて,2つのタスクの影響は,実際のタス クとシミュレートされたタスクの状況のsub-fasetが相互的な パフォーマンスと相関しているにも関わらず,有意ではないと している.したがって,Li等はSWTについて良くデザインさ れたならば,IIR評価において実際のワーク・タスクの補助に なるであろうと述べている.さらに,ある実験参加者はシミュ レートされたタスクは容易で実際のタスクは難しいと評価して おり,いくつかのsub-facetについてはSWTの設計時に考慮 する必要があると述べている[10]. 本研究は,検索のパーソナライゼーションの実験にSWTの

考え方を取り入れ,TRECのWeb Trackテストコレクション

を利用した擬似的な検索環境下で擬似的なTwitterユーザを想 定してTwitterのTLを構成している.擬似的な環境下での検 索実験については,様々な議論がある.しかしながら,ユーザ 実験に至る前のシステム開発の初期における検証手法としては, 実験に係る制約を制御出来るという点で妥当性があると考える.

3.

提 案 手 法

今回我々が提案する手法は,Web検索時にTwitterのツイー トに対してPRFを用い,PRFの結果をクエリ拡張に用いる 事によって,検索のパーソナライゼーションを行う為のもので ある.ここでは,TwitterのユーザTLを,ユーザ自身および フォロー先ユーザが発信したユーザ自身の関心と関連度の高い と考えられる情報として仮定する.これにより,PRFによって ユーザの関心が検索クエリにフィードバックされると仮定する [図1]. 具体的には,検索エンジンはIndri 5.6を用い,Indriにある

(3)

従来のPRF

提案手法のPRF

疑似レレバンス・フィードバック(PRF)手法の比較

Twitter Tweets

❶元の検索クエリ

①元の検索クエリ

❺検索結果

②1回目の検索上位

k件の文書

④拡張したクエリ

❹拡張したクエリ

❷検索

❸クエリ拡張

③クエリ拡張

Webページ

SNS,マイクロブログ

⑤検索結果

図 1 擬似レレバンスフィードバック手法の比較 Lavrenkoのレレバンス・モデル[8]を用いたPRFによるクエ リ拡張機能を使用する.今回PRFに使うツイート文書には, 4.2.1で後述する実験用に想定した疑似ユーザのツイートを用 いる. 提案手法においてPRFの文書数は,Kim等の実験[7]で良 いとされたツイート文書集合の検索結果上位5文書とする.ク エリ拡張語数は,同様に,上位10語を使用する.ただし,オリ ジナルのクエリとクエリ拡張語の重み付けは0.5:0.5とし,各 クエリ拡張語の重み付けは語の頻度によって振り分けられるも のとする.スムージングにはDirichlet smoothingを用いる(μ =2500; Indri のデフォルト値).

4.

今回の実験は,検索結果の比較条件をそろえるため,クエリ

にIndriのサイトに例示されている基本的なStop Wordsを適

用し,5文書10語のPRFと比較する.実験のデザインおよび, 疑似ユーザの立場からレレバンス判定する際には,SWT [1] [2] の考え方を一部援用している. 4. 1 3 つ の 実 験 用 シ ス テ ム (baseline, ClueWeb12-PRFB, Twitter-PRFB)を用意し,次の条件で比較する. • TwitterユーザTLを使ったPRFを行った場合 (Twitter-PRFB)と,行わない場合(baseline)を比較する. • Twitter ユ ー ザ TL を 使った PRF を 行った 場 合 と ,ClueWeb12 デ ー タ セット を 使って PRFを 行った 場 合 (ClueWeb12-PRFB)を比較する. また,検索結果について疑似ユーザの立場からのレレバンス 判定を行い,TRECのレレバンス判定と違う物があるかどうか を調査する. 4. 2 データセットおよびテストコレクション 次に,実験で使用するデータセットおよびテストコレクショ ンについて述べる. 4. 2. 1 Twitter 本実験では,検索するユーザはTwitterのTLを情報収集 を目的に閲覧することを想定している.そのため,このユーザ

TLを取得するために,Twitter Inc. 提供のAPI (REST API,

Streaming API)を用いた.また,自分以外のユーザが送信し た文のみの利用を目的としている.したがって,mention(「@ ユーザ名」の形で表される)と呼ばれるユーザ間の公開通信 がTL内への混入を避けるため,使用したアカウントを非公 開(Web上に疑似ユーザの発言が公開されない設定)とした. 実験では,TwitterのユーザTLは,疑似レレバンス・フィー

(4)

ドバックをするための文書集合として用いた.以下に取得した

TLの属性について記す.

Twitter ID: twi twi

フォローしているTwitterアカウント数: 642人 (2014年7月13日現在) ツイートの取得期間: 2014年5月26日から6月25日 まで 取得した英語ツイートの件数: 9,100件 (重複したツイートはTwitterユーザTLをマージする際 に排除済み)

文書の形式: Twitter APIを使用して取得したJSON形

式のデータを,プログラムによりTRECTEXT形式(XML)

に変換して保存する.

4. 2. 2 ClueWeb12

ClueWeb12はLemur Projectが提供するWebページのコ

レクションある.ClueWeb12は2012年2月10日から同年5

月10日までに集められた英語のWebページ733,019,372 件 を含む(注 2)

ClueWeb12は2013年のTREC Web Track, Ad

Hoc Task(注3)で用いられた.今回の実験はそのテストコレク

ションを用いて行うため,このデータセットを検索対象のデー タセットとした.

4. 2. 3 TREC Web Track 2013 Ad Hoc Taskテストコレ クション

実験に使うクエリとその正解データについては,TREC Web

Track 2013, Ad Hoc Taskのテストコレクションを使用した.

4. 3 実験用システム 次に実験用システムについて概要を説明する. 4. 3. 1 ベースライン・システム(baseline) Indri 5.6デフォルトの設定でIndriRunQueryという検索ク エリを実行するプログラムを動かしたものをベースラインとし た.主なデフォルト値は次の通りである. 取得件数: 1,000件 疑似レレバンス・フィードバック: 無 クエリ言語: Indri Query Language

スムージング: Dirichlet smoothing (μ= 2500,μ はスムージングパラメータ.2500はIndri のデフォルト値) 結果フォーマット: TREC 4. 3. 2 実験システム1(ClueWeb12-PRFB) Indri 5.6のPRFを使ったシステムである.フィードバックす る文書はClueWeb12である.このシステムはTwitterのユー ザTLをフィードバックする文書として検索した場合の比較対

(注2):Lemur Project, The ClueWeb12 Dataset, Dataset Details, Summary Statistics より引用.

http://lemurproject.org/clueweb12/specs.php (accessed 2015-01-13.) (注3):TREC Web Track 2013

http://research.microsoft.com/enus/projects/trec-web-2013/ (accessed 2015-01-13.) 照の為のシステムである.PRFは提案手法と条件をそろえる ために,検索結果上位5文書から10語を拡張クエリ語として 設定した.それ以外はベースライン・システムと同様とした. 4. 3. 3 実験システム2(Twitter-PRFB) TwitterのユーザTLをフィードバックする文書として検索 するシステムである.PRFを行うために,まずテストコレク ションのクエリを用いてTwitterユーザTLから作成した検索 用データセットを対象にクエリを用いて検索する.ツイートの 検索結果上位5位までをPRFを行うための文書とし,実験シ ステム1と同様に,5文書から10語選ぶように設定を行った. それ以外はベースライン・システムと同様とした. 4. 4 実 験 手 順 提案手法に関する実験の手順は次の通りである[図2]. TL取得 TL保存 開始 TREC 2013 Web AdHoc タスクQuery ユーザ TL ClueWeb 12 Twitter 終了 TL→TREC TEXT 検索結果1 PRF用文書取得 PRF用文書 5件/Query PRF用パラメータ ファイル作成 検索結果2 TREC評価 ツール 評価結果 TL検索用パラメータ ファイル作成 TL検索用 パラメータ ファイル PRF用 パラメータ ファイル Indri Indri TREC 2013 Web AdHoc タスクQuery TL(TREC TEXT) 凡例 入力 出力 検索 図 2 提案手法の処理手順 (1) 作成したツイート取得用のプログラムにより取得した

Twitterのツイート文書をJSON形式からTRECTEXT形式

に変換する. (2) IndriBuildIndexでインデックスを構築する.その際, Krovetz stemmerを適用し,ストップワードは適用しない. (3) インデックスされたツイート文書のデータセットをテ ストコレクションのクエリで検索する. (4) 検索結果上位5位までの文書をPRF用の文書として Web検索用のパラメータ・ファイルに実験用に作成したプログ ラムにて自動的に登録する. (5) 作 成 し た ク エ リ パ ラ メ ー タ ファイ ル を 用 い て ClueWeb12のデータセットを検索する.クエリに対しては

(5)

ストップワードを適用する. (6) 出力された検索結果とクエリ拡張の結果ログを保存 する. (7) 検索結果はt検定を行う. (8) 検索結果について,提案手法のERR-IA@10の値が良 かったクエリ,悪かったクエリ,ベースラインと同じ値だった クエリ各3件合計9件について,疑似ユーザの観点からレレバ ンス判定を行う.

なお,ERR-IA (Intetnt Aware Expected Reciprocal Rank)

とは,TREC Web Trackの評価指標の一つであり,ERRはレ

レバンスが高い文書が上位にあった場合に検索者が閲覧を中止 してしまう可能性を考慮したモデルである[3].IA はクエリ の複数のファセットについてレレバンス判定を考慮するため, 一つのクエリについてファセット毎に複数のレレバンス判定が 正解データで与えられる.クエリのファセットが1つの場合, ERRと同等の計算になる[5].ERR-IA@10は上位10件を 評価対象としている. ここで,rを閲覧を中止する位置,Rrr位の文書のレレ バンス(Rr=R(g))gをレレバンスのグレーディング,Rii位の文書に満足する確率とする.Ri と ,R(g)が, R(g) := 2g− 1 2gmax, g∈ {0, ..., gmax} (1) Ri:=R(gi) (2) で表されるとき,ERRは次のように定義される[3]. ERR := nr=1 1 r r−1 i=1 (1− Ri)Rr (3)

5.

実 験 結 果

ここでは,TwitterのTL閲覧時のツイートをPRF用の文書 として行った実験結果を示す.なお,統計解析にはR (version 3.1.2)(注 4)を使用した. 5. 1 TREC評価ツールによる検索結果の評価

TREC Web Track Ad Hoc Task の主な評価指標である

ERR-IA@10の値をクエリ毎システム毎の値をグラフにしたも のを示す[図3](注5). PRF用に検索したツイート文書で5文書検索できなかった クエリ番号は,201 (0文書),241 (1文書), 242 (4文書), 249 (1文書)の計4件であった.今回の実験では,3つのシステム についてt検定(95%信頼区間)を行った.2つのシステム毎 に対応のあるデータ(各クエリによる検索結果から算出した評 価指標)を3つのシステムについてのすべての組み合わせで比 較するため,ボンフェローニ補正を適用した(p < 0.0167).t 検定の帰無仮説,対立仮説は, 帰無仮説「システム毎の評価指標の平均の差は0である」 対立仮説「システム毎の評価指標の平均の差は0ではない」 (注4):http://www.r-project.org/index.html(accessed2015-01-13.) (注5):赤は baseline, 緑は ClueWeb12-PRFB, 青は Twitter-PRFB の結

果を表す.

である.

この結果についてt検定を行った結果を以下に示す[図4][表

1].

ClueWeb12−baseline ClueWeb12−PRFB twitter_PRFB

0.0 0.2 0.4 0.6 0.8 1.0

Comparing of performance index: ERR−IA@10

ERR−IA@10 図 4 ERR-IA@10 の各システムの比較 [表1]からわかるように,提案手法のERR-IA@10の評価値 の平均値について,有意差は認められなかった.しかしなが ら,個々のクエリについての評価値を見ると,クエリによって はbaselineを大きく上回り,現段階で提案手法は,クエリによ るばらつきが大きいシステムであると言える. 5. 2 検索した文書のレレバンス判定 今回,9件のクエリについて,疑似ユーザの視点からレレバ ンス判定を行った.レレバンス判定はERR–IA@10の値を提 案手法とベースラインの間で比較し,3パタンに分けたクエリ について行った[表2].ここで,PRFの文書数が0だったもの はシステム的にClueWeb12-PRFBと同じ動作になるので判定 の候補からは除外した. 表 2 擬似ユーザ視点からレレバンス判定を行ったクエリ ERR-IA@10 の比較 クエリ番号 Twitter-PRFB > baseline 214, 242, 248 Twitter-PRFB < baseline 205, 221, 240 Twitter-PRFB = baseline 216, 232, 233 今回レレバンス判定を行う際には,それぞれのクエリで得ら れた検索結果の上位5件について行った.ただし,上位5件の 中にテストコレクションの正解データの中に含まれない文書名 がある場合には,その文書は判定から除外し,その次に出現す るテストコレクションの正解データ内にある文書について判定 を行う事とした. TwitterユーザTLの収集およびレレバンス判定に使用する Twitterの疑似ユーザのプロファイルを次に示す. 年齢: 40代後半 性別: 女性 使用言語: 日本語・英語 職業: 防衛産業関係のシステムエンジニア

(6)

0.0

0.2

0.4

0.6

0.8

1.0

Scatter Diagram of ERR

−IA@10

Query Numbers

ERR

IA@10

0.0

0.2

0.4

0.6

0.8

1.0

0.0

0.2

0.4

0.6

0.8

1.0

230

240

250

201

210

220

提案手法(Twitter-PRFB) ClueWeb12-PRFB baseline 図 3 ERR-IA@10 での比較 表 1 ERR-IA@10 の t 検定結果 実験システム t 差の平均 p 値 有意差 (p < 0.0167) ClueWeb12-PRFB vs. baseline -2.7731 -0.0761567 0.0078 有 Twitter-PRFB vs. baseline -2.0457 -0.0631799 0.0461 無 Twitter-PRFB vs. ClueWeb12-PRFB 0.3612 0.0129767 0.7195 無 主な関心: 健康・食事療法・科学一般・IT技術動向・一般 ニュース フォローしているユーザ: 新聞・通信社・雑誌・テレビ局 などのメディア関係,アメリカのHealth Care関係の研究 機関,官公庁,軍関係,IT企業,プログラマ,研究者,記 者,NASA関係,科学技術関係のニュースブログサイト,学 会等 レレバンス判定の際にテストコレクションの判定と違う判定 があった件数を表に示す[表3].

6.

6. 1 検索結果について 今回,条件をそろえてERR-IA@10のみでt検定を行ったが, 平均値の比較では有意差は見られなかった.しかし,[図3]か らわかるように,ベースラインとIndriのPRFの値がそれほ どではなくても,提案手法が突出して良い場合がある. 今回レレバンス判定を行った提案手法で良い値が出る3件の

クエリは,TREC 2013 Web Trackにおいて,いずれもTREC

のベースラインを基準にBottom 25 topicsにランクされたク エリであった[5].例えばクエリ番号214(“capital gains tax

rate”)は,TwitterのユーザTL文書にこのクエリに有効な 語を含んでいたためと考えられる.検索対象の文書から有効な クエリ拡張語を展開できない場合に,提案した手法により改善 できる可能性を示している. その一方で,提案手法の値が悪かった3件のクエリについて は,いずれもTop 25 topicsにランクされたクエリであり,先程 とは逆の結果となった.例えばクエリ番号240 (“presidential middle names”)は,実験結果でリストされた文書を見てみる と,本実験のbaselineとIndriによるPRFはほぼ同じ文書 を検索結果としてリストしている.つまり,文書番号が違って いても文書の内容はほとんど同じであった.これの原因はレレ バンス判定が3(Key)と判定されたページのコピーサイトの文 書が上位にリストされていたからであると考える.一方,提 案手法による検索結果では(テストコレクションの正解データ にない)レレバンス判定されていない文書が上位に,baseline で上位の文書が下位にランクされていた.上位5件中3件が レレバンス判定されておらず,他2件の文書はbaselineにも ClueWeb12-PRFBにも上位20件以内にリストされていない 2(HRel)と3(Key)の文書であった.うち1件は疑似ユーザ視 点によるレレバンス判定で2(Key)から0(Non)に評価が変わっ ている.baselineとClueWeb12-PRFB の検索結果上位5件 は全て3(Key)の高いレレバンス判定であったため,提案手法

(7)

表 3 レレバンス判定が変更になった件数

Twitter-PRFB > baseline Twitter-PRFB < baseline Twitter-PRFB = baseline

クエリ番号 214 242 248 205 221 240 216 232 233 baseline 0 1(良) 0 0 0 0 0 0 0 ClueWeb12-PRFB 0 1(良) 0 0 0 0 0 0 0 Twitter-PRFB 0 1(良) 0 0 0 1(悪) 0 0 0 は相対的に値が悪くなった. このように,提案手法のPRFによるクエリ拡張では,ツイー ト文書の数が1万件に満たない数であっても検索者の意図に近 い語がユーザTL内にあれば非常に効果的にクエリ拡張が行わ れる.その一方で,検索者の検索意図に沿う情報がツイート内 になければ,検索者の意図に近い形でのクエリ拡張がなされず, 検索結果に悪影響を及ぼす.これを回避するには,(1)PRFに 使用するTwitterユーザTLのサイズを大きくする(2)PRF用 にツイート文書をオリジナルのクエリで検索する際に,検索意 図と合ったツイートを精度よく抽出する(3)検索者の意図がわ かる行動をログから抽出しそれを利用してPRFに使う文書を 決定する,以上3点が考えられる. 6. 2 疑似ユーザ視点によるレレバンス判定

TREC Web Trackでは6段階でレレバンス判定を行ってい

る.そのうち レレバンス・グレード-2(Junk)はTRECの評 価ツールであるndevalでは扱わないので,-2は0(Non)とみ

なされる[5].すなわち,

0(Non; non relevant),

1(Rel; relevant),

2(HRel; highly relevant),

3(Key; Key page or site),

4(Nav; navigational page or site)

の5段階で評価される. 今回レレバンス判定した中で,疑似ユーザ視点により判定を 変えた文書は2箇所あった.1件は0 (Non) から1(Rel)への 変更であり,もう1件は2(HRel)から0(Non)への変更であっ た.検索結果上位5件×9個のクエリで,のべ45件の文書を確 認した結果,約4%の文書についてレレバンス判定の変更が生 じた.これは,上位5件に検索結果として得られたものを擬似 ユーザの視点からレレバンス判定した場合でも概ねTRECの レレバンス判定と合致した,といえる.しかし,本報告では対 象外とした上位20位までの検索結果には,TRECの正解デー タに含まれない文書もあった.TRECの正解データになかった 文書は ERR-IAの計算には含まれないので,それが評価値に 悪影響を及ぼした. baselineと違ったものが上位にランクされるということは, 検索エンジンは同じでもフィードバックする文書が検索対象と 違うことで得られた結果である.提案手法では,擬似ユーザの Twitter上のTLにはユーザの興味関心が反映されたと仮定し てクエリ拡張用の語を展開することでパーソナライズドな検 索結果を得る.今回はレレバンス判定されていない文書は疑似 ユーザ視点によるレレバンス判定を行っていない.これらの検 索結果についてもレレバンス判定を行い,興味関心が反映され たページが取得できているかどうか確認する必要がある. 実験では,Twitterのツイート文書によるPRFを使った検索 において,結果をできるだけ客観的に評価するために,TREC Web Trackのテストコレクションにあるクエリと興味が重なる ような疑似ユーザのペルソナを作成した.このペルソナに従い フォローする事で疑似ユーザの意図するTLを表現しようとし た.そのためフォローするユーザはニュースサイトや企業や国 の機関の公式ユーザを多くフォローした.これについては,個 人的につながりのあるユーザはフォローしていないため,実際 に存在するユーザのフォロー内容とはやや異なる印象になった. しかしながら,擬似的なユーザを模して作ったTLではあるが, 一部のクエリに対しては提案手法が有効に働く事がわかった. 今後の課題として,擬似ユーザとツイートのクラスタリング 結果とクエリとの比較,疑似ユーザでツイート文書を増やした 時に検索が改善されるかどうか,あるいはTwitterのパブリッ クTLを使ったときとの比較,および実際のユーザのTLで提 案手法を実行した場合の検索結果のレレバンス判定の比較調査, ユーザ視点からレレバンス判定を上位20件について行い評価 値計算の実行することが挙げられる.

7.

お わ り に

本報告では,Twitterのツイート文書をPRFによるクエリ 拡張を用いて行う検索のパーソナライゼーション手法を提案し た.そして,提案手法についてテストコレクションを使った実 験を行い,その結果に関する考察を述べた.テストコレクショ ンの評価ツールによる平均値の比較では有意差は見られなかっ たが,個々のクエリについて検索結果を見た場合,TREC 2013

Web Track Ad Hoc Taskの下位25件に含まれるクエリにつ

いて,評価値を大きく上回るものがあり,検索意図通りにクエ リが拡張された場合の有効性が示された.

今後は,検索のパーソナライズ手法の全般的な改善と,実際 のユーザについて提案手法の実験を行いたい.

[1] Borlund, P.: Experimental components for the evalua-tion of interactive informaevalua-tion retrieval systems, Journal

of Documentation, Vol. 56, No. 1, pp.71–90 (online), DOI

10.1108/EUM0000000007110 (2000).

[2] Borlund, P. and Ingwersen, P.: The development of a method for the evaluation of interactive information re-trieval systems, Journal of Documentation, Vol. 53, No. 3, pp.225–250 (online), DOI 10.1108/EUM0000000007198 (1997).

[3] Chapelle, O., Metlzer, D., Zhang, Y. and Grinspan, P.: Ex-pected reciprocal rank for graded relevance, Proceeding of

(8)

management - CIKM ’09, New York, New York, USA, ACM

Press, p.621 (online), DOI 10.1145/1645953.1646033 (2009). [4] Choi, J. and Croft, W. B.: Temporal models for microblogs,

Proceedings of the 21st ACM international conference on Information and knowledge management - CIKM ’12, New

York, New York, USA, ACM Press, p.2491 (online), DOI 10.1145/2396761.2398674 (2012).

[5] Collins-Thompson, K., Paul Bennett, Diaz, F., Clarke, C. L. A. and Voorhees, E. M.: TREC 2013 Web Track Overview, TREC 2013, (online), http://trec.nist.gov/ pubs/trec22/papers/WEB.OVERVIEW.pdf (2013).

[6] Keikha, M., Gerani, S. and Crestani, F.: Time-based relevance models, Proceedings of the 34th international

ACM SIGIR conference on Research and development in Information - SIGIR ’11, New York, New York, USA,

ACM Press, p.1087 (online), DOI 10.1145/2009916.2010062 (2011).

[7] Kim, Y., Yeniterzi, R. and Callan, J.: Overcoming Vocab-ulary Limitations in Twitter Microblogs (2012).

[8] Lavrenko, V. and Croft, W. B.: Relevance based lan-guage models, Proceedings of the 24th annual

interna-tional ACM SIGIR conference on Research and develop-ment in information retrieval - SIGIR ’01, New York,

New York, USA, ACM Press, pp.120–127 (online), DOI 10.1145/383952.383972 (2001).

[9] Li, X. and Croft, W. B.: Time-based language models,

Proceedings of the twelfth international conference on In-formation and knowledge management - CIKM ’03, New

York, New York, USA, ACM Press, p.469 (online), DOI 10.1145/956863.956951 (2003).

[10] Li, Y. and Hu, D.: Interactive retrieval using simu-lated versus real work task situations: Differences in sub-facets of tasks and interaction performance,

Proceed-ings of the American Society for Information Science and Technology, Vol. 50, No. 1, pp.1–10 (online), DOI

10.1002/meet.14505001092 (2013).

[11] Metzler, D. and Cai, C.: USC/ISI at TREC 2011: Mi-croblog Track, In Proceedings of TREC 2011, (online), http://trec.nist.gov/pubs/trec20/papers/isi.microblog. update.pdf (2011).

[12] Miyanishi, T., Seki, K. and Uehara, K.: Improving pseudo-relevance feedback via tweet selection, Proceedings of the

22nd ACM international conference on Conference on in-formation & knowledge management - CIKM ’13, New

York, New York, USA, ACM Press, pp.439–448 (online), DOI 10.1145/2505515.2505701 (2013).

[13] Teevan, J., Ramage, D. and Morris, M. R.: #Twit-terSearch: a comparison of microblog search and web search, Proceedings of the fourth ACM international

con-ference on Web search and data mining - WSDM ’11, New

York, New York, USA, ACM Press, p. 35 (online), DOI 10.1145/1935826.1935842 (2011).

表 3 レレバンス判定が変更になった件数

参照

関連したドキュメント

Google マップ上で誰もがその情報を閲覧することが可能となる。Google マイマップは、Google マップの情報を基に作成されるため、Google

しかしながら、世の中には相当情報がはんらんしておりまして、中には怪しいような情 報もあります。先ほど芳住先生からお話があったのは

○菊地会長 では、そのほか 、委員の皆様から 御意見等ありまし たらお願いいたし

ヒット数が 10 以上の場合は、ヒットした中からシステムがランダムに 10 問抽出して 出題します。8.

学側からより、たくさんの情報 提供してほしいなあと感じて います。講議 まま に関して、うるさ すぎる学生、講議 まま

1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月.

1月 2月 3月 4月 5月 6月 7月 8月 9月10月 11月 12月1月 2月 3月 4月 5月 6月 7月 8月 9月10月 11月 12月1月 2月 3月.

 ALPS