再発見を試みるユーザ入力閲覧ページ出力同位ページ以前に閲覧したページ同位ページの推定 2. 1 [4], [13] Dubroy [4] [13] 4 [1], [2], [8], [10], [12] Nshmoto [8] Capra [2] Exact Path Su

(1)

DEIM Forum 2015 B2-5

閲覧・検索行動履歴に基づく情報再発見

武田

裕介

†

大島

裕明

†

田中

克己

†

京都大学大学院情報学研究科

〒 606–8501 京都府京都市左京区吉田本町

E-mail:

†{

takeda,ohshima,tanaka

}

@dl.kuis.kyoto-u.ac.jp

あらまし本論文では，閲覧した複数の Web ページ間の関係から，あるページと共通の情報要求の元で閲覧したペー

ジ（同位ページ）を推定する手法を提案する．再発見を行っている際に閲覧しているページの同位ページを推薦するこ

とで再発見を支援する．再発見を行う際の情報要求と，再発見したいページを以前に閲覧していた際の情報要求は類

似していることが多いと考えられる．従って再発見を行うために閲覧しているページの同位ページの中に再発見した

いページが存在すると考えられる．同位ページの推定には，リンクやタブの切り替え，クエリの類似度といったユー

ザの閲覧・検索行動に関係する複数ページ間の関係を使用する．

キーワード再発見，ブックマーク

1. はじめに

Webを利用して何らかの情報要求を満たすために複数のWeb ページを閲覧することがある．例えば三重旅行の計画を立てるとする．このとき，三重にはどのような観光名所があるかを調べるという情報要求の元で複数の三重の観光情報サイトを閲覧する．各観光名所について詳しく調べるという情報要求が生じることがある．このとき，伊勢神宮やなばなの里などの各観光名所に関するページをタブ機能を用いて同時に開き，タブを切り替えながらページを閲覧するといった閲覧行動が想定される．一度閲覧したページを以前と似たような目的でもう一度閲覧したいと思うことがある．訪問したページの内44%が再訪問であったり[9]，33%のクエリが再発見のためのもの[11]であるという報告もある．このことからもページの再発見という行動を普段から行っていることがわかる．先ほどの例でいうと以下のような理由で再発見を行うことがある． • 観光名所一覧に関するページをもう一度見たい． • どの観光名所に行くか決め切ることが出来なかったので，各観光名所についてもう一度調べたい前者の場合，観光名所一覧に関するたった一つのページを再発見すればよい．しかし，以前に発行したクエリと微妙に異なるクエリを発行してしまうことがある．その結果，目的のページが検索結果に現れないことがある．このようにして再発見出来なかったり，再発見に時間がかかってしまうこともある．後者の場合，三重の観光名所に関する複数のページを開こうとすることがある．複数のページを再発見しなくてはいけないので，単純に前者の場合に比べて再発見に失敗することが多いと考えられる．閲覧情報の再発見のためには，ブラウザのブックマーク機能を利用するという方法がある．しかし，ブックマークしていないWebページであってももう一度閲覧したいと思うページは存在する．また，ページ単位のブックマークでは，作業中の文脈や閲覧した複数のページ間の関係が失われるという問題点がある．再発見のためには，閲覧履歴を参照するという方法も考えられる．しかし，時系列順に並べられた大量の閲覧履歴情報の中から目的のページを探しだすのは困難であると考えられる．本研究では，再発見を行うために閲覧しているページの同位ページを推薦することで再発見支援を行う手法を提案する．あるページに対する同位ページとはあるページと共通の情報要求の元で閲覧したページを意味する．三重観光の例で述べると以下のページが同位関係にあると言える． • 三重の各観光情報サイト（「るるぶ」や「じゃらん」の三重の観光スポット一覧に関するページなど） • 伊勢神宮に関するページとなばなの里に関するページ前者は三重にはどのような観光名所があるかを調べるという情報要求の元で開かれている．後者は三重の各観光名所について詳しく調べるという情報要求の元で開かれている．ユーザは再発見を行うためにクエリを発行したり，リンクによる遷移を行って以前にページを発見しようとする．しかし，クエリを正確に再現できなかったり，どのリンクによって遷移を行えば良いかわからずにページを再発見出来ないことがある．しかし，再発見を行っている際の情報要求は再発見したいページを以前に閲覧した際に情報要求と類似していることが多い．したがって，再発見を行うために閲覧しているページが再発見したいページで無いならば，その同位ページの中に再発見したいページが存在すると考えた．例えば観光名所に関するページをもう一度閲覧するためにクエリを発行したとする．そのクエリが以前に目的のページを開くために開いたクエリと異なっており目的のページが検索結果のページに表示されないということはよくある．そこで，その検索結果ページの同位ページを推薦する．ここでは同位ページの中に正しいクエリによる検索結果ページが含まれる．これによって再発見したいページである正しいクエリの検索結果ページを発見できるようになる．他にも各観光名所についてもう一度調べようと，伊勢神宮に関するページを閲覧したとする．その際に，同位ページのなばなの里などの他の各観光名所のページを推薦すれば，再発見したい複数のページを容易に再発見できるようになると考えた．同位ページの推定には閲覧したページの内容に加えて，ユー

(2)

ザの閲覧行動を利用する．利用するユーザの閲覧行動は，リンクによる遷移，フォーカスするタブの切り替え，使用したクエリの類似度である．本論文の構成は以下の通りとなっている．2章で関連研究について紹介して本研究の位置づけを行う．3章で問題定義と同位ページを推定するために考慮する閲覧行動を述べ，4章で同位ページを発見する手法を提案する．5章で提案手法が有効であるかを確かめるための実験について述べる．最後に6章で本論文のまとめを述べる．

2.

3. 閲覧行動と同位ページ

3. 1 問題定義すでに閲覧したページ（URLによって識別される）の集合 P ={p1, . . . , pn}，再発見を行うために閲覧しているページ pnow_{がある，このとき，ページ}_pnow_{の同位ページらしい順に} pi∈ Pをランキングするという問題を解く．図1のように，再発見を行うために閲覧しているページに対してその同位ページを推定して推薦することで再発見支援を行う． 3. 2 同位ページを推定するための閲覧行動以下の閲覧行動とページ内容を考慮して同位ページを推定する． • リンクによるページ遷移 • タブの切り替え • 検索クエリの発行 3. 2. 1 リンクによるページ遷移あるページから複数のページをリンクによって開いたとする．このとき，開かれたページは共通の目的を達成するために開かれたと考えた．例えば，三重の観光名所についてまとめたページから伊勢神宮に関するページとなばなの里に関するページへリンクを行ったとする．このとき，伊勢神宮に関するページとなばなの里に関するページはどちらも，各観光名所について調べるという目的を達成するために開かれた．したがって，伊勢神宮に関するページに対して，なばなの里に関するページは同位ページであると考えられる． 3. 2. 2 タブの切り替えタブのフォーカスを意図的に切り替えることによって表示しているページを切り替えることがある．このようなタブの切り替え行動は，異なるタブで開かれた複数のページを比較して閲

(3)

覧するために行われることがあると考えた．例えば，三重で宿泊する場所を決定するために複数の旅館に関するページを開いて，それらをタブで切り替えて比較しながら閲覧するという行動が考えられる．このように，共通の目的を達成するためにでタブの切り替えが行われることがある．從って，タブの切り替えがあったページは同位ページである可能性がある． 3. 2. 3 検索クエリの発行 2つの検索クエリによる検索結果が類似しているとする．ユーザは情報要求を検索クエリという形で表現するので，この2つのクエリを発行した際の情報要求は類似していると考えられる．また，検索結果からリンクをたどることによって閲覧したページはクエリを発行した際の情報要求を達成するために閲覧されることが多いと考えられる．例えば，三重の観光名所を調べようと思った時に，「三重観光スポット」や「三重観光おすすめ」といったクエリを発行してリンクを行うことによって様々なページを閲覧する．このとき検索結果からリンクをたどることによって閲覧したページは三重の観光名所を調べるためであることが多いと考えられる．このように，類似するクエリからリンクの遷移を行うことによって閲覧されたページ同士は共通の情報要求があって開かれたと考えられるので同位ページである可能性が高いと考えられる．

4. 同位ページの推定

同位ページを発見するために，閲覧ページと情報要求をノード（それぞれページノード，目的ノードと呼ぶ）とする2部グラフを構築する，ページノードと目的ノードにエッジが張られているとき，目的ノードが表す情報要求の元でページが閲覧されたということを指す．あるページに対する同位ページらしさを図るために，そのページから目的ノードを経由した際の他のページへの辿りやすさを求める．リンクによるページ遷移，タブの切り替え，検索クエリの類似性をそれぞれ用いて3つの2部グラフを構築する．作成された2部グラフに対してGeneralized Co-HITSアルゴリズム[3] を適用することで同位ページを発見する． 4. 1 グラフ構築全てのグラフのページノードは閲覧ページ集合 P = {p1, . . . , pn}からなる．目的ノード集合とエッジ集合について，各グラフについて述べる．以下ではページノードxと目的ノードノードy間のエッジを(x, y)と表す． 4. 1. 1 リンクに関するグラフリンクに関するグラフでは同じページからリンクによる遷移を行って閲覧したページは全て同じ情報要求の元で閲覧されたと仮定して，グラフを構築する．従って，目的ノードはリンク元のページ数だけ作成する．同じページからリンクされたページに対して，同じ目的ノードとのエッジを張る．グラフは以下のように表される． • GL_{= (P}_{∪ N}L_{, E}L₎ • NL ={y|y = pi, lij∈ L} • EL ={(x, y)|x = pj, y = pi, lij∈ L} ページpi∈ P からページpj∈ P へのリンクをlij，このようなリンク行動の集合をLとする． 4. 1. 2 タブの切り替えに関するグラフタブの切り替えに関するグラフでは，タブの切り替えがあったページは全て共通の情報要求の元で閲覧されたという仮定に基づいてグラフを構築する．タブの切り替えがあった2つのページに対して，それらの2つのページのノードに対してエッジを張る目的ノードを作成する．グラフは以下のように表される． • GT C = (P∪ NT C, ET C) • NT C ={y|y = nT Cij , tcij∈ T C} • ET C ={(x, y)|x∀∈ {pi, pj}, y = nT Cij ∈ NT C} nT C ij はpi ∈ P とpj ∈ P に対してエッジを張る目的ノード， tcijはi < jであり，pi∈ P とpj∈ P の間にタブの切り替えが生じたことを表す．TCはこのようなタブ切り替え情報集合である． 4. 1. 3 検索クエリの類似性に関するグラフ 2組の検索クエリが類似しているとする．検索クエリの類似性に関するグラフでは，それらのクエリからリンクによる遷移を行って閲覧したページは全て共通の情報要求の元で閲覧されたという仮定に基いてグラフを構築する．検索クエリの類似度は検索結果ページの類似度を用いて計算する．グラフは以下のように表される． • GSQ = (P∪ NSQ, ESQ) • NSQ ={y|y = nSQ_{ij mn}, pn∈ C_iq, pm∈ C_jq, simp(pqi, p q j) > θ, p q i ∈ P q , pqj∈ P q_} • ESQ₌_{{(x, y)|x}∀_{∈ {p} m, pn}, y = nSQij mn∈ N SQ_} nSQ_{ij mn}は2つの検索結果ページpi∈ P とpj∈ P が類似していることに対してpm∈ Pとpn∈ P に対してエッジを張る目的ノード，pq_i は検索結果ページを指す．Pqは検索結果ページ集合であり，Pq⊂ P である．Cqi はページp q i ∈ P q からリンクの遷移によって訪問したページの集合を表す．simp_(p i, pj)はページpiとページpjとのページ類似度であり，θ∈ [0, 1]はどの程度類似度が高ければ類似していると判断するかを表す閾値である．本研究ではページの類似度をページの特徴ベクトルのコサイン類似度を用いて計算した．ページの特徴ベクトルは，ページの内容を形態素解析し，N-Gram法を用いて出てきた語の頻出度を用いた．本研究ではN=2とした．形態素解析には TinySegmenter（注 1）を用いた．この解析器は，Javascriptで作成されており，ブラウザ上で動作するが，分かち書きのみで品詞推定を行うことができない．そこで，ストップワードリストを作成し精度を向上させた． 4. 2 Generalized Co-HITSアルゴリズムを用いた同位ページの計算上記で構築した各グラフG = (P∪ N, E)に，Generalized Co-HITSアルゴリズムを適用し，入力ページpinに対してページp∈ P の同位ページらしさを求める．Generalized Co-HITS アルゴリズムは，ページノードpi ∈ P の値xiと目的ノード ni∈ N の値yiをエッジにそって伝播していくアルゴリズムで（注 1）：http://chasen.org/ taku/software/TinySegmenter/

(4)

ある．具体的に，以下の計算式によってxiとyiの値を更新する．このアルゴリズムでは，xi∈ [0, 1]，yi∈ [0, 1]となる． xi= (1− λp)x0i + λp

∑

nj∈N w_jinpyj (1) yj= (1− λn)yj0+ λn

∑

pi∈P w_ijpnxi (2) x0iはpiの初期値，y0jはnjの初期値であり，

∑

x0i =

∑

yj0= 1である．wnpji およびw pn ij は枝の重みであり，w np ji はnjから piへの枝の重みである．また，

∑

pi∈Pw np ji =

∑

nj∈Nw pn ij = 1 である．λp∈ [0, 1]およびλn∈ [0, 1]はx0i，y0jをどの程度重視するかを表すパラメータであり，値が小さいほど，x0i，y 0 jを重要であるとみなす．上記のアルゴリズムは共通の目的ノードに対してエッジが張られたページノードの値が近いものになる．したがってページノードの初期値として，ページpinと，同位ページらしいページが高くなるようにすれば，ページpinとより同位ページらしいページが求まる．ここで類似するページは同位ページらしいという仮定を置く．ページの類似度を計算する際にはページの中身だけでなく，タイトルも使用した．これは，Webページの中には，中身が画像であったりして，ページの内容（HTML）がそのページの内容を正しく表していない場合があるからである．pi，niの初期値を以下のように設定する． x0i = (1− a)simp(pin, pi) + asimt(pin, pi)

∑

p_k∈P

(

(1− a)simp(pin, pk) + asimt(pin, pk)

)

(3) y0i = 1/|N| (4) ここでa∈ [0, 1]は，タイトルの類似度をどれだけ重視するかを表す係数であり，|N|は目的ノード総数，simt_(p i, pj)はタイトルの類似度を指す．タイトルの類似度はタイトルをN-Gram 法によって特徴ベクトルに分割し（本研究ではN=2とした），その特徴ベクトルのコサイン類似度を用いて計算する．枝の重みは，枝を張るような閲覧行動があった回数を用いてに計算する．リンクに関するグラフではは多くの回数リンクしているほど，リンク元のページを閲覧した目的を達成するためにリンクによる遷移が行われた考えた．ページAからページB にリンクを5回，ページCにリンクを1回，ページDにリンクを4回行ったとする．この時，ページBに対してページD のほうがページCよりも同位ページらしいと考えられる．このような理由から以下のように枝の重みを設定する． wjinp= count(lji)

∑

pk∈P count(ljk) , wijpn= count(lji)

∑

nk∈NL count(lki) (5) count(lij)は，ページpiからページpjへのリンクがあった回数を指す．タブ切り替えに関しても，タブ切り替え回数が多いほど，共通の目的を達成するためであると考えられるので以下のように枝の重みを設定する．ただし，目的ノードからページノードへは全て2つのエッジのみが張られるので，その重みは全て0.5 となる w_jinp=1 2, w pn ij = count(tcij)

∑

nk∈NL count(tcik) (6) count(tcij)は，ページpiとページpjの間でタブの切り替えがあった回数を指す．クエリの類似度に関しては，全てのエッジの重みを均等に扱う．エッジを張る際にすでに閾値を用いて枝刈りをしているので，全てのエッジの重みが等しいと考えた．したがって以下のように計算される． w_jinp=1 2, w pn ij = 1 EdgeNum(pi) (7) EdgeNum(pi)はpiに張られているエッジの本数を指す． 4. 3 各グラフによって得られた同位ページらしさの結合各グラフに上記のGeneralized Co-HITSアルゴリズムを適用すると，入力したページに対する各ページの同位ページらしさの値が求まる．リンクに関するグラフで求めたページpi∈ P の値をxLi，タブの切り替えに関するグラフで求めた値をxT Ci ，検索クエリの類似性に関するグラフで求めた値をxSQi とする．これらの値を合わせることで最終的な同位ページらしさの値を決定する． xi= αxLi + βxT Ci + γxSQi (8) α，β，γはそれぞれのグラフをどの程度重視するかを表す係数である．

5. ユーザ実験

提案手法が有効であるかを検証する正解データを作成ためにユーザ実験を行った．ユーザ実験の目的は再発見を行っている際に，どのページを推薦して欲しいかというデータを取得することである． 5. 1 実験内容実験は情報検索に慣れた20代の男性4人に行ってもらった．実験の概要は以下の通りである．（1）情報をまとめるようなタスクを20分間行ってもらう．まとめる際にはメモを作成してもらう．（タスク1）（2） 1週間後，メモを紛失したということでもう一度20分間以内で同じメモを再現してもらう．(タスク2) （3）再発見に関するアンケートに答えてもらう．以下の状況を想定したタスクを行ってもらった． • 友達と温泉旅行へ行きたい．どこの温泉地へ行くかを決めるために各温泉地の良いところと悪いところをまとめることになった．この状況を想定して各温泉地の良いところと悪いところをまとめたメモを作成してもらった．アンケートは，再発見時に閲覧しているページに対して，どのページが推薦されれば嬉しいかという情報を得るために行った．アンケート内容は表1に示す．アンケートでは，タスク2を行っている際にいつ，どのページを推薦して欲しかったかということを聞いた．

(5)

表 1 アンケート内容（1）温泉地について詳しいですか（5 段階で評価）（2）タスク 2 を行っていた際にタスク 1 で閲覧したページを推薦されると嬉しかったであろう場面を最低 3 つあげて下さい．その時に閲覧していたページと推薦して欲しいページをあげて下さい．なお，推薦して欲しいページは１つでも複数でも構いません．表 2 取得した情報閲覧したページの情報ページ ID URL タイトル中身（html）閲覧開始時間閲覧終了時間フォーカスしていた時間開いているタブの ID セレクション文字列タブの切り替え情報切り替え元ページ ID 切り替え先ページ ID 切り替え元タブ ID 切り替え先タブ ID 切り替えた時間表 3 被験者の閲覧行動の定量的情報タスク 1 タスク 2 全体閲覧ページ数 60.7 39.0 99.7 ユニークページ数 43.7 35.0 66.3 発行クエリ数 9.0 7.3 12.7 リンク数 33.3 24.3 57.7 タブの切り替え数 16.3 5.3 21.7 実験に使用したパソコンのOSはWindows8であり，ブラウザはFirefox（注 2）である．Firefoxの拡張機能と閲覧履歴を利用して閲覧したページの情報とタブの切り替え情報を取得した．取得した詳細な情報は表2のとおりである．ブラウザには，被験者の閲覧行動を記録する拡張機能のみが入っており，その他の拡張機能は入っていない．ブラウザには閲覧履歴が何も無い状態で実験を行うので，閲覧履歴情報を用いると簡単に再発見ができてしまう．そこで，閲覧履歴情報を閲覧することを禁止した． 5. 2 実験のユーザの閲覧行動に関する結果実験結果を以下に記す．実験で被験者の平均の閲覧したページ数，ユニークページ数，タブの切り替え数，リンクを行った回数，発行したユニーク検索クエリ数を表3に記す．閲覧ページについては再訪問率が約50％となっており大変高いことが分かる．また，タスク1に比べてタスク2の方が閲覧ページや発行クエリ，タブの切り替え数が少なく，効率よく再発見ができていることが分かる．また，全体の閲覧ページ数99.7ページに対してリンク数が57.7回であり，ページ訪問の半分以上がリンクによるものであるということが分かる．温泉地の詳しさについては平均2.5点（どちらでもないが3 点，点数が大きいほど詳しい）であった．被験者は全員それほど温泉地について詳しく無いことが分かる．ユーザはタスク2 において，時間内に以前のメモをほぼ再現出来ていた．以前ま（注 2）：http://www.mozilla.jp/firefox/ 表 4 各グラフの MAP と正解データの各組に対して初期値と各手法を比べた際の平均適合率が大きい組、小さい組、同じ組の数 MAP(標準偏差) 大きい小さい同じ類似度（内容のみ） 0.271(0.314) - - -類似度（内容＋タイトル） 0.302(0.314) - - -リンク 0.335(0.360) 3 5 6 タブ切り替え 0.325(0.368) 2 6 6 クエリ類似度 0.324(0.364) 4 4 6 リンク＋タブ＋クエリ 0.341(0.366) 5 7 2 表 5 各パラメータの値 λL _λT C _λQS _α _β _γ _a _θ 類似度（内容のみ） - - - 0 -類似度（内容＋タイトル） - - - 0.5 -リンク 0.2 - - 1 0 0 0.5 -タブ切り替え - 0.1 - 0 1 0 0.5 -クエリ類似度 - - 0.1 0 0 1 0.5 0.5 リンク＋タブ＋クエリ 0.9 0.3 0.3 1 1 1 0.5 0.3 とめた温泉地の情報に加えて，更なる温泉地の情報をまとめている被験者もいた． 5. 3 評価方法実験で得られたデータを用いて提案手法の有効性を評価する．タスク1で閲覧したページ集合をPt1_，タスク₂_で閲覧したページ集合をPt2とする．アンケートで得た推薦して欲しい時に閲覧していたページpt2i ∈ P t2 とその時に推薦してもらうと嬉しい複数のページの集合Pit1′ ⊂ Pt1の組に対して評価を行う．ユーザからのアンケートによってこのような組を14個得られた．推薦してもらうと嬉しいページのページ数の平均は 2.00ページであった．タスク1で閲覧したページに対して4. 1節で示したようにグラフを構築する．推薦して欲しい時に閲覧していたページ pt2 i を入力としてGeneralized Co-HITSアルゴリズムを適用し，タスク1で閲覧したページpt1 j ∈ Pt1との同位ページらしさを計算してランキングをつける．このランキングに対して推薦して欲しいページpt1j ∈ P t1′ i を正解として，平均適合率を求めた．これを各組毎に求めその平均値を評価値とした．これは一般にMAP(Mean Average Precision)と言われる評価値であ

る．MAPを用いる理由は，推薦して欲しいページ全てを発見することを目的としているからである．ベースラインとして， pt1j′ ∈ P t1′ をページpt2i との類似度によってランキングしたもの（Generalized Co-HITSアルゴリズムの初期値）を用いた． 5. 4 評価結果結果を表4，各パラメタの値を5に示す．類似度に関して，タイトルを全く考慮しない場合に比べて，タイトルを考慮した方が良いことが分かる．全ての場合においてMAPはベースラインを上回った．単体のグラフを用いる場合，λの値が大きくなるに連れてMAPの値は下がった．リンクに関するグラフは単体のグラフのMAPでは最も高い値をとっている．タブの切り替えに関するグラフでは，MAPが上昇しているが，平均適合率が下がっている組が6つもあり，有用でない場合も多いと

(6)

いうことが分かる．クエリの類似度に関するグラフでは，MAP は提案手法の中でもっとも低いが，4つの組で平均適合率が上昇しており他の提案手法よりも多い．正解データの各組について見る．現在見ているページから，リンクによってたどることはできないが，似たような目的で閲覧されたページを推薦してほしいとなっている解答が多く見受けられた．例えば「温泉メリットデメリット」というクエリの検索結果ページを閲覧している際に「温泉の特徴｜メリット・デメリット.com」というページを推薦してほしいとしている組があった．この推薦して欲しいページは「温泉メリットデメリット」というクエリでは発見出来ない．以前は「日本温泉デメリット」というクエリを用いて発見したページである．「温泉メリットデメリット- Google検索」というページに対しては「日本温泉デメリット- Google検索」のページの方が「温泉の特徴｜メリット・デメリット.com」というページに比べて同位ページらしい．したがって，推薦して欲しいページとしては，同位ページらしさに加えてそのページがどれだけ目的の達成に寄与したかということも考慮する必要があると考えられる．

6. おわりに

本論文では，再発見に有用なページとして同位ページを提案し，同位ページを推定する手法を提案した．同位ページの推定には以下の閲覧行動の特徴を利用した． • リンクによる遷移 • タブの切り替え • クエリの類似度このような特徴を用いて 2部グラフを作成し，Generalized Co-HITSアルゴリズムを適用し同位ページを推定した．実験の結果，提案手法がある程度有用であることがわかった．今後の課題として，実験数が少ないので実験数を増やす必要があると考えられる．また，本研究ではページとページの同位関係のみを使用して再発見支援のための推薦を行う手法を提案した．しかし，同位関係にあるページからリンクによって辿ることができるページを推薦して欲しいという実験データも多かった．従って同位関係だけでなく，再発見されやすいページの性質も考慮する必要があると考えられる．今後の発展として，現在は一人の閲覧ページ内で同位ページを発見することを目標としているが，複数人の閲覧行動から同位ページを抽出して推薦するということが考えられる．これによって，自分では発見出来なかったが他の人が同じ情報要求の元で閲覧したページを発見できるようになる．

謝

辞

本研究の一部は，文部科学省科学研究費補助金（課題番号 24240013，24680008）によるものです．ここに記して謝意を表します．文献

[1] Eytan Adar, Jaime Teevan, and Susan T Dumais. Large scale analysis of web revisitation patterns. In Proceedings

of the SIGCHI conference on Human Factors in Computing Systems, pp. 1197–1206. ACM, 2008.

[2] Robert G Capra III. An investigation of finding and

refind-ing information on the web. PhD thesis, Virginia

Polytech-nic Institute and State University, 2006.

[3] Hongbo Deng, Michael R Lyu, and Irwin King. A gen-eralized co-hits algorithm and its application to bipartite graphs. In Proceedings of the 15th ACM SIGKDD

interna-tional conference on Knowledge discovery and data mining,

pp. 239–248. ACM, 2009.

[4] Patrick Dubroy and Ravin Balakrishnan. A study of tabbed browsing among mozilla firefox users. In Proceedings of the

SIGCHI Conference on Human Factors in Computing Sys-tems, pp. 673–682. ACM, 2010.

[5] Magdalini Eirinaki, Michalis Vazirgiannis, and Dimitris Ka-pogiannis. Web path recommendations based on page rank-ing and markov models. In Proceedrank-ings of the 7th annual

ACM international workshop on Web information and data management, pp. 2–9. ACM, 2005.

[6] Ricardo Kawase, George Papadakis, Eelco Herder, and Wolfgang Nejdl. Beyond the usual suspects: context-aware revisitation support. In Proceedings of the 22nd ACM

con-ference on Hypertext and hypermedia, pp. 27–36. ACM,

2011.

[7] Dan Morris, Meredith Ringel Morris, and Gina Venolia. Searchbar: a search-centric web history for task resumption and information re-finding. In Proceedings of the SIGCHI

Conference on Human Factors in Computing Systems, pp.

1207–1216. ACM, 2008.

[8] Ippei Nishimoto and Masashi Toda. Process-recollective refinding on the web. In Proceedings of the 2006

IEEE/WIC/ACM International Conference on Web Intel-ligence, pp. 883–892. IEEE Computer Society, 2006.

[9] Hartmut Obendorf, Harald Weinreich, Eelco Herder, and Matthias Mayer. Web page revisitation revisited: implica-tions of a long-term click-stream study of browser usage. In

Proceedings of the SIGCHI conference on Human factors in computing systems, pp. 597–606. ACM, 2007.

[10] Hsiao-Tieh Pu and Xin-Yu Jiang. A comparison of how users search on web finding and re-finding tasks. In

Pro-ceedings of the 2011 iConference, pp. 446–451. ACM, 2011.

[11] Jaime Teevan, Eytan Adar, Rosie Jones, and Michael AS Potts. Information re-retrieval: repeat queries in yahoo’s logs. In Proceedings of the 30th annual international ACM

SIGIR conference on Research and development in infor-mation retrieval, pp. 151–158. ACM, 2007.

[12] Sarah K Tyler and Jaime Teevan. Large scale query log analysis of re-finding. In Proceedings of the third ACM

in-ternational conference on Web search and data mining, pp.

191–200. ACM, 2010. [13] 星加拓人. タブブラウザ上のウェブアクセス履歴の分析. 修士論文，法政大学, 2011. [14] 内藤稔, 大島裕明, 高橋亜希子, 田中克己. 複数文書閲覧時の文書間の意味的関係の抽出と提示による文書ナビゲーション. 第９回日本データベース学会年次大会，F8-4, 2011.

再発見を試みるユーザ 入力閲覧ページ出力同位ページ 以前に閲覧したページ 同位ページの推定 2. 1 [4], [13] Dubroy [4] [13] 4 [1], [2], [8], [10], [12] Nshmoto [8] Capra [2] Exact Path Su

DEIM Forum 2015 B2-5

閲覧・検索行動履歴に基づく情報再発見

武田

裕介

大島

裕明

田中

克己

†

京都大学大学院情報学研究科

〒 606–8501 京都府京都市左京区吉田本町

E-mail:

†{

takeda,ohshima,tanaka

}

@dl.kuis.kyoto-u.ac.jp

あらまし 本論文では，閲覧した複数の Web ページ間の関係から，あるページと共通の情報要求の元で閲覧したペー

ジ（同位ページ）を推定する手法を提案する．再発見を行っている際に閲覧しているページの同位ページを推薦するこ

とで再発見を支援する．再発見を行う際の情報要求と，再発見したいページを以前に閲覧していた際の情報要求は類

似していることが多いと考えられる．従って再発見を行うために閲覧しているページの同位ページの中に再発見した

いページが存在すると考えられる．同位ページの推定には，リンクやタブの切り替え，クエリの類似度といったユー

ザの閲覧・検索行動に関係する複数ページ間の関係を使用する．

キーワード 再発見，ブックマーク

1.

は じ め に

2.

関 連 研 究

3.

閲覧行動と同位ページ

4.

同位ページの推定

∑

∑

∑

∑

∑

∑

∑

(

)

∑

∑

∑

5.

ユーザ実験

6.

お わ り に

謝

辞

再発見を試みるユーザ入力閲覧ページ出力同位ページ以前に閲覧したページ同位ページの推定 2. 1 [4], [13] Dubroy [4] [13] 4 [1], [2], [8], [10], [12] Nshmoto [8] Capra [2] Exact Path Su

あらまし本論文では，閲覧した複数の Web ページ間の関係から，あるページと共通の情報要求の元で閲覧したペー

キーワード再発見，ブックマーク

はじめに

関連研究

おわりに