関連情報集合の重要度に基づく利用情報予測手法

関連情報集合の重要度に基づく利用情報予測による情報アクセス活動支

5.1 関連情報集合の重要度に基づく利用情報予測手法

5.1.1 手法全体の流れ

本研究では，作業の中心となったリソースは多くのリソースからアクセスされやすいという仮説に則った手法を提案する．この手法を評価するために，図5.1に示すように，まず，作業とその作業遂行に利用するリソースとを対応付けさせ，つぎに，各作業内のリソースの中心性を算出する．

リソースアクセス履歴から作業を遂行するのに一緒に利用していたリソース群を抽出する手法に関しては，第4章で提案した手法を利用する．抽出された作業集合の中から，現在アクセスしているリソースが属している作業を特定し，その作業集合内の各リソースの中心性を算出する．算出された中心性が，該当作業において将来アクセスされる可能性を示し，この値に基づきアクセスリソースを予測することで，過去のアクセスパターンに出現しないアクセスであっても予測できることが期待できる．

我々が蓄積するリソースアクセス履歴について説明する．利用する履歴情報は，第4章と同様に，各リソースの識別子，リソースの可視率，履歴の生成時刻の3^{つである．取得} トリガは，リソース識別子の変化，最前面リソースの変化，リソース可視率の変化である．

記号xとyについて述べる．xは予測時点での最前面リソースで，yはxの後にアクセスされるリソースである．

5.1.2 関連情報集合の重要度の算出

予測手順は以下の通りである．まず，予測時の最前面リソースが属している作業集合を特定する．特定された作業集合の各リソースに対して，該当作業への中心性を算出する．

中心性の値が高いリソースが，アクセスされやすいということを意味する．図5.2に示すように，最前面リソースがPDFファイルであった場合，そのリソースが属している作業集合，ここでは発表資料作成作業集合を特性する．集合内の各リソースの中心性を算出する．図中のアイコンの大きさが中心性の度合いが高いことを意味する．この高さに応じて，ユーザが将来アクセスするリソースが予測される．

5.2 評価実験 45

図5.2 作業集合内リソースの中心性に基づくリソースアクセス予測

中心性の算出手法には次数中心性や媒介中心性などが存在しているが，本研究では

PageRankを利用する．PageRankで用いられている仮説は，「多くの良質なページから

リンクされているページは，やはり良質なページである．」であり，本研究に例えると，

「中心的な役割を担った多くのリソースからアクセスされているリソースは，やはり中心的な役割を担ったリソースである」と言える．PageRankを用いて中心性を算出するためには，リソース間の有向リンクが必要となる．そこで，最前面リソースxからリソースy へアクセスした場合，xからyへ有向リンクを張ることとする．

5.2 ^評価実験

5.2.1 ^実験仕様

提案手法の性能を測るために，頻出アクセスパターンで主に用いられている手法を一般化したF(x, y)と，V(x, y)との比較実験を行なう．F(x, y)でのTC(x, y)は，リソースアクセス履歴内で，最前面リソースxの後にリソースyへアクセスした回数であり，a, b は全ての組合せの中で TCの値が最大となる組合せを指す．F(x, y)の値が高いyほど，

x の後にアクセスされる可能性が高いことを意味する．リソース可視率を利用したV(x, y)において，リソースの配置関係に変化があった時刻をiとし，ti を変化が起こる前の配置関係でリソースが見えていた時間，vi(y)を時刻iで該当リソースyが見えていた割合とする．term_i(x, y)は時刻iで最前面リソースxと共起しているリソース yの多くの領域がユーザから見えている時間が長くなると高くなる．そして，V(x, y)はある任意の時間内にn回，リソースの配置関係に変化があったとした際のリソース共起率である．c, d は全てのリソースの組合せの中で∑

termの値が最大となる組合せを指す．V(x, y)^の値が高いyほど，xの後にアクセスされる可能性が高いとする手法である．

46 第5章関連情報集合の重要度に基づく利用情報予測による情報アクセス活動支援の実現

F(x, y) = T C(x, y)

maxa,b T C(a, b) (5.1)

V(x, y) =

∑n

k=1termk(x, y) max_c,d ∑n

k=1term_k(c, d) (5.2)

term_i(x, y) =t_i×v_i(y) (5.3)

リソースアクセス履歴の取得は，OS Xに備わっているAPIを用いた．このAPIはリソースのローカルファイルシステムに対するアクセスを認識できるため，アプリケーションによって開かれているファイルが保存されている場所を取得できる．しかし，ブラウザによるWeb閲覧ではブラウザ内で処理が完結しているため，アクセスしていた Web ページのURLを取得することができない．そこで，Google Chrome Extensionsを利用して，リソースアクセス履歴情報取得時にアクセスしていたWeb^ページのURL^を取得し，予測評価実験の事前に補完させる．Extensionsにおける取得トリガはタブの切替とタブの更新である．リソースの可視率は，予測評価実験の事前に一括して算出するため，

リソースアクセス履歴情報取得時には，可視率算出に必要な各情報（リソースの x, y^座標，リソースの縦横の長さ，Z軸の値，スクリーンの x, y座標，スクリーンの縦横の長さ）の取得にとどめる．

取得したリソースアクセス履歴の中からリソースを同定させる必要がある．つぎの手順でリソースを同定させる．まず，ローカルファイルシステムからファイルの保存場所が取得できたら，この情報を利用する．つぎに，ExtensionsからURLが補完された場合，

このURLを利用する．最後に，リソースのタイトルと，リソースが開かれているアプリケーション名の組を利用する．しかし，リソースタイトルにはたとえば，タイトルの前後に「（更新中）」や「（m件のメッセージ）」といった文字列が追加されることがある．そこで，リソースを適切に同定できるように，リソース同定の妨げとなるこれらの文字列を除くこととする．

5.2.2 評価の流れ

被験者は研究室の学生5名で，実験期間は1〜3週間とした．被験者には普段からOS X が搭載されているPCを使用している人を選択した．各被験者が所有しているPCに履歴収集ツールをインストールしてもらい，被験者には普段通りのPC利用を促した．そのため，複数の作業を並行して行なうこともあるし，息抜きに作業とは関係のないことも行なっている．提案手法の評価のために，実験後にリソースアクセス履歴に存在する全リソースを手動で分類してもらった．これら分類の結果を正解作業集合と見なす．正解作業集合を表5.1に示す．

5.2 評価実験 47

表5.1 正解作業集合

被験者作業内容リソース数

a (3 週間)

Unity^{についてブラウジング} 21

研究に関するコーディング 50

mecabについて調査 62

研究に関する調査 22 辞書を使って単語を調べる 56 ゼミの発表資料作成 43

論文サーベイ 44

論文執筆 51

b (1 週間) 研究に関するコーディング 39 ゼミの発表資料作成 23

c (2 週間)

目的地の調査 25

趣味に関するコーディング 97 研究に関するコーディング 149

TA業務 44

中間発表の発表資料作成 30

d (2 週間)

人と連絡 20

ヒートマップに関するコーディング 30 可視化に関するコーディング 29 マイコンに関する調査 21

SNSの閲覧 11

中間発表の発表資料作成 230 ゼミの発表資料作成 44

e (2 週間)

人と連絡 18

研究に関するコーディング 116 中間発表の発表資料作成 90

ゼミの発表資料作成 9 新しい自転車の調査 7

評価の流れは以下の通りである．各被験者のi日までの履歴を各予測手法の学習データとして利用し，i+1日目の履歴を評価データとして利用する．最前面リソースxの後に実際にアクセスされたオブジェクトyが，各手法で予測したtop r(r=5, 10)以内に含まれていれば，予測が正解したとする．ただし，x ^とy のどちらかが学習データに出現して

48 第5章関連情報集合の重要度に基づく利用情報予測による情報アクセス活動支援の実現表5.2 予測精度(r=5)

被験者提案 F^手法 V^手法 a 39.36 41.19 25.27 b 27.27 54.96 23.48 c 44.81 21.32 13.95

d 4.57 17.29 8.22

e 39.34 41.23 10.43

表5.3 予測精度(r=10) 被験者提案 F^手法 V^手法

a 43.09 53.01 42.20 b 46.21 55.30 37.88 c 59.35 27.30 26.11

d 9.13 21.00 15.98

e 45.97 47.87 38.86

いなければ予測できない，言い換えるとアクセスでないため，評価の対象外とする．S(x, y)^{を求める際のα}, ^{βの値はともに}0.5とする．抽出された作業集合と正解作業集合との

ARI[86]値が最大となる閾値を算出し，提案手法による予測に利用する．ここで2つの集

合間のARIは次のようにして求める．

ARI = Σ_i,j(_n_i,j

)−[ Σ_i(_n_i.

)Σ_j(_n_.j

)]/(_n

)

1 2

[Σi

(_n_i.

)+ Σj

(_n_.j

)]−[ Σi

(_n_i.

)Σj

(_n_.j

)]/(_n

) (5.4)

ARIは二つの集合が類似していると高い値をとり（最大が1），ランダムに集められると 0に近づくという性質を持つ．

評価尺度は2つである．

予測精度= ^{正解したアクセスの数}

全アクセスの数 (5.5)

予測種類= 正解したアクセスの種類

全アクセスの種類 (5.6) 予測精度のみでは高くなった原因が，同一リソース間での頻繁なアクセスを予測できたのか，ユーザの自由自在なアクセスを適切に予測できたのか区別できない．多様なアクセスを予測できると予測種類の値が高くなる．

5.2.3 ^{実験結果と考察}

正解の閾値をtop5，top10としたときの各被験者での予測精度についてそれぞれ表5.2 と表5.3に，同様に予測種類についてそれぞれ表5.4と表5.5に示す．予測精度，予測種類は被験者によって異なっているということがわかる．

本研究で提案しているPageRankに基づく予測手法は，F手法とV手法の中間の位置になった．しかし，被験者cにおいては，予測精度，予測種類ともに提案手法が一番高い値となった．被験者cは趣味のコーディングにおいて，学習データ期間では共起関係のないいくつかのjavaソースコードを，評価データ期間ではアクセスしていた．提案手法で

ドキュメント内立命館学術成果リポジトリ (ページ 54-60)

関連情報集合の重要度に基づく利用 情報予測による情報アクセス活動支