• 検索結果がありません。

関連情報集合の重要度に基づく利用情報予測手法

ドキュメント内 立命館学術成果リポジトリ (ページ 54-60)

関連情報集合の重要度に基づく利用 情報予測による情報アクセス活動支

5.1 関連情報集合の重要度に基づく利用情報予測手法

5.1.1 手法全体の流れ

本研究では,作業の中心となったリソースは多くのリソースからアクセスされやすいと いう仮説に則った手法を提案する.この手法を評価するために,図5.1に示すように,ま ず,作業とその作業遂行に利用するリソースとを対応付けさせ,つぎに,各作業内のリ ソースの中心性を算出する.

リソースアクセス履歴から作業を遂行するのに一緒に利用していたリソース群を抽出す る手法に関しては,第4章で提案した手法を利用する.抽出された作業集合の中から,現 在アクセスしているリソースが属している作業を特定し,その作業集合内の各リソースの 中心性を算出する.算出された中心性が,該当作業において将来アクセスされる可能性を 示し,この値に基づきアクセスリソースを予測することで,過去のアクセスパターンに出 現しないアクセスであっても予測できることが期待できる.

我々が蓄積するリソースアクセス履歴について説明する.利用する履歴情報は,第4章 と同様に,各リソースの識別子,リソースの可視率,履歴の生成時刻の3つである.取得 トリガは,リソース識別子の変化,最前面リソースの変化,リソース可視率の変化である.

記号xとyについて述べる.xは予測時点での最前面リソースで,yはxの後にアクセ スされるリソースである.

5.1.2 関連情報集合の重要度の算出

予測手順は以下の通りである.まず,予測時の最前面リソースが属している作業集合を 特定する.特定された作業集合の各リソースに対して,該当作業への中心性を算出する.

中心性の値が高いリソースが,アクセスされやすいということを意味する.図5.2に示す ように,最前面リソースがPDFファイルであった場合,そのリソースが属している作業 集合,ここでは発表資料作成作業集合を特性する.集合内の各リソースの中心性を算出す る.図中のアイコンの大きさが中心性の度合いが高いことを意味する.この高さに応じ て,ユーザが将来アクセスするリソースが予測される.

5.2 評価実験 45

5.2 作業集合内リソースの中心性に基づくリソースアクセス予測

中心性の算出手法には次数中心性や媒介中心性などが存在しているが,本研究では

PageRankを利用する.PageRankで用いられている仮説は,「多くの良質なページから

リンクされているページは,やはり良質なページである.」であり,本研究に例えると,

「中心的な役割を担った多くのリソースからアクセスされているリソースは,やはり中心 的な役割を担ったリソースである」と言える.PageRankを用いて中心性を算出するため には,リソース間の有向リンクが必要となる.そこで,最前面リソースxからリソースy へアクセスした場合,xからyへ有向リンクを張ることとする.

5.2 評価実験

5.2.1 実験仕様

提案手法の性能を測るために,頻出アクセスパターンで主に用いられている手法を一般 化したF(x, y)と,V(x, y)との比較実験を行なう.F(x, y)でのTC(x, y)は,リソース アクセス履歴内で,最前面リソースxの後にリソースyへアクセスした回数であり,a, b は全ての組合せの中で TCの値が最大となる組合せを指す.F(x, y)の値が高いyほど,

x の後にアクセスされる可能性が高いことを意味する.リソース可視率を利用したV(x, y)において,リソースの配置関係に変化があった時刻をiとし,ti を変化が起こる前の配 置関係でリソースが見えていた時間,vi(y)を時刻iで該当リソースyが見えていた割合 とする.termi(x, y)は時刻iで最前面リソースxと共起しているリソース yの多くの領 域がユーザから見えている時間が長くなると高くなる.そして,V(x, y)はある任意の時 間内にn回,リソースの配置関係に変化があったとした際のリソース共起率である.c, d は全てのリソースの組合せの中で∑

termの値が最大となる組合せを指す.V(x, y)の値 が高いyほど,xの後にアクセスされる可能性が高いとする手法である.

46 第5章 関連情報集合の重要度に基づく利用情報予測による情報アクセス活動支援の実現

F(x, y) = T C(x, y)

maxa,b T C(a, b) (5.1)

V(x, y) =

n

k=1termk(x, y) maxc,dn

k=1termk(c, d) (5.2)

termi(x, y) =ti×vi(y) (5.3)

リソースアクセス履歴の取得は,OS Xに備わっているAPIを用いた.このAPIはリ ソースのローカルファイルシステムに対するアクセスを認識できるため,アプリケーショ ンによって開かれているファイルが保存されている場所を取得できる.しかし,ブラウ ザによるWeb閲覧ではブラウザ内で処理が完結しているため,アクセスしていた Web ページのURLを取得することができない.そこで,Google Chrome Extensionsを利用 して,リソースアクセス履歴情報取得時にアクセスしていたWebページのURLを取得 し,予測評価実験の事前に補完させる.Extensionsにおける取得トリガはタブの切替と タブの更新である.リソースの可視率は,予測評価実験の事前に一括して算出するため,

リソースアクセス履歴情報取得時には,可視率算出に必要な各情報(リソースの x, y 標,リソースの縦横の長さ,Z軸の値,スクリーンの x, y座標,スクリーンの縦横の長 さ)の取得にとどめる.

取得したリソースアクセス履歴の中からリソースを同定させる必要がある.つぎの手順 でリソースを同定させる.まず,ローカルファイルシステムからファイルの保存場所が 取得できたら,この情報を利用する.つぎに,ExtensionsからURLが補完された場合,

このURLを利用する.最後に,リソースのタイトルと,リソースが開かれているアプリ ケーション名の組を利用する.しかし,リソースタイトルにはたとえば,タイトルの前後 に「(更新中)」や「(m件のメッセージ)」といった文字列が追加されることがある.そこ で,リソースを適切に同定できるように,リソース同定の妨げとなるこれらの文字列を除 くこととする.

5.2.2 評価の流れ

被験者は研究室の学生5名で,実験期間は1〜3週間とした.被験者には普段からOS X が搭載されているPCを使用している人を選択した.各被験者が所有しているPCに 履歴収集ツールをインストールしてもらい,被験者には普段通りのPC利用を促した.そ のため,複数の作業を並行して行なうこともあるし,息抜きに作業とは関係のないことも 行なっている.提案手法の評価のために,実験後にリソースアクセス履歴に存在する全リ ソースを手動で分類してもらった.これら分類の結果を正解作業集合と見なす.正解作業 集合を表5.1に示す.

5.2 評価実験 47

5.1 正解作業集合

被験者 作業内容 リソース数

a (3 週間)

Unityについてブラウジング 21

研究に関するコーディング 50

mecabについて調査 62

研究に関する調査 22 辞書を使って単語を調べる 56 ゼミの発表資料作成 43

論文サーベイ 44

論文執筆 51

b (1 週間) 研究に関するコーディング 39 ゼミの発表資料作成 23

c (2 週間)

目的地の調査 25

趣味に関するコーディング 97 研究に関するコーディング 149

TA業務 44

中間発表の発表資料作成 30

d (2 週間)

人と連絡 20

ヒートマップに関するコーディング 30 可視化に関するコーディング 29 マイコンに関する調査 21

SNSの閲覧 11

中間発表の発表資料作成 230 ゼミの発表資料作成 44

e (2 週間)

人と連絡 18

研究に関するコーディング 116 中間発表の発表資料作成 90

ゼミの発表資料作成 9 新しい自転車の調査 7

評価の流れは以下の通りである.各被験者のi日までの履歴を各予測手法の学習データ として利用し,i+1日目の履歴を評価データとして利用する.最前面リソースxの後に実 際にアクセスされたオブジェクトyが,各手法で予測したtop r(r=5, 10)以内に含まれ ていれば,予測が正解したとする.ただし,x y のどちらかが学習データに出現して

48 第5章 関連情報集合の重要度に基づく利用情報予測による情報アクセス活動支援の実現 5.2 予測精度(r=5)

被験者 提案 F手法 V手法 a 39.36 41.19 25.27 b 27.27 54.96 23.48 c 44.81 21.32 13.95

d 4.57 17.29 8.22

e 39.34 41.23 10.43

5.3 予測精度(r=10) 被験者 提案 F手法 V手法

a 43.09 53.01 42.20 b 46.21 55.30 37.88 c 59.35 27.30 26.11

d 9.13 21.00 15.98

e 45.97 47.87 38.86

いなければ予測できない,言い換えるとアクセスでないため,評価の対象外とする.S(x, y)を求める際のα, βの値はともに0.5とする.抽出された作業集合と正解作業集合との

ARI[86]値が最大となる閾値を算出し,提案手法による予測に利用する.ここで2つの集

合間のARIは次のようにして求める.

ARI = Σi,j(ni,j

2

)[ Σi(ni.

2

j(n.j

2

)]/(n

2

)

1 2

i

(ni.

2

)+ Σj

(n.j

2

)][ Σi

(ni.

2

j

(n.j

2

)]/(n

2

) (5.4)

ARIは二つの集合が類似していると高い値をとり(最大が1),ランダムに集められると 0に近づくという性質を持つ.

評価尺度は2つである.

予測精度= 正解したアクセスの数

全アクセスの数 (5.5)

予測種類= 正解したアクセスの種類

全アクセスの種類 (5.6) 予測精度のみでは高くなった原因が,同一リソース間での頻繁なアクセスを予測できたの か,ユーザの自由自在なアクセスを適切に予測できたのか区別できない.多様なアクセス を予測できると予測種類の値が高くなる.

5.2.3 実験結果と考察

正解の閾値をtop5,top10としたときの各被験者での予測精度についてそれぞれ表5.2 と表5.3に,同様に予測種類についてそれぞれ表5.4と表5.5に示す.予測精度,予測種 類は被験者によって異なっているということがわかる.

本研究で提案しているPageRankに基づく予測手法は,F手法とV手法の中間の位置 になった.しかし,被験者cにおいては,予測精度,予測種類ともに提案手法が一番高い 値となった.被験者cは趣味のコーディングにおいて,学習データ期間では共起関係のな いいくつかのjavaソースコードを,評価データ期間ではアクセスしていた.提案手法で

ドキュメント内 立命館学術成果リポジトリ (ページ 54-60)

関連したドキュメント