• 検索結果がありません。

情報間の関連性に基づく情報の自動分類手法

ドキュメント内 立命館学術成果リポジトリ (ページ 38-42)

情報間の関連性に基づく情報の自動 分類による情報整理活動支援の実現

4.1 情報間の関連性に基づく情報の自動分類手法

本研究では,2.2.2節で述べたリソース間の関連性抽出の諸課題を鑑み,リソースアク セス履歴における同一作業への関連性抽出手法を提案し,抽出されたリソース間の関連性 からユーザが行なっていた作業別にファイルや Webページを集約する.さらに,ユーザ の作業中における情報の流れを明確にすることで,ユーザがより過去の作業を想起しやす い形で集約された作業集合を提示可能にする.

4.1.1 手法全体の流れ

提案する関連性抽出手法は,定免ら[56]の手法を参考にし,さらにリソースが見えてい る割合(可視率)を関連度算出に用いている.可視率の算出方法とこれを用いた関連度算 出に関しては後述する.定免らの手法は,リソースフォーカスの遷移回数(F)とファイル 間の共起時間(T),さらにファイルの挿入(I)を用いている.本提案手法はFと,リソー スの可視率を使用してTを拡張した尺度の2つを用いており,一方でIは用いていない.

FTのみで構成された関連性抽出手法は,提案手法と定免らの手法ともに共通してい るため,ベース手法と呼ぶこととする.

ユーザが作業に利用したリソース群を作業別に抽出する手法は,定免らと同様に,共通 の特徴を持つ集合へと切り分ける手法であるクラスタリング[85]を用いる.クラスタリ ング結果からクラスタ間の距離が閾値以下のクラスタを抽出し,各クラスタを1つの作業 とみなす.同じ作業に使用していたリソース同士は距離が近いため,抽出されたクラスタ 内には作業に使用していたものが集まっていると考えられる.このため,あるクラスタ内 のリソース群は,ユーザがその作業で利用していたものであると判断することができる.

本研究では要素間の距離しか与えられていないため,クラスタ内に含まれる要素間の距 離を元にクラスタ間の距離を決定する手法である階層的クラスタリングを用いる.クラス タ間距離の定義により,最終的なクラスタリング結果が異なる.関連性抽出に適している 距離の定義を分析するため,本研究では最短距離法,最長距離法,群平均法を用いる.最 短距離法は,その性質から作業に関係のあるファイルやWebページを網羅的に取得でき

4.1 情報間の関連性に基づく情報の自動分類手法 29

スクリーン1

スクリーン2

R1 R5 100%

0%

R4 40%

R3 50%

R2 100%

スクリーン1

スクリーン2

R5 R1

R4

R3

R2

リソースの並び

前面 R1-> R2 -> R3 -> R4 -> R5 -> R6 -> R7 背面

%は見えているリソースの割合 R6

R7

R6 0%

R7 0%

4.2 リソースの可視率

ると考えられるが,一方で作業に関係のないものも結合されてしまうと思われる.最長距 離法では,全要素とも作業に関係のあるものとなるが,一方で要素としてWebページを 持つクラスタ同士は結合されにくく,小さなクラスタが多く生成されると考えられる.群 平均法ではこれらの中間的な性質を持つクラスタが生成されると考える.

4.1.2 リソースの可視率と共起時間による関連度の算出

作業で利用しているリソースであってもそのリソースにフォーカスを数多く当てるとは 限らないため,最前面以外のリソースが,現在作業に使われているかどうかを考慮するた めの尺度が必要である.作業に使っているリソース同士の関連度を抽出することができれ ば,それをリソース同士の関連性と置き換えることができる.図4.2に各リソースの配置 と各リソースの現在見えている割合(可視率)を示す.

つぎに,各リソースの可視率の算出方法を説明する.スクリーンからはみ出しておらず,

前面に重複するリソースが存在しないとき,注目しているリソースの可視率を100%とす る.あるリソースの前面に重複するリソースが複数存在する場合,これらの中で対象リ ソースに対し最も遮断率が高いリソースによって隠される割合の値を100から引いたも のを,そのリソースの可視率とする.あるリソースがスクリーンからはみ出している場 合,はみ出している領域を前面に存在するリソースによって遮断されたものとして扱う.

図4.2において,リソースR1がxを,リソースR2がyをそれぞれ開いていた場合,

それぞれのリソース間の関連度を求めることでx,yの関連度V(x,y)を求める.図の状態 では最前面にあるリソースはR1であるため,R1を中心とした作業であると考えられる.

30 第4章 情報間の関連性に基づく情報の自動分類による情報整理活動支援の実現 スクリーン内にはR1とは別にR2,R3,R4,R5,R6,R7が存在しており,R2,R3, R4の一部は画面に表示されているため,これらのリソースはR1を使った作業に使用し ている可能性があるといえる.一方で,R5,R6,R7はユーザから見えないため,作業 と関連が低い可能性がある.現在の作業に対して,使用している可能性があるリソース の関連度を求めたいので,求めるリソース間の関連度としてはV(R1,R2),V(R1,R3), V(R1,R4),V(R1,R5),V(R1,R6),V(R1,R7)であり,R2,R3,R4,R5,R6,R7間 の関連度は求めない.

リソース間の関連度を抽出するための指標として,リソースの配置関係に変化が あった際に,それまで最前面以外のリソースが見えていた時間(共起時間 T)とその とき該当リソースが見えている割合(リソースの可視率)を用いる.リソースの配置 関係に変化があった時刻を i とし,ti を変化が起こる前の配置関係でリソースが見 えていた時間,vi(y) をそのとき該当リソース y が見えていた割合とする.図 4.2 で は,vi(R1) = 100%, vi(R2) = 50%, vi(R3) = 20%, vi(R4) = 100%, vi(R5) = 0%, vi(R6) = 0%,vi(R7) = 0%となる.ある任意の時間内にn回,リソースの配置関係に変 化があったとすると,リソースx,yの関連度V(x,y)は(=リソースx,yが開いているファ イルやWebページの関連度)以下の式で表される.xは最前面のリソースである.

termi(y) =ti×vi(y) (4.1)

V(x, y) =

n

k=1

termk(y) (4.2)

termi(y)で,リソースの可視率vi(y)を考慮しないあるいは常に100%とすると,最終 的に算出される関連度V(x,y)はリソースの共起時間Tと同値となる.リソースyの可視 率が高く,リソースxと共起している時間が長いと関連度V(x,y)も高くなる.

作業と関係のないリソースの可視率は低くなり,関連度V(x,y)の値が小さくなるため,

複数同時に作業することに対処できると考えられる.さらに,マルチディスプレイ環境に おいても,リソースを参照しながら作業することに考慮できていないベース研究の手法よ り精度が高くなると考えられる.

正規化とファイルやWebページ間の距離決定

本研究がリソース間の関連度を決定するのに使用する尺度は,リソースフォーカスの遷 移回数Fとリソースの可視率と共起時間Tによる関連度Vである.しかしこれらは全く 別の値を取る尺度であるので,このままでは距離決定に用いることができない.そこでこ れらの値を同等に扱うため,定免ら[56]も行なっているように,それぞれを0から1の範 囲で正規化する.x y においてF(x,y)V(x,y) を正規化した値F0(x, y)V0(x, y)

4.2 評価実験 31 以下のように表す.

F0(x, y) = 1 F(x, y)

maxa,bF(a, b) (4.3)

V0(x, y) = 1 V(x, y)

maxc,dV(c, d) (4.4)

このときa,bとc,dは全ての要素の組み合わせの中で,FとV がそれぞれ最大となる 組み合わせを指す.ファイルとWebページでは開いている時間に大きく差があるため,

WebページとのFとV の値はファイルのものと比べると小さくなってしまう.そのた め,全ての要素において単純に全要素中の最大値で正規化した場合,Webページ関連の 関連度が低くなってしまう傾向がある.したがって,FとVがそれぞれ最大となる組み 合わせを選ぶとき,正規化対象がファイルとファイル間,ファイルとWebページ間に応 じて,それぞれの間での最大値の組み合わせを選ぶ.x とy 間の距離d(x,y)は以下のよ うに表し,α はそれぞれの要素を重み付ける.

d(x, y) =αF0(x, y) + (1−α)V0(x, y) (4.5)

4.1.3 情報の流れの明確化

距離の概念だけでは,実際の情報の流れをユーザに提示してやることができない.ユー ザの作業中の情報の流れを把握する指標として,コピーとペーストが考えられる.コピー

&ペーストという行為は,ユーザによって明確にコピー元とペースト先が関連付けられる 行為といえる.本手法では,コピー&ペーストが行なわれたリソースを記録しておくこと で,どのリソースからどれに情報が流れたのかを明確化する.

4.2 評価実験

本節では,2つの実験を行なう.一つ目はマルチディスプレイ環境対策として導入した リソースの可視率の性能を測るために,提案手法とリソース可視率を用いないベースの手 法におけるリソース間の関連性抽出性能を評価する.評価の方法は,「提案手法における クラスタリング手法の分析」「2つの尺度の重み変化による性能比較」「情報の流れの明確 化」の3つである.

二つ目の実験の目的は,提案手法と定免ら[56]の手法との性能を比較し,提案手法の有 効性を示すことである.

32 第4章 情報間の関連性に基づく情報の自動分類による情報整理活動支援の実現

4.2.1 実験仕様

リソース情報の取得のしやすさから,Mac OS X上で実験した.実験では,Mac OSに 備わっているSpacesのような仮想デスクトップ機能を対応し,現在選択中のデスクトッ プ上にあるリソース情報のみを取得することで,複数のデスクトップ上に多くのリソース を開いていた場合にも対応した.

リソース情報の取得は,Mac OS Xに備わっているAPIを用いた.取得トリガは,リ

ソースのOPEN/CLOSEや最前面リソースの変更,リソースサイズの変更,リソースの

移動である.

さらに,このAPIはリソースがローカルファイルシステムに対するアクセスを認識で きるため,そのリソースが開いているファイルに関する情報を取得できる.

しかしブラウザによるWebアクセスは,ブラウザ内で処理が閉じているため,ブラウ ザが現在開いている Web ページに関する情報は取得できない.そこで,閲覧していた Webページ情報取得は Google Chrome Extensions*1を利用し,トリガにはタブの切り 替えとタブの更新とした.取得したリソース情報とWebページに関する情報とから,リ ソース情報取得時に閲覧していたWebページを補完する.

4.2.2 評価の流れ

ドキュメント内 立命館学術成果リポジトリ (ページ 38-42)

関連したドキュメント