立命館学術成果リポジトリ

(1)

立命館大学審査博士論文

情報利用履歴に基づくユーザの活動支援に関する研究

(User’s Activity Support Methods based on Information Access History)

2015年3月 March, 2015

立命館大学大学院情報理工学研究科情報理工学専攻博士課程後期課程

Doctoral Program In Information Science and Engineering

Graduate School of Information Science and Engineering

Ritsumeikan University

中村明順

Akinori Nakamura

指導教員：西尾信彦教授

(2)

i

和文要旨

情報技術の発展により多様で玉石混淆の情報が大量にアクセス可能になったため，ユーザがその膨大な情報を有効に活用することは困難になっている．旅行の計画立てを例にとると，旅先の店舗・名所に関する大量のWebページの中から価値あるページの発見が困難である(情報の収集における困難さ)．また通常，ユーザは旅行の計画以外にも様々な案件を抱えているため，ユーザはそれぞれの案件ごとに保有する関連ファイルや閲覧した Webページの整理が強いられる(情報の整理における困難さ)．仮に整理されていたとしても，現在の作業に合わせてその整理された情報が容易にアクセスできなければストレスとなる(情報へのアクセスにおける困難さ)．本研究では，情報利用履歴に基づいたユーザの活動の支援を目的として，先の3つの活動を支援することに取り組む．情報利用履歴とは情報空間上に存在しているサービスを利用することによって生成される履歴のことであり，旅行計画の例では，ユーザがこれまでに閲覧したり投稿した店舗・名所の口コミサイト上での活動履歴や，計画をまとめる際に交したメール，閲覧・編集した文書ファイルやWebページなどである． 1. ユーザの嗜好に基づく情報推薦による情報収集活動の支援 情報収集活動を支援する方法として，情報利用履歴から生成されるユーザの嗜好に基づく情報推薦がある．ユーザの嗜好に基づく情報推薦で主に利用されている協調フィルタリングは，ユーザの嗜好と似ている他のユーザを見つけ出す必要があるため，ユーザの嗜好に共通性が存在しない場合に推薦できないという問題がある．本研究では実世界に存在する店舗・名所を対象として，店舗・名所といったコンテンツを評価する際に付与するタグやコメントを利用してユーザの嗜好を生成する手法を提案する．被験者による主観評価実験の結果，提案手法は初めて訪れるエリアにおいても従来の精度を損なうことなく，高い被覆率で嗜好に合った情報推薦が行なえることを確認した． 2. 情報間の関連性に基づく情報の自動分類による情報整理活動の支援 情報整理活動を支援する方法として，情報の共起関係，すなわち，ある時刻に同時に利用されている関係から抽出された関連性に基づく情報分類がある．しかし，ユーザが複数

(3)

ii 第0章和文要旨の作業を同時に行なう場合，共起している全ての情報が関連すると判断されるため，元来の作業と関連の低い情報が混じって分類されるという問題がある．本研究ではユーザのパソコン利用におけるファイルやWebページ，ウィンドウといったリソースを対象として，共起に基づく関連性抽出にユーザから見えているリソースの割合であるリソース可視率を利用し，全リソースを作業ごとに分類する手法を提案する．評価の結果，提案手法は分類精度ではアクセス関係から関連性を抽出し分類する手法と同程度であったが，マルチディスプレイ環境においてディスプレイごとの作業状況の考慮が必要であることがわかった． 3. 関連情報集合の重要度に基づく利用情報予測による情報アクセス活動の支援 情報アクセス活動を支援する方法として，情報利用履歴から抽出された頻出アクセスパターンに基づく利用情報予測がある．しかし，ユーザが自由に情報利用を行なえるため，過去に出現しないアクセスパターンに対応できないという問題がある．本研究ではパソコン上におけるユーザの自由なリソースアクセスを対象として，関連情報集合の各リソースの重要度に基づくリソースアクセス予測手法を提案する．提案手法は，デスクトップ上の最前面で利用しているリソースが属する関連情報集合における各リソースの重要度を，リソース間のアクセス関係に基づき算出し，その重要度に応じて将来のリソースアクセスを予測する．評価の結果，提案手法は，予測精度では頻出アクセスパターンに基づく手法より低かったが，過去のアクセスパターンに存在しないリソースアクセスを適確に予測できた．以上のことから，コンテンツ評価時の情報を利用することでユーザの嗜好に基づく情報推薦により情報の収集が容易になり，情報の可視性による関連性抽出に基づいて案件ごとに自動的に情報が分類されることにより情報の整理の手間が削減され，関連情報集合の重要度に基づくことで現在の作業に合わせたアクセス予測が可能になり情報へのアクセスが簡便になった．

(4)

iii

Abstract

Development of information technology enables us to access a vast amount of infor-mation, and we often have difficulty making use of it. An example of making plans for a trip shows three issues. Firstly, it is difficult to find useful web-pages for the travel plan from many web-pages regarding stores or noted places at the destination (issue of information gathering). Secondly, in addition to the travel plan, since users have various tasks, files/web-pages are required to be classified into groups of tasks (issue of information classification). Finally, stress builds up when users can not access files/web-pages adapted for the current task (issue of information access).

The purpose of this paper is to support users’ activities based on information access history, which is generated by services on information space. To solve each issue, this paper presents three methods. First method is information recommendation using data given when users make comments on contents such as stores or noted places. Second method is information grouping using relationship based on co-occurrences between information. Third method is information prediction using importance of information calculated from information access.

Results of the evaluation by subjects show that the ﬁrst method improved coverage in unfamiliar areas while preserving comparable precision. Moreover, accuracy of the second method is as accurate as traditional method. Furthermore, the third method predicts possible future access without access patterns. On the other hand the prediction accuracy is lower than the traditional method based on the access pattern.

In conclusion, this paper provides three contributions to support users’ activities. First one makes it easier to gather information by recommendation. Second one is that the workload of information classiﬁcation is reduced by information grouping. Third one is that users can access information easily by information prediction.

(5)

(6)

v

第1章 はじめに 1 1.1 研究背景と目的 . . . 1 1.2 論文の構成 . . . 2 第2章 情報利用履歴に基づく活動支援に関する考察と本研究の課題 5 2.1 情報利用履歴に関する関連研究 . . . 5 2.1.1 集団の履歴に基づく研究 . . . 6 2.1.2 個人の履歴に基づく研究 . . . 7 2.1.3 情報利用履歴まとめ . . . 8 2.2 活動支援に関する関連研究 . . . 8 2.2.1 ユーザの嗜好に基づく情報推薦による活動支援. . . 8 2.2.2 情報間の関連性に基づく情報の自動分類による活動支援 . . . 9 2.2.3 頻出アクセスパターンに基づく利用情報予測による活動支援 . . . 10 2.2.4 活動支援まとめ . . . 11 2.3 本研究の課題 . . . 11 第3章 ユーザの嗜好に基づく情報推薦による情報収集活動支援の実現 13 3.1 ユーザの嗜好に基づく情報推薦手法 . . . 13 3.1.1 タグ手法とコメント手法 . . . 13 3.1.2 推薦の精度と推薦可能数の割合との関係 . . . 14 3.1.3 嗜好生成における問題点とそれに対するアプローチ . . . 15 3.2 推薦システム . . . 17 3.2.1 全体設計 . . . 17 3.2.2 推薦機構の設計 . . . 18 3.3 評価実験 . . . 20 3.3.1 実験仕様 . . . 20 3.3.2 実験の詳細. . . 21

(7)

vi 目次 3.3.3 実験結果と考察 . . . 23 3.4 まとめと今後の課題 . . . 26 第4章 情報間の関連性に基づく情報の自動分類による情報整理活動支援の実現 27 4.1 情報間の関連性に基づく情報の自動分類手法 . . . 28 4.1.1 手法全体の流れ . . . 28 4.1.2 リソースの可視率と共起時間による関連度の算出 . . . 29 4.1.3 情報の流れの明確化 . . . 31 4.2 評価実験 . . . 31 4.2.1 実験仕様 . . . 32 4.2.2 評価の流れ. . . 32 4.2.3 実験結果と考察 . . . 34 4.3 まとめと今後の課題 . . . 40 第5章 関連情報集合の重要度に基づく利用情報予測による情報アクセス活動支 援の実現 43 5.1 関連情報集合の重要度に基づく利用情報予測手法 . . . 44 5.1.1 手法全体の流れ . . . 44 5.1.2 関連情報集合の重要度の算出 . . . 44 5.2 評価実験 . . . 45 5.2.1 実験仕様 . . . 45 5.2.2 評価の流れ. . . 46 5.2.3 実験結果と考察 . . . 48 5.3 まとめと今後の課題 . . . 50 第6章考察 51 6.1 情報利用履歴に基づくユーザの活動支援に関する考察 . . . 51 6.2 本研究の応用例 . . . 52 第7章 おわりに 55 付録A buzzmapにおける画面遷移 57 謝辞 59 参考文献 61 著者発表論文 69

(8)

vii

図目次

1.1 研究目的 . . . 3 3.1 推薦の精度と推薦できる数の割合の関係. . . 15 3.2 ブックマーク済みスポットの単語のユーザプロファイルへの適用 . . . . 16 3.3 ユーザ・スポット・スポットマーク・タグ・コメントの関係 . . . 17 3.4 スポット推薦アルゴリズムのプロセスフロー . . . 19 3.5 一被験者の実験の流れ . . . 20 3.6 推薦リストの例 . . . 22 3.7 既知のエリアにおける平均P recision . . . . 24 3.8 不案内なエリアにおける平均P recision . . . 24 3.9 3 手法のCoverage . . . . 24 3.10 不案内なエリアにおけるCoverage拡大の影響比較 . . . 24 4.1 ユーザが複数の作業を同時に行なっている場合 . . . 27 4.2 リソースの可視率 . . . 29 4.3 3つのクラスタリング手法ごとの平均性能 . . . 36 4.4 各αごとの提案手法とベース手法の平均性能 . . . 37 4.5 各ディスプレイ環境におけるF-measureの差の平均 . . . 38 4.6 情報の流れの出力結果 . . . 38 4.7 ファイル挿入ありの性能結果 . . . 39 5.1 作業集合の重要度に基づくリソースアクセス予測手法 . . . 44 5.2 作業集合内リソースの中心性に基づくリソースアクセス予測 . . . 45 A.1 みんなの地図帳 . . . 57 A.2 マイ地図帳に登録 . . . 57

(9)

(10)

ix

表目次

3.1 テストデータセットの内訳 . . . 22 3.2 被験者の既知のエリア／不案内なエリアの選択結果 . . . 23 4.1 正解セット . . . 33 4.2 ファイル挿入ありの正解セット . . . 34 4.3 3つのクラスタリング手法による実験結果 . . . 35 4.4 提案手法とベース手法との性能比較 . . . 41 5.1 正解作業集合 . . . 47 5.2 予測精度(r=5) . . . 48 5.3 予測精度(r=10) . . . 48 5.4 予測種類(r=5) . . . 49 5.5 予測種類(r=10) . . . 49

(11)

1

第

₁

章

はじめに

1.1 研究背景と目的

情報技術の発展に伴う，多くのユーザによる容易な情報作成によって，急速に膨大な情報が蓄積されており，情報爆発 (Information Explosion)が起こっている．IT専門の調査会社であるIDC(International Data Corporation)は，アナログからデジタルへの推移が2020年に完了することによって，情報量が35ゼタバイト（1ゼタバイトは1兆ギガバイト）へと成長すると予測している[1]．2009年時点では0.8ゼタバイトであると報告しており，膨大な情報が蓄積されていることがわかる．従来の情報作成はプロの執筆者による情報の精査，編集という行程を経ているため，一定の質が保たれている．しかし，ユーザによる情報作成では実体験や生の声が含まれているため，現在蓄積されている情報は玉石混淆である．さらに，情報空間上に存在しているサービスが利用されることによって生成される履歴（以降，情報利用履歴とよぶ）も蓄積されるようになっている．たとえば，商品や店舗に対して意見・評判を記述することが出来る口コミサイト上に，ユーザがこれまで記述したコメントや，旅行の計画を立てる際に閲覧したWebページや編集したファイルなどである．蓄積される履歴には，商品の好みや作業内容といったユーザに関わる情報が含まれているため，これら履歴を用いて，新しい価値ある情報を抽出する研究が盛んに行なわれている [2, 3, 4, 5]．抽出された情報をユーザへ還元させることで，サービス利用を促し，更なる履歴に基づいて別の新たな価値ある情報の抽出していくという循環が期待されている．情報量の爆発的な増加は，ユーザにとって価値のある情報が存在する可能性が高まる一方で，その情報を見つけ出すのが困難になることを意味する（1. 情報の収集における問題）．ユーザにとって価値のある情報が，膨大で玉石混淆な情報の中に埋もれてしまっているため，ユーザは情報を取捨選択することを強いられている．取捨選択には，まず，ユーザは膨大な情報の中から望む情報と関連される情報を収集し，次にその関連情報を確

(12)

2 第1章はじめに認していき，価値があるかを判断する．この行程は十分な情報が入手されるまで何度も繰り返される．加えて，ユーザが蓄積する情報量が増加しているため，整理が負担になることも意味する（2. 情報の整理における問題）．記憶装置に関する技術進歩とオンラインストレージサービス*1*2_{の普及により，ユーザが多くのファイルを保存しておくことが可能になっ} た．さらに Webを利用しながらファイル編集が日常的になっているため，作業中に閲覧していた Webページも一緒に整理されているとよい．これらファイルやWebページを作業ごとに整理することは手間がかかる．一方，ユーザは必要な情報へのアクセスを繰り返しながら作業の完遂を目指している．利用したい情報の名前や保存場所を想起・確認し，それを手掛かりにして情報へアクセスする．しかし，ユーザが膨大な情報すべての名前や保存場所を記憶しておくことは困難であるため，アクセスに手間がかかる（3. 情報へのアクセスにおける問題）．これらのことから，多様で玉石混淆の情報をユーザが有効に活用することが困難になっている．たとえば旅行の計画を立てる場合，旅先の店舗・名所に関する大量のWebページの中から価値のあるページを見つけ出すことが難しくなっている．加えてユーザは計画立て以外にも様々な案件を抱えているため，ユーザが有する全文書ファイル・Webページを案件ごとに整理するのは相応の手間がかかる．さらに整理されていたとしても，現在の作業に合わせた容易なアクセスができなければストレスとなる．そこで本研究の目的は，図1.1に示すように，情報利用履歴に基づいてユーザの活動を支援することである．特に本研究では，1. ユーザの嗜好に基づく情報推薦による情報収集活動の支援，2. 情報間の関連性に基づく情報の自動分類による情報整理活動の支援，3. 関連情報集合の重要度に基づく利用情報予測による情報アクセス活動の支援の3つの活動支援を考える．情報利用履歴とは，たとえば，商品や店舗に対して意見・評判を記述することが出来る口コミサイト上に，ユーザがこれまで記述したコメントや，旅行の計画を立てる際に閲覧したWebページや編集したファイルなどである．

1.2 論文の構成

本論文は，第2章で情報利用履歴と活動支援の関連研究について考察し，本研究で取り組む課題を導出する．第2章で明らかになった3つの活動支援における課題についてそれぞれ第3から第5章で取り組んでいく．第6章で，本研究について考察し，応用例について述べる．最後に第7章で本論文をまとめ，今後の課題について述べる． *1_{https://onedrive.live.com/} *2_{https://www.box.com/}

(13)

1.2 論文の構成 3

情

報

利

用

履

歴

蓄

積

支援サービス

_{支援サービス}

支援サービス

_{支援サービス}

支援サービス

履

歴

提

供

履

歴

提

供

履

歴

提

供

集団の履歴に基づく支援

個人の履歴に基づく支援

図1.1 研究目的

(14)

(15)

5

第

₂

章

情報利用履歴に基づく活動支援に関

する考察と本研究の課題

本章では，情報利用履歴と活動支援に関する研究をそれぞれ分類，考察することによって，本研究を位置づけ，取り組む課題を導出する．

2.1 情報利用履歴に関する関連研究

本節では，情報空間上で提供されるサービスの利用履歴である情報利用履歴を利用する研究について利用方法の観点から分類し，考察する．利用方法には，多くのユーザから収集された情報利用履歴を利用する研究(集団の履歴に基づく研究)と，個人のみの情報利用履歴を利用する研究(個人の履歴に基づく研究)とがある．情報利用履歴は一般化すると誰が，いつ，何に対して，何をしたかによって構成される．履歴にはAmazon.comをはじめとするオンラインショッピングサイトを例にすると，気にいった・欲しい商品を購入した購入履歴，商品に対して個人的な意見や評価を記述したレビュー履歴などがある．購入履歴には購入者，購入時刻，購入対象の商品が含まれ，レビュー履歴にはレビュー者，レビュー履歴時刻，レビュー対象の商品，レビュー内容が含まれる．ほかの情報利用履歴には，旅先の店舗・名所に関してまとめることを例にすると，名所が記載されている複数Webサイトのページを閲覧したWebアクセス履歴や，まとめるためにパソコンやスマートフォンといった情報デバイス上のリソースへアクセスしたリソースアクセス履歴などがある．Webアクセス履歴にはアクセス者，アクセスした時刻，アクセスしたWebページ，Webページの内容が含まれ，リソースアクセス履歴にはアクセス者，アクセスした時刻，アクセス対象のリソース，どんなアクセスを行なったかが含まれる．

(16)

6 第2章情報利用履歴に基づく活動支援に関する考察と本研究の課題

2.1.1 集団の履歴に基づく研究

集団から収集された購入履歴に基づいた研究には，アイテム間の類似性を算出する手法[6, 7]や購入順序を効率的に用いて高速性と高予測精度を同時に実現する手法 [8]，各ユーザの嗜好とユーザ間の関係の両尺度における時間経過に伴う変化を考慮する手法 [9] などがある．レビュー履歴に基づく研究には，映画へのユーザの評価点を利用した GroupLens[10, 11]や，Video Recommender[12]，音楽を対象としたRingo[13]がある．これらの研究は主に，多くのユーザからの履歴に基づいて，あるユーザが何を好むのかという情報を生成し，嗜好が類似している他のユーザがお勧めしているものを発見することを目的としている．単一Webサーバー上でのユーザのWebアクセス履歴は，ユーザ側に特別なプログラムやツールを用いさせることなく収集できるという利点があるため，さまざまな研究が行なわれてきた．たとえば，ある一定期間内でアクセスされた Webページ群を基に相関ルールを構築する研究[14, 15]や，一定期間内における同一ユーザからのアクセス順序を考慮した研究[16]，Webサイト上で目的ページへの最短アクセスを発見する研究[17]がある．さらに，オンラインショッピングサイトにおいてユーザの商品購入に向かう状態と購入を取り止める状態の変化を発見する研究 [18]や，ユーザが検索エンジンに入力した検索語と，検索エンジンによって提示された結果の中からユーザが実際にアクセスした Webページとの組を用いて，検索語のクラスタリングにより関連語の抽出を行なう研究 [19, 20, 21]がある．一方，テレビ視聴率の調査と同様に，統計的に全体推定に値するように構築されたユーザ群の全 Webアクセス履歴を収集する事業*1_{の登場により，単一}_Web_{サーバー上での} 多くのユーザからの Webアクセス履歴による研究とは異なる研究が成されるようになった．たとえば，大塚ら[22, 23, 24]はユーザの全Webアクセス履歴から，検索語に関連する語を抽出する手法の提案と，関連語の提示による検索支援システムの構築を行なっている．ほかに，杉山ら[25, 26]は異なるユーザからの同一検索語であっても同一の結果を提示するという問題に対して，ユーザの全Webアクセスに基づいてユーザの嗜好を動的に更新し，その嗜好とWebページとの類似性に基づいて検索結果を適応させている．集団のリソースアクセス履歴に基づく研究には，Autograph[27]や宋ら[28]の研究がある．これらの研究は，多くのユーザに共通する業務の流れを抽出し，情報作成 _→情報作成_→情報伝達といった一連の流れにおける各行程で必要な情報の提示を目的としている．一方，柴田[29]はユーザのリソースアクセスにかかる時間の総和に基づき，ディスプ *1_{http://www.videoi.co.jp/index.html}

(17)

2.1 情報利用履歴に関する関連研究 7 レイ構成の違いがリソースアクセスに与える影響を定量的に測定している．その結果，リソースアクセスにかかる時間という観点において，大画面ディスプレイよりも多画面ディスプレイのほうが優れていることを確認した．

2.1.2 個人の履歴に基づく研究

一人のユーザのWebアクセス履歴から，アクセスされたWebページの文章に対して自然言語処理を行なう研究がある．たとえば，松尾ら[30]はユーザ個人が閲覧した全Web ページから頻出語を抽出し，頻出語との共起の偏りが大きい語をハイライトさせるシステムを構築している．河合ら[31, 32]はユーザが既にWebページの分類体系を理解しているWebサイトのレイアウトを通した情報提示システムMy Portal Viewer(MPV)を提案している．MPVでは，ユーザのWebアクセス履歴から抽出されたユーザが興味を持っていると考えられる語に基づいて，MPVに提示する情報を分類している．ニュース記事に限定されているが，大槻ら[33, 34]はユーザに一度提示したがアクセスされなかった Webページにも興味がないというユーザの嗜好が含まれているとして，アクセス／非アクセス履歴に基づいた記事提示システムを提案している．自然言語処理ではないWebアクセス履歴分析を行なう研究として，富士谷ら[35]はブラウザにプラグインをインストールし，ページの遷移元とタブの切替えとによるアクセス履歴間の関連性に基づいた履歴分類手法を提案している．ほかには履歴間のアクセスした時刻の近さを利用する研究[36, 37]や，アクセス回数やアクセス時間に基づく研究[38]がある．パソコン上でのファイルやWeb ページ，ウィンドウといったリソースへのアクセスの履歴を利用し，ユーザが過去に行なったアクセスに関する情報の想起を容易にする研究がある．Memory-Retriver[39]は，ユーザが複数メーカで類似商品の比較調査といったWeb ページアクセスによって得られた情報を想起させることを目的としたシステムで，Webページのサムネイル画像を記録して視覚的に提示している．俺デスク[40]では， Webアクセス時刻やクリップボードの利用履歴に基づいて算出される関連度を用いた関連検索ツールによって，たとえば企画書を作成していたときに Web アクセスしていた Webページの検索が可能になり，さらにWebアクセス時間やWebアクセス回数に基づいて算出される着目度を用いた時系列ビューアによって，たとえば一昨日の夜中に Web アクセスしていたレストランガイドの再Webアクセスが可能になった．近藤[41, 42]は，スクリーンショットを定期的に行なうことによって，ユーザが過去の作業に利用した情報の想起を容易にしている．

(18)

8 第2章情報利用履歴に基づく活動支援に関する考察と本研究の課題

2.1.3 情報利用履歴まとめ

集団の履歴に基づく研究は，多くのユーザに共通して表れる何らかの価値を抽出することであるといえる．たとえば，おすすめWebページの提示やある検索語に関連する語を発見することである．複数ユーザからの履歴が必要であるため，ユーザ数が一定以上存在することが求められる．他方，個人の履歴に基づく研究は，ユーザ個人に特化し，個人が有する価値を抽出することであるといえる．たとえば，ユーザがこれまでWebアクセスした全Webページで頻出する語の抽出や，作業遂行にアクセスしていたWebページの関連性抽出などである．ユーザ個人の履歴に基づくため，複数のユーザを必要としない．以上のことから，情報利用履歴は提供したいサービスによって，履歴の種類や，個人か集団かといった利用方法が定まる．

2.2 活動支援に関する関連研究

本節では，ユーザの活動に対して支援することを目的とした研究についてまとめ，考察する．活動支援に関する研究には，ユーザの嗜好に基づく情報推薦や，情報間の関連性に基づく情報の自動分類，頻出アクセスパターンに基づく利用情報予測がある．

2.2.1 ユーザの嗜好に基づく情報推薦による活動支援

ユーザの嗜好に基づいて情報を推薦する手法として，主に内容ベースフィルタリングと協調フィルタリングが注目されてきた [10, 6, 43, 44, 45]．内容ベースフィルタリングは情報のメタデータを抽出し，情報間の類似度を算出しておき，推薦対象ユーザが注目した情報に類似する情報を推薦する手法である．そのため，ユーザが1人であっても推薦が可能で，粗なユーザ分布に耐性がある．神嶌[46]は内容ベースフィルタリングには，ユーザ自身が嗜好を入力する直接指定型と，ユーザの情報利用履歴に基づき情報に対する嗜好の度合いを定量化したプロファイルを生成する間接指定型とがあると述べている．ユーザ数が十分でなくユーザ間の嗜好の類似性判定が困難な情報を推薦する場合，直接指定型が適していると述べている．しかし，直接指定型の内容ベースフィルタリングはユーザへの推薦履歴を考慮しないため，継続的に利用するとユーザが既に知っている情報ばかり推薦される恐れがある．一方，協調フィルタリングは情報のメタデータを一切必要とせず，推薦対象ユーザが注目した情報を評価しているほかのユーザを発見した上で，類似ユーザが評価済みかつ推薦対象ユーザにとって未評価の情報を推薦する手法である．内容ベースフィルタリングと比

(19)

2.2 活動支援に関する関連研究 9 較して，推薦結果に対する目新しさと意外さとを含んだ指標であるセレンディピティのある推薦が期待できることが経験的にわかっている．継続的に推薦を受けるなら，予測精度の向上する協調フィルタリングがよいと神嶌は述べている[46]．協調フィルタリングによる情報推薦の研究として，たとえば，竹内ら[47]はユーザの位置情報と協調フィルタリングを用いてユーザが頻繁に訪れる店と類似している店を推薦する手法を提案している．街にある店舗に対する評価値を単位としたユーザプロファイルを生成し，アイテム間型の協調フィルタリングによるモバイル端末向け推薦システムを実装している．東京都渋谷区代官山町の1 街区をフィールドに10 名の被験者による主観評価実験を試みている．ほかには，篠田ら[48, 49]も同様に協調フィルタリングを用いたモバイル端末向け推薦システムを提案しているが，GPS から取得したユーザの位置情報をそのまま協調フィルタリングの材料とせず，GPS などのユーザの移動履歴から行動パターンを抽出してユーザ間の類似度判定に用いることを試みている．

J¨aschke ら[50]やLipczak[51]は，ユーザプロファイルに “blog”や“web”といったタグを使用し協調フィルタリングによりタグを推薦することで，ユーザのタグ付けをサポートするシステムを提案している．タグ付け時における推薦するタグの精度を評価している．

2.2.2 情報間の関連性に基づく情報の自動分類による活動支援

情報間の関連性を抽出する研究は，主につぎの3種類に分類される．一つ目はファイル名やウィンドウ名といったメタデータから抽出したキーワードの類似性に基づく研究 [52, 53]である．二つ目は情報間の共起関係，すなわち，ある時刻に同時に利用されている関係から関連性を抽出する研究[27, 54, 55, 56]である．最後はWebページ分類に特化された研究[35, 57, 58, 59]である．メタデータの類似性による関連性を抽出する研究として，大峡ら[52]はファイル名から抽出されたキーワードの頻度分布を利用して，適切な粒度で階層的な分類を生成する手法を提案している．SWISH[53]では同一の作業に利用されるウィンドウのタイトルが類似されるという仮定に基づき，ウィンドウタイトルから抽出されたキーワード群をクラスタリングさせることで，情報群に分類させる手法を提案している．ほかには，情報内に記載されている単語の出現頻度やその単語の重要度から情報の類似性を抽出する手法[60, 61] や，同義語・多義語を考慮した文書解析手法[62, 63]などがある．しかし，ゼミに用いるパワーポイントのファイルといった特徴を，複数の情報から抽出し分類できても，同じ作業で利用したものとは限らない．さらに，同じ作業に使っていた情報であっても，全てに同じキーワードが含まれているとは限らない．関連性抽出手法の二つ目である共起関係に基づく研究として，Autograph[27]では情報

(20)

10 第2章情報利用履歴に基づく活動支援に関する考察と本研究の課題利用履歴を一定の期間ごとに分割し，頻出する情報利用履歴集合を抽出する手法を提案している．Push-and-Pull Switching[64]は，ウィンドウの重なりを利用して作成されたグループに対して同時操作を容易にするシステムである．小田切ら[55, 65, 66]が提案する手法は，情報の共起時間に着目し，2つの情報の共起回数や共起時間，使用開始時刻の類似度などを用いて情報間の関連性を抽出する．栄ら[67]は2種類の情報利用履歴を用いてそれぞれの関連性を抽出する手法を提案している．ファイルの読み書き等を記録したファイルアクセス履歴と，Webページのアクセス履歴を統合し，一定の期間内に同時に利用していることが多い組み合わせを同じ作業に使っていたファイル，Webページとしている．これらに対し，定免ら[56]は，複数の情報を同時に利用していても，1つの作業につき利用する情報群は決まっていることを指摘している．提案された手法は，情報間の共起時間に加え，利用している情報間でのアクセス回数やアクティブにしている時間を利用する． Webページ分類に特化された手法として，ページ内に存在するリンク情報を解析し，同じリンク先あるいはリンク元を多く持っているページ同士は類似しているとする手法 [57, 58] や，ニュース系サイトやブログ系サイトといった Web ページの形式に着目し HTMLタグの特徴を抽出しWebページ同士の関連性を抽出するもの[59]がある．

2.2.3 頻出アクセスパターンに基づく利用情報予測による活動支援

頻出アクセスパターンに基づく利用情報予測に関する研究は，主につぎの2種類に分類される．一つ目はある条件 pが起こっている場合に事象 qが起こるといった相関ルールを抽出する研究[68, 69, 70]である．二つ目はファイルシステム上のレイテンシを向上させることを目的として，ファイルアクセスを予測する研究[71, 72]である．相関ルールの抽出の代表的な手法として，Aprioriアルゴリズム[73, 74]とBacktracking アルゴリズム [75]がある．これらの手法はアイテムの集合であるトランザクションの集合において，全アイテムに対する各アイテムの組み合わせである共起関係に基づいて抽出する．全アイテムが，たとえば{a, b, c}では，共起関係には集合{a}と集合{b}，集合

{a}と集合_{c}，集合_{b}と集合_{c}，集合_{{a, b}}と集合_{c}，集合_{{a, c}}と集合_{b}，集合_{{b, c}}と集合_{a}の計6種類ある．トランザクション集合において相関ルールの抽出には，まず空集合からはじめ，アイテムを1 つずつ追加する操作を網羅的に行なっていくことで，頻出の条件を満たした相関ルールを発見する．Aprioriアルゴリズムは要素の追加を幅優先的に行なう，Backtrackingアルゴリズムは深さ優先的に行なう手法である．さらにトランザクション間の順序関係を考慮した手法[76, 77, 78]がある．抽出された相関ルールに基づいて，ある状態が条件pと合致している場合に事象qに関する支援が可能になる．

(21)

2.3 本研究の課題 11 ファイルアクセスを予測する研究は，暗黙的に，ファイルアクセスパターンがn次マルコフモデルによってモデル化できるという仮説に基づいている．たとえば，Automatic Prefetching[79]は，ユーザのファイルアクセス履歴を蓄積し続け，あるファイルがアクセスされた後にアクセスされる可能性が高いファイルを高速なメモリへと事前配置することで，ファイルシステム上のレイテンシを向上している．Ahmed ら[71]は，Best k-out-of-mによるファイルアクセス予測手法を提案している．これは，最新m個のファイルアクセス履歴から，あるファイル(i)の次にアクセスしたファイル(j)という組(i, j) の出現回数が最小k回以上出現し，かつ最大となるファイル (j)を予測する．ただし実験の結果から，mの値が大きい場合，ファイル(i)の直後にアクセスしている回数が最も多いファイル(j)とした方が精度が高いと述べている．Jehanら[80]は，ファイルアクセスの予測を確率的な手法へと展開しているが，その本質はマルコフモデルに従っている．

2.2.4 活動支援まとめ

情報収集活動を支援することを考えると，セレンディピティのある推薦が期待でき，継続的な推薦利用により予測精度が向上される協調フィルタリングが適している．内容ベースフィルタリングでは，粗なユーザ分布に耐性があるが，ユーザへの推薦履歴を考慮しないため，継続的に利用するとユーザが既に知っている情報ばかり推薦される恐れがある．情報整理活動を支援することを考えると，ユーザが過去の作業に閲覧・編集したファイル・Webページごとに整理したいという要求を満たすために，情報利用履歴における情報間の共起関係に基づいて関連性を算出させる手法が適している．ファイル名やウィンドウ名などのメタデータから抽出したキーワードの類似性に基づく手法では，同じ作業に利用していたファイル・Webページであっても，全てに同じキーワードが含まれているとは限らないため，作業ごとに集約することが困難である．情報アクセス活動を支援，特にユーザが自由に情報利用を行なえる場合において支援することを考えると，相関ルール抽出手法，マルコフモデルに従ったファイルアクセス予測手法ともに，過去に出現しないアクセスパターンに対応できないという問題がある．両手法とも過去に一度でもアクセスしていない限り，同一の作業に関する情報へのアクセスであっても予測できない．

2.3 本研究の課題

本節では，3つの活動を支援する手法における問題を述べ，本研究で取り組む課題を明らかにする． 1. ユーザの嗜好に基づく情報推薦による情報収集活動の支援

(22)

12 第2章情報利用履歴に基づく活動支援に関する考察と本研究の課題協調フィルタリングは，情報利用履歴に基づいて生成されたユーザプロファイルと似ている他のユーザを見つけ出す必要があるため，ユーザ間に共通する嗜好が存在しない場合に推薦できないという問題がある．本研究では実世界に存在する店舗・名所を対象として取り組む．実世界でのユーザの行動が地理的な距離による制約を受けるため，店舗・名所といったコンテンツを基にする従来手法において生成されるユーザプロファイルは，各ユーザが日常的に行動しているエリアのコンテンツの評価値に偏る．その結果，1度も訪れたことのない不案内なエリアにおいての協調フィルタリングはユーザ間の嗜好の類似性が見つけられないため，うまく働かず推薦を受けられなくなる．たとえば，大阪在住でほとんど大阪のコンテンツしか評価していないユーザが東京の浅草に旅行で初めて訪れた際に，浅草のコンテンツは何も推薦されないといった状況が起こりうる． 2. 情報間の関連性に基づく情報の自動分類による情報整理活動の支援 共起関係に基づいて関連性を抽出する手法では，ユーザが複数の作業を同時に行なっている場合，作業間で利用される情報にも関連付けが発生するため，元来の作業と関連の低い情報が含まれて分類されてしまうという問題がある．本研究ではユーザのパソコン利用におけるファイルや Webページ，ウィンドウといったリソースを対象として取り組む．大量のリソースを用いながらパソコンが利用されるが，画面解像度の制約により一度に見られるリソースには限りがあるため，ユーザから見えにくいリソースは共起による関連性が低いと考えられる．たとえば，旅行の計画立てにおいて，予定をファイルにまとめる際，旅先の店舗・名所が記載されているWebページが同時に見えるようにリソースの配置を操作して，計画を立てていく．このとき，作業と関係の低いリソースは，リソースの背面に配置され，前面に存在するリソースによって隠されるため，ユーザから見えない． 3. 関連情報集合の重要度に基づく利用情報予測による情報アクセス活動の支援 相関ルール抽出やマルコフモデルに従ったファイルアクセス予測といった頻出アクセスパターンに基づく利用情報予測手法では，過去に存在しないアクセスパターンに対応できない．さらにユーザが自由に情報利用を行なえるため，新出アクセスが現れる可能性が高いという問題がある．本研究ではパソコン上におけるユーザの自由なリソース利用を対象として取り組む．ファイルアクセス予測では一般的にOSレベルを対象としており，プログラム等によってアクセスが制御されるが，本研究ではアプリケーションレベルを対象としており，ユーザによって自由にアクセスされるため，アクセスパターンが不定である．たとえば，旅行の計画立てにおいて，予定をまとめたファイルaと旅先の店舗・名所が記載されている Webページb, cの3つのリソースが作業に関連し，これまでファイル a とWebページb，ファイルaとWebページcのそれぞれでアクセスがあり，現在Web ページbを最前面にしている場合，将来アクセスされるのはファイルaに加えWebページbである可能性がある．

(23)

13

第

₃

章

ユーザの嗜好に基づく情報推薦によ

る情報収集活動支援の実現

本章では，2.3節で述べた情報収集活動の支援における課題，ユーザ間に共通する嗜好が存在しない場合に推薦できないという課題に対し，実世界に存在する店舗・名所といった地理情報が付与されたコンテンツ（以降，スポットとよぶ）を対象として取り組む．ユーザの情報に対する嗜好の度合いを定量化したプロファイル（以降，ユーザプロファイルとよぶ）を，店舗・名所といったコンテンツ単位よりも抽象的な単位による評価値を用いて生成させる手法について3.1節で提案し，3.2節でシステムを設計し，3.3節で評価する．

3.1 ユーザの嗜好に基づく情報推薦手法

本研究では，抽象化されたユーザプロファイルを生成するために，スポットを特徴付ける語を利用する手法を提案する．スポットを特徴付ける語を抽出する方法として2 つの手法を提案する．一方はスポットにWeb コンテンツ分類手法であるタグを適用する手法（タグ手法）と，他方はスポットに対するユーザの意見であるコメントを利用する手法（コメント手法）である．スポットを評価するという行為はそのスポットに対して良い評価であると仮定し，また，タグやコメントの内容もスポットに対して良い評価であると仮定している．

3.1.1 タグ手法とコメント手法

近年，「ユーザの操作や反応」を積極的に利用するfolksonomy （フォークソノミー） [81]と呼ばれるタグ付けによるWeb コンテンツ分類手法が注目されている．フォークソ

(24)

14 第3章ユーザの嗜好に基づく情報推薦による情報収集活動支援の実現

ノミーの最たる例は，delicious*1_{やはてなブックマーク}*2_{に代表されるソーシャルブック}

マーク(SBM) のタグ付けである．SBM では，各々のユーザの「気に入った／価値があ

ると感じた」Web コンテンツ（Web ページに限らずWeb 上でURL の与えられているものすべて）にタグ付けしてブックマークし，それらをユーザ間で共有することで，タグにより分類された Web コンテンツの集合知が形成されている．ユーザはWeb コンテンツの内容を端的に表すタグを使用しており，表現の幅は狭いが，付けやすく沢山集まる可能性がある．タグ手法では各ユーザの利用するタグとその利用回数に着目しユーザプロファイルを生成する．タグを単位としてユーザプロファイルを抽象化することで，スポット単位で生成されたユーザプロファイルよりも地理的制約を受けない推薦を実現できるはずである． Web 2.0 といわれ始めて以来，多くのサイトではWeb コンテンツに対しコメントできるようになった．ユーザはコメントを通じてWeb コンテンツに対し，個人的な評価・判断・意見・評論・批判を述べる．コメントはタグと比較して，入力するのは面倒であるが表現できる幅は広いので，Web コンテンツの内容をより詳細に説明することができる．コメント手法ではコメントを形態素解析して，スポットを特徴付ける形態素によってユーザプロファイルを生成する．タグに対応していない既存のWeb 2.0 のようななサイトは多いので，適用範囲が広がる．また，以降はコメントから抽出した形態素およびタグを総じて単語と呼ぶ．

3.1.2

3.1.3 嗜好生成における問題点とそれに対するアプローチ

上記手法によってユーザプロファイルを生成する場合，2 つの問題が考えられる． • 単語の表記揺らぎあるユーザはラーメン屋をブックマークする際，[ラーメン] という単語を付加する．一方で，別のユーザはラーメン屋をブックマークする際，[拉麺] という単語を付加する場合，それらを単純なマッチングなどで同じ嗜好であると判定することは難しい．単語は自由記述のため，2 人のユーザプロファイルを比較しても単語の不一致により類似しないと判断される．さらに，そもそもタグ付けやコメントはユーザの自由意志に任されているため，ユーザによってはタグ付けやコメントをまったく行なわずにブックマークする可能性がある．このようにユーザの方針が異なるとユーザプロファイルが粗になりユーザ間の類似度判定が困難となる． • 汎用的な単語の悪影響例えば，[グルメ] や[観光地] といった汎用的な単語は，多くのスポットに適用できる．それと比較して，[ペットフード] や[歌舞伎]は適用可能なスポットの絶対数は

(26)

16 第3章ユーザの嗜好に基づく情報推薦による情報収集活動支援の実現図3.2 ブックマーク済みスポットの単語のユーザプロファイルへの適用多くないであろう．汎用的な単語に基づいたユーザプロファイルによる協調フィルタリングでは，ほとんどのユーザの嗜好が同様になり，推薦結果はありきたりになる恐れがある．したがって，希少性のある単語に重きを置く必要がある． 2 つの問題を解決するために本研究では図3.2 のようにユーザプロファイルを生成する．前者の問題を解決するため，赤枠に示すような，あるスポットをブックマークする際に全ユーザが付加した単語を単位とする．具体的には，ユーザがあるラーメン屋に[ラーメン] という単語のみを付加してブックマークしており，他のユーザが同じラーメン屋を [拉麺][とんこつ][濃厚]という単語を付加してブックマークしている場合，それらの単語もユーザプロファイルに含める．これにより，方針の異なるユーザ間であってもスポットを通じて互いの単語をユーザプロファイルとして利用することができるようになる．これによって推薦候補の数が増加すると見込める．後者の問題を解決するため，全ての単語に対してtf-idf[82]値を算出する．tf-idf は文書中の単語の登場頻度tf と，全文書中の単語の逆登場頻度（希少性の指標）idf の積から成り，文章を特徴づける単語であるほどtf-idf 値は高い．この値を利用することでそれぞれの単語の希少度を考慮してユーザプロファイルを算出することができる．これによって重要な単語から得られた推薦を優先的に行なうことができ，精度を維持できると考えられる．また，全ての単語のtf-idf 値を算出するため，汎用的な単語の悪影響を解決する案は推薦候補の数に影響を与えない．単語の数や閾値によってユーザプロファイルに利用する単語の数を制限し，適合率や再現率を向上させる研究もある[83, 84]．しかし，本研究

(27)

3.2 推薦システム 17 図3.3 ユーザ・スポット・スポットマーク・タグ・コメントの関係の目的は推薦候補数の向上であるため，ユーザプロファイルに利用する単語は単語の数や tf-idf 値の閾値によって制限しない．

3.2

3.2.1 全体設計

スポットの推薦対象となるユーザたちはモバイル端末を所持し，GPS や無線LAN を利用した測位を任意のタイミングで行なえるものとする．これによりシステムはユーザの現在地周辺のスポットを検索できる．提案システムはモバイル端末をクライアントとするクライアント／サーバ型である．モバイル端末からの推薦要求とユーザの現在地の情報を受け取り，ユーザの嗜好に合った周辺のスポット情報を協調フィルタリングによって選出し，モバイル端末に返答する．図3.3に，ユーザのスポットに対して行なうタグ付けあるいはコメントを提案システムがどのように管理するかを述べる．提案システムにおけるスポットとは，ユーザにとって “意味のある場所”の総称である．スポットには「東京ミッドタウン」のような建築物・ランドマークを指すものもあれば，その中にある「東京ハヤシライス倶楽部」といった店舗を指すものもありえる．他にも「品川」や「首都圏」のように一定のエリアを示すものも，それがユーザにとって何らかの意味を持つ場所であればスポットと捉える．また，スポットに対して5 段階の評価値やタグやコメントを付加してブックマーク化したものを

(28)

18 第3章ユーザの嗜好に基づく情報推薦による情報収集活動支援の実現「スポットマーク」，スポットマークを作成する行為を「スポットマークする」と定義する．ユーザはスポットマークする際，既存のスポットを選択する．目的のスポットがない場合は新規にスポットを作成した上でスポットマークする．スポットは重複が発生しないようにID 管理されている．スポット情報はスポットに付随する様々な情報を内包する．例えば，スポットに付与されているタグやコメントといったものである．

3.2.2

3.3 評価実験

本節では，3.1節と 3.2で提案している，ユーザプロファイルの抽象化によるスポット推薦性能について，評価実験を行なう．

3.3.1 実験仕様

提案手法の2 つと従来型の協調フィルタリングの性能を被験者による机上で主観評価した．なお，被験者たちは20 代の男女26 名である．実験では，既存のWeb サイトから取得したデータを用いて被験者に対して推薦する．被験者が少なくとも 1 つよく知っているエリアを持つために，出身地・現住所を考慮して6 つのエリア（京都市の三条∼四条周辺，大阪市の梅田周辺，神戸市の三宮周辺，東京都区部の上野周辺，名古屋市の伏見周辺，仙台市の東六番丁周辺のそれぞれ1km 四方のエリア）を設定した．6 つのエリア内には少なくとも700以上のスポットが登録されており，その内訳も服飾店，飲食店，観光名所，百貨店，大型電気店と多種多様である．エリアによってスポットの内訳に多少の傾向の違いはあるが，ユーザの嗜好に合った推薦の性能を評価するエリアに適していると判断した．一被験者の実験の流れを図3.5に示す．まず，i) 各被験者に「実際によく知っているエ

(31)

3.3 評価実験 21 リア」を1 つ選択してもらい，そのエリア内に限って少なくとも20 箇所をスポットマークしてもらった．選択したエリアはその被験者にとっての「既知のエリア」であり，それ以外のエリアは「不案内なエリア」と見なした．次に，ii) スポットマークして得られた被験者のスポットマークしたスポット，タグあるいはコメントの形態素を基に各被験者のユーザプロファイルをそれぞれ3.2.2項の式(3.1)の設計通りに生成した．スポット手法のユーザプロファイルはスポットを単位とするn次元ベクトルで，あるスポットをスポットマークしているなら1 ,していないなら0 で生成する．ユーザプロファイルの生成方法は異なるが，その後の各スポットの推薦ランクの算出方法も3.2.2項の設計3 の通りである．最後に，iii) 各被験者に対してそれぞれのエリアごとにスポットを協調フィルタリングによってリスト形式で推薦し，iv) 推薦された各スポットの主観評価結果を得た．なお，各リストは3 手法で推薦されたスポット情報をシャッフルし，被験者にはどのスポット情報がどの手法で推薦されたかはわからないようにした．そして，ユーザプロファイル生成方法における3 手法を推薦精度とエリアを選ばず推薦できるスポット数の割合の 2 つで比較する．

3.3.2 実験の詳細

実験には，スポットに対するタグとコメントの両方を兼ねそろえているテストデータセットを用いて，ユーザプロファイル生成方法における3 手法を比較する必要がある． So-net buzzmap*3_（₂₀₁₀_年₃_月₂₃_{日をもってサービス停止}*4_{）は大勢のユーザの手で} 登録された幅広いスポット情報を公開しているWeb サイトで，全ユーザ間で共有されている「みんなの地図」と，ユーザが各自で管理する「マイ地図帳」の2 種類の地図から構成される（詳細は付録Aに）．ユーザは「みんなの地図」上のスポットを「マイ地図帳に登録」し，その際にスポットに自由にタグやクチコミ（コメント）を書くことができる．これらの構造は本研究の想定するデータ構造とほぼ同等と見なせるため，実験に用いるテストデータとして，So-net buzzmapで公開されているデータを利用する．また，So-net はブログサービスを提供しておりSo-net buzzmap のスポットと連携することができる．ブログはクチコミで記載しきれなかった情報やそのスポットにまつわる思い出などを記述するために利用するので，ブログもコメントと見なしユーザプロファイル生成に利用する．スポットに対する評価値は存在しないので，推薦ランクはコサイン距離の合算の平均で求める．実験のためにRuby 言語のMechanize*5_{で実装したツールを用いて}_So-net

buzzmap から可能な限りのデータ（2009 年9 月18 日現在）を取得し，本研究の想定

*3_{http://buzzmap.so-net.ne.jp/spot/}

*4_{http://buzzmap.blog.so-net.ne.jp/2010-01-12} *5_{https://rubygems.org/gems/mechanize}

(32)

22 第3章ユーザの嗜好に基づく情報推薦による情報収集活動支援の実現表3.1 テストデータセットの内訳ユーザスポットスポットマークタグコメント 9,867 人 245,730個 118,441 個 20,258 種 125,034 個図3.6 推薦リストの例するデータ構造を持つテストデータセットとして再構築した．構築したテストデータは表3.1の通り，9,867 人のユーザ，245,730 個のスポット，118,441 個のスポットマーク， 20,258 種のタグ，125,034個のコメントからなっている．以降，So-net buzzmap について記述する場合も「マイ地図帳に登録」を「スポットマーク」と置き換えて記述する．また，被験者には6 つの評価用エリアから選択した「既知のエリア」内に限定して少なくとも20 箇所をスポットマークしてもらい，タグ付けやコメントは被験者の自由意志に任せているが，buzzmap上でスポットマークの数が20以上とアクティブにシステムを利用していると考えられるユーザ数は，テストデータセット中で9,867人中の上位1,243人（12.6%）と突出するほど少なくないことが確認できている．各被験者の選択した1 つの「既知のエリア」とそれ以外の5 つの「不案内なエリア」それぞれで，推薦リストを3 つの手法で作成する．この時点で被験者ひとりあたり6 エリア× 3 手法の推薦リストができる．なお，すべての手法で，ひとつの推薦リストに含むスポットの上限は20 までのtop-20 リストとした．それぞれのエリアについて3 手法で作成した推薦リストの中身をシャッフルし，被験者にはどのスポットがどの手法で推薦されたか見分けの付かない評価用推薦リストを作成する．3 手法間で同一スポットを推薦する場合，評価用推薦リストには一つだけ追加する．つまり，評価用推薦リストには20∼ 60 個程度のスポットが含まれる．そうして作成した6 エリア分の評価用推薦リストを被験者に図3.6のように提示し，スポットのリンクをクリックするとスポット情報を表示する．[Google で検索]をクリックするとスポット名をGoogle で検索した結果を表示する．被験者は評価用推薦リストに含まれる各スポットに対して，次のいずれかの主観評価値を付ける．

(33)

3.3 評価実験 23 表3.2 被験者の既知のエリア／不案内なエリアの選択結果京都大阪神戸東京名古屋仙台延べ人数「既知のエリア」である被験者数 9 12 2 0 1 2 26 「不案内なエリア」である被験者数 17 14 24 26 25 24 130 • A:興味があり，内容が自分と関係が深い • B: 興味はあるが，万人向けの内容である（内容が自分と関係が深いとは言えない） • C: 興味はないし，内容も自分とは関係ないスポット情報のみで評価の判断がつかない場合に，Web で別途検索し詳細情報を得ることを促した．推薦精度の指標には，下記のP recisionを用いる． P recision-A = 評価A を得た推薦スポット数推薦リスト中のスポット数 (3.7) P recision-AB = 評価A またはBを得た推薦スポット数推薦リスト中のスポット数 (3.8) 各手法ごとに「既知のエリア」と「不案内なエリア」での推薦のP recisionを求める．ユーザの嗜好に合った推薦ができているほど，平均 P recision-Aと平均P recision-AB は高くなる．同時に，次の指標も求める． Coverage = 推薦スポット数推薦候補スポット数 (3.9) Coverage の低いシステムはそもそも推薦ランクを算出できるコンテンツの数が少ないため，ユーザの嗜好に合った推薦を行なえる可能性は低いことになる．特に，不案内なエリアにおいてスポット手法で推薦ランクの算出できるスポット数は，提案手法に比べて圧倒的に少なくなると推測できる．

3.3.3 実験結果と考察

被験者の既知のエリア／不案内なエリアの分布を表3.2に示す．

(34)

24 第3章ユーザの嗜好に基づく情報推薦による情報収集活動支援の実現図3.7 既知のエリアにおける平均P recision 図3.8 不案内なエリアにおける平均P recision 図3.9 3 手法のCoverage 図 3.10 不案内なエリアにおける Coverage拡大の影響比較推薦アルゴリズムそのものの性能を測るために，3 手法とも既知のエリアのみを対象とした，すなわち推薦候補が潤沢に用意できる良好な条件下で P recisionを評価する．26 名の被験者から得られた，既知のエリアにおける平均P recision-A，平均P recision-AB を図3.7に示す．上の棒グラフが平均P recision-A，下の棒グラフが平均P recision-AB を表し，単位はパーセントである．図3.7から，既知のエリアの平均P recisionは3.1.1 項の仮説通り，スポット手法→タグ手法→コメント手法の順に並んでいる．しかし，平均P recision-Aの3 手法間と平均P recision-ABの3 手法間についてそれぞれ対応のないt 検定を行なったところ，有意水準5% において有意的な差があるとは言えない結果となった．したがって，推薦精度は3 手法で同等である．全被験者の不案内なエリアにおける平均P recision-Aと平均 P recision-ABを図3.8 に示す．図 3.8から，不案内なエリアの平均 P recisionは3.1.1項で仮説したタグ手法 → コメント手法 → スポット手法ではなく，タグ手法 → スポット手法 → コメント手法の順に並んでいる．しかし，平均P recision-Aの3 手法間と平均P recision-ABの3 手法間についてそれぞれ対応のないt 検定を行なったところ，有意水準5% において有意的な差があるとは言えない結果となった．したがって，不案内なエリアにおいても3 手法の推薦精度は同程度である．スポット手法は実世界の物理的制約が原因となって不案内なエリアにおいてそもそも推薦自体ができないか，もしくは推薦の精度が著しく低下すると仮説していた．この仮説を

立命館学術成果リポジトリ

情報利用履歴に基づくユーザの活動支援に関する研究

(User’s Activity Support Methods based on Information Access History)

立命館大学大学院 情報理工学研究科 情報理工学専攻 博士課程後期課程

Doctoral Program In Information Science and Engineering

Graduate School of Information Science and Engineering

Ritsumeikan University

中村明順

Akinori Nakamura

和文要旨

Abstract

目次

図目次

表目次

第

1

章

はじめに

1.1

研究背景と目的

1.2

論文の構成

情

報

利

用

履

歴

蓄

積

支援サービス

支援サービス

支援サービス

支援サービス

支援サービス

支援サービス

履

歴

提

供

履

歴

提

供

履

歴

提

供

集団の履歴に基づく支援

個人の履歴に基づく支援

第

2

章

情報利用履歴に基づく活動支援に関

する考察と本研究の課題

2.1

情報利用履歴に関する関連研究

2.1.1

集団の履歴に基づく研究

2.1.2

個人の履歴に基づく研究

2.1.3

情報利用履歴まとめ

2.2

活動支援に関する関連研究

2.2.1

ユーザの嗜好に基づく情報推薦による活動支援

2.2.2

情報間の関連性に基づく情報の自動分類による活動支援

2.2.3

頻出アクセスパターンに基づく利用情報予測による活動支援

2.2.4

活動支援まとめ

2.3

本研究の課題

第

3

章

ユーザの嗜好に基づく情報推薦によ

る情報収集活動支援の実現

立命館大学大学院情報理工学研究科情報理工学専攻博士課程後期課程

₁

_{支援サービス}

_{支援サービス}

_{支援サービス}

₂

₃