社会に浸透する新たなコンピュータ/ネットワークの世界:4.大量の行動履歴情報を扱うプラットフォーム技術 -ユーザ行動の特性に着目したログ処理技術の提案-
4
0
0
全文
(2) 大量の行動履歴情報を扱うプラットフォーム技術 . ・ユーザ行動の足跡(ログ情報) - Webアクセスログ - PCサーバ操作履歴 - 位置情報 …. 4. ユーザプロファイル= 固定的な特性データ + 変化する特性データ デモグラフィック属性. 課題1.ログ情報をどうやって収集するか. サイコグラフィック属性. 長期的. ・性別 ・居住エリア ・年齢 ・出身エリア ・… ・名前. ・嗜好 ・革新性 ・…. 短期的. ・要求 ・状況 ・…. 図 -2 属性の分類 課題2.収集した大量のログ情報から必要な部分だけを どうやって抜き出すのか. ーザの嗜好を推定し,レコメンデーションや行動タ 課題3.抜き出したログ情報を基にユーザの属性や嗜 好をどのように推定/予測するか. ーゲティング広告,マーケティング分析などへ活用 する取り組みは数多く行われている. 特に,サイトやサービス横断的に行動履歴を利用. ・ユーザ行動の推定/予測に基づく応用サービス - セキュリティ - ビジネスインテリジェンス - マーケティング - レコメンデーション - ソフトウェアエンジニアリング …. するためには,共通して利用可能な属性としてユー ザの嗜好を表現する必要がある. 一言で属性といってもさまざまであるが,大別す るとデモグラフィック属性,サイコグラフィック属 性に分類することができる(図 -2).デモグラフィッ. 図 -1 行動履歴処理の段階. ク属性とは年齢や性別,職業など従来使用されてき た属性(人口統計学的属性)のことを指し,対してサ イコグラフィック属性とは,価値観やライフスタイ. テラバイトやペタバイト規模になる可能性がある.現. ルなどユーザの内面的な属性 (心理学的属性) を指す.. 在の技術では,ディスクからメインメモリにロード. 近年,企業のマーケティング活動において,サイ. する速度は 1 秒間に数百 MB が限界であり,テラバイ. コグラフィック属性を用いたユーザ分類ごとに広告. ト規模のデータとなると,ロード処理だけでも相当. 戦略を立てるといったことが行われているようであ. な負荷となる.このように,アプリケーションの行. る.中村ら 6 は,そのようなマーケティング活動へ. 動履歴データ解析にはデータ量の制約がある.した. の活用可能な,サイコグラフィック属性を行動履歴. がって,行動履歴データをサービスやアプリケーシ. から推定する手法を提案し,その有効性の検証に取. ョンが利用可能な状態にするためには,あらかじめ. り組んでいる.. ). 解析に必要なデータを選択,抽出しておくことが必 ■■ 行動履歴に現れる特性を活用した . ). 要となる 2 . データの抽出のアプローチには,フィルタリング,. 抽出技術. マッチング,分類の 3 つの形態が代表的なものとし て挙げられる.どのアプローチにおいても,行動履歴. ここでは,人間の行動足跡に現れる特性を利用した新. が有する「人間の行動の足跡の特徴」を利用して,高速,. たなアプローチの例として,筆者が取り組んでいる行動. または簡易な方法で抽出を実現できる可能性がある.. 履歴のべき乗則を利用した,ユーザ分類技術について説. たとえば,豊田ら. 4). はユーザの Web ページの閲覧. 明する.. 順序がユーザの閲覧目的が同じ場合に類似すること を利用して,閲覧履歴をシーケンスとして扱い,シ. ◉ユーザの行動履歴に現れるべき乗則. ーケンスマッチングの技術によって履歴を抽出する. べき乗則とはある観測量がパラメータのべき乗に比例. 手法を提案している.また,筆者. 5). は閲覧履歴の分. することを示し,ネットワーク分析,言語解析等,多く. 布がべき乗則になることを利用したユーザ分類の手. の分野でべき乗則が成り立つという解析結果が報告され. 法を提案している.筆者の提案する手法の内容につ. ている.特に,近年の研究により,人が物や情報を選択. いては,この後の章にて解説する.. する行動 (選好行動) の結果得られる履歴データの統計を. ③行動履歴を分析しユーザの属性や趣味嗜好などを. とると,多くの場合べき乗則を示すことが報告されてい ). 推定する技術. る.たとえば,井庭ら 3 は,書籍販売の POS データを. 行動履歴をユーザの暗黙的な嗜好入力と捉え,ユ. 解析した結果,販売数の分布がべき乗分布になることを 情報処理 Vol.51 No.1 Jan. 2010. 19.
(3) 特 集 社会に浸透する新たなコンピュータ/ネットワークの世界 1000000. Rank-Size(2007/01/01-2007/01) ※インターネット視聴データ(ビデオ リサーチインタラクティブ社調べ) [Size] から1ユーザを抽出したデータ. サイトへ の ア ク セ ス 数. 100000. f(x)=axk. 10000 1000 100 10 1 1. 10. 100 1000 10000 100000 1000000 [Rank]. 順位(アクセス数の多い順) 図 -3 Web 閲覧行動のべき乗分布. 示し,コンテンツ商材市場の市場モデルの構築に活用し. べき乗則の発生原理をモデル化する取り組みの中で示. ている.よく知られる「ロングテール」 の法則もべき乗則. されているものに,Zipf の「労力最小の原理」や,小野寺. をベースとする経験則である.. が示した 「成功累積モデル」 などがある.これらの共通す. また,Web のハイパーリンクや論文の引用関係など. る特徴として,べき乗則の「少数への集中,多数への分. のネットワーク構造において,1 ノードにおける接続数. 散」が,労力を最小化しようとする人間の努力や,成功. の分布がべき乗則を示すことが多くの研究で示されて. が成功を生む状態など,人間行為の結果によるものとし. いる.このような分布を示すネットワークは,任意の 2. ている点にある.. 点間の最短パスの最大長が,ネットワークの大きさに比. ここで,このモデルを Web アクセスに当てはめると,. べて小さいという性質がある.この性質から,社会学. ユーザは有用と感じたサイトを集中的に利用する傾向に. などの分野において,このような特徴を持つネットワ. あり,そのべき指数が小さいほどその傾向が強まるとい. ークは 「スモールワールドネットワーク」 と呼ばれている.. う仮説が立てられる.. このほかにもさまざまな報告が文献 1) ,2)や,Web. つまり,Web 利用の目的がはっきりしているユーザ. サイト. ☆2. にまとめられているので参照されたい.. ほどその目的に合致したサイト (有用と感じたサイト)を. べき乗則を示す場合,同一観測対象でも観測ユーザ数. 集中的に利用する傾向が強くなるため,べき指数が小さ. が増減するだけで平均・分散が大きく変化し,観測数が. くなり,逆に多様な目的で利用するユーザはべき指数が. 十分に多い場合,平均は 1 に近く,分散は∞に近くなり,. 大きくなる傾向にあり,べき指数によってユーザの行動. 平均や標準偏差といった正規分布を前提とした指標が役. 傾向が集中的傾向にあるか,多様的傾向にあるか分類で. 立たない.その一方で,観測数によらずそのべき指数な. きる可能性があるといえる.. どの分布形状が維持される 「スケールフリー」 などの特徴. 実際,図 -4 に示すように,30 人のサンプルユーザを,. 1). を持つことが知られている .このため,行動履歴の活. 検索ポータルを中心に利用するユーザと掲示板・口コミ. 用においては,従来の正規分布を前提とした平均や分散. 情報サイトを中心に利用するユーザの 2 種の行動傾向別. による閾値設定などではなく,べき乗則の特性を活かし. に分類し,ユーザの行動傾向別のべき指数の分布を求め. たアプローチをとることが重要となってくる.. ると,分布が有意差をもって分かれることが分かっている. 今後,より多くの履歴を対象に本手法の有効性を確認. ◉クライアントログのべき指数を利用したユー ザ分類 筆者はクライアントで収集したユーザの Web アクセ. するとともに,ユーザの分類のみならず,たとえば,ユ. ス履歴のドメインとアクセス回数の分布においても,ほ. いく予定である.. ーザの行動傾向の変化点を抽出して,変化イベントがあ った個所のログ抽出の手法としての利用などを検討して. ぼすべてのユーザのアクセス履歴の分布がべき乗則を示 すことを発見した(図 -3 にその例を示す) .. ■■ 行動履歴を活用するための課題. ☆2. 本稿では,行動履歴を活用するための要素技術として. information on zipf's law(http://www.nslij-genetics.org/wli/zipf/). 20. 情報処理 Vol.51 No.1 Jan. 2010.
(4) 大量の行動履歴情報を扱うプラットフォーム技術 7. 4. 検索・ポータルが含まれない べき指数平均:-1.46 人数:13人/30人中. 6 5 人数︵人︶. 4. 検索・ポータルが含まれる べき指数平均:-1.20 人数:17人/30人中. 3. (p<0.01). 2 1 0. -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1 -1 -0.9 -0.8 べき指数. 図 -4 ユーザの行動傾向とべき指数. ☆4. 収集,抽出,属性推定の 3 要素について述べてきた.し. セットの提供を目指す Apache Mahout プロジェクト. かし,これらの要素技術を実際にサービスとして利用す. などがある.. るためには,以下のような課題に対しても取り組む必要. 以上のように,個々の技術のみでなく,制度(法や経. がある.. 済)や全体アーキテクチャなど,さまざまな分野の知見 を活かして行動履歴活用のプラットフォームを考えてい. ◉ユーザの承諾を得る仕組み. く必要があり,今後もさまざまなアプローチでの研究の. 行動履歴は通信事業者にとっては通信の秘密の対象で. 取り組みが期待される.. あり,また個人情報保護の観点においても準プライバシ ーデータに分類されるなど,ユーザのプライバシーとは 密接な関係があり,サービスに活用するためにはユーザ の承諾を得る必要がある.従来,行動履歴情報はサービ ス提供者が情報管理の主体となって,個別にユーザに利 用の承諾を得てきたが,最近ではこの主体をユーザ側に 移そうという VRM(Vendor Relationship Management) と いうフレームワークを検討するプロジェクトも現れてい る. ☆3. .VRM のような仕組みができると,企業側に対し. ては個人情報を管理する負担をなくし,ユーザ側に対し ては行動履歴を提供する相手,内容を自らコントロール 可能にできるメリットがある.. ◉クラウド上でマイニングを実行する最適な アーキテクチャ 本稿で述べてきた技術の実施にあたっては,クラウド 上に機能配置を行う必要がある.特に,マイニング技術 をクラウドコンピューティング環境上に実装する最適な アーキテクチャについては,まだ検討が始まったばかり. 参考文献 1) 海野 敏:計量情報学の分布法則,図書館情報学における数学的方 法(日本図書館学会研究委員会,編),日外アソシエーツ,chapter 2,. pp.16-54 (1994). 2)Pierre, B. et al.:Modeling the Internet and the Web – Probabilistic. Methods and Algorithms, John Wiley and Sons Ltd. (2003). 3)井庭 崇,ほか:書籍販売市場における隠れた法則性,情報処理学 会論文誌,Vol.48, No.SIG6, pp.128-136 (2007). 4)Toyoda, M., Sakurai, Y. and Ichik awa, T .: Identifying Similar. Subsequences in Data Streams. pp. 210-224, DEXA (2008). 5)市川裕介,ほか:ユーザの Web アクセス履歴のべき傾向に着目した ネット利用目的推定方法の検討,DiCoMo2009 シンポジウム,1B-4. (2009). 6)中村美穂,ほか:アクセスログを用いたユーザの革新性推定方式に 関する一考察,人工知能学会・知識ベースシステム研究会 83, pp.2732 (2008). (平成 21 年 10 月 30 日受付). 市川裕介(正会員) [email protected] 昭和 46 年生.平成 8 年慶應義塾大学大学院理工学研究科修 士課程修了.同年日本電信電話(株)入社.通信履歴活用サ ービスの研究開発に従事.平成 6 年本会学術奨励賞,平成 17 年本会山下記念研究賞受賞.. である.取り組みの事例としては,実績のある機械学習. 小林 透(正会員). アルゴリズムを対象にオープンソースのクラウドコンピ. [email protected]. ューティング Apache Hadoop 上に構築するライブラリ. ☆3 ☆4. Project VRM(http://cyber.law.harvard.edu/projectvrm/) Apache Mahout(http://lucene.apache.org/mahout/). NTT 情報流通プラットフォーム研究所,主幹研究員.昭和 62 年東北大大学院工学研究科修士課程修了.同年日本電信電 話(株)入社.以来,ソフトウェア生産技術,ユビキタスコ ンピューティング,暗号応用技術に関する研究開発に従事. 電子情報通信学会会員.. 情報処理 Vol.51 No.1 Jan. 2010. 21.
(5)
関連したドキュメント
中比較的重きをなすものにはVerworn i)の窒息 読,H6ber&Lille・2)の提唱した透過性読があ
この 文書 はコンピューターによって 英語 から 自動的 に 翻訳 されているため、 言語 が 不明瞭 になる 可能性 があります。.. このドキュメントは、 元 のドキュメントに 比 べて
る、関与していることに伴う、または関与することとなる重大なリスクがある、と合理的に 判断される者を特定したリストを指します 51 。Entity
私たちの行動には 5W1H
タップします。 6通知設定が「ON」になっ ているのを確認して「た めしに実行する」ボタン をタップします。.
えて リア 会を設 したのです そして、 リア で 会を開 して、そこに 者を 込 ような仕 けをしました そして 会を必 開 して、オブザーバーにも必 の けをし ます
すべての Web ページで HTTPS でのアクセスを提供することが必要である。サーバー証 明書を使った HTTPS
個別の事情等もあり提出を断念したケースがある。また、提案書を提出はしたものの、ニ