• 検索結果がありません。

社会に浸透する新たなコンピュータ/ネットワークの世界:4.大量の行動履歴情報を扱うプラットフォーム技術 -ユーザ行動の特性に着目したログ処理技術の提案-

N/A
N/A
Protected

Academic year: 2021

シェア "社会に浸透する新たなコンピュータ/ネットワークの世界:4.大量の行動履歴情報を扱うプラットフォーム技術 -ユーザ行動の特性に着目したログ処理技術の提案-"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)特 集 社会に浸透する新たなコンピュータ/ネットワークの世界. 大量の行動履歴情報を扱う プラットフォーム技術. 4. ─ユーザ行動の特性に着目したログ処理技術の提案─. 市川裕介 小林 透 (日本電信電話(株)NTT 情報流通プラットフォーム研究所). 近年,ネットワーク上に保存される Web アクセス履. 組むユーザの情報行動特有の特徴を利用したログ抽出技. 歴などの行動履歴データをユーザ/サービス横断的に分. 術について解説する.. 析し,サービスに活用しようという動きが活発化してい る.本稿では,大量の行動履歴データ活用のためのネッ. ■■ 行動履歴を活用するための要素技術. トワーク基盤実現に必要となる技術要素について述べる. 特に,その中でも重要な「大量のログの中から必要な部. 行動履歴を活用するための要素を処理段階ごとに分類. 分を抽出する技術」について,行動履歴が有する 「人間の. すると,①行動履歴を収集し記録する技術,②大量の行. 行動の足跡の特徴」を利用することで,簡易な方法で抽. 動履歴情報の中から分析に必要な個所を特定し抽出する. 出を実現する手法の事例として,筆者が提案する行動履. 技術,③行動履歴を分析しユーザの属性や趣味嗜好など. 歴の「べき乗則」を利用したユーザ分類手法について解説. を推定する技術の 3 つの要素技術に大別できる (図 -1).. を行う.. ①行動履歴を収集し記録する技術 行動履歴の活用のための最初の課題として,行動履. ■■ クラウド時代のプラットフォーム技術. 歴データをいかにして取得し,ネットワークに保持す. 次世代ネットワーク(NGN)により安心安全なネット. ビスを提供するサーバが個別にアクセス履歴を保持す. ワーク環境が提供され,クラウドコンピューティングに. ることで収集されてきた.この場合,ユーザから得た. より安価にネットワーク上の記憶スペースや計算環境を. 承諾範囲等の都合により,履歴の活用は単独のサービ. 利用できるようになると,これまで以上に多種多様大量. ス内で閉じてしまうケースがほとんどである.一方で,. のデータがネットワーク上に保存されるようになること. サービス横断的に履歴を活用する目的で,ブラウザの. が予想される.近年,これらのデータをユーザ/サービ. プラグインなどを利用してユーザのクライアント端末. ス横断的に分析・活用することによる新たなサービスの. に行動履歴を収集しネットワークに送信する機能を持. 創出を模索する動きが活発化している.. たせる方法や,ネットワークのトラフィックデータを. るかという課題がある.履歴の獲得には,従来はサー. 特に,ユーザの「行動履歴データ」 を対象として,個人. 抽出する DPI(Data Packet Inspection)装置を利用し. に最適化した情報提供を行う 「行動支援サービス」 や,企. て行動履歴を集める方法なども提案・実用化され,行. 業の「マーケティング活動」などに活用しようという動き. 動ターゲティング広告サービスなどに活用されてきて. が注目を集めている.その代表的な取り組みに,経済産. いる.. 業省が進めている,知的情報アクセス技術の共通技術の. クライアントサイドやネットワークサイドでの履. ☆1. 開発を目的とした「情報大航海プロジェクト. 」 がある.. 歴収集はサービス横断的に情報が得られる一方で,. 本稿では,行動履歴情報のうち,Web 閲覧ログや端. テキストマイニングにより閲覧内容が何であるかを. 末の操作ログなど,ユーザの情報行動の履歴データを対. 分析する必要があるなど,ユーザの興味対象の解析. 象に,その履歴データを活用するための基盤(プラット. 負荷がかかる.対して,サーバサイドの履歴収集で. フォーム)の実現に必要となる要素技術について述べる.. は閲覧先の内容は解析せずとも運営者が把握してい. その中でも,特に筆者が重要と考えている,大量の履歴. るが,横断的な利用の仕組みを作ることが困難など,. データの中からサービスに必要な部分を特定し,ログや. 収集手法ごとに長所短所がある.. ユーザを分類・抽出する技術の一例として,筆者が取り. ②大量の行動履歴情報の中から分析に必要な個所を 特定し抽出する技術. ☆1. 情報大航海プロジェクト(http://www.igvpj.jp/index/). 18. 情報処理 Vol.51 No.1 Jan. 2010. 収集された行動履歴情報はサイズが非常に大きく,.

(2) 大量の行動履歴情報を扱うプラットフォーム技術 . ・ユーザ行動の足跡(ログ情報) - Webアクセスログ - PCサーバ操作履歴 - 位置情報 …. 4. ユーザプロファイル=   固定的な特性データ     +    変化する特性データ デモグラフィック属性. 課題1.ログ情報をどうやって収集するか. サイコグラフィック属性. 長期的. ・性別 ・居住エリア ・年齢 ・出身エリア ・…     ・名前. ・嗜好 ・革新性 ・…. 短期的. ・要求 ・状況   ・…. 図 -2 属性の分類 課題2.収集した大量のログ情報から必要な部分だけを どうやって抜き出すのか. ーザの嗜好を推定し,レコメンデーションや行動タ 課題3.抜き出したログ情報を基にユーザの属性や嗜 好をどのように推定/予測するか. ーゲティング広告,マーケティング分析などへ活用 する取り組みは数多く行われている. 特に,サイトやサービス横断的に行動履歴を利用. ・ユーザ行動の推定/予測に基づく応用サービス - セキュリティ - ビジネスインテリジェンス - マーケティング - レコメンデーション - ソフトウェアエンジニアリング …. するためには,共通して利用可能な属性としてユー ザの嗜好を表現する必要がある. 一言で属性といってもさまざまであるが,大別す るとデモグラフィック属性,サイコグラフィック属 性に分類することができる(図 -2).デモグラフィッ. 図 -1 行動履歴処理の段階. ク属性とは年齢や性別,職業など従来使用されてき た属性(人口統計学的属性)のことを指し,対してサ イコグラフィック属性とは,価値観やライフスタイ. テラバイトやペタバイト規模になる可能性がある.現. ルなどユーザの内面的な属性 (心理学的属性) を指す.. 在の技術では,ディスクからメインメモリにロード. 近年,企業のマーケティング活動において,サイ. する速度は 1 秒間に数百 MB が限界であり,テラバイ. コグラフィック属性を用いたユーザ分類ごとに広告. ト規模のデータとなると,ロード処理だけでも相当. 戦略を立てるといったことが行われているようであ. な負荷となる.このように,アプリケーションの行. る.中村ら 6 は,そのようなマーケティング活動へ. 動履歴データ解析にはデータ量の制約がある.した. の活用可能な,サイコグラフィック属性を行動履歴. がって,行動履歴データをサービスやアプリケーシ. から推定する手法を提案し,その有効性の検証に取. ョンが利用可能な状態にするためには,あらかじめ. り組んでいる.. ). 解析に必要なデータを選択,抽出しておくことが必 ■■ 行動履歴に現れる特性を活用した . ). 要となる 2 . データの抽出のアプローチには,フィルタリング,. 抽出技術. マッチング,分類の 3 つの形態が代表的なものとし て挙げられる.どのアプローチにおいても,行動履歴. ここでは,人間の行動足跡に現れる特性を利用した新. が有する「人間の行動の足跡の特徴」を利用して,高速,. たなアプローチの例として,筆者が取り組んでいる行動. または簡易な方法で抽出を実現できる可能性がある.. 履歴のべき乗則を利用した,ユーザ分類技術について説. たとえば,豊田ら. 4). はユーザの Web ページの閲覧. 明する.. 順序がユーザの閲覧目的が同じ場合に類似すること を利用して,閲覧履歴をシーケンスとして扱い,シ. ◉ユーザの行動履歴に現れるべき乗則. ーケンスマッチングの技術によって履歴を抽出する. べき乗則とはある観測量がパラメータのべき乗に比例. 手法を提案している.また,筆者. 5). は閲覧履歴の分. することを示し,ネットワーク分析,言語解析等,多く. 布がべき乗則になることを利用したユーザ分類の手. の分野でべき乗則が成り立つという解析結果が報告され. 法を提案している.筆者の提案する手法の内容につ. ている.特に,近年の研究により,人が物や情報を選択. いては,この後の章にて解説する.. する行動 (選好行動) の結果得られる履歴データの統計を. ③行動履歴を分析しユーザの属性や趣味嗜好などを. とると,多くの場合べき乗則を示すことが報告されてい ). 推定する技術. る.たとえば,井庭ら 3 は,書籍販売の POS データを. 行動履歴をユーザの暗黙的な嗜好入力と捉え,ユ. 解析した結果,販売数の分布がべき乗分布になることを 情報処理 Vol.51 No.1 Jan. 2010. 19.

(3) 特 集 社会に浸透する新たなコンピュータ/ネットワークの世界 1000000. Rank-Size(2007/01/01-2007/01) ※インターネット視聴データ(ビデオ リサーチインタラクティブ社調べ) [Size] から1ユーザを抽出したデータ. サイトへ の ア ク セ ス 数. 100000. f(x)=axk. 10000 1000 100 10 1 1. 10. 100 1000 10000 100000 1000000 [Rank]. 順位(アクセス数の多い順) 図 -3 Web 閲覧行動のべき乗分布. 示し,コンテンツ商材市場の市場モデルの構築に活用し. べき乗則の発生原理をモデル化する取り組みの中で示. ている.よく知られる「ロングテール」 の法則もべき乗則. されているものに,Zipf の「労力最小の原理」や,小野寺. をベースとする経験則である.. が示した 「成功累積モデル」 などがある.これらの共通す. また,Web のハイパーリンクや論文の引用関係など. る特徴として,べき乗則の「少数への集中,多数への分. のネットワーク構造において,1 ノードにおける接続数. 散」が,労力を最小化しようとする人間の努力や,成功. の分布がべき乗則を示すことが多くの研究で示されて. が成功を生む状態など,人間行為の結果によるものとし. いる.このような分布を示すネットワークは,任意の 2. ている点にある.. 点間の最短パスの最大長が,ネットワークの大きさに比. ここで,このモデルを Web アクセスに当てはめると,. べて小さいという性質がある.この性質から,社会学. ユーザは有用と感じたサイトを集中的に利用する傾向に. などの分野において,このような特徴を持つネットワ. あり,そのべき指数が小さいほどその傾向が強まるとい. ークは 「スモールワールドネットワーク」 と呼ばれている.. う仮説が立てられる.. このほかにもさまざまな報告が文献 1) ,2)や,Web. つまり,Web 利用の目的がはっきりしているユーザ. サイト. ☆2. にまとめられているので参照されたい.. ほどその目的に合致したサイト (有用と感じたサイト)を. べき乗則を示す場合,同一観測対象でも観測ユーザ数. 集中的に利用する傾向が強くなるため,べき指数が小さ. が増減するだけで平均・分散が大きく変化し,観測数が. くなり,逆に多様な目的で利用するユーザはべき指数が. 十分に多い場合,平均は 1 に近く,分散は∞に近くなり,. 大きくなる傾向にあり,べき指数によってユーザの行動. 平均や標準偏差といった正規分布を前提とした指標が役. 傾向が集中的傾向にあるか,多様的傾向にあるか分類で. 立たない.その一方で,観測数によらずそのべき指数な. きる可能性があるといえる.. どの分布形状が維持される 「スケールフリー」 などの特徴. 実際,図 -4 に示すように,30 人のサンプルユーザを,. 1). を持つことが知られている .このため,行動履歴の活. 検索ポータルを中心に利用するユーザと掲示板・口コミ. 用においては,従来の正規分布を前提とした平均や分散. 情報サイトを中心に利用するユーザの 2 種の行動傾向別. による閾値設定などではなく,べき乗則の特性を活かし. に分類し,ユーザの行動傾向別のべき指数の分布を求め. たアプローチをとることが重要となってくる.. ると,分布が有意差をもって分かれることが分かっている. 今後,より多くの履歴を対象に本手法の有効性を確認. ◉クライアントログのべき指数を利用したユー ザ分類 筆者はクライアントで収集したユーザの Web アクセ. するとともに,ユーザの分類のみならず,たとえば,ユ. ス履歴のドメインとアクセス回数の分布においても,ほ. いく予定である.. ーザの行動傾向の変化点を抽出して,変化イベントがあ った個所のログ抽出の手法としての利用などを検討して. ぼすべてのユーザのアクセス履歴の分布がべき乗則を示 すことを発見した(図 -3 にその例を示す) .. ■■ 行動履歴を活用するための課題. ☆2. 本稿では,行動履歴を活用するための要素技術として. information on zipf's law(http://www.nslij-genetics.org/wli/zipf/). 20. 情報処理 Vol.51 No.1 Jan. 2010.

(4) 大量の行動履歴情報を扱うプラットフォーム技術 7. 4. 検索・ポータルが含まれない べき指数平均:-1.46 人数:13人/30人中. 6 5 人数︵人︶. 4. 検索・ポータルが含まれる べき指数平均:-1.20 人数:17人/30人中. 3.          (p<0.01). 2 1 0. -1.7  -1.6 -1.5 -1.4 -1.3 -1.2 -1.1 -1 -0.9 -0.8 べき指数. 図 -4 ユーザの行動傾向とべき指数. ☆4. 収集,抽出,属性推定の 3 要素について述べてきた.し. セットの提供を目指す Apache Mahout プロジェクト. かし,これらの要素技術を実際にサービスとして利用す. などがある.. るためには,以下のような課題に対しても取り組む必要. 以上のように,個々の技術のみでなく,制度(法や経. がある.. 済)や全体アーキテクチャなど,さまざまな分野の知見 を活かして行動履歴活用のプラットフォームを考えてい. ◉ユーザの承諾を得る仕組み. く必要があり,今後もさまざまなアプローチでの研究の. 行動履歴は通信事業者にとっては通信の秘密の対象で. 取り組みが期待される.. あり,また個人情報保護の観点においても準プライバシ ーデータに分類されるなど,ユーザのプライバシーとは 密接な関係があり,サービスに活用するためにはユーザ の承諾を得る必要がある.従来,行動履歴情報はサービ ス提供者が情報管理の主体となって,個別にユーザに利 用の承諾を得てきたが,最近ではこの主体をユーザ側に 移そうという VRM(Vendor Relationship Management) と いうフレームワークを検討するプロジェクトも現れてい る. ☆3. .VRM のような仕組みができると,企業側に対し. ては個人情報を管理する負担をなくし,ユーザ側に対し ては行動履歴を提供する相手,内容を自らコントロール 可能にできるメリットがある.. ◉クラウド上でマイニングを実行する最適な アーキテクチャ 本稿で述べてきた技術の実施にあたっては,クラウド 上に機能配置を行う必要がある.特に,マイニング技術 をクラウドコンピューティング環境上に実装する最適な アーキテクチャについては,まだ検討が始まったばかり. 参考文献 1) 海野 敏:計量情報学の分布法則,図書館情報学における数学的方 法(日本図書館学会研究委員会,編),日外アソシエーツ,chapter 2,. pp.16-54 (1994). 2)Pierre, B. et al.:Modeling the Internet and the Web – Probabilistic. Methods and Algorithms, John Wiley and Sons Ltd. (2003). 3)井庭 崇,ほか:書籍販売市場における隠れた法則性,情報処理学 会論文誌,Vol.48, No.SIG6, pp.128-136 (2007). 4)Toyoda, M., Sakurai, Y. and Ichik awa, T .: Identifying Similar. Subsequences in Data Streams. pp. 210-224, DEXA (2008). 5)市川裕介,ほか:ユーザの Web アクセス履歴のべき傾向に着目した ネット利用目的推定方法の検討,DiCoMo2009 シンポジウム,1B-4. (2009). 6)中村美穂,ほか:アクセスログを用いたユーザの革新性推定方式に 関する一考察,人工知能学会・知識ベースシステム研究会 83, pp.2732 (2008). (平成 21 年 10 月 30 日受付). 市川裕介(正会員) [email protected] 昭和 46 年生.平成 8 年慶應義塾大学大学院理工学研究科修 士課程修了.同年日本電信電話(株)入社.通信履歴活用サ ービスの研究開発に従事.平成 6 年本会学術奨励賞,平成 17 年本会山下記念研究賞受賞.. である.取り組みの事例としては,実績のある機械学習. 小林 透(正会員). アルゴリズムを対象にオープンソースのクラウドコンピ. [email protected]. ューティング Apache Hadoop 上に構築するライブラリ. ☆3 ☆4. Project VRM(http://cyber.law.harvard.edu/projectvrm/) Apache Mahout(http://lucene.apache.org/mahout/). NTT 情報流通プラットフォーム研究所,主幹研究員.昭和 62 年東北大大学院工学研究科修士課程修了.同年日本電信電 話(株)入社.以来,ソフトウェア生産技術,ユビキタスコ ンピューティング,暗号応用技術に関する研究開発に従事. 電子情報通信学会会員.. 情報処理 Vol.51 No.1 Jan. 2010. 21.

(5)

参照

関連したドキュメント

中比較的重きをなすものにはVerworn i)の窒息 読,H6ber&Lille・2)の提唱した透過性読があ

この 文書 はコンピューターによって 英語 から 自動的 に 翻訳 されているため、 言語 が 不明瞭 になる 可能性 があります。.. このドキュメントは、 元 のドキュメントに 比 べて

る、関与していることに伴う、または関与することとなる重大なリスクがある、と合理的に 判断される者を特定したリストを指します 51 。Entity

私たちの行動には 5W1H

タップします。 6通知設定が「ON」になっ ているのを確認して「た めしに実行する」ボタン をタップします。.

えて リア 会を設 したのです そして、 リア で 会を開 して、そこに 者を 込 ような仕 けをしました そして 会を必 開 して、オブザーバーにも必 の けをし ます

すべての Web ページで HTTPS でのアクセスを提供することが必要である。サーバー証 明書を使った HTTPS

個別の事情等もあり提出を断念したケースがある。また、提案書を提出はしたものの、ニ