• 検索結果がありません。

アクセスログからの大域的特徴量を考慮したユーザ属性推定

N/A
N/A
Protected

Academic year: 2021

シェア "アクセスログからの大域的特徴量を考慮したユーザ属性推定"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第 79 回全国大会. 5B-04. アクセスログからの大域的特徴量を考慮したユーザ属性推定 佐藤 哲 †. NHN テコラス株式会社 †. 1.. はじめに. 近年,データの局所的な特徴量に加えて大域的な 特徴量を抽出することで,データに含まれるコンテ ンツの認識・識別を図る研究が盛んである.特にイ ンターネットサービスのアクセスログには,サービ スを利用するユーザの日毎・週毎などの生活習慣に 由来する,比較的長い期間を観測することで発見で きる特徴が現れると考えられる.本発表では,ユー ザのアクセスログである時系列データに対しトレン ドを推定し,複数のデータ間でトレンド情報を元に した類似度を計算することでユーザのグループを作 成する.そして各グループの属性を調査することで, 得られている情報が少ないユーザの属性を推定する 手法を報告する.. 2.. 時系列データに対する類似度計算. 本発表で分析対象とするインターネットサービス のアクセスログは,一般にノイズや異常値が多く含 まれている.そのため本研究ではそれらの影響を考 慮してデータのトレンドを推定するために,オンラ イン学習に適する粒子フィルタ [1] を利用する. 粒子フィルタはノイズを含めた次のようなモデル により計算される: { xk = F k (xk−1 , v k ) . y k = H k (xk , wk ) ここで,xk は時刻 t = tk での実際には観測できな い状態空間変数,y k は観測結果,v k と wk は乱数 によるノイズ,F k はシステムモデルと呼ばれる関 数,H k は観測モデルと呼ばれる関数である.粒子 フィルタは,実際に観測された量 y k から状態 xk を 推定する. 次に,粒子フィルタはオンライン学習アルゴリズ ムとして利用されるため,局所的な特徴量を考慮し た学習や予測には適するが,大域的な特徴量を考慮 するためにはコストが高い.そこで本研究では,特 異点フィルタ [2] による大域的特徴量抽出及び順序保 存マッチング [3] によるロバストなデータ列間比較を 導入する.特異点フィルタはデータの次元等によっ て様々な種類が考えられるが,単純なスカラ量時系 Estimating user’s interests from access logs with global features † Tetsu R. Satoh,NHN Techous Corp.. 列データの場合,シンプルに一定範囲の最大値又は 最小値を取るフィルタが考えられる:. ck = max xi kp ≤i≤kq. ここで,xi は時系列上の i 番目のベクトルデータで あるが,本発表では簡単のためスカラ量を扱う.i の 範囲を表す式 kp ≤ i ≤ kq は,データ系列の一定範囲 内のスライドウィンドウの中の値を取ることを意味 する.データ値の変化点を検出することが目的であ るので最大値を得ていることには処理上の特別な意 味は無く,入力データの特性に依存するものである. 式では max を用いているが min も用いられ,デー タ列のグラフに対しそれぞれ下に凸,上に凸の傾向 がある部分を抽出する機能がある.特異点フィルタ でデータを処理するとデータの特徴は保存されるも のの,特徴を強調したデータ列に変換されるために 変換後の複数のデータ列を比較する場合は厳密な一 致の判定では無く類似度の測定が必要となる.本研 究では順序保存マッチングを採用し,コサイン類似 度を次のように定義する:. cos(x, y) = σ(x) · σ(y)/(|σ(x)||σ(y)|) ここで,. x = (x0 , x1 , · · · , xn−1 ), y = (y0 , y1 , · · · , yn−1 ), σ(x) := (rank(x0 ), rank(x1 ), · · · , rank(xn−1 )), rank(xi ) := x0 , x1 , · · · , xn−1 のソート後の xi の位置 である.また,· はベクトルの内積を,|σ| はベクト ルの 2-ノルムを表している. 以上に述べた技術を用い,粒子フィルタにより局 所的な特徴量を考慮したトレンドを推定した上で特 異点フィルタを用いて大域的な特徴量を抽出し,順 序保存マッチングを応用した類似度を計算すること で,属性が近いデータ列のグループを作成する.. 3.. 時系列アクセスデータによるユーザ属 性推定実験. 既に述べた手法を EC サイトへのアクセスログに 適用した例を紹介する.図 1 は,あるユーザの 2 年 間のアクセスデータに対し粒子フィルタを適用した 例で,縦軸は適当な単位にスケール変換した 1ヶ月. 1-421. Copyright 2017 Information Processing Society of Japan. All Rights Reserved..

(2) 情報処理学会第 79 回全国大会. 推定値. 140. max filter 50. システムモデル. 120. 観測モデル. 100. min filter. 40. 直接観測値 30. 80 60. 20. 40 10. 20 5. 10. 15. 20. 2. 図 1: 粒子フィルタ適用例. max xk+i. k≤i≤k+3. この場合は,min 関数を用いたフィルタが長期的な 増加傾向を良く表している.min 関数を用いた特異 点フィルタ適用結果に対し,順序保存マッチングの計 算に用いる関数 σ を計算した結果が図 3 である.図 3 では 3 ユーザの計算結果を表しており,図 1 及び 図 2 で示したデータは図 3 ではユーザ C のものであ る.関数 σ を用いて 3 ユーザの中の順序保存マッチ ングによるコサイン類似度を計算した例が表 1 であ る.この結果から,ユーザ A が他のユーザとの類似 度が低いことが分かる.元のアクセスログを確認す ると,ユーザ A はアクセス数が減少傾向にありユー ザ B 及び C は増加傾向にあることが確認できる.そ の理由を調査するためにユーザの属性を確認すると, ユーザ B 及び C は職業が共通して近年いわゆる景気 の良い業界に属しており,ユーザの属性がアクセス 数の傾向に影響していると考えられる.分析対象で あるログデータは EC サイトのアクセスログである ので,購入数や購入金額も参照することができ,ア クセス回数以外のデータを参照しても考察結果の妥 当性が確認できている.. 4.. 8. ユーザA. 8. ユーザB ユーザC. 6. 4. = xk + ω k. 図 1 の推定値が粒子フィルタによる隠れ変数の推定 結果であり,長期的に見るとアクセス数が増加傾向 にあることが見て取れる.また,図 2 に推定値に対 し max 及び min 関数を用いた特異点フィルタの適 用例を示す.スライドウィンドウは 4 であり,4ヶ月 毎のデータに対し関数を適用しフィルタ結果を計算 している:. ck =. 6. 図 2: 特異点フィルタ適用例. のアクセス回数,横軸は 2014 年 1 月からの経過月数 である.システムモデル,観測モデル共に線形で正 規分布に基づくノイズを使用している: { xk = xk−1 + v k. yk. 4. 2. 2. 4. 6. 8. 図 3: 3 ユーザの σ(x) 計算例 子フィルタ,特異点フィルタ,順序保存マッチングな どの技術を用いてロバストに大域的な特徴を抽出し, データ分類結果に基づきユーザの属性を推定する手 法について述べた.原稿執筆時の実験例は小規模な データセットであるが,Hadoop/Spark クラスタで の実装を進めており,より大きなデータ量での検証 実験が今後の課題である.. 参考文献 [1] 北川源四朗, モンテカルロ・フィルタおよび平滑 化について, 統計数理, Vol. 44, No. 1, pp. 31-48, 1996. [2] Y. Shinagawa and T. Kunii, Unconstrained Automatic Image Matching Using Multiresolutional Critical-Point Filters, Trans. Pattern. Anal. Mach. Intell., Vol. 20, No. 9, pp. 994– 1010, 1998. [3] J. Kim, P. Eades, R. Fleischer, S.-H. Hong, C. S. Iliopoulos, K. Park, S. J. Puglisi and T. Tokuyama, Order-preserving Matching, Theor. Comp. Sci., Vol. 525, pp. 68–79, 2014.. おわりに. 本発表では,ノイズや激しい変動が含まれるイン ターネットサービスのアクセスログデータに対し,粒. 1-422. 表 1: コサイン類似度の計算例 ユーザ A ユーザ B ユーザ C ユーザ A. 1.00. 0.88. 0.78. ユーザ B. 0.88. 1.00. 0.90. ユーザ C. 0.78. 0.90. 1.00. Copyright 2017 Information Processing Society of Japan. All Rights Reserved..

(3)

表 1: コサイン類似度の計算例 ユーザ A ユーザ B ユーザ C ユーザ A 1.00 0.88 0.78 ユーザ B 0.88 1.00 0.90 ユーザ C 0.78 0.90 1.00

参照

関連したドキュメント

以上のことから,心情の発現の機能を「創造的感性」による宗獅勺感情の表現であると

 第一の方法は、不安の原因を特定した上で、それを制御しようとするもので

それゆえ、この条件下では光学的性質はもっぱら媒質の誘電率で決まる。ここではこのよ

2 E-LOCA を仮定した場合でも,ECCS 系による注水流量では足りないほどの原子炉冷却材の流出が考

・ 各吸着材の吸着量は,吸着塔のメリーゴーランド運用を考慮すると,最大吸着量の 概ね

各テーマ領域ではすべての変数につきできるだけ連続変量に表現してある。そのため

本学陸上競技部に所属する三段跳のM.Y選手は

「あるシステムを自己準拠的システムと言い表すことができるのは,そのシ