アクセスログからの大域的特徴量を考慮したユーザ属性推定
2
0
0
全文
(2) 情報処理学会第 79 回全国大会. 推定値. 140. max filter 50. システムモデル. 120. 観測モデル. 100. min filter. 40. 直接観測値 30. 80 60. 20. 40 10. 20 5. 10. 15. 20. 2. 図 1: 粒子フィルタ適用例. max xk+i. k≤i≤k+3. この場合は,min 関数を用いたフィルタが長期的な 増加傾向を良く表している.min 関数を用いた特異 点フィルタ適用結果に対し,順序保存マッチングの計 算に用いる関数 σ を計算した結果が図 3 である.図 3 では 3 ユーザの計算結果を表しており,図 1 及び 図 2 で示したデータは図 3 ではユーザ C のものであ る.関数 σ を用いて 3 ユーザの中の順序保存マッチ ングによるコサイン類似度を計算した例が表 1 であ る.この結果から,ユーザ A が他のユーザとの類似 度が低いことが分かる.元のアクセスログを確認す ると,ユーザ A はアクセス数が減少傾向にありユー ザ B 及び C は増加傾向にあることが確認できる.そ の理由を調査するためにユーザの属性を確認すると, ユーザ B 及び C は職業が共通して近年いわゆる景気 の良い業界に属しており,ユーザの属性がアクセス 数の傾向に影響していると考えられる.分析対象で あるログデータは EC サイトのアクセスログである ので,購入数や購入金額も参照することができ,ア クセス回数以外のデータを参照しても考察結果の妥 当性が確認できている.. 4.. 8. ユーザA. 8. ユーザB ユーザC. 6. 4. = xk + ω k. 図 1 の推定値が粒子フィルタによる隠れ変数の推定 結果であり,長期的に見るとアクセス数が増加傾向 にあることが見て取れる.また,図 2 に推定値に対 し max 及び min 関数を用いた特異点フィルタの適 用例を示す.スライドウィンドウは 4 であり,4ヶ月 毎のデータに対し関数を適用しフィルタ結果を計算 している:. ck =. 6. 図 2: 特異点フィルタ適用例. のアクセス回数,横軸は 2014 年 1 月からの経過月数 である.システムモデル,観測モデル共に線形で正 規分布に基づくノイズを使用している: { xk = xk−1 + v k. yk. 4. 2. 2. 4. 6. 8. 図 3: 3 ユーザの σ(x) 計算例 子フィルタ,特異点フィルタ,順序保存マッチングな どの技術を用いてロバストに大域的な特徴を抽出し, データ分類結果に基づきユーザの属性を推定する手 法について述べた.原稿執筆時の実験例は小規模な データセットであるが,Hadoop/Spark クラスタで の実装を進めており,より大きなデータ量での検証 実験が今後の課題である.. 参考文献 [1] 北川源四朗, モンテカルロ・フィルタおよび平滑 化について, 統計数理, Vol. 44, No. 1, pp. 31-48, 1996. [2] Y. Shinagawa and T. Kunii, Unconstrained Automatic Image Matching Using Multiresolutional Critical-Point Filters, Trans. Pattern. Anal. Mach. Intell., Vol. 20, No. 9, pp. 994– 1010, 1998. [3] J. Kim, P. Eades, R. Fleischer, S.-H. Hong, C. S. Iliopoulos, K. Park, S. J. Puglisi and T. Tokuyama, Order-preserving Matching, Theor. Comp. Sci., Vol. 525, pp. 68–79, 2014.. おわりに. 本発表では,ノイズや激しい変動が含まれるイン ターネットサービスのアクセスログデータに対し,粒. 1-422. 表 1: コサイン類似度の計算例 ユーザ A ユーザ B ユーザ C ユーザ A. 1.00. 0.88. 0.78. ユーザ B. 0.88. 1.00. 0.90. ユーザ C. 0.78. 0.90. 1.00. Copyright 2017 Information Processing Society of Japan. All Rights Reserved..
(3)
図
関連したドキュメント
以上のことから,心情の発現の機能を「創造的感性」による宗獅勺感情の表現であると
第一の方法は、不安の原因を特定した上で、それを制御しようとするもので
それゆえ、この条件下では光学的性質はもっぱら媒質の誘電率で決まる。ここではこのよ
2 E-LOCA を仮定した場合でも,ECCS 系による注水流量では足りないほどの原子炉冷却材の流出が考
・ 各吸着材の吸着量は,吸着塔のメリーゴーランド運用を考慮すると,最大吸着量の 概ね
各テーマ領域ではすべての変数につきできるだけ連続変量に表現してある。そのため
本学陸上競技部に所属する三段跳のM.Y選手は
「あるシステムを自己準拠的システムと言い表すことができるのは,そのシ