• 検索結果がありません。

PDFファイル 1L2OS17a オーガナイズドセッション「OS17 共創的価値創出のためのデータプラットフォーム 」

N/A
N/A
Protected

Academic year: 2018

シェア "PDFファイル 1L2OS17a オーガナイズドセッション「OS17 共創的価値創出のためのデータプラットフォーム 」"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

1

1L2-OS-17a-4

確率的潜在意味解析

集団匿名化法

来店店舗予測精度

評価

山下

真一郎

*1

本村

陽一

*1*2

Shinichiro Yamashita Yoichi Motomura

*1

東京工業大学

*2

産業技術総

研究所

Tokyo Institute of Technology National Institute of Advanced Industrial Science and Technology

In this paper, we evaluated the coming shop prediction precision before and after to be anonymous group using probabilistic Latent Semantic Analysis.

はじめに

顧客IDを持 POS や共通 イン ,

電子 普及 大 購買履歴や行動

履歴 ID 集積さ 時代 到来し い .こ

う ID 付 大 タを利活用し,経営や利便性

役立 有望 知見を抽出す こ 大い 期待

さ い .し しそ 一方 個人情報 漏洩し悪用さ

場 社会的影響 深刻 あ ,プ イ 保

護 観点 従来 個人情報保護法 保護 求

,そ 場 氏 到達可能性 有

無 主要 論点 あ .そ 顧客 個人

や電話番号 個人を特定可能 属性 識 子

を消去す 単純匿 化 対応 行わ .

し し近年,氏 到達し い 個人を識 しう 実

質的個人識 性 いう概念 プ イ 保護を必要

す 大規模 タ解析 断基準 し 議論さ 始

い [1].そこ 年齢や性 属性 組

わせ ,個人情報 く タ 個人 識 可

能 こ を問題 し い .こ 問題 対応す

規準 し ,k-匿 性 あ [2].こ タを集

計す こ 集団匿 化し,集計結果 最小単 k

人(k>1) あ こ 実質的個人識 を 可能

こ を保証す . し,こ 際個人識 可能性

く 時 し 情報損失 問題 .

そこ 山下 [3] 言語処理分 用い タ

ン 手法 一種 あ 確率的潜 意味解析を用い 集

団匿 化す こ 安全 ソ タを利活用

す 実質的個人識 を 可能 す 手法を提

案し .本研究 k-匿 性を満 す う 確率的潜

意味解析を用い 集団匿 化さ 購買店舗履歴

タを用い 来店店舗予測手法を提案し,そ 予測

精度を集団匿 化を施さ い元 実質的個人識 性

あ 購買店舗履歴 タを用い 来店店舗予測精

度 比較し .

2

手法

顧客 購買し 店舗 情報を集計し 購買店舗履

歴 図1 あ こ を想定し い .本研究 購買店

舗履歴 タを元 タ し,確率的潜 意味解析

得 潜 ン 毎 個人 タを集計す

こ 集団匿 化し,そ 結果実質的個人識 可

能 ン ソ タを生成す .

図1 購買店舗履歴 イ 図

2.1 確率的潜在意味解析

確率的潜 意味解析 以降pLSA:probabilistic Latent

Semantic Analysis ,二種 タ集 含

共起関係を分析す 次元 縮 自動分類 ア

ゴ あ .当初自然言語処理分 文書 単語

共起頻度 潜 的 ッ を抽出す 手法 し

T.Hofmann 提唱さ [4].

文 書 d={d1,d2,…,dM},単 語 w={w1,w2,…,wN},話 題 c={c1,c2,….cK} し , 文書d 単語w 間 関係

文書d え 時 話題c あ 確率P c|d

連絡先:山下真一郎,産業技術総 研究所,東京都 東区青

(2)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

2

話題c え 単語w あ 確率P w|c

表さ .こ 関係 ベイ 公式を用い 変形

式(1) 表現さ .

� , = ∑ � � | � | (1)

こ 式 対数尤度関数 (2)式 う .こ

を最大化す う P(d|w) を探すこ ,こ

EM ア ゴ を用い .

L = ∑ ∑ , log� ,

(2)

ゴ 数を一意 決定す 必要 あ 場 基準

次式 示すAIC(赤 情報 基準) を用い こ す

.AIC 最小値を 時 ゴ 数を最適 ゴ

数 す .

��� = − � + (3)

本研究 文書 -単語w 潜 話題 く, 顧

user -店舗 shop 潜 関係 segment を用い .

2.2 来店店舗予測精度

式 4 , 5 来店店舗予測精度CSPPを定義す .

user 所属す categoly 中 最 来店確率 高

shopuser 最 来店確率 高いshop

場 ,そ user を1 す .そし す

user 和を来店店舗予測精度CSPP

C��� =∑��� �

� (4)

3

.来店店舗予測精度比較実験

3.1実験データ

本実験 大規模 ッ ン 蓄積さ

タを使用し .集計し タ 情報を表1 示

す.

表1

顧客数 27102人

対象店舗数 188店舗

取引総数 1612475件

3.2実験方法

Step1:

実質的個人識 性を有し い 顧客毎 ソ

タを生成し,こ タを え pLSA 実行

タ ン し 後,そ タ け 来店店舗

予測精度を求 . ゴ 数 AICを用い 決定す

. Step2:

2-匿 性を満 す う pLSAを用い 実質的個人

識 可能 ン ソ タを生成す .

こ タをさ 2回目 pLSA 実行

タ ン し 後,そ タ け 来店店舗予測精度

を求 . ゴ 数 Step1 ゴ 数 一 す .

Step3:

Step1 得 た来店店舗予測精度 Step 2 得 た来店店舗予測精度を比較し,実質的個人識別

不可能 う ノンパーソナルデータ化す

こ , 程度予測精度 劣化す を評価す .

実験結果 当日発表す .

4

.おわりに

確率的潜 意味解析を用い 集団匿 化法 け

来店店舗予測精度 劣化を評価し .集団匿 化

実質的個人識 を 可能 す こ 要 あ

時 集団匿 化さ タ け 劣化を少

くす こ 今後 ソ タ利活用社会

求 .

参考文献

[1] 総務省, ソ タ 利用 流通 関す 研究

会 報告書(2013)

[2] L.Sweeney,“Achievingk-anonymityprivacyprotection

usinggeneralizationandsuppression,” InternationalJournalon

Uncertainly,FuzzinessandKnowledge-basedSystems,

10(5),pp.571-588 ,2002

[3] 山下真一郎,本村陽一, 田真,竹中毅,“実質的個人 識別を不可能 す 情報損失 少 い集団匿名化法”,行 動計量学会,pp218-221,2013

[4] T.Hofmann, probabilistic Latent Semantic Analysis,

Proceeding,UAI'99 Proceedings of the Fifteenth conference on

Uncertainty in artificial intelligence, pp.289-296, 1999

�= {

∶ � � � � | � = � � � � |

∶ � � � � | � ≠ � � � � |

(5)

参照

関連したドキュメント

Comparing the Gauss-Jordan-based algorithm and the algorithm presented in [5], which is based on the LU factorization of the Laplacian matrix, we note that despite the fact that

Oscillatory Integrals, Weighted and Mixed Norm Inequalities, Global Smoothing and Decay, Time-dependent Schr¨ odinger Equation, Bessel functions, Weighted inter- polation

In this work, we have applied Feng’s first-integral method to the two-component generalization of the reduced Ostrovsky equation, and found some new traveling wave solutions,

Thus, we use the results both to prove existence and uniqueness of exponentially asymptotically stable periodic orbits and to determine a part of their basin of attraction.. Let

Using the fact that there is no degeneracy on (α, 1) and using the classical result known for linear nondegenerate parabolic equations in bounded domain (see for example [16, 18]),

“Breuil-M´ezard conjecture and modularity lifting for potentially semistable deformations after

Section 3 is first devoted to the study of a-priori bounds for positive solutions to problem (D) and then to prove our main theorem by using Leray Schauder degree arguments.. To show

While early experiments with algebraic multigrid solvers have shown promising results [2], herein we focus on a domain decomposition approach based on the finite element tearing