The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
1
1L2-OS-17a-4
確率的潜在意味解析
集団匿名化法
け
来店店舗予測精度
評価
山下
真一郎
*1本村
陽一
*1*2Shinichiro Yamashita Yoichi Motomura
*1
東京工業大学
*2
産業技術総
研究所
Tokyo Institute of Technology National Institute of Advanced Industrial Science and Technology
In this paper, we evaluated the coming shop prediction precision before and after to be anonymous group using probabilistic Latent Semantic Analysis.
1
はじめに
顧客IDを持 POS や共通 イン ,
電子 普及 大 購買履歴や行動
履歴 ID 集積さ 時代 到来し い .こ
う ID 付 大 タを利活用し,経営や利便性
役立 有望 知見を抽出す こ 大い 期待
さ い .し しそ 一方 個人情報 漏洩し悪用さ
場 社会的影響 深刻 あ ,プ イ 保
護 観点 従来 個人情報保護法 保護 求
,そ 場 氏 到達可能性 有
無 主要 論点 あ .そ 顧客 個人
や電話番号 個人を特定可能 属性 識 子
を消去す 単純匿 化 対応 行わ .
し し近年,氏 到達し い 個人を識 しう 実
質的個人識 性 いう概念 プ イ 保護を必要
す 大規模 タ解析 断基準 し 議論さ 始
い [1].そこ 年齢や性 属性 組
わせ ,個人情報 く タ 個人 識 可
能 こ を問題 し い .こ 問題 対応す
規準 し ,k-匿 性 あ [2].こ タを集
計す こ 集団匿 化し,集計結果 最小単 k
人(k>1) あ こ 実質的個人識 を 可能
こ を保証す . し,こ 際個人識 可能性
く 時 し 情報損失 問題 .
そこ 山下 [3] 言語処理分 用い タ
ン 手法 一種 あ 確率的潜 意味解析を用い 集
団匿 化す こ 安全 ソ タを利活用
す 実質的個人識 を 可能 す 手法を提
案し .本研究 k-匿 性を満 す う 確率的潜
意味解析を用い 集団匿 化さ 購買店舗履歴
タを用い 来店店舗予測手法を提案し,そ 予測
精度を集団匿 化を施さ い元 実質的個人識 性
あ 購買店舗履歴 タを用い 来店店舗予測精
度 比較し .
2
手法
顧客 購買し 店舗 情報を集計し 購買店舗履
歴 図1 あ こ を想定し い .本研究 購買店
舗履歴 タを元 タ し,確率的潜 意味解析
得 潜 ン 毎 個人 タを集計す
こ 集団匿 化し,そ 結果実質的個人識 可
能 ン ソ タを生成す .
図1 購買店舗履歴 イ 図
2.1 確率的潜在意味解析
確率的潜 意味解析 以降pLSA:probabilistic Latent
Semantic Analysis ,二種 タ集 含
共起関係を分析す 次元 縮 自動分類 ア
ゴ あ .当初自然言語処理分 文書 単語
共起頻度 潜 的 ッ を抽出す 手法 し
T.Hofmann 提唱さ [4].
文 書 d={d1,d2,…,dM},単 語 w={w1,w2,…,wN},話 題 c={c1,c2,….cK} し , 文書d 単語w 間 関係
文書d え 時 話題c あ 確率P c|d
連絡先:山下真一郎,産業技術総 研究所,東京都 東区青
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
2
話題c え 単語w あ 確率P w|c
表さ .こ 関係 ベイ 公式を用い 変形
式(1) 表現さ .
� , = ∑ � � | � | (1)
こ 式 対数尤度関数 (2)式 う .こ
を最大化す う P(d|w) を探すこ ,こ
EM ア ゴ を用い .
L = ∑ ∑ , log� ,
�
(2)
ゴ 数を一意 決定す 必要 あ 場 基準
次式 示すAIC(赤 情報 基準) を用い こ す
.AIC 最小値を 時 ゴ 数を最適 ゴ
数 す .
��� = − � + (3)
本研究 文書 -単語w 潜 話題 く, 顧
客 user -店舗 shop 潜 関係 segment を用い .
2.2 来店店舗予測精度
式 4 , 5 来店店舗予測精度CSPPを定義す .
あ user 所属す categoly 中 最 来店確率 高
いshop そ user 最 来店確率 高いshop 一
場 ,そ user �を1 す .そし す
user � 和を来店店舗予測精度CSPP し
.
C��� =∑��� � � �
� (4)
3
.来店店舗予測精度比較実験
3.1実験データ
本実験 大規模 ッ ン 蓄積さ
タを使用し .集計し タ 情報を表1 示
す.
表1
顧客数 27102人
対象店舗数 188店舗
取引総数 1612475件
3.2実験方法
Step1:
実質的個人識 性を有し い 顧客毎 ソ
タを生成し,こ タを え pLSA 実行
タ ン し 後,そ タ け 来店店舗
予測精度を求 . ゴ 数 AICを用い 決定す
. Step2:
2-匿 性を満 す う pLSAを用い 実質的個人
識 可能 ン ソ タを生成す .
こ タをさ 2回目 pLSA 実行
タ ン し 後,そ タ け 来店店舗予測精度
を求 . ゴ 数 Step1 ゴ 数 一 す .
Step3:
Step1 得 た来店店舗予測精度 Step 2 得 た来店店舗予測精度を比較し,実質的個人識別
不可能 う ノンパーソナルデータ化す
こ , 程度予測精度 劣化す を評価す .
実験結果 当日発表す .
4
.おわりに
確率的潜 意味解析を用い 集団匿 化法 け
来店店舗予測精度 劣化を評価し .集団匿 化
実質的個人識 を 可能 す こ 要 あ
時 集団匿 化さ タ け 劣化を少
くす こ 今後 ソ タ利活用社会
求 .
参考文献
[1] 総務省, ソ タ 利用 流通 関す 研究
会 報告書(2013)
[2] L.Sweeney,“Achievingk-anonymityprivacyprotection
usinggeneralizationandsuppression,” InternationalJournalon
Uncertainly,FuzzinessandKnowledge-basedSystems,
10(5),pp.571-588 ,2002
[3] 山下真一郎,本村陽一, 田真,竹中毅,“実質的個人 識別を不可能 す 情報損失 少 い集団匿名化法”,行 動計量学会,pp218-221,2013
[4] T.Hofmann, probabilistic Latent Semantic Analysis,
Proceeding,UAI'99 Proceedings of the Fifteenth conference on
Uncertainty in artificial intelligence, pp.289-296, 1999
�= {
∶ � � � � | � = � � � � |
∶ � � � � | � ≠ � � � � |
(5)