第 6 章 多属性対応差分プライバシ 64
6.8 匿名加工の推薦精度に対する影響評価
表6.11 性別と年代のプロファイルを用いて,部分一致カウント&正規化ありの場合の精度
推薦数 カテゴリの スムージング Minkaの 分散環境対応 次数 なし(NS) スムージング(MK) スムージング(PS)
1次 4% 0% 5%
10 2次 4% 1% 5%
3次 4% 1% 5%
1次 26% 0% 27%
100 2次 26% 3% 27%
3次 26% 3% 27%
1次 84% 25% 85%
1,000 2次 84% 25% 85%
3次 84% 25% 85%
スムージングで処理すると推薦精度を高められることがわかった.
表6.12 性別と年代のプロファイルを用いて,部分一致カウントの場合の精度
推薦数 カテゴリの 要求される安全性
次数 無(ϵ=∞) 弱(ϵ= 2.0) 中(ϵ= 1.0) 強(ϵ= 0.1)
1次 4% 0% 0% 0%
10 2次 4% 1% 1% 1%
3次 4% 1% 1% 1%
1次 26% 3% 3% 3%
100 2次 26% 3% 3% 3%
3次 26% 3% 3% 3%
1次 84% 24% 24% 24%
1,000 2次 84% 25% 25% 25%
3次 84% 25% 25% 25%
表6.13 性別と年代のプロファイルを用いて,部分一致カウント&正規化ありの場合の精度
推薦数 カテゴリの 要求される安全性
次数 無(ϵ=∞) 弱(ϵ= 2.0) 中(ϵ= 1.0) 強(ϵ= 0.1)
1次 4% 4% 4% 3%
10 2次 4% 4% 4% 1%
3次 4% 4% 4% 1%
1次 26% 26% 25% 16%
100 2次 26% 25% 24% 8%
3次 26% 23% 20% 5%
1次 84% 83% 80% 53%
1,000 2次 84% 78% 71% 40%
3次 84% 70% 60% 33%
とがわかった.以下では,この提案手法(表6.15)と従来手法(表6.12)の推薦精度をプロ ファイル毎に比較し,提案手法の特性や適用限界を探る.
要求される安全性が強(ϵ = 0.1)における,性別と年代のプロファイルを用いた場合の 精度の詳細(推薦数が10件の1次)を表6.16に示す.
14種類の性別と年代の組み合わせのうち12種類において,提案手法の精度は従来手法 よりも優れている.提案手法は幅広い性別や年代で推薦精度を高めることができたが,女 性の18歳未満は22件の正解が21件に,女性の56歳以上は33件の正解が17件に低下 してしまった.女性の18歳未満は購入数が0.9%(574,689件のうち5,329件)と14種類
表6.14 性別と年代のプロファイルを用いて,部分一致カウント&正規化あり&次数比 ありの場合の精度
推薦数 カテゴリの 要求される安全性
次数 無(ϵ=∞) 弱(ϵ= 2.0) 中(ϵ= 1.0) 強(ϵ= 0.1)
1次 4% 4% 4% 3%
10 2次 4% 4% 4% 1%
3次 4% 4% 3% 1%
1次 25% 25% 25% 16%
100 2次 25% 24% 23% 9%
3次 25% 23% 20% 6%
1次 84% 83% 80% 56%
1,000 2次 84% 78% 72% 45%
3次 84% 71% 63% 41%
表6.15 性別と年代のプロファイルを用いて,部分一致カウント&正規化あり&次数比
あり&分散環境対応スムージングありの場合の精度
推薦数 カテゴリの 要求される安全性
次数 無(ϵ=∞) 弱(ϵ= 2.0) 中(ϵ= 1.0) 強(ϵ= 0.1)
1次 4% 4% 4% 3%
10 2次 4% 4% 4% 2%
3次 4% 4% 4% 2%
1次 26% 26% 25% 17%
100 2次 26% 26% 25% 15%
3次 26% 26% 25% 14%
1次 84% 83% 81% 59%
1,000 2次 84% 82% 79% 56%
3次 84% 82% 79% 55%
中最も少なく,女性の56歳未満は購入数が1.1%(574,689件のうち6,489件)と14種類 中二番目に少なく,推薦の手がかりとなる情報量が足りないことが考えられる.
要求される安全性が強(ϵ = 0.1)における,職業のプロファイルを用いた場合の精度の 詳細(推薦数が10件の1次)を表6.17に示す.
21種類の職業の組み合わせのうち19種類において,提案手法の精度は従来手法よりも 優れている.提案手法は幅広い職業で推薦精度を高めることができたが,職業が“farmer”
表6.16 要求される安全性が強(ϵ= 0.1)における,性別と年代のプロファイルを用い た場合の精度の詳細(推薦数が10件の1次)
プロファイル 購入数
従来手法 提案手法
スムージング 次数比あり&部分一致カウント&
なし(NS) 分散環境対応スムージングあり(PS)
–18 10,265 33 0% 71 1%
18–24 76,828 2,174 3% 2,986 4%
25–34 168,861 4,150 2% 6,376 4%
男性 35–44 86,821 1,812 2% 2,504 3%
45–49 34,756 126 0% 411 1%
50–55 33,193 120 0% 337 1%
56– 18,537 76 0% 103 1%
–18 5,329 22 0% 21 0%
18–24 23,888 84 0% 344 1%
25–34 53,488 640 1% 1,603 3%
女性 35–44 29,753 107 0% 357 1%
45–49 14,663 54 0% 81 1%
50–55 11,818 52 0% 65 1%
56– 6,489 33 1% 17 0%
計 574,689 9,483 2% 15,276 3%
の6件の正解が 3件に低下してしまった.“farmer”は購入数が0.2%(574,689件のうち
1,417件)と21種類中最も少なく,推薦の手がかりとなる情報量が足りないことが考えら
れる.また,職業が“retiree”の40件の正解が21件に低下してしまった.“retiree”の購 入数は全体の1.5%(574,689件のうち8,886 件)と推薦の手がかりとなる情報量が決して 多くないことに加えて,今はリタイアしているが以前は様々な職業に就いていたユーザが 混在している可能性が高いことが考えられる.
表6.17 要求される安全性が強(ϵ= 0.1)における,職業のプロファイルを用いた場合 の精度の詳細(推薦数が10件の1次)
プロファイル 購入数
従来手法 提案手法
スムージング 次数比あり&部分一致カウント&
なし(NS) 分散環境対応スムージングあり(PS)
academic / educator 49,143 378 1% 1,173 2%
artist 28,572 92 0% 246 1%
clerical / admin 19,045 61 0% 106 1%
college / grad student 73,427 1,990 3% 2,741 4%
customer service 11,774 43 0% 59 1%
doctor / health care 22,741 81 0% 172 1%
executive / managerial 61,270 596 1% 1,691 3%
farmer 1,417 6 0% 3 0%
homemaker 6,717 25 0% 29 0%
K–12 student 13,253 48 0% 88 1%
lawyer 12,353 57 0% 58 0%
programmer 34,543 102 0% 600 2%
retiree 8,886 40 0% 21 0%
sales / marketing 28,885 77 0% 375 1%
scientist 14,214 64 0% 67 0%
self-employed 26,586 85 0% 196 1%
technician / engineer 42,338 228 1% 863 2%
tradesman / craftsman 6,546 25 0% 26 0%
unemployed 7,650 19 0% 27 0%
writer 32,996 122 0% 395 1%
other / not specified 72,333 1,170 2% 1,855 3%
計 574,689 5,309 1% 10,791 2%