第 6 章 多属性対応差分プライバシ 64
6.2 差分プライバシとラプラスノイズ
2.4.3節で述べたように,匿名加工の対象には,個人情報のレコードを集めた個票と,個
票から算出された統計量の2 種類があり,各々に対する匿名加工の手法がある.個票を 対象とする匿名加工の目的は,個票中の各レコードと個人との対応がつかないようにする
ことである.一方,統計値を対象とする匿名加工の目的は,統計値から元の個票を推定で きないようにすることである.個票を対象にする手法は元データを大きく劣化させ,推薦 精度を低下させる.Inter PPRでは少ないデータを用いて推薦するので,推薦精度の低下 は致命的である.そのため,3.3.3節で述べたように.統計値を対象とする手法を用いる.
中でも,プライバシとデータ劣化のトレードオフを数学的に定式化できる差分プライバシ を用いて,クロス集計表の匿名加工を行うことにする.
6.2.2 差分プライバシの概要
差分プライバシは,匿名加工の安全性を数学的に定式化できる基準であり,ラプラスメ カニズムと呼ばれる匿名加工の方法とともに提案された[86].ラプラスノイズを統計量に 重畳することによって,統計量の元になった個人情報の推定を防止できる.プライバシの 基準とラプラスメカニズムの詳細については次節で述べる.
Inter PPRでは,ID管理組織の個人情報と商店の履歴データを保護するにあたり,両者
から算出した統計量であるクロス集計表にノイズを重畳することで互いの組織からのプラ イバシの漏洩を防止する.プライバシ保護のために重畳するノイズが大きいほど安全性を 高められるが,データの有用性は低下するため,安全性と有用性のトレードオフが課題と なる.安全性については,次節で述べる確率を用いた定式化によって定量的な議論が可能 であるが,直感的に言うと,元データ中の任意の1ユーザの情報を変えた場合に,匿名加 工後の統計量に違いが見られなければ,任意のユーザの情報は守られているという考えに 基づく.データの有用性については応用に依存するが,本論文の対象とする推薦において は,元データによる推薦と,差分プライバシを適用した匿名加工後のデータによる推薦の 差が小さいほど有用性が高い,すなわち,推薦する商品の変化が小さいほど有用性が高い と定義する.
6.2.3 プライバシ基準とラプラスメカニズム
差分プライバシは匿名加工の安全性を統一的に評価可能な基準である.また,数学的な 裏付けがあり,プライバシの安全性を定量的に議論することができる.6.1式の不等式が 成り立つ場合に,差分プライバシは保証される[86].
∀D1,∀D2 ∈D,∀S ⊆Range(F) e−ϵ ≤ P r[F(D1)∈S]
P r[F(D2)∈S] ≤eϵ. (6.1)
Dはメカニズムのドメイン,すなわち,メカニズムが処理する個票が取りうる値の集合を 表す.Dx は個票を表し,D1 とD2 は1レコードだけ異なる個票である.F はメカニズ ムと呼ばれ,個票から統計量を算出し,さらに匿名加工の処理を施す.S はメカニズムの 出力の部分集合,すなわち,メカニズムが処理した匿名加工後のデータが取りうる値の部 分集合を表す.メカニズムF は個票Dx を匿名加工する.ϵはセキュリティのパラメータ である.6.1式の不等式が満たされる場合は,あるレコードを含む個票D1 を匿名加工し たデータがS内に生じる確率と,そのレコードを含まない個票D2 を匿名加工したデータ が同じS 内に生じる確率の比が,エクスポネンシャル ϵ以下に抑えられることを保証す る.個票D1 とD2 が1レコード(各レコードが個人を表す場合は1人)しか差分がない ことから,個人のプライバシが漏洩される確率の比もエクスポネンシャルϵ以下に抑えら れることを保証する.両辺の対数を取ると,匿名加工によって漏れる情報量がϵ以下とな ることから,差分プライバシは攻撃者が攻撃に利用できる情報量をϵ以下に抑えることを 保証していると言える.
ϵ = 0の場合は,データが1人分変化しても匿名化後のデータが不変なので,プライバ シは完全に保護できるが,データの有用性はゼロとなる.ϵ=∞の場合は,プライバシは ゼロだが,データの有用性は完全に維持できる.ϵが小さいほど,プライバシは大きくな り,データの有用性は小さくなる.だが,ϵの値は守るべき情報資産や想定する攻撃者の 強さによって要求される安全性が異なるため,その値を適切に決めることが難しいという 課題がある.そこで,先行研究[112, 113, 114, 115]を鑑みてϵの値を変化させながら,安 全性とデータの有用性のトレードオフを定量的に評価することにする.6.8節で述べる匿 名加工の推薦精度に対する影響評価では,具体的にϵ= 0.1∼2の値を用いる.
差分プライバシを満たす代表的な匿名加工の方法であるラプラスメカニズムは,個票を 統計化し,その統計値にラプラスノイズを付与して匿名加工する.ラプラスノイズの大 きさはスケールパラメータλに比例し(λ を√
2倍するとラプラスノイズの標準偏差にな る),λが大きくなると匿名加工後のデータの有用性は低下する.ラプラスメカニズムは,
6.2式の不等式を満たす場合に差分プライバシを保証できる.
λ ≥ ∆F
ϵ . (6.2)
ϵは前述した差分プライバシのセキュリティパラメータであり,∆F は個票を統計化した 際の感度を表す.感度は個票の任意の1レコード(典型的には1人のデータ)を変化させ たときに,統計値に現れる変化量の最大値である.感度が大きいほど個人情報が漏洩しや すいため,大きなラプラスノイズを重畳する必要がある.そのため,感度が小さければ匿 名加工後のデータの有用性を維持できるが,感度が大きければデータの有用性は低下して
しまう.つまり,データの有用性を維持するために感度を抑えなくてはならないという課 題がある.そこで,ユーザのレコードを変化させても統計値に現れる変化量を少なくする 工夫を講じることにする.具体的には,Inter PPRで匿名加工するクロス集計表の感度を 抑えることによって,クロス集計表に重畳するラプラスノイズの大きさを減らして推薦精 度を維持する.