δ-site-presence の設定の指針

第 4 章ユーザ存在情報の漏洩を軽減した分散匿名化手法の提案分散匿名化手法の提案

4.1 δ-site-presence の提案

4.1.1 δ-site-presence の設定の指針

本節では，δ-site-presenceのδ_min,n, δ_max,n(n ∈ {A, B})をどのような指針で設定するかについて説明する．まずδ_min,n, δ_max,nに設定可能な理論上の限界について説明し，その後設定の指針について述べる．

δ-site-presenceの理論限界

δ-site-presenceのδmin,n, δmax,n に設定できる値には理論上の限界が存在し，ユーザ人数

(レコード数)から求めることができる．δ-presenceの研究[39]で述べられているように，

ユーザ存在情報の確率は共通ユーザ数(T^∗)と機関nのユーザ数(T_n)によって，ある程度決定される．例えば，表3.1のように機関Aのユーザ数(|T_A|)が6で，共通ユーザ数(|T^∗|) が4であった場合を考える．この場合，機関Aの6人のうち4人が共通ユーザであることから，T_AのレコードがT^∗に存在する可能性は4/6 = 2/3となる．つまり，機関Aのユー

32 第4章ユーザ存在情報の漏洩を軽減した分散匿名化手法の提案ザが機関Bにも存在する可能性は少なくとも2/3であると言える．これは，表3.1の場合，

δ_max,Aを ²₃ よりも小さくすることは出来ないことを意味する．δ_min,Aについても同様なこ

とが言え，δ_min,Aを ²₃ よりも大きくすることはできない．このように，δ_max,nは|T^∗|/|T_n| よりも小さく出来ず，δ_min,nは|T^∗|/|T_n|よりも大きく出来ない．つまり，δ_min,nとδ_max,nは以下の範囲で設定される必要がある．

0≤δ_min,n ≤ |T^∗|

|T_n| ≤δ_max,n ≤1 (n ∈A, B) (4.2) 本論文では，|T^∗|/|T_n|をδ-site-presenceの理論限界値と呼ぶ．

設定の指針

δ-site-presenceのδ_min,n, δ_max,n に設定するべき値は，扱うパーソナル情報の種類に依存する．例えば，ユーザ存在情報が漏洩してもプライバシ侵害の被害が小さいと考えられるような場合はδ_max,nの値は大きく設定し，ある程度のユーザ存在情報の漏洩を許容するようにしてもよい．逆に，例えば犯罪者データベースに存在するかどうかという情報のように，ユーザ存在情報が漏洩した際のプライバシの侵害が大きい場合はδmax,nの値は小さく設定するべきである．特に，米国政府の「Centers for Medicare & Medicaid Service」³という医療情報の提供サービスでは，個人特定が困難なようにデータを加工する際には，個人を10人以下に特定されないようにすることが定められている[60]．この考えをユーザ存在確率に当てはめて考えると，ユーザ存在確率が₁₀¹ 以下になることを禁じていると考えられる．

このようなことから，ユーザ存在情報が漏洩した際のプライバシ侵害の被害が大きい場

合は，δ_max,nを0.1以下に設定する必要があると考える．逆に，ユーザ存在情報が漏洩した

際にプライバシの被害が小さい場合は，δmax,nを0.9付近に設定し，ユーザ存在が確定しないように設定すれば十分と考える．δmin,nについてもδmax,nと同様の考え方で，ユーザ不在情報が漏洩した際のプライバシの被害の大きさから設定値を決めると良い．

また他の設定方針として，ユーザ存在情報が推測された際の被害額をもとに，これらの値を設定する方法もある．例えば，既存研究の[39]では，糖尿病患者であるかどうかを他

3http://www.cms.gov/

4.1. δ-site-presenceの提案 33 人に知られた場合における被害額から，許容するユーザ存在情報の推測確率を求める方法が提案されている．この方法は，ユーザ存在情報が推測される確率から被害額を算出する式を求め，その式を用いて許容する被害額から許容するユーザ存在情報の推測確率を逆算するというものである．

以上のような設定方針を踏まえつつ，さらにデータの有用性も考慮したうえで適切な

δ-site-presenceの設定を行う．また実際の運用では，ユーザや関連する事業者との対話を

とおして決定していくことが望ましい．

4.1.2 3 つ以上の機関への拡張の検討

本論文で提案するδ-site-presenceは2機関に限定した指標となっているが，この指標を拡張し3機関以上でも適用可能であることを示す．まず，例として3事業者の場合を考える．この場合，例えば機関A,機関Bと機関Cが存在し，それぞれが持つT_A,T_B,T_Cを結合して匿名化したT^∗ を生成するとする．この時，T^∗にはT_A,T_B,T_C に含まれる共通ユーザのレコードのみとなる．そして，例えば機関Aから見た場合，機関Aのユーザが機関B,C の両方にも存在する可能性は，T_Aで識別されるレコードのうち，どのくらいのレコードが T^∗に存在するかという可能性になる．つまり，3機関の場合のδ-site-presenceは，ある機関のユーザが他の2機関にも存在する可能性を指定する指標となる．

3機関の場合のδ-site-presenceの拡張方法を踏まえ，3機関以上の場合のδ-site-presence について定義する．

定義 3 (3機関以上の場合のδ-site-presence) {T1,· · · , TN}を機関n ∈ {1,· · · , N}が持つテーブル，T^∗を{T₁,· · · , T_N}の結合匿名テーブルとする．そして，T^∗のうち機関nが持つ属性の属性値の組合せの集合を{v_n,1,· · · , v_n,m_n}とし，v_n,i∈ {v_n,1,· · ·, v_n,m_n}とおく．

また，v_n,iで識別されるテーブルT_nのレコード数を|T_n[v_n,i]|，v_n,iで識別されるテーブル T^∗のレコード数を|T^∗[v_n,i]|と表現する．この時，以下の式で示されるように，機関nの各v_n,iによるユーザ存在情報の推測の可能性がδ_max,n以下かつδ_min,n以上である時，T^∗は {δ_min,1, δ_max,1,· · · , δ_min,N, δ_max,N}-site-presenceを満たすと定義する．

δ_min,n ≤ |T^∗[v_n,i]|

|T_n[v_n,i]| ≤δ_max,n ∀n ∈ {1,· · · , N} (4.3)

34 第4章ユーザ存在情報の漏洩を軽減した分散匿名化手法の提案このように，δ-site-presenceを3つ以上の機関に拡張することは可能であるが，本論文で提案している手法をそのまま3つ以上の事業者で用いることは出来ない．これは，提案手法で用いているセキュア計算のいつくかは2機関限定となっているためである．しかし，

3機関でも動作可能なセキュア計算の研究[32]や，3つの機関以上の機関における分散匿名

化手法[37, 24]を参考にすることで，提案手法を3つ以上の機関に対応するように拡張可

能であると考える．

ドキュメント内サービス事業者間データ連携における分散匿名化手法の提案 (ページ 43-46)

第 4 章 ユーザ存在情報の漏洩を軽減した 分散匿名化手法の提案分散匿名化手法の提案

4.1 δ-site-presence の提案

4.1.1 δ-site-presence の設定の指針

4.1.2 3 つ以上の機関への拡張の検討

第 4 章ユーザ存在情報の漏洩を軽減した分散匿名化手法の提案分散匿名化手法の提案