開示制御

第４章提案手法

４.２.２開示制御

（１）決定木の生成

本研究では，ユーザのプライバシ情報をエントロピー計算のための情報源とし，プライバシ情報をプロバイダに開示する時のユーザＩＤ（名前）の特定に関する不確かさをエントロピーで表現し匿名性の定量化を実現する．属性とは，性別や血液型とい

第４章提案手法

ったような情報種別を表し，属性値とは，女性やＡ型といったような属性に対応する値を表す．ＰＰＳは，ユーザＩＤ毎に（属性，属性値）のペアとして安全に管理する．

例として，とある町内会旅行同好会の６人グループのパーソナル情報ＤＢを表４.１に示す．

表４.１あるグループのプライバシ情報

ここで，匿名にしたい属性，属性値が「名前:Alice」である場合について決定木を示す．前述したように，ＩＤ３による決定木学習の分類アルゴリズムでは，少ないノード，少ない葉で「名前:Alice」を特定できることがよいとされた．しかし，プライバシ保護の場合は，「名前:Alice」に対してできるだけ多くのノード，葉からなる木構造を生成し，Alice がなかなか特定できにくくする．

図４.１は，表４.１より生成される決定木の例を示す．クラス分けは，保護する Alice のみ正例（＋）でその他の人は全員負例（－）となる．（ａ）は従来のＩＤ３により効率的な分類をして，Alice の特定が早くできることを目指した木構造で，

Alice の特定までに深さ２の探索で済むのに対して，（ｂ）は極力効率悪く分類し，

図４.１決定木の例（表 4.1 より）

第４章提案手法

Alice の発見までに手間がかかる木構造で，深さ４まで探索する必要があることが分かる．つまり，（ｂ）の方がそれだけ個人を特定するのに手間がかかり，プライバシが保護されていると言え，プロセス的には，ＩＤの特定ができにくくするような分類属性をいかに効率的に発見するか，という制御過程であるとも言える．

この効率の悪い分類による木構造の作り方は，それぞれの属性を開示する場合のエントロピーが多い属性を用いて分類していけばよい．

一般的なＩＤ３の学習手順は，以下のとおりである．

（１）ある基準に基づき現時点でのデータ項目（属性）を評価し，最もエントロピーの高い項目を選択する．

（２）選択された項目によってデータを分類する．

（３）分類結果が正例か負例かのいずれか一方のもののみしか含まれなくなるまで

（１），（２）の操作を繰り返す．

分類に適したデータ項目をいかに適切に選択するかが問題である．評価尺度として情報量（エントロピー）を採り，分類前の情報量と分類後の情報量の差（情報利得）

の大きいものを分類対象とする．情報量を算定する計算式Ｈi，a は次のような要素を用いる．

Ｎi：グループＧｉに含まれるデータ数，

Ｈi，a：グループＧi において属性 a を選んでＧi をさらに分割した結果がもつ情報量，属性 a は k 個の値（属性値）Ｖj(j=1，…，k)をもち，これによってＧi は一般に k 個に細分される．細分されたグループ Gi，j に含まれるデータのうち

Gi，j+：正のグループに属するもの Gi，j-：負のグループに属するもの

に分かれているとする．このときＨi，a は次の式によって算定される．













i j j

j j

ij a

g p p p p N

H

# ( )( log log ) /

（式４.１）

ここで，#(f)はグループ f の要素数を表し，Pj+=#(gij+)/#(gij)，Pj- = #(gij-) /#(gij)=(1-Pj+) を表すものとする．

図４.１は，この計算方法で作った．まず最初に，どの属性で分類するのが最も効率がいいかを知るために上記の方法で，Alice を正例とし，エントロピーを計算する．

属性１（性別）で分類した場合（図４.２（ａ）の場合），

エントロピー )}/6 0.33 4

log4 4 (4 4 2) log1 2 1 2 log1 2 (1 2

{   





H ^となる．

属性２（職業）で分類した場合（図４.１（ｂ）の場合），

第４章提案手法

エントロピー )}/6 0.54 2

log2 2 (2 2 4) log3 4 3 4 log1 4 (1 4

{   





H となる．

以下同様に，属性３（血液型）の場合 0.46，属性４（初渡航）の場合 0.46，属性５の場合 0.33 と計算される．分類前の元のエントロピーは，







 p p p p

H

₀

log log

（式４.２）

で与えられるのでこれを計算すると， 0.65 6

log5 6 5 6 log1 6

1  



 ^{となるので，こ}

れとの差，つまり情報利得は，それぞれ，属性１が 0.65-0.33=0.32 ，属性２が 0.65-0.54=0.11，以下同じく属性３が 0.19，属性４が 0.19，属性５が 0.32，となる．

情報利得の大きいのは，属性１または属性５なので，まずこれで分類した方が効率よいことが分かる．このことより，図４.１の（ａ）は，まず属性１の性別で分類し，次に初渡航で分類して得られた決定木であり，示すように深さ２で Alice が特定される．

（ｂ）の場合，分類効率を悪くするためにエントロピーの大きい，つまり情報利得の小さい属性２の職業より分類していく．以下同様に分類していき，決定木をつくると，

Alice の特定が深さ４でなされる決定木ができる．

ここで，分類の評価尺度の考え方であるが，分類前の評価（エントロピー）は，新たな分割によって変化しないので，分類後のエントロピーとの差を大きく（小さく）

することは，分類後のエントロピーを小さく（大きく）することに等しい．つまり，

どちらを使ってもいいことになるが，あくまで同じデータベースで評価する場合である．同じ属性・属性値構成でも，データ数量など，データベースが異なれば計算されるエントロピーは異なってくる．この件については，後述する．

（２）どこまでの属性を開示できるか

図４.２（ｂ）によれば，プロバイダに開示できる属性情報は，個人（Alice）が特定されない範囲，つまり，２人中の１人まで絞られてもいいという場合，「職業：学生」，「初渡航：Ｙｅｓ」，「目的地：アメリカ」まで開示できる．何人中の１人に絞られてもいいという場合の“何人”は，集合匿名性の“Ｓ値”そのものであり，各個人によって違うので，開示範囲は各個人によって違ってくる．表４.１の事例では，

Alice を匿名対象として，匿名度がＳ＝４人までなら「職業：学生」まで，Ｓ＝３人までなら「職業：学生」，「初渡航：Ｙｅｓ」まで，が開示範囲となる．定量的な匿名度として，先の情報利得を使うことができ，Ｓ＝２人まで，Ｓ＝３人まで，Ｓ＝４人までのそれぞれの情報利得は，0.65-0.33=0.32，0.65-0.46=19，0.65-0.54=0.11 となり，情報利得の少ない方が匿名度が高くなる．つまり，不確定度の変化が少ないことを示している．

第４章提案手法

（ａ）２つの属性を開示の場合（ｂ）３つの属性を開示の場合図４.２複数の属性を開示の場合の決定木の例（表 4.1 より）

複数の属性を開示する場合は，複数属性のＡＮＤ条件で，エントロピーを計算して，

どのレベルまでなら良いかにしたがって，開示される．５属性の中から２つ属性を開示する場合，組合せとしては，

)! 10 2 5 (

! 2

!

5 

 

C

通りあるが，そのうち，エントロピー0.46（情報利得 0.19）が１通り（属性４で「初渡航：Ｙes」かつ属性２の「職業：学生」の場合），0.33(情報利得 0.32)が５通りで，あとはゼロ(情報利得 0.65)である．ゼロの場合は，ズバリ個人が特定されるのでその組合せの属性は開示できない．

５属性の中から３つ属性を開示する場合，同様に組合せとしては，１０通りあるが，

エントロピーがゼロ以外は，２通りしかないことが分かる．図４.２にこれらの様子を示す．ある個人に注目して，希望する匿名性が失われない許容範囲で開示項目は決まる．

（３）二人を同時に保護する

二人を保護する場合も，正例を二人にして同様にエントロピー計算することができる．匿名にしたい対象を「性別:女性」のような同じ属性値のユーザ集合である場合を考える．保護したい対象が属性１の「性別，女性」である場合，Alice と Hanako を同時に保護，つまり，６人のうち２人を同時に保護することになる．

この場合，分類後にズバリ個人が特定されるのは，属性１（性別）の場合と，属性

第４章提案手法

５（目的地）の２つであるが，属性３（血液型）で「Ａ型」には３人中２人が分類されるのでプライバシは保護されない．したがって，これらを除く，属性２（職業）と属性４（初渡航）が開示対象になる（図４.３参照）．ただし，属性２が２人中１人，

属性４が３人中１人の匿名度レベルである．４人中１人のレベルの条件ならば，どの属性も開示できない．

図４.３二人を保護する場合の例

（４）人数変化に影響されにくい指標“Ｄ”

人数が変動しないなど静的なデータベースの場合，匿名度の指標として開示属性による分類後のエントロピー，あるいは分類前後のエントロピーの差，すなわち情報利得のどちらでもいいことは，前に述べた．しかし，人数が変動するデータベースでは，

計算されるエントロピーが人数変化の影響をもろに受ける．例えば，ある属性で分類の結果，同じ“２人中の１人”に絞られる場合でも，表４.１のような６人集団の場合，

Alice に注目して，２人に１人の属性の場合（事例の属性１・性別の場合）のエントロピーは，0.33 と計算されるが，仮に３人増えて９人グループの場合，同じ２人に１人の属性でも，0.22 と計算される．１００人のグループでは，0.02 となる．分類前のエントロピーも，人数の影響を受け，それぞれ，0.65，0.5，0.07 となる．これは，

移動環境においては極めて都合が悪い．つまり，ユビキタス環境では，ネットワークに接続されるユーザ数が時間と共に変化するので，エントロピー計算の前提であるユーザ集合が一定という条件が定常的に成り立たない．

よって，システム化に向けては，ユーザ集合の変動に影響されない何らかの匿名性

第４章提案手法

指標を導入する必要がある．移動平均を使うなどいろいろな考え方があろうが，一つの考え方として，分類前の元の情報量（エントロピー）に対して，分類後のエントロピーがどの程度減少しているかの比率でとらえるという，いわゆる正規化の考え方である[27]．それでも変動の影響をゼロにはできないが，かなり影響を減らすことができる．この指標D，つまり分類前（開示前）のエントロピーからみて分類後の減少したエントロピーの割合は，前述のように，分類前のエントロピーＨ_０は，







 p p p p

H

₀

log log

（式４.２の再掲）

で与えられ，ある属性による分類後のエントロピーＨ_Ａは，

Ｈ_Ａ＝













i j j

j j

ij a

g p p p p N

H

# ( )( log log ) /

(式４.１の再掲) で与えられるので，

H

D  H

^A （式４.３）

となる．情報利得をＧとすれば，Ｇ＝Ｈ_０－Ｈ_Ａ．

上述の例だと，2 人中の 1 人に絞られる場合，Ｄは，人数が６人の場合 0.33/0.65=

0.508，９人の場合 0.222/0.508=0.444，１００人の場合 0.02/0.07=0.286 となり，如何なる人数でも１.０以下の数字で表され人数変化の影響を激減でき，使い方次第で有用であると考えられる．

ちなみに，人数が１０人，１００人，１０００人の場合で，秘匿レベルがＫ＝２人，

３人，４人のそれぞれの場合，(ａ)に情報利得Ｇ，(ｂ)に割合Ｄの様子を図４.５に示す．(ａ)の場合，集団の人数が多くなるにしたがってＨ_０，Ｈ_Ａの値が小さくなり情報利得Ｇも小さくなるが，その小さくなっていく勾配が極めて大きいことが分かる．また，当然のことながら同じ属性の仲間がより多くいる属性を開示した方が情報利得Ｇもより少なく，見方を変えると匿名度の犠牲が少ないことが分かる．(ｂ)の場合，人数の多い方が，エントロピーの減る割合がより大きい．これは，同じ２人に絞られるにしても，人数が多い中で絞られる方が，偏りが大きいということで，エントロピーの減り方が大きいと理解できる．（偏りが大きい場合エントロピーは小さくなる．匿名度的には犠牲が大きくなる．）また，（ａ）と同じように，同じ属性の仲間が多くいる属性を開示した方が匿名度が減少しにくいことは，Ｈ_０とＨ_Ａの差が少なくなり，

つまりＤは 1.0 に近くなることが分かる．Ｄが大きい場合秘匿度が大きく，小さい場合秘匿度が小さい，といえ，匿名対象個人からの距離的な概念としてとらえることができる．

ドキュメント内電気通信大学大学院情報システム学研究科博士（工学）の学位申請論文 (ページ 60-71)

第４章 提案手法

４.２.２ 開示制御

（１）決定木の生成









g p p p p N

H

# ( )( log log ) /





 p p p p

H

log log

（２）どこまでの属性を開示できるか

)! 10 2 5 (

! 2

!

5



 

C

（３）二人を同時に保護する

（４）人数変化に影響されにくい指標“Ｄ”





 p p p p

H

log log









g p p p p N

H

# ( )( log log ) /

H

D  H

第４章提案手法

４.２.２開示制御