• 検索結果がありません。

第4章 提案手法

4.2.2 開示制御

(1)決定木の生成

本研究では,ユーザのプライバシ情報をエントロピー計算のための情報源とし,プ ライバシ情報をプロバイダに開示する時のユーザID(名前)の特定に関する不確か さをエントロピーで表現し匿名性の定量化を実現する.属性とは,性別や血液型とい

第 4 章 提 案 手 法

54

ったような情報種別を表し,属性値とは,女性やA型といったような属性に対応する 値を表す.PPSは,ユーザID毎に(属性,属性値)のペアとして安全に管理する.

例として,とある町内会旅行同好会の6人グループのパーソナル情報DBを表4.1に 示す.

表 4.1 あるグループのプライバシ情報

ここで,匿名にしたい属性,属性値が「名前:Alice」である場合について決定木を 示す.前述したように,ID3による決定木学習の分類アルゴリズムでは,少ないノ ード,少ない葉で「名前:Alice」を特定できることがよいとされた.しかし,プライ バシ保護の場合は,「名前:Alice」に対してできるだけ多くのノード,葉からなる木 構造を生成し,Alice がなかなか特定できにくくする.

図4.1は,表 4.1より生成される決定木の例を示す.クラス分けは,保護する Alice のみ正例(+)でその他の人は全員負例(-)となる.(a)は従来のID3 により効率的な分類をして,Alice の特定が早くできることを目指した木構造で,

Alice の特定までに深さ2の探索で済むのに対して,(b)は極力効率悪く分類し,

図 4.1 決定木の例(表 4.1 より)

第 4 章 提 案 手 法

55

Alice の発見までに手間がかかる木構造で,深さ4まで探索する必要があることが分 かる.つまり,(b)の方がそれだけ個人を特定するのに手間がかかり,プライバシ が保護されていると言え,プロセス的には,IDの特定ができにくくするような分類 属性をいかに効率的に発見するか,という制御過程であるとも言える.

この効率の悪い分類による木構造の作り方は,それぞれの属性を開示する場合のエ ントロピーが多い属性を用いて分類していけばよい.

一般的なID3の学習手順は,以下のとおりである.

(1)ある基準に基づき現時点でのデータ項目(属性)を評価し,最もエントロピ ーの高い項目を選択する.

(2)選択された項目によってデータを分類する.

(3)分類結果が正例か負例かのいずれか一方のもののみしか含まれなくなるまで

(1),(2)の操作を繰り返す.

分類に適したデータ項目をいかに適切に選択するかが問題である.評価尺度として 情報量(エントロピー)を採り,分類前の情報量と分類後の情報量の差(情報利得)

の大きいものを分類対象とする.情報量を算定する計算式Hi,a は次のような要素を 用いる.

Ni:グループGiに含まれるデータ数,

Hi,a:グループGi において属性 a を選んでGi をさらに分割した結果がもつ 情報量,属性 a は k 個の値(属性値)Vj(j=1,…,k)をもち,これによってGi は一 般に k 個に細分される.細分されたグループ Gi,j に含まれるデータのうち

Gi,j+:正のグループに属するもの Gi,j-:負のグループに属するもの

に分かれているとする.このときHi,a は次の式によって算定される.

k

j

i j j

j j

ij a

i

g p p p p N

H

1

,

# ( )( log log ) /

(式 4.1)

ここで,#(f)はグループ f の要素数を表し,Pj+=#(gij+)/#(gij),Pj- = #(gij-) /#(gij)=(1-Pj+) を表すものとする.

図4.1は,この計算方法で作った.まず最初に,どの属性で分類するのが最も効率 がいいかを知るために上記の方法で,Alice を正例とし,エントロピーを計算する.

属性1(性別)で分類した場合(図4.2(a)の場合),

エントロピー )}/6 0.33 4

log4 4 (4 4 2) log1 2 1 2 log1 2 (1 2

{   

H となる.

属性2(職業)で分類した場合(図4.1(b)の場合),

第 4 章 提 案 手 法

56

エントロピー )}/6 0.54 2

log2 2 (2 2 4) log3 4 3 4 log1 4 (1 4

{   

H となる.

以下同様に,属性3(血液型)の場合 0.46,属性4(初渡航)の場合 0.46,属性5 の場合 0.33 と計算される.分類前の元のエントロピーは,

p p p p

H

0

log log

(式 4.2)

で与えられるのでこれを計算すると, 0.65 6

log5 6 5 6 log1 6

1  

となるので,こ

れ と の 差 , つ ま り 情 報 利 得 は , そ れ ぞ れ , 属 性 1 が 0.65-0.33=0.32 , 属 性 2 が 0.65-0.54=0.11,以下同じく属性3が 0.19,属性4が 0.19,属性5が 0.32,となる.

情報利得の大きいのは,属性1または属性5なので,まずこれで分類した方が効率よ いことが分かる.このことより,図4.1の(a)は,まず属性1の性別で分類し,次 に初渡航で分類して得られた決定木であり,示すように深さ2で Alice が特定される.

(b)の場合,分類効率を悪くするためにエントロピーの大きい,つまり情報利得の 小さい属性2の職業より分類していく.以下同様に分類していき,決定木をつくると,

Alice の特定が深さ4でなされる決定木ができる.

ここで,分類の評価尺度の考え方であるが,分類前の評価(エントロピー)は,新 たな分割によって変化しないので,分類後のエントロピーとの差を大きく(小さく)

することは,分類後のエントロピーを小さく(大きく)することに等しい.つまり,

どちらを使ってもいいことになるが,あくまで同じデータベースで評価する場合であ る.同じ属性・属性値構成でも,データ数量など,データベースが異なれば計算され るエントロピーは異なってくる.この件については,後述する.

(2)どこまでの属性を開示できるか

図4.2(b)によれば,プロバイダに開示できる属性情報は,個人(Alice)が特 定されない範囲,つまり,2人中の1人まで絞られてもいいという場合,「職業:学 生」,「初渡航:Yes」,「目的地:アメリカ」まで開示できる.何人中の1人に 絞られてもいいという場合の“何人”は,集合匿名性の“S値”そのものであり,各 個人によって違うので,開示範囲は各個人によって違ってくる.表4.1の事例では,

Alice を匿名対象として,匿名度がS=4人までなら「職業:学生」まで,S=3人 までなら「職業:学生」,「初渡航:Yes」まで,が開示範囲となる.定量的な匿 名度として,先の情報利得を使うことができ,S=2人まで,S=3人まで,S=4 人までのそれぞれの情報利得は,0.65-0.33=0.32,0.65-0.46=19,0.65-0.54=0.11 と なり,情報利得の少ない方が匿名度が高くなる. つまり,不確定度の変化が少ないこ とを示している.

第 4 章 提 案 手 法

57

(a)2つの属性を開示の場合 (b)3つの属性を開示の場合 図 4.2 複数の属性を開示の場合の決定木の例(表 4.1 より)

複数の属性を開示する場合は,複数属性のAND条件で,エントロピーを計算して,

どのレベルまでなら良いかにしたがって,開示される.5属性の中から2つ属性を開 示する場合,組合せとしては,

)! 10 2 5 (

! 2

!

5

5

2

 

C

通りあるが,そのうち,エントロピー0.46(情報利得 0.19)が 1通り(属性4で「初渡航:Yes」かつ属性2の「職業:学生」の場合),0.33(情 報利得 0.32)が5通りで,あとはゼロ(情報利得 0.65)である.ゼロの場合は,ズバリ 個人が特定されるのでその組合せの属性は開示できない.

5属性の中から3つ属性を開示する場合,同様に組合せとしては,10通りあるが,

エントロピーがゼロ以外は,2通りしかないことが分かる.図4.2にこれらの様子 を示す.ある個人に注目して,希望する匿名性が失われない許容範囲で開示項目は決 まる.

(3)二人を同時に保護する

二人を保護する場合も,正例を二人にして同様にエントロピー計算することができ る.匿名にしたい対象を「性別:女性」のような同じ属性値のユーザ集合である場合を 考える.保護したい対象が属性1の「性別,女性」である場合,Alice と Hanako を同 時に保護,つまり,6人のうち2人を同時に保護することになる.

この場合,分類後にズバリ個人が特定されるのは,属性1(性別)の場合と,属性

第 4 章 提 案 手 法

58

5(目的地)の2つであるが,属性3(血液型)で「A型」には3人中2人が分類さ れるのでプライバシは保護されない.したがって,これらを除く,属性2(職業)と 属性4(初渡航)が開示対象になる(図4.3参照).ただし,属性2が2人中1人,

属性4が3人中1人の匿名度レベルである.4人中1人のレベルの条件ならば,どの 属性も開示できない.

図 4.3 二人を保護する場合の例

(4)人数変化に影響されにくい指標“D”

人数が変動しないなど静的なデータベースの場合,匿名度の指標として開示属性に よる分類後のエントロピー,あるいは分類前後のエントロピーの差,すなわち情報利 得のどちらでもいいことは,前に述べた.しかし,人数が変動するデータベースでは,

計算されるエントロピーが人数変化の影響をもろに受ける.例えば,ある属性で分類 の結果,同じ“2人中の1人”に絞られる場合でも,表4.1のような6人集団の場合,

Alice に注目して,2人に1人の属性の場合(事例の属性1・性別の場合)のエント ロピーは,0.33 と計算されるが,仮に3人増えて9人グループの場合,同じ2人に1 人の属性でも,0.22 と計算される.100人のグループでは,0.02 となる.分類前の エントロピーも,人数の影響を受け,それぞれ,0.65,0.5,0.07 となる.これは,

移動環境においては極めて都合が悪い.つまり,ユビキタス環境では,ネットワーク に接続されるユーザ数が時間と共に変化するので,エントロピー計算の前提であるユ ーザ集合が一定という条件が定常的に成り立たない.

よって,システム化に向けては,ユーザ集合の変動に影響されない何らかの匿名性

第 4 章 提 案 手 法

59

指標を導入する必要がある.移動平均を使うなどいろいろな考え方があろうが,一つ の考え方として,分類前の元の情報量(エントロピー)に対して,分類後のエントロ ピーがどの程度減少しているかの比率でとらえるという,いわゆる正規化の考え方で ある[27].それでも変動の影響をゼロにはできないが,かなり影響を減らすことがで きる.この指標D,つまり分類前(開示前)のエントロピーからみて分類後の減少し たエントロピーの割合は,前述のように,分類前のエントロピーHは,

p p p p

H

0

log log

(式 4.2の再掲)

で与えられ,ある属性による分類後のエントロピーHは,

k

j

i j j

j j

ij a

i

g p p p p N

H

1

,

# ( )( log log ) /

(式 4.1の再掲) で与えられるので,

H

0

DH

A (式 4.3)

となる.情報利得をGとすれば,G=H-H

上述の例だと,2 人中の 1 人に絞られる場合,Dは,人数が6人の場合 0.33/0.65=

0.508,9人の場合 0.222/0.508=0.444,100人の場合 0.02/0.07=0.286 となり,如 何なる人数でも1.0以下の数字で表され人数変化の影響を激減でき,使い方次第で有 用であると考えられる.

ちなみに,人数が10人,100人,1000人の場合で,秘匿レベルがK=2人,

3人,4人のそれぞれの場合,(a)に情報利得G,(b)に割合Dの様子を図4.5に示 す.(a)の場合,集団の人数が多くなるにしたがってH,Hの値が小さくなり情報 利得Gも小さくなるが,その小さくなっていく勾配が極めて大きいことが分かる.ま た,当然のことながら同じ属性の仲間がより多くいる属性を開示した方が情報利得G もより少なく,見方を変えると匿名度の犠牲が少ないことが分かる.(b)の場合,人 数の多い方が,エントロピーの減る割合がより大きい.これは,同じ2人に絞られる にしても,人数が多い中で絞られる方が,偏りが大きいということで,エントロピー の減り方が大きいと理解できる.(偏りが大きい場合エントロピーは小さくなる.匿 名度的には犠牲が大きくなる.)また,(a)と同じように,同じ属性の仲間が多く いる属性を開示した方が匿名度が減少しにくいことは,HとHの差が少なくなり,

つまりDは 1.0 に近くなることが分かる.Dが大きい場合秘匿度が大きく,小さい場 合秘匿度が小さい,といえ,匿名対象個人からの距離的な概念としてとらえることが できる.