第4章 提案手法
4.3.2 ユーザ背景情報の探索手法
(1)候補プロバイダの探索方法
前4.3.1項(図4.7)で述べたように,各ユーザは候補プロバイダより,サービ スを受けるプロバイダとして,いくつかを選択する.候補プロバイダの探索は,PP Sが行うが,その時に使われるクエリは,各ユーザから見て,意図しない情報開示や 匿名度の犠牲がないように配慮することが必須となる.ユーザ全員の属性情報を含み,
全員に共通し,匿名度を最大にする最小公倍数的な,あるいは最大公約数的なクエリ であれば理想的である.図4.12の事例ではステップ(1)において,全員の属性を 含ませた単語群でクエリを構成している.
各ユーザより提供されるパーソナル情報は,そのような候補プロバイダの探索にも 使用される旨をユーザには事前に周知しておく必要がある.前もって候補プロバイダ を探索し,そのユーザ背景情報をマイニングチェックすることで,匿名度を損なう可 能性のあるプロバイダを除外できる.
(2)ユーザ背景情報の探索手法
プロバイダのサイトにどの程度のユーザ背景情報が存在するかを調べる目的は,問 題のないプロバイダ,つまり,情報開示の際,背景情報と合わせることによってLを 損なわないプロバイダであるかどうかを判定するための背景情報マトリックスを生成 することである.ユーザ背景情報とは,ユーザDBの断片情報,あるいはそれに繋が る情報であり,ユーザの組織名や団体名,名前,属性などである.同意語により関連 があると思われる情報も対象とする.調べる最適な対象ページの抽出は今後の検討課 題とするが,プロバイダが入手した背景情報の掲載ページと思われる広報的ページの 他に,会社(サイト)概要,サービス概要,サービス方針,サイト運営者プロフィー ル,などのページなどは有力候補である.Blog や Twitter などのミニサイトも対象に する.但し,個人情報保護法によって保護されているページは対象外となる.
探索方法は,対象ページのソースをダウンロードし,ユーザ名が出現する付近にお いてPPSのDBにある属性とその属性値を表すペア単語の共起出現頻度を,知識発 見に使われるマイニング手法の一つであるが,Jaccard 係数を用いてマイニングする.
表1の Mike の例では,(性別,男),(職業,会社員),(血液型,A),(空腹,
No),(目的地,イギリス)の5組についてチェックする.これらの出現の度合い
1 ダミーユーザやダミー属性を使って情報開示者を特定しにくくする考え方については,
第6章,6.2.2項で述べる.
第 4 章 提 案 手 法
75
が高ければ高いほどその背景情報を有する可能性も高いと判断する.
例えば,ある文書DにAさんのことが書かれているかどうかをチェックするとき,
Aさんに関わりの深い属性とその属性値を表す単語の組が文書Dにどの程度の頻度で 出現するかを測る方法があるが,それと同じである.Aさんの趣味が音楽で,職業が 学生で,血液型がA型ある場合,“趣味”と“音楽”,“職業”と“学生”,“血液 型”と“A型”,これらそれぞれの単語の組が文書Dにおいて同じ文節あるいは同じ 文章の中で同時に出現(共起)する頻度を調べその頻度(正規化後)が多ければ多い ほどAさんのことを書いている可能性が高いと判断する.Aさんに似た人かも知れな いし,全然関係ないかも知れないが可能性があることは確かである.つまり文書Dの 著者はAさんについて何らかの背景情報を持っている可能性があると見る.本研究に おいては,文書DがプロバイダサイトのページでAさんがユーザにあたる.
二つの単語の共起度を測る代表的な係数として,Jaccard 係数や Simpson 係数が ある[29,85].単語A,Bを含む文節の数をそれぞれ|A|,|B|とし,単語AとBを同 時に含む文節の数を|A∩B|,単語A,Bのいずれかを含む文節の数を|A∪B|とす れば,それぞれの共起度は次の式で求めることができる.
Jaccard 係数 = |A∩B| / |A∪B|
Simpson 係数 = |A∩B| / min(|A|,|B|)
Simpson 係数では,|A|と|B|に大きな差があるとき,正しく測れない場合があり,
また Jaccard 係数では単独で出現する頻度が高い語ほど値が低くなったりする.本論 文では,属性と属性値がペアで出現する傾向の強さに着目していることを考え,
Jaccard 係数を用いる.Jaccard 係数の計算のイメージを,簡単なサンプル文を使い,
Mike を例に以下に示す.プロバイダのサービス案内のページに以下のような文書があ ったとする.
「当サイトでは,あなたが目的地に行かれた時の,職業や趣味にふさわしいショッ ピング情報を提供します.・・・.もしあなたの職業が会社員であり,目的地がイギ リスなら,ロンドンを訪問する機会があれば,是非,**店を訪問することをお薦め します.・・云々.」
各属性の単語の組の Jaccard 係数は以下のようになる.
Jaccard 係数(性別,男)= 0/0,Jaccard 係数(職業,会社員)= 1/2,Jaccard 係数(血 液型,A)= 0/0,Jaccard 係数(空腹,No)= 0/0,Jaccard 係数(目的地,イギリス)= 1/2.
このときその属性が背景情報として有意に存在するかしないかの判断基準として閾 値Tを設定し,上述の共起度(正規化後)がこれを超えれば背景情報有りと判断し越 えなければ無しと判断する.なお閾値Tはシステムの諸要素を勘案して設定されるべ き値であり,その適切な設定の考え方については後述する.
ユーザより預かる属性と属性値の組の集合を P とすれば,図4.10のステップ2で 選んだ#H個の各プロバイダごとに各属性と属性値の組それぞれの共起度Jは,Pと
第 4 章 提 案 手 法
76 Hを一次元要素,二次元要素とする二次元配列
として表される.これらの配列要素は各プロバイダに各ユーザ背景情報がどの程度存 在するかを示す探索結果を与える.
(3)開示プロバイダ判定方法
上述 Jaccard 係数,共起度二次元配列 J の各要素は各プロバイダに各ユーザ背景 情報がどの程度存在するかを示すもので,実際的な“有”“無”の判定は閾値Tによ ってなされ,いずれかに置換される.4.3.1項の図4.7で述べたような背景情報マ トリックスが生成され,情報開示の際,背景情報と合わせることによってLを損なわ ないプロバイダであるかどうかが判定される.
例えば,Alice の場合,L=2(S=3)として,(血液:A),(学生且つ Yes)のいずれかを 開示する場合,表4.2の紐付けマトリックスによるS値によれば,(血液:A)を開示 のときは, (性別:女性), (職業:学生), (初渡航:Yes), (目的地:米)が,(職業:
学生,且つ初渡航:Yes)を開示のときは,(目的地:米),(血液:A),(性別:女性)がそ れぞれ背景情報として無いプロバイダが対象になる.表4.3はこの様子を示す.
表 4.3 背景情報マトリックス
(4)ユーザ背景情報の探索実験
ユーザ背景情報の探索に最適なページの抽出は今後の課題とするが,そのようなペ ージの抽出ができたと仮定して,事例モデルのユーザ Mike の属性に関する Jaccard 係数を求めることによるフィージビリティスタディ実験を行った.(図4.17)
【手順】
①ユーザ背景情報探索に最適なページを模擬的に抽出する.(共通クエリによる Web 検索で代行)
第 4 章 提 案 手 法
77
②そのページのソースコードをダウンロードし,Jaccard 係数を用いて,ユーザの 背景情報をマイニングする.
【マイニング手法】
①前提:DBの断片情報として現れるならば,属性と属性値はペアで出現しやすく 同じ文節や文章内で出現しやすい.
②ユーザの属性および属性値を表す単語を使い,それらが該ページでどの程度の共 起度で発生するかを求める.(同意語は考慮せず.)
③Jaccard 係数 = |A∩B| / |A∪B|
ただし,単語A,Bを含む文節の数をそれぞれ|A|,|B|.単語AとBを同時に 含む文節の数を|A∩B|.単語A,Bのいずれかを含む文節の数を|A∪B|.
【結論】相応の Jaccard 係数が確認できた.
図 4.17 背景情報探索実験
以上,希望匿名度Lを損なうユーザ背景情報を探索するときの考え方を示したが,
たまたまその時の属性の状況に左右されるのを避けたいとか,あるいはプロバイダが そのユーザのことをザクッとどの程度知っているかの指標で十分というようなケース は,システムのセキュリティポリシーによって十分あり得る.その場合,各属性ごと に注目するのではなく,そのユーザのすべての属性の Jaccard 係数を平均した,ユー ザとプロバイダの類似度を指標とする考え方もあり得る.その場合,例えば,次のよ
第 4 章 提 案 手 法
78
うな類似度Sim(User,Site)が定義できる.
Sim(User,Site)=Σ(|A∩B|)/ Σ(|A∪B|)
但し,Σは5属性の集計を意味する
なお,背景情報の有無を判断する閾値Tやプロバイダを代表する適切なページの抽 出手法,また属性を表す単語の類似語の扱い方などがキーになるが,閾値Tは,セキ ュリティに影響する,例えば下記に示すような諸要素を鑑みて決める必要がある.
(a)システムが要求するセキュリティレベル(セキュリティポリシー)
(b)特別なセキュリティ配慮が必要な業界かどうか(例えば,ナーバスで機微 な情報を扱う医療界など)
(c)対象とするユーザに関する世間のうわさ,風評,口コミ,コミュニティ[41]
などへの配慮
これらの各要素の影響度合いによって,実際に適用される閾値Tのイメージとして 下記のような式が想定される.
実際に適用されるT=(常識的なT)+(a)+(b)-(c)