ユーザ背景情報の探索手法

第４章提案手法

４.３.２ユーザ背景情報の探索手法

（１）候補プロバイダの探索方法

前４.３.１項（図４.７）で述べたように，各ユーザは候補プロバイダより，サービスを受けるプロバイダとして，いくつかを選択する．候補プロバイダの探索は，ＰＰＳが行うが，その時に使われるクエリは，各ユーザから見て，意図しない情報開示や匿名度の犠牲がないように配慮することが必須となる．ユーザ全員の属性情報を含み，

全員に共通し，匿名度を最大にする最小公倍数的な，あるいは最大公約数的なクエリであれば理想的である．図４.１２の事例ではステップ（１）において，全員の属性を含ませた単語群でクエリを構成している．

各ユーザより提供されるパーソナル情報は，そのような候補プロバイダの探索にも使用される旨をユーザには事前に周知しておく必要がある．前もって候補プロバイダを探索し，そのユーザ背景情報をマイニングチェックすることで，匿名度を損なう可能性のあるプロバイダを除外できる．

（２）ユーザ背景情報の探索手法

プロバイダのサイトにどの程度のユーザ背景情報が存在するかを調べる目的は，問題のないプロバイダ，つまり，情報開示の際，背景情報と合わせることによってＬを損なわないプロバイダであるかどうかを判定するための背景情報マトリックスを生成することである．ユーザ背景情報とは，ユーザＤＢの断片情報，あるいはそれに繋がる情報であり，ユーザの組織名や団体名，名前，属性などである．同意語により関連があると思われる情報も対象とする．調べる最適な対象ページの抽出は今後の検討課題とするが，プロバイダが入手した背景情報の掲載ページと思われる広報的ページの他に，会社（サイト）概要，サービス概要，サービス方針，サイト運営者プロフィール，などのページなどは有力候補である．Blog や Twitter などのミニサイトも対象にする．但し，個人情報保護法によって保護されているページは対象外となる．

探索方法は，対象ページのソースをダウンロードし，ユーザ名が出現する付近においてＰＰＳのＤＢにある属性とその属性値を表すペア単語の共起出現頻度を，知識発見に使われるマイニング手法の一つであるが，Jaccard 係数を用いてマイニングする．

表１の Mike の例では，（性別，男），（職業，会社員），（血液型，Ａ），（空腹，

Ｎｏ），（目的地，イギリス）の５組についてチェックする．これらの出現の度合い

1 ダミーユーザやダミー属性を使って情報開示者を特定しにくくする考え方については，

第６章，６.２.２項で述べる．

第４章提案手法

が高ければ高いほどその背景情報を有する可能性も高いと判断する．

例えば，ある文書ＤにＡさんのことが書かれているかどうかをチェックするとき，

Ａさんに関わりの深い属性とその属性値を表す単語の組が文書Ｄにどの程度の頻度で出現するかを測る方法があるが，それと同じである．Ａさんの趣味が音楽で，職業が学生で，血液型がＡ型ある場合，“趣味”と“音楽”，“職業”と“学生”，“血液型”と“Ａ型”，これらそれぞれの単語の組が文書Ｄにおいて同じ文節あるいは同じ文章の中で同時に出現（共起）する頻度を調べその頻度（正規化後）が多ければ多いほどＡさんのことを書いている可能性が高いと判断する．Ａさんに似た人かも知れないし，全然関係ないかも知れないが可能性があることは確かである．つまり文書Ｄの著者はＡさんについて何らかの背景情報を持っている可能性があると見る．本研究においては，文書ＤがプロバイダサイトのページでＡさんがユーザにあたる．

二つの単語の共起度を測る代表的な係数として，Jaccard 係数や Simpson 係数がある[29,85]．単語Ａ，Ｂを含む文節の数をそれぞれ|Ａ|，|Ｂ|とし，単語ＡとＢを同時に含む文節の数を|Ａ∩Ｂ|，単語Ａ，Ｂのいずれかを含む文節の数を|Ａ∪Ｂ|とすれば，それぞれの共起度は次の式で求めることができる．

Jaccard 係数＝ |Ａ∩Ｂ| / |Ａ∪Ｂ|

Simpson 係数＝ |Ａ∩Ｂ| / min(|Ａ|,|Ｂ|)

Simpson 係数では，|Ａ|と|Ｂ|に大きな差があるとき，正しく測れない場合があり，

また Jaccard 係数では単独で出現する頻度が高い語ほど値が低くなったりする．本論文では，属性と属性値がペアで出現する傾向の強さに着目していることを考え，

Jaccard 係数を用いる．Jaccard 係数の計算のイメージを，簡単なサンプル文を使い，

Mike を例に以下に示す．プロバイダのサービス案内のページに以下のような文書があったとする．

「当サイトでは，あなたが目的地に行かれた時の，職業や趣味にふさわしいショッピング情報を提供します．・・・．もしあなたの職業が会社員であり，目的地がイギリスなら，ロンドンを訪問する機会があれば，是非，＊＊店を訪問することをお薦めします．・・云々．」

各属性の単語の組の Jaccard 係数は以下のようになる．

Jaccard 係数(性別,男)= 0/0，Jaccard 係数(職業,会社員)= 1/2，Jaccard 係数(血液型,Ａ)= 0/0，Jaccard 係数(空腹,Ｎｏ)= 0/0，Jaccard 係数(目的地,イギリス)= 1/2．

このときその属性が背景情報として有意に存在するかしないかの判断基準として閾値Ｔを設定し，上述の共起度（正規化後）がこれを超えれば背景情報有りと判断し越えなければ無しと判断する．なお閾値Ｔはシステムの諸要素を勘案して設定されるべき値であり，その適切な設定の考え方については後述する．

ユーザより預かる属性と属性値の組の集合を P とすれば，図４.１０のステップ２で選んだ＃Ｈ個の各プロバイダごとに各属性と属性値の組それぞれの共起度Ｊは，Ｐと

第４章提案手法

76 Ｈを一次元要素，二次元要素とする二次元配列

として表される．これらの配列要素は各プロバイダに各ユーザ背景情報がどの程度存在するかを示す探索結果を与える．

（３）開示プロバイダ判定方法

上述 Jaccard 係数，共起度二次元配列 J の各要素は各プロバイダに各ユーザ背景情報がどの程度存在するかを示すもので，実際的な“有”“無”の判定は閾値Ｔによってなされ，いずれかに置換される．４.３.１項の図４.７で述べたような背景情報マトリックスが生成され，情報開示の際，背景情報と合わせることによってＬを損なわないプロバイダであるかどうかが判定される．

例えば，Alice の場合，L=2(S=3)として，(血液：A)，(学生且つ Yes)のいずれかを開示する場合，表４.２の紐付けマトリックスによるＳ値によれば，(血液：A)を開示のときは， (性別：女性), (職業：学生), (初渡航：Yes), (目的地：米)が，(職業：

学生，且つ初渡航：Yes)を開示のときは，(目的地：米),(血液：A),(性別：女性)がそれぞれ背景情報として無いプロバイダが対象になる．表４.３はこの様子を示す．

表４.３背景情報マトリックス

（４）ユーザ背景情報の探索実験

ユーザ背景情報の探索に最適なページの抽出は今後の課題とするが，そのようなページの抽出ができたと仮定して，事例モデルのユーザ Mike の属性に関する Jaccard 係数を求めることによるフィージビリティスタディ実験を行った．（図４.１７）

【手順】

①ユーザ背景情報探索に最適なページを模擬的に抽出する．（共通クエリによる Web 検索で代行）

第４章提案手法

②そのページのソースコードをダウンロードし，Jaccard 係数を用いて，ユーザの背景情報をマイニングする．

【マイニング手法】

①前提：ＤＢの断片情報として現れるならば，属性と属性値はペアで出現しやすく同じ文節や文章内で出現しやすい．

②ユーザの属性および属性値を表す単語を使い，それらが該ページでどの程度の共起度で発生するかを求める．（同意語は考慮せず．）

③Jaccard 係数＝ |Ａ∩Ｂ| / |Ａ∪Ｂ|

ただし，単語Ａ，Ｂを含む文節の数をそれぞれ|Ａ|，|Ｂ|．単語ＡとＢを同時に含む文節の数を|Ａ∩Ｂ|．単語Ａ，Ｂのいずれかを含む文節の数を|Ａ∪Ｂ|．

【結論】相応の Jaccard 係数が確認できた．

図４.１７背景情報探索実験

以上，希望匿名度Ｌを損なうユーザ背景情報を探索するときの考え方を示したが，

たまたまその時の属性の状況に左右されるのを避けたいとか，あるいはプロバイダがそのユーザのことをザクッとどの程度知っているかの指標で十分というようなケースは，システムのセキュリティポリシーによって十分あり得る．その場合，各属性ごとに注目するのではなく，そのユーザのすべての属性の Jaccard 係数を平均した，ユーザとプロバイダの類似度を指標とする考え方もあり得る．その場合，例えば，次のよ

第４章提案手法

うな類似度Ｓｉｍ（Ｕｓｅｒ，Ｓｉｔｅ）が定義できる．

Ｓｉｍ（Ｕｓｅｒ，Ｓｉｔｅ）＝Σ（｜Ａ∩Ｂ｜）／ Σ（｜Ａ∪Ｂ｜）

但し，Σは５属性の集計を意味する

なお，背景情報の有無を判断する閾値Ｔやプロバイダを代表する適切なページの抽出手法，また属性を表す単語の類似語の扱い方などがキーになるが，閾値Ｔは，セキュリティに影響する，例えば下記に示すような諸要素を鑑みて決める必要がある．

（ａ）システムが要求するセキュリティレベル（セキュリティポリシー）

（ｂ）特別なセキュリティ配慮が必要な業界かどうか（例えば，ナーバスで機微な情報を扱う医療界など）

（ｃ）対象とするユーザに関する世間のうわさ，風評，口コミ，コミュニティ[41]

などへの配慮

これらの各要素の影響度合いによって，実際に適用される閾値Ｔのイメージとして下記のような式が想定される．

実際に適用されるＴ＝（常識的なＴ）＋（ａ）＋（ｂ）－（ｃ）

ドキュメント内電気通信大学大学院情報システム学研究科博士（工学）の学位申請論文 (ページ 81-85)

第４章 提案手法

４.３.２ ユーザ背景情報の探索手法

（１）候補プロバイダの探索方法

（２）ユーザ背景情報の探索手法

（３）開示プロバイダ判定方法

（４）ユーザ背景情報の探索実験

第４章提案手法

４.３.２ユーザ背景情報の探索手法