個人情報の
個人情報の
個人情報の
個人情報の
SEM
(
検索エンジン広告
検索エンジン広告
検索エンジン広告
検索エンジン広告
)
価格に基づいた
価格に基づいた
価格に基づいた
価格に基づいた
k
k
k
k
-
匿名化手法の提案
匿名化手法の提案
匿名化手法の提案
匿名化手法の提案
小栗
秀暢
†1曽根原
登
†2 現代において,BigData分析における個人の機微情報(プライバシー)の扱いは,非常に大きな関心事になっている. そのようなプライバシーを保護するために有効な手段としてk-匿名化の技術がある.多くのk-匿名化の研究アプロー チは,選択肢群を数学的,かつ階層的に一律に分類するため,その情報損失量を減少させることが難しい.k-匿名化 を実現するための必要な計算量や,選択肢組み合わせの複雑さから,一般的なWEBサービスのような,即時応答が 要求されるサービスでは利用されていない.本稿では,効率的にBigDataを管理し,活用するk-匿名化サービスの実 用化に向け,個人情報のSEM(検索エンジン広告)の価格に基づく選択肢のクラスタリング手法を提案する.この手 法によって,個人情報の選択肢ワードという定性的な価値を,価格という定量的な価値で計測でき,マーケティング 的に不必要な計算回数を減少させることが可能となる.我々は,この手法を実際のサービスデータにて実験し,価値 を計測したところ,高いセキュリティレベルと高いSEM価値の両立が可能な場合が存在することが判明した.本方 式を発展させることによって,一般のWEBサービスなどでもk-匿名化を用いることが可能なレベルまで計算量を減 少させ,個人情報の蓄積にかかる費用も効率化されるだろう.A k-anonymity Method based on SEM (Search Engine Marketing)
Price of Personal Information
Hidenobu Oguri
†1Noboru Sonehara
†2Privacy is one of the main concerns in Big Data managing especially when releasing datasets involving human subjects contain sensitive information. Therefore to protect the privacy of individuals, a model that is widely used for privacy preservation in managing Big Data, is k-anonymity. Most of the approaches to achieve k-anonymity suffer from huge information loss by generalization of continuous numerical attributes and categorical attributes they depend on the attributes hierarchical structure. It is difficult to use conventional "k-anonymity" method in the real internet services, because of the computational complexity problem and value loss problem by information loss. This paper presents a k-anonymity method defined as clustering method based on SEM (Search Engine Marketing) price of personal information for the practical use of Big Data Management services. We would evaluate the value of k-anonymised qualitative data in SEM price that is quantitative indicator. Using this method, we can calculate only the necessary data and keep a k-anonymised level. We applied the method for real data, that there is a point to be compatible at a high level both k-anonymity and the price of SEM revealed. If we develop this method, a k-anonymity will easily handle the actual service on the internet, will be able to efficiently store personal data.
1.
はじめに
はじめに
はじめに
はじめに
近年の個人情報保護意識の高まりによって,通信・サ ー ビス・その他,あらゆる業種の企業が個人情報を保持し, その維持のために多額の費用と漏えいリスクを負っている. 個 人 情 報 の 価 値 は 主 に 拡 散 し た 際 の 被 害 額 か ら 算 出 さ れることが多く,日本において2011年に発生した個人情 報 被害総額は1899億円と算出されている.[1] 企業や団体はこれらの漏えい額に対して備えるため,常 にセキュリティ設備の保護に追われており,SOC,PCIDSS, ISO27001のようなセキュリティ基準を満たすため,多額 の 費用を投じている.これらの基準はインターネット上のセ キュリティ問題が発生するたびに増加し,減少することは †1総合 研究大学院大学 複合化学研究科情報学専攻/ニフティ株式会 社The Graduate University for Advanced Studies, School of Multidisciplinary, Informatics Department, Tokyo, Japan. NIFTY Corporation
†2国立 情報学研究所
National Institute of Informatics
NIFTY Corporation †2 国立情報学 研究所
National Institute of Informatics
無い.一方,データの保管に関しては,実際には個人情報 とそれ以外の情報は分離されずに管理されていることが多 い.その結果,そのデータの市場価値(market value)が解 らないため,使わないデータにもコストをかけて管理して いる. 実 際 に は 個 人 情 報 と し て 保 持 さ れ て い る 情 報 の 多 く は 価値評価がされておらず,データ漏えいのリスクに対応す るために過度なセキュリティコストをかけている. 個人情報を利用価値と利用頻度で区分し,それぞれを 適 切なセキュリティレベルとアクセスレベルのデータベース に保持することでコストダウンを図ることが可能となる. そ の よ う な 個 人 情 報 の 流 通 の 手 段 と し て 有 望 視 さ れ て いるのが匿名化の手法である.特にk-匿名化[2]の手法は, 個人情報のセキュリティレベルを規定するための基準とし て多く研究されている.[2] だが,k-匿名化を実際に利用したマーケティングサー ビ スや,インターネットサービスは非常に少ない.現状で実 サ ー ビ ス と し て k-匿 名 化 が 用 い ら れ て い る の は ,Optimal Lattice Anonymization を 用 い た 医 療 情 報 の 提 供 ツ ー ル や
RL-005
[5][9],μ-argusを用いた,公共情報の提供ツールなどが あ る.[5] これらのサービスは通常のインターネットサービ スのように自由に使うことは難しい.扱える情報の種類や 利用法が決められており,即時的な提供を行っていない. これは,各選択肢の組み合わせパターン数の問題に起因し ている. k-匿名化を実現するためには,膨大な種類の選択肢同士 の組み合わせ計算が発生する.(識別子,準識別子,センシ ティブ情報,非センシティブ情報等) 重 要 な 個 人 情 報 は 重 要 な 属 性 が 多 く な っ て い く 傾 向 が あるため,必要なデータを組み合わせるほど,匿名化の複 雑度が増していく.また,個人情報は常に変化することか ら,定期的に再計算可能な匿名化の方法が求められる. イ ン タ ー ネ ッ ト 上 の リ ア ル タ イ ム サ ー ビ ス を 提 供 す る ためには,通常3秒以内にページを表示しなくてはいけな いとされている.2012 年の研究では,e-Commerce サイ ト 等でのサイト表示が2秒以上になった場合,40%の顧客が 別のサイトで買うことを考えるという実験結果がある.[3] k-匿 名 性 を 用 い た サ ー ビ ス が 現 実 的 に 利 用 可 能 に な る ためには,2秒程度のレスポンスが求められる.図1はデ ータベースのデータ数とのレスポンス時間の推移について 調査した図となる.横軸は1テーブル内のデータ行数を示 し,縦軸はクエリに対するレスポンス時間を示す.調査対 象はlikeクエリとcountクエリになる.通常のアプリケー ションにおいて,前処理として全体テーブル確認クエリを 走らせる場合を想定した. 図 図 図 図1:::: クエリ数とレスポンス時間の関係性クエリ数とレスポンス時間の関係性クエリ数とレスポンス時間の関係性クエリ数とレスポンス時間の関係性 この グ ラ フ[図 1]に よる と ,like クエリ の レス ポ ン ス時 間は,column 数×9.4e-09 秒程度.count クエリで column 数×3.24e-06 秒程度が必要になる.この環境下で,2 秒以 下でのレスポンスを実現できるのは,like クエリを引いた 場合60万行.Countクエリの場合200万行程度となる.今 後のサーバシステムの進歩に合わせ,これらの数字が改善 されるとしても,現実的にk-匿名化がされたデータを快適 にサービスで利用できるには 10^6~10^9 行レベルの計算 量/選択肢量以下に抑える必要がある. k-匿名化を実施した場合の論理的な限界回数は,2 以 上 の選択肢を持つ項目出現数の相乗値の合計になる.[図2] Kn : 計算回数 An : 属性 An(c) : その属性内の選択肢バリエーション数 K(1)= A1(c)+ A2(c) + A3(c) +… Am(c) K(2)= (A1(c)*A2(c) ) + (A2(c)*A3(c) )… K(3)= (A1(c)*A2(c)*A3(c) ) + (A2(c)*A3(c)*A4(c) )… … K(n)= Π( A1(c), A2(c) , A3(c) … An(c)) 図2: 図2: 図2: 図2:k-匿名化の選択肢組み合わせ数匿名化の選択肢組み合わせ数匿名化の選択肢組み合わせ数匿名化の選択肢組み合わせ数 属 性 の 組 み 合 わ せ 数 が 多 く な る と 相 乗 的 に 計 算 量 が 増 加するため,属性が多い個人情報であるほど計算量は指数 的に増加する.例えば,ニフティ社の持つISP会員ユーザ データの属性種類は47種類あり,それぞれにユーザの属性 (男性/女性,料金プランなど)が2~49種類のデータに分 類されて保持されている.その計算量を試算すると,最大 で1.51e+38個の組み合わせとなる. 通常のデータベース処理能力 10^9 と比較すると 10^29 程度の乖離がある.現在のスーパーコンピュータの計算速 度が10^18/秒程度であることから考えても,このレベルの 能力差は数年程度で改善できるとは考えづらい. Incognito[12]は , 上 記 の 全 パ タ ー ン を 計 算 す る の で は な く,k値<2が検証されたパターンを含む計算を排除する ことで計算量を減少させている.だが,最終的に計算する べきパターン数が,全体の何%になるのかはデータ種類毎 に異なるため,計算量の事前試算が難しい. 通常のサービス事業者の観点で考えると,このような 最 大値の試算結果は,バッチ処理スケジュールと,結果保存 用HDDの容量に影響を与える.サービス運営側にとって, 計算結果が事前した想定容量よりも大きくなる場合,サー ビス停止の恐れがあるために推奨できない.膨大なパター ンの中から,想定する時間内にバッチ処理と HDD 容量が 収まるように,技術者が主体的に決定できる仕組みが必要 である. もう一つの問題点としては,このような膨大な計算量 の 存在に加え,その選択肢における最良の匿名化パターンの 基準がないことである.特に定性的な言葉で作られた属性 は抽象化パターンが無限に存在するため,どれを利用して 良いかの基準が存在しない. 例 え ば ,「 年 齢 」 と い う , 比 較 的 定 量 的 な デ ー タ を 用 い た場合であっても,大きく分類して3種類のデータの抽象 化パターンが存在する. 1. 数学 的 な 階級 化: パ レ ート 分析 , ス ター ジェ ス の 公 式やデシル分類など,計算で階級を作成. 2. マー ケ テ ィン グ的 な 階 級化 :年 代 や 学校 など , 一 般 的な分析結果と対照するための区分で階級を作成. 3. 限定 的 な 用途 の階 級 化 :特 定の マ ー ケテ ィン グ 会 社 が利用するためだけの階級区分.例えば飲酒できる年齢以 上にのみ広告を送りたい場合などに,20歳以上/20歳以 下
の分類が必要になる. この上記の3パターンの中でも,分類の種類は無限に 存 在しており,どのパターンが目的に合致しているのかが判 定できず,また,事前に社会ではどのような分類にニーズ があるのかを知ることは出来ない. 実際の業務でk-匿名化を行う場合,データの抽象化を行 った際には,データ内のノイズ的な分類を「その他」など の意味のない分類に入れてしまうことが多い. 処理するデータが大きくなる程,データの一次処理と 実 際に利用するマーケターは分業化されることが多くなる. 安全性を重視するk-匿名化と利用価値を重視するマーケタ ーにはギャップがあり,分析に必要な項目が削除されてし まう可能性がある. これらの問題は一般的な個人情報データに対して,ど の ような抽象化を行うことが適当であるかの基準が存在しな いことに起因している. このk-匿名性の計算回数を,通常のデータベースで利 用 可能な回数まで減少させ,かつ,何らかの基準となるデー タと対照して,利用性をなるべく損なわないことが,実サ ービスへの匿名化適用のために必要である. 本文は,計算回数を減少させ,マーケティング的な価値 減損を最小限に抑えるk-匿名化について検討し,実データ に適用し,その効果を検証する.
2.
過去研究
過去研究
過去研究
過去研究
k-匿名化についての研究は多くされている.まず,匿 名 化とは,ユーザを特定できないようにパーソナル情報を加 工することである. ここでパーソナル情報とは「属性」と「属性値」とし て 表現されるユーザに関する情報であり,あるユーザのパー ソナル情報をテーブルのレコードとして表現する.そして, 単一の属性ではユーザを特定できないが,複数組み合わせ るとユーザを特定できる可能性のある属性の組合せを準識 別子(quasi-identifier,QID) と呼ぶ. また,ユーザを特定された状態で開示されることが望 ま し く な い 属 性 を セ ン シ テ ィ ブ 属 性(sensitive attribute : SA) と呼ぶ. この時,もし 攻撃者がある ユーザの QID の属性値を知 っていたとすると,そのユーザのレコードを特定できてし まい,SA の属性値を知られてしまう.これを防ぐために , QID の属性値を一般化して,より抽象的な値にする方法が 知られている.そして,QID の属性値によって識別される レコードが少なくともk 個以上ある場合,そのテーブルは k-匿名性を満たすという[2]. k-匿名化を実現するための手法として, Datafly方式[4] [7]やμ-Argus方式[4] [8]などのアルゴリズムが主に使われ ており,公共データや医療データの匿名化アプリケーショ ンとして提供されている. それらのk-匿名化手法は,データの出現数に合わせて 切 り落としや抽象化を行い,データの出現数をk値以下にす る. 多くの匿名化アルゴリズムは,上記のような情報の変 更 の組み合わせにデータをRe-coding し,抽象化を行うこ と で利用者を特定するデータの組み合わせ出現数をk値以下 にすることで成立する. Re-coding は 大 き く 分 け て 局 所 的 な 変 更 で あ る Local Suppression と , 選 択 肢 全 体 の 組 み 合 わ せ か ら 変 更 を 行 う Global Recodingの二種類が存在する.主にデータの組み合 わせを考える場合は Global Recoding によって抽象化レ ベ ルを測りながら複数の抽象化判定を試す形になることが多 い.Global Recodingは,非常に多くの手法や変更するべ き 内容が存在する.そのため,正しい手法を効率よく探し出 すのは難しい. これらのk-匿名化の手法の評価基準は,主に情報損失 の レベル を基準 として いる.k-匿名化 にお け るセキ ュリテ ィ (安全性)のレベルをk値のレベルと規定すると,現在の 評価軸である情報損失レベルとは常に相反する状態になる. これらの評価基準は社会の状況によっても変化する.例 えば,2012年の日本で発生したTポイントツールバーの例 などが挙げられる.個人情報の収集に関する規定を目立つ 場所に記載していなかったということで,多くのユーザが クレームを送り,事業方針を変更した事例がある.[11] こ のような問題が発生した場合,事件の影響は問題を起こし た企業だけでなく,同様の事業を行っている同業他社に対 してもユーザからの質問や疑いが多くなり,事業方針を変 更せざるを得なくなる. 今後,政府が安全性に関する法的なガイドラインを定め, 仮にkの値が法律の定める基準を満たしていたとしても, 大きなセキュリティ事故などが発生するたびに基準は変化 する.常に変化するユーザの要望に対して,個人情報の安 全性レベルを柔軟に対応させることが求められる. だが,情報損失のレベルについて,ユーザが使っても良 い,と考えるレベルの抽象化と,実際にマーケティング担 当者が使いたい,と考えるレベルにはギャップが存在する. その指標は情報損失量では評価することができない. そのため,k-匿名性における評価の指標として,情報 損 失量ではなく,実際に使われるマーケティング的な価値や 顧客の状況に応じて変化する指標を提案する. k-匿名化の安全性と有益性を評価する指標を,実際の 事 業で使 用でき る概念 によっ て行う ことに よって ,k-匿 名 化 の事業利用が可能となる.3.
個人情報のSEM価格をベースとした
個人情報のSEM価格をベースとした
個人情報のSEM価格をベースとした
個人情報のSEM価格をベースとした
k-
匿
匿
匿
匿
名化手法
名化手法
名化手法
名化手法
の提案
の提案
の提案
の提案
個人情報に対して,匿名化処理を実施した後の情報価 値 の変化について,検索エンジン広告(SEM)の価格価値に よって評価する方法を提案する. 現在,定性的なマーケティングの世界は,検索エンジン マーケティング(SEM)が標準として確立されている.例 えば,選択肢を抽象化してk-匿名化を行った場合,元のデ ータと比べてマーケティング的な価値にどれだけの変化が 発生したのか,具体的な減損レベルを金額として計測でき る. また,SEMの金額的価値は現在のユーザの嗜好とも 合 致しているため,常に変化している.例えばクリスマスシ ーズンに関する情報は夏休み期間に必要とされないだろう. ならば,その期間に不要な情報を排除することによって, 計算量や無駄なデータのアーカイブ量を減らすことが可能 になる. 将来的にk-匿名化に関するデータの売買がSEMのよう に一般的になれば,それを利用することの方が効率的であ る.だが現在,そのような市場が存在しないことから,SEM を代替指標として用いて換算するアプローチを実施する. SEMの価格決定プロセスはオークション形式である.入 札会社はその語に対して投じることのできる広告費の上限 値を入札し,他社と金額を競う. 他社広告費:C1,C2... Cn (C1>C2... >Cn) 自社最大広告費:M Cn > M の場合,広告費は [M*広告クリック数] M > Cn の場合,広告費は [(Cn+ 最低金額単位)*広告クリック数] 広告クリック数=0 の場合,金額は最低値 図3:図3:図3:図3: SEMの金額決定プロセスサンプルの金額決定プロセスサンプルの金額決定プロセスサンプルの金額決定プロセスサンプル SEMのオークションは,1つの商品を争うのではなく, 広告表示位置の順番を争う仕組みである.そのため,SEM の価格は他の会社の価格との関係で決まり,自社の入札価 格が低い場合,表示位置が下がる.[図4] これらの価格は,全て買い手(広告をクリックするユー ザ)と売り手(広告出稿会社)が存在しているときにのみ 成立するものであり,過去において一度もユーザがクリッ クしたことのない広告は0円となる. 図4:SEM結果画面のサンプル図4:SEM結果画面のサンプル図4:SEM結果画面のサンプル図4:SEM結果画面のサンプル 現在では,非常に多くの事業者がSEMを利用している. そのため,SEMの価格を参照すれば,どのような業種で どのような概念に対して売買が発生しているかが解るため, 経済状況を表現する指標となっている. 実際に選択肢を全てSEMの価格に変換してみると,k -匿 名 化 を 実 施 し た 場 合 に オ リ ジ ナ ル の デ ー タ よ り も 価 値 が高い状況が存在することが明らかになった. 以下の表は実験的に行ったものだが[表 1],SEMの価格 を比較すると,抽象化後のデータの方が,安全性(k値) も高く,広告的価値が高い場合があることが解る. 表表表表1. SEM価格とk値の変化サンプル価格とk値の変化サンプル価格とk値の変化サンプル価格とk値の変化サンプル 必ずしも,詳細なデータ=価値あるデータではないため, 一番高い経済効果のあるレベルまで抽象化する.多くは抽 象化によって各選択肢の種類数は減少し,選択肢あたりの 顧客存在数は多くなるため,必然的に安全性は向上する. こ の よ う な 安 全 性 と 利 用 価 値 の 両 立 す る 選 択 肢 群 を 辞 書として用意しておき,各種の匿名化サービスと組み合わ せて利用することにより,k-匿名化を実サービスに利用す ることが可能になる. まず,各選択肢についての価値評価を行ってみる. 属 性 S に 所 属 す る ユ ー ザ 全 員 に 広 告 を 打 つ 場 合 の 価 値 は ,[各 選 択 肢 の 人 数 × 各 選 択 肢 の 広 告 単 価]と な る . 広 告 単価を SEM ツールから取得し,各選択肢に人数と単価を 掛け,合計したものを選択項目全体の広告価値と考える.S(e):Attribute S value
S(k):k-anonymised S value
s1, s2, ... s n : QID
c1, c2, ... c n : number of QID
e1, e2, ... e n : SEM price of QID
s1 (e)= c1 * e1
s2(e)= c2 * e2 Multiply the SEM Price
... and number of people
sn(e) = cn * e n
○Amount of Attribute Value S(e) = Σ{ ci * ei}
○Reduction rate of k-anonymized data Value M(k) = S(k)/ S(e) M(k) = S(k) / S(e) 図5:図5:図5:図5: 匿名化後の価格変化の評価方法匿名化後の価格変化の評価方法匿名化後の価格変化の評価方法匿名化後の価格変化の評価方法 これにより,例えば自社のユーザ群の中で特徴的な出 現 率を記録するユーザ群が存在していたとしても,出現率が 低いためにノイズとして排除される可能性を排除できる. 匿名化によって自動的に削除されたデータの中に,マーケ ティング的な価値が高いものが存在していた場合,その価 格の減損率を確認し,一定以上の価値減損であった場合に, その変更を取りやめることができる. 例えば,実験によって職業のアンケート調査を行った と ころ「教員」の価値は非常に高いことが判明した.だが, 世間的に教員に従事している人の数は非常に少なく,少な いが故に広告的価値がある場合もある. も し , 自 社 の デ ー タ を 調 査 し た 際 , 教 員 の 数 が 少 な く , 使いにくいと考えた場合,他のデータと比べて相対的に多 いならば,そのデータの特徴として価値化される. 注意が必要な点として,この手法は語の価値のみを判 定 しているため,抽象化後のデータの方が元データよりも価 値が高くなる場合が存在する.ここでの価格はあくまでも 価値評価のための基準としての価格である.本来ならば, データを売る場合は詳細で使いづらいデータであっても, オリジナルデータの方が価値は高いだろう.
SEMPB k-anonymity Method::={
Input: テーブルTを匿名化する, P1 P2は選択肢変更のバリ エーションにSEM価格を算出して加えたもの. Output: テーブルT2 :k-匿名化され,かつSEM価格が最 大のもの. for i1 = 1 to l do // l : 抽象化パターンの存在数 (P1,P2...。。。) for i2= 1 to m do // m: それぞれの抽象化パターンの選択肢数 Pi int P[i2] // n : 各パターンのデータ行数 Pi for i3 = 1 to n do
int ri3 // Pattern_i2の SEM価格. int ci3 // Pattern_i2のデータ出現数. int pi2 = pi2 + { ri3* ci3 } // Pattern_i2の SEM 価格の総額 P[i2] = pi2 // SEM価格を配列化 // P[i2] ={ p1, p2, …, pi2,} i3 = i3 +1 end for i2 = i2 +1 end for // Temporary table R にデータを入れ込む Connect Database
query = Update Table R set price = { p1, p2, …, pi2,};
i1 = i1 +1
end for
// SEM価格から計算プライオリティを設定 Int k = 1 // k-anonymised check
Int num = 1
while k<2 do // 2-anonymised level
Connect Database
query = Select word pattern from R order by price desc limit
num, 1 ;
Table copy T into T2
query = Update T2 set {At1,At2.. Ati1}=Word pattern of Max
price
k = Select count(min(At1,At2.. Ati1)) from T2 group by
(At1,At2.. Ati1) ; num = num +1 end while Response: T2 : k-匿名化が検証され,かつSEM価値が最も高 い組み合わせとなる } 表2: 表2: 表2: 表2: Input テーブルとテーブルとテーブルとテーブルと Output テーブ ルテーブ ルテーブ ルテーブ ル
表3:アルゴリズムに必要なテーブル群 表3:アルゴリズムに必要なテーブル群表3:アルゴリズムに必要なテーブル群 表3:アルゴリズムに必要なテーブル群 ○事前準備 ○事前準備○事前準備 ○事前準備 現状の選択肢群,及び匿名化候補となる選択肢群をSEM ツールに入れ込み,広告価値を算出する.(make table: P1,P2 …) ○匿名化プロセス ○匿名化プロセス○匿名化プロセス ○匿名化プロセス 1. 各データ の出現数と価 格を用いて, 属性全体の価 格 を求める. 2. 各属性の 価格をデータ ベースに格納 し,価格が高 い 順番に抽象化する語の候補を取得する. 3. テンポラ リーテーブル 上にユーザデ ータをコピー し て,価格が高いワードに書き換える. 4. そ の 状 態 で 匿 名 化 の 検 定 を 行 い ,2-匿 名 状 態 以 上 で ある時にそのパターンを採用する. 図6: 図6:図6: 図6: 提案アルゴリズムのフロー提案アルゴリズムのフロー提案アルゴリズムのフロー提案アルゴリズムのフロー
4.
本手法の実データへの適用例
本手法の実データへの適用例
本手法の実データへの適用例
本手法の実データへの適用例
上記の手法について,実際に業務で利用した個人情報 デ ータをk匿名化して個人特定できない状態に変換し,価値 変化を確認する実験を行った.実データのプロパティは図 9の通り. 表4: 表4: 表4: 表4: オリジナルデータのプロパティオリジナルデータのプロパティオリジナルデータのプロパティオリジナルデータのプロパティ 検 索 広 告 の 単 価 調 査 に は google の SEM ツ ー ル (https://adwords.google.com/ko/TrafficEstimator/Home)を利用 した.(2012年10月19日実施)図7: 図7:図7: 図7: Google SEMツールツールツールツール (https://adwords.google.com/ko/TrafficEstimator/Home) 具体的には,以下のような手順によってデータの抽象 化 処理を行ない,一番価値が高い形で匿名化済データとして 保持する実験を行った.この手法によってデータの価値を 定めた結果は以下の通り. この手法によって,本データをk-匿名状態にした上で, データの利用価値を最も損失しない形で抽象化した場合, 価値が60.6%に変化したことが判明した. 表5:匿名化実施後の価格変化量 表5:匿名化実施後の価格変化量表5:匿名化実施後の価格変化量 表5:匿名化実施後の価格変化量 最終的にIDを削除し,連結不可能匿名化したことで 本 匿名化作業は完了された.
5.
マーケティング価値とk
マーケティング価値とk
マーケティング価値とk
マーケティング価値とk
-
匿名
匿名 性
匿名
匿名
性
性
性 の関連性調
の関連性調
の関連性調
の関連性調
査
査
査
査
本データを用いて,kの値が異なるデータ抽象化パタ ー ンをいくつか作成し,それぞれの価値変化を調査する実験 を行った. 実験に使用したデータは,ユーザの年齢データで,全部 で5種類の抽象化案を作成した. 1. 年齢(元データ) 2. 年代区分 3. 5年区切り 4. 所属区分(小学生/中学生等) 5. 個別調整(15才以下/60才以上を包含) 上記のデータに対して,データの価値がどのように変 化 するか調査を行った. 表6:表6:表6:表6: 各パターンの匿名化後の価値各パターンの匿名化後の価値各パターンの匿名化後の価値各パターンの匿名化後の価値 それぞれに対して価値評価を行ったところ,上記のよ う な結果が出た.セキュリティレベル(k値)とSEMの価 格/価値 に 対し ては 有 意な 関 係性 は 無い .「 年代 区 分」 は , 広告価値も安全性の両方が高い状態の高い状態になる.「5 歳区切り」は情報損失が少ないにも関わらず,広告価値は 0であるという結果が出た. こ れ ら の デ ー タ を k 値 の 標 準 偏 差 や 平 均 値 等 と 比 し て 並べたものが上の図である.マーケティング価値とセキュ リティレベル(k値)の有意な結果は見えなかった.これ により,安全性の基準とマーケティング的な価値には特に 関連性は無く,その抽象化後の価格とその安全性を確認す ることで,データの価値を定めることが可能となる. 図8:金額価値と選択肢出現数との関係 図8:金額価値と選択肢出現数との関係 図8:金額価値と選択肢出現数との関係 図8:金額価値と選択肢出現数との関係図9:金額価値と選択肢数との関係性 図9:金額価値と選択肢数との関係性 図9:金額価値と選択肢数との関係性 図9:金額価値と選択肢数との関係性
6.
結論
結論
結論
結論
本実験の結果により,k-匿名化処理済のデータをSE M の価格によって価値化し,評価の指標とすることによって, 実データに対する抽象化を実施する際の優先度をつけるこ とが可能となった. また,データの利用価値とk-匿名レベルとの間には特に 関係性は存在せず,定性的な価値基準が存在すれば,安全 と価値の両立ができる点が存在することが判明した. こ の よ う に デ ー タ 分 析 の 価 値 に よ る プ ラ イ オ リ テ ィ を 明確化することにより,今後,匿名化データの価格データ が整備されることによって,その時々の最適な匿名化を自 動的に実施する仕組みが可能になると考える. 我々は,Lattice structure[10]の構造を参考にして,データ の分析プライオリティを定め,一定価格以下のデータ分析 を省くアルゴリズムを提案する. また,検索エンジン広告を用いることによって,新しい 語の出現に対して抽象化のパターンを組むことも可能とな る可能性があり,自動的な語の意味解析と合わせて実現す るという期待が持てる. 価格と安全性の最適解を求めることによって,そのデ ー タの最大価値を測ることも可能となる.かつ,データ流通 の観点からも,価格の高い匿名化済データのみを通常利用 するデータベースに保持しておき,元データとの独立した 運用を実現することが出来ることでコストの削減効果も期 待できる. だが,反面,SEMの価格を利用することから,問題点 も多く存在する. 1. 価格 の 決 定が 毎日 の よ うに 変化 す る ため ,日 々 の 対 応が求められる. 2. 価値 の 定 義が 検索 エ ン ジン に入 力 し たユ ーザ で あ る こ と か ら ,「will=検 索 し て 知 り た い 事 項 」 と 「be= 現 在 の 自分の姿」の違いによるデータの扱いが難しい. 3. 検索 エ ン ジン で価 格 が 付い てい な い 概念 や, 同 意 義 語への対応 4. この方式はあらゆる言語に適用できるのか 上記のような問題について,今後も検討していく必要 が ある.参考文献
参考文献
参考文献
参考文献
1) 2011 年 情 報 セ キ ュ リ テ ィ イ ン シ デ ン ト に 関 す る 調 査 報 告 書,NPO Japan Network Security Association(JNSA)日本ネット ワ ー ク セ キ ュ リ テ ィ 協 会 セ キ ュ リ テ ィ 被 害 調 査 ワ ー キ ン グ グループ2) Sweeney, L, k-anonymity: a model for protecting privacy, Int. J. Uncertainty, Fuzziness and Knowledge-Based Systems, Vol. 10, pp. 557.570 (2002)
3) Akamai Technologies and Helen Yang and Noelle Faris, Akamai Reveals 2 Seconds as the New Threshold of Acceptability for eCommerce Web Page Response Times, September 14, 2009 4) Mitsubishi Research Institute, Inc. 情報技術研究センター 松崎
和賢,データ匿名化の現状に関する一考察. 医療・統計分野を
中心とした国内外の動向.2011-7-8
5) 日 本 情 報 経 済 社 会 推 進 協 会(JIPDEC),パ ー ソ ナ ル 情 報 の 利 用 のための調査研究報告書,2011-3
6) Josep Domingo-Ferrer, Francesc Sebe and Agusti Solanas, A polynomial-time approximation to optimal multivariate microaggregation. Comput. Math. Appl.,55(4):714-732, 2008. 7) Latanya Sweeney, k-anonymity: a model for protecting privacy.
International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, March 2002.
8) Marek P. Zielinski and Martin S. Olivier, How appropriate is k-anonymity for address-ing the conflict between privacy and information utility in microdata anonymisation,
9) El Emam K and Dankar FK and Issa R and Jonker E and Amyot D and Cogo E and Corriveau JP and Walker M and Chowdhury S and Vaillancourt R and Roffey T and Bottomley J, A globally optimal k-anonymity method for the de-identification of health data, September--October 2009
10) Daniel C. Barth-Jones, How should we understand re-identification risks under HIPAA?, 2011
11) 日経コンピュータ, 2012/8/30, p.10
12) Kristen LeFevre David J. DeWitt Raghu Ramakrishnan, Incognito: Efficient Full-Domain K-Anonymity,SIGMOD '05 Proceedings of the 2005 ACM SIGMOD international conference on Management of data, Pages 49-60, 2005