Copyright (C) Mitsubishi Research Institute, Inc.
データ匿名化の現状に関する一考察
医療・統計分野を中心とした国内外の動向
2011年7月8日 情報技術研究センター 松崎和賢 2011-7-8 ERATO湊離散構造処理系プロジェクト セミナーはじめに
この発表でお伝えしたいこと
1. 匿名化の関連動向
個人の情報を匿名化して二次利用するという大きな流れがある2. 匿名化の理論と現場の差
医療々統計の分野を例に、杓子定規ではいかない運用の苦労 (海外ヒゕリング†
結果を中心に)†財団法人日本情報処理開発協会※(JIPDEC)
パーソナル情報の利用のための調査研究
『匿名情報流通に係る課題の調査』(>>
報告書
)
(平成22年度 競輪補助事業)
※現)一般財団法人日本情報経済社会推進協会
はじめに
カナダ々オンタリオ州における個人医療情報のサクル
3
Copyright (C) Mitsubishi Research Institute, Inc.
住民
レジストリ CHEO (+ Privacy Analytics社)
公的研究機関々公衆衛生機関 民間企業 製薬会社 匿名化 レポート 匿名化 医療情報、研究成果、新薬、行政計画 (コストリカバリー分) (無料)
①
②
②
③
④
④
⑤
⑥
お伝えしたいことの図-1内容
はじめに• 1-1. 導入
• 1-2. 匿名化について
匿名データ提 供の現状• 2-1. 医療分野 – 国内外
• 2-2. 統計分野 – 国内外
分散々並列化• 3-1. クラスタリングベースの匿名化
• 3-2. 今後の展望
内容
はじめに• 1-1. 導入
• 1-2. 匿名化について
匿名データ提 供の現状• 2-1. 医療分野 – 国内外
• 2-2. 統計分野 – 国内外
分散々並列化• 3-1. クラスタリングベースの匿名化
• 3-2. 今後の展望
1.2(1) 不都合な真実
個人の履歴に基づくデータは、ただ匿名化すれば二次利用OKというわけで
はなく、プラバシーとのトレードオフがある。
1.2(2) 不都合な状況
識別子 センシティブ情報
SSN 名前 誕生日 人種 Zip 病気
614 Sara 03/04/76 Cauc 94305 Flu 615 Joan 07/11/80 Cauc 94307 Cold
629 Kelly 05/09/55 Cauc 94301 Diabetes 710 Mike 11/23/62 Afr-A 94305 Flu
840 Carl 11/23/62 Afr-A 94059 Arthritis
780 Joe 01/07/50 Hisp 94042 Heart problem
619 Rob 04/08/43 Hisp 94042 Arthritis
7
1.2(2) 不都合な状況
センシティブ情報 誕生日 人種 Zip 病気 03/04/76 Cauc 94305 Flu 07/11/80 Cauc 94307 Cold 05/09/55 Cauc 94301 Diabetes 11/23/62 Afr-A 94305 Flu 11/23/62 Afr-A 94059 Arthritis01/07/50 Hisp 94042 Heart problem
04/08/43 Hisp 94042 Arthritis De-identified医療レコード
1.2(2) 不都合な状況
ビッグデータの時代〆外部のデータソースが増えている
9
1.2(2) 不都合な状況
1.2(2) 不都合な状況
外部データソースとリンクされて、個人を特定されてしまう
ただし、この問題が指摘された2000年当時は、HIPAA†施行以前 米国人口の63~87%を特定可能(2000)→0.04%(2007, HIPAA施行後)
11
Copyright (C) Mitsubishi Research Institute, Inc.
†Health Insurance Portability and Accountability Act 18の識別子相当の情報を削除
1.2(2) 不都合な状況
センシティブ情報 誕生日 人種 Zip 病気 03/04/76 Cauc 94305 Flu 07/11/80 Cauc 94307 Cold 05/09/55 Cauc 94301 Diabetes 11/23/62 Afr-A 94305 Flu 11/23/62 Afr-A 94059 Arthritis01/07/50 Hisp 94042 Heart problem
04/08/43 Hisp 94042 Arthritis
個人を一意に特定!
準識別子Quasi-identifiers
外部DB
1.2(3) k-Anonymity [Sweeney,2000]
準識別子の一部を修正する
修正された各行は、準識別子に対して少なくともk-1個の他の行と同一
個々のレコードはサズkの群衆の中に隠れる
13
Dilys Thomas PODS 2006
1.2(3) k-Anonymity - 一般化と削除による2-Anonymity
k-Anonymityを満たす際に、一般化と削除の度合いを下げる
→
NP困難[MW04]
誕生日 人種 Zip 病気 1975-89 Cauc * Flu 1975-89 Cauc * Cold 1960-74 Afr-A * Flu 1960-74 Afr-A * Arthritis1945-59 Hisp * Heart problem 1945-59 Hisp * Arthritis
内容
はじめに• 1-1. 導入
• 1-2. 匿名化について
匿名データ提 供の現状• 2-1. 医療分野 – 国内外
• 2-2. 統計分野 – 国内外
分散々並列化• 3-1. クラスタリングベースの匿名化
• 3-2. 今後の展望
2-1(1) 医療分野 – 海外
海外では、匿名化した医療情報をDB化し、有効に活用している
医療の質の改善、ヘルスシステム計画、ヘルスケゕの不正々無駄々乱用の検出、 医学研究、公衆衛生など
カナダ々オンタリオ州の事例
CHEO(BORN)2-1(1) 医療分野 – 海外 - 医療情報のDB
データベース 地域 設立 説明 データ The Sough western Ontario DB London, Ontario, Canada 2000 53の地方と都 市の診療所のプ ラマリケゕ 診察、血圧、処 方箋 The Health Improvement Network (THIN) DB UK 2003 308 GP 15年前のデー タもあり 診療履歴、診察、 血圧、BMI、処 方箋Thales-Cegedim DB Belgium, France, Germany, Italy, UK, Spain 1990(フラン ス) プラマリケゕ 診療履歴、診察、血圧、入院、処 方箋 The IMS Disease Analyzer DB EU 1989(ドツ) 2,000(内科医、 GP、産婦人科、 糖尿病医など; ドツ) 患者の統計デー タ、処方箋、入 院、専門医の紹 介、など 17
Copyright (C) Mitsubishi Research Institute, Inc.
(出典: European Cardiology Vol6, Issue3, http://www.touchbriefings.com/ebooks/A1pbin/eucardio63/resources/36.htm, 2010よりMRI作成)
2-1(2) オンタリオ州の事例
(再掲)個人の情報を匿名化して2次利用するという流れ
カナダ々オンタリオ州における個人医療情報のサクル
住民
レジストリ CHEO (+ Privacy Analytics社)
公的研究機関々公衆衛生機関 民間企業 製薬会社 匿名化 レポート 匿名化 医療情報、研究成果、新薬、行政計画 (コストリカバリー分) (無料)
①
②
②
③
④
④
⑤
⑥
2-1(2) オンタリオ州の事例 - CHEOの運用における特徴
運用の軽量化によるデータ提供までに要する時間の短縮
1-2週間程度で審査を終え、データを提供できる 以前は、半年から1年かかっていた 個人医療情報の二次利用は研究用途であってもしばしば物議を醸し、時間がかかる 委員を集めるのにも時間がかかる
リスクの客観的、システム化された計測
「データ利用申請者」に匿名化データを提供するリスクをツールで測定 Privacy Analytics Risk Assessment Tool (PARAT)にヒューリステゖックスを埋め込む
技術のバックグラウンド
匿名化処理ゕルゴリズムも速い
“A Globally Optimal k-Anonymity Method for the De-Identification of Health Data" published in the Journal of the American Medical Informatics Association,
既存のk-匿名化ゕルゴリズム(Incognitoなど)よりも高速
19
2-1(2) オンタリオ州の事例 - CHEOとは?
The Children’s Hospital of Eastern Ontario
カナダ々オンタリオ州々オタワ(首都)にある、小児医療と研究を行う機関
1974 年に開院。”World-class teaching hospital”
スタッフ数 : 4,500名程度 (2008-2009年)
2-1(2) オンタリオ州の事例 - レジストリの例は?
BORN (Better Outcomes Registry & Network)
概要
ビジョンは“The best possible beginnings for lifelong health”
(終生の健康のための可能な限り最高の始まり)
州法(Personal Health Information Privacy Act :PHIPA)公認レジストリ(2009年)
データ
オンタリオ州における新生児と母親の出産前後の健康状態などに関する情報 (140,000件/年) 識別情報(名前、医療保険番号など)は無い 現在は既存5件のリポジトリのデータを集積。今後、続々と他の公的レジストリの データが集積される予定 212-1(2) オンタリオ州の事例 - BORNが受け付けるリクエストの例
Aggregate (simple)
何割くらいの女性が出生前診断(Prenatal Screening)を受けるか?
Aggregate (complex)
オンタリオ州における妊婦の喫煙 – 学歴、収入(五分位)、地区別
レコードレベルのデータ
BORNサト (http://www.bornontario.ca/)からリクエストする
分析のリクエスト
研究の仕様に基づき集合データを提示する2-1(2) オンタリオ州の事例 - 匿名化データの利用者
IMS:Brogan社
概要
1989年に設立。処方箋利用に関するマーケテゖングリサーチとコンサルテゖング を提供 カナダ国内で、最大の薬品利用データウェゕハウスを管理 国際的な製薬会社やカナダの州政府も利用
創始者
創始者であるTom Brogan氏は、1982年Canadian Patent Actの改正に政府のポリ
シーゕナリストとして関与している。その後1989年に起業している
医薬品の経済性評価(pharmacoeconomics)の第一人者とされる
最近の動向
2010年6月にIMS Health Canada社と合併し、IMS BroganというIMS 社の1ユニット
になっている
IMS Health社自体は2010年2月にカナダの政府系フゔンド(Canadian Pension
Plan)とTPG Capital に買収されていた
IMS Health社はMR(医薬情報担当者)向けに処方者情報をレポートとして製薬会社
に販売したことが、処方者のプラバシーの侵害ということで米Vermont州と裁 判になった (2011.6.23にプラバシーの問題ではないとの判決)
23
Copyright (C) Mitsubishi Research Institute, Inc.
2-1(2) 匿名化した個人医療情報のリクエスト処理
匿名化データの提供 研究倫理委員会での審査 審査3: 提供リスク、倫理面の問題 データアクセス委員会での審査 審査1: プロジェクトの妥当性 審査2: プライバシーのリスクを定量化 匿名データのリクエストレジストリ CHEO (+ Privacy Analytics) 匿名化 民間企業
Globally Optimal k-Anonymity Globally Optimal
2-1(3) A Globally Optimal k-Anonymity Method
CHEOで実際に使われているゕルゴリズム
OLA (Optimal Lattice Anonymization)
目的〆
束(Lattice)の中から最適なノードを探索する
最適〆
k-Anonymous かつ最小の情報損失
25
2-1(3) OLA – 格子構造=Lattice
<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> <d0, g0, a2> <d0, g0, a1> <d0, g0, a0> 0 7 6 5 4 3 2 1<d
2, g
0, a
3>
<入院した日, 性別, 年齢>
拡大 抽象レベル2-1(3) OLA - Lattice
<d
0, g
0, a
0>
27
2-1(3) OLA - 一般化階層
<入院した日> <性別>
2-1(3) OLA - Lattice
<d
0, g
0,
a
1
>
29
2-1(3) OLA - Lattice
2-1(3) OLA – 一般化戦略 (=一般化のパス)
例×2
31
Copyright (C) Mitsubishi Research Institute, Inc.
<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> <d0, g0, a2> <d0, g0, a1> <d0, g0, a0> 0 7 6 5 4 3 2 1
2-1(3) OLA – アルゴリズム概要
1. 各一般化戦略に対して、二分探索を実施し、すべてのk-anonymousノード
を探索する
2. 各一般化戦略に対して、高さ最小のk-anonymousノードを保持する
k-minimal node
3. 残った複数のk-minimalノードに対して、情報損失の度合いを比較し、最
小のノードを”Globally optimal”な解として選択する
仮定
k個以上のノードが存在する monotonicity property: 一般化階層を上ると、情報損失も単調に増加する
情報損失のメトリクス
Precision Discernability Metric non-uniform entropy2-1(3) OLA
33
Copyright (C) Mitsubishi Research Institute, Inc.
<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> <d0, g0, a2> <d0, g0, a1> <d0, g0, a0> 0 7 6 5 4 3 2 1
2-1(3) OLA
<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> <d0, g0, a2> <d0, g0, a1> <d0, g0, a0> 0 7 6 5 4 3 2 1 not a k-anonymous node2-1(3) OLA
35
Copyright (C) Mitsubishi Research Institute, Inc.
<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> <d0, g0, a2> <d0, g0, a1> <d0, g0, a0> 0 7 6 5 4 3 2 1 not a k-anonymous node not a k-anonymous node not a k-anonymous node not a k-anonymous node
2-1(3) OLA
<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> 0 4 3 2 12-1(3) OLA
37
Copyright (C) Mitsubishi Research Institute, Inc.
<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> 0 4 3 2 1 k-anonymous node
2-1(3) OLA
<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> 0 4 3 2 1 k-anonymous node k-anonymous node k-anonymous node2-1(3) OLA
39
Copyright (C) Mitsubishi Research Institute, Inc.
<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d0, g1, a4> 0 2 1
2-1(3) OLA
<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d0, g1, a4> 0 2 1 not a k-anonymous node2-1(3) OLA
41
Copyright (C) Mitsubishi Research Institute, Inc.
<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> 0 4 3 2 1
2-1(3) OLA
<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> 0 4 3 2 1 Suppression > 5%2-1(3) OLA
43
Copyright (C) Mitsubishi Research Institute, Inc.
<d0, g1, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> 0 4 3 2 1
2-1(3) OLA
<d0, g1, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> 0 4 3 2 1<d
2, g
0, a
3>
3%, 0.53
<入院した日, 性別, 年齢>
削除データの割合, 情報損失 拡大2-1(4) CHEOの運用 – kの値は??
審査1: プロジェクトの妥当性
実現可能性 科学的妥当性 要求するデータ項目の妥当性
審査2: プライバシーのリスクを定量化
a) 脅威モデリング: 申請者側の情報と、想定される攻撃より審査 b) リスク分析: 再ID化(re-identification)のリスクをPARAT†を用いて審査 c) 匿名化: リスクがしきい値を越える場合、リクエストの修正を依頼。 準識別子(組み合わせることで再ID化されうる属性。例えば母親の誕生日、子供 の誕生日)を精査し、リスクを減らす方法を提案
審査3:提供リスク、倫理面の問題
審査2の結果を利用 一般的な医療機関に設置されたREBと 同等の審査を実施 45Copyright (C) Mitsubishi Research Institute, Inc.
2-1(4) CHEOの運用 - 審査2: プライバシーのリスクを定量化
審査2: a) 脅威モデリング
≒ ISO27002 申請者から見たデータの価値や、処理能力について 申請者の組織のセキュリテゖ々プラ バシー保護状況などについて ISO27002: 情報セキュリテゖマネ ジメントの実践のための規範2-1(4) CHEOの運用 - 審査2: プライバシーのリスクを定量化
■軽減制御 認証されたスタッフのみがデータにゕクセスでき るようにする プラバシーとセキュリテゖポリシーが監視され、 効力を持つ データ共有協定を締結している、またはこれから 締結する 関係者に対するプラバシー、機密保持、セキュ リテゖのトレーニングを強制的に適宜実施してい る 秘密保持契約をスタッフと外部協力者に対して結 んでいる プラバシー、機密、セキュリテゖの違反時の罰則がある 個人を特定できないデータ、および集合データの み公開する プラバシーオフゖサーやデータ管理委員会が任 命されている 長期保有の際には外部監査を受ける プラバシー違反時のプロトコルがある 保有期間を過ぎたデータは廃棄される プラバシー監査が内部々外部ともある データは国内でのみ処理、保持、ゕクセスできる 情報システムに適切な認証を掛けている 第三者への開示と共有をしない データに適切な認証をかけている 情報システムに対する脅威、およびリスク脆弱性 の監査を実施する データへのリモートゕクセスにたいし、特別な保 護機構を導入している プラバシー、機密性、セキュリテゖに関して組 織的な管理フレームワークをもつ ウゖルスチェックを実施している データ保持、管理、ゕクセスに関して、組織的な ポリシーを持つ 利用記録をシステムによりモニタリングしている 47 ≒2-1(4) CHEOの運用 - 審査2: プライバシーのリスクを定量化
■軽減制御(つづき) データを電子的に送付する際には、暗号プロトコ ルが使われる 物理的なセキュリテゖ対策がなされている 開示データを含むコンピュータやフゔルは厳重 に施錠管理された場所に置かれる プラバシー担当者のコンタクト情報が提示され ている スタッフには、写真付きのID、または磁気カード が与えられる 従業員管理担当者のコンタクト情報が提示されて いる 訪問者をスクリーニング、管理する 組織の透明性と、情報公開の仕組みが整っている ゕラームシステムが設置されている 苦情窓口をもっている パーソナル情報が保存される場所の数は最小限に とどめ、あらかじめ特定されている REBのような独立した権威がデータの二次利用に かかわる提案を承認している センシテゖブデータを保持する場所では一般の人 が入れないようにする 内外の監査、モニタリング機構が導入されている 定常的な敷地内の監視が実施されている 独立諮問機関、または管理委員会が監視する ≒2-1(4) CHEOの運用 - 審査2: プライバシーのリスクを定量化
審査2: a) 脅威モデリング
リスクのしきい値を決定←k-anonymityのkの値と乗算で“1”になる
データの詳細度、データのセンシテゖブさ、 などからプラバシー侵害の影響を測る
(参考) 2-1(4) CHEOの運用
審査2: b) リスク分析:
想定する攻撃者の種類を見定める
Prosecutor 検察 攻撃対象: 単数 データセットの中に対象者がいることを知っている Journalist ジャーナリスト 攻撃対象: 単数 データセットの中に対象者がいるかもしれないことを知っている Marketer マーケッター 攻撃対象: 複数 データセットの中に対象となる集団がいるかもしれないことを知っている(参考) 2-1(4) CHEOの運用
審査2: b) リスク分析:
リクエストしたデータセットを提供する際に、リスクがどれくらいか
(通常、すべてのデータを求めるので、リスクの値が振り切れる)
51
Copyright (C) Mitsubishi Research Institute, Inc.
(参考) 2-1(4) CHEOの運用
審査2 : c) 匿名化
大域的再符号化(Global Recording)と局所秘匿(Suppression)
匿名化を実施することで、リスクをしきい値以下に落とす
(参考) 2-1(4) CHEOの運用
審査2→審査3
契約書のひな形までツールで作成できる。
以下のレポートを証明書として添付する
※あくまでも「個人を特定しうるリスクがしきい値以下」という証明
53Copyright (C) Mitsubishi Research Institute, Inc.
2-1(5) 医療分野 - 国内では?
レセプトと医療情報のDB化が試行段階にある
医療情報化に関するタスクフォース(内閣官房IT戦略本部)
レセプト情報等の活用による医療の効率化について 医療情報データベースの活用による医薬品等安全対策の推進について
医薬品の安全対策等における医療関係データベースの活用方策に関する懇談
会
日本のセンチネル々プロジェクトの推進 利活用可能データ規模の目標 5カ年計画(1〃000万人の医療情報データベース) ナショナルレセプトデータベースとの連携 医薬品等の安全対策を含む医療の質向上に向けた取り組みと国民や医療 への還元 医療関係者に対する医学々薬事疫学研究利用への理解の促進 医学々薬学々疫学々情報学その他関係者の協力
National Clinical Database 外科系の専門医制度と連携した症例データベース
http://www.ncd.or.jp/index.html
55
2-1(5) 医療情報データベース基盤整備事業
(出典:医療情報データベース基盤整備事業について,厚生労働省医薬食品局安全対策課, 2011年)
匿名化においては、統計学者等の関与により実施し、個人の特定が可能な情報等につ いて削除されていることを確認することや、匿名化の妥当性の検証を審査委員会等で 行う必要がある。
2-1(5) 医薬品等の安全対策等におけるデータベース
57
Copyright (C) Mitsubishi Research Institute, Inc.
内容
はじめに• 1-1. 導入
• 1-2. 匿名化について
匿名データ提 供の現状• 2-1. 医療分野 – 国内外
• 2-2. 統計分野 – 国内外
分散々並列化• 3-1. クラスタリングベースの匿名化
• 3-2. 今後の展望
2-2(1) 統計分野
統計の分野でも、公的統計の二次利用→匿名データを複製し提供という流れ
提供に際しては、統計的開示制御(Statistical Disclosure Control: SDC)が施さ
れる
k-Anonymityの話と近い
59
2-2(2) EU統計局 - μ-Argus
SDC(統計的開示制御)に関する欧州のプロジェクトで作られてきたソフト
ウェゕ
4th Framework SDC-project (1996-1998) 5th Framework CASC project (2000-2003) CENEX project (2006)
ESSnet project (2008-2009)
実装されているSDC手法
大域的再符号化(Global recoding) 局所秘匿(Local suppression)
Top and bottom coding.
The Post RAndomisation Method (PRAM) Numerical Micro Aggregation
Multivariate fixed-size microaggregation Numerical Rank Swapping
(各手法はマニュゕルご参照のほど)
2-2(2) オランダ統計局でのサービス
匿名化したマクロデータの提供サービスを実施
オンサト、リモート、パブリックユースフゔル(PUFs) 1200のデータセット データセットは結合可能
利用状況
Remote Access: 50 computers 129 current research projects approx. 300 active researchers
Italy, Germany, US (Columbia University) On Site:
14 computers
57 current research projects
approx. 100 active researchers OS
61
2-2(3) オランダ統計局での運用
匿名化手法
大域的再符号化(Global Recoding)と局所秘匿の手法(Local Suppression)の組み
合わせが中心 双方の組み合わせ度合いは目的による
匿名化評価指標
k-Anonymityは計算量の関係で使っていない 準識別子(説明変数、個人特定可能変数)3つの組み合わせに対して、頻度表を作 成し、母集団に対して100件を目安にしている。この作業を自動化するために Argusを利用している
評価値(しきい値)
コンテキストとサンプリングによるが、マクロデータの場合、変数3つの組み合 わせに対して母集団に対して100件を目安にしている パブリックユースフゔルの場合、変数2つの組み合わせに対して母集団に対して 10,000件を目安にしている 匿名化の度合いは、誰のリクエストかによらない2-2(3) オランダ統計局での運用
匿名マクロデータ
1種類しか作らない『今日来た人と、明日来た人に渡すデータは同じ』 統計の研究以外には利用を許可しない。 個人と組織と双方に対して契約を結ぶ 組織との契約は無くして欲しいという声が大きい
研究結果の安全性
研究結果は公開することを契約で定めている 『その結果が安全かどうかをチェックするツールを作れと言われている。どうや るべきかわかっていれば作るのだが…』
組織間の連携
EUで統計開示制御を真剣に取り組んでいる国は少ない タリゕ、ドツ、英国、北欧諸国など、ESSNetに参加しているところが中心 『日本の統計局からも数年前にメールはもらった。』 632-2(3) Argus
Argusの今後
Eurostat(EU統計機関)の予算を1年分獲得 リスクベースゕプローチ(開示リスク査定)の普及促進 1年間様子を見て、継続予定 Argusはオープンソースソフトウェゕに 新しい汎用的なオープンパッケージでのゕーキテクチャに。 Rパッケージの作者も新プロジェクトのメンバーになる。1つの大きなパッケージに。2-2(4) 統計分野 - 国内では
統計センターを窓口にして、匿名データが提供されている
現在利用可能な統計データ
住宅々土地統計調査 全国消費実態調査 就業構造基本調査 社会生活基本調査 65Copyright (C) Mitsubishi Research Institute, Inc.
2-2(4) 匿名化の方式は?
内閣府::統計委員会::『匿名データ部会』における決定
例:第7回 平成23年6月7日
匿名データの作成方法の概要〆大臣からの諮問
元の統計調査のレコード全てを匿名データに用いるのではなく、それに間引きを 施したものを用いる(レコードのリサンプリング)。 識別情報は、レコードから全面的に削除する。また、レコードの配列順が意味を なさないように、無作為に並べ替えを行う(識別情報の削除等)。 特徴的な値があるレコードは、削除する(裾切りによるレコード削除)。 極端に大きな値は、上限値を設けて頭打ちにする(トップコーデゖング)。 分類事項の程度は、詳細なものではなく、粗いものとする(リコーデゖング)。 (出典: 第7回 匿名データ部会資料2, 諮問第37号 労働力調査に係る匿名データの作成について,2011)
部会での専門委員の意見の例
年齢の刻み〆地域情報を一切出さないのであれば、他に原データのまま提供でき るものがないのかどうかをご検討いただければありがたい。たとえば、年齢は 5 歳刻みでグルーピングしているが、居住地域が特定化できないのであれば、年齢 はもう少し細かい刻みで提供することも可能ではないか。 (出典:第7回 匿名データ部会資料4, 諮問に対する黒田専門委員の意見, 2011)内容
はじめに• 1-1. 導入
• 1-2. 匿名化について
匿名データ提 供の現状• 2-1. 医療分野 – 国内外
• 2-2. 統計分野 – 国内外
分散々並列化• 3-1. クラスタリングベースの匿名化
• 3-2. 今後の展望
3-1(1) Privacy-Preserving data publishing (PPDP) 研究動向
実はk-Anonymityは序の口…
Fung, B. C. M., Wang, K., Chen, R., and Yu, P. S. 2010. Privacy-Preserving data publishing: A survey of recent developments. ACM Comput. Surv. 42, 4, Article 14 (June 2010), 53 pages. DOI =
3-1(1) クラスタリングベースのk-Anonymity
…とはいうものの、実際には『k-Anonymity+運用でカバー』が現実解
今後は各所で匿名化が必要ではないか?匿名化を独立したサービスとできな
いか?
スケーラビリテゖ、分散並列処理による高速化が必要だろう=クラウド? クラスタリングベースならクラウドに載せやすいのでは? ↑Apache MahoutのクラスタリングはHadoop(MapReduce)上で動く
クラスタリングによるk-Anonymityには、2つ代表的な論文が存在
[1] r-Gathering, r-Cellular (Stanford, 2006, 2010, →Google, MS, Oracleへ…) [2] k-member clustering (Purdue, 2007)
69
Copyright (C) Mitsubishi Research Institute, Inc.
[1] Gagan Aggarwal, Tom¥'{a}s Feder, Krishnaram Kenthapadi, Samir Khuller, Rina Panigrahy, Dilys Thomas, and An Zhu. 2006. Achieving anonymity via clustering. In Proceedings of the twenty-fifth ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems (PODS '06). ACM, New York, NY, USA, 153-162. DOI=10.1145/1142351.1142374 http://doi.acm.org/10.1145/1142351.1142374
(→ACM Transactions on Algorithms, Vol. 6, No. 3, Article 49, Publication date: June 2010.)
[2] Ji-Won Byun, Ashish Kamra, Elisa Bertino, and Ninghui Li. 2007. Efficient k-anonymization using clustering techniques. In Proceedings of the 12th international conference on Database systems for advanced applications (DASFAA'07), Ramamohanarao Kotagiri, P. Radha Krishna, Mukesh Mohania, and Ekawit Nantajeewarawat (Eds.). Springer-Verlag, Berlin, Heidelberg, 188-200.
3-1(2) クラスタリングとk-Anonymity
例〆オリジナル
Age
Salary
Amy
25
50
Brian
27
60
Carol
29
100
David
35
110
Evelyn
39
120
3-1(2) クラスタリングとk-Anonymity
一般化による2-Anonymity
71
Copyright (C) Mitsubishi Research Institute, Inc.
Age
Salary
Amy
20-30
50-100
Brian
20-30
50-100
Carol
20-30
50-100
David
30-40
100-150
Evelyn
30-40
100-150
3-1(2) クラスタリングとk-Anonymity
オリジナル
Age
Salary
Amy
25
50
Brian
27
60
Carol
29
100
David
35
110
Evelyn
39
120
3-1(2) クラスタリングとk-Anonymity
クラスタリングによる2-Anonymity
→ゆがみが小さい、定数倍近似ゕルゴリズムがある
73
Copyright (C) Mitsubishi Research Institute, Inc.
Age
Salary
Amy
[25-29]
[50-100]
Brian
[25-29]
[50-100]
Carol
[25-29]
[50-100]
David
[35-39]
[110-120]
Evelyn
[35-39]
[110-120]
クラスタの中心値を公開
27=(25+27+29)/3
70=(50+60+100)/3
37=(35+39)/2
115=(110+120)/2
3-1(3) r-クラスタリング
テーブルの属性を、メトリック空間内の点とする
空間内の点はクラスタ化され、中心値が公開される
“r” は各クラスタメンバ数の下限値
k-anonymityの“k”ではなく、 “ r”を用いる
kはクラスタの数を表す際に使われるため
距離関数
D(X,X)=0 Reflexive D(X,Y)=D(Y,X) Symmetric D(X,Z) <= D(X,Y) + D(Y,Z) Triangle Inequality
[1] Gagan Aggarwal, Tom¥'{a}s Feder, Krishnaram Kenthapadi, Samir Khuller, Rina Panigrahy, Dilys Thomas, and An Zhu. 2006. Achieving anonymity via clustering. In Proceedings of the twenty-fifth ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems (PODS '06). ACM, New York, NY, USA, 153-162. DOI=10.1145/1142351.1142374
http://doi.acm.org/10.1145/1142351.1142374
[1] Achieving anonymity via clustering
(→ACM Transactions on Algorithms, Vol. 6, No. 3, Article 49, Publication date: June 2010.)
3-1(3) r-クラスタリング
3つの特徴がクラスタデータから公開される
準識別子としてのクラスタの中心値 クラスタ内の点の数 クラスタ内のセンシテゖブ情報(病気など)の集合
クラスタの『質』も公開される
75Copyright (C) Mitsubishi Research Institute, Inc.
3-1(3) r-クラスタリング
メトリクス空間にマップしやすい属性〆
年齢、身長
最初に変換が必要な属性〆
郵便番号→緯度経度
縮尺の必要な属性〆
位置情報
メトリクス空間にマップしづらい属性〆
人種、国籍3-1(3) クラスタの「質」
オリジナルデータからのゆがみを計測
①半径の最大値(r-GATHER問題の場合)
すべてのクラスタの中での最大半径の値
②セルコスト (r-CELLULAR CLUSTERING問題の場合)
各クラスタは、クラスタセンターを設定するまでに「施設コスト」を抱える 施設配置問題←NP困難 施設コストf(c) : クラスタc = (vc, dc) : 中心点vc、半径dcから算出 各クラスタは、「サービスコスト」を抱える サービスコスト=半径×クラスタ内の点の数 「セルコスト」は各クラスタの「施設コスト」と「サービスコスト」の総和 77Copyright (C) Mitsubishi Research Institute, Inc.
3-1(3) r-GATHER問題
r-Gather問題は、メトリック空間の点をクラスタの集合とすること。
各クラスタは少なくともr点からなる。クラスタの最大半径を最小とする。
(3-SATからの変換が論文には記載されている)
最大半径= 20
[1] Achieving anonymity via clustering
10 points, radius 5
20 points, radius 10
3-1(3) r-CELLULAR CLUSTERING問題
CELLULAR CLUSTERING問題は、n点をクラスタ化し、各クラスタが最低でも
r点を持ち、セルコストの総和を最小にする
各クラスタの半径も公開
r-Gatherは最大半径のみ
(Set Coverからの変換が論文には記載されている)
79Copyright (C) Mitsubishi Research Institute, Inc.
10 points, radius 5
20 points, radius 10
50 points, radius 20
Cellular Clustering Metric: 10*5 + 20*10 + 50*20 = 50 + 200 + 1000 = 1250
3-1(3) r-Gatherとr-Cellular
3-1(3) 外れ値 (“Outlier” points)
r-GATHERとr-CELLULAR CLUSTERINGは、k-anonymityと同様に、外れ値の影
響を受けやすい
ε-fractionデータは削除できるバージョンもあり
当該タプルの削除
(r,ε)-GATHER Clustering
→4-approximationの多項式時間ゕルゴリズムを提示
81Copyright (C) Mitsubishi Research Institute, Inc.
3-1(4) k-Member Clustering
k-Member Clustering問題
与えられたnレコード集合から、次の条件を満たすクラスタを探す 各クラスタが、少なくともkレコードを持つ クラスタ内距離の総和を最小とする この問題はNP完全[2] Ji-Won Byun, Ashish Kamra, Elisa Bertino, and Ninghui Li. 2007. Efficient k-anonymization using clustering
techniques. In Proceedings of the 12th international
conference on Database systems for advanced applications (DASFAA'07), Ramamohanarao Kotagiri, P. Radha Krishna, Mukesh Mohania, and Ekawit Nantajeewarawat (Eds.). Springer-Verlag, Berlin, Heidelberg, 188-200.
3-1(4) 距離メトリクス
レコードに対する距離メトリクス
2データ点間の相違を計測 対象となる属性間の相違の総和 数値 カテゴリ値 83Copyright (C) Mitsubishi Research Institute, Inc.
3-1(4) 距離メトリクス
数値の距離〆
|D|はドメンの最大値と最小値の差
カテゴリ値の距離〆
Λ(x,y)はx,yに共通のサブツリー H(T)はツリーの高さ
2レコード間の距離〆
すべての準識別子の数値の距離とカテゴリ値の距離の総和India and USA is 3/3 = 1 India and Iran is 2/3 = 0.66
3-1(4) コスト関数
情報損失: Information loss (IL)
一般化の過程で生じるゆがみの総量
e = {r
1, . . . , r
k}をクラスタとする
情報損失〆IL(e)は↓のように定義される
|e|はクラスタの要素数=k Niは数値ドメンのサズ Λ(x,y)はx,yに共通のサブツリー H(T)はツリーの高さ 85Copyright (C) Mitsubishi Research Institute, Inc.
[2] Efficient k-anonymization using clustering
3-1(4) Greedy k-member clustering algorithm
計算量
O(n2)
ゕルゴリズム
k-Meansのように、ランダムに初期点を取り、情報損失が最小となる順に、要素 数kのクラスタを作っていく クラスタに入らずに残った要素については、情報損失が最小となるクラスタに含 めていく3-1(4) +αの最適化
センシテゖブ情報の重要さ、準識別子以外の値の扱い
Equal Diversity metric (ED)
すべてのセンシテゖブな属性値は平等に重要
Sensitive Diversity metric (SD)
センシテゖブな属性には2種類ある truly-sensitive not-so-sensitive
Classification metric (CM)
準識別子とその他の値との間の相関を保持 87内容
はじめに• 1-1. 導入
• 1-2. 匿名化について
匿名データ提 供の現状• 2-1. 医療分野 – 国内外
• 2-2. 統計分野 – 国内外
分散々並列化• 3-1. クラスタリングベースの匿名化
• 3-2. 今後の展望
3-2. 今後の展望(非公開)
89