• 検索結果がありません。

タイトル

N/A
N/A
Protected

Academic year: 2021

シェア "タイトル"

Copied!
89
0
0

読み込み中.... (全文を見る)

全文

(1)

Copyright (C) Mitsubishi Research Institute, Inc.

データ匿名化の現状に関する一考察

医療・統計分野を中心とした国内外の動向

2011年7月8日 情報技術研究センター 松崎和賢 2011-7-8 ERATO湊離散構造処理系プロジェクト セミナー

(2)

はじめに

この発表でお伝えしたいこと

1. 匿名化の関連動向

 個人の情報を匿名化して二次利用するという大きな流れがある

2. 匿名化の理論と現場の差

 医療々統計の分野を例に、杓子定規ではいかない運用の苦労 (海外ヒゕリング

結果を中心に)

†財団法人日本情報処理開発協会※(JIPDEC)

パーソナル情報の利用のための調査研究

『匿名情報流通に係る課題の調査』(>>

報告書

)

(平成22年度 競輪補助事業)

※現)一般財団法人日本情報経済社会推進協会

(3)

はじめに

カナダ々オンタリオ州における個人医療情報のサ゗クル

3

Copyright (C) Mitsubishi Research Institute, Inc.

住民

レジストリ CHEO (+ Privacy Analytics社)

公的研究機関々公衆衛生機関 民間企業 製薬会社 匿名化 レポート 匿名化 医療情報、研究成果、新薬、行政計画 (コストリカバリー分) (無料)

お伝えしたいことの図-1

(4)

内容

はじめに

• 1-1. 導入

• 1-2. 匿名化について

匿名データ提 供の現状

• 2-1. 医療分野 – 国内外

• 2-2. 統計分野 – 国内外

分散々並列化

• 3-1. クラスタリングベースの匿名化

• 3-2. 今後の展望

(5)

内容

はじめに

• 1-1. 導入

• 1-2. 匿名化について

匿名データ提 供の現状

• 2-1. 医療分野 – 国内外

• 2-2. 統計分野 – 国内外

分散々並列化

• 3-1. クラスタリングベースの匿名化

• 3-2. 今後の展望

(6)

1.2(1) 不都合な真実

個人の履歴に基づくデータは、ただ匿名化すれば二次利用OKというわけで

はなく、プラ゗バシーとのトレードオフがある。

(7)

1.2(2) 不都合な状況

識別子 センシティブ情報

SSN 名前 誕生日 人種 Zip 病気

614 Sara 03/04/76 Cauc 94305 Flu 615 Joan 07/11/80 Cauc 94307 Cold

629 Kelly 05/09/55 Cauc 94301 Diabetes 710 Mike 11/23/62 Afr-A 94305 Flu

840 Carl 11/23/62 Afr-A 94059 Arthritis

780 Joe 01/07/50 Hisp 94042 Heart problem

619 Rob 04/08/43 Hisp 94042 Arthritis

7

(8)

1.2(2) 不都合な状況

センシティブ情報 誕生日 人種 Zip 病気 03/04/76 Cauc 94305 Flu 07/11/80 Cauc 94307 Cold 05/09/55 Cauc 94301 Diabetes 11/23/62 Afr-A 94305 Flu 11/23/62 Afr-A 94059 Arthritis

01/07/50 Hisp 94042 Heart problem

04/08/43 Hisp 94042 Arthritis De-identified医療レコード

(9)

1.2(2) 不都合な状況

ビッグデータの時代〆外部のデータソースが増えている

9

(10)

1.2(2) 不都合な状況

(11)

1.2(2) 不都合な状況

外部データソースとリンクされて、個人を特定されてしまう

 ただし、この問題が指摘された2000年当時は、HIPAA†施行以前  米国人口の63~87%を特定可能(2000)→0.04%(2007, HIPAA施行後)

11

Copyright (C) Mitsubishi Research Institute, Inc.

†Health Insurance Portability and Accountability Act 18の識別子相当の情報を削除

(12)

1.2(2) 不都合な状況

センシティブ情報 誕生日 人種 Zip 病気 03/04/76 Cauc 94305 Flu 07/11/80 Cauc 94307 Cold 05/09/55 Cauc 94301 Diabetes 11/23/62 Afr-A 94305 Flu 11/23/62 Afr-A 94059 Arthritis

01/07/50 Hisp 94042 Heart problem

04/08/43 Hisp 94042 Arthritis

個人を一意に特定!

準識別子Quasi-identifiers

外部DB

(13)

1.2(3) k-Anonymity [Sweeney,2000]

準識別子の一部を修正する

 修正された各行は、準識別子に対して少なくともk-1個の他の行と同一

個々のレコードはサ゗ズkの群衆の中に隠れる

13

Dilys Thomas PODS 2006

(14)

1.2(3) k-Anonymity - 一般化と削除による2-Anonymity

k-Anonymityを満たす際に、一般化と削除の度合いを下げる

NP困難[MW04]

誕生日 人種 Zip 病気 1975-89 Cauc * Flu 1975-89 Cauc * Cold 1960-74 Afr-A * Flu 1960-74 Afr-A * Arthritis

1945-59 Hisp * Heart problem 1945-59 Hisp * Arthritis

(15)

内容

はじめに

• 1-1. 導入

• 1-2. 匿名化について

匿名データ提 供の現状

• 2-1. 医療分野 – 国内外

• 2-2. 統計分野 – 国内外

分散々並列化

• 3-1. クラスタリングベースの匿名化

• 3-2. 今後の展望

(16)

2-1(1) 医療分野 – 海外

海外では、匿名化した医療情報をDB化し、有効に活用している

 医療の質の改善、ヘルスシステム計画、ヘルスケゕの不正々無駄々乱用の検出、 医学研究、公衆衛生など

カナダ々オンタリオ州の事例

 CHEO(BORN)

(17)

2-1(1) 医療分野 – 海外 - 医療情報のDB

データベース 地域 設立 説明 データ The Sough western Ontario DB London, Ontario, Canada 2000 53の地方と都 市の診療所のプ ラ゗マリケゕ 診察、血圧、処 方箋 The Health Improvement Network (THIN) DB UK 2003 308 GP 15年前のデー タもあり 診療履歴、診察、 血圧、BMI、処 方箋

Thales-Cegedim DB Belgium, France, Germany, Italy, UK, Spain 1990(フラン ス) プラ゗マリケゕ 診療履歴、診察、血圧、入院、処 方箋 The IMS Disease Analyzer DB EU 1989(ド゗ツ) 2,000(内科医、 GP、産婦人科、 糖尿病医など; ド゗ツ) 患者の統計デー タ、処方箋、入 院、専門医の紹 介、など 17

Copyright (C) Mitsubishi Research Institute, Inc.

(出典: European Cardiology Vol6, Issue3, http://www.touchbriefings.com/ebooks/A1pbin/eucardio63/resources/36.htm, 2010よりMRI作成)

(18)

2-1(2) オンタリオ州の事例

(再掲)個人の情報を匿名化して2次利用するという流れ

カナダ々オンタリオ州における個人医療情報のサ゗クル

住民

レジストリ CHEO (+ Privacy Analytics社)

公的研究機関々公衆衛生機関 民間企業 製薬会社 匿名化 レポート 匿名化 医療情報、研究成果、新薬、行政計画 (コストリカバリー分) (無料)

(19)

2-1(2) オンタリオ州の事例 - CHEOの運用における特徴

運用の軽量化によるデータ提供までに要する時間の短縮

 1-2週間程度で審査を終え、データを提供できる  以前は、半年から1年かかっていた  個人医療情報の二次利用は研究用途であってもしばしば物議を醸し、時間がかかる  委員を集めるのにも時間がかかる

リスクの客観的、システム化された計測

 「データ利用申請者」に匿名化データを提供するリスクをツールで測定  Privacy Analytics Risk Assessment Tool (PARAT)にヒューリステゖックスを埋め込む

技術のバックグラウンド

 匿名化処理ゕルゴリズムも速い

“A Globally Optimal k-Anonymity Method for the De-Identification of Health Data" published in the Journal of the American Medical Informatics Association,

 既存のk-匿名化ゕルゴリズム(Incognitoなど)よりも高速

19

(20)

2-1(2) オンタリオ州の事例 - CHEOとは?

The Children’s Hospital of Eastern Ontario

カナダ々オンタリオ州々オタワ(首都)にある、小児医療と研究を行う機関

1974 年に開院。”World-class teaching hospital”

スタッフ数 : 4,500名程度 (2008-2009年)

(21)

2-1(2) オンタリオ州の事例 - レジストリの例は?

BORN (Better Outcomes Registry & Network)

概要

 ビジョンは“The best possible beginnings for lifelong health”

(終生の健康のための可能な限り最高の始まり)

州法(Personal Health Information Privacy Act :PHIPA)公認レジストリ(2009年)

データ

 オンタリオ州における新生児と母親の出産前後の健康状態などに関する情報 (140,000件/年)  識別情報(名前、医療保険番号など)は無い  現在は既存5件のリポジトリのデータを集積。今後、続々と他の公的レジストリの データが集積される予定 21

(22)

2-1(2) オンタリオ州の事例 - BORNが受け付けるリクエストの例

Aggregate (simple)

 何割くらいの女性が出生前診断(Prenatal Screening)を受けるか?

Aggregate (complex)

 オンタリオ州における妊婦の喫煙 – 学歴、収入(五分位)、地区別

レコードレベルのデータ

 BORNサ゗ト (http://www.bornontario.ca/)からリクエストする

分析のリクエスト

 研究の仕様に基づき集合データを提示する

(23)

2-1(2) オンタリオ州の事例 - 匿名化データの利用者

IMS:Brogan社

概要

 1989年に設立。処方箋利用に関するマーケテゖングリサーチとコンサルテゖング を提供  カナダ国内で、最大の薬品利用データウェゕハウスを管理  国際的な製薬会社やカナダの州政府も利用

創始者

 創始者であるTom Brogan氏は、1982年Canadian Patent Actの改正に政府のポリ

シーゕナリストとして関与している。その後1989年に起業している

 医薬品の経済性評価(pharmacoeconomics)の第一人者とされる

最近の動向

 2010年6月にIMS Health Canada社と合併し、IMS BroganというIMS 社の1ユニット

になっている

 IMS Health社自体は2010年2月にカナダの政府系フゔンド(Canadian Pension

Plan)とTPG Capital に買収されていた

 IMS Health社はMR(医薬情報担当者)向けに処方者情報をレポートとして製薬会社

に販売したことが、処方者のプラ゗バシーの侵害ということで米Vermont州と裁 判になった (2011.6.23にプラ゗バシーの問題ではないとの判決)

23

Copyright (C) Mitsubishi Research Institute, Inc.

(24)

2-1(2) 匿名化した個人医療情報のリクエスト処理

匿名化データの提供 研究倫理委員会での審査 審査3: 提供リスク、倫理面の問題 データアクセス委員会での審査 審査1: プロジェクトの妥当性 審査2: プライバシーのリスクを定量化 匿名データのリクエスト

レジストリ CHEO (+ Privacy Analytics) 匿名化 民間企業

Globally Optimal k-Anonymity Globally Optimal

(25)

2-1(3) A Globally Optimal k-Anonymity Method

CHEOで実際に使われているゕルゴリズム

OLA (Optimal Lattice Anonymization)

目的〆

 束(Lattice)の中から最適なノードを探索する

最適〆

 k-Anonymous かつ最小の情報損失

25

(26)

2-1(3) OLA – 格子構造=Lattice

<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> <d0, g0, a2> <d0, g0, a1> <d0, g0, a0> 0 7 6 5 4 3 2 1

<d

2

, g

0

, a

3

>

<入院した日, 性別, 年齢>

拡大 抽象レベル

(27)

2-1(3) OLA - Lattice

<d

0

, g

0

, a

0

>

27

(28)

2-1(3) OLA - 一般化階層

<入院した日> <性別>

(29)

2-1(3) OLA - Lattice

<d

0

, g

0

,

a

1

>

29

(30)

2-1(3) OLA - Lattice

(31)

2-1(3) OLA – 一般化戦略 (=一般化のパス)

例×2

31

Copyright (C) Mitsubishi Research Institute, Inc.

<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> <d0, g0, a2> <d0, g0, a1> <d0, g0, a0> 0 7 6 5 4 3 2 1

(32)

2-1(3) OLA – アルゴリズム概要

1. 各一般化戦略に対して、二分探索を実施し、すべてのk-anonymousノード

を探索する

2. 各一般化戦略に対して、高さ最小のk-anonymousノードを保持する

 k-minimal node

3. 残った複数のk-minimalノードに対して、情報損失の度合いを比較し、最

小のノードを”Globally optimal”な解として選択する

仮定

 k個以上のノードが存在する  monotonicity property: 一般化階層を上ると、情報損失も単調に増加する

情報損失のメトリクス

 Precision  Discernability Metric  non-uniform entropy

(33)

2-1(3) OLA

33

Copyright (C) Mitsubishi Research Institute, Inc.

<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> <d0, g0, a2> <d0, g0, a1> <d0, g0, a0> 0 7 6 5 4 3 2 1

(34)

2-1(3) OLA

<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> <d0, g0, a2> <d0, g0, a1> <d0, g0, a0> 0 7 6 5 4 3 2 1 not a k-anonymous node

(35)

2-1(3) OLA

35

Copyright (C) Mitsubishi Research Institute, Inc.

<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> <d0, g0, a2> <d0, g0, a1> <d0, g0, a0> 0 7 6 5 4 3 2 1 not a k-anonymous node not a k-anonymous node not a k-anonymous node not a k-anonymous node

(36)

2-1(3) OLA

<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> 0 4 3 2 1

(37)

2-1(3) OLA

37

Copyright (C) Mitsubishi Research Institute, Inc.

<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> 0 4 3 2 1 k-anonymous node

(38)

2-1(3) OLA

<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> 0 4 3 2 1 k-anonymous node k-anonymous node k-anonymous node

(39)

2-1(3) OLA

39

Copyright (C) Mitsubishi Research Institute, Inc.

<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d0, g1, a4> 0 2 1

(40)

2-1(3) OLA

<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d0, g1, a4> 0 2 1 not a k-anonymous node

(41)

2-1(3) OLA

41

Copyright (C) Mitsubishi Research Institute, Inc.

<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> 0 4 3 2 1

(42)

2-1(3) OLA

<d0, g0, a3> <d0, g0, a4> <d0, g1, a3> <d1, g0, a3> <d0, g1, a4> <d1, g0, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> 0 4 3 2 1 Suppression > 5%

(43)

2-1(3) OLA

43

Copyright (C) Mitsubishi Research Institute, Inc.

<d0, g1, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> 0 4 3 2 1

(44)

2-1(3) OLA

<d0, g1, a4> <d1, g1, a3> <d2, g0, a3> <d1, g1, a4> <d2, g0, a4> <d2, g1, a3> <d2, g1, a4> 0 4 3 2 1

<d

2

, g

0

, a

3

>

3%, 0.53

<入院した日, 性別, 年齢>

削除データの割合, 情報損失 拡大

(45)

2-1(4) CHEOの運用 – kの値は??

審査1: プロジェクトの妥当性

 実現可能性  科学的妥当性  要求するデータ項目の妥当性

審査2: プライバシーのリスクを定量化

 a) 脅威モデリング: 申請者側の情報と、想定される攻撃より審査  b) リスク分析: 再ID化(re-identification)のリスクをPARAT†を用いて審査  c) 匿名化: リスクがしきい値を越える場合、リクエストの修正を依頼。 準識別子(組み合わせることで再ID化されうる属性。例えば母親の誕生日、子供 の誕生日)を精査し、リスクを減らす方法を提案

審査3:提供リスク、倫理面の問題

 審査2の結果を利用  一般的な医療機関に設置されたREBと 同等の審査を実施 45

Copyright (C) Mitsubishi Research Institute, Inc.

(46)

2-1(4) CHEOの運用 - 審査2: プライバシーのリスクを定量化

審査2: a) 脅威モデリング

ISO27002 申請者から見たデータの価値や、処理能力について 申請者の組織のセキュリテゖ々プラ ゗バシー保護状況などについて ISO27002: 情報セキュリテゖマネ ジメントの実践のための規範

(47)

2-1(4) CHEOの運用 - 審査2: プライバシーのリスクを定量化

■軽減制御 認証されたスタッフのみがデータにゕクセスでき るようにする プラ゗バシーとセキュリテゖポリシーが監視され、 効力を持つ データ共有協定を締結している、またはこれから 締結する 関係者に対するプラ゗バシー、機密保持、セキュ リテゖのトレーニングを強制的に適宜実施してい る 秘密保持契約をスタッフと外部協力者に対して結 んでいる プラ゗バシー、機密、セキュリテゖの違反時の罰則がある 個人を特定できないデータ、および集合データの み公開する プラ゗バシーオフゖサーやデータ管理委員会が任 命されている 長期保有の際には外部監査を受ける プラ゗バシー違反時のプロトコルがある 保有期間を過ぎたデータは廃棄される プラ゗バシー監査が内部々外部ともある データは国内でのみ処理、保持、ゕクセスできる 情報システムに適切な認証を掛けている 第三者への開示と共有をしない データに適切な認証をかけている 情報システムに対する脅威、およびリスク脆弱性 の監査を実施する データへのリモートゕクセスにたいし、特別な保 護機構を導入している プラ゗バシー、機密性、セキュリテゖに関して組 織的な管理フレームワークをもつ ウゖルスチェックを実施している データ保持、管理、ゕクセスに関して、組織的な ポリシーを持つ 利用記録をシステムによりモニタリングしている 47 ≒

(48)

2-1(4) CHEOの運用 - 審査2: プライバシーのリスクを定量化

■軽減制御(つづき) データを電子的に送付する際には、暗号プロトコ ルが使われる 物理的なセキュリテゖ対策がなされている 開示データを含むコンピュータやフゔ゗ルは厳重 に施錠管理された場所に置かれる プラ゗バシー担当者のコンタクト情報が提示され ている スタッフには、写真付きのID、または磁気カード が与えられる 従業員管理担当者のコンタクト情報が提示されて いる 訪問者をスクリーニング、管理する 組織の透明性と、情報公開の仕組みが整っている ゕラームシステムが設置されている 苦情窓口をもっている パーソナル情報が保存される場所の数は最小限に とどめ、あらかじめ特定されている REBのような独立した権威がデータの二次利用に かかわる提案を承認している センシテゖブデータを保持する場所では一般の人 が入れないようにする 内外の監査、モニタリング機構が導入されている 定常的な敷地内の監視が実施されている 独立諮問機関、または管理委員会が監視する ≒

(49)

2-1(4) CHEOの運用 - 審査2: プライバシーのリスクを定量化

審査2: a) 脅威モデリング

リスクのしきい値を決定←k-anonymityのkの値と乗算で“1”になる

データの詳細度、データのセンシテゖブさ、 などからプラ゗バシー侵害の影響を測る

(50)

(参考) 2-1(4) CHEOの運用

審査2: b) リスク分析:

想定する攻撃者の種類を見定める

Prosecutor 検察 攻撃対象: 単数 データセットの中に対象者がいることを知っている Journalist ジャーナリスト 攻撃対象: 単数 データセットの中に対象者がいるかもしれないことを知っている Marketer マーケッター 攻撃対象: 複数 データセットの中に対象となる集団がいるかもしれないことを知っている

(51)

(参考) 2-1(4) CHEOの運用

審査2: b) リスク分析:

リクエストしたデータセットを提供する際に、リスクがどれくらいか

(通常、すべてのデータを求めるので、リスクの値が振り切れる)

51

Copyright (C) Mitsubishi Research Institute, Inc.

(52)

(参考) 2-1(4) CHEOの運用

審査2 : c) 匿名化

大域的再符号化(Global Recording)と局所秘匿(Suppression)

匿名化を実施することで、リスクをしきい値以下に落とす

(53)

(参考) 2-1(4) CHEOの運用

審査2→審査3

契約書のひな形までツールで作成できる。

以下のレポートを証明書として添付する

※あくまでも「個人を特定しうるリスクがしきい値以下」という証明

53

Copyright (C) Mitsubishi Research Institute, Inc.

(54)
(55)

2-1(5) 医療分野 - 国内では?

レセプトと医療情報のDB化が試行段階にある

医療情報化に関するタスクフォース(内閣官房IT戦略本部)

 レセプト情報等の活用による医療の効率化について  医療情報データベースの活用による医薬品等安全対策の推進について

医薬品の安全対策等における医療関係データベースの活用方策に関する懇談

 日本のセンチネル々プロジェクトの推進  利活用可能データ規模の目標 5カ年計画(1〃000万人の医療情報データベース)  ナショナルレセプトデータベースとの連携  医薬品等の安全対策を含む医療の質向上に向けた取り組みと国民や医療 への還元  医療関係者に対する医学々薬事疫学研究利用への理解の促進  医学々薬学々疫学々情報学その他関係者の協力

National Clinical Database 外科系の専門医制度と連携した症例データベース

http://www.ncd.or.jp/index.html

55

(56)

2-1(5) 医療情報データベース基盤整備事業

(出典:医療情報データベース基盤整備事業について,厚生労働省医薬食品局安全対策課, 2011年)

(57)

匿名化においては、統計学者等の関与により実施し、個人の特定が可能な情報等につ いて削除されていることを確認することや、匿名化の妥当性の検証を審査委員会等で 行う必要がある。

2-1(5) 医薬品等の安全対策等におけるデータベース

57

Copyright (C) Mitsubishi Research Institute, Inc.

(58)

内容

はじめに

• 1-1. 導入

• 1-2. 匿名化について

匿名データ提 供の現状

• 2-1. 医療分野 – 国内外

• 2-2. 統計分野 – 国内外

分散々並列化

• 3-1. クラスタリングベースの匿名化

• 3-2. 今後の展望

(59)

2-2(1) 統計分野

統計の分野でも、公的統計の二次利用→匿名データを複製し提供という流れ

提供に際しては、統計的開示制御(Statistical Disclosure Control: SDC)が施さ

れる

 k-Anonymityの話と近い

59

(60)

2-2(2) EU統計局 - μ-Argus

SDC(統計的開示制御)に関する欧州のプロジェクトで作られてきたソフト

ウェゕ

 4th Framework SDC-project (1996-1998)  5th Framework CASC project (2000-2003)  CENEX project (2006)

 ESSnet project (2008-2009)

実装されているSDC手法

大域的再符号化(Global recoding) 局所秘匿(Local suppression)

 Top and bottom coding.

 The Post RAndomisation Method (PRAM)  Numerical Micro Aggregation

 Multivariate fixed-size microaggregation  Numerical Rank Swapping

(各手法はマニュゕルご参照のほど)

(61)

2-2(2) オランダ統計局でのサービス

匿名化したマ゗クロデータの提供サービスを実施

 オンサ゗ト、リモート、パブリックユースフゔ゗ル(PUFs)  1200のデータセット  データセットは結合可能

利用状況

 Remote Access:  50 computers

 129 current research projects  approx. 300 active researchers

 Italy, Germany, US (Columbia University)  On Site:

 14 computers

 57 current research projects

 approx. 100 active researchers OS

61

(62)

2-2(3) オランダ統計局での運用

匿名化手法

 大域的再符号化(Global Recoding)と局所秘匿の手法(Local Suppression)の組み

合わせが中心  双方の組み合わせ度合いは目的による

匿名化評価指標

 k-Anonymityは計算量の関係で使っていない  準識別子(説明変数、個人特定可能変数)3つの組み合わせに対して、頻度表を作 成し、母集団に対して100件を目安にしている。この作業を自動化するために Argusを利用している

評価値(しきい値)

 コンテキストとサンプリングによるが、マ゗クロデータの場合、変数3つの組み合 わせに対して母集団に対して100件を目安にしている  パブリックユースフゔ゗ルの場合、変数2つの組み合わせに対して母集団に対して 10,000件を目安にしている  匿名化の度合いは、誰のリクエストかによらない

(63)

2-2(3) オランダ統計局での運用

匿名マ゗クロデータ

 1種類しか作らない『今日来た人と、明日来た人に渡すデータは同じ』  統計の研究以外には利用を許可しない。  個人と組織と双方に対して契約を結ぶ  組織との契約は無くして欲しいという声が大きい

研究結果の安全性

 研究結果は公開することを契約で定めている  『その結果が安全かどうかをチェックするツールを作れと言われている。どうや るべきかわかっていれば作るのだが…』

組織間の連携

 EUで統計開示制御を真剣に取り組んでいる国は少ない  ゗タリゕ、ド゗ツ、英国、北欧諸国など、ESSNetに参加しているところが中心  『日本の統計局からも数年前にメールはもらった。』 63

(64)

2-2(3) Argus

Argusの今後

 Eurostat(EU統計機関)の予算を1年分獲得  リスクベースゕプローチ(開示リスク査定)の普及促進  1年間様子を見て、継続予定  Argusはオープンソースソフトウェゕに  新しい汎用的なオープンパッケージでのゕーキテクチャに。  Rパッケージの作者も新プロジェクトのメンバーになる。1つの大きなパッケージに。

(65)

2-2(4) 統計分野 - 国内では

統計センターを窓口にして、匿名データが提供されている

現在利用可能な統計データ

 住宅々土地統計調査  全国消費実態調査  就業構造基本調査  社会生活基本調査 65

Copyright (C) Mitsubishi Research Institute, Inc.

(66)

2-2(4) 匿名化の方式は?

内閣府::統計委員会::『匿名データ部会』における決定

 例:第7回 平成23年6月7日

匿名データの作成方法の概要〆大臣からの諮問

 元の統計調査のレコード全てを匿名データに用いるのではなく、それに間引きを 施したものを用いる(レコードのリサンプリング)。  識別情報は、レコードから全面的に削除する。また、レコードの配列順が意味を なさないように、無作為に並べ替えを行う(識別情報の削除等)。  特徴的な値があるレコードは、削除する(裾切りによるレコード削除)。  極端に大きな値は、上限値を設けて頭打ちにする(トップコーデゖング)。  分類事項の程度は、詳細なものではなく、粗いものとする(リコーデゖング)。 (出典: 第7回 匿名データ部会資料2, 諮問第37号 労働力調査に係る匿名データの作成について,2011)

部会での専門委員の意見の例

 年齢の刻み〆地域情報を一切出さないのであれば、他に原データのまま提供でき るものがないのかどうかをご検討いただければありがたい。たとえば、年齢は 5 歳刻みでグルーピングしているが、居住地域が特定化できないのであれば、年齢 はもう少し細かい刻みで提供することも可能ではないか。 (出典:第7回 匿名データ部会資料4, 諮問に対する黒田専門委員の意見, 2011)

(67)

内容

はじめに

• 1-1. 導入

• 1-2. 匿名化について

匿名データ提 供の現状

• 2-1. 医療分野 – 国内外

• 2-2. 統計分野 – 国内外

分散々並列化

• 3-1. クラスタリングベースの匿名化

• 3-2. 今後の展望

(68)

3-1(1) Privacy-Preserving data publishing (PPDP) 研究動向

実はk-Anonymityは序の口…

Fung, B. C. M., Wang, K., Chen, R., and Yu, P. S. 2010. Privacy-Preserving data publishing: A survey of recent developments. ACM Comput. Surv. 42, 4, Article 14 (June 2010), 53 pages. DOI =

(69)

3-1(1) クラスタリングベースのk-Anonymity

…とはいうものの、実際には『k-Anonymity+運用でカバー』が現実解

今後は各所で匿名化が必要ではないか?匿名化を独立したサービスとできな

いか?

 スケーラビリテゖ、分散並列処理による高速化が必要だろう=クラウド?  クラスタリングベースならクラウドに載せやすいのでは?  ↑Apache MahoutのクラスタリングはHadoop(MapReduce)上で動く

クラスタリングによるk-Anonymityには、2つ代表的な論文が存在

 [1] r-Gathering, r-Cellular (Stanford, 2006, 2010, →Google, MS, Oracleへ…)  [2] k-member clustering (Purdue, 2007)

69

Copyright (C) Mitsubishi Research Institute, Inc.

[1] Gagan Aggarwal, Tom¥'{a}s Feder, Krishnaram Kenthapadi, Samir Khuller, Rina Panigrahy, Dilys Thomas, and An Zhu. 2006. Achieving anonymity via clustering. In Proceedings of the twenty-fifth ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems (PODS '06). ACM, New York, NY, USA, 153-162. DOI=10.1145/1142351.1142374 http://doi.acm.org/10.1145/1142351.1142374

(→ACM Transactions on Algorithms, Vol. 6, No. 3, Article 49, Publication date: June 2010.)

[2] Ji-Won Byun, Ashish Kamra, Elisa Bertino, and Ninghui Li. 2007. Efficient k-anonymization using clustering techniques. In Proceedings of the 12th international conference on Database systems for advanced applications (DASFAA'07), Ramamohanarao Kotagiri, P. Radha Krishna, Mukesh Mohania, and Ekawit Nantajeewarawat (Eds.). Springer-Verlag, Berlin, Heidelberg, 188-200.

(70)

3-1(2) クラスタリングとk-Anonymity

例〆オリジナル

Age

Salary

Amy

25

50

Brian

27

60

Carol

29

100

David

35

110

Evelyn

39

120

(71)

3-1(2) クラスタリングとk-Anonymity

一般化による2-Anonymity

71

Copyright (C) Mitsubishi Research Institute, Inc.

Age

Salary

Amy

20-30

50-100

Brian

20-30

50-100

Carol

20-30

50-100

David

30-40

100-150

Evelyn

30-40

100-150

(72)

3-1(2) クラスタリングとk-Anonymity

オリジナル

Age

Salary

Amy

25

50

Brian

27

60

Carol

29

100

David

35

110

Evelyn

39

120

(73)

3-1(2) クラスタリングとk-Anonymity

クラスタリングによる2-Anonymity

→ゆがみが小さい、定数倍近似ゕルゴリズムがある

73

Copyright (C) Mitsubishi Research Institute, Inc.

Age

Salary

Amy

[25-29]

[50-100]

Brian

[25-29]

[50-100]

Carol

[25-29]

[50-100]

David

[35-39]

[110-120]

Evelyn

[35-39]

[110-120]

クラスタの中心値を公開

27=(25+27+29)/3

70=(50+60+100)/3

37=(35+39)/2

115=(110+120)/2

(74)

3-1(3) r-クラスタリング

テーブルの属性を、メトリック空間内の点とする

空間内の点はクラスタ化され、中心値が公開される

“r” は各クラスタメンバ数の下限値

k-anonymityの“k”ではなく、 “ r”を用いる

 kはクラスタの数を表す際に使われるため

距離関数

 D(X,X)=0 Reflexive  D(X,Y)=D(Y,X) Symmetric

 D(X,Z) <= D(X,Y) + D(Y,Z) Triangle Inequality

[1] Gagan Aggarwal, Tom¥'{a}s Feder, Krishnaram Kenthapadi, Samir Khuller, Rina Panigrahy, Dilys Thomas, and An Zhu. 2006. Achieving anonymity via clustering. In Proceedings of the twenty-fifth ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems (PODS '06). ACM, New York, NY, USA, 153-162. DOI=10.1145/1142351.1142374

http://doi.acm.org/10.1145/1142351.1142374

[1] Achieving anonymity via clustering

(→ACM Transactions on Algorithms, Vol. 6, No. 3, Article 49, Publication date: June 2010.)

(75)

3-1(3) r-クラスタリング

3つの特徴がクラスタデータから公開される

 準識別子としてのクラスタの中心値  クラスタ内の点の数  クラスタ内のセンシテゖブ情報(病気など)の集合

クラスタの『質』も公開される

75

Copyright (C) Mitsubishi Research Institute, Inc.

(76)

3-1(3) r-クラスタリング

メトリクス空間にマップしやすい属性〆

 年齢、身長

最初に変換が必要な属性〆

 郵便番号→緯度経度

縮尺の必要な属性〆

 位置情報

メトリクス空間にマップしづらい属性〆

 人種、国籍

(77)

3-1(3) クラスタの「質」

オリジナルデータからのゆがみを計測

①半径の最大値(r-GATHER問題の場合)

 すべてのクラスタの中での最大半径の値

②セルコスト (r-CELLULAR CLUSTERING問題の場合)

 各クラスタは、クラスタセンターを設定するまでに「施設コスト」を抱える  施設配置問題←NP困難  施設コストf(c) : クラスタc = (vc, dc) : 中心点vc、半径dcから算出  各クラスタは、「サービスコスト」を抱える  サービスコスト=半径×クラスタ内の点の数  「セルコスト」は各クラスタの「施設コスト」と「サービスコスト」の総和 77

Copyright (C) Mitsubishi Research Institute, Inc.

(78)

3-1(3) r-GATHER問題

r-Gather問題は、メトリック空間の点をクラスタの集合とすること。

各クラスタは少なくともr点からなる。クラスタの最大半径を最小とする。

(3-SATからの変換が論文には記載されている)

最大半径= 20

[1] Achieving anonymity via clustering

10 points, radius 5

20 points, radius 10

(79)

3-1(3) r-CELLULAR CLUSTERING問題

CELLULAR CLUSTERING問題は、n点をクラスタ化し、各クラスタが最低でも

r点を持ち、セルコストの総和を最小にする

各クラスタの半径も公開

 r-Gatherは最大半径のみ

(Set Coverからの変換が論文には記載されている)

79

Copyright (C) Mitsubishi Research Institute, Inc.

10 points, radius 5

20 points, radius 10

50 points, radius 20

Cellular Clustering Metric: 10*5 + 20*10 + 50*20 = 50 + 200 + 1000 = 1250

(80)

3-1(3) r-Gatherとr-Cellular

(81)

3-1(3) 外れ値 (“Outlier” points)

r-GATHERとr-CELLULAR CLUSTERINGは、k-anonymityと同様に、外れ値の影

響を受けやすい

ε-fractionデータは削除できるバージョンもあり

 当該タプルの削除

(r,ε)-GATHER Clustering

→4-approximationの多項式時間ゕルゴリズムを提示

81

Copyright (C) Mitsubishi Research Institute, Inc.

(82)

3-1(4) k-Member Clustering

k-Member Clustering問題

 与えられたnレコード集合から、次の条件を満たすクラスタを探す  各クラスタが、少なくともkレコードを持つ  クラスタ内距離の総和を最小とする  この問題はNP完全

[2] Ji-Won Byun, Ashish Kamra, Elisa Bertino, and Ninghui Li. 2007. Efficient k-anonymization using clustering

techniques. In Proceedings of the 12th international

conference on Database systems for advanced applications (DASFAA'07), Ramamohanarao Kotagiri, P. Radha Krishna, Mukesh Mohania, and Ekawit Nantajeewarawat (Eds.). Springer-Verlag, Berlin, Heidelberg, 188-200.

(83)

3-1(4) 距離メトリクス

レコードに対する距離メトリクス

 2データ点間の相違を計測  対象となる属性間の相違の総和  数値  カテゴリ値 83

Copyright (C) Mitsubishi Research Institute, Inc.

(84)

3-1(4) 距離メトリクス

数値の距離〆

 |D|はドメ゗ンの最大値と最小値の差

カテゴリ値の距離〆

 Λ(x,y)はx,yに共通のサブツリー  H(T)はツリーの高さ

2レコード間の距離〆

 すべての準識別子の数値の距離とカテゴリ値の距離の総和

India and USA is 3/3 = 1 India and Iran is 2/3 = 0.66

(85)

3-1(4) コスト関数

情報損失: Information loss (IL)

一般化の過程で生じるゆがみの総量

e = {r

1

, . . . , r

k

}をクラスタとする

情報損失〆IL(e)は↓のように定義される

 |e|はクラスタの要素数=k  Niは数値ドメ゗ンのサ゗ズ  Λ(x,y)はx,yに共通のサブツリー  H(T)はツリーの高さ 85

Copyright (C) Mitsubishi Research Institute, Inc.

[2] Efficient k-anonymization using clustering

(86)

3-1(4) Greedy k-member clustering algorithm

計算量

 O(n2)

ゕルゴリズム

 k-Meansのように、ランダムに初期点を取り、情報損失が最小となる順に、要素 数kのクラスタを作っていく  クラスタに入らずに残った要素については、情報損失が最小となるクラスタに含 めていく

(87)

3-1(4) +αの最適化

センシテゖブ情報の重要さ、準識別子以外の値の扱い

Equal Diversity metric (ED)

 すべてのセンシテゖブな属性値は平等に重要

Sensitive Diversity metric (SD)

 センシテゖブな属性には2種類ある  truly-sensitive  not-so-sensitive

Classification metric (CM)

 準識別子とその他の値との間の相関を保持 87

(88)

内容

はじめに

• 1-1. 導入

• 1-2. 匿名化について

匿名データ提 供の現状

• 2-1. 医療分野 – 国内外

• 2-2. 統計分野 – 国内外

分散々並列化

• 3-1. クラスタリングベースの匿名化

• 3-2. 今後の展望

(89)

3-2. 今後の展望(非公開)

89

参照

Outline

関連したドキュメント

We use lower and upper solutions to investigate the existence of the greatest and the least solutions for quasimonotone systems of measure differential equations.. The

T´oth, A generalization of Pillai’s arithmetical function involving regular convolutions, Proceedings of the 13th Czech and Slovak International Conference on Number Theory

In Proceedings Fourth International Conference on Inverse Problems in Engineering (Rio de Janeiro, 2002), H. Orlande, Ed., vol. An explicit finite difference method and a new

Next, we prove bounds for the dimensions of p-adic MLV-spaces in Section 3, assuming results in Section 4, and make a conjecture about a special element in the motivic Galois group

de la CAL, Using stochastic processes for studying Bernstein-type operators, Proceedings of the Second International Conference in Functional Analysis and Approximation The-

Udri¸ste: Poisson-Gradient Dynamical Systems with Convex Potential, Proceedings of the 3-rd International Colloquium ” Mathematics in Engi- neering and Numerical Physics ”, 7-9

The first display in Lemma 2.6 is a standard subsolution estimate while the second display is a standard weak Harnack estimate for positive weak solutions to nonlinear

She has curated a number of major special exhibitions for the Gotoh Museum, including Meibutsu gire (From Loom to Heirloom: The World of Meibutsu-gire Textiles) in 2001,