タイトル

(1)

Copyright (C) Mitsubishi Research Institute, Inc.

データ匿名化の現状に関する一考察

医療・統計分野を中心とした国内外の動向

2011年7月8日情報技術研究センター松崎和賢 2011-7-8 ERATO湊離散構造処理系プロジェクトセミナー

(2)

はじめに

この発表でお伝えしたいこと

1. 匿名化の関連動向

 個人の情報を匿名化して二次利用するという大きな流れがある

2. 匿名化の理論と現場の差

 医療々統計の分野を例に、杓子定規ではいかない運用の苦労（海外ヒゕリング

†

結果を中心に）

†財団法人日本情報処理開発協会※(JIPDEC)

パーソナル情報の利用のための調査研究

『匿名情報流通に係る課題の調査』(>>

報告書

)

（平成22年度競輪補助事業）

※現）一般財団法人日本情報経済社会推進協会

(3)

はじめに

カナダ々オンタリオ州における個人医療情報のサ゗クル

3

住民

レジストリ _{CHEO (+ Privacy Analytics社)}

公的研究機関々公衆衛生機関民間企業製薬会社匿名化レポート匿名化医療情報、研究成果、新薬、行政計画（コストリカバリー分）（無料）

①

②

③

④

⑤

⑥

お伝えしたいことの図-1

(4)

内容

はじめに

• 1-1. 導入

• 1-2. 匿名化について

匿名データ提供の現状

• 2-1. 医療分野 – 国内外

• 2-2. 統計分野 – 国内外

分散々並列化

• 3-1. クラスタリングベースの匿名化

• 3-2. 今後の展望

(5)

内容

はじめに

• 1-1. 導入

• 1-2. 匿名化について

• 2-1. 医療分野 – 国内外

• 2-2. 統計分野 – 国内外

分散々並列化

• 3-1. クラスタリングベースの匿名化

• 3-2. 今後の展望

(6)

1.2(1) 不都合な真実



個人の履歴に基づくデータは、ただ匿名化すれば二次利用OKというわけで

はなく、プラ゗バシーとのトレードオフがある。

(7)

1.2(2) 不都合な状況

識別子 センシティブ情報

SSN 名前 誕生日 人種 Zip 病気

614 Sara 03/04/76 Cauc 94305 Flu 615 Joan 07/11/80 Cauc 94307 Cold

629 Kelly 05/09/55 Cauc 94301 Diabetes 710 Mike 11/23/62 Afr-A 94305 Flu

840 Carl 11/23/62 Afr-A 94059 Arthritis

780 Joe 01/07/50 Hisp 94042 Heart problem

619 Rob 04/08/43 Hisp 94042 Arthritis

7

(8)

1.2(2) 不都合な状況

センシティブ情報 誕生日 人種 Zip 病気 03/04/76 Cauc 94305 Flu 07/11/80 Cauc 94307 Cold 05/09/55 Cauc 94301 Diabetes 11/23/62 Afr-A 94305 Flu 11/23/62 Afr-A 94059 Arthritis

01/07/50 Hisp 94042 Heart problem

04/08/43 Hisp 94042 Arthritis De-identified医療レコード

(9)

1.2(2) 不都合な状況



ビッグデータの時代〆外部のデータソースが増えている

9

(10)

1.2(2) 不都合な状況

(11)

1.2(2) 不都合な状況



外部データソースとリンクされて、個人を特定されてしまう

 ただし、この問題が指摘された2000年当時は、HIPAA†施行以前  米国人口の63～87%を特定可能(2000)→0.04%(2007, HIPAA施行後)

11

†Health Insurance Portability and Accountability Act 18の識別子相当の情報を削除

(12)

1.2(2) 不都合な状況

センシティブ情報 誕生日 人種 Zip 病気 03/04/76 Cauc 94305 Flu 07/11/80 Cauc 94307 Cold 05/09/55 Cauc 94301 Diabetes 11/23/62 Afr-A 94305 Flu 11/23/62 Afr-A 94059 Arthritis

01/07/50 Hisp 94042 Heart problem

04/08/43 Hisp 94042 Arthritis

個人を一意に特定!

準識別子Quasi-identifiers

外部DB

(13)

1.2(3) k-Anonymity [Sweeney,2000]



準識別子の一部を修正する

 修正された各行は、準識別子に対して少なくともk-1個の他の行と同一



個々のレコードはサ゗ズkの群衆の中に隠れる

13

Dilys Thomas PODS 2006

(14)

1.2(3) k-Anonymity - 一般化と削除による2-Anonymity



k-Anonymityを満たす際に、一般化と削除の度合いを下げる

→

NP困難[MW04]

誕生日 人種 Zip 病気 1975-89 Cauc * Flu 1975-89 Cauc * Cold 1960-74 Afr-A * Flu 1960-74 Afr-A * Arthritis

1945-59 Hisp * Heart problem 1945-59 Hisp * Arthritis

(15)

内容

はじめに

• 1-1. 導入

• 1-2. 匿名化について

• 2-1. 医療分野 – 国内外

• 2-2. 統計分野 – 国内外

分散々並列化

• 3-1. クラスタリングベースの匿名化

• 3-2. 今後の展望

(16)

2-1(1) 医療分野 – 海外



海外では、匿名化した医療情報をDB化し、有効に活用している

 医療の質の改善、ヘルスシステム計画、ヘルスケゕの不正々無駄々乱用の検出、医学研究、公衆衛生など



カナダ々オンタリオ州の事例

 CHEO(BORN)

(17)

2-1(1) 医療分野 – 海外 - 医療情報のDB

データベース 地域設立説明 データ The Sough western Ontario DB London, Ontario, Canada 2000 53の地方と都市の診療所のプラ゗マリケゕ診察、血圧、処方箋 The Health Improvement Network (THIN) DB UK 2003 308 GP 15年前のデータもあり診療履歴、診察、血圧、BMI、処方箋

Thales-Cegedim DB Belgium, France, Germany, Italy, UK, Spain 1990(フランス) プラ゗マリケゕ診療履歴、診察、血圧、入院、処方箋 The IMS Disease Analyzer DB EU 1989(ド゗ツ) 2,000(内科医、 GP、産婦人科、糖尿病医など; ド゗ツ) 患者の統計データ、処方箋、入院、専門医の紹介、など 17

(出典: European Cardiology Vol6, Issue3, http://www.touchbriefings.com/ebooks/A1pbin/eucardio63/resources/36.htm, 2010よりMRI作成)

(18)

2-1(2) オンタリオ州の事例

(再掲)個人の情報を匿名化して2次利用するという流れ

カナダ々オンタリオ州における個人医療情報のサ゗クル

住民

レジストリ _{CHEO (+ Privacy Analytics社)}

公的研究機関々公衆衛生機関民間企業製薬会社匿名化レポート匿名化医療情報、研究成果、新薬、行政計画（コストリカバリー分）（無料）

①

②

③

④

⑤

⑥

(19)

2-1(2) オンタリオ州の事例 - CHEOの運用における特徴



運用の軽量化によるデータ提供までに要する時間の短縮

 1-2週間程度で審査を終え、データを提供できる  以前は、半年から1年かかっていた  個人医療情報の二次利用は研究用途であってもしばしば物議を醸し、時間がかかる  委員を集めるのにも時間がかかる



リスクの客観的、システム化された計測

 「データ利用申請者」に匿名化データを提供するリスクをツールで測定  Privacy Analytics Risk Assessment Tool (PARAT)にヒューリステゖックスを埋め込む



技術のバックグラウンド

 匿名化処理ゕルゴリズムも速い

 “A Globally Optimal k-Anonymity Method for the De-Identification of Health Data" published in the Journal of the American Medical Informatics Association,

 既存のk-匿名化ゕルゴリズム(Incognitoなど)よりも高速

19

(20)

2-1(2) オンタリオ州の事例 - CHEOとは？

The Children’s Hospital of Eastern Ontario



カナダ々オンタリオ州々オタワ（首都）にある、小児医療と研究を行う機関



1974 年に開院。”World-class teaching hospital”



スタッフ数 : 4,500名程度 (2008-2009年)

(21)

2-1(2) オンタリオ州の事例 - レジストリの例は？

BORN (Better Outcomes Registry & Network)



概要

 ビジョンは“The best possible beginnings for lifelong health”

（終生の健康のための可能な限り最高の始まり）

 州法(Personal Health Information Privacy Act :PHIPA)公認レジストリ(2009年)



データ

 オンタリオ州における新生児と母親の出産前後の健康状態などに関する情報 (140,000件/年）  識別情報（名前、医療保険番号など）は無い  現在は既存5件のリポジトリのデータを集積。今後、続々と他の公的レジストリのデータが集積される予定 21

(22)

2-1(2) オンタリオ州の事例 - BORNが受け付けるリクエストの例



Aggregate (simple)

 何割くらいの女性が出生前診断(Prenatal Screening)を受けるか？



Aggregate (complex)

 オンタリオ州における妊婦の喫煙 – 学歴、収入（五分位）、地区別



レコードレベルのデータ

 BORNサ゗ト (http://www.bornontario.ca/)からリクエストする



分析のリクエスト

 研究の仕様に基づき集合データを提示する

(23)

2-1(2) オンタリオ州の事例 - 匿名化データの利用者

IMS:Brogan社



概要

 1989年に設立。処方箋利用に関するマーケテゖングリサーチとコンサルテゖングを提供  カナダ国内で、最大の薬品利用データウェゕハウスを管理  国際的な製薬会社やカナダの州政府も利用



創始者

 創始者であるTom Brogan氏は、1982年Canadian Patent Actの改正に政府のポリ

シーゕナリストとして関与している。その後1989年に起業している

 医薬品の経済性評価(pharmacoeconomics)の第一人者とされる



2-1(2) 匿名化した個人医療情報のリクエスト処理

匿名化データの提供研究倫理委員会での審査審査3: 提供リスク、倫理面の問題データアクセス委員会での審査審査1: プロジェクトの妥当性審査2: プライバシーのリスクを定量化匿名データのリクエスト

レジストリ _{CHEO (+ Privacy Analytics)} 匿名化民間企業

Globally Optimal k-Anonymity Globally Optimal

(25)

2-1(3) A Globally Optimal k-Anonymity Method



CHEOで実際に使われているゕルゴリズム



OLA (Optimal Lattice Anonymization)



目的〆

 束(Lattice)の中から最適なノードを探索する



最適〆

 k-Anonymous かつ最小の情報損失

25

(26)

2-1(3) OLA – 格子構造=Lattice

<d₀, g₀, a₃> <d₀, g₀, a₄> <d₀, g₁, a₃> <d₁, g₀, a₃> <d₀, g₁, a₄> <d₁, g₀, a₄> <d₁, g₁, a₃> <d₂, g₀, a₃> <d₁, g₁, a₄> <d₂, g₀, a₄> <d₂, g₁, a₃> <d₂, g₁, a₄> <d₀, g₀, a₂> <d₀, g₀, a₁> <d₀, g₀, a₀> 0 7 6 5 4 3 2 1

<d

₂

, g

₀

, a

₃

>

<入院した日, 性別, 年齢>

拡大抽象レベル

(27)

2-1(3) OLA - Lattice

<d

₀

, g

₀

, a

₀

>

27

(28)

2-1(3) OLA - 一般化階層

<入院した日> <性別>

(29)

2-1(3) OLA - Lattice

<d

₀

, g

₀

,

a

₁

>

29

(30)

2-1(3) OLA - Lattice

(31)

2-1(3) OLA – 一般化戦略 (=一般化のパス)

例×2

31

(32)

2-1(3) OLA – アルゴリズム概要



1. 各一般化戦略に対して、二分探索を実施し、すべてのk-anonymousノード

を探索する



2. 各一般化戦略に対して、高さ最小のk-anonymousノードを保持する

 k-minimal node



3. 残った複数のk-minimalノードに対して、情報損失の度合いを比較し、最

小のノードを”Globally optimal”な解として選択する



仮定

 k個以上のノードが存在する  monotonicity property: 一般化階層を上ると、情報損失も単調に増加する



情報損失のメトリクス

 Precision  Discernability Metric  non-uniform entropy

(33)

2-1(3) OLA

33

(34)

2-1(3) OLA

<d₀, g₀, a₃> <d₀, g₀, a₄> <d₀, g₁, a₃> <d₁, g₀, a₃> <d₀, g₁, a₄> <d₁, g₀, a₄> <d₁, g₁, a₃> <d₂, g₀, a₃> <d₁, g₁, a₄> <d₂, g₀, a₄> <d₂, g₁, a₃> <d₂, g₁, a₄> <d₀, g₀, a₂> <d₀, g₀, a₁> <d₀, g₀, a₀> 0 7 6 5 4 3 2 1 not a k-anonymous node

(35)

2-1(3) OLA

35

<d₀, g₀, a₃> <d₀, g₀, a₄> <d₀, g₁, a₃> <d₁, g₀, a₃> <d₀, g₁, a₄> <d₁, g₀, a₄> <d₁, g₁, a₃> <d₂, g₀, a₃> <d₁, g₁, a₄> <d₂, g₀, a₄> <d₂, g₁, a₃> <d₂, g₁, a₄> <d₀, g₀, a₂> <d₀, g₀, a₁> <d₀, g₀, a₀> 0 7 6 5 4 3 2 1 not a k-anonymous node not a k-anonymous node not a k-anonymous node not a k-anonymous node

(36)

2-1(3) OLA

<d₀, g₀, a₃> <d₀, g₀, a₄> <d₀, g₁, a₃> <d₁, g₀, a₃> <d₀, g₁, a₄> <d₁, g₀, a₄> <d₁, g₁, a₃> <d₂, g₀, a₃> <d₁, g₁, a₄> <d₂, g₀, a₄> <d₂, g₁, a₃> <d₂, g₁, a₄> 0 4 3 2 1

(37)

2-1(3) OLA

37

<d₀, g₀, a₃> <d₀, g₀, a₄> <d₀, g₁, a₃> <d₁, g₀, a₃> <d₀, g₁, a₄> <d₁, g₀, a₄> <d₁, g₁, a₃> <d₂, g₀, a₃> <d₁, g₁, a₄> <d₂, g₀, a₄> <d₂, g₁, a₃> <d₂, g₁, a₄> 0 4 3 2 1 k-anonymous node

(38)

2-1(3) OLA

<d₀, g₀, a₃> <d₀, g₀, a₄> <d₀, g₁, a₃> <d₁, g₀, a₃> <d₀, g₁, a₄> <d₁, g₀, a₄> <d₁, g₁, a₃> <d₂, g₀, a₃> <d₁, g₁, a₄> <d₂, g₀, a₄> <d₂, g₁, a₃> <d₂, g₁, a₄> 0 4 3 2 1 k-anonymous node k-anonymous node k-anonymous node

(39)

2-1(3) OLA

39

<d₀, g₀, a₃> <d₀, g₀, a₄> <d₀, g₁, a₃> <d₀, g₁, a₄> 0 2 1

(40)

2-1(3) OLA

<d₀, g₀, a₃> <d₀, g₀, a₄> <d₀, g₁, a₃> <d₀, g₁, a₄> 0 2 1 not a k-anonymous node

(41)

2-1(3) OLA

41

<d₀, g₀, a₃> <d₀, g₀, a₄> <d₀, g₁, a₃> <d₁, g₀, a₃> <d₀, g₁, a₄> <d₁, g₀, a₄> <d₁, g₁, a₃> <d₂, g₀, a₃> <d₁, g₁, a₄> <d₂, g₀, a₄> <d₂, g₁, a₃> <d₂, g₁, a₄> 0 4 3 2 1

(42)

2-1(3) OLA

<d₀, g₀, a₃> <d₀, g₀, a₄> <d₀, g₁, a₃> <d₁, g₀, a₃> <d₀, g₁, a₄> <d₁, g₀, a₄> <d₁, g₁, a₃> <d₂, g₀, a₃> <d₁, g₁, a₄> <d₂, g₀, a₄> <d₂, g₁, a₃> <d₂, g₁, a₄> 0 4 3 2 1 Suppression > 5%

(43)

2-1(3) OLA

43

<d₀, g₁, a₄> <d₁, g₁, a₃> <d₂, g₀, a₃> <d₁, g₁, a₄> <d₂, g₀, a₄> <d₂, g₁, a₃> <d₂, g₁, a₄> 0 4 3 2 1

(44)

2-1(3) OLA

<d₀, g₁, a₄> <d₁, g₁, a₃> <d₂, g₀, a₃> <d₁, g₁, a₄> <d₂, g₀, a₄> <d₂, g₁, a₃> <d₂, g₁, a₄> 0 4 3 2 1

<d

₂

, g

₀

, a

₃

>

3%, 0.53

<入院した日, 性別, 年齢>

削除データの割合, 情報損失 拡大

(45)

2-1(4) CHEOの運用 – kの値は??



審査1: プロジェクトの妥当性

 実現可能性  科学的妥当性  要求するデータ項目の妥当性



審査2: プライバシーのリスクを定量化

 a) 脅威モデリング: 申請者側の情報と、想定される攻撃より審査  b) リスク分析: 再ID化(re-identification)のリスクをPARAT†を用いて審査  c) 匿名化: リスクがしきい値を越える場合、リクエストの修正を依頼。準識別子（組み合わせることで再ID化されうる属性。例えば母親の誕生日、子供の誕生日）を精査し、リスクを減らす方法を提案



審査3:提供リスク、倫理面の問題

 審査2の結果を利用  一般的な医療機関に設置されたREBと同等の審査を実施 45

(46)

2-1(4) CHEOの運用 - 審査2: プライバシーのリスクを定量化

審査2: a) 脅威モデリング

≒ ISO27002 申請者から見たデータの価値や、処理能力について申請者の組織のセキュリテゖ々プラ゗バシー保護状況などについて ISO27002: 情報セキュリテゖマネジメントの実践のための規範

(47)

2-1(4) CHEOの運用 - 審査2: プライバシーのリスクを定量化

■軽減制御認証されたスタッフのみがデータにゕクセスできるようにするプラ゗バシーとセキュリテゖポリシーが監視され、効力を持つデータ共有協定を締結している、またはこれから締結する関係者に対するプラ゗バシー、機密保持、セキュリテゖのトレーニングを強制的に適宜実施している秘密保持契約をスタッフと外部協力者に対して結んでいるプラ゗バシー、機密、セキュリテゖの違反時の罰則がある個人を特定できないデータ、および集合データのみ公開するプラ゗バシーオフゖサーやデータ管理委員会が任命されている長期保有の際には外部監査を受けるプラ゗バシー違反時のプロトコルがある保有期間を過ぎたデータは廃棄されるプラ゗バシー監査が内部々外部ともあるデータは国内でのみ処理、保持、ゕクセスできる情報システムに適切な認証を掛けている第三者への開示と共有をしないデータに適切な認証をかけている情報システムに対する脅威、およびリスク脆弱性の監査を実施するデータへのリモートゕクセスにたいし、特別な保護機構を導入しているプラ゗バシー、機密性、セキュリテゖに関して組織的な管理フレームワークをもつウゖルスチェックを実施しているデータ保持、管理、ゕクセスに関して、組織的なポリシーを持つ利用記録をシステムによりモニタリングしている 47 ≒

(48)

2-1(4) CHEOの運用 - 審査2: プライバシーのリスクを定量化

■軽減制御（つづき）データを電子的に送付する際には、暗号プロトコルが使われる物理的なセキュリテゖ対策がなされている開示データを含むコンピュータやフゔ゗ルは厳重に施錠管理された場所に置かれるプラ゗バシー担当者のコンタクト情報が提示されているスタッフには、写真付きのID、または磁気カードが与えられる従業員管理担当者のコンタクト情報が提示されている訪問者をスクリーニング、管理する組織の透明性と、情報公開の仕組みが整っているゕラームシステムが設置されている苦情窓口をもっているパーソナル情報が保存される場所の数は最小限にとどめ、あらかじめ特定されている REBのような独立した権威がデータの二次利用にかかわる提案を承認しているセンシテゖブデータを保持する場所では一般の人が入れないようにする内外の監査、モニタリング機構が導入されている定常的な敷地内の監視が実施されている独立諮問機関、または管理委員会が監視する ≒

(49)

2-1(4) CHEOの運用 - 審査2: プライバシーのリスクを定量化

審査2: a) 脅威モデリング



リスクのしきい値を決定←k-anonymityのkの値と乗算で“1”になる

データの詳細度、データのセンシテゖブさ、などからプラ゗バシー侵害の影響を測る

(50)

(参考) 2-1(4) CHEOの運用

審査2: b) リスク分析:



想定する攻撃者の種類を見定める

Prosecutor 検察攻撃対象: 単数データセットの中に対象者がいることを知っている Journalist ジャーナリスト攻撃対象: 単数データセットの中に対象者がいるかもしれないことを知っている Marketer マーケッター攻撃対象: 複数データセットの中に対象となる集団がいるかもしれないことを知っている

(51)

(参考) 2-1(4) CHEOの運用

審査2: b) リスク分析:



リクエストしたデータセットを提供する際に、リスクがどれくらいか



（通常、すべてのデータを求めるので、リスクの値が振り切れる）

51

(52)

(参考) 2-1(4) CHEOの運用

審査2 : c) 匿名化



大域的再符号化(Global Recording)と局所秘匿(Suppression)



匿名化を実施することで、リスクをしきい値以下に落とす

(53)

(参考) 2-1(4) CHEOの運用

審査2→審査3



契約書のひな形までツールで作成できる。



以下のレポートを証明書として添付する



※あくまでも「個人を特定しうるリスクがしきい値以下」という証明

53

(54)

(55)

2-1(5) 医療分野 - 国内では？

レセプトと医療情報のDB化が試行段階にある



医療情報化に関するタスクフォース(内閣官房IT戦略本部)

 レセプト情報等の活用による医療の効率化について  医療情報データベースの活用による医薬品等安全対策の推進について



医薬品の安全対策等における医療関係データベースの活用方策に関する懇談

会

 日本のセンチネル々プロジェクトの推進  利活用可能データ規模の目標５カ年計画（１〃０００万人の医療情報データベース）  ナショナルレセプトデータベースとの連携  医薬品等の安全対策を含む医療の質向上に向けた取り組みと国民や医療への還元  医療関係者に対する医学々薬事疫学研究利用への理解の促進  医学々薬学々疫学々情報学その他関係者の協力



National Clinical Database 外科系の専門医制度と連携した症例データベース

http://www.ncd.or.jp/index.html

55

(56)

2-1(5) 医療情報データベース基盤整備事業

(出典:医療情報データベース基盤整備事業について,厚生労働省医薬食品局安全対策課, 2011年)

(57)

匿名化においては、統計学者等の関与により実施し、個人の特定が可能な情報等について削除されていることを確認することや、匿名化の妥当性の検証を審査委員会等で行う必要がある。

2-1(5) 医薬品等の安全対策等におけるデータベース

57

(58)

内容

はじめに

• 1-1. 導入

• 1-2. 匿名化について

• 2-1. 医療分野 – 国内外

• 2-2. 統計分野 – 国内外

分散々並列化

• 3-1. クラスタリングベースの匿名化

• 3-2. 今後の展望

(59)

2-2(1) 統計分野



統計の分野でも、公的統計の二次利用→匿名データを複製し提供という流れ



提供に際しては、統計的開示制御(Statistical Disclosure Control: SDC)が施さ

れる

 k-Anonymityの話と近い

59

(60)

2-2(2) EU統計局 - μ-Argus



SDC(統計的開示制御)に関する欧州のプロジェクトで作られてきたソフト

ウェゕ

 4th Framework SDC-project (1996-1998)  5th Framework CASC project (2000-2003)  CENEX project (2006)

 ESSnet project (2008-2009)



実装されているSDC手法

 大域的再符号化(Global recoding)  局所秘匿(Local suppression)

 Top and bottom coding.

 The Post RAndomisation Method (PRAM)  Numerical Micro Aggregation

 Multivariate fixed-size microaggregation  Numerical Rank Swapping

（各手法はマニュゕルご参照のほど)

(61)

2-2(2) オランダ統計局でのサービス



匿名化したマ゗クロデータの提供サービスを実施

 オンサ゗ト、リモート、パブリックユースフゔ゗ル(PUFs)  1200のデータセット  データセットは結合可能



利用状況

 Remote Access:  50 computers

 129 current research projects  approx. 300 active researchers

 Italy, Germany, US (Columbia University)  On Site:

 14 computers

 57 current research projects

 approx. 100 active researchers OS

61

(62)

2-2(3) オランダ統計局での運用



匿名化手法

 大域的再符号化（Global Recoding）と局所秘匿の手法（Local Suppression)の組み

合わせが中心  双方の組み合わせ度合いは目的による



匿名化評価指標

 k-Anonymityは計算量の関係で使っていない  準識別子（説明変数、個人特定可能変数）3つの組み合わせに対して、頻度表を作成し、母集団に対して100件を目安にしている。この作業を自動化するために Argusを利用している



評価値（しきい値）

 コンテキストとサンプリングによるが、マ゗クロデータの場合、変数3つの組み合わせに対して母集団に対して100件を目安にしている  パブリックユースフゔ゗ルの場合、変数2つの組み合わせに対して母集団に対して 10,000件を目安にしている  匿名化の度合いは、誰のリクエストかによらない

(63)

2-2(3) オランダ統計局での運用



匿名マ゗クロデータ

 1種類しか作らない『今日来た人と、明日来た人に渡すデータは同じ』  統計の研究以外には利用を許可しない。  個人と組織と双方に対して契約を結ぶ  組織との契約は無くして欲しいという声が大きい



研究結果の安全性

 研究結果は公開することを契約で定めている  『その結果が安全かどうかをチェックするツールを作れと言われている。どうやるべきかわかっていれば作るのだが…』



組織間の連携

 EUで統計開示制御を真剣に取り組んでいる国は少ない  ゗タリゕ、ド゗ツ、英国、北欧諸国など、ESSNetに参加しているところが中心  『日本の統計局からも数年前にメールはもらった。』 63

(64)

2-2(3) Argus



Argusの今後

 Eurostat（EU統計機関）の予算を1年分獲得  リスクベースゕプローチ(開示リスク査定)の普及促進  1年間様子を見て、継続予定  Argusはオープンソースソフトウェゕに  新しい汎用的なオープンパッケージでのゕーキテクチャに。  Rパッケージの作者も新プロジェクトのメンバーになる。1つの大きなパッケージに。

(65)

2-2(4) 統計分野 - 国内では



統計センターを窓口にして、匿名データが提供されている



現在利用可能な統計データ

 住宅々土地統計調査  全国消費実態調査  就業構造基本調査  社会生活基本調査 65

(66)

2-2(4) 匿名化の方式は？



内閣府::統計委員会::『匿名データ部会』における決定

 例:第7回平成23年6月7日



匿名データの作成方法の概要〆大臣からの諮問

 元の統計調査のレコード全てを匿名データに用いるのではなく、それに間引きを施したものを用いる（レコードのリサンプリング）。  識別情報は、レコードから全面的に削除する。また、レコードの配列順が意味をなさないように、無作為に並べ替えを行う（識別情報の削除等）。  特徴的な値があるレコードは、削除する（裾切りによるレコード削除）。  極端に大きな値は、上限値を設けて頭打ちにする（トップコーデゖング）。  分類事項の程度は、詳細なものではなく、粗いものとする（リコーデゖング）。 (出典: 第7回匿名データ部会資料２, 諮問第37号労働力調査に係る匿名データの作成について,2011)



部会での専門委員の意見の例

 年齢の刻み〆地域情報を一切出さないのであれば、他に原データのまま提供できるものがないのかどうかをご検討いただければありがたい。たとえば、年齢は 5 歳刻みでグルーピングしているが、居住地域が特定化できないのであれば、年齢はもう少し細かい刻みで提供することも可能ではないか。 (出典:第7回匿名データ部会資料４, 諮問に対する黒田専門委員の意見, 2011)

(67)

内容

はじめに

• 1-1. 導入

• 1-2. 匿名化について

• 2-1. 医療分野 – 国内外

• 2-2. 統計分野 – 国内外

分散々並列化

• 3-1. クラスタリングベースの匿名化

• 3-2. 今後の展望

(68)

3-1(1) Privacy-Preserving data publishing (PPDP) 研究動向



実はk-Anonymityは序の口…

Fung, B. C. M., Wang, K., Chen, R., and Yu, P. S. 2010. Privacy-Preserving data publishing: A survey of recent developments. ACM Comput. Surv. 42, 4, Article 14 (June 2010), 53 pages. DOI =

(69)

3-1(1) クラスタリングベースのk-Anonymity



…とはいうものの、実際には『k-Anonymity+運用でカバー』が現実解



今後は各所で匿名化が必要ではないか？匿名化を独立したサービスとできな

いか？

 スケーラビリテゖ、分散並列処理による高速化が必要だろう=クラウド？  クラスタリングベースならクラウドに載せやすいのでは？  ↑Apache MahoutのクラスタリングはHadoop(MapReduce)上で動く



クラスタリングによるk-Anonymityには、2つ代表的な論文が存在

 [1] r-Gathering, r-Cellular (Stanford, 2006, 2010, →Google, MS, Oracleへ…)  [2] k-member clustering (Purdue, 2007)

69

[1] Gagan Aggarwal, Tom¥'{a}s Feder, Krishnaram Kenthapadi, Samir Khuller, Rina Panigrahy, Dilys Thomas, and An Zhu. 2006. Achieving anonymity via clustering. In Proceedings of the twenty-fifth ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems (PODS '06). ACM, New York, NY, USA, 153-162. DOI=10.1145/1142351.1142374 http://doi.acm.org/10.1145/1142351.1142374

(→ACM Transactions on Algorithms, Vol. 6, No. 3, Article 49, Publication date: June 2010.)

[2] Ji-Won Byun, Ashish Kamra, Elisa Bertino, and Ninghui Li. 2007. Efficient k-anonymization using clustering techniques. In Proceedings of the 12th international conference on Database systems for advanced applications (DASFAA'07), Ramamohanarao Kotagiri, P. Radha Krishna, Mukesh Mohania, and Ekawit Nantajeewarawat (Eds.). Springer-Verlag, Berlin, Heidelberg, 188-200.

(70)

3-1(2) クラスタリングとk-Anonymity



例〆オリジナル

Age

Salary

Amy

25

50 Brian

27

60 Carol

29

100 David

35

110 Evelyn

39

120

(71)

3-1(2) クラスタリングとk-Anonymity



一般化による2-Anonymity

71

Age

Salary

Amy

20-30

50-100

Brian

20-30

50-100

Carol

20-30

50-100

David

30-40

100-150

Evelyn

30-40

100-150

(72)

3-1(2) クラスタリングとk-Anonymity



オリジナル

Age

Salary

Amy

25

50 Brian

27

60 Carol

29

100 David

35

110 Evelyn

39

120

(73)

3-1(2) クラスタリングとk-Anonymity



クラスタリングによる2-Anonymity



→ゆがみが小さい、定数倍近似ゕルゴリズムがある

73

Age

Salary

Amy

[25-29]

[50-100]

Brian

[25-29]

[50-100]

Carol

[25-29]

[50-100]

David

[35-39]

[110-120]

Evelyn

[35-39]

[110-120]

クラスタの中心値を公開

27=(25+27+29)/3

70=(50+60+100)/3

37=(35+39)/2

115=(110+120)/2

(74)

3-1(3) r-クラスタリング



テーブルの属性を、メトリック空間内の点とする



空間内の点はクラスタ化され、中心値が公開される



“r” は各クラスタメンバ数の下限値



k-anonymityの“k”ではなく、 “ r”を用いる

 kはクラスタの数を表す際に使われるため



距離関数

 D(X,X)=0 Reflexive  D(X,Y)=D(Y,X) Symmetric

 D(X,Z) <= D(X,Y) + D(Y,Z) Triangle Inequality

[1] Gagan Aggarwal, Tom¥'{a}s Feder, Krishnaram Kenthapadi, Samir Khuller, Rina Panigrahy, Dilys Thomas, and An Zhu. 2006. Achieving anonymity via clustering. In Proceedings of the twenty-fifth ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems (PODS '06). ACM, New York, NY, USA, 153-162. DOI=10.1145/1142351.1142374

http://doi.acm.org/10.1145/1142351.1142374

[1] Achieving anonymity via clustering

(→ACM Transactions on Algorithms, Vol. 6, No. 3, Article 49, Publication date: June 2010.)

(75)

3-1(3) r-クラスタリング



3つの特徴がクラスタデータから公開される

 準識別子としてのクラスタの中心値  クラスタ内の点の数  クラスタ内のセンシテゖブ情報(病気など)の集合



クラスタの『質』も公開される

75

(76)

3-1(3) r-クラスタリング



メトリクス空間にマップしやすい属性〆

 年齢、身長



最初に変換が必要な属性〆

 郵便番号→緯度経度



縮尺の必要な属性〆

 位置情報



メトリクス空間にマップしづらい属性〆

 人種、国籍

(77)

3-1(3) クラスタの「質」



オリジナルデータからのゆがみを計測



①半径の最大値(r-GATHER問題の場合)

 すべてのクラスタの中での最大半径の値



②セルコスト (r-CELLULAR CLUSTERING問題の場合)

 各クラスタは、クラスタセンターを設定するまでに「施設コスト」を抱える  施設配置問題←NP困難  施設コストf(c) : クラスタc = (v_c, d_c) : 中心点v_c、半径d_cから算出  各クラスタは、「サービスコスト」を抱える  サービスコスト=半径×クラスタ内の点の数  「セルコスト」は各クラスタの「施設コスト」と「サービスコスト」の総和 77

(78)

3-1(3) r-GATHER問題



r-Gather問題は、メトリック空間の点をクラスタの集合とすること。



各クラスタは少なくともr点からなる。クラスタの最大半径を最小とする。



（3-SATからの変換が論文には記載されている）

最大半径= 20

[1] Achieving anonymity via clustering

10 points, radius 5

20 points, radius 10

(79)

3-1(3) r-CELLULAR CLUSTERING問題



CELLULAR CLUSTERING問題は、n点をクラスタ化し、各クラスタが最低でも

r点を持ち、セルコストの総和を最小にする



各クラスタの半径も公開

 r-Gatherは最大半径のみ



（Set Coverからの変換が論文には記載されている）

79

10 points, radius 5

20 points, radius 10

50 points, radius 20

Cellular Clustering Metric: 10*5 + 20*10 + 50*20 = 50 + 200 + 1000 = 1250

(80)

3-1(3) r-Gatherとr-Cellular

(81)

3-1(3) 外れ値 (“Outlier” points)



r-GATHERとr-CELLULAR CLUSTERINGは、k-anonymityと同様に、外れ値の影

響を受けやすい



ε-fractionデータは削除できるバージョンもあり

 当該タプルの削除



(r,ε)-GATHER Clustering

→4-approximationの多項式時間ゕルゴリズムを提示

81

(82)

3-1(4) k-Member Clustering



k-Member Clustering問題

 与えられたnレコード集合から、次の条件を満たすクラスタを探す  各クラスタが、少なくともkレコードを持つ  クラスタ内距離の総和を最小とする  この問題はNP完全

[2] Ji-Won Byun, Ashish Kamra, Elisa Bertino, and Ninghui Li. 2007. Efficient k-anonymization using clustering

techniques. In Proceedings of the 12th international

conference on Database systems for advanced applications (DASFAA'07), Ramamohanarao Kotagiri, P. Radha Krishna, Mukesh Mohania, and Ekawit Nantajeewarawat (Eds.). Springer-Verlag, Berlin, Heidelberg, 188-200.

(83)

3-1(4) 距離メトリクス



レコードに対する距離メトリクス

 2データ点間の相違を計測  対象となる属性間の相違の総和  数値  カテゴリ値 83

(84)

3-1(4) 距離メトリクス



数値の距離〆

 |D|はドメ゗ンの最大値と最小値の差



カテゴリ値の距離〆

 Λ(x,y)はx,yに共通のサブツリー  H(T)はツリーの高さ



2レコード間の距離〆

 すべての準識別子の数値の距離とカテゴリ値の距離の総和

India and USA is 3/3 = 1 India and Iran is 2/3 = 0.66

(85)

3-1(4) コスト関数



情報損失: Information loss (IL)



一般化の過程で生じるゆがみの総量



e = {r

₁

, . . . , r

_k

}をクラスタとする



情報損失〆IL(e)は↓のように定義される

 |e|はクラスタの要素数=k  N_iは数値ドメ゗ンのサ゗ズ  Λ(x,y)はx,yに共通のサブツリー  H(T)はツリーの高さ 85

[2] Efficient k-anonymization using clustering

(86)

3-1(4) Greedy k-member clustering algorithm



計算量

 O(n2₎



ゕルゴリズム

 k-Meansのように、ランダムに初期点を取り、情報損失が最小となる順に、要素数kのクラスタを作っていく  クラスタに入らずに残った要素については、情報損失が最小となるクラスタに含めていく

(87)

3-1(4) +αの最適化

センシテゖブ情報の重要さ、準識別子以外の値の扱い



Equal Diversity metric (ED)

 すべてのセンシテゖブな属性値は平等に重要



Sensitive Diversity metric (SD)

 センシテゖブな属性には2種類ある  truly-sensitive  not-so-sensitive

タイトル

データ匿名化の現状に関する一考察

医療・統計分野を中心とした国内外の動向

はじめに

この発表でお伝えしたいこと

1. 匿名化の関連動向

2. 匿名化の理論と現場の差

†

†財団法人日本情報処理開発協会※(JIPDEC)

パーソナル情報の利用のための調査研究

『匿名情報流通に係る課題の調査』(>>

報告書

)

（平成22年度 競輪補助事業）

※現）一般財団法人日本情報経済社会推進協会

はじめに

カナダ々オンタリオ州における個人医療情報のサ゗クル

①

②

②

③

④

④

⑤

⑥

内容

• 1-1. 導入

• 1-2. 匿名化について

• 2-1. 医療分野 – 国内外

• 2-2. 統計分野 – 国内外

• 3-1. クラスタリングベースの匿名化

• 3-2. 今後の展望

内容

• 1-1. 導入

• 1-2. 匿名化について

• 2-1. 医療分野 – 国内外

• 2-2. 統計分野 – 国内外

• 3-1. クラスタリングベースの匿名化

• 3-2. 今後の展望

1.2(1) 不都合な真実



個人の履歴に基づくデータは、ただ匿名化すれば二次利用OKというわけで

はなく、プラ゗バシーとのトレードオフがある。

1.2(2) 不都合な状況

1.2(2) 不都合な状況

1.2(2) 不都合な状況



ビッグデータの時代〆外部のデータソースが増えている

1.2(2) 不都合な状況

1.2(2) 不都合な状況



外部データソースとリンクされて、個人を特定されてしまう

1.2(2) 不都合な状況

準識別子Quasi-identifiers

1.2(3) k-Anonymity [Sweeney,2000]



準識別子の一部を修正する



個々のレコードはサ゗ズkの群衆の中に隠れる

1.2(3) k-Anonymity - 一般化と削除による2-Anonymity



k-Anonymityを満たす際に、一般化と削除の度合いを下げる

→

NP困難[MW04]

内容

• 1-1. 導入

• 1-2. 匿名化について

• 2-1. 医療分野 – 国内外

• 2-2. 統計分野 – 国内外

• 3-1. クラスタリングベースの匿名化

• 3-2. 今後の展望

2-1(1) 医療分野 – 海外



海外では、匿名化した医療情報をDB化し、有効に活用している



カナダ々オンタリオ州の事例

2-1(1) 医療分野 – 海外 - 医療情報のDB

2-1(2) オンタリオ州の事例

(再掲)個人の情報を匿名化して2次利用するという流れ

カナダ々オンタリオ州における個人医療情報のサ゗クル

（平成22年度競輪補助事業）