• 検索結果がありません。

対応可能ユーザ数の評価

第 5 章 評価実験

5.6 対応可能ユーザ数の評価

78 第5章 評価実験 速度の計測結果を述べ,続いて5.6.2節で提案手法で対応可能なユーザ数におけるサービ ス例を述べる.

5.6.1 処理速度の評価結果

表 5.5: 速度評価の結果

データ種類 母集団ユーザ数(U) UA UB UA∩UB 計測結果(分)

国勢調査データ

300 150 150 75 15

600 300 300 150 39

1200 600 600 300 80

2400 1200 1200 600 253

4800 2400 2400 1200 1066

9600 4800 4800 2400 4824

レセプトデータ 5000 約3500 約300 約230 1321

母集団 母集団母集団

母集団ユーザユーザユーザユーザ(U) 数

[時時時時]

0 12 24 36 48 60 72 84

0 2000 4000 6000 8000 10000

実測値(国勢調査データ) 実測値(レセプトデータ)

図 5.18: 動作速度(レセプトデータ)

本節では,提案手法の処理速度を計測し,現実的な時間で処理可能なユーザ数を調べ,提 案手法における対応可能なユーザ数の限界を評価する.表5.5に提案手法の処理速度を計 測した際の母集団ユーザ数(U)と処理速度の計測結果を示す.なお,計測値はそれぞれの データサイズについて5回計測した平均値である.つまり国勢調査データの場合は,デー

5.6. 対応可能ユーザ数の評価 79 タの生成と速度の計測を行う作業を1回の作業として計5回行い,それらの平均を計算し ている.レセプトデータの場合は,データを生成し直すことはしないので,そのデータに 対して5回速度計測を行った平均である.

また,図5.18にこれらの計測結果をプロットしたグラフを示す.なお,提案手法の計算 量と通信量は6.1.3節で評価を行っており,主に母集団ユーザ数によって計算量と通信量が 決まり,母集団ユーザ数をN とおいたときに計算量がO(N2loglogN),通信量がO(N)と なる.

この結果から分かるとおり,約5000人の母集団ユーザであれば1日程度,約10000人の 母集団ユーザであれば3日程度で処理が可能である.この処理速度において,どのような サービスが提供可能であるかについて,次節で説明する.

5.6.2 対応可能なサービスの例

本節では,母集団ユーザが10000人以下で,3日程度でデータ提供のサービスの例を示 し,提案手法によって新たなサービス提供が可能である事を示す.そして,現状の匿名デー タを提供するサービスと比較して,提案手法によって提供されるサービスが有意義である ことを明確にする.

まず,以下にサービス例を2つ示す.

企業内の会社社員の健康状態分析のための匿名データ提供サービス

提案手法を用いることによって,従業員数が10000人以下の企業の従業員の健康状態 を分析するために,スポーツセンターと専門病院のデータを連携するサービスが可 能であると考えられる.このサービスでは,例えば,企業が提携しているスポーツ センターが保有する利用者の運動時間に関する情報と,企業が提携している病院の 患者の疾病情報に関する情報に対して,提案手法を用いてデータ連携する.そして,

データ連携して匿名化されたデータを,医学研究を行う研究機関へ提供することで,

運動量と疾病の相関関係などを分析し,従業員の健康促進の活動に生かすというサー ビスである.この例では性病等の専門病院への通院をスポーツセンターに知られた くないと考えられるため,提案手法によってユーザ存在情報を隠しながら分散匿名

80 第5章 評価実験 化を行う必要がある.また,この例における母集団は,ある企業の従業員の10000名 であり,スポーツセンターと病院において個人を識別する共通のIDとして,健康保 険の保険者番号と記号と被保険者番号を用いる.一般に民間企業における健康保険 組合では,保険者番号と記号によって企業(事業所)を一意に識別することになる10. よって,スポーツセンターと病院では,あらかじめ保険者番号と記号と被保険者番号 の値の範囲を共有しておくことで,10000名の母集団を共有することができる.

病院と専門病院における医学分析のための匿名データ提供サービス

提案手法を用いることによって,大規模な病院と専門病院における医学分析のための 匿名データを提供するサービスが可能であると考える.このサービスでは,例えば,

ある大病院のある期間における10000名以下の患者の医薬品・疾病情報と,ある専門 病院の医薬品・疾病情報に対して,提案手法を用いてデータを結合し,匿名化する.

そして,匿名化されたデータを医学研究を行う機関へ提供することで,例えば,専門 病院で処方された医薬品と大病院における疾病の相関関係を分析することで,医薬 品の副作用分析ができると考えられる.そして,この例においても,専門病院への過 去の通院を大病院に知られたくないと考えられるため,提案手法によってユーザ存 在情報を隠しながら分散匿名化を行う必要がある.なお,病床数が1000床にもなる 大規模な病院における1日平均入院患者は約1000人11であり,全国における一般病 床における平均入院日数は約18日である[61].よって,大病院の約半年(6カ月)分 の入院患者を母集団とした場合,以下のように約10000人となる.

ある期間における入院患者数= 1日平均入院患者数×期間/平均入院日数

= 1000人×(30日×6カ月)/18日= 10000人 (5.2) このように,母集団ユーザ数が10000人以下となるようなサービス例は十分存在する.

また,上記に上げた例は医学分野における例であるが,それ以外にもWebサービス事業者 間のデータ連携など様々なサービス例が存在する.

10例えば「NEC健康保険組合」の場合,保険者番号と記号の組によって「日本電気株式会社」などの会社 が識別される.そして,会社の社員番号が被保険者番号となっている.

11例えば,病床数が1162床の大病院に分類される東京大学医学部付属病院における平成23年度の1日平 均入院患者数は1049人である.(出展:東京大学医学部付属病院ホームページhttp://www.h.u-tokyo.ac.

jp/about/beds/index.html)