₁ .は じ め に
公的統計のミクロデータにおいては,①匿名化ミクロデータ(個票データに匿名化処理が施され たデータ)の提供,②個票データの提供,③オーダーメード集計,④オンデマンド型の集計サービ ス(リモート集計)といった様々なチャンネルが存在する(伊藤(2₀₁₆)).一方,わが国の統計法 は,公的統計データの二次的利用の促進を図ることを踏まえ,2₀₀₇年に改正され,2₀₀₉年に全面施 行された.現行の統計法においては,学術研究等を主要な対象として,調査票情報の提供(統計法 33条),オーダーメード集計(統計法3₄条),匿名データの提供(統計法3₆条)の二次的利用が可能 となっている.
一方,わが国では,利用者が調査項目(表頭・表側)を選択するだけで集計結果を自動的に出力
₁ .は じ め に
2 .オーストラリアにおける公的統計ミクロデータの提供
3 .オーストラリアにおけるオンデマンド集計システム──TableBuilder──
₄ .オーストラリアのTableBuilderにおける秘匿処理の考え方について
₅ .むすびにかえて
伊 藤 伸 介
*谷 道 正 太 郎
**小 島 健 一
***オーストラリアにおける公的統計の二次的利用について
──オンデマンド集計システム
TableBuilderを中心に──
†† 本稿は,谷道・伊藤・小島(2₀₁₆)をもとに,オーストラリアにおける公的統計の二次利用の最新状況 について加筆・修正をしたものである.共著者である谷道正太郎氏((独)統計センター経営審議室課長 代理)と小島健一氏((株)野村総合研究所)の了解をいただくだけでなく,(独)統計センターより取り まとめの許可をいただいた上で,伊藤が筆頭著者として本稿を作成した.関係各位にお礼を申し上げた い.また,本稿の旧稿の作成においては,(独)統計センターの「政府統計オンデマンド集計等に関する 調査研究」の一環として,本稿の共著者である伊藤と小島,および小林慎太郎氏((株)野村総合研究所)
がオーストラリア統計局の職員に対して行ったヒアリング調査(2₀₁₆年 2 月22日~2₄日)に基づいている.
日に閣議決定された第Ⅱ期「公的統計の整備に関する基本的な計画」では,統計データの有効活用 の推進を図る観点から,オンデマンドによる統計作成に関する技術的検証等について実用化に向け た検討を行うことが言及されており,オンデマンド型の集計機能サービスについても,その実用性 に関する議論が展開されている.また,平成2₇年 ₇ 月に開催された「第2₀回統計データの二次的利 用促進に関する研究会」においては,「統計データの二次的利用の検討状況(全体像・イメージ)」 が提案され,オーダーメード集計に関しては,「利用制限の緩和,『オンデマンド集計』の実用化」
が今後の課題として指摘されている.
公的統計においては,集計結果表が公表される場合,調査客体が特定されないような秘匿措置が 求められるが,一般には,結果表が詳細になるにつれ,また,関連する結果表が増えるにしたがっ て,秘匿の度合いや困難さは増大する.ゆえに,オンデマンド集計において利用者の様々な要求に 応じて集計表を作成・提供するためには,作成された集計表の秘匿に関する十分な検討が求められ る.
他方,諸外国においては,公的統計データの提供形態の ₁ つとして,オンデマンドによる集計シ ステムが展開されている国が存在する.これらの国々では,集計表の有用性と秘匿性に関するト レードオフ関係を何らかの方法で克服し,オンデマンド集計の提供を実現させている.例えば,欧 州統計局(Eurostat)で提供されているCensus Hub,アメリカのAmerican Fact Finder等が知 られているが,オーストラリアで開発されたTableBuilderは,先進的な取組み事例の ₁ つとして 国際的にも注目されている.TableBuilderにおいては,インターネットを介してシステムにアク セスし,調査項目を指定することによって,自動で集計された統計表をリアルタイムに受け取るこ とが可能になる.
そこで,本稿では,オンデマンド方式による統計作成・提供を実現しているオーストラリアを対 象に,オンデマンド集計システムであるTableBuilderを中心に,オーストラリアにおける公的統 計の二次的利用の現状を明らかにする.また,TableBuilderについては,法律上の側面や技術的 な側面を明らかにするだけでなく,実現に寄与していると思われる運用面についてもその特徴を考 察することにしたい.
2 .オーストラリアにおける公的統計ミクロデータの提供
諸外国では,秘匿性と利用者のニーズを踏まえた形で,ミクロデータの提供に関する多様なチャ ンネルが存在する.表 ₁ は,諸外国における公的統計の二次的利用について類型化を行ったもので ある.表 ₁ を見ると,統計データの二次的利用の種類に関しては,個票データ(confidential data
(あるいは非識別データ,deidentifided data))への直接的なアクセスの可能性および分析結果の提
供形態によって,類別化が可能である.表 ₁ によれば,公的統計の個票データの二次的利用につい ては,直接利用型,プログラム送付集計型とオーダーメード型に大別される.そして,わが国にお いて現在可能なのは,直接利用型の中で,①利用者の研究室等,特定の施設以外の場所で,一定の 条件のもとに調査実施者が提供するデータを利用するタイプである「直接提供型」,②調査実施者 の指定する施設内において,調査実施者が提供するデータを利用する「オンサイト型」,および③ オーダーメード型の中で,調査実施者に対して集計の委託を行い,調査実施者によって作成された 集計表を受け取る「従来型」である.①については,統計法第33条に基づく調査票情報の提供およ び統計法33条に基づく匿名データの提供がそれに該当する.②は,統計法第33条において現在試行 的に行われているオンサイト施設における個票データの提供が該当する.③は,統計法第3₄条にお けるオーダーメード集計を示している.
一方,オーストラリアにおける統計の作成および提供のサービスは,図 ₁ で概観することができ る.オーストラリア統計局(Australian Bureau of Statistics=ABS)は,集計表の作成・公表を行
表 1 諸外国の政府統計の二次的利用の種類
二次的利用の種類 特 徴 状 況
直接利用型
オンサイト型 ◦ 調査実施者の指定する施設内において,調査実
施者が提供するデータを利用することができる. わが国において,
すでに実施済み 直接提供型 である.
◦ 利用者の研究室等,特定の施設以外の場所で,
一定の条件のもとに調査実施者が提供するデー タを利用することができる.
リモート提供型
(リモートアクセス)
◦ リモートではあるが,直接統計局等のサーバに アクセスし,データ分析等を行い,結果表を受 け取ることができる.
わが国では実現 していない.
プログラム送付 集計型
参照可能型
◦ ネットワークを経由して調査実施者が提供する データを閲覧した上で,作成したプログラムを 送付し,集計された結果を受け取ることができ る.
参照不可能型
◦ ネットワークを経由して調査実施者が提供する 参考情報を利用した上で,作成したプログラム を送信し,集計された結果を受け取ることがで きる.
オーダー メード型
従来型
◦ 調査実施者に対して集計の委託を行い,調査実 施者によって作成された集計表を受け取ること ができる.
わが国において,
すでに実施済み である.
リアルタイム提供型
◦ インターネットを介してシステムにアクセス し,集計項目を指定することによって,自動的 に作成された集計表をリアルタイムに受け取る ことができる.
わが国では実現 していない.
出所 「諸外国における二次的利用の現状について」(総務省)を一部加筆・修正.
提供,さらには,プログラム送付によるCURFsの利用サービス(Remote Access Data Lab=RADL)
やオンサイト施設(ABS Data Lab)による個票データの利用サービスを行っている.オーストラ リアのオンデマンド方式による統計作成については,図 ₁ の中で集計結果表(Publication Output)
の隣に位置するTableBuilderが該当する.
CURFsは,学術研究用ファイル(scientific use file)としてのみ提供されており,秘匿の程度に 応じて,基本ファイル(Basic CURFs)と詳細ファイル(Expanded CURFs)の複数のファイルが 作成されている.CURFsの作成においては,偶発的な個体特定(spontaneous recognition)の回 避という観点から,Elliot等によって開発されたSUDA(Special Uniques Detection Algorithm)
(Elliot et al.(2₀₀2))を用いた秘匿処理が行われている.また,オーストラリアの場合,世帯単位 で抽出された,抽出率の異なる( ₁ %, ₅ %)人口センサスのミクロデータ(Census Sample Files
(CSFs))が作成・提供されている.なお,CURFsの基本ファイルの提供形態としては,オースト ラリアの場合,これまでCD-ROMによる提供が行われていたが,2₀₁₇年₁₀月時点においては,ID とパスワードを取得することによって,ABSのHPから有料でダウンロードすることが可能に なっている.
一方,オーストラリア統計局にABS Data Labというオンサイト施設が設置されており1),有料 による個票データの利用サービスが行われている.ABS内部に設置されているRADL(Remote
₁ ) Date Labには,オンサイト施設による個票データの利用サービスだけでなく,(大学の研究室と いった場所からの)リモートアクセスによる個票データの利用のサービスが展開されている.
図 1 オーストラリア統計局が提供する統計作成サービスの体系
出所 Elazar (2₀₁3).
Access Data Lab)では,CURFsの詳細ファイルにリモートでアクセスすることが可能なプログラ ム送付型の統計作成・提供サービスがなされている.また,ABS Data Labにおいては,標本抽出 率が ₅ %~₁₀%の人口センサスの個票データにアクセスすることが可能である.なお,表 2 は,
ABSによって行われている各種の公的統計の二次的利用のサービスに関する特徴を示したもので ある.
オーストラリアでは公的統計データにおける秘密保護は,ABS全体に課されており,それは,
「センサスおよび統計法」(Census and Statistics Act ₁₉₀₅,以下『統計法』と呼称)で規定されてい る.公的統計の秘密保護,統計の公表と提供,センサスに関する情報の開示に関する法律は,それ ぞれ『統計法』の第 ₇ 条,第₁2条と第₁₉A条に明記されている.
₇ 忠誠と機密保護の履行
本法またはその規則に基づいて与えられた権限と義務を遂行する全ての職員は,本法に基 づいて職務に入ったり,権限を行使したりする前に,規定の様式に,忠誠と秘密保護の履行 を証人の面前で署名をしなければならない.
₁2 統計の公表等
( ₁ ) 統計局長(Statistician)は,本法律に基づいて収集された統計情報を集約(集計)し て分析しなければならず,そしてその集約・分析,又はそれら集計結果や要約(統計量)
を,公表・提供しなくてはならない.
( 2 ) 細節( ₁ )に係る集計結果,又は要約は,( ₁ )特定の個人または組織の識別が可能に なるようなやり方で公表・提供してはならない.
( 3 ) 統計局長は本節の下で公表・提供する集計結果や要約に係る費用を徴収してもよい.
₁₉A センサス情報の非開示 政府機関へのセンサス情報の非開示
( ₁ ) 現在又は過去に,統計局長又は職員であった者は,当該統計の公表日より₉₉年間いか なる時も,本法に基づく範囲以外で,
(a) 当該センサスに関して,第₁₀条に基づき,統計局長又は権限を有する職員に与えら れる様式に含まれるいかなる情報も,政府機関へ開示する,又は口外することを要求 されてはならない.
(b) 自発的にそのような情報を政府機関へ提供してはならない.
裁判所や裁決機関へのセンサス情報の非開示
( 2 ) 現在又は過去に,統計局長又は職員であった者は,当該統計の公表日より₉₉年間いか
表2 オーストラリア統計局が提供する公的統計の二次的利用サービスの比較 提供されるデータの種類TableBuilder匿名化ミクロデータ基本ファイル (Basic CURF)匿名化ミクロデータ詳細ファイル (Expanded CURF)詳細ミクロデータ(個票データ,Detailed Microdata) 提供形態TableBuilderMicrodataDownload Remote Access Data Laboratory
(RADL)DataLab(オンサイト)DataLab (リモートアクセス) 利用方法安全なweb上でログイン安全なweb上でログインし、 ファイルをダウンロード安全なweb上でログイン
オーストラリア統計局のオ ンサイト施設でアクセス
安全なweb上でログイン アクセス可能なデータの類型集計データミクロデータミクロデータミクロデータミクロデータ 利用するデータの粒度非常に詳細なデータやや細かいデータ詳細なデータ非常に詳細なデータ非常に詳細なデータ 環境 利用者自身のPC環境からアクセス可能〇〇〇×〇
利用者自身の環境から個体レコー ドの分析が可能
×〇××× 将来の利用のために分析結果の保存が可能〇〇〇〇〇 要求される技術とソフトウェア インターネットのアクセス〇〇〇×〇 要求される分析用のソフトウェア×〇××× 分析用のプログラムを用いた経験××〇〇〇 研究のための利用 中間的な成果物〇〇〇×× 基本統計量(平均や範囲を含む)〇〇〇〇〇 集計表〇〇〇〇〇 グラフによる結果〇〇×〇〇 地図〇×××× 最頻値×〇〇〇〇 集中度×〇〇〇〇 分布に関する高次のモーメント×〇〇〇〇 線型回帰モデルの係数×〇〇〇〇 非線形回帰モデルの係数×〇〇〇〇 推定値における要約統計量と検定統計量×〇〇〇〇 利用の条件 オーストラリア統計局の職員による 分析結果の露見に関するチェック
×××〇〇 利用料金の請求〇〇〇〇〇 データの利用に関する訓練の必要性××××× システムの運営面における利用者の制限〇×〇〇〇 法律の適用による利用者の制限×〇〇〇〇 利用条件(Terms and Conditions of Use)に基づく利用者の制限〇〇〇〇〇 出所 http://www.abs.gov.au/websitedbs/D33₁₀₁₁₄.nsf/₈₉a₅f3d₈₆₈₄₆₈2b₆ca2₅₆de₄₀₀2c₈₀₉b/c₀₀ee₈2₄af₁f₀33bca2₅₇2₀₈₀₀₇c3bd₅!OpenDocument
なる時も,
(a) 当該センサスに関して,第₁₀条に基づき,統計局長又は権限を有する職員に与えら れる様式に含まれるいかなる情報も,裁判所や裁決機関へ開示する,又は口外するこ とを要求されてはならない.
(b) 自発的にそのような情報を裁判所や裁決機関へ提供してはならない.
(以下省略)
法第 ₇ 条は,ABSの職員における守秘義務を明記したものである.法第₁2条の第 ₁ 項では,「統 計局長は,本法律に基づいて収集された統計情報を集約(集計)して分析しなければならず,そし てその集約・分析,又はそれら集計結果や要約(統計量)を,公表・提供しなくてはならない」こ とが明記されている.また,法第₁2条の第 2 項では,「集計結果,又は要約は,特定の個人または 組織の識別が可能になるようなやり方で公表・提供してはならない」ことが述べられている.これ は,ABSで公表されている集計結果表について,攪乱的手法の適用を含む秘匿処理を必要とする 法的な根拠となっているだけでなく,オーストラリアにおいて個票データやCURFs の提供を可能 にするための規定だと言うことができる(勝浦・小林(2₀₀₆)).さらに,法第₁2条は,TableBuild- erにおいてオンデマンドで作成された集計表における秘匿処理の必要性を表す条文になっている.
したがって,法第₁2条は,オーストラリアにおいて公的統計の二次的利用に関する基本的な条項で もあると言えよう.
法第₁₉A条は,センサス情報の非開示に関する条文である.オーストラリアでは,第二次世界大 戦時に,ヨーロッパからの移民を多く受け入れてきた経緯もあり,公的統計の守秘義務に対して強 い規制を強いてきた.とりわけセンサスにおいては,『統計法』で規定された法第 ₇ 条,第₁2条と 第₁₉A条の遵守が,強く求められている.人口センサスについても,CURFsや個票データという 形で提供されていることを勘案すると,このような法的根拠に基づいて,オーストラリアにおける 公的統計の二次的利用のサービスが展開されたと考えることができる2).
2 ) センサスに関しては,オーストラリア統計局の役職員に対して厳しい法令遵守が求められている.
その内容は,TableBuilder User Manualで紹介されている.その内容の一部は,以下のとおりであ る.
・本法制度の対象者は,常勤と非常勤のいずれにも該当する.
・間接的直接的にかかわらず,この法のもとで集められた,どのような秘匿情報についても漏洩した 現在の職員または過去の職員に対し,違反と見なす.
・違反のペナルティは,最大₅,₀₀₀ドル(マニュアルによる記載)の罰金,二年以内の禁固のどちらか 一方,または両方である.
・違反者は,オーストラリア統計局から懲戒される.
・オーストラリア統計局はPrivacy Act ₁₉₈₈に基づく原則を遵守する義務を負う.
3 .オーストラリアにおけるオンデマンド集計システム──
TableBuilder──
オーストラリアのオンデマンド集計システムであるTableBuilderは,ミクロデータから統計 表,グラフを作成するためのオンラインツールである.表頭と表側の変数を選ぶことによって,統 計表やマップを簡単に作成することができるのが,TableBuilderの特徴である.なお,Table Builderについては,2₀₀₉年より,サービスが本格的に開始されている.
TableBuilderで利用可能なサービスは,センサスデータ(Census)とそれ以外のデータ(Oth- ers)に関する集計サービスに大別されるが,それは表 3 のように体系づけられる.基本的な構成 は,TableBuilder Proと呼ばれる有料のサービスとTableBuilder Basicと呼ばれる無料のサービ スの 2 種類であり,アクセス可能な公的統計データもセンサスのデータとそれ以外のデータに類別 される.また,公的統計データの利用可能な年次(あるいはセンサスの実施時期)によって,異な るサービスが行われる.
サービスの体系がセンサスのデータとそれ以外のデータに分けられているのは,ABSの統計 データを管轄している部局が異なるからであって,秘匿処理の違いといった技術的要素によるもの ではない.ただし,ツールの機能から見ると,センサスのデータとそれ以外のデータでは,機能が 異なっている.センサス向けのTableBuilderでは,地図作成機能を使用することが可能である が,センサス以外のTableBuilderにおいては,標本調査のデータセットから算出された基本統計 量(ウェイト,RSE,連続データ項目,平均,カスタム範囲,分位点を含む)のみが,算出され,提 供されている.
また,センサスに関しては,情報の収集から保存に関するプロセスがマニュアルで詳細に定められ ることによって,その秘匿性が確保されている.具体的には,以下のとおりである.
(情報の収集に係るプロセスの規定)
①センサス収集者は,データフォームを守るために,常時,収集ルートが安全であることに責任を負 う.
②オーストラリア統計局(ABS)は,センサスデータが収集者によって見られることを懸念する世帯 に対し, ₁ )プライバシー封筒の提供,または, 2 )eCensusでの回答の選択肢を与える.
③疑心の強い世帯は,センサス収集者に,データがABSに到着したことを照明するメールバックを求 めることができる.
(収集した情報の処理・保存に係るプロセスの規定)
①Collection Centerに集められたデータは,Data Processing Centerに,安全な(セキュアな)状態 で移される.
②常時,警備を行うことによって,権限の無い人のProcessing Centerへの侵入が防止される.
③処理された後の書類は,オーストラリア統計局職員の立会のもとで溶解処理される.
④処理後,データとしての保管は,ABS computer systemで実施される.日常的にパスワードは変更 され,アクセスコントロールや認証の形跡もチェックされる.
表 4 TableBuilder ProとTableBuilder Basicの違い
TableBuilder Basic TableBuilder Pro
対象者 ◦ センサスの利用経験があり,基本的な統計 表を作るスキルを持つ者
◦ Basicに比べてさらに進んだスキルを持つ
者
価格 ◦ 無料 ◦ 有料
対象となる
データベース ◦ 大半のCensus Topicsに含まれる項目 ◦ ほぼ全てのCensus Dictionaryに含まれる 項目
操作 ◦ 変数の分類区分が予め設定された統計表の 利用が可能
◦ 利用者のDBやシステムのインポートをし,
構築したい統計表の抽出が可能
得られる 表の例
◦ センサスの表の構築や加工
◦ 加工された地域区分とデータの分類区分の 編成と保存
◦ 各種フォーマットにおけるグラフや図の閲 覧や抽出等
◦ 異なる地域間のデータ比較
◦ 特定のニーズに適合した,加工された地域 区分やデータの分類区分の編成と保存
◦ センサスデータに関する表の抽出と加工,
グラフと関連する地図の作成等 表 3 TableBuilderの種類
人口センサス その他のデータ
有料 2₀₀₆年,2₀₁₁年と2₀₁₆年の人口センサスに関 するTableBuilder Pro data series
人 口 セ ン サ ス 以 外 の デ ー タ に 関 す る TableBuilder data series
無料 2₀₀₆年,2₀₁₁年と2₀₁₆年の人口センサスに関
するTableBuilder Basic ─
注 TableBuilder Basic 2₀₀₆とは,以前,CDATA Online 2₀₀₆として提供されていたサービスの後継となる集計システ ムである.
出所 http://www.abs.gov.au/websitedbs/censushome.nsf/home/Tablebuilderdetails?opendocument?navpos=2₄₀ http://www.abs.gov.au/websitedbs/D33₁₀₁₁₄.nsf/home/Microdata+prices
Census Topic Census Dictionary
◦文化・言語の多様性
◦教育および学歴
◦雇用,収入と無償労働
◦障害者,要支援者
◦子供,保育
◦通常の住居,国内の人口移動
◦人民関連
◦持ち家の状況
◦持ち家以外の状況
◦家族構成・特徴
◦住居の特徴
◦世帯収入および支出
◦通常の住居に関する継続的な情報
◦人民に関する継続的な一連の情報
◦雇用者および勤務地に関する継続的な情報
◦家族および通常の住居に関する継続的な情報
◦住居に関連する継続的な一連の情報
出所 http://www.abs.gov.au/websitedbs/censushome.nsf/home/Tablebuilderdetails?opendocument?navpos=2₄₀
る特徴をまとめたものである.TableBuilder ProとTableBuilder Basicの場合,課金をするか否 かという大きな違いがあるが,両者のいずれも,センサスの全てのデータを分析対象とすることが できる.ただし,利用できる機能と利用可能な項目に違いがあることから,課金の有無が生じてい ることがわかる.特に,TableBuilder Basicでは,集計表に用いる変数は,予め設定された分類 区分のみが利用可能であって,それらの変数を用いて作成された統計表がオンデマンドで提供可能 であるのに対して,TableBuilder Proにおいては,利用者がデータベースの中から希望する変数 や分類区分を探索的に選定した上で,統計表を作成することが可能である.
なお,TableBuilder Basicの場合,国外から利用することも可能であるが,TableBuilder Pro については,国内に居住する者に限定されている.また,TableBuilder Proの利用者は通常,自 身が所属する組織・団体を介して利用の申請を行うが,ABSは,その利用申請の段階で,組織・
団体の確認を行っている.したがって,国内外を問わず,組織の構造等の観点から,ABSが TableBuilder Proの利用組織を判断しているものと推察される.
TableBuilderでは,2₀₁₇年₁₀月時点で,主として公的統計に関する₇₁個のデータファイルを利 用することができる.この₇₁個のデータファイルを見ると,その多くが世帯調査に係る公的統計で あること,さらには,行政記録に基づく統計も含まれていることがわかる.
TableBuilderにおいて利用可能な統計の選定は,計画的になされたものではなく,各統計担当 部局の裁量によっている.TableBuilderの担当者は,各統計担当部局に,TableBuilderで利用で きる統計データの提供を要請しているが,その判断は,各統計担当部局に委ねられている.最終的 には,各部局の判断で,提供される統計データファイルが決定される.その意味では,₇₁個のデー タファイルは,利用者のニーズに対応したものでもなければ,行政側の業務上の利用者に対する還 元というものでもないと言える.
TableBuilderによるオンデマンドの集計表の提供については,その大半が,人口・世帯系のデー タに基づいている.なお,ABSの担当者によれば,将来的には,度数表(frequency table)ではな く,量的な(Magnitude type)データを含む経済系のデータの提供を考えているとのことで,現 在,そのための調査研究がABSで行われている.
TableBuilderの利用者数と利用目的は,表 ₅ で示される.2₀₁₆年 2 月時点におけるTableBuilder ProとTableBuilder Basicに関する利用者数はそれぞれ,約₁₀,₀₀₀人と₈₅,₀₀₀人である.筆者らが ヒアリング調査を行った2₀₁₆年 2 月時点においても,利用者は増え続けており,Basicの利用者数 は ₁ ヶ月に22₀名,Proは₁₁₀名程度増加しているとのことである.TableBuilder Proの場合,利 用者は,主として研究機関や政府・地方公共団体であり,その利用目的は,地方公共団体の場合,
人口や年齢の分布特性の把握であるが,大学・研究機関では,教育目的のためにTableBuilder Proが利用されている.
TableBuilderの利用者が ₁ 万人規模で存在する理由として,ABSは,TableBuilderが表,グラ フや地図を作成するシンプルなツールであるだけでなく,センサスについて言えば,TableBuild- erにおいて集計の対象となっているレコード数が,他の二次的利用に係るサービスと比較して大 きいことを指摘している.先述した通り,ABSは,二次的利用に係る様々なチャンネルを提供し ているが,それによって提供されている公的統計ミクロデータは,標本データであることが少なく ない.その一方で,TableBuilderにおいては,人口センサスの全数データを対象にした集計を行 うことができるのが大きな特徴である.
TableBuilderを利用する上には,利用者がABSに登録をすることが求められる.これは,
TableBuilder ProとTableBuilder Basicのいずれにおいても必要である.利用登録の手続きは,以 下のとおりである.最初に,利用者は,ABSのウェブサイトにあるRegistration Centerに,自身 で登録を行う.登録の際は,氏名,所属組織,電話番号,住所,メールアドレス,パスワード等の 入力が必要である.その上で,ABSより,ユーザーIDとパスワードを獲得する.一度,自身のア カウントを作れば,利用者は,全ての無償サービスにアクセスすることができる.なお,利用者が TableBuilder Proを利用したい場合,利用者が所属する機関を介しての登録が,別途求められる.
つぎに,TableBuilderの利用者は,表 ₆ に示されるような利用規約を遵守することが求められ る.具体的には,IDおよびパスワードに関しては,利用者に厳重な管理を求めており,違反者に は罰則も設けている.具体的には,TableBuilderの利用者については,本人のID以外からの利用 は認められておらず,また,自身のIDを他人に貸し出すことも禁じられている.
表 5 TableBuilderの利用者数と利用目的
利用者 利用者のタイプ 利用目的
Census
TableBuilder Pro
₁₀,₀₀₀人
(2₉₀機関)
◦研究機関(スタッフ・学生)
◦政府・地方公共団体 ※政府機関は,連邦政府,
州政府
◦ 地方公共団体では人口や年齢の概略把握 に利用している.
◦ 研究機関では教育の一環としても利用し ている.
◦ 大学が教育目的で利用する際,費用面で の優位性が効く.
TableBuilder
Basic ₈₅,₀₀₀人 ◦民間企業を含む様々な機関
◦ 様々な目的で利用されている(民間企業 ではマーケティング等に用いるケースも ある).
Census以外
₈,₀₀₀人
~
₁₀,₀₀₀人
◦様々な機関
◦ Censusデータ以外においては,地域区
分が粗すぎるため,地方政府にはあまり 利用されない.
注 本表は,2₀₁₆年 2 月にオーストラリア統計局(ABS)に対して行ったヒアリング調査をもとに作成した.なお,聴取対 象によって,利用者数に対する認識が異なっていたが,表 ₅ では,一例としての回答を記載している.
本人のIDを利用しているか否かの確認は,システムで自動的に行うのではなく,ABSの職員 が,利用者に直接電話して行っている.なお,電話で確認した結果,利用者以外の人物がTable-
Builderを利用していることが判明した場合には,その者に罰則を適用することとしている.
なお,ABSによれば,利用者本人及び利用者の所属する機関が利用規約を違反することによっ て利用が停止されるケースもある.ABSの担当者によれば,違反者(初回)に対しては, 3 ヶ月 のTableBuilderの利用停止, 2 回目の違反者には₁2ヶ月の利用停止措置を行っているとのことで ある.
TableBuilderのアカウント有効期限は,最大 ₁ 年である.毎年 ₆ 月3₀日に,TableBuilder内の データが更新されることから,その時点で有効期限は切れることになっている.したがって,継続 の意向を持つ利用者は,再申請を行う必要がある.なお,利用料金については,TableBuilder Basicの場合,先述のとおり料金は無料であるが,TableBuilder Proについては,センサスデータ については$2,3₅₀,それ以外のデータに関しては$₁,₁₈₀となっている(2₀₁₇年₁₀月時点).
ところで,TableBuilderでは攪乱を用いた表を利用者に提供している.この攪乱的措置の結果,
どの程度データに信頼をおけるのかに関して,周知することが求められる.この点について,
ABSはつぎのような対応を行っている.
① 利用者にはまず,TableBuilderの利用者ガイド(オンラインで提供され,TableBuilderにおけ る利用上の制約を記載している)を読むことを要請している.
② 公的統計に関する情報,すなわち,どのようにデータが収集されたか,また,サンプルやデー
名称 内容
Terms & conditions
(利用規約)
① 自分のID,パスワードを他人,または他の組織に提供しないこと.
②サービス利用において保存した図表等は,自身の責任で管理し,オーストラリア統 計局は一切関知しないこと.
③ 組織を介してアカウントを保有する場合,退職等をした際に,それを申し出ること.
ABS Conditions of Sale
特に著作権について以下の対応をすること.
・ TableBuilderの再生産,再販,流通,機能の一部取り出しや他機能との重ね合わせ の禁止.
・ 著作権法(Copyright Act ₁₉₆₈)の第₄₀条~第₄3条に該当するレベルでの引用,過度 な抜書きの禁止.
・出所におけるABSの明記.
・ABSの定義した用語の書き換えの禁止.
・ データ分析後のデータに対する「ABSによる」との記載の禁止(自身で加工したこ との明記).
注 ABS Conditions of Saleは,TableBuilder以外の政府統計の二次的利用にも適用される.
出所 http://www.abs.gov.au/websitedbs/D33₁₀₁₁₄.nsf/home/ABS+Conditions+of+Sale
タアイテムのリスト等の情報は,個々のTableBuilderのデータセットごとに提供される.
③ TableBuilderのウェブサイトでは,「小さい値やRSE(標本標準誤差)の大きい結果に対して は,そのデータに信頼を置かない(“No reliance should be placed on small number cells or cells with large percentage Relative Standard Error (RSE) values”)」という記載によって,利用者 に注意喚起をしている
ただし,具体的に「どの数字以下を小さい」とするか,「RSEが大きいとはどの程度か」等を示 したものは,TableBuilderにおいて提供されない.オンデマンドで作成された集計表によっては,
RSEに関する記載がなされていない場合もあることから,利用者は利用目的と照らし合わせなが ら,自身の判断で,データに対する信頼の範囲を決めることが求められている.
₄ .オーストラリアの
TableBuilderにおける秘匿処理の考え方について
『統計法』では,いかなる秘匿情報も公開をさせないように処理を行った上で,結果を公表する ことが求められている.そのため,TableBuilderは,個票データを集計した「元の集計表」に対 して,意図的に「ノイズ(攪乱値)を付加する」ことで,データの秘匿性を担保している.そのた め,TableBuilderにおける秘匿処理の重要な特徴は,TableBuilderの集計システムによって得ら れる全ての集計表に対して攪乱的措置が施されていることにある.
ABSは,秘匿性の担保の方法として,「わずか」なノイズ(攪乱値)を入れる手法が,利用者に とって,もっとも満足のいく技術であると主張している.この「わずか」な攪乱を行うことによっ て,真の値から乖離することから,ABSは,TableBuilderの利用に際して,「小さい値やRSE(標 本標準誤差)の大きい結果に対しては,そのデータに信頼を置かない」ことについて,利用者に注 意を促している.また,個票データから「元の集計表」を作った後でセルにノイズを付与している ことから,作成された集計表内のセルの値を積み上げると(「加算性」),合計値と合わなくなる場 合もあることを注意喚起している.
以下では,この攪乱をどのように行っているのかについて述べることにしたい.ノイズを入れる ことによって,分析の対象となる統計表の中の数値が大幅に変わった場合,利用者にとっての情報 損失は小さくないと思われる.特に,表の平均値がずれたり,表のデータの分散・共分散構造が崩 れたり,また,「 ₀ 」という結果が「 ₀ でない」結果となってしまったりすることは,分析対象と なる集計表の価値を著しく減じることが考えられる.したがって,ABSは,以下を前提とした攪 乱的手法を適用している.
① ノイズ付与に用いる数値の平均値は ₀ である.
② 真の結果が ₀ である場合,その値にはノイズを入れない.
③ 標本調査についても,ウェイトやウェイトをかける前の値にノイズを入れるのではなく,あく
入れ方を極力変えない).
④ 同じ変数群に関する集計表を生成する場合は,常に同じノイズ(攪乱値)を加える.
特に,第 ₄ の特徴は,Differencing Attackと呼ばれる秘匿情報へのアクセスに対抗する手段で ある.攪乱する値が,集計表の生成ごとに異なる場合,何度か集計表を生成し,中身を比較してい くことで,集計表の中の小さい数値を判別し,その内容を推測することが可能となる場合もある.
この行為に対抗するため,TableBuilderでは,同一の集計表を作成した場合には,必ず同じ値の ノイズを入れる工夫がなされている.
図 2 は,TableBuilderにおけるノイズ付与のプロセスとノイズ付与がなされた集計表の提供の プロセスをまとめたものである.以下では,それぞれの特徴を述べる.
最初に,TableBuilderに用いられるデータであるが,このデータについては,TableBuilder Pro,TableBuilder Basicのいずれも,原データから名前や住所等の直接的な識別子を削除した非 識別化(deidentified) された個票データを用いている点は, ₁ つの特徴だと言える.
個票データ自体には,ノイズやスワッピング等の処理はされておらず,また,データキューブの ような中間集計表も用いられていない.したがって,幾つかのデータセットは非常に詳細なデータ 項目を有する場合もある.ただし,TableBuilderでは,最終的な統計表を出力する前に攪乱を入 れていることから,安全性に問題は無いと考えられている.
つぎに,攪乱に用いるpTable(Perturbation Look-up Table)と呼ばれる表が,事前に用意され ており, ₁ つの統計に ₁ つのpTableが設定される.pTableは,2₅₅行×最大3₀列の行列から構成 される.TableBuilderによって作成される集計表が利用者に提供される前に,pTableが適用され る.
調査票 個票データ
(非識別データ,
deidentified data)
攪乱用テーブル
(1つの統計に1つ用意)
個票データを
「生」の集計表用いた 利用者が見られる 集計表 オーストラリア統計局が事前に準備
TableBuilder利用者
TableBuilderで指示
自動的に付加 閲覧不可 図 2 TableBuilderにおけるノイズ付与のプロセス
注 本図は,2₀₁₆年 2 月にABSに対して行ったヒアリング調査の内容をもとに作成した.
Andersson et al.(2₀₁₅)によれば,pTableの作成は以下のように説明される.最初に,許容さ れる一連の攪乱(pertuabation)の分布を( ₁ )式で表すとする.
( ₁ )
そのとき,その攪乱の分布は,以下の( 3 )式を制約条件として,エントロピーの最大になるよ うに決定される(( 2 )式).
( 2 )
(制約条件)
( 3 )
なお,( 3 )式におけるlは,統計表に含まれるセルの閾値であり,Viは,許容される攪乱の分 散である.
つぎにpTableは,つぎのように設定される.ある統計表をベクトルt=(t₁,…tk)(kはセルの 数)で表す.各セルに対して,攪乱の行列p=(p₁,…pk)がpTableに保管されている.このと き,pTableの各列は,セルの度数の一覧表として示されている.k個のおのおののセルについて,
pkは,pTableにおけるtk番目の列から取り出される.pTableにおいて対応する行を見つけるた めに,すべてのレコードは,固定的な乱数であるレコードキーが割り当てられている.ある統計表 において特定のセルの度数が算出されると,その度数に対応するレコードキー(record key)が足 し上げられることによって,セルのキー(cell key)が求められる.このセルのキーは,一般には 32ビットの 2 進数の数字として記述される.これらの数字に基づいて,pTableにおける行が定ま り,それによって,特定のセルに対する攪乱が取り出される.統計表tに対する攪乱pが生成さ れると,秘匿処理が施された統計表は,
c=t+p ( ₄ )
で表現される.この攪乱済み統計表の作成においては,度数表におけるセル度数の分布とは独立 に,特定のセルに対しては同一の攪乱値が付与される.
図 3 は,pTableおよび集計表に対する攪乱のイメージを示したものである.攪乱前の集計表に おいて,A₁ 行B₁ 列の度数が ₆ であるとする.そのとき,pTableにおいては, ₆ 列目の度数の 一覧が選択される.つぎに,レコードキーからセルのキーが求められる.例えば,それが ₅ になっ
∏i πL i, … πU i
P (Bi=π) =-∑π∊∏i P(Bi=π) log (P (Bi=π))
P (Bi=π)≥ ₀, ∑π∊∏i P (Bi=π) =₁ i+π∊{₀, l, l + ₁,…}, l ≥ ₀
E (Bi=π) =₀ V (Bi=π) ≤vi
Perturbation Look-up Table
(pTable)
₁ 2 3 ₄ ₅ ₆ ₇ ・・・
₁ ₀
2 -₁
3 3
₄ -2
₅ -2
₆ ₀
・ 2
・ ・
・ ・
∏₆={πL₆, …, πU₆}
(例えば,{-3 ,…,3 })
・分布P(B₆=π)π∊∏₆(B₆:確率変数)を,
エントロピー-Σπ∊∏₆ P(B₆=π)log(P(B₆=が最大となるように決定π))
(制約条件)
P (B₆=π)≥ ₀ ∑ P (B₆=π) =₁
₆+π∊{₀, l, l + ₁,…}, l ≥ ₀ E (B₆=π) =₀
V (B₆=π) ≤v₆ π∊∏₆
(Perturbation前の集計表)
B₁ B2 B3
A₁ ₆ ₇ ₅
A2 3 ₀ 2
B₁ B2 B3
A₁ ₄ ₇ ₅
A2 3 ₀ 2
-2 だけ攪乱
Perturbation Look-up Table
(pTable)
₁ 2 3 ₄ ₅ ₆ ₇ ・・・
₁ ₀
2 -₁
3 3
₄ -2
₅ -2
₆ ₀
・ 2
・ ・
・ ・
他のセルに対しても 同様に攪乱する
調査項目A 調査項目B 調査項目C … Record Key
被調査者① ₁ ₁ ₁ … 2₉₄₇23₄₀2
被調査者② ₁ ₁ 3 … ₅₀2₁₉2₈₄₀
被調査者③ ₁ ₁ 2 … 32₀₄₈₅
被調査者④ ₁ ₁ ₁ … ₆₆₆₆3₄₀2
被調査者⑤ ₁ ₁ 2 … ₈₅22₈₄₆₄₈
被調査者⑥ ₁ ₁ ₁ … ₁₅₆₇₉2₄₁₁
Cell Key Record Keyを
“足し算”(mod)
・・・→5
例えば
① 攪乱の分布の設定
② 攪乱値の付与
たとすると, ₆ 列目の度数の列における ₅ 行目の数値である-2 が選ばれる.この-2 がA₁ 行 B₁ 列の度数 ₆ に付与されて,攪乱済みの集計表におけるA₁ 行B₁ 列の度数は ₄ となる.このよ うな処理が他のセルでも繰り返される.
その一方で,統計実務の観点から見た場合,このpTableの作成には,熟達した技能と経験が必 要となっており,秘匿性を担保しつつも,公的統計の収集からなるべく早期にTableBuilderでの サービス提供ができるよう,過去の経験を活用した表となっている.実際,秘匿性の十分な確保を 考慮しないのであれば,ABSは,半日程度で自動的に(プログラム等によって)pTableを作成す ることができる.その一方で,様々な角度からpTableが秘匿性に問題が無いかを検証し,もし問 題があれば,pTableを再度作成するという作業を人手で行っていることから,実際には数週間を 経て,作成された集計表が利用者に提供される場合もある.
このようなpTableの作成にあたっては,統計実務上の観点から,以下の ₅ 点を指摘することが できる.
① pTableの波形は, ₀ を基軸に左右対称なものである(ただし正規分布とは異なると思われる).
② 左右対称であるため,pTableには ₀ も含まれること(攪乱と言っても,必ず何らかのノイズを 入れるのではなく, ₀ が付与される(全く攪乱がされない)ケースもありうる).
③ ノイズの最大値,最小値は,経験則に基づいて決定している.
④ 人力で修正する作業を,₅₀~₆₀回程度の試行錯誤によって達成している.
⑤ 経験則に則ってpTableを作成しているため,この攪乱的措置が,どの程度,もとの公的統計 の情報に損失を与えるのか,どの程度,秘匿に係るリスクが内在したままであるのかに関する 評価は実施されていない.
上記の内容は,2₀₀₆年に,Fraser and Wooten(2₀₀₆)で展開されたTableBuilderに関する議 論とは,大きく異なるものとなっている.Fraser and Wooten(2₀₀₆)においては,pTableは,攪 乱の効果を最大限にするために,数理的かつコンピューターを用いた数値計算によって決定されて いた.ABSの担当者によれば,これは,基礎研究と実務との違いであって,論文に記載した内容 は,基礎研究として,あくまで学識者等との「コミュニケーション」のためのツールであると位置 づけられている.しかしながら,統計実務の面から見ると,pTableの作成方法に関するこのよう な基礎研究の実務への適用可能性を勘案した上で,pTableを作成していることが考えられる.
最後に,オンデマンドで作成された表に,pTableに含まれるノイズを付与するために,参照用 のRecord Keyを使っている点が,攪乱的措置の特徴として指摘される.先述のように,pTable は,2₅₅行×最大3₀列の行列で構成されるが,その中からどの数字を,どのように参照するかに関 しては,Record Keyが用いられている.Record Keyとは,個票データ(非識別データ)の ₁ レコー ドごとに割り振られた値であり,232の数字の中からランダムに付与された値である.この値は,
₁ つのミクロデータに対して一意に決められることから,途中で変わることは無い.利用者が
の数値を見ながら,Record Keyとの対応を図り,このRecord Keyに対して数学的処理を行うこ とによって,pTableのどのセルを参照すればよいのかが決定される3).これによって,同じ統計表 を生成する場合は,常に同一のノイズ(攪乱値,pTableのセル値)を加えることが担保される.
このような手法を用いて作られた,ノイズが付与された集計表は,安全性が高い集計表とみなさ れ,ABSの職員等の人手のチェックを介することなく,利用者に提供されている.利用者は,表 頭,表側を自由に選ぶことができる.それによって,TableBuilderにおいては,任意の粒度で集 計表を作成することも可能である.多次元のクロス集計表を,探索的に実施できる点は,Table- Builderの重要な特徴と言えるだろう.ただし,運用面から見ると,₆ ~ ₇ 次元のクロス集計表は,
₀ が非常に多く入ることから,そうした集計表の提供は困難なものと言える.
一方,地図へのマッピングについても,粒度の細かいレベルでの結果数値の提供が可能なだけで なく,安全性もABSによって担保されている(もっとも,ノイズ(攪乱値)の付与だけでは秘匿が 担保できない,または,セルに ₀ しか入らない場合には,統計作成・提供のサービスとして成立しない ため,利用者に結果数値の提供はなされない(表頭・表側における変数を選択する際に,変数が選択肢 に示されていない)ようにしている).なお,地図の粒度は,オーストラリア統計地理標準(Austra- lian Statistical Geography Standard=ASGS)に準拠しており,最小の統計的地域区分(Statistical
Area Level ₁ =SA₁ )であれば,オーストラリアの₅₄,₈₀₅地区すべてに関する詳細な地域区分に
ついて地図上での分析が可能である.
つぎに,秘匿処理に関する技術的な論点として集計表内の数字の整合性,特に加算性に関して は,以下のように述べることができる(表 ₇ ).
先述の通り,TableBuilderは,各セルに対してノイズを入れる手法を採用しているため,基本 的にはセルの合計と,予め提示された合計値とは一致しない.センサスデータを含むTableBuild- erで使用可能なほとんどのデータセットは加算性の技術を用いていない(2₀₁₇年₁₀月時点).しか しながら,加算性の技術が適用されることによって,セルの行と列に関する総和が保たれるように 調整が実施され,この加算性に係る整合性を担保するような処理がなされているデータセットも存 在する.その場合でも,加算性は特定の ₁ つの集計表の中でのみ担保されることから,例えば上述 したSA₁ のデータは,SA2(SA₁ よりも粗い地域区分)のデータと整合しない.
なお,集計表に対して攪乱を行っている時点で,数字の加算に係る整合性を厳密に図る必要はな いのではないかという疑問も生じる.この点については,オーストラリアの文化的な環境とも関係 があるものと推察される.具体的には,最低限,総計のみでも整合していればよいと考えられてい
3 ) この数学的処理には,高度な数学的な方法が用いられていることから,詳細については,Thompson et al. (2₀₁3) 等を参照されたい.
る可能性もある.
このように,TableBuilderの秘匿処理技術の特徴を明らかにしてきた.一方で,こうした攪乱 的処理を用いた統計データの「正確性」については,わが国とは基本的な考え方が異なることも考 えられる.TableBuilderから得られる集計表に対する攪乱的措置の考え方については,つぎの 3 点にまとめることができる.
① 利用者の一部は,攪乱の影響を懸念している.ただし,この処理によって,ランダムな誤差が 含まれるものの,集計表における有用性を大きく損ねるものではない.
② TableBuilderは,全てのセルにノイズを入れている.ノイズを付加されたデータではあるが,
ノイズはあまり大きくない.したがって,統計量としての分布特性は,ノイズを入れたとして も変わらない.
③ データセットに対して適用される攪乱の値は一定であるため,得られた結果数値をもって,
「真の値」として報告している.
オーストラリアの公的統計においては,法₁2条第 2 項に基づいて公表された統計表も含めて,何 らかの形で秘匿処理がなされている.このことは,TableBuilderを公的統計の二次的利用におけ る統計作成・提供サービスとして成立させるための重要な要件でもあると言える.オーストラリア では世帯・人口系の公的統計に対しては,TableBuilderと同様のノイズ(攪乱値)を入れているだ けでなく,事業所・企業系の公的統計に対しては,個体情報の秘匿性を確保するために閾値を用い た秘匿処理を行う等,別の手法も導入している.また,こうした秘匿処理の中には,偶発的な個体 特定を回避するための処理を行うことも含まれる.
つぎに,オンデマンド集計システムの安全性を確保するためのTableBuilderの情報システムの 表 7 加算性に関する整理
加算の整合性 あり なし
秘匿処理の 仕方
◦ テーブルの各セルに,ノイズ(攪乱値)
を挿入する.
◦ セルの行列の総和が保たれるように,
さらに調整を実施する.
◦テーブルの各セルに,攪乱を挿入す る.
留意点
◦ ₁ つの表の中で,データの整合は取れ ている.
◦ ただし,整合はあくまで ₁ つの表の中 に閉じており,調整は,それぞれの表 でなされるため,異なる地理レベル等 のデータ間での整合は取れていない.
◦ 表の中で,データの整合が取れていな い.
出所 http://www.abs.gov.au/ausstats/[email protected]/Lookup/by%2₀Subject/₁₄₀₆.₀.₅₅.₀₀₅~User%2₀Guide~Main%2₀Features
~Confidentiality~₁₀₀#ADDITIVITY
構成について述べることにしたい.TableBuilderの情報システムの構成は,図 ₄ に示されている.
その特徴としては,第 ₁ に,TableBuilderにおいて集計を行う上で用いているデータは,個票 データであることが指摘される.ただし,前述の攪乱的な方法を用いることによって,Table-
Builderにおいてはレコードの属性情報は露見されないことから,個体情報(人,世帯,車,事業
所,企業等)の秘匿性は全て確保される.それゆえ,個人等のプライバシーが漏洩することがな く,Database層で,TableBuilderに係る特別なセキュリティ対策は実施されていない.同様に,
秘匿性が破られることに対する危機管理マニュアル等も作成されていない.
なお,システム構成に関する特徴としては,データベースの構成と,TableBuilderのシステム 開発において,Space Time Research社(Space Time Research Pty Ltd.)という民間企業のリソー スを活用していることが指摘される.このSpace Time Research社は,ABSと₁₉₈₆年以降密接な 関係を構築してきた.TableBuilderの攪乱に関するアルゴリズム自体は,ABSによって開発され ているが,システムの開発,コーディングおよび,データベースの設計・開発は,Space Time
Research社によって行われている.特にデータベースは,オラクルやSQLサーバのような汎用
のデータベース製品ではなく,Space Time Research社によって独自に開発されている.その詳 細については,ABSも把握していない.Space Time Research社の開発したシステムによって,
公的統計データの高速処理が可能となっており,データ処理の多くは,即時的な対応が可能となっ ABS
Firewall
ABS Database
個票データ(非識別データ,
deidentified data)
ABS TableBuilder Select Select
Table Table
Basic Pro
撹乱技術
TableBuilderが 集計する際は,
個票データを利用 アーム
(サーバーの負荷分散ツール )
注 2₀₁₆年 2 月にABSで行ったヒアリング調査に基づき作成した.