• 検索結果がありません。

セキュリティの深さの定義とデータ追加の取り扱い(不変式論からのアプローチ)

N/A
N/A
Protected

Academic year: 2021

シェア "セキュリティの深さの定義とデータ追加の取り扱い(不変式論からのアプローチ)"

Copied!
18
0
0

読み込み中.... (全文を見る)

全文

(1)

セキュリティの深さの定義とデータ追加の取り扱い(不変式論からのアプローチ) 松井清 1.はじめに  社会調査などで,データを再分析し,様々な仮説を検証したいという要望がある.データ収集時,明らかに されなかった点について,新たな手法等を用いて再度解明するという意味で,これを 2 次分析という.今日統 計制度改革の議論が盛んである.行政側でも「統計行政の新たな展開方向」という府省間の意見一致により, 匿名標本データの作成・利用など,統計データの 2 次的な利用を促進することが認識されている.統計法令上 の位置付けなど法制度面の問題に係る検討のため,2004 年総務省に「研究会」が設置され,また 2005 年には 内閣府に「委員会」が設置され,2 次的な利用者の位置付けが「公共財」との関係で議論されている.  セキュリティの維持とデータ開示はもちろん相反する関係である.以下次の内容を取りあげる.統計解析・セキュ リティを考慮したデータ公開のための数学的方法 ([6]),具体的にはいくつかのケース不変式のファミリーの値の セットに基づいて,セキュリティの深さの定義を与え,公開範囲の決定に資する.以前の報告 ([6],[7],[8],[9],[10]) の用語,基本記述,拡大記述,中間まとめに混乱がある.パラメトリックでない手法の取り扱いを考慮してい るために,この報告での中間まとめの概念が,[6],[7],[8],[9],[10] より拡大されている.そのため中間まとめに適 当な条件が必要である.パラメトリックな手法のための中間まとめを考えるならば,条件は通常成立する.  データセットを融合する場合,融合後の中間まとめが融合前の中間まとめから,作成されるのが望ましい. また現実に起こる問題で,データが随時追加されていく場合,元のデータセットを復活して追加データを加え て,改めて中間まとめを作成する方法は,セキュリティ上問題がある.追加前中間まとめと追加データから追 加後中間まとめを作成するのが望ましい.このような要請にかなう中間まとめの条件を考察する ([10]).  不完全データの解析は医薬認可に係る分野などでは特に重要である.現在までに様々な扱い方があるが,こ こでは最尤法によらない欠測値を扱うための条件と方法 ([9]) に触れておく.不完全データの解析では項目特性 の制約や中間まとめの内容の制約が生じる.異常値,外れ値の扱いに対応する方法にも言及する.  ここでいう中間まとめは数学的にはケース不変式のファミリーの値のセットと呼ぶべきであるが,直感的理 解のために中間まとめと呼ぶ.また要約統計という名称はすでに存在しているため使用を避けた.以下は [10] 及び報告「セキュリティの深さの定義とデータ追加の取り扱い」2006 年 1 月 14 日「個票データの秘匿措置と 開示データの利用に関する研究」(基盤研究(A)14208023)と「官庁統計の収集・公開・利用のための理論的 問題」(基盤研究(A)16203014)の合同研究集会において時間の都合上報告できなかった部分を加えたもので ある.また数学的な部分は報告「シチギーとデータ公表のための数学的方法」(2006 年 1 月 21 日数論土曜セミ ナー,学習院大学)をまとめた.  以下は数学的にはほとんど Hilbert,Weyl,H. Cartan の仕事に負っている.このような問題に不変式論の 応用という枠組みを付与することによって,数学及び関連する各分野の貢献を要する部分が浮かび上がると考 えた。広範な分野の多くの人々の挑戦を期待する。 2.ミクロデータの作成  セキュリティのために,各ケースの例えば氏名や企業名などデータの先頭部分の消去がよく行われる.利用 者側に立てば,情報を十分温存したまま利用できるという意味で,好ましい方法かもしれない.多くの場合そ の方法で十分かもしれない.このようなデータで統計解析を行う場合,出力された断片の扱いにもちろん十分 な注意が必要である.データ開示を幾らか自由に行うには,この方法は心許ない.データ開示の任に当たる立 場の人にとってあれこれの危惧が生まれるのは当然である.2 次分析の研究期間中,データファイルの厳然と した管理に努めても,当座の緊張が解けた後で,ファイルの完全な消去などに気懸りが残る.借り手側と契約 して,データセットを貸与し一定期間後に返却を要請する場合でも,データ漏洩の原因がデータの借り手だけ でなく,最終的に貸し手にないといえない.  データセットに自己の知るケースのデータが含まれている場合,例えば年齢や市町村名,あるいは年齢,病 院名や疾患名などで,特定のケースのデータが時に判別されてしまう.このような不十分なセキュリティで,2 次分析のためにデータの利用を許可するわけにはいかない.他方貴重な調査データファイルが十分に利用され てない.統計解析はデータセットの情報のそれ相当の簡約であり,先頭部分の消去では依然情報過多と考えら れる.  結局,利用を制限しないと,セキュリティが維持できないというジレンマがここにはある.このサイクルか ら幾らかでも脱したい. 3.方法提案の理由

(2)

(1)個々のデータを非公開とし,統計解析が十分実行できるような中間まとめのみを公開する.中間まとめか らは個々のデータは決して再現できない.セキュリティを考慮したデータセットの内容の記述である. (2)異なる解析手法の実行や将来解析手法に発展が生じたとき,保存されている中間まとめから解析を実行す る.主成分分析と因子分析の流行の交替を思い起こすとき,こういった観点からの必要が生じる.またデータ の解析を様々な立場の人に委ねることを可能としたい.解析結果に疑念をもった際の処置が必要な時代である. さらに 2 次分析など自己の所有でないデータセットを分析するといったを利用を促進したい. (3)各種の統計調査結果を統計解析が十分実行できる程度まで公表する.公表統計の発展を目指す.公共性の 高いデータの公開という公共財の問題に資する.これを推し進め集計作業を軽減する. (4)複数のデータセットを各データセットは非公開のまま,中間まとめの融合によって,より大きなデータセッ トを実質的に構築する.メタ・アナリシスに類した中間まとめ作成である.もちろん融合後なにが必要かにつ いて事前にしっかりとした設計が必要である. (5)特別な現実的場面を考える.データが徐々に追加されていく場合である.追加前のデータセットを復活せ ず,新しい中間まとめが一つ手前の中間まとめと追加データから構成できることが重要である.例えば個人情 報保護の観点から元のデータセットはできるだけ手許に置かないことが肝要である.この場合しっかりとした 検討後,必要な中間まとめのみの蓄えに留める決断が必至である. (6)最近はデータ獲得が困難,かつ欠測が生じ易い状況にある.しかし公表される統計の多くは完全である.統 計学の進歩を期待して,欠測を容認した真実に近い統計の公表はできないか?高い回収率でも残りは欠測であ る.統計の公表に,欠測は馴染まないと考えられるが,現実は回収率が低く,欠測が考慮されるべきである. 欠測値や異常値を過度に処理して歪んだ欠測のないデータを提供しない.欠測があることを前提として,欠測 のまま集計し,統計解析は利用者に任せる.欠測データセットの中間まとめをセキュリティを考慮して行う.   (4)(5) の場合,それぞれ融合可能な中間まとめ,追加データ可能な中間まとめか否かが問題である.パラメ トリックな手法の場合考えられる中間まとめは通常そういった性質をもつ.  なおデータファイルのほか中間まとめのファイルを実際に作成するか,データファイルから情報を出す際に 中間まとめのみを通過させるように制限するかという現実的問題がある. 4.その他の例 (1)企業等のデータ累積  顧客等のデータを企業がある目的で使用するため,顧客等から許可を得て,データを蓄積していくことが, 個人情報保護等により,セキュリティ上の問題を生じさせている.解析して様々な結果をみる過程が,管理上 の強い制限を受ける.今後更に種々の困難が生じる.データセットに対し統計解析を行う場合に限定すれば, ここで述べる方法が有効と考えられる.  データセットの現実的な更新について具体的に補足しておく.2677 人のデータセットに 74 人のデータが追 加されたとき,今までの 2677 人のデータセットを復活して 2751 人のデータセットの中間まとめを再構成しな ければならないならば,実際上問題がある.過去のデータセットを新たな中間まとめの作成のためにいつも保 持しておかねばならないからである.その保持からデータが流出する可能性がある.ここで述べる方法による ならば,追加前の 2677 人の中間まとめと追加分の 74 人のデータから追加後の 2751 人の中間まとめが構成さ れる.元のデータセットを保持しておく必要はない.公共性の高い分野でデータセットの中間まとめが,デー タ収集の進捗状況に従って持続的に開示されるようになれば,新たな利用が生じる. (2)医薬認可  医薬認可に係るバリデーションがわが国に導入されて久しい.この方面で本質的向上を目指すためには,異 なる立場でのデータセットへのアクセスが必要であるという意味で,ここにも 2 次分析と同じ枠組みが見えて くる.この分野に将来広範な開示が求められる可能性がある.セキュリティが維持される状態での他者による 統計解析の確認である.現在様々な分野で解析それ自身の信頼が問題となっており,当局の負担も過重となる 可能性がある.開示された中間まとめへの数多くの人々によるアクセスはより高いバリデーションをもたらす. 5.セキュリティのレベル

(3)

 年齢 62 歳の人がデータセットの中にあることがわかっても,その人の他の項目が開示されなければよいと いったタイプのセキュリティがある.項目ごとにセキュリティに異なるレベルを設定してよい場合があると考 えられる.ここで述べる方法で取り扱われるセキュリティには種々の段階があり,セキュリティのレベルの調 整が可能である.なお利用者ごとに異なる中間まとめの開示に応じると,利用者間の情報で全体としてセキュ リティが崩れる可能性を考慮しなければならない. 6.ケース不変式の方法と統計解析  ケースごとの各項目の値を一切開示せず,中間まとめと名づけた情報の開示により,統計解析が実行でき,一 方で開示によってもデータは再現されない方法が可能であることを報告する.もちろん分散分析やロジスティッ ク回帰分析などが通常設定される中間まとめから可能である.ロジスティック回帰分析について最尤推定に難 があるという見解が多く,いくつかの方法 ([3],[11]) からはじめて,より良い推定のために充実した中間まとめ の作成を行うべきである.中間まとめのボリュームの増大により,分布を仮定しない統計解析が可能である.  グラフによってデータの当てはめの度合いをみるという重要な方法は不可能となる.統計学が数学的傾向を 増すことに懸念の向きもあろうが,以下の方法に類した多分に数学的色彩の濃い手法の開発が期待される.例 えば y = ax + b + e, (e : 誤差) に対して,Cov(x, e) = E(e) = 0 と仮定すれば,a, b が求まるが,もちろんそれ で十分ではない.

E(x2(ax + b + e))− E(x2y)

E(x(ax + b + e)2)− E(xy2) や

E((ax + b + e)3)− E(y3)

などにより,E(x2e), E(xe2), E(e3)などを評価し,当てはめの度合いを確認する.このような方法をグラフの

代わりとして用いる.当てはめの度合い等の確認が中間まとめのボリュームを増大させる可能性は大きい.統 計解析について一般にはあまり用いられない手法の必要が生じる. 7.理論的基礎  自然科学でよく用いられる回帰分析を取りあげてみよう.x, y の影響が z に一次式として作用し他の何か例 えば誤差が加わったと考え, zi= axi+ byi+ c + ei(i = 1, 2, . . . , m) とする.回帰係数の推定量 ˆa, ˆb, ˆc,誤差の分散の推定量 ˆσ2の計算を思い起こそう.よく知られているように, 例えば最小自乗法による ˆa, ˆb, ˆcx1, x2, . . . , xm, y1, y2, . . . , ym, z1, z2, . . . , zm の有理式であり,しかも式の分母分子とも次数は 2 次程度である.具体的には正規方程式より,美しい方程式   ∑m i=1x2im i=1xiyim i=1xim i=1xiyim i=1y 2 im i=1yim i=1xim i=1yi m    aˆˆb ˆ c   =   ∑m i=1xizim i=1yizim i=1zi   が導かれ,ˆa, ˆb, ˆcが求まる.この方程式はもちろん  xy11 z1   ,  xy22 z2   , . . . ,  xymm zm   の置換について不変である.誤差 e1, . . . , emの分散 σ2の推定についても,不偏推定量 ˆσ2は ˆ σ2= 1 m− 3 mi=1 (zi− ˆaxi− ˆbyi− ˆc)2 であり,同様にケース番号の置換に不変である.

(4)

 しかし,本来この事実はこのような計算式の確認前に明らかである.具体的に m = 5 として最初の式を記 せば, z1= ax1+ by1+ c + e1, z2= ax2+ by2+ c + e2, z3= ax3+ by3+ c + e3, z4= ax4+ by4+ c + e4, z5= ax5+ by5+ c + e5 であるが,ケース番号を換えて, z3= ax3+ by3+ c + e3, z4= ax4+ by4+ c + e4, z2= ax2+ by2+ c + e2, z1= ax1+ by1+ c + e1, z5= ax5+ by5+ c + e5 と記しても議論は同じはずである.ここで述べた範囲に関して,  xy11 z1   ,  xy22 z2   , . . . ,  xymm zm   の置換によっても不変である.この事実は一般にいえることである.  すなわち根本的なアイデアは, 「統計計算はケース番号の置換に対して不変である.」 という事実である.もちろん項目として性があれば,男の中でのケース番号の置換,女の中でのケース番号の 置換について別々に考える.簡単のためにひとまず,そのような状況を横に置いておく.ケース番号 34 のデー タをケース番号 18 のデータと交換しても統計解析は同じ結果でなくてはならない.数学的にいえば統計計算 は,サンプル数を m とするとき,対称群 Sm不変である.このことをケース不変であるといおう.   ”計算とは何か? ”が問題となる.和差と積まず多項式を考えよう.簡単な例で考える.項目は通常複数で ある. (x1, x2, . . . , xm), (y1, y2, . . . , ym), (z1, z2, . . . , zm) を 3 項目 x, y, z のサンプル数 m のデータセットとしよう.ケース 1 のデータは  xy11 z1  ,ケース 2 のデータは  xy22 z2  ,…,ケース m のデータは  xymm zm   である.通常の統計解析ソフトでは横が項目,縦がケースで, x1, y1, z1 x2, y2, z2 .. . ... ... xm, ym, zm である.まず 3m 個の変数 x1, x2, . . . , xm, y1, y2, . . . , ym, z1, z2, . . . , zm から作られる多項式環 K[x1, x2, . . . , xm, y1, y2, . . . , ym, z1, z2, . . . , zm], ここで K はとりあえず複素数全体,がデータからの和差と積の計算全体である.これについて対称群 Smに対 する不変式環 K[x1, x2, . . . , xm, y1, y2, . . . , ym, z1, z2, . . . , zm]Sm

(5)

が和差と積による統計計算において重要となる.これは多項式 f (x1, x2, . . . , xm, y1, y2, . . . , ym, z1, z2, . . . , zm) で w∈ Smによる変換,別の言い方をすればケース番号の変更によっても不変な f (xw(1), xw(2), . . . , xw(m), yw(1), yw(2), . . . , yw(m), zw(1), zw(2), . . . , zw(m)) =f (x1, x2, . . . , xm, y1, y2, . . . , ym, z1, z2, . . . , zm) であるような多項式の全体である.すなわち不変式環の生成系つまり Smによる基本不変式とその関係式等が 問題の核心である.Hilbert の仕事によりこの不変式環はもちろん有限個の生成系をもつ ([4],[5]).したがって 利用者が要求する不変式を基本不変式の一部のファミリーのみの開示にとどめれば,セキュリティが守られる ことになる.  詳細に述べるならば超越次数を考慮せねばならない.また項目ごとのセキュリティを考慮することが必要で ある.通常の統計解析では基本不変式全体に比べかなり少数のファミリーのみで十分である.もちろん斉次な 不変式の開示が通常要求され,最終的には Molien 級数や syzygy が技術的に問題となる.ケース不変式選定に ついて,利用者の要求が強ければ簡単ではない.

 多項式の場合の不変式環では Weyl が古典群の vector invariants で取りあげている typical basic invariants と呼ばれている基本不変式がある ([12]).Weyl の typical basic invariants はよい性質をもつ.

 多項式に続いて,有理関数,解析関数の系列がある.もちろん計算は無限和まで含めないと実用的ではない. 鍵は解析空間の有限群による商空間についての H. Cartan の理論である.多項式における不変式環の生成系を 斉次に取れば収束冪級数の不変式環の生成系となる ([1]).報告 [6] は H. Cartan によってはじめられた理論の 存在によった.  以下代数幾何学が中心的役割を演じる.現実的には統計学的に望ましい不変式開示の要求があり不変式論的 に望ましい不変式が中心に据えられるとは限らない.さらに実際の計算に向かうと,ボリュームの大きい不変 式開示の要求が生じれば数値解析的側面と数式処理ソフトの関係が生じるであろう.サンプル数 m は通常非 常に大きいため,表現論,組み合わせ論の議論が生じた場合,実用性が問題にならないように配慮せねばなら ない.  パラメトリックでない手法を考えると,Wilcoxon の 2 標本検定などを順位和でコントロールして,当面順 序和の導入に限定した進め方が妥当であろうか?あるいは統計解析の進歩を仮定して,連続関数を考慮する必 要があろうか?連続関数の不変式環は統計解析に実際上のどのような意味を与えるであろう?最大値や範囲の 大きさ max{x1, x2, . . . , xm}, max{xiと xjの差|i, j = 1, 2, . . . , m}

はケース不変式である.さらに例えば関数 max{x1, x2, . . . , xm} は連続関数である前に,piecewise linear でさ

えある.piecewise linear 写像の不変式を扱うことは統計解析にどの程度の意味を与えるであろう?  当面連続関数についての古典的な事実を添えておこう.ユークリッド空間のコンパクト集合 A で定義された 連続関数 f について任意の ² > 0 に対し,supx∈A|f(x) − h(x)| < ² をみたす多項式 h が存在するというワイ エルシュトラスの多項式近似定理を用い,Sm不変な連続関数は Sm不変な多項式近似できる事実を用いると 述べておく.  ケース不変な連続関数をまず多項式で近似し,その多項式を対称群 Smの各要素で変換させ平均を取れば Sm不変な多項式がつられ,それで近似すればよい.近年の多項式近似の進歩は何をもたらすか分からないの で即断できないが,m が大きいと現実的ではないと考えられる.参考のため簡単な例を書きとどめておこう. max{x1, x2} は,(x1と x2の差) 2 つまり x2 1+ x22− 2x1x2≤ 2 で 1 2(1 n=1 (2n− 3)!! (2n)!! (1− (x 2 1+ x 2 2− 2x1x2))n+ x1+ x2) に一致する.ここで (−1)!! = 1.max{kx1, kx2} = k max{x1, x2}, k > 0 であり,x1, x2を適当な数で割って, うまく行えばよく収束する.なお max{x1, x2} = 1 2(x1+ x2+ (x1と x2の差))

(6)

つまり max{x1, x2} = 1 2(x1+ x2+ √ x2 1+ x22− 2x1x2) を利用してもパラメトリックな場合の不変式 x1+ x2と x1x2から最大値が計算できる.max{x1, x2, x3} = max{max{x1, x2}, x3} はもはや容易ではない.区分的に解析的といった範囲で議論するのみで十分ではないか と考えられる?連続関数の不変式の位置付けは課題である. 8.各セルごとに  この報告では質的項目と量的項目は扱いが異なる.原則的に以下のように取り扱う.例として配偶者有無と 性という 2 つの項目がある場合を考えてみよう.  データのサンプル数が少なくなると,情報の開示により当然セキュリティが危険にさらされる.配偶者有無, 男女で 2× 2 のセルに分けられる.あるセルのデータが少ない場合,そのセルのデータのセキュリティが破ら れやすい.当然各セルでのサンプル数とセキュリティが関係してくることになる.各セルごとにセキュリティ の深さの次元を計算する.例えば女配偶者有のセルのセキュリティの深さが不十分ならば 2× 2 のセルごとの 開示は不可能で,例えば男女の各セルの開示となる.配偶者有無の各セルの開示も可能かもしれない.開示に は多分に現実的な判断が必要で,次元の計算を直ちに行って開示の要求に対応できるソフトの開発が必至であ る.この手法で取り扱うセキュリティの深さには様々な段階がある.各セルごとのセキュリティの深さの次元 の考慮だけでなく,各セルの項目ごとのセキュリティを考慮して開示レベルの調整が行われる.さらに配偶者 有無と性と子供有無であれば,最も下位のセルは 2× 2 × 2 個ある.それに至るセルの下降列のどのあたりの セルの開示を図るべきかが問題となる.統計解析が発展すれば現実的対応はかなりの労力を伴う. 9.セキュリティの深さの定義  方法について平易に述べる.データセットに 2 つの項目があって,サンプルが 3 個 ( 1.8 4.6 ) , ( 4.2 7.6 ) , ( 5.6 8.9 ) あるとしよう.まず 2 次元 K2の 3 点を 6 次元 K6の点        1.8 4.6 4.2 7.6 5.6 8.9        とみる.サンプルを ( 1.8 4.6 ) , ( 4.2 7.6 ) , ( 5.6 8.9 ) とリストしても, ( 1.8 4.6 ) , ( 5.6 8.9 ) , ( 4.2 7.6 ) ; ( 4.2 7.6 ) , ( 5.6 8.9 ) , ( 1.8 4.6 ) ; ( 4.2 7.6 ) , ( 1.8 4.6 ) , ( 5.6 8.9 ) ; ( 5.6 8.9 ) , ( 1.8 4.6 ) , ( 4.2 7.6 ) ; ( 5.6 8.9 ) , ( 4.2 7.6 ) , ( 1.8 4.6 )

(7)

としても同じである.つまり 6 次元 K6の中で,        1.8 4.6 4.2 7.6 5.6 8.9        と書いても,        1.8 4.6 5.6 8.9 4.2 7.6        ,        4.2 7.6 5.6 8.9 1.8 4.6        ,        4.2 7.6 1.8 4.6 5.6 8.9        ,        5.6 8.9 1.8 4.6 4.2 7.6        ,        5.6 8.9 4.2 7.6 1.8 4.6        と書いてもどれも同じでなければならない.つまり 6 次元空間 K6上に類別を入れ, {        1.8 4.6 4.2 7.6 5.6 8.9        ,        1.8 4.6 5.6 8.9 4.2 7.6        ,        4.2 7.6 5.6 8.9 1.8 4.6        ,        4.2 7.6 1.8 4.6 5.6 8.9        ,        5.6 8.9 1.8 4.6 4.2 7.6        ,        5.6 8.9 4.2 7.6 1.8 4.6       } を 1 つの要素とみなす.  データセットはこのように 1 つの点とみなされる.統計解析は 6 次元空間 K6にこのような類別を行った商 空間上の関数である.  関数計算の値の開示によってこの点つまりこのデータセットが特定されなければ,セキュリティは破られな い.数学的にいうならば統計解析を対称群 S3による 6 次元 K6の商空間 K6/S3上の関数とみる.統計解析 はいくつかの関数のこの点での値を計算することである.商空間 K6/S 3の点の値のファイバーの大きさがセ キュリティの議論である.元のデータセットと同じ統計計算結果となるデータセットはいくつかある.そのよ うなデータセットの集まりがこのファイバーである.セキュリティの深さは,同じ統計解析結果となるデータ セットが少ないか否かである.ファイバーの次元の大きさがセキュリティに関わり,次元が大きい程,セキュ リティの上で危うい部分が少ないと考えられる.  すなわち項目数 n サンプル数 m のデータセットを商空間 Kmn/Smの点とみなす.セキュリティの深さを次の ように定義する.統計解析のための開示つまり中間まとめとして,p 個のケース不変式のファミリー I1, I2, . . . , Ip を考える.I1, I2, . . . , Ipをまとめた I : Kmn/Sm→ Kp を考え,I1, I2, . . . , Ipのデータセットにおける値をそれぞれ a1, a2, . . . , apとしよう. dim I−1(     a1 a2 .. . ap    ), すなわちケース不変式のファミリーのデータセットの値のセットのファイバーの次元をセキュリティの深さの 次元と呼ぶ.  例として先の 2 項目 3 サンプルで, I1= x1+ x2+ x3, I2= x1y2+ x1y3+ x2y3+ x2y1+ x3y1+ x3y2 を開示することにすれば,セキュリティの深さの次元は 4 である.まず, I : K6/S33        x1 y1 x2 y2 x3 y3        7→ ( x1+ x2+ x3 x1y2+ x1y3+ x2y3+ x2y1+ x3y1+ x3y2 ) ∈ K2

(8)

を考える.dim K6/S3= 6で I が dominant より, dim I−1( ( 11.6 154.72 ) ) = 4 がわかる.  さらに例をあげてみる. I1= x1+ x2+ x3, I2= max{y1, y2, y3} ならば 4 次元である.  セキュリティの深さが 0 次元ならば,セキュリティ崩壊の不安が生じる.数学的にいうならば,上の最初の 例は代数多様体の射ととらえられる.I は 6 次元 affine 空間 K6の対称群 S 3による商空間 K6/S3から 2 次元 affine空間 K2への射ととらえられ,次元の計算は既存の代数幾何学の範疇で行う.しかしながら応用上,き わどい部分まで用いれば,不変式環の生成系や syzygy の実際の議論は簡単ではない.   2 番目のような例は複雑になると次元の計算が容易でない.次元を正確に計算しなくてもセキュリティの確 保のみならばいろんな方法が考えられる.  ここでは Weyl の意味での典型的な基本不変式を考えてとりあえず次数の低い部分からいくつかとって Weyl の意味での中間まとめと呼ぶこととしよう.モーメントに関わるケース不変式のいくつかを考えることも通常 多いであろう.   ARIMA モデルなどを扱う場合の特殊な例を取りあげておこう.n が十分大きく,時系列 xt, (t = 1, . . . , n) が定常的な場合,時間を項目に対応させ,サンプルの個数を 1,項目の個数を n と考えて, I1=ラグ 1 の標本自己相関, I2=ラグ 1 の標本偏自己相関, I3=ラグ 2 の標本自己相関, I4=ラグ 2 の標本偏自己相関, · · · I2l−1=ラグ l の標本自己相関, I2l=ラグ l の標本偏自己相関 を与えることになる.標本偏自己相関は Yule-Walker 方程式から求めてよいかもしれない.ともかく各項目す なわち各時点の値は判別できない.  生存時間分析は発展途上にある魅力的な分析である.ここで典型的なログラング検定を考えれば,項目が時 間で,そのケースがその時間でイベントが生じているか,打ち切りであるか,などを記録するといったように データセットの構造を変更する.項目の値は質的となる.  さて全体としてセキュリティが深くても,個々の項目ごとのセキュリティの深さも問題となる.上の最初の 例で考えよう.自然な包含 K[x1, y1, x2, y2, x3, y3]←- K[x1, x2, x3] を考え,まず S3不変式環をとり,その極大イデアル全体を対応させる Spm をとって affine 代数多様体を考え る.するとこれは項目 x のみを記述することである.つまり P : K6/S33        x1 y1 x2 y2 x3 y3        7→  xx12 x3   ∈ K3/S 3 を得る.これより項目 x についてのセキュリティの深さの次元は, dim P (I−1( ( 11.6 154.72 ) ) = 2

(9)

となる.なお I が代数多様体の射であれば一般論としては Zariski 位相による閉包の次元とした方が明確であ る.射の像の閉包は本来の射の像を僅か膨らますのみである.正確には閉集合の射による像は必ずしも閉では ないが,constructible であれば constructible であり ([2]),射の像は射の像の閉包のある稠密な開集合を含む という事実を用いる.中間まとめのボリュームによっては項目ごとのセキュリティに基本対称式,Schur 関数 等の計算が係わるような開示要求が生じるであろう.  極めて簡単な場合を例に syzygy の関与を考えてみる.項目 x, y で,サンプル数 2 で考える.つまり ( x1 y1 ) , ( x2 y2 ) については, u1= x1+ x2, u2= x1x2, v1= y1+ y2, v2= y1y2, w = x1y2+ x2y1 が Weyl の意味での基本不変式であり, w2− u1v1w + u2v21+ u 2 1v2− 4u2v2= 0 が u1, u2, v1, v2, wの関係式である.4 次元 affine 代数多様体 K4/S2は 5 次元 affine 空間のこの方程式で定義さ れる 4 次元超曲面と双有理である.開示の例を考えてみよう.

(1)まず体 K(u1, u2, v1, v2, w)は K(u1, u2, v1, v2)の 2 次拡大であり,u1, u2, v1, v2が開示されればデータセッ

トは 2 つの場合しかなく,セキュリティは瓦解する.項目ごとのセキュリティはもちろん崩壊している. (2)u1, v1, w開示によっても一応データセットに無限の組み合わせがある.この場合 u2, v2は完全開示のキーと なっている.Weyl の意味での基本不変式を考えるとき,全体のセキュリティと項目ごとのセキュリティの次元 がともに 0 でない極大開示の 1 つである. (3)K(u1, u2, v1, w) = K(u1, u2, v1, v2, w)であり u1, u2, v1, wの開示は完全開示となる.  このような議論をある程度体系的に行わねばならない.このことは可能であろうか.   Weyl の意味での基本不変式のうちの各項目の基本対称式 mn 個に注目すると,すべての基本不変式を添加 した体は,この mn 個の基本対称式を添加した体に対し代数拡大である.(1) の m = 2, n = 2 の上の例では 2 次拡大でセキュリティが瓦解すると述べたが,m が大きいと実際には計算不可能で事実上セキュリティは瓦解 しない可能性を考慮しなければならない.この代数拡大の次数はおおよそ m!n−1と考えられる.  例えば Weyl の意味での基本不変式を考える場合,全体のセキュリティと項目ごとのセキュリティが維持さ れる極大開示はどのようであり,差異を明確に位置付けできるであろうか?ある項目について基本対称式をす べて開示すれば,(3) のように対称性が崩れた特異な議論が始まる.  代数幾何学の枠組みから次が明らかである.通常の統計解析は低い次数の不変式で十分なことが多い.サン プル数が多い場合の大まかな議論では次を用いることができる. 定理 項目数 n サンプル数 m とする.つまりデータセットを Kmn/S mの点とみなす.中間まとめ I1, I2, . . . , Ip が多項式で表されているとする.p < mn ならば I1, I2, . . . , Ipによらずセキュリティの深さの次元は 1 以上で ある.p < m ならば I1, I2, . . . , Ipによらず項目ごとのセキュリティの深さの次元も項目によらず 1 以上である.

証明  p < mn と仮定する.I1, I2, . . . , Ipをまとめて I としよう.a をその値のセットとしよう.I : Kmn/Sm→

Kpのファイバーの次元 dim I−1(a)は dim Kmn/Sm− dim Kp= mn− p 以上であるから明らかである.

  p < m と仮定する. I : Kmn/Sm→ Kp のファイバーの次元 dim I−1(a)は mn− p 以上である.射影 P : Kmn/Sm→ Km/Sm は次元を m(n−1) = mn−m 次元落とす可能性がある.したがって閉包 P (I−1(a))の次元は mn−p−(mn−m) = m− p より小さくはならない.証明終

(10)

 統計計算が冪級数となっても次数の低い x1+ x2+· · ·+xmなどからはじまって,m が大きければ x1x2· · · xm などずっと先であり,すべてのケース不変式の値が得られていなくともある程度の満足が得られるということ は短絡に過ぎる.x1+ x2+· · · + xmが平均に係わるのに対し x1x2· · · xmは幾何平均に係わる.したがってど のようなケース不変式を開示中間まとめに入れるかの判断は多くの検討を要する.  項目 x, y, z で,サンプル数 3,つまり  xy11 z1   ,  xy22 z2   ,  xy33 z3   を考え,Weyl の基本不変式を以下のように, ϕ0() = 1 + 1 + 1 = 3, ϕ1(x) = x1+ x2+ x3, ϕ1(y) = y1+ y2+ y3, ϕ1(z) = z1+ z2+ z3, ϕ2(x, x) = x1x2+ x1x3+ x2x3, ϕ2(x, y) = x1y2+ x1y3+ x2y1+ x2y3+ x3y1+ x3y2, ϕ2(x, z) = x1z2+ x1z3+ x2z1+ x2z3+ x3z1+ x3z2, ϕ2(y, y) = y1y2+ y1y3+ y2y3, ϕ2(y, z) = y1z2+ y1z3+ y2z1+ y2z3+ y3z1+ y3z2, ϕ2(z, z) = z1z2+ z1z3+ z2z3, ϕ3(x, x, x) = x1x2x3, ϕ3(x, x, y) = x1x2y3+ x1x3y2+ x2x3y1, ϕ3(x, x, z) = x1x2z3+ x1x3z2+ x2x3z1, ϕ3(x, y, y) = x1y2y3+ x2y1y3+ x3y1y2, ϕ3(x, y, z) = x1y2z3+ x1y3z2+ x2y1z3+ x2y3z1+ x3y1z2+ x3y2z1, ϕ3(x, z, z) = x1z2z3+ x2z1z3+ x3z1z2, ϕ3(y, y, y) = y1y2y3, ϕ3(y, y, z) = y1y2z3+ y1y3z2+ y2y3z1, ϕ3(y, z, z) = y1z2z3+ y2z1z3+ y3z1z2, ϕ3(z, z, z) = z1z2z3 とリストする.  項目数 n でサンプル数 m とすれば,Weyl の基本不変式の個数は m+nCn= (m + n)! m!n! である.ただし,サンプル数 m =mi=11は重要な情報でここではカウントした.dim Kmn/Sm= mnを考え

(11)

れば Weyl の基本不変式の間に多くの関係式があることがわかる.個数は上の例で, ϕ0() ii ϕ1(x) 0ii ϕ1(y) i0i ϕ1(z) ii0 ϕ2(x, x) 00ii ϕ2(x, y) 0i0i ϕ2(x, z) 0ii0 ϕ2(y, y) i00i ϕ2(y, z) i0i0 ϕ2(z, z) ii00 ϕ3(x, x, x) 000ii ϕ3(x, x, y) 00i0i ϕ3(x, x, z) 00ii0 ϕ3(x, y, y) 0i00i ϕ3(x, y, z) 0i0i0 ϕ3(x, z, z) 0ii00 ϕ3(y, y, y) i000i ϕ3(y, y, z) i00i0 ϕ3(y, z, z) i0i00 ϕ3(z, z, z) ii000 と対応させれば, 2C2+3C2+4C2+5C2 個あることがわかる.これを一般化すれば, n−1Cn−1+n−1+1Cn−1+· · · +m+n−1Cn−1 個である.これを計算してm+nCnがわかる.dim Kmn/Sm= mnは各項目の基本対称式の個数の総和に等し く,n が小さくてもm+nCnと mn の差は大きく,多くの統計解析がケース不変式を十分使用しておらずデー タセットの利用が十分でないことを暗示している. 10.追加データによって維持される中間まとめ  簡単のため次のような例を考えよう.3 サンプル 2 項目のデータセットに対し典型的な基本不変式のうちの 3つからなる Weyl の意味での中間まとめ I1(3) = x1+ x2+ x3, I2(3) = y1+ y2+ y3, I3(3) = x1y2+ x1y3+ x2y3+ x2y1+ x3y1+ x3y2 を考える.データ x4, y4が追加されると, I1(4) = I1(3) + x4, I2(4) = I2(3) + y4, I3(4) = I3(3) + I1(3)y4+ I2(3)x4

(12)

である.I1(4), I2(4), I3(4)が I1(3), I2(3), I3(3), x4, y4で計算できる.このような中間まとめを追加データ維持

型と呼ぼう.Weyl の意味でのこのような自然な中間まとめは追加データ維持型である.  また例えば m が大きく x1, x2, . . . , xmに異なるものが存在するとしよう.

I1(m) = max{x1, x2, . . . , xm},

I2(m) = second max{x1, x2, . . . , xm}

も追加データ維持型である.ここで second max はタイを除いて 2 番目に大きい値とする.second max{3.1, 4.2, 4.2, 3.6, 6.1, 3.7, 6.1} = 4.2である.  範囲の大きさ I1(m) = max{xiと xjの差|i, j = 1, 2, . . . , m} だけでは I1(m + 1)が I1(m)と xm+1で表せず,追加データ維持型ではないが, J1(m) = max{x1, x2, . . . , xm}, J2(m) = min{x1, x2, . . . , xm} は, J1(m + 1) = max{J1(m), xm+1}, J2(m + 1) = min{J2(m), xm+1} より,幸い追加データ維持型であり,I1(m) = J1(m)− J2(m)であるといったように僅かの工夫によって追加 データ維持型になる.項目 x のデータ x1, x2, . . . , xmについて,パラメトリックでない場合,次は重要な役割 をもつと思われる. I1(m) = #{i|xi< 14}, I2(m) = #{i|14 ≤ xi< 16}, I3(m) = #{i|16 ≤ xi< 18}, I4(m) = #{i|18 ≤ xi< 20}, I5(m) = #{i|20 ≤ xi< 22}, I6(m) = #{i|22 ≤ xi< 24}, I7(m) = #{i|24 ≤ xi} も追加データ維持型である.ここで # は個数を表す.  データの追加のたびに中間まとめを開示すれば,以前の開示と今回の開示から追加データが開示されてしま う.したがって追加データのケースのある程度の累積が必要である.先の例で考えれば, I1(5) = I1(3) + x4+ x5, I2(5) = I2(3) + y4+ y5, I3(5) = I3(3) + I1(3)(y4+ y5) + I2(3)(x4+ x5) + x4y5+ x5y4 で I1(3), I2(3), I3(3), I1(5), I2(5), I3(5)が開示されれば,4, 5 番目の追加ケースのデータのセキュリティが問題 になり,それのため {    x4 y4 x5 y5    ∈ K4/S 2| 上の 3 つの式 } の次元がまず問題となる.この例では次元 1 である.P : K4/S 2→ K2/S2を項目 x への射影として,項目 x のセキュリティのために,上の P による像の次元が問題となる.項目 y も同様である.  まず項目数を n とする.厳密に定義するならば,m 番目までのケースに l 個のケースを追加したとき,追加 データ維持型であるとは, I(m) : Kmn/Sm→ Kp

(13)

をケース m までの中間まとめとし,Kln/Slを l 個の追加データの空間とし,自然な写像 cano. : Kmn/Sm×

Kln/Sl→ K(m+l)n/Sm+lと恒等写像 id. : Kln/Sl→ Kln/Slに対し,ψ : Kp× (Kln/Sl)→ Kpがあって

I(m + l)◦ cano. = ψ ◦ (I(m) × id.) なることをいう.  データセットの融合に対して維持される中間まとめの議論も同様である.またデータセット内部に上で述べ たような男女配偶者有無のような分割構造がある場合も同様に融合によって維持できる中間まとめでなければ ならない.中央値はこの意味でうまく行かない.  追加データ維持型の開示が融合の場合になることがある.上の Weyl の意味での中間まとめを考える.追加 4,5番目の中間まとめを I10(2), I20(2), I30(2)とすれば, I1(5) = I1(3) + I10(2), I2(5) = I2(3) + I20(2), I3(5) = I3(3) + I1(3)I20(2) + I2(3)I10(2) + I30(2) であり,追加データのセキュリティは中間まとめのセキュリティに帰着する.すなわち θ : K3× K3→ K3が あって

I(3 + 2)◦ cano. = θ ◦ (I(3) × I0(2)) が成立する.ここで I0(2) : K4/S 2→ K3は I10(2), I20(2), I30(2)を成分とする.追加データのセキュリティが追 加データの中間まとめの議論となり構造が単純となることは重要である.  異常値,外れ値の議論は追加データの逆で,削除データであり,上のように中間まとめで記述できれば,議 論はシンプルである.上の例で仮にケース番号 4, 5 を削除したいとする.I1(5), I2(5), I3(5)と削除のための I10(2), I20(2), I30(2)から削除された残り 3 つのデータセットの中間まとめ I1(3), I2(3), I3(3)が上の等式より求ま る.異常値,外れ値のレベルを設定し段階に分けて削除データセットの中間まとめを開示する可能性も考察す べきである.  追加データの中間まとめのセキュリティはケース数が少ないために開示中間まとめを考える場合 syzygy の 議論の必要が現実的に起こる.多くの統計解析が教科書的には中間まとめとして 2 次のモーメントと同等程度 で事足りるが,中間まとめ I1, I2, . . . , Ipの個数 p を多くする必要が生じれば簡単ではない.中間まとめがどれ も多項式で表されるならば,p より多い追加データが各セルごとに集まれば,定理より追加データの中間まと めを開示してもセキュリティが守られる.しかし現実はこのような多くのデータが累積するまで開示要求がな いとは考えられず,少ないデータの累積で追加データの中間まとめ開示を迫られることになる.Weyl の意味 での中間まとめであれば,そのケース不変式のファイバー I−1(a)を各項目に落とした像 P (I−1(a))の閉包の 定義方程式が基本対称式,Schur 関数等でどのように表されるか,など数学的な興味は尽きない.  異常値,外れ値ついては削除データは多くないはずであり,削除データのセキュリティを守るための方法は より厳しい考察となるはずである.  時系列分析と生存時間分析では追加データはここの扱いでは項目の追加となる.追加データをケースと項目 の両方について考える一般化が必要となる. 11.欠測値の扱い  不完全データの解析は医薬系分野では ITT の原則のため現時点でも重要であるが,今後さらなる発展がある と思われる.まず欠測部分が大きくそのケースを別に扱ってもセキュリティが崩れなければ,分けてまとめれ ばよい.したがって項目ごとの欠測パターンにあわせて,中間まとめを構成し,不完全データの解析の手法は 利用者に任せられる.セルごとに分解して取り扱う方法と同様である.ここでは欠測ケースが少ないときの問 題について述べる.少ない欠測ケースの特別な扱いはそこからセキュリティが瓦解する.  最大値と標本平均は欠測があればどうなるであろう.最大値は扱いにくい.このように欠測の場合中間まと めはかなりの制約を受ける.また欠測データ固有の問題がある.この問題を扱うここでの考え方を提示する. 様々な考え方がある.項目 x についての推定,例えば E(x) を推定する際,他の項目 y との関係を用いる立場, 例えば Cov(x, y) の関係から項目 x の欠測を埋める立場がある.欠測値を埋める方法の是非の問題がある.  この報告は欠測値を埋めることを前提としていない.欠測を埋めるという発想からは,欠測をもつケースの 欠測項目を全データセットの項目達の関係と欠測ケースの他の項目の値から埋める方法がよくとられる.もち ろんこれも一つの方法である.本来欠測ではなかったはずであるという考え方である.しかし現実は欠測であ

(14)

りそれを真摯に受け止める立場がある.データはある確率分布から取られたと考える.例えば性:女性,配偶 者:なしというセルで複数の項目の分布はしかるべき分布に従うと考える.その分布を欠測がある場合に推定 することとなる.確率分布を推定することを基本におく.  欠測データの取り扱いの難しさを考えよう.ある項目の欠測を当該ケースの他の項目から補足する考え方は 欠測箇所に都合のよいデータを仮定することになる.例えばモデルの確認のためには,モデルを邪魔しない値 を仮定することになる.するとモデルが異なれば異なる値が仮定されることになる.  ここではデータが確率変数(人の集団を扱うなら,人の特性値のようなもの)か確定変数(あまり一般的用 語ではなく,実験で自由に設定できる場合の温度のようなタイプ,数学変数とか定数と呼ぶことも多い.)かで 大きく影響される.  人文科学でよく用いられる回帰直線を考えてみよう.確率変数 x, y に y = ax + b + e, (e誤差) という構造があれば, a = Cov(y, x) V(x) , b = E(y)− aE(x) となり,さらに V(e) = V(y)− a2V(x)である.この段階ではこれは正確な計算であり,推定ではない.もち ろん次に平均,分散,共分散が推定されなければならない.これらが欠測をもったデータセットから推定され る.したがって欠測箇所を埋める方法を考え出さなくてよい.もちろん暗に欠測部分にも y と x の関係がある. ある欠測は測定不可能という異常値であったのかもしれない.欠測部分からは情報を取らない.欠測に埋め込 みを行ってどういった情報が取れるのであろう?結局元のデータセットの情報以上の内容が入るはずはない.  一方 x が確定変数のとき,例えば x1, x2, . . . , xmが温度といったような実験で設定できる場合を考える.温 度を記録し忘れたとき,温度という項目の情報からは実験したであろう漠然とした情報しか得られず,x の分 布という考え方は存在しない.x が確定変数のときには y1, y2, . . . , ymに欠測がなくとも xiが欠測ならば欠測 ケースの yiは推定に用いられることはない.x が確定変数の場合,誤差は本来小さいという考え方,例えば最 小自乗法を導入して a, b,誤差の分散を推定する.欠測値の議論がなければ a, b の推定は実質同じである.当 然欠測があれば検定の問題も異なった取り扱いが必要となる.ついでながら,異常値に対しても確定変数であ れば分布という概念が働かないので扱いは異なる.x が確率変数ならば分布のとらえ方によって,ある xiが異 常値とみなされる.  こういった考え方の下に議論されるため,不完全データの解析は大きく異なる.ここでの議論は確率分布を 推定する枠組みである.人文社会系で確率変数が多いのは当然であるが,医薬系でも回帰分析を用いる際 x, y がともに確率変数であることが実際は多い.  回帰直線の問題は一般性を失わない基本的な例である. y = ax + b +誤差, x = cy + d +誤差 を考えてみる.上式下式とも使用するデータが同じ部分であることが理想である.またできれば上式下式とも 欠測箇所以外のすべて使いたい.  具体的な式を示しておく ([9]). ( x1 y1 ) , ( x2 y2 ) ,· · · , ( xm ym ) , ( xm+1 · ) ,· · · , ( xm+p · ) , ( · ym+p+1 ) ,· · · , ( · ym+p+q ) というデータが得られたとする.m 個のデータが完全で,p 個のデータが x ついてのみ,q 個のデータが y に ついてのみ得られている.つまり m + p + q 個データのうち,p + q 個は一方が欠測値である.

 係数 a, b の推定値 ˆa, ˆbは Cov(x, y), V(x), E(x), E(y) を上のような考え方から推定して,

ˆ a = (m+p)(m+q) (m+p)(m+q)−m x1y1+···+xmym m

(x1+···+xm+p)(y1+···+ym+ym+p+1+···+ym+p+q)

(m+p)(m+q)−m x2 1+···+x2m+p m+p−1 m+p m+p−1( x1+···+xm+p m+p ) 2 , ˆb = y1+· · · + ym+ ym+p+1+· · · + ym+p+q m + q − ˆa x1+· · · + xm+ xm+1+· · · + xm+p m + p

(15)

である.本来 3 つのセルに分割すべき所を p, q が小さくセキュリティが崩壊するために融合して,例えば中間 まとめを, I1= m + p + q =サンプル数, I2= p =項目 y の欠測個数, I3= q =項目 x の欠測個数, I4= x1+· · · + xm+ xm+1+· · · + xm+p, I5= y1+· · · + ym+ ym+p+1+· · · + ym+p+q, I6= x21+· · · + x 2 m+ x 2 m+1+· · · + x 2 m+p, I7= y21+· · · + y 2 m+ y 2 m+p+1+· · · + y 2 m+p+q, I8= x1y1+· · · + xmym とすれば, ˆ a = (m+p)(m+q) (m+p)(m+q)−m I8 m− I4I5 (m+p)(m+q)−m I6 m+p−1− m+p m+p−1( I4 m+p) 2 , ˆ b = I5 m + q− ˆa I4 m + p である.m, p, q は I1, I2, I3から求まる.セルごとに中間まとめを作成する趣旨から本来 xm+1+· · · + xm+p, x2m+1+· · · + x2m+p などは独立に中間まとめにリストべきであるが,p が小さい場合セキュリティが破られる.そのためにセルの 融合が行われた.  この結果に満足していない.欠測に係る小さなセルをこのように隠すことでセキュリティが崩れないと確信 してはいない.むしろ欠測を埋めない方法に固執した結果である.あるセルに欠測が含まれていることを開示 すれば,セルの内部に欠測に対応する小さなセルが隠されていることがわかり,セキュリティが崩れる可能性 を危惧する。ともあれ欠測の場合のこのような部分的なセルの融合が理にかなうか否かは残念ながら課題であ る。後に推定を多少犠牲にしてセキュリティを維持する方法を述べる.  不偏性を重視したため,データは同一の分布から生じたと理解できる場合でなければならない.したがって 異常値,外れ値の混在は許されない.また欠測値があるときは,中間まとめはパラメトリックな場合であり, しかも統計学からの要求に沿った中間まとめが要求される可能性が強くなると思われる.  なお欠測の場合は欠測がいくつもの単項式に感染しない工夫が必要と考えられるが,次の例は気に留めてお くべきである. (x1+ x2+ x3)(y1+ y2+ y3) =(x1y1+ x2y2+ x3y3) + (x1y2+ x1y3+ x2y1+ x2y3+ x3y1+ x3y2) について,y3に欠測が生じたとき,効力を無くするためという意味合いで,y3= 0を代入した式はもちろん依 然正しい.つまり (x1+ x2+ x3)(y1+ y2+ 0) =(x1y1+ x2y2+ x30) + (x1y2+ x10 + x2y1+ x20 + x3y1+ x3y2) となり, J1= x1+ x2+ x3, J2= y1+ y2, J3= x1y1+ x2y2 開示でも, J1= x1+ x2+ x3, J2= y1+ y2, J3= x1y2+ x2y1+ x3y1+ x3y2 開示でも大差ない. 12.課題  サンプル数 m そのものの開示についてどのように考えるかという問題がある.セキュリティの深さの次元 など基本的に以上の議論では m の開示に対する問題は考察されていない.というより m の情報は前提である.

(16)

もちろんあるセルのサンプル数が m = 1 では以上の議論からそのセルについて他に何も開示できず,m = 2 で やっと総和の開示要求があればどのように対処するかが問題となる.セルの下降列の中でそのようなセルの情 報が表示されることさえない.しかし m = 1 は重要な情報で場合によってはそのセルが空でない情報を開示し たくないことがある.報告した方法は量的項目に対する扱いが主であり,質的項目などの扱いが不十分である.   0, 1 しか値をとらない場合その総和は 1 の個数である.量的な場合も値が限定されている場合通常の量的項 目と同様の考察を行うとセキュリティが瓦解する可能性がある.値が 1, 2, 3, 4, 5, 6, 7 でも中間まとめのボリュー ムが大きいと深く考察せねばならない.  ここで述べた方法は統計解析の流れを変更しているため,実現には統計解析のソフト再開発が必要である. セキュリティの深さの計算のためのソフト開発,データから中間まとめを作成するあるいは中間まとめで許さ れる情報の要求のみを許可するソフト開発が必要である.  このような流れを好まない立場では,本来のデータセット D の中間まとめ I1, I2, . . . , Ipのそれぞれの値 a1, a2, . . . , apが一致する別のデータセット D0を開示するのも一案である.ただし I1, I2, . . . , Ip以外は本来の データセットと一致しないという注釈が必要である.あるいは I1, I2, . . . , Ip以外を必要とする統計解析は実行 されないような歯止めを統計解析ソフトがもつことが必要である.  ともあれこの立場ではデータセットのセキュリティが崩壊するぎりぎりまでの中間まとめが要求されること になろう.どの程度が限界かはまさに syzygy の問題である.各セルごとにこのような本来のデータセットか らねじれたデータセット D0を構築するにはソフト開発を要する.ねじれたデータセットを開示の代用にする 立場では,前に述べたセルの下降列で開示セルを決定する考え方は利用できない.サンプル数 m の少ないセ ルは I1, I2, . . . , Ipの開示に耐えられず,そのようなセルの情報が開示されない配慮が必要である.欠測等で回 避する方法も否定できない.代理データセットの構築は現実には多くの問題がある.ともあれ実際に得られた データセットの数値から遠ざける操作にどのような数学的工夫があり得るかは興味深い.  ここで例を記しておこう.先の 2 項目 3 サンプル開示中間まとめ I1, I2では,先の現実に得られたデータ セット ( 1.8 4.6 ) , ( 4.2 7.6 ) , ( 5.6 8.9 ) の代わりに,例えば次ようなデータセットが代理開示される. ( 1.2 11.2 ) , ( 5.4 3.4 ) , ( 5.0 2.6 ) の開示中間まとめ I1, I2は実際のデータセットと同じである.このような例でも桁数と中間まとめを一致させ るような代理データセットの構築は簡単ではない.桁数に固執すれば整数論である.開示中間まとめが多けれ ば,代理開示データセットの構築はもはや容易ではない.現実のデータセットを想像できないような構築のた めに,いくつかのケース不変式の制約つきで乱数を発生させることは興味深い問題である.開示中間まとめの ボリュームがどの程度ならば現実のデータセットをほとんど想像できないような構築が可能であろうか?追加 データ維持型の中間まとめでは追加データセットを直ちにねじれた追加データセットに変換して付加していく 方法もある.  連続関数の範囲あるいは piecewise linear 写像の範囲で意味のある不変式作成が望まれる.特に追加データ 維持に適合する体系的な中間まとめが見出せれば面白い.このような関数に対して basic invariants の類似が 考えられれば幸いである.x1, x2に対し max{x1, x2} = 1 2(x1+ x2+ (x1と x2の差)) であり,max{x1, x2}, x1+ x2, x1と x2の差 はともに不変式である.  パラメトリックでない手法とパラメトリックな手法両方を目指す開示はセキュリティの深さの計算が容易で ない.パラメトリックな手法の扱い易さがこの報告からもわかるが,パラメトリックでない手法が Weyl の意 味でのケース不変式で,どの程度近似できるであろう.パラメトリックでない方法に関し,値を区分化する上 の例は当面の方法と考える.Wilcoxon の 1 標本検定や 2 標本検定でタイが多くなり普通の教科書では解説が 少ないが,パラメトリックでない方法の粗さを加味して当座の手法と考えたに過ぎない.この議論はこの報告 の基本的な考え方から適切ではないが,無視できない大きな理由がある.ヒストグラムの要求をはねかえすこ とは現実にはできないと思われる.肯定的にいうならば階級化という方法は依然として魅力がある.  欠測がある場合,異常値,外れ値の混在は許されず,異常値,外れ値の明確な判断が必要である.立場で判断 が異なるために,異常値,外れ値の判断を利用者ごとの要求に応じると,利用者間で全体としてセキュリティ

(17)

が崩れる可能性がある.異常値の場合データを所有する側で欠測への置き換えが事態を複雑にしないと考えら れるが,データの削除を上の方法で実行するには異常値をデータセットに記入した方が好都合である.  データが追加されていく場合を考える.データセットを保持できない場合,異常値,外れ値の判断をデータ 追加時直ちに行うことを考える.その定義は追加データ維持型が望ましいこととなる.例えば x1, x2, . . . , xm は異常値でないとして追加データ xm+1の異常値の判定に,例えば x1+ x2+· · · + xm+ xm+1 m + 1 > max{x1, x2, . . . , xm} を用いることを考える.途中ではねられるデータがデータ追加順序で変わるため好ましいとはいえない.特性 がよく知られた項目では範囲で行う.そのような方法以外の方法が本来存在するのであろうか?データの追加 順序やケースの個数によって変化しない異常値,外れ値の定義が理想である.追加データや削除データに欠測 がある場合の扱いについても考察の必要がある.  欠測値がある場合,いくつかの項目の間に強い関係があって,欠測パターンがごく僅か違う場合,そこから セキュリティが崩れる可能性がある.極端で現実的でないが,2 つの項目がほぼ同じで一方に 1 つ欠測がある 場合を考えてみれば明白である.欠測ケースの欠測でない項目の値がわかる.欠測パターンを開示しない方法 がセキュリティ上必要である。p, q がとても小さく,セキュリティの維持が絶対であるならば,上の例で, J1= m + p + q, J2= x1+· · · + xm+ xm+1+· · · + xm+p m + p , J3= y1+· · · + ym+ ym+p+1+· · · + ym+p+q m + q , J4= x2 1+· · · + x2m+ x2m+1+· · · + x2m+p m + p , J5= y2 1+· · · + ym2 + ym+p+12 +· · · + ym+p+q2 m + q , J6= x1y1+· · · + xmym m を考えて,次のような近似 ˆ a = J6− J2J3 J4− J22 , ˆb = J3− ˆaJ2 で我慢することも当然考えられる.欠測の箇所の個数を開示しない考え方である.欠測のある場合,方法は大 きな課題である.  統計的手法の計算方法がケース不変性をもたない場合,計算はケース不変式から行うという考え方から,好 ましくない.ケース不変性をもつように計算手続きの改訂が必要である.Newton-Raphson など用いる際,計 算過程でケース番号を置換しても同じ値となるべきである.  セキュリティの深さの次元の考察では不十分な部分がある.簡単な例として, x1x2= 2.85 を考える.セキュリティの深さは 1 次元である.このとき x1, x2とも小数以下 1 位まで表示されていたと予想 される.おおよそ同じような値であろうと考えると,285 を因数分解して 1.5 と 1.9 であると見当がつく.非常 にきわどい問題では,整数解としていくつあるかといった見方が必要である.つまり整数論による判断で巧み にセキュリティが破られる可能性がある.結果の正確な表示がかえってあだになっている.  別の簡単な例で, x1+ x2+ x3+ x4+ x5= 11.8, max{x1, x2, x3, x4, x5} = 2.6, min{x1, x2, x3, x4, x5} = 2.1 を考える.原理的にはセキュリティの深さの次元は 2 である.上の式から中の 3 つの和は 11.8− 2.1 − 2.6 = 7.1 である.タイのない場合をまず計算してみると 2.2, 2.4, 2.5 と一つのみである.実際はタイがあるからこの条

参照

関連したドキュメント

Maurer )は,ゴルダンと私が以前 に証明した不変式論の有限性定理を,普通の不変式論

この項目の内容と「4環境の把 握」、「6コミュニケーション」等 の区分に示されている項目の

第 98 条の6及び第 98 条の7、第 114 条の 65 から第 114 条の 67 まで又は第 137 条の 63

2(1)健康リスクの定義 ●中間とりまとめまでの議論 ・第

それから 3

① Google Chromeを開き,画面右上の「Google Chromeの設定」ボタンから,「その他のツール」→ 「閲覧履歴を消去」の順に選択してください。.

(近隣の建物等の扱い) (算定ガイドライン

 事業アプローチは,貸借対照表の借方に着目し,投下資本とは総資産額