最深回帰推定量とそのRによる実用化
13
0
0
全文
(2) . は . を導入し これを最大にする最深回帰推定量を提案した. . という新しい概念. . は当てはめた超. 平面に対するデータ(または確率分布)のバランスの良し悪しの程度をはかるものであり 最深回帰推定量は 次元の場合にはメディアンと一致する 最深回帰推定量はメディアンを 多次元に一般化した優れたロバスト推定量であり そのロバストネスと諸性質は
(3) . . . .
(4) . などにおいて研究されている よく知られているように最小 乗推定量は誤差の標. 準的仮定のもとでは 線形不偏推定量の中で最良であり さらに正規分布が仮定される場合 にはすべての不偏推定量の中で最良であるが 標準的仮定からの「ずれ」に対しては敏感で あり たった一つの外れ値によって大きな影響を受けてしまう したがって 標準的仮定か らの「ずれ」や外れ値が生じる可能性のある場合には これらの「ずれ」や外れ値に対して 影響を受けにくく良さの損失の少ないロバスト推定量を用いることが望ましい 現実の多く の問題においては 標準的仮定はせいぜい近似的に成り立つ程度であるから ロバストネス の問題は本質的で重要な問題である 最深回帰推定量以外に これまで様々なロバスト回帰推定量が提案されている 主なも のだけでも. . . 推定量(
(5) . $'. 量 . &(. 推定量. ). -. !. $'. '. ". 推定量( #. . $'. τ推定量 ). . . $%. 推定量(). *#. $$. ". & $ . 推定量 . 推定. 推定量 + ,. などがある これらのロバスト回帰推定量の統計解析ソフト. による利用は年々増え続けており 今後ますます拡大していくと思われる 最深回帰推定. . 量については. . に基づいた新しい推定量であることもあり 統計研究者の. 間でもまだ十分に理解されておらず. . で利用できるようになっていない 我が国ではロバ. スト統計分野の研究者が少なく 最近のロバスト推定法に対する理解とその応用は非常に遅 れている 本論文では次の ! 点を目的とする . 最深回帰推定量とその基本的性質を紹介する. . 最深回帰推定量を で利用できるようにする. !. 最深回帰推定量と他の回帰推定量を を用いて比較する 本論文の構成は次の通りである 第 節では. !. . の定義と性質を述べる 第. 節では 最深回帰推定量の定義とその基本的性質について考察する 第 ' 節では. 南山大学数理情報研究科
(6) 日本学術振興会特別研究員 南山大学数理情報学部 . . .
(7) . による . で書かれた最深回帰推定量のプログラム(/01//2. 用に書き直し このプログラムの評価を行なう 第 3 節では &0. (.
(8) 4 # . &. &(. . . . を. を用いて最深回帰推定量と. を有限標本相対効率によりシミュ. レーション比較する 第 % 節では最深回帰推定量と他の回帰推定量の相違を視覚的に見るた めに単回帰の例を取り上げる.
(9) 線形回帰モデル. 6 . 5 . . は 次元確率ベクトル 5 は 次元回帰係数ベクトル は確率誤差 は応答変数とする 個の観測値データを 5 5 7 5 Ê とし に回帰式 (この回帰式を と表す)を当てはめたときの残差を 5 5 とする データ に対する を定義するためにまず
(10) 不適合 を次 のように定義する を考える ここで. 5 . . . . も属さない超平面 が存在し で分けた開半 空間の片方に属するすべての に対して であり もう一方の開半空間に属するす は に対して
(11) と呼ばれる べての に対して ならば 5 . 定義. . . 空間上でどの. に対する を次のように定義する. これを用いて 定義 . 5 . データ . . に対する の
(12) は を
(13) にするために取り除. Ê. く必要がある観測値の最小数である すなわち.
(14) 5 # Ù. ここで すべての . 5 . . . . . Ê. . . . . かつ. に対して. と . この定義により データ . . . Ê. . 6 かつ . 最小は. . 5 を満たすすべての単位ベクトル. Ê でとられるものとする に対する . . Ê. . は要素数を表す. の
(15) は を中心に垂直になるま. で超平面 を傾けるとき 通過しなければならない観測値の最少数であるともいえる . の概念を理解しやすくするために 単回帰(5)の場合を考えてみよ. う この場合には定義 と は次のようになる 定義 . どの とも一致しない実数 . 5. 5 を に対して
(16) という .
(17) . が存在し 次の または が成り立つとき.
(18) . かつ かつ . 定義 . データ集合 . . Ê に対する 5 の
(19) は を
(20) にする. ために取り除く必要がある観測値の最小数である 図 と図 でそれぞれ
(21) と
(22) の例を示す. 図. 図. 図. . となると.
(23) をもつ . と
(24) をもつ の例. では直線 に対応する を とした 上の. 印を中心にして直線 . を垂直になるまで傾けると つの観測値も通らずに回転することができるので直線 は.
(25) である 図 では直線 に対応する を とし 上の 印を中心にし て直線 を垂直になるまで傾けると直線 は つの観測値とぶつかり その観測値を取 り除かなくてはならないので
(26) は となる 直線 は ! つの観測値とぶつかるので
(27) は ! となる
(28) については次の定理が成り立つ.
(29) 定理. 上にある観測値の数が ならば. /,8 . 2 . よって . 5. . そのとき. 6 .
(30) . . . !. のとき
(31) 5 となる ここで 9: は 以下の最大の整数である. 次に確率分布 に対する
(32) を定義する 定義 . Ê. 上の分布 に対する の
(33) は.
(34) 5 # かつ. 6 . . によって定義される ここで は確率変数 を満たすすべての単位ベクトル . . . 5 . . かつ. . の分布であり 最小は . . . Ê. . . と. . . . '. 5 5 . Ê でとられるものとする. この
(35) は を中心に垂直になるまで超平面 を傾けるとき 通過しなければ. ならない部分の確率の最小値として定義しても同等である
(36) について次の2 つの定理が成り立つ 定理 . が密度関数をもつ分布 からの標本のとき
(37)
(38)
(39). . .
(40) . 3. ここで は概収束を表す 定理 . . が . . どの 次元アフィン部分空間にも 点以上の観測値が. ない にあるとき #,.
(41) .
(42) . . . %. 密度関数をもつ Ê 上の任意の分布 に対して #,. 8. 6 .
(43) . 分布 が密度関数をもち ある ; 5 ; . 9. 6. : 5 ;. ;. . . 6 ;. . . Ê . . . に対し . . . 6 ;. $. を満たすならば #,.
(44) 5
(45) ; 5. . . .
(46) 最深回帰推定量 . 定義と
(47) . 定義 データ に対する最深回帰推定量. ! は
(48) を最大にする と. して定義する すなわち. ! 5 #,
(49) . . ! は分布の仮定を必要とせず 回帰共変性 尺度共変性 アフィン 共変性を満たす推定量である また #,
(50) を与える が複数ある場合はそれ 最深回帰推定量. ら の平均をもって推定量とする #,. .
(51) . . 5 #, # . . が 変量データである場合. . . . . . 任意の . であるので. ! に対して ! は のメディ . アンになっていることがわかる このように 最深回帰推定量は 変量の場合のメディアン を線形回帰へと一般化させたものである 定義 . 次元確率変数 の分布 に対する最深回帰推定量 を最大にする として定義する すなわち. ! は
(52) . ! 5 #,
(53) . . ここで分布 は狭義に正の密度関数を持ち. を満たす ; . Ê. 5 . ;. . が存在すると仮定する. このモデルは誤差の分布が非対称であったり 異なった分散であったりする場合にも有効 である 次の定理は. . によるものであるが 関数型がパラメト. リックであり 誤差分布がノンパラメトリックであるような大きなあるセミパラメトリック モデル に が属するとき 最深回帰推定量. ! が ; の . <8 推定量で. あることを示す 定理 . . <8 8. 任意の . . に対して. ! 5 ; が成り立つ. ; に対する最深回帰推定量. ! の一致性と定理 ' の . <8 8 から が独立で同一の分布 に従うとき ! 5 ! は ! に確率収束する ここで は の経験分布関数を 表す 次に最深回帰推定量のロバストネスを測る 推定量のロバストネスをはかる指標として 有限標本破綻点 影響関数 感度関数および相対効率を考える = . によって示された.
(54) . 有限標本破綻点. 個の観測値からなるデータ . 加型破綻点 " は 要な の最小値に対する. 5. . . . . . . に 個の観測値を加えて. . 定義 . " 5 #. に対する推定量 " の有限追. 推定量 " を破綻させるために必. として定義する. . . . . . 7 . 6 . " " 5 . . この有限標本追加型破綻点から一般的に扱われている有限標本破綻点を得ることは *. 定理 . により与えられている " について次の つの結果が得られる. において. . が . ! . 最深回帰推定量 定理 . にあるならば.
(55) 6
(56) 6 6. . ! の はもとのデータ がそれ自身異常なとき . が狭義に正の密度関数をもつ Ê. . . . になる. 上の分布 からの標本であり が. を満たすならば. ! . . . !.
(57) . . . !.
(58). . '. 影響関数 分布 における推定量 " の影響関数 #$ " は . に小さい確率が加わる ことによる " への影響を測るものである > によって で確率 をもつ確率分布を表し 5 6 > と書くとき 影響関数は次のように定義される #$ " 5. #. " . 6. 5 . > " . " " 5 # % " 5 % . 3. . ! 5 ! ! は 回帰共変 尺度共変 アフィン共変であるので平 均 分散共分散行列 の楕円型分布 5 ¦ における影響関数は 5 ¼ における それから求められる ここで ! ! はそれぞれ傾き 切片の推定量を表す が 変量 最深回帰推定量.
(59) 標準正規分布 & のとき 次の結果が得られる. & における最深推定量の影響関数は. '' # ( ()! # ( ()! #$ ! 5 6 ( '( ( 6 (. ' # ? # ? 6 #$ ! 5 ( ? ? . 定理 . 5. . である ただし. ?. %. . . は 変量標準正規分布 & の分布関数であり ( はその密度関数であ. る. & における最深回帰推定量 ! の傾きと切片の影響 関数のグラフである これらの2つの図は の .@"' を引用 した 図を見るとわかるように ! の傾きと切片の影響関数はともに有界である これは # の用語を使うと ! は =<
(60) であることを意味する " が =<
(61) とは " の における < 4 図 ! と図 ' は定理. の. 5. . . が有限であることをいう. #$ 7 " . < < 4. は微小な汚染によって " が受ける最大の. 影響を表す. 図 最深回帰推定量の傾きの影響関数. . 図. 最深回帰推定量の切片の影響関数. 感度関数. 影響関数は母集団分布上で定義されているので その有限標本版の影響関数と比較す るために 平均置換型感度関数を計算する 任意の推定量 " に対する感度関数は標本. 5 . に一つの観測値 5 を加えることによる影響を測る すなわち *$ " 5 " " $.
(62) 感 度関 数は 実 際の 標 本 に 強 く 依存 する の で置 換 型標 本 + 5
(63)
(64) 7 5 を使うことでこの影響を軽減する ここで
(65) 5 ? であり + は . 上の置換を表す この変換された標本は無作為標本の場合よりも母集団分布 & # に近 い分布をしており 周辺分布はメディアン に関して対称になるという利点をもつ 特定の 置換 + の効果は非復元抽出リサンプリングで感度関数を平均化した ,- *$ 5 *$ " + .. . . によって和らげられる ここで . は非復元抽出リサンプリングの繰り返し回数である これを用いてデータ数. . 格子点の数. 3. 繰り返し回数. で計算し 傾きと切片の. !. ,- *$ 図を描いたものが図 3 と図 % である これらは による 図よりもさらによく図 ! 図 ' と似ており 影響関数に基づくロバストネスは小標本に対し ても有効であるといえるだろう. 図. out. sf1. .ap. $y. シミュレーションによる最深回帰推定量の傾き. の 図. . ou. .ap. t.a. ou. t.a. psf. 1$. psf. x. 1$. a. x. apsf.. b. apsf.. psf1$. psf1$. out.a. out.a. out. sf1. $y. 図 シミュレーションによる最深回帰推定量の切片 の 図. 相対効率. 最深回帰推定量は漸近正規性をもたないが 正規分布からわずかに異なる正規分布に近い 極限分布をもつことが . 2 $. によって証明されている そこで最深回帰推. 定量の最小 乗回帰推定量に対する相対効率として 正規分布の下での つの推定量の分散 比を考えることにする そして 標本数 に対して シミュレーションにより 分散比の近似 値を求めた結果が表 である 相対効率はデータ数が増加してもほとんど変わらないことが わかる. プログラム /01//2. によって. . . で 書 か れ た 最 深 回 帰 推 定 量の 近 似 プ ロ グ ラ ム. がこれまで使用されてきた 我々はこれを統計解析システム. . で使用で.
(66) 回のシミュレーションに基づいた最深回帰推定量と の相対効率. 表. . 切片. 傾き . .
(67)
(68) . .
(69) . . . . . .
(70) . .
(71). . . !. . . . きるように * 言語に書き換えた 次にこのプログラムの性能を検証する. . プログラムの性能評価. 与えられた に対して正規分布と自由度. 5 . . 7 . . の
(72) 分布から . 5 . のサンプル. / 5 を生成する それらのサンプルに 対してそれぞれ /01//2 アルゴリズムから最深回帰推定量 A A を求めて傾 きの平均2乗誤差 . 0 *1 A. 5 . . A. . . 5. . . . . . . . . . A. . . . A 5 である 切片の / は である 正規分布と自由度 の 分布の乱数からそれぞれの と に対して切片と傾き の平均 乗誤差 0 *1 を計算したものを表 ! に載せる データ数が増加すると 0 *1 が減少していることが見てとれる しかし データ数が のとき / は大きい これは /01//2 が 次元に対して 点を通らなければならず データの影響を強く受けるか らであり 特に自由度 の 分布における / が非常に大きいのは外れ値の影響を受け ているからだと思われる データ数が少ないときには良い推定が出来ない場合があること がわかる また 書き換えたプログラムの と に対する平均計算時間を表 ' に載せる 5 5 のとき 秒ほどかかるが実際の分析においては問題ないので このプロ グラムは実行可能であろう を計算する ここで真値は . 5 7. 比較 最深回帰推定量 0 は回帰モデルの誤差分布が互いに独立で 各誤差分布のメディ アンを と仮定するだけでよい これらはかなり弱い条件である 誤差分布が対称であるこ とを仮定する必要がなく 同一の分布であることを仮定する必要もない また このモデル は誤差分布が歪んでいたり分散が均一でなくてもよい 他のロバスト回帰推定量は最深回帰 推定量よりも多くの制約を必要とし より制限されたモデルを仮定する 実際 これらの推 定量は歪んだ誤差分布や分散の不均一性を認めない. &. &(. . などの推定量の目的は. 最頻値を捜すことである それはこれらの推定量が大部分のデータを含む集中した線形雲を.
(73) 正 規 分 布 に お け る 切 片 と 傾 き の
(74). 表 自由度 の. 表. . . . . 切片.
(75) . . 傾き. . . .
(76)
(77) . .
(78). . .
(79) .
(80)
(81). . 切片.
(82)
(83) . 切片. . !. !. !. 傾き.
(84) .
(85)
(86) .
(87)
(88) .
(89) !. 切片. . . . . 傾き.
(90) .
(91) !. . !. 切片. !. . . . 傾き. . . 表 各.
(92) . !.
(93)
(94) . . に対する の計算時間 秒
(95) . 分布における切片と傾きの. . .
(96). . . "
(97). 傾き.
(98).
(99) .
(100) . ". 切片.
(101) !.
(102) .
(103)
(104) . . 傾き. .
(105).
(106).
(107)
(108). 切片. . !.
(109) . . 傾き. . !.
(110) . . 切片. . . . . 傾き. .
(111).
(112) . . ただし 各計算時間は 個のサンプルの平均である. . . .
(113). . . !. !. !.
(114) . . . !. . . . . . . !. !.
(115) . . . . !. !. . .
(116)
(117)
(118) . !
(119) . .
(120) !. . . 捜すことを意味する 一方 最深回帰推定量はデータの線形雲の中心を捜すメディアンタイ プの推定方法である. . 相対効率と破綻点の比較. 線形回帰の標準的仮定を満たしているデータを用いて 率 を求める 与えられ た に対して正 規分布から. . . . &. と他の推定量との相対効. 次元の . 5. . のサ ンプル. 7 5 / 5 を生成する それらのサンプルに対して各回帰 推定量の切片と傾きの分散を求めて & の切片と傾きの分散比(相対効率)を計算すると表 % を得た また 表 3 で各回帰推定量の破綻点と有限標本破綻点を載せる &0 は効率は高 いが有限標本破綻点は低い & &( は効率は低いが有限標本破綻点は非常に高い そ れに対して 0 は効率と破綻点がともに高く バランスがとれている 5 . 表. 破綻点 有限標本破綻点. #$. #%&. . . #'$ . , ¾ - " . 破綻点. #($ , ¾ - " . $ . , ¾ - " . &) ". ·½. . * + ". . . * +. .
(121) 表. との有限標本相対効率. 切片の有限標本相対効率. . #%&. #'$. #($. . .
(122) . .
(123) . . . .
(124) .
(125) . . 傾きの有限標本相対効率. $. &). #%&. #'$. #($. $. &) . .
(126)
(127) . . !. !.
(128) . .
(129). . . !. !
(130) !. !. . . !. . !. . . . . !. . . !!
(131). !
(132). ! . .
(133) . . . .
(134). . . !. ! . . . !. !. !. !. 単回帰. 最深回帰推定量と他の推定量. &. &0. &. &(. . にどのような相違があるのか. を視覚的にみるために単回帰における回帰直線を例として取り上げる . . . + - . から「$% 年の広告ページ数と広告収入のデータ」を引用する 広告ページ数 . 百万ドル とする. 50. を 百枚 広告収入を. LS2. 1. 2. LTS. Deepest. LAD S. 40. LMS. 3 30. 4. LS 5. y. 6. 20. 7. 8. 9 10. 14 16 1918 20 17 21 2526 24 27 2829 30 31 32 33 34 35 36 37 39 38 4140. 15 22. 0. 10. 11 12 13. 0. 23. 20. 40. 60. 80. x. 図. &. 広告データに対する回帰直線図. は ! 番目の観測値の影響を強く受けているが ロバスト推定量による回帰直線は影響. を受けていない また. &. による外れ値 . . !. を除いた && に最深回帰推定量は. 近く 他のロバスト推定量による直線と & を挟んで反対側にあることが見てとれる.
(135) おわりに 本論文では. . に基づく最深回帰推定量を紹介し その基本的な性質につ. いて考察した 最深回帰推定量を計算し その性質を調べるに際しては を用いた 最深回 帰推定量以外の主要なロバスト推定量は " 推定量を除きほとんど で利用できるように なっている 最深回帰推定量は提案されてからまだ日が浅く よく理解されていないことも あり. . での利用はこれまで可能ではなかった 筆者達は . のみで利用可能であった. 最深回帰推定量のプログラムを 上で利用できるように書き直すことに思い至った そし て 書き直した プログラムの機能と性能をチェックしたうえで これを使用して本研究を 行なった 最深回帰推定量を で使用したのは 著者達の知る限りでは 本研究が最初であ る 我が国ではロバスト統計学分野の研究者が少なく ロバスト推定の研究は理論と応用の 両面で大きく遅れている その主な理由の一つにロバスト理論が難しく取っ付きにくいこと がある 最深回帰推定量は他のロバスト推定量に劣らず魅力のある推定量であるので. . で. 利用可能となったことを契機として もっと身近なものになり 広く活用されるようになる ことを願う. 参考文献 9: . B .
(136) . 2C
(137) ( .
(138) . #. * . . $<%. 9: B . 9!: =. 2C
(139) . !$<%%. D #8
(140) #,# # . %%<%! =
(141)
(142)
(143). #
(144) 8 9': + - 1 93: + ,. . . 2 8. E ) F +. . 2C.
(145) . 9%:. 藤木美江. G -. H ' " I <# . . <$. ! 0. の理論とその応用に関する研究 南山大学経営学研. 究科修士論文 9 : #. .. 8. /. . 2C. .
(146)
(147) !
(148)
(149) " 9$: . D 2 .
(150)
(151) 9:
(152) .
(153) . E4 8 8 2
(154) . <$. . . $#8 . 2C !
(155) J. 9: . . 1 E ) F. #.
(156)
(157)
(158) . E ) F. 1 $%. #8. 8 -8 + . <$ 2C ' & # K .
(159) . $ <$$. 9: . 2C
(160) . .
(161) .
(162) . !$$<'. 9: . 2C & . $ .
(163)
(164) $
(165) %
(166)
(167) . 1 E ) F 9!: 2C. ) BC '
(168)
(169) # <# . #
(170)
(171)
(172)
(173) . &8 E 8. . C. F. 3%< . . 1 0 E ) F. 9': ) BC $
(174) F < Æ8 8 # . 93: ). BC. . %'<%3%. *#. $$
(175) F #
(176) . # # #I Æ8 8 9%: *.
(177) . '%<'!. ) # K 4
(178) L #.
(179) F . & '
(180) . !%<! 3.
(181)
図
関連したドキュメント
回報に述べた実験成績より,カタラーゼの不 能働化過程は少なくともその一部は可三等であ
2 E-LOCA を仮定した場合でも,ECCS 系による注水流量では足りないほどの原子炉冷却材の流出が考
計量法第 173 条では、定期検査の規定(計量法第 19 条)に違反した者は、 「50 万 円以下の罰金に処する」と定められています。また、法第 172
エッジワースの単純化は次のよう な仮定だった。すなわち「すべて の人間は快楽機械である」という
・ 各吸着材の吸着量は,吸着塔のメリーゴーランド運用を考慮すると,最大吸着量の 概ね
以上の基準を仮に想定し得るが︑おそらくこの基準によっても︑小売市場事件は合憲と考えることができよう︒
定的に定まり具体化されたのは︑
回答した事業者の所有する全事業所の、(平成 27 年度の排出実績が継続する と仮定した)クレジット保有推定量を合算 (万t -CO2