最深回帰推定量とそのRによる実用化

全文

(1)最深回帰推定量とその. Ê による実用化. 安藤雅和. 大見俊司. 木村美善. はじめに線形回帰において.

(2) . は . を導入しこれを最大にする最深回帰推定量を提案した. . という新しい概念. . は当てはめた超. 平面に対するデータ（または確率分布）のバランスの良し悪しの程度をはかるものであり最深回帰推定量は次元の場合にはメディアンと一致する最深回帰推定量はメディアンを多次元に一般化した優れたロバスト推定量でありそのロバストネスと諸性質は

(3) . . . .

(4) . などにおいて研究されているよく知られているように最小乗推定量は誤差の標. 準的仮定のもとでは線形不偏推定量の中で最良でありさらに正規分布が仮定される場合にはすべての不偏推定量の中で最良であるが標準的仮定からの「ずれ」に対しては敏感でありたった一つの外れ値によって大きな影響を受けてしまうしたがって標準的仮定からの「ずれ」や外れ値が生じる可能性のある場合にはこれらの「ずれ」や外れ値に対して影響を受けにくく良さの損失の少ないロバスト推定量を用いることが望ましい現実の多くの問題においては標準的仮定はせいぜい近似的に成り立つ程度であるからロバストネスの問題は本質的で重要な問題である最深回帰推定量以外にこれまで様々なロバスト回帰推定量が提案されている主なものだけでも. . . 推定量（

(5) . $'. 量 . &(. 推定量. ). -. !. $'. '. ". 推定量（ #. . $'. τ推定量 ). . . $%. 推定量（). *#. $$. ". & $ . 推定量 . 推定. 推定量 + ,. などがあるこれらのロバスト回帰推定量の統計解析ソフト. による利用は年々増え続けており今後ますます拡大していくと思われる最深回帰推定. . 量については. . に基づいた新しい推定量であることもあり統計研究者の. 間でもまだ十分に理解されておらず. . で利用できるようになっていない我が国ではロバ. スト統計分野の研究者が少なく最近のロバスト推定法に対する理解とその応用は非常に遅れている本論文では次の ! 点を目的とする . 最深回帰推定量とその基本的性質を紹介する. . 最深回帰推定量をで利用できるようにする. !. 最深回帰推定量と他の回帰推定量をを用いて比較する本論文の構成は次の通りである第節では. !. . の定義と性質を述べる第. 節では最深回帰推定量の定義とその基本的性質について考察する第 ' 節では. 南山大学数理情報研究科

(6) 日本学術振興会特別研究員南山大学数理情報学部 . . .

(7) . による . で書かれた最深回帰推定量のプログラム（/01//2. 用に書き直しこのプログラムの評価を行なう第 3 節では &0. （.

(8) 4 # . &. &(. . . . を. を用いて最深回帰推定量と. を有限標本相対効率によりシミュ. レーション比較する第 % 節では最深回帰推定量と他の回帰推定量の相違を視覚的に見るために単回帰の例を取り上げる.

(9) 線形回帰モデル. 6 . 5 . . は次元確率ベクトル 5 は次元回帰係数ベクトルは確率誤差は応答変数とする個の観測値データを 5 5 7 5 Ê としに回帰式（この回帰式をと表す）を当てはめたときの残差を 5 5 とするデータに対するを定義するためにまず

(10) 不適合を次のように定義するを考えるここで. 5 . . . . も属さない超平面が存在しで分けた開半空間の片方に属するすべてのに対してでありもう一方の開半空間に属するすはに対して

(11) と呼ばれるべてのに対してならば 5 . 定義. . . 空間上でどの. に対するを次のように定義する. これを用いて定義 . 5 . データ . . に対するの

(12) はを

(13) にするために取り除. Ê. く必要がある観測値の最小数であるすなわち.

(14) 5 # Ù. ここですべての . 5 . . . . . Ê. . . . . かつ. に対して. と . この定義によりデータ . . . Ê. . 6 かつ . 最小は. . 5 を満たすすべての単位ベクトル. Ê でとられるものとするに対する . . Ê. . は要素数を表す. の

(15) はを中心に垂直になるま. で超平面を傾けるとき通過しなければならない観測値の最少数であるともいえる . の概念を理解しやすくするために単回帰（5）の場合を考えてみよ. うこの場合には定義とは次のようになる定義 . どのとも一致しない実数 . 5. 5 をに対して

(16) という .

(17) . が存在し次のまたはが成り立つとき.

(18) . かつかつ . 定義 . データ集合 . . Ê に対する 5 の

(19) はを

(20) にする. ために取り除く必要がある観測値の最小数である図と図でそれぞれ

(21) と

(22) の例を示す. 図. 図. 図. . となると.

(23) をもつ . と

(24) をもつの例. では直線に対応するをとした上の. 印を中心にして直線 . を垂直になるまで傾けるとつの観測値も通らずに回転することができるので直線は.

(25) である図では直線に対応するをとし上の印を中心にして直線を垂直になるまで傾けると直線はつの観測値とぶつかりその観測値を取り除かなくてはならないので

(26) はとなる直線は ! つの観測値とぶつかるので

(27) は ! となる

(28) については次の定理が成り立つ.

(29) 定理. 上にある観測値の数がならば. /,8 . 2 . よって . 5. . そのとき. 6 .

(30) . . . !. のとき

(31) 5 となるここで 9: は以下の最大の整数である. 次に確率分布に対する

(32) を定義する定義 . Ê. 上の分布に対するの

(33) は.

(34) 5 # かつ. 6 . . によって定義されるここでは確率変数を満たすすべての単位ベクトル . . . 5 . . かつ. . の分布であり最小は . . . Ê. . . と. . . . '. 5 5 . Ê でとられるものとする. この

(35) はを中心に垂直になるまで超平面を傾けるとき通過しなければ. ならない部分の確率の最小値として定義しても同等である

(36) について次の２つの定理が成り立つ定理 . が密度関数をもつ分布からの標本のとき

(37)

(38)

(39). . .

(40) . 3. ここでは概収束を表す定理 . . が . . どの次元アフィン部分空間にも点以上の観測値が. ないにあるとき #,.

(41) .

(42) . . . %. 密度関数をもつ Ê 上の任意の分布に対して #,. 8. 6 .

(43) . 分布が密度関数をもちある ; 5 ; . 9. 6. : 5 ;. ;. . . 6 ;. . . Ê . . . に対し . . . 6 ;. $. を満たすならば #,.

(44) 5

(45) ; 5. . . .

(46) 最深回帰推定量 . 定義と

(47) . 定義データに対する最深回帰推定量. ! は

(48) を最大にすると. して定義するすなわち. ! 5 #,

(49) . . ! は分布の仮定を必要とせず回帰共変性尺度共変性アフィン共変性を満たす推定量であるまた #,

(50) を与えるが複数ある場合はそれ最深回帰推定量. らの平均をもって推定量とする #,. .

(51) . . 5 #, # . . が変量データである場合. . . . . . 任意の . であるので. ! に対して ! はのメディ . アンになっていることがわかるこのように最深回帰推定量は変量の場合のメディアンを線形回帰へと一般化させたものである定義 . 次元確率変数の分布に対する最深回帰推定量を最大にするとして定義するすなわち. ! は

(52) . ! 5 #,

(53) . . ここで分布は狭義に正の密度関数を持ち. を満たす ; . Ê. 5 . ;. . が存在すると仮定する. このモデルは誤差の分布が非対称であったり異なった分散であったりする場合にも有効である次の定理は. . によるものであるが関数型がパラメト. リックであり誤差分布がノンパラメトリックであるような大きなあるセミパラメトリックモデルにが属するとき最深回帰推定量. ! が ; の . <8 推定量で. あることを示す定理 . . <8 8. 任意の . . に対して. ! 5 ; が成り立つ. ; に対する最深回帰推定量. ! の一致性と定理 ' の . <8 8 からが独立で同一の分布に従うとき ! 5 ! は ! に確率収束するここではの経験分布関数を表す次に最深回帰推定量のロバストネスを測る推定量のロバストネスをはかる指標として有限標本破綻点影響関数感度関数および相対効率を考える = . によって示された.

(54) . 有限標本破綻点. 個の観測値からなるデータ . 加型破綻点 " は要なの最小値に対する. 5. . . . . . . に個の観測値を加えて. . 定義 . " 5 #. に対する推定量 " の有限追. 推定量 " を破綻させるために必. として定義する. . . . . . 7 . 6 . " " 5 . . この有限標本追加型破綻点から一般的に扱われている有限標本破綻点を得ることは *. 定理 . により与えられている " について次のつの結果が得られる. において. . が . ! . 最深回帰推定量定理 . にあるならば.

(55) 6

(56) 6 6. . ! のはもとのデータがそれ自身異常なとき . が狭義に正の密度関数をもつ Ê. . . . になる. 上の分布からの標本でありが. を満たすならば. ! . . . !.

(57) . . . !.

(58). . '. 影響関数分布における推定量 " の影響関数 #$ " は . に小さい確率が加わることによる " への影響を測るものである > によってで確率をもつ確率分布を表し 5 6 > と書くとき影響関数は次のように定義される #$ " 5. #. " . 6. 5 . > " . " " 5 # % " 5 % . 3. . ! 5 ! ! は回帰共変尺度共変アフィン共変であるので平均分散共分散行列の楕円型分布 5 ¦ における影響関数は 5 ¼ におけるそれから求められるここで ! ! はそれぞれ傾き切片の推定量を表すが変量最深回帰推定量.

(59) 標準正規分布 & のとき次の結果が得られる. & における最深推定量の影響関数は. '' # ( ()! # ( ()! #$ ! 5 6 ( '( ( 6 (. ' # ? # ? 6 #$ ! 5 ( ? ? . 定理 . 5. . であるただし. ?. %. . . は変量標準正規分布 & の分布関数であり ( はその密度関数であ. る. & における最深回帰推定量 ! の傾きと切片の影響関数のグラフであるこれらの２つの図はの .@"' を引用した図を見るとわかるように ! の傾きと切片の影響関数はともに有界であるこれは # の用語を使うと ! は =<

(60) であることを意味する " が =<

(61) とは " のにおける < 4 図 ! と図 ' は定理. の. 5. . . が有限であることをいう. #$ 7 " . < < 4. は微小な汚染によって " が受ける最大の. 影響を表す. 図最深回帰推定量の傾きの影響関数. . 図. 最深回帰推定量の切片の影響関数. 感度関数. 影響関数は母集団分布上で定義されているのでその有限標本版の影響関数と比較するために平均置換型感度関数を計算する任意の推定量 " に対する感度関数は標本. 5 . に一つの観測値 5 を加えることによる影響を測るすなわち *$ " 5 " " $.

(62) 感度関数は実際の標本に強く依存するので置換型標本 + 5

(63)

(64) 7 5 を使うことでこの影響を軽減するここで

(65) 5 ? であり + は . 上の置換を表すこの変換された標本は無作為標本の場合よりも母集団分布 & # に近い分布をしており周辺分布はメディアンに関して対称になるという利点をもつ特定の置換 + の効果は非復元抽出リサンプリングで感度関数を平均化した ,- *$ 5 *$ " + .. . . によって和らげられるここで . は非復元抽出リサンプリングの繰り返し回数であるこれを用いてデータ数. . 格子点の数. 3. 繰り返し回数. で計算し傾きと切片の. !. ,- *$ 図を描いたものが図 3 と図 % であるこれらはによる図よりもさらによく図 ! 図 ' と似ており影響関数に基づくロバストネスは小標本に対しても有効であるといえるだろう. 図. out. sf1. .ap. $y. シミュレーションによる最深回帰推定量の傾き. の図. . ou. .ap. t.a. ou. t.a. psf. 1$. psf. x. 1$. a. x. apsf.. b. apsf.. psf1$. psf1$. out.a. out.a. out. sf1. $y. 図シミュレーションによる最深回帰推定量の切片の図. 相対効率. 最深回帰推定量は漸近正規性をもたないが正規分布からわずかに異なる正規分布に近い極限分布をもつことが . 2 $. によって証明されているそこで最深回帰推. 定量の最小乗回帰推定量に対する相対効率として正規分布の下でのつの推定量の分散比を考えることにするそして標本数に対してシミュレーションにより分散比の近似値を求めた結果が表である相対効率はデータ数が増加してもほとんど変わらないことがわかる. プログラム /01//2. によって. . . で書かれた最深回帰推定量の近似プログラム. がこれまで使用されてきた我々はこれを統計解析システム. . で使用で.

(66) 回のシミュレーションに基づいた最深回帰推定量との相対効率. 表. . 切片. 傾き . .

(67)

(68) . .

(69) . . . . . .

(70) . .

(71). . . !. . . . きるように * 言語に書き換えた次にこのプログラムの性能を検証する. . プログラムの性能評価. 与えられたに対して正規分布と自由度. 5 . . 7 . . の

(72) 分布から . 5 . のサンプル. / 5 を生成するそれらのサンプルに対してそれぞれ /01//2 アルゴリズムから最深回帰推定量 A A を求めて傾きの平均２乗誤差 . 0 *1 A. 5 . . A. . . 5. . . . . . . . . . A. . . . A 5 である切片の / はである正規分布と自由度の分布の乱数からそれぞれのとに対して切片と傾きの平均乗誤差 0 *1 を計算したものを表 ! に載せるデータ数が増加すると 0 *1 が減少していることが見てとれるしかしデータ数がのとき / は大きいこれは /01//2 が次元に対して点を通らなければならずデータの影響を強く受けるからであり特に自由度の分布における / が非常に大きいのは外れ値の影響を受けているからだと思われるデータ数が少ないときには良い推定が出来ない場合があることがわかるまた書き換えたプログラムのとに対する平均計算時間を表 ' に載せる 5 5 のとき秒ほどかかるが実際の分析においては問題ないのでこのプログラムは実行可能であろうを計算するここで真値は . 5 7. 比較最深回帰推定量 0 は回帰モデルの誤差分布が互いに独立で各誤差分布のメディアンをと仮定するだけでよいこれらはかなり弱い条件である誤差分布が対称であることを仮定する必要がなく同一の分布であることを仮定する必要もないまたこのモデルは誤差分布が歪んでいたり分散が均一でなくてもよい他のロバスト回帰推定量は最深回帰推定量よりも多くの制約を必要としより制限されたモデルを仮定する実際これらの推定量は歪んだ誤差分布や分散の不均一性を認めない. &. &(. . などの推定量の目的は. 最頻値を捜すことであるそれはこれらの推定量が大部分のデータを含む集中した線形雲を.

(73) 正規分布における切片と傾きの

(74). 表自由度の. 表. . . . . 切片.

(75) . . 傾き. . . .

(76)

(77) . .

(78). . .

(79) .

(80)

(81). . 切片.

(82)

(83) . 切片. . !. !. !. 傾き.

(84) .

(85)

(86) .

(87)

(88) .

(89) !. 切片. . . . . 傾き.

(90) .

(91) !. . !. 切片. !. . . . 傾き. . . 表各.

(92) . !.

(93)

(94) . . に対するの計算時間秒

(95) . 分布における切片と傾きの. . .

(96). . . "

(97). 傾き.

(98).

(99) .

(100) . ". 切片.

(101) !.

(102) .

(103)

(104) . . 傾き. .

(105).

(106).

(107)

(108). 切片. . !.

(109) . . 傾き. . !.

(110) . . 切片. . . . . 傾き. .

(111).

(112) . . ただし各計算時間は個のサンプルの平均である. . . .

(113). . . !. !. !.

(114) . . . !. . . . . . . !. !.

(115) . . . . !. !. . .

(116)

(117)

(118) . !

(119) . .

(120) !. . . 捜すことを意味する一方最深回帰推定量はデータの線形雲の中心を捜すメディアンタイプの推定方法である. . 相対効率と破綻点の比較. 線形回帰の標準的仮定を満たしているデータを用いて率を求める与えられたに対して正規分布から. . . . &. と他の推定量との相対効. 次元の . 5. . のサンプル. 7 5 / 5 を生成するそれらのサンプルに対して各回帰推定量の切片と傾きの分散を求めて & の切片と傾きの分散比（相対効率）を計算すると表 % を得たまた表 3 で各回帰推定量の破綻点と有限標本破綻点を載せる &0 は効率は高いが有限標本破綻点は低い & &( は効率は低いが有限標本破綻点は非常に高いそれに対して 0 は効率と破綻点がともに高くバランスがとれている 5 . 表. 破綻点有限標本破綻点. #$. #%&. . . #'$ . , ¾ - " . 破綻点. #($ , ¾ - " . $ . , ¾ - " . &) ". ·½. . * + ". . . * +. .

(121) 表. との有限標本相対効率. 切片の有限標本相対効率. . #%&. #'$. #($. . .

(122) . .

(123) . . . .

(124) .

(125) . . 傾きの有限標本相対効率. $. &). #%&. #'$. #($. $. &) . .

(126)

(127) . . !. !.

(128) . .

(129). . . !. !

(130) !. !. . . !. . !. . . . . !. . . !!

(131). !

(132). ! . .

(133) . . . .

(134). . . !. ! . . . !. !. !. !. 単回帰. 最深回帰推定量と他の推定量. &. &0. &. &(. . にどのような相違があるのか. を視覚的にみるために単回帰における回帰直線を例として取り上げる . . . + - . から「$% 年の広告ページ数と広告収入のデータ」を引用する広告ページ数 . 百万ドルとする. 50. を百枚広告収入を. LS2. 1. 2. LTS. Deepest. LAD S. 40. LMS. 3 30. 4. LS 5. y. 6. 20. 7. 8. 9 10. 14 16 1918 20 17 21 2526 24 27 2829 30 31 32 33 34 35 36 37 39 38 4140. 15 22. 0. 10. 11 12 13. 0. 23. 20. 40. 60. 80. x. 図. &. 広告データに対する回帰直線図. は ! 番目の観測値の影響を強く受けているがロバスト推定量による回帰直線は影響. を受けていないまた. &. による外れ値 . . !. を除いた && に最深回帰推定量は. 近く他のロバスト推定量による直線と & を挟んで反対側にあることが見てとれる.

(135) おわりに本論文では. . に基づく最深回帰推定量を紹介しその基本的な性質につ. いて考察した最深回帰推定量を計算しその性質を調べるに際してはを用いた最深回帰推定量以外の主要なロバスト推定量は " 推定量を除きほとんどで利用できるようになっている最深回帰推定量は提案されてからまだ日が浅くよく理解されていないこともあり. . での利用はこれまで可能ではなかった筆者達は . のみで利用可能であった. 最深回帰推定量のプログラムを上で利用できるように書き直すことに思い至ったそして書き直したプログラムの機能と性能をチェックしたうえでこれを使用して本研究を行なった最深回帰推定量をで使用したのは著者達の知る限りでは本研究が最初である我が国ではロバスト統計学分野の研究者が少なくロバスト推定の研究は理論と応用の両面で大きく遅れているその主な理由の一つにロバスト理論が難しく取っ付きにくいことがある最深回帰推定量は他のロバスト推定量に劣らず魅力のある推定量であるので. . で. 利用可能となったことを契機としてもっと身近なものになり広く活用されるようになることを願う. 参考文献 9: . B .

(136) . 2C

(137) ( .

(138) . #. * . . $<%. 9: B . 9!: =. 2C

(139) . !$<%%. D #8

(140) #,# # . %%<%! =

(141)

(142)

(143). #

(144) 8 9': + - 1 93: + ,. . . 2 8. E ) F +. . 2C.

(145) . 9%:. 藤木美江. G -. H ' " I <# . . <$. ! 0. の理論とその応用に関する研究南山大学経営学研. 究科修士論文 9 : #. .. 8. /. . 2C. .

(146)

(147) !

(148)

(149) " 9$: . D 2 .

(150)

(151) 9:

(152) .

(153) . E4 8 8 2

(154) . <$. . . $#8 . 2C !

(155) J. 9: . . 1 E ) F. #.

(156)

(157)

(158) . E ) F. 1 $%. #8. 8 -8 + . <$ 2C ' & # K .

(159) . $ <$$. 9: . 2C

(160) . .

(161) .

(162) . !$$<'. 9: . 2C & . $ .

(163)

(164) $

(165) %

(166)

(167) . 1 E ) F 9!: 2C. ) BC '

(168)

(169) # <# . #

(170)

(171)

(172)

(173) . &8 E 8. . C. F. 3%< . . 1 0 E ) F. 9': ) BC $

(174) F < Æ8 8 # . 93: ). BC. . %'<%3%. *#. $$

(175) F #

(176) . # # #I Æ8 8 9%: *.

(177) . '%<'!. ) # K 4

(178) L #.

(179) F . & '

(180) . !%<! 3.

(181)