前節ではVMカーネルとWCカーネルの理論的性質について議論した.実データ分析の観点から,数値実 験を通して有限標本の場合の両者の性能を調べることにする.また,一般に誤差項の標準偏差が大きくなるほ ど,回帰の性能は悪化するので,誤差項の標準偏差が変化したときVMカーネルとWCカーネルの性能に変 化があるか確かめる.
ここで次のようなモデルを考える.
Yi =m(Θi) +v1/2(Θi)εi, ε∼N(0,1), v(θ) =t2,
ただし,回帰関数は m(θ) = 2 + 3 cos(θ) + 2 sin(3θ)であり (図9 を参照), Θi は円周上の一様分布: fCU(θ) = 1/(2π) θ∈[−π, π)に従う.
上記の設定の下での最適な集中度パラメータを用いてVMカーネルとWCカーネルを適用した場合の比較 を行う. 最適な集中度パラメータを用いる理由はm(θ)の推定に関して集中度パラメータの推定誤差の影響 を取り除くためである. VMカーネルの集中度パラメータは
˜
κ= [333n/(2π1/2t2)]2/5
0 1 2 3 4 5 6
−20246
θ
m(θ)
図9: 回帰関数:m(θ) = 2 + 3 cos(θ) + 2 sin(3θ).
であり,巻き込みコーシーカーネルの集中度パラメータは
˜h= [32t2/(333n)]2/5
である. 小標本では MISEY[ ˆm(θ; 1,·)|Θn] は説明変数 Θn のサンプリングに強く依存する.Θn のラ ンダム性を弱めるために Θn について100 回のサンプリングを行い, MISE の算術平均: Ave.MISE =
∑100
j=1MISEj,Y[ ˆm(θ; 1,·)|Θn]/100を計算する.
数値実験の手順は次の通りである.
実験5.1. 数値実験の手順:
1. 円周上の一様分布に従うサンプルサイズnのランダム標本{Θ1, . . . ,Θn}を生成する. 2. 正規分布N(0, t2)からサンプルサイズnのランダム標本{ε1, . . . , εn}を生成する. 3. 1–2からランダム標本{Y1, . . . , Yn}を生成する.
4. VMカーネルを適用したm(θ; 1,ˆ κ)˜ とWCカーネルを適用したm(θ; 1,ˆ ˜h)をそれぞれ計算する. 5. 数値積分ISEVM:=∫π
−π{m(θ; 1,ˆ ˜κ)−m(θ)}2/(2π)dθとISEWC :=∫π
−π{m(θ; 1,ˆ ˜h)−m(θ)}2/(2π)dθ をそれぞれ計算する.
6. 2 か ら 5 の 手 順 を 1000 回 繰 り 返 し て ,MISEVM := ∑
jISEVM,j/1000 と MISEWC :=
∑
jISEWC,j/1000をそれぞれ計算する.
7. 1から6の手順を 1000回繰り返して,Ave.MISEVM := ∑
jMISEVM,j/100 と Ave.MISEWC :=
∑
jMISEWC,j/100をそれぞれ計算する.
表9と表10は,n≤20のとき,WCカーネルの性能はVMカーネルのものよりも優れていることを示し ている.しかし,n≥30のとき,VMカーネルはWCカーネルよりも優れた性能を持つことが分かる. 表11 と表12は小標本の場合ではWCカーネルのMISEの標準偏差はVMカーネルのものよりも小さいことを示 している.つまり,WCカーネルは小標本の下ではVMカーネルよりも安定している.これらの結果はWC カーネルが小標本の下では優れた性能を持つことを示唆している.n≥30のとき,VMカーネルはWCカー ネルよりも優れた性能を持つ.
誤差項の標準偏差tが大きくなるとVM・WCカーネルともに性能は悪化する.ただし,tが大きい場合で
もnが大きくなるつれて両者の性能は改善されている.
数値実験5.1は1つの回帰関数の場合のみを対象にしており,VMカーネルとWCカーネルの実データ分 析における性能の評価としては限定的な結果である.今後は,別の回帰関数を用いるなどした複数の設定の下 での数値実験を追加すべきである.
表9: 実験5.1の結果(VMカーネル).各セルの値はVMカーネルの重み付条件付MISE:Ave.MISEVM:=
∑
jMISEVM,j/100である.nはサンプルサイズ,tは誤差項の標準偏差を表す.
n= 10 n= 20 n= 30 n= 40 n= 50 n= 100 t= 0.5 200.667 3.938 0.363 0.246 0.132 0.057 t= 1 11.314 1.441 0.678 0.401 0.315 0.158 t= 1.5 7.575 2.008 0.987 0.733 0.566 0.291 t= 2 12.122 2.805 1.470 1.076 0.840 0.447
表10: 実験5.1の結果(WCカーネル).各セルの値はWCカーネルの重み付条件付MISE: Ave.MISEWC:=
∑
jMISEWC,j/100.nはサンプルサイズ,tは誤差項の標準偏差を表す.太字は,同じ(n, t)のとき,VMカー ネルよりも値が小さいことを表す.
n= 10 n= 20 n= 30 n= 40 n= 50 n= 100 t= 0.5 2.090 1.075 0.594 0.421 0.319 0.148 t= 1 2.627 1.258 0.846 0.597 0.519 0.292 t= 1.5 2.713 1.650 1.165 0.938 0.815 0.476 t= 2 4.161 2.256 1.602 1.254 1.061 0.657
表11: 実験5.1の結果(VMカーネル).各セルの値はVMカーネルの重み付条件付MISEの標準偏差を表す. nはサンプルサイズ,t は誤差項の標準偏差を表す.
n= 10 n= 20 n= 30 n= 40 n= 50 n= 100 t= 0.5 1784.428 28.477 0.390 0.377 0.040 0.009 t= 1 27.064 1.708 0.473 0.086 0.055 0.012 t= 1.5 18.149 2.043 0.407 0.303 0.086 0.021 t= 2 31.531 2.960 0.405 0.226 0.112 0.026
表12: 実験5.1の結果(WCカーネル).各セルの値はWCカーネルの重み付条件付MISEの標準偏差を表 す. nはサンプルサイズ,t は誤差項の標準偏差を表す.太字は,同じ(n, t)のとき,VMカーネルよりも値が 小さいことを表す.
n= 10 n= 20 n= 30 n= 40 n= 50 n= 100 t= 0.5 1.197 0.814 0.395 0.306 0.137 0.051 t= 1 1.267 0.648 0.359 0.154 0.155 0.046 t= 1.5 1.080 0.593 0.325 0.228 0.228 0.063 t= 2 3.093 0.848 0.345 0.226 0.143 0.073