統計手法を有限標本のデータに適用する際には,分析結果が理論的性質とは異なる可能性に注意しなければ ならない.そのため,数値実験を通して,有限標本の下でのLSCV推定量とDPI推定量の性能を調べる必要 がある.DPI推定量は1ステップ・プラグイン法の中でVM分布を参照分布として採用している.そのため,
真の分布としてVM分布を選ぶとDPI推定量に有利である.したがって,VM分布とは異なる分布の下で DPI推定量の性能はどのように変化するかを明らかにしたい.また,LSCV推定量は,その理論的性質から 分布の選択の影響を受けないと予想できるが,有限標本下でLSCV推定量がそのような特性を持つかどうか も調査すべきである.
これらの疑問に応えるための方法として,VM分布を含む柔軟な分布族を採用することが考えられる.ここ では,VM分布やWC分布を含み,さらに非対称な分布までも含むsine skewed Jones-Pewsey (SSJP)分布 (Abe and Pewsey, 2011)を採用する.SSJP分布SSJP(µ, τ, ψ, λ)の密度関数は次式で与えられる.
f(θ;µ, τ, ψ, λ) :=cosh(τ ψ)1/ψ(1 + tanh(τ ψ) cos(θ−µ))1/ψ(1 +λsin(θ−µ))
2πP1/ψ(cosh(τ ψ)) ,
ただし,0≤τは,形状パラメータを,−1≤λ≤1は非対称パラメータを,P1/ψ(cosh(τ ψ))は自由度(1/ψ) の0次第1種ルジェンドル陪関数をそれぞれ表す.ここで,τ= 0のとき,明らかにSSJP分布は円周上の一 様分布であるので,以下の議論では,常に0< τ とおくことにする.
SSJP分布が含むいくつかの円周上の確率分布について述べる.λ= 0のとき,SSJP分布は対称分布とな ることに注意されたい.SSJP分布は,λ= 0の下でψ= 0,−1,1のとき,それぞれ,VM分布・WC分布・
ハート形分布となる.ハート形分布の密度関数は単純で
f(θ;µ= 0, τ, ψ= 1, λ= 0) = (1 +τcos(θ))/(2π)
で与えられる.また,SSJP分布は,λ̸= 0かつψ= 0,−1のときsine skewed VM分布・sine skewed WC 分布と呼ばれ,0< λ≤1かつψ= 1のときsine skewedハート形分布と呼ばれる.
今挙げたSSJP分布の6つのサブクラス(Model.1–6)を用いて数値実験を行うことにする.
Model.1 VM分布: SSJP(µ= 0, τ = 1, ψ= 0, λ= 0).
Model.2 ハート形分布: SSJP(µ= 0, τ = 1, ψ= 1, λ= 0).
Model.3 WC分布: SSJP(µ= 0, τ = 1, ψ=−1, λ= 0).
Model.4 Sine-skewed VM分布: SSJP(µ= 0, τ = 1, ψ= 0, λ= 0.6).
Model.5 Sine-skewedハート形分布: SSJP(µ= 0, τ = 1, ψ= 1, λ= 0.6).
Model.6 Sine-skewed : WC分布SSJP(µ= 0, τ = 1, ψ=−1, λ= 0.6).
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
Model.1 Model.2 Model.3
図 7: Model.1–3 の 密 度 関 数 .Model.1–3 は VM・ハート形・WC分布である.
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
Model.4 Model.5 Model.6
図8: Model.4–6の密度関数.Model.4–6はsine skewed VM・sine skewedハート形・sine skewed WC分布の密度関数である.
実験4.1. 数値実験の手順:
1. Model.1に関して次の手順に従って数値実験を行う.
(a)Model.1の分布からサンプルサイズnのランダム標本を発生させる.
(b)真の分布がModel.1の分布であるときの最適な集中度パラメータκ∗を(3.4)から求める.
(c)統計ソフトRの「circular」ライブラリーにある「bw.cv.mse.circular」関数を用いてLSCV推定 量ˆκCVを推定する.
(d)1ステップ・プラグイン法を用いてDPI推定量κˆPIを推定する.
(e) 次の2つの相対誤差YCV= ˆκCV/κ∗−1とYPI= ˆκPI/κ∗−1を計算する.
(f)(a)–(e)の手順を1000回繰り返し,YCVとYPIの標本平均と標本標準偏差を与える.
2. (a)–(f)の手順をModel.2–6に対しても実行する.
表7: 数値実験4.1 の結果(DPI). 各セルの値は,Model.1–6 からサンプルサイズnの標本を1000回生 成して求めたDPI推定量の相対誤差(ˆκPI/κ∗−1)の標本平均(mean)と標準偏差(sd)である.ただし,
n= 50,100,200,500,1000である.
n Model.1 Model.2 Model.3 Model.4 Model.5 Model.6
mean sd mean sd mean sd mean sd mean sd mean sd
50 0.11 0.31 0.38 0.41 -0.39 0.20 0.07 0.30 0.17 0.34 -0.35 0.19 100 0.07 0.25 0.29 0.3 -0.38 0.15 0.03 0.22 0.13 0.25 -0.35 0.14 200 0.05 0.19 0.24 0.22 -0.37 0.12 0.01 0.17 0.09 0.18 -0.33 0.11 500 0.03 0.13 0.19 0.14 -0.33 0.09 -0.01 0.12 0.06 0.13 -0.29 0.08 1000 0.02 0.10 0.16 0.11 -0.30 0.07 -0.01 0.09 0.05 0.10 -0.26 0.06
表8: 数値実験4.1の結果(LSCV). 各セルの値は,Model.1–6からサンプルサイズnの標本を1000回生 成して求めたLSCV推定量の相対誤差(ˆκCV/κ∗−1)の標本平均(mean)と標準偏差(sd)である.ただし,
n= 50,100,200,500,1000である.
n Model.1 Model.2 Model.3 Model.4 Model.5 Model.6
mean sd mean sd mean sd mean sd mean sd mean sd
50 1.72 5.16 2.72 7.62 0.66 2.66 1.48 4.33 1.82 5.10 0.71 2.74 100 1.37 3.97 2.2 5.98 0.31 1.78 1.03 3.15 1.44 3.98 0.47 2.00 200 1.01 3.00 1.70 4.6 0.27 1.51 0.76 2.39 0.88 2.73 0.22 1.33 500 0.67 2.10 0.96 2.8 0.13 0.96 0.53 1.70 0.63 1.99 0.08 0.81 1000 0.39 1.40 0.66 1.95 0.06 0.72 0.40 1.30 0.43 1.38 0.06 0.64 表7と8から,Model.1–6のいずれの場合でも,DPI推定量はLSCV推定量よりも標準偏差が小さいので,
DPI推定量は安定した推定量であることが分かる.Model.1 (VM分布)・Model.2 (ハート形分布)・Model.4 (Sine skewed VM分布)・Model.5 (Sine skewedハート形分布)の下では,DPI推定量はLSCV推定量より も平均値が0に近く,LSCV推定量よりもその性能は優れている.しかし,Model.3 (WC分布)・Model.6
(Sine skewed WC)分布に関しては平均値を比較すると,サンプルサイズnに応じて両者の性能の優位性は変
化する.Model.3の場合はn= 50のとき,DPI推定量はより良い性能は持つが,n≥100のとき,LSCV推 定量の性能の方が優れている.また,Model.6の場合はn= 50,100のとき,DPI推定量の性能がより優れて いるが,n≥200のときはLSCV推定量の性能の方が高い.
図7を見ると,Model.1とModel.2は山の形が穏やかであり,裾の減少が速い形状をしているが, Mode-l.3は山の頂上付近が急なカーブとなっていて,裾が厚い形状をしている(図8はModel.4–6についても同 じ傾向があることを示している).DPI推定量はVM分布やハート形分布といった山の形が穏やかな分布では 優れた性能を持つが,WC分布のような裾が厚い分布に関してはバイアスを持っている.これは1ステップ・
プラグイン法の参照分布としてVM分布を採用しているためと考えられる.Model.4–6の結果から,LSCV
推定量とDPI推定量は,分布の非対称性の影響をほとんど受けていないことが分かる.
LSCV推定量の性能は不安定であるためにサンプルサイズnが小さいときはDPI推定量を用いるべきであ る.サンプルサイズnが十分に大きいとき,LSCV推定量とDPI推定量の性能の優位性は分布の形状の影響 を受けているので,どちらの推定量を採用するかは,分析者が2つの推定量を用いたKDEを構築したうえで 両者の結果を比較して判断すべきである.