このファイルでは,統計検定2級試験を受験するために「統計学」(東京大学出版会) を勉強される場合,2級試験の範囲で本書で扱われていない内容についての補足説明を与 えています。また追加的な演習問題も用意しています。
(1)統計検定2級試験のための補足説明
第2章「分布の特徴を探る」に関して
○箱ひげ図の描き方と外れ値
n個のデータ x1, . . . , xnを小さい順に並べ替えたもの x(1), . . . , x(n),(x(1) ≤ · · · ≤ x(n)), を順序データという。p.32 に解説されているように,R = x(n)− x(1)を範囲という。また 下側 100 × α% 分位点を Qαで表すとき,Q0.25, Q0.5, Q0.75をそれぞれ第1四分位数(点), 第2四分位数(点),第3四分位数(点)といい,第2四分位数はメディアンに等しい。
IQR = Q0.75− Q0.25
を四分位範囲 (interquartile range) といい,IQR/2 を四分位偏差という。
最小値 x(1),第1四分位数 Q0.25,メディアン medx, 第3四分位数 Q0.75,最大値 x(n)を5 数要素 (five-number summary) という。これらを視覚的に描いた図が箱ひげ図 (box and whisker plot)である。箱ひげ図の説明については p.33, p.34 で与えられている通り,箱の 下底が第1四分位数の値,箱の上底が第3四分位数,箱の内側の線分がメディアンの値を 表している。ひげの描き方にはいくつかの方法があるようですが,箱の下側のひげについ ては,箱の下底 (Q0.25)から
Q0.25− 1.5 × IQR
以上の最小の観測値までひげを伸ばし,その値より小さい観測値については ◦ などの個別 の点で表す。同様にして箱の上側のひげについては,箱の上底 (Q0.75)から
Q0.75+ 1.5× IQR
以下の最大の観測値までひげを伸ばし,その値より大きい観測値については ◦ などの個別 の点で表す。◦ で表わされた点は外れ値 (outlier) として注意してみていく。というのは, 本書の中で注意されているように,平均や分散,相関係数,回帰の最小2乗推定値などは 外れ値に敏感で,たった一つの外れ値であっても大きく影響を受ける傾向にある。
最後に,少し難しくなるが,p.38 で与えられた分位点の定義に従うと,Statistics 2016 typo.pdf の中で詳しく説明されているように,自然数 m に対して
n = 4mのときには,Q0.25 = {x(m) + x(m+1)}/2, Q0.75 = {x(3m) + x(3m+1)}/2 となる ので,
IQR = x(3m)+ x(3m+1)
2 −
x(m)+ x(m+1) 2 と書けることがわかる。
n = 4m + 1, 4m + 2, 4m + 3のときには,Q0.25= x(m+1)となる。一方,n = 4m + 1 の とき Q0.75= x(3m+1), n = 4m + 2のとき Q0.75= x(3m+2), 4m + 3のとき Q0.75 = x(3m+3)と なるので,IRQ は
IQR = x(3m+1)− x(m+1) n = 4m + 1のとき IQR = x(3m+2)− x(m+1) n = 4m + 2のとき IQR = x(3m+3)− x(m+1) n = 4m + 3のとき と書ける。
第4章「変数間の関係性をみる
○ オッズ比と連関係数
p.77において分割表(クロス表)データの相関係数を求める方法を説明した。ここで は,リスクの程度を示す指数としてオッズ比について説明する。例えば,n 人について喫 煙しているか否か,肺ガンか否かを調べてした結果を分割表にまとめたものは次の表のよ うに表される。
肺がん 健康 計 喫煙 f11 f12 f1· 非喫煙 f21 f22 f2· 計 f·1 f·2 n
このとき,肺がんと健康の比率をオッズといい,喫煙している人は f11/f12, 喫煙していな い人は f21/f22で与えられる。この 2 つの比
ψ = f11/f12 f21/f22
= f11f22 f12f21
をオッズ比といい,喫煙してことが喫煙していないことに比べてどの程度リスクが高いか を示している。オッズ比は [0, ∞) の間で値をとるので,これを区間 [−1, 1] の値に変換し たもの
Q = ψ− 1 ψ + 1 =
f11f22− f12f21 f11f22+ f12f21
を連関係数という。
例えば p.4 で取り上げられた分割表データについて調べてみる。 カテゴリー 肺ガンの患者 健常者 計
喫煙していた 60 32 92
喫煙していない 3 11 14
計 63 43 106
喫煙によるオッズは 60/32 = 1.875, 喫煙していないときのオッズは 3/11 = 0.273 である。 従ってオッズ比は 1.875/0.273 = 6.868 となり,かなりのリスクがあることがわかる。ま た連関係数は (6.868 − 1)/(6.868 + 1) = 0.745 となる。ちなみに相関係数は p.78 に与えら れているように 0.30 になる。
第7章「代表的な確率分布」に関して
○ 幾何分布
表の出る確率 p のコインを投げ続けていき,初めて表が出るまでに裏が何回出たか,そ の裏の出る回数を X とする。このとき X の分布を幾何分布となる。表を〇,裏を×で表 わすと
××××× · · · ××××〇 合計 k + 1回の試行
{ 〇 : 1 回
× : k 回 となるので,X = k となる確率は
P (X = k|p) = p(1 − p)k, k = 0, 1, 2, . . . , (1)
と書ける。これを幾何分布 (geometric distribution) といい,Geo(p) で表す。この確率関
0 2 4 6 8 10
0.000.050.100.150.200.250.30
Geo(0.3)
図 1: 幾何分布
数の総和は等比数列の和になり, |a| < 1 なる a に対して∑∞k=0ak = 1/(1− a) であること から,∑∞k=0p(1− p)k= 1となる。
幾何分布 Geo(p) に従う確率変数 X の平均と分散は E[X] = q/p, Var(X) = q/p2 であ る。実際,q = 1 − p に対して
E[X] =
∑∞ k=0
kpqk= pq
∑∞ k=1
kqk−1
と表される。ここで∑∞k=1qk = 1/p = 1/(1− q) の両辺を q で微分することにより
∑∞ k=1
kqk−1 = 1 (1− q)2 =
1 p2 と書けるので,E[X] = q/p となる。
また上に式をさらに q に関して微分すると
∑∞ k=2
k(k− 1)qk−2 = 2 (1− q)3 =
2 p3
と書けることに注意する。このことから
E[X(X − 1)] =
∑∞ k=0
k(k− 1)pqk= pq2
∑∞ k=2
k(k− 1)qk−2 = pq2× 2 p3 =
2q2 p2 となることわかる。従って
Var(X) = E[X(X− 1)] + E[X] − (E[X])2 = 2q
2
p2 + q p −
q2 p2 =
q p2 となる。
幾何分布の特徴として,無記憶性 (memoryless property) と呼ばれる性質が知られてい る。これは,s 回までの試行において表が出ないという条件のもとで次の t 回までの試行 で表が出ないという確率は,s 回まで表が出ないという条件には依存しないというもので, 初めて表が出るという現象はランダムに起こることを意味している。
□ 幾何分布の無記憶性 s と t を非負の整数とし,X は幾何分布 Geo(p) に従うとする。 このとき,P (X ≥ s + t|X ≥ s) = P (X ≥ t) が成り立つ。
実際,P (X ≥ s) =∑∞k=spqk= pqs/(1− q) = qsより,条件付き確率は
P (X ≥ s + t|X ≥ s) =P (X ≥ s + t, X ≥ s) P (X ≥ s) =
P (X ≥ s + t) P (X ≥ s)
=q
s+t
qs = q
t= P (X ≥ t)
が成り立つ。
第8章「多変数の確率分布」に関して
○ 2次元正規分布の条件付き分布
2つの連続な確率変数 X, Y の同時確率密度関数を fX,Y(x, y)とすると,X = x を与え たときの Y の条件付き確率密度関数 fY |X(y | x) は
fY |X(y | x) = fX,Y(x, y) fX(x) で定義される。これより
fX,Y(x, y) = fY |X(y | x)fX(x)
と表すことができる。すなわち,同時確率密度関数は条件付き確率密度関数と周辺確率密 度関数の積として表現することができる。このことを2次元の正規分布について調べてみ よう。
2つの確率変数 (X1, X2)が2次元の正規分布に従うとする。すなわち
X =( X1 X2
)∼ N2(( µ1 µ2
),( σ
12 ρσ1σ2
ρσ1σ2 σ22 ))
とすると,同時密度関数は (8.16) より fX(x| µ, Σ) = 1
2π
√ 1
1− ρ2σ1σ2
× exp{− 1 2(1− ρ2)
[(x1− µ1
σ1
)2
− 2ρx1− µ1 σ1
x2− µ2 σ2
+(x2− µ2 σ2
)2]}
と書けることがわかる。[·] の中身を x2について平方完成すると (x1− µ1
σ1 )2
− 2ρx1σ− µ1
1
x2− µ2
σ2 +
(x2− µ2
σ2 )2
=(x2− µ2 σ2 − ρ
x1− µ1
σ1
)2
+ (1− ρ2)(x1 − µ1 σ1
)2
と書けるので,同時確率密度関数は fX(x| µ, Σ) =√1
2π
√ 1
1− ρ2σ2
exp{− 1 2(1− ρ2)σ22
(x2− µ2 − ρσ2 σ1
(x1− µ1))2}
× √ 1 2πσ1
exp{− 1
2σ21(x1− µ1)
2}
=fX2|X1(x2 | x1)fX1(x1)
と表される。ここで fX2|X1(x2 | x1)は X1 = x1を与えたときの X2の条件付き確率密度関 数,fX1(x1)は X1の周辺確率密度関数を表しており,
X2 | X1 = x1 ∼N(µ2+ ρσ2 σ1
(x1− µ1), (1− ρ2)σ22) X1 ∼N (µ1, σ21)
となる分布に従うことがわかる。このことから条件付き平均と条件付き分散 E[X2 | X1 = x1] =µ2+ ρσ2
σ1(x1− µ1) Var(X2 | X1 = x1) =(1− ρ2)σ22
が得られる。また X1と X2が独立になるための必要十分条件は ρ = 0 であることも示さ れる。
第10章「区間推定」と第11章「仮説検定」に関して
○ 1 標本の正規母集団
様々な形の仮説検定の問題があり,本書で取り上げているのは代表的なものである。こ こでは,本書で取り上げた検定手法をコンパクトにまとめてみるとともに,本書で取り上 げていない検定で 2 級試験範囲のものを紹介する。
X1, . . . , Xnが互いに独立に N (µ, σ2)に従うとする。X = n−1∑n=1Xi, V2 = (n − 1)−1∑ni=1(Xi− X)2とする。次の検定を考える。
(A) (両側検定) H0 : µ = µ0 vs H1 : µ̸= µ0
(B) (片側検定) H0 : µ = µ0 vs H1 : µ > µ0
(1)σ2 = σ02が既知の場合
両側検定 (A) の棄却域: |X − µ0|/σ0 > (1/√n)zα/2
片側検定 (B) の棄却域:(X − µ0)/σ0 > (1/√n)zα
信頼区間:X ± (σ0/√n)zα/2
(2)σ2が未知の場合
両側検定 (A) の棄却域:|X − µ0|/V > (1/√n)tn−1,α/2
片側検定 (B) の棄却域:(X − µ0)/V > (1/√n)tn−1,α 信頼区間:X ± (V/√n)tn−1,α/2
(3)母分散 σ2の検定
σ2の両側検定:H0 : σ2 = σ02 vs H1 : σ2 ̸= σ02
(n− 1)V2/σ2 ∼ χ2n−1に注意。χ2n−1,α/2, χ2n−1,1−α/2をそれぞれ χ2n−1の上側 100(α/2)% 点,上側 100(1 − α/2)% 点とする。
棄却域:(n − 1)V2/σ02 < χ2n−1,1−α/2 もしくは (n − 1)V2/σ02 > χ2n−1,α/2
σ2の信頼区間:(n − 1)V2/χ2n−1,α/2 ≤ σ2 ≤ (n − 1)V2/χ2n−1,1−α/2
○ 1 標本の近似分布
(1) 比率の検定
内閣支持率などベルヌーイ分布の比率の検定を考える。X1, . . . , Xn i.i.d. ∼ Ber(p) の とき,E[Xi] = p, Var(Xi) = p(1− p) である。
両側検定 H0 : p = p0 vs H1 : p̸= p0の棄却域:|X − p0|/√p0(1− p0) > (1/√n)zα/2 片側検定 H0 : p = p0 vs H1 : p > p0の棄却域:(X − p0)/√p0(1− p0) > (1/√n)zα
信頼区間:X ±(√X(1− X)/√n)zα/2 (2) 標本平均に基づいた平均の近似検定
X1, . . . , Xn i.i.d. ∼ (µ, σ2)とし,X = n−1∑ni=1Xi, V2 = (n− 1)−1∑ni=1(Xi− X)2と する。母集団分布を特に定めていない点に注意する。σ2の一致推定量を ˆσ2とする。一つ の一致推定量は V2なので,一致推定量として V2を用いる場合は以下の記述で ˆσ を V で 置き換える必要がある。
両側検定 H0 : µ = µ0 vs H1 : µ ̸= µ0の棄却域:|X − µ0|/ˆσ > (1/√n)zα/2 片側検定 H0 : µ = µ0 vs H1 : µ > µ0の棄却域:(X − µ0)/ˆσ > (1/√n)zα
信頼区間:X ± (ˆσ/√n)zα/2
(3) 最尤推定量に基づいた近似検定
確率関数もしくは確率密度関数 f(x; θ) に従っている母集団からのランダム標本を X1, . . . , Xn
とする。すなわち,X1, . . . , Xn, i.i.d.∼ f(x; θ) とし,θ の最尤推定量を ˆθM Lとし, I(θ) を フィッシャー情報量とする。
両側検定 H0 : θ = θ0 vs H1 : θ̸= θ0の棄却域:√I(θ0)|ˆθM L− θ0| > (1/√n)zα/2 片側検定 H0 : θ = θ0 vs H1 : θ > θ0の棄却域:√I(θ0)(ˆθM L− θ0) > (1/√n)zα
信頼区間:ˆθM L±(1/
√
nI(ˆθM L))zα/2
○ 等分散をもつ2標本の正規母集団
2つの標本を考える。X1, . . . , Xm, i.i.d.∼ N (µ1, σ2), Y1, . . . , Yn, i.i.d.∼ N (µ2, σ2)とし, 2つの標本が独立であるとする。X = m−1∑mi=1Xi, Y = n−1∑ni=1Yiとする。平均に関す る次の検定を考える。
(C) (両側検定)H0 : µ1 = µ2 vs H1 : µ1 ̸= µ2
(D) (片側検定)H0 : µ1 = µ2 vs H1 : µ1 > µ2
(1) σ2 = σ02が既知の場合
両側検定 (C) の棄却域:|X − Y |√mn/(σ0√m + n) > zα/2
片側検定 (D) の棄却域:(X − Y )√mn/(σ0
√m + n) > zα µ1− µ2の信頼区間:X − Y ±(σ0√m + n/√mn)zα/2 (2) σ2が未知の場合
この場合 σ2については次のプールされた推定量を用いる。
ˆ
σ2 = 1 m + n− 2
{∑m
i=1
(Xi− X)2+
∑n i=1
(Yi− Y )2
}
両側検定 (C) の棄却域:|X − Y |√mn/(ˆσ√m + n) > tm+n−2,α/2 片側検定 (D) の棄却域:(X − Y )√mn/(ˆσ√m + n) > tm+n−2,α/2 µ1− µ2の信頼区間:X − Y ±(σˆ√m + n/√mn)tm+n−2,α/2
○ 不等分散をもつ2標本の正規母集団
2標本問題において 2 つ標本で分散が異なっている問題を考えてみよう。X1, . . . , Xm, i.i.d.∼ N (µ1, σ21), Y1, . . . , Yn, i.i.d. ∼ N (µ2, σ22)とする。V12 = (m− 1)−1∑mi=1(Xi − X)2, V22 =
(n− 1)−1∑ni=1(Yi− Y )2とおく。 (1) σ21, σ22が既知の場合
両側検定 (C) の棄却域:|X − Y |/√σ12/m + σ22/n > zα/2
片側検定 (D) の棄却域:(X − Y )/√σ21/m + σ22/n > zα
µ1− µ2の信頼区間:X − Y ±√σ21/m + σ22/nzα/2
(2) σ21, σ22が未知の場合 この場合,µ1 = µ2のとき,
X− Y
√V12/m + V22/n
は t-分布に従わず,確率分布が母分散 σ12, σ22に依存してしまう。これをべーレンス・フィッ シャー (Behrens-Fisher) 問題という。そこで f を
f = (V
12/m + V22/n)2
V14/{m2(m− 1)} + V24/{n2(n− 1)} で定義すると,µ1 = µ2のもとで
X− Y
√V12/m + V22/n
は自由度 f の t-分布で近似することが知られている。この近似を用いた検定をウェルチの 検定 (Welch’s test) という。ここで f は必ずしも自然数にならないので数値表から補間し た値を用いる。
両側検定 (C) の棄却域:|X − Y |/√V12/m + V22/n > tf,α/2
片側検定 (D) の棄却域:(X − Y )/√V12/m + V22/n > tf,α
µ1− µ2の信頼区間:X − Y ±√V12/m + V22/ntf,α/2
m, nが大きいときには V12, V22は σ12, σ22の一致推定量であるから,次のような近似的な 手法を用いることもできる。
両側検定 (C) の棄却域:|X − Y |/√V12/m + V22/n > zα/2
片側検定 (D) の棄却域:(X − Y )/√V12/m + V22/n > zα
µ1− µ2の信頼区間:X − Y ±√V12/m + V22/nzα/2
(3) 分散の同等性の検定
2つの標本の分散が等しいか否かを検定する問題を考える。 H0 : σ21 = σ22 vs H1 : σ12 ̸= σ22
この検定の棄却域は V12
V22 < Fm−1,n−1,1−α/2 もしくは
V12
V22 > Fm−1,n−1,α/2
となる。ここで,Fm−1,n−1,1−α/2, Fm−1,n−1,α/2 は自由度 (m − 1, n − 1) の F-分布の上側 100(1− α/2)% 点,上側 100α/2% 点である。
分散比 σ21/σ22の信頼区間: V12/V22 Fm−1,n−1,α/2 ≤
σ12 σ22 ≤
V12/V22 Fm−1,n−1,1−α/2
○ 2標本の近似分布
(1) 比率の差の検定
男女の違いで内閣支持率に差があるかを調べるために男性の内閣支持率と女性の内閣 支持率の同等性を検定することを考える。ベルヌーイ分布の 2 標本問題におけるパラメー タの同等性検定を求めてみよう。2つの標本が独立であり,X1, . . . , Xm i.i.d.∼ Ber(p1), Y1, . . . , Yn i.i.d. ∼ Ber(p2)とする。このとき,同等性検定 H0 : p1 = p2 vs H1 : p1 ̸= p2
を考え,m, n ともに大きい場合に近似的な検定法を与える。る。H0が正しいときには p1 = p2 = pとおくと,H0のもとで p の一致推定量は
ˆ
p= (mX + nY )/(m + n) であるので,近似的な両側検定の棄却域は
|X − Y |/√p(1ˆ − ˆp) >√m−1+ n−1zα/2 で与えられる。
片側検定 H0 : p1 = p2 vs H1 : p1 > p2の棄却域:
(X − Y )/√p(1ˆ − ˆp) >√m−1+ n−1zα
p1− p2の信頼区間:
X− Y ±√p(1ˆ − ˆp)√m−1+ n−1zα/2
(2) 平均の差の近似検定
X1, . . . , Xm, i.i.d.∼ (µ1, σ21), Y1, . . . , Yn, i.i.d.∼ (µ2, σ22)とし,分布については特に定め ないことにする。X = m−1∑mi=1Xi, Y = n−1∑ni=1Yi, V12 = (m− 1)−1∑mi=1(Xi− X)2, V22 = (n− 1)−1∑ni=1(Yi− Y )2とおく。m, n が大きいときの近似的な検定法を与える。
ˆ
σ12, ˆσ22を σ12, σ22の一致推定量とする。V12, V22は σ21, σ22の一致推定量であるから,これ らを用いるときには,以下の記述において ˆσ12, ˆσ22を V12, V22で置き換える必要がある。
両側検定 (C) の棄却域:|X − Y |/√σˆ12/m + ˆσ22/n > zα/2
片側検定 (D) の棄却域:(X − Y )/√σˆ21/m + ˆσ22/n > zα
µ1− µ2の信頼区間:X − Y ±√ˆσ21/m + ˆσ22/nzα/2
母分散が等しい場合,すなわち σ12 = σ22 = σ2のときには,プールされた一致推定量
ˆ
σ2 = (m− 1)V
12+ (n− 1)V22
m + n− 2 を用いる。
両側検定 (C) の棄却域:|X − Y |/{ˆσ√1/m + 1/n} > zα/2
片側検定 (D) の棄却域:(X − Y )/{ˆσ√1/m + 1/n} > zα µ1− µ2の信頼区間:X − Y ± ˆσ√1/m + 1/nzα/2
○ 対のある 2 標本に関する検定と区間推定
(1) 正規分布を仮定する場合
コレステロールと下げる薬について,同じ人の投与前のコレステロールの値 Xiと投 与して 1ヶ月後の値 Yiを測定することを考えよう。投与前の平均と分散を E[Xi] = µ1, Var(Xi) = σ12, 投与1ヶ月後の平均と分散を E[Yi] = µ2, Var(Yi) = σ22とする。Xiと Yiは 同じ人の値であるから相関が存在することになる。相関係数を ρ とする。Zi = Xi− Yiと し,(Xi, Yi)に 2 変量正規分布を仮定すると, Z1, . . . , Znは互いに独立に分布し
Zi ∼ N (µ1 − µ2, σ2)
なる正規分布に従うことがわかる。ここで σ2 = σ12 + σ22 − 2ρσ1σ2 である。V2 = (n− 1)−1∑nk=1(Zi− Z)2とおくと (n − 1)V2/σ2 ∼ χ2n−1に従うことに注意する。従って分散が 未知の 1 変量の正規集団に関する検定問題に帰着されることがわかる。
(C) (両側検定) H0 : µ1 = µ2 vs H1 : µ1 ̸= µ2
(D) (片側検定) H0 : µ1 = µ2 vs H1 : µ1 > µ2
このとき,検定の棄却域と信頼区間は次で与えられる。 両側検定 (A) の棄却域:|X − Y |/V > (1/√n)tn−1,α/2
片側検定 (B) の棄却域:(X − Y )/V > (1/√n)tn−1,α
信頼区間:X − Y ± (V/√n)tn−1,α/2
(2) 比率の差についての近似的な検定
夫婦ペアーの内閣支持率を間に差があるか否かに興味がある問題を考えてみよう。夫 の支持率を p1, 妻の支持率を p2とし,n 組みの夫婦についてデータがとられたとする。 (X1, Y1), . . . , (Xn, Yn)が互いに独立に分布し,
Xi =
{ 1 夫が支持する
0 夫が支持しない Yi =
{ 1 妻が支持する 0 妻が支持しない
であり,P (Xi = 1) = p1, P (Yi = 1) = p2とする。夫婦のペアーについては Xiと Yiは必 ずしも独立とは限らない点に注意する。このとき,両側検定 H0 : p1 = p2 vs H1 : p1 ̸= p2
を考えよう。
この問題については,Zi = Xi − Yiとおくと 1 標本の問題に帰着できる。Ziの平均は E[Zi] = E[Xi]−E[Yi] = p1−p2であるが,分散は σ2 = p1(1−p1)+p2(1−p2)−2Cov(Xi, Yi) となり,Xiと Yiの共分散に依存してしまう。この場合,σ2の一致推定量は Z = n−1∑ni=1Zi
に対して ˆσ2 = (n− 1)−1∑ni=1(Zi− Z)2で与えらるので,この推定量を用いることができ る。Z1, . . . , Zn, i.i.d.∼ (p1− p2, σ2)と書けるので中心極限定理より
√n(X− Y )/ˆσ ∼ N (0, 1) で近似できる。従って,両側検定 H0 : p1 = p2の棄却域は
√n|X − Y |/ˆσ > zα/2 で与えられる。また p1− p2の信頼区間は次のようになる。
X− Y ± √σˆ nzα/2
○ 相関係数の検定と区間推定
身長と体重など同じ人について対のデータが観測されている状況を考える。(X1, Y1), . . . , (Xn, Yn) は互いに独立に同一分布に従うとする。E[X1] = µ1, E[Yi] = µ2, Var(Xi) = σ12, Var(Yi) =
σ22, Cov(Xi, Yi) = ρσ1σ2とする。このとき,相関係数 ρ に関する仮説検定問題 H0 : ρ = ρ0 vs ρ̸= ρ0
を考える。ここで ρ0は既知の値で,ρ0 = 0の場合は無相関であるか否かを検定すること になる。
標本相関係数は
R =
∑n i=1
(Xi− X)(Yi− Y )/ vu ut
∑n i=1
(Xi− X)2
∑n i=1
(Yi− Y )2
で与えられる。ρ が 0 から離れるとき R の分布は非対称性が大きくなるので, Z = 1
2log
(1 + R 1− R
)
なる変換を考える。
ξ = 1 2log
(1 + ρ 1− ρ
)
とおくと,n が大きいとき Z は
Z ∼ N (ξ, 1/(n − 3))
で近似できることが知られている。これを Fisher の z 変換という。これを用いると,上の
両側検定の棄却域は √
n− 3|Z − ξ0| > zα/2
で与えられることがわかる。ここで ξ0 = (1/2) log{(1 + ρ)/(1 − ρ)} である。従って無相 関であるか否かの検定は√n− 3|Z| > zα/2となる。
ξの信頼区間は Z ± zα/2/√n− 3 で与えられる。これを ρ = (eξ− e−ξ)/(eξ+ e−ξ) を ρ に戻すと ρ の信頼区間が得られる。具体的には
ρL =(eZ−zα/2/√n−3− e−Z+zα/2/√n−3)/(eZ−zα/2/√n−3+ e−Z+zα/2/√n−3) ρR =(eZ+zα/2/√n−3− e−Z−zα/2/√n−3)/(eZ+zα/2/√n−3+ e−Z−zα/2/√n−3) とおくとき,[ρL, ρR]が信頼区間になる。
第12章「回帰分析」に関して
○ 重回帰モデルにおける最小2乗推定量
p.237の (12.1) において,父親の身長 x1を用いて息子の身長 y を説明するモデルとして 単回帰モデル
yj = β0+ β1x1j + uj, j = 1, . . . , n
を用いた。父親の身長 x1以外にも母親の身長 x2が利用可能なときには,両方を用いて息 子の身長 y を説明するモデル
yj = β0+ β1x1j + β2x2j + uj, j = 1, . . . , n
が考えられる。これを一般化して k 個の説明変数 x1, . . . , xkを用いて被説明変数 y を説明 するモデルは重回帰モデルと呼ばれ,p.249 の (12.6) で与えられている。
yj = β0 + β1x1j +· · · + βkxkj+ uj, j = 1, . . . , n
ここで β0は y-切片で,β1, . . . , βkは偏回帰係数 (partial regression coefficient) という。誤 差項 u1, . . . , unは互いに独立に分布し,E[ui] = 0, Var(ui) = σ2であることを仮定する。 さらに,正規性を仮定する場合には, ui ∼ N (0, σ2), i = 1, . . . , n, とするが,とりあえず 正規性を仮定せずに進めす。本書では k = 2 の場合について説明しているが,ここでは一 般の k の場合を扱うことにする。
まず,偏回帰係数に対して最小2乗推定量を求めてみよう。p.69 に単回帰モデルにおけ る最小2乗法が与えられているので,同様にして
Q(β0, β1, . . . , βp) = 1 n
∑n i=1
(yi− β0− β1x1i− · · · − βpxki)2
を最小にする偏回帰係数を求めることになる。y − β0 − β1x1− · · · − βkxkと −(y − β0− β1x1− · · · − βkxk)を右辺の中に入れると
Q(β0, β1, . . . , βp) = 1 n
∑n i=1
{(yi−y)−β1(x1i−x1)−· · ·−βp(xki−xk)+(y−β0−β1x1−· · ·−βkxk)}2
となり,∑ni=1(xji− xj) = 0に注意すると Q(β0, β1, . . . , βp) = 1
n
∑n i=1
{(yi−y)−β1(x1i−x1)−· · ·−βp(xki−xk)}2+(y−β0−β1x1−· · ·−βkxk)2
と書けることがわかる。右辺の第2項から
y− β0− β1x1− · · · − βkxk = 0 が出てくる。右辺の第1項を Q(β1, . . . , βk)とおくと,
Q(β1, . . . , βk) =1 n
∑n i=1
{(yi− y) − β1(x1i− x1)− · · · − βp(xki− xk)}2
=Syy− 2β1S1y− · · · − 2βkSky +
∑k a=1
∑k b=1
βaβbSab
と表される。ただし,Syy = n−1∑ni=1(yi − y)2, Say = n−1∑ni=1(xai− xa)(yi − y), Sab = n−1∑ni=1(xai− xa)(xbi− xb)である。p.238∼p.248 で用いられている Syy, Say, Sabは便宜 上 n で割っていないものを用いており,ここで用いているものは n で割っている点に注意 してほしい。
Q(β1, . . . , βk)を βaで偏微分すると
∂Q(β1, . . . , βk)
∂βa
=−2Say+ 2
∑k b=1
Sabβb
となるので,正規方程式
S11β1+· · · + S1kβk = S1y
...
Sk1β1+· · · + Skkβk= Sky が得られる。この解を bβ1, . . . , bβkとおき,
βb0 = y− bβ1x1− · · · − bβkxk
とおくとき,bβ0, bβ1, . . . , bβkが β0, β1, . . . , βkの最小2乗推定量になる。説明変数の新たな 値 (x10, . . . , xk0)に対する予測値 (predicted value) は
ˆ
y0 = bβ0+ bβ1x10+· · · + bβkxk0
で与えられる。また観測データ (yi, x1i, . . . , xki)を用いたときの yiの予測値は ˆ
yi = bβ0+ bβ1x1i+· · · + bβkxki
で与えられ,当てはめ値 (fitted value) とも呼ばれる。この当てはめ値 ˆyiと観測値 yiとの 差 ei = yi− ˆyiを残差 (residual) という。残差は
ei =yi− bβ0− bβ1x1i− · · · − bβkxki
=(yi− y) − bβ1(x1i− x1)− · · · − bβk(xki− xk)
と書ける。
上の正規方程式を行列を用いて書き直すと
S11 · · · S1k
... ··· ... Sk1 · · · Skk
β1
... βk
=
S1y
... Sky
となる。ここで行列 A を
A=
S11 · · · S1k
... ··· ... Sk1 · · · Skk
で定義すると,A が正則行列,すなわち A の逆行列が存在するとき,
β1
... βk
= A−1
S1y
... Sky
と書けるので,β1, . . . , βkの最小2乗推定量は
βb1
... βbk
= A−1
S1y
... Sky
で与えられることがわかる。ここで,Say = n−1∑ni=1(xai− xa)(yi− y) であり,これは
Say =1 n
∑n i=1
(xai− xa){(x1i− x1)β1+· · · + (xki− xk)βk+ ui− u}
=Sa1β1+· · · + Sakβk+ 1 n
∑n i=1
(xai− xa)ui
と表されることに注意する。ただし u = n−1∑ni=1uiである。従って,
E[S1y] = S11β1 +· · · + S1kβk
...
E[Sky] = Sk1β1+· · · + Skbkβk
となる。このことは
E[S1y] ... E[Sky]
= A
β1
... βk
と表されることを意味する。よって
E[ bβ1]
... E[ bβk]
= A−1
E[S1y] ... E[Sky]
= A−1A
β1
... βk
=
β1
... βk
となり,
E[ bβ1] = β1. . . , E[ bβk] = βk
が成り立つ。従って,bβ1, . . . , bβkは β1, . . . βkの不偏推定量である。また E[ bβ0] = E[y− x1βb1− · · · − xkβbk] = E[y]− x1β1− · · · − xkβ1 = β0
となるので,bβ0は β0の不偏推定量になる。このことから,y0 = β0+ x10β1+· · · + xk0βk
の予測量 ˆy0についても
E[ˆy0] = E[β0+ x10β1+· · · + xk0βk] = y0 となり,不偏であることがわかる。
単回帰モデルについては回帰直線と残差の性質が p.70, p.71,p.239 で与えられている が,同様な性質が重回帰モデルにおいても成り立つ。
(1) 回帰直線は,点 (x1, . . . , xk, y)を通る。 (2) 予測値 ˆy1, . . . , ˆynの平均は y に一致する。 (3) 残差 e1, . . . , enの和もしくは平均は 0 である。
(4) 残差と説明変数 {(ei, xai)} の相関係数は 0 である。また残差と予測値 {(ei, ˆyi)} の相 関係数も 0 である。
(5) 全変動平方和の分解:単回帰モデルのとき変動平方和の分解が p.243 で与えられて いるが,同じ分解が重回帰モデルにおいても成り立つ。すなわち,(全変動平方和)=(回 帰変動平方和)+(残差平方和),言い換えると
∑n i=1
(yi − y)2 =
∑n i=1
(ˆyi− y)2+
∑n i=1
(yi− ˆyi)2
が成り立つ。
(6) 残差の期待値は E[ei] = 0であり,残差平方和 RSS =∑ni=1(yi− ˆyi)2の期待値は E[RSS] = (n− k − 1)σ2
となる。 (証明)
(1)については,回帰直線 y = bβ0+ x1βb1+· · · + xkβbkに bβ0 = y− bβ1x1− · · · − bβkxkを 代入すると
y− y = (x1− x1) bβ1+· · · + (xk− xk) bβk
となる。これは,回帰直線が点 (x1, . . . , xk, y)を通ることを示している。 (2)については,
ˆ y = 1
n
∑n i=1
ˆ yi = 1
n
∑n i=1
( bβ0+ x1iβb1+· · · + xkiβbk) = bβ0+ bβ1x1+· · · + bβkxk= y
となることからわかる。
(3)については,ei = (yi− y) − bβ1(x1i− x1)− · · · − bβk(xki− xk)と表されることに注意 すると,∑ni=1ei = 0となることがわかる。
(4)については, 1
n
∑n i=1
ei(xai− xa) =1 n
∑n i=1
{(yi − y) − bβ1(x1i− x1)− · · · − bβk(xki− xk)}(xai− xa)
=Say− bβ1S1a− · · · − bβkSka
と書ける。最小2乗推定量を導く正規方程式から
Say− bβ1S1a− · · · − bβkSka= 0
となることがわかる。また ˆyi = bβ0+x1iβb1+· · ·+xkiβbk= y +(x1i−x1) bβ1+· · ·+(xki−xk) bβk
と書けるので,
∑n i=1
ei(ˆyi− y) =
∑k a=1
∑n i=1
ei(xai− xa) bβa = 0 となる。
(5)については,
∑n i=1
(yi− y)2 =
∑n i=1
(ˆyi− y)2+
∑n i=1
(yi− ˆyi)2+ 2
∑n i=1
(ˆyi− y)(yi− ˆyi)
と書けており,(4) より最後の項が 0 になる。
(6)については,ei = (yi− y) − bβ1(x1i− x1)− · · · − bβk(xki− xk)の両辺に期待値をとる と,E[ei] = 0となることが容易に確かめられる。∑ni=1E[e2i] = σ2(n− k − 1) を示すのは やや複雑であるので,証明のスケッチのみを与える。まず∑ni=1e2i =∑ni=1ei(yi− y) とな
り,この期待値を計算すると
∑n i=1
E[e2i] =
∑n i=1
E[ei(yi− y)]
=
∑n i=1
E[{ui− u − (bβ1− β1)(x1i− x1)− · · · − (bβk− βk)(xki− xk)}
× {ui− u + (x1i− x1)β1+· · · + (xki− xk)βk}]
=
∑n i=1
E[{ui− u − (bβ1− β1)(x1i− x1)− · · · − (bβk− βk)(xki− xk)} × ui]
=(n− 1)σ2−
∑n i=1
E[{bβ1(x1i− x1) +· · · + bβk(xki− xk)} × ui]
と書ける。上で与えれた bβ1, . . . , bβkの形と
Say = Sa1β1+· · · + Sakβk+ 1 n
∑n j=1
(xaj − xa)uj
及び E[Sayui] = (xai− xa)σ2となることに注意すると,
∑n i=1
E[{bβ1(x1i− x1) +· · · + bβk(xki− xk)} × ui] = kσ2
が成り立つことがわかる。
○ 決定係数と自由度調整済み決定係数
データが回帰モデルにどの程度当てはまっているかを調べる方法として,データと予測 値との相関係数を求めてみることが考えられる。この相関係数の2乗を決定係数といい, R2で表す。単回帰モデルのときには決定係数とその変形が p.242, p.243 で与えられてい る。重回帰モデルの場合も同じ変形が成り立つ。
まず,R2は
R2 ={
∑n i=1
(ˆyi− y)(yi− y)
}2
/{
∑n i=1
(ˆyi− y)2
∑n i=1
(yi− y)2
}
で定義される。ここで上の (4) の性質より
∑n i=1
(ˆyi− y)(yi− y) =
∑n i=1
(ˆyi− y)(yi− ˆyi+ ˆyi− y) =
∑n i=1
(ˆyi− y)ei+
∑n i=1
(ˆyi− y)2
=
∑n i=1
(ˆyi− y)2
となる。上の (5) の性質を用いると R2 =
∑n
i=1(ˆyi− y)2
∑n
i=1(yi− y)2 = 1−
∑n RSS
i=1(yi− y)2
と表すことができる。ここで RSS = ∑ni=1(yi− ˆyi)2であり,残差平方和である。この式 は,全変動平方和のうち残差平方和の割合が小さい程,データの重回帰モデルへの当ては まりがよいことを意味している。
説明変数の個数を増やしていくと決定係数 R2が 1 に近づいていくことが数値的に確認 できる。しかし,k を増やすにつれて未知母数である回帰係数の個数が増えることになり, 回帰係数の推定量の推定誤差が増大する。また σ2の推定量 ˆσ2の自由度は n − k − 1 であ るが,k の増加とともに自由度が減少し,その結果 ˆσ2の推定精度も小さくなる。従って, 説明変数の個数を増やすことはモデルの適合度を高くするものの,‘モデルの良さ’ を考え た場合,必ずしもよいとは限らないことがわかる。そこで,説明変数 x1, . . . , xkのうちど の変数を選択するかが重要な問題となり,そのための変数選択方法がいくつか知られてい る。赤池情報量規準 AIC やマローズの Cp基準はその代表的な選択方法として知られてい る。ここでは,自由度調整済み決定係数を紹介する。
自由度調整済み決定係数は,決定係数 R2の中の統計量 RSS, ∑ni=1(yi− y)2についてそ れらの自由度 n − k − 1, n − 1 で割ったもので置き換えたもの
R∗2k = 1− ∑nRSS/(n− k − 1)
i=1(yi − y)2/(n− 1)
で定義される。これを書き直すと
R∗2k = 1− n− 1
n− k − 1(1− R
2)