Statistics 2016 yusiken

(1)

このファイルでは，統計検定２級試験を受験するために「統計学」（東京大学出版会）を勉強される場合，２級試験の範囲で本書で扱われていない内容についての補足説明を与えています。また追加的な演習問題も用意しています。

（１）統計検定２級試験のための補足説明

第２章「分布の特徴を探る」に関して

○箱ひげ図の描き方と外れ値

n個のデータ x1, . . . , xnを小さい順に並べ替えたもの x(1), . . . , x(n)，(x(1) ≤ · · · ≤ x(n)), を順序データという。p.32 に解説されているように，R = x(n)_{− x}(1)を範囲という。また下側 100 × α% 分位点を Qαで表すとき，Q0.25, Q0.5, Q0.75をそれぞれ第１四分位数（点），第２四分位数（点），第３四分位数（点）といい，第２四分位数はメディアンに等しい。

IQR = Q0.75_{− Q}0.25

を四分位範囲 (interquartile range) といい，IQR/2 を四分位偏差という。

最小値 x(1)^,第１四分位数 Q0.25,メディアン medx, 第３四分位数 Q0.75，最大値 x(n)を５数要素 (five-number summary) という。これらを視覚的に描いた図が箱ひげ図 (box and whisker plot)である。箱ひげ図の説明については p.33, p.34 で与えられている通り，箱の下底が第１四分位数の値，箱の上底が第３四分位数，箱の内側の線分がメディアンの値を表している。ひげの描き方にはいくつかの方法があるようですが，箱の下側のひげについては，箱の下底 (Q0.25)から

Q0.25− 1.5 × IQR

以上の最小の観測値までひげを伸ばし，その値より小さい観測値については ◦ などの個別の点で表す。同様にして箱の上側のひげについては，箱の上底 (Q0.75)から

Q0.75+ 1.5_{× IQR}

以下の最大の観測値までひげを伸ばし，その値より大きい観測値については ◦ などの個別の点で表す。◦ で表わされた点は外れ値 (outlier) として注意してみていく。というのは，本書の中で注意されているように，平均や分散，相関係数，回帰の最小２乗推定値などは外れ値に敏感で，たった一つの外れ値であっても大きく影響を受ける傾向にある。

最後に，少し難しくなるが，p.38 で与えられた分位点の定義に従うと，Statistics 2016 typo.pdf の中で詳しく説明されているように，自然数 m に対して

n = 4mのときには，Q0.25 ⁼ {x(m) ^{+ x}(m+1)}/2, Q0.75 ⁼ {x(3m) ^{+ x}(3m+1)}/2 となるので，

IQR = ^x^(3m)^{+ x}^(3m+1)

2 ⁻

x_(m)+ x_(m+1) 2 と書けることがわかる。

(2)

n = 4m + 1, 4m + 2, 4m + 3のときには，Q0.25= x(m+1)となる。一方，n = 4m + 1 のとき Q0.75= x(3m+1), n = 4m + 2のとき Q0.75= x(3m+2), 4m + 3のとき Q0.75 = x(3m+3)となるので，IRQ は

IQR = x_(3m+1)_{− x}_(m+1) n = 4m + 1のとき IQR = x(3m+2)_{− x}(m+1) n = 4m + 2のとき IQR = x(3m+3)− x(m+1) n = 4m + 3のときと書ける。

第４章「変数間の関係性をみる

○ オッズ比と連関係数

p.77において分割表（クロス表）データの相関係数を求める方法を説明した。ここでは，リスクの程度を示す指数としてオッズ比について説明する。例えば，n 人について喫煙しているか否か，肺ガンか否かを調べてした結果を分割表にまとめたものは次の表のように表される。

肺がん健康計喫煙 f11 f12 f_1· 非喫煙 f21 f22 f_2· 計 f_·1 f_·2 n

このとき，肺がんと健康の比率をオッズといい，喫煙している人は f11/f12, 喫煙していない人は f21/f22で与えられる。この 2 つの比

ψ = ^f¹¹^/f¹² f21/f22

= ^f¹¹^f²² f12f21

をオッズ比といい，喫煙してことが喫煙していないことに比べてどの程度リスクが高いかを示している。オッズ比は [0, ∞) の間で値をとるので，これを区間 [−1, 1] の値に変換したもの

Q = ^ψ^{− 1} ψ + 1 ⁼

f₁₁f₂₂_{− f}₁₂f₂₁ f11f22+ f12f21

を連関係数という。

例えば p.4 で取り上げられた分割表データについて調べてみる。カテゴリー肺ガンの患者健常者計

喫煙していた 60 32 92

喫煙していない 3 11 14

計 63 43 106

喫煙によるオッズは 60/32 = 1.875, 喫煙していないときのオッズは 3/11 = 0.273 である。従ってオッズ比は 1.875/0.273 = 6.868 となり，かなりのリスクがあることがわかる。また連関係数は (6.868 − 1)/(6.868 + 1) = 0.745 となる。ちなみに相関係数は p.78 に与えられているように 0.30 になる。

第７章「代表的な確率分布」に関して

(3)

○ 幾何分布

表の出る確率 p のコインを投げ続けていき，初めて表が出るまでに裏が何回出たか，その裏の出る回数を X とする。このとき X の分布を幾何分布となる。表を〇，裏を×で表わすと

××××× · · · ××××〇合計 ^{k + 1}^回の試行

{ 〇 : 1 回

× : k 回となるので，X = k となる確率は

P (X = k|p) = p(1 − p)^k^, k = 0, 1, 2, . . . , (1)

と書ける。これを幾何分布 (geometric distribution) といい，Geo(p) で表す。この確率関

0 2 4 6 8 10

0.000.050.100.150.200.250.30

Geo(0.3)

図 1: 幾何分布

数の総和は等比数列の和になり, |a| < 1 なる a に対して^∑^∞k=0^a^k ^{= 1/(1}− a) であることから，^∑^∞_k=0p(1_{− p)}^k= 1となる。

幾何分布 Geo(p) に従う確率変数 X の平均と分散は E[X] = q/p, Var(X) = q/p² である。実際，q = 1 − p に対して

E[X] =

∑∞ k=0

kpq^k= pq

∑∞ k=1

kq^k−1

と表される。ここで^∑^∞_k=1q^k = 1/p = 1/(1− q) の両辺を q で微分することにより

∑∞ k=1

kq^k−1 = ¹ (1_{− q)}² ⁼

1 p² と書けるので，E[X] = q/p となる。

また上に式をさらに q に関して微分すると

∑∞ k=2

k(k_{− 1)q}^k−2 = ² (1_{− q)}³ ⁼

2 p³

(4)

と書けることに注意する。このことから

E[X(X _{− 1)] =}

∑∞ k=0

k(k_{− 1)pq}^k= pq²

∑∞ k=2

k(k_{− 1)q}^k−2 = pq²_× ² p³ ⁼

2q² p² となることわかる。従って

Var(X) = E[X(X− 1)] + E[X] − (E[X])² ⁼ ^2q

2

p² ⁺ q p ⁻

q² p² ⁼

q p² となる。

幾何分布の特徴として，無記憶性 (memoryless property) と呼ばれる性質が知られている。これは，s 回までの試行において表が出ないという条件のもとで次の t 回までの試行で表が出ないという確率は，s 回まで表が出ないという条件には依存しないというもので，初めて表が出るという現象はランダムに起こることを意味している。

□ 幾何分布の無記憶性 s と t を非負の整数とし，X は幾何分布 Geo(p) に従うとする。このとき，P (X ≥ s + t|X ≥ s) = P (X ≥ t) が成り立つ。

実際，P (X ≥ s) =^∑^∞k=s^pq^k^{= pq}^s^/(1− q) = q^s^{より，条件付き確率は}

P (X ≥ s + t|X ≥ s) =^{P (X} ≥ s + t, X ≥ s) P (X _{≥ s)} ⁼

P (X _{≥ s + t)} P (X _{≥ s)}

=^q

s+t

q^s ^{= q}

t_{= P (X} _{≥ t)}

が成り立つ。

第８章「多変数の確率分布」に関して

○ ２次元正規分布の条件付き分布

2つの連続な確率変数 X, Y の同時確率密度関数を fX,Y^{(x, y)}とすると，X = x を与えたときの Y の条件付き確率密度関数 f_{Y |X}(y _{| x) は}

f_{Y |X}(y _{| x) =} ^f^X,Y^{(x, y)} fX(x) で定義される。これより

fX,Y(x, y) = f_{Y |X}(y _{| x)f}X(x)

と表すことができる。すなわち，同時確率密度関数は条件付き確率密度関数と周辺確率密度関数の積として表現することができる。このことを２次元の正規分布について調べてみよう。

２つの確率変数 (X1, X2)が２次元の正規分布に従うとする。すなわち

X =^{( X}¹ X2

)∼ N²^{(( µ}¹ µ2

),^{( σ}

12 ^ρσ¹^σ²

ρσ1σ2 σ₂² ))

(5)

とすると，同時密度関数は (8.16) より f_X(x_{| µ, Σ) =} ¹

2π

√ 1

1_{− ρ}²σ1σ2

× exp^{− ¹ 2(1_{− ρ}²)

[(x1− µ1

σ1

)2

− 2ρ^x¹^{− µ}¹ σ1

x₂_{− µ}₂ σ2

+^(x²^{− µ}² σ2

)2]}

と書けることがわかる。[·] の中身を x2について平方完成すると (x1_{− µ}1

σ₁ )2

− 2ρ^x¹_σ^{− µ}¹

1

x2_{− µ}2

σ₂ ⁺

(x2_{− µ}2

σ₂ )2

=^(x²^{− µ}² σ2 ^{− ρ}

x1− µ1

σ1

)2

+ (1_{− ρ}²)^(x¹ ^{− µ}¹ σ1

)2

と書けるので，同時確率密度関数は f_X(x_{| µ, Σ) =}_√¹

2π

√ 1

1_{− ρ}²σ2

exp^{₋ ¹ 2(1_{− ρ}²)σ²₂

(x2− µ2 − ρ^σ² σ1

(x1− µ1)⁾²^}

× √ ¹ 2πσ1

exp^{₋ ¹

2σ²₁^(x¹^{− µ}¹⁾

2^}

=fX₂_|X₁(x2 | x1)fX₁(x1)

と表される。ここで fX2|X1^(x2 | x1⁾は X1 ^{= x}1を与えたときの X2の条件付き確率密度関数，fX₁(x1)は X1の周辺確率密度関数を表しており，

X2 | X1 = x1 ∼N⁽^µ2+ ρ^σ² σ1

(x1− µ1), (1_{− ρ}²)σ²₂⁾ X1 ∼N (µ1, σ²₁)

となる分布に従うことがわかる。このことから条件付き平均と条件付き分散 E[X2 _{| X}1 = x1] =µ2+ ρ^σ²

σ₁^(x¹^{− µ}¹⁾ Var(X2 _{| X}1 = x1) =(1_{− ρ}²)σ₂²

が得られる。また X1と X2が独立になるための必要十分条件は ρ = 0 であることも示される。

第１０章「区間推定」と第１１章「仮説検定」に関して

○ 1 標本の正規母集団

様々な形の仮説検定の問題があり，本書で取り上げているのは代表的なものである。ここでは，本書で取り上げた検定手法をコンパクトにまとめてみるとともに，本書で取り上げていない検定で 2 級試験範囲のものを紹介する。

X1, . . . , Xnが互いに独立に N (µ, σ²⁾に従うとする。X = n⁻¹^∑ⁿ₌₁Xi, V² = (n ₋ 1)⁻¹^∑ⁿ_i=1(Xi− X)²とする。次の検定を考える。

(A) (両側検定) H0 : µ = µ0 vs H1 : µ_{̸= µ}0

(B) (片側検定) H0 : µ = µ0 vs H1 : µ > µ0

(6)

(1)σ² = σ₀²が既知の場合

両側検定 (A) の棄却域： |X − µ⁰|/σ0 > (1/^√n)zα/2

片側検定 (B) の棄却域：(X − µ0)/σ0 > (1/^√n)zα

信頼区間：X ± (σ⁰^/^√^n)zα/2

(2)σ²が未知の場合

両側検定 (A) の棄却域：|X − µ⁰|/V > (1/^√^n)tn−1,α/2

片側検定 (B) の棄却域：(X − µ⁰)/V > (1/^√n)t_n−1,α 信頼区間：X ± (V/^√^n)tn−1,α/2

(3)母分散 σ²の検定

σ²の両側検定：H0 : σ² = σ₀² vs H1 : σ² _{̸= σ}₀²

(n_{− 1)V}²/σ² _{∼ χ}²_n−1に注意。χ²_n−1,α/2, χ²_{n−1,1−α/2}をそれぞれ χ²_n−1の上側 100(α/2)% 点，上側 100(1 − α/2)% 点とする。

棄却域：(n − 1)V²^/σ0² ^{< χ}²_{n−1,1−α/2} もしくは (n − 1)V²^/σ0² ^{> χ}²_n−1,α/2

σ²の信頼区間：(n − 1)V²^/χ²_n−1,α/2 ≤ σ² ≤ (n − 1)V²^/χ²_{n−1,1−α/2}

○ 1 標本の近似分布

(1) 比率の検定

内閣支持率などベルヌーイ分布の比率の検定を考える。X1, . . . , Xn i.i.d. _{∼ Ber(p) の} とき，E[Xi] = p, Var(X_i) = p(1_{− p) である。}

両側検定 H0 : p = p0 vs H1 : p_{̸= p}0の棄却域：|X − p⁰|/^√^p⁰⁽¹− p⁰^{) > (1/}^√^n)z^α/2 片側検定 H0 : p = p0 vs H1 : p > p0の棄却域：(X − p0)/^√p0(1_{− p}0) > (1/^√n)zα

信頼区間：X ±^(√^X(1− X)/^√ⁿ⁾^z^α/2 (2) 標本平均に基づいた平均の近似検定

X1, . . . , Xn i.i.d. _{∼ (µ, σ}²)とし，X = n⁻¹^∑ⁿ_i=1Xi, V² = (n_{− 1)}⁻¹^∑ⁿ_i=1(Xi− X)²^とする。母集団分布を特に定めていない点に注意する。σ²の一致推定量を ˆσ²とする。一つの一致推定量は V²なので，一致推定量として V²を用いる場合は以下の記述で ˆσ を V で置き換える必要がある。

両側検定 H0 : µ = µ0 vs H1 : µ _{̸= µ}0の棄却域：|X − µ⁰|/ˆσ > (1/^√^n)z^α/2 片側検定 H0 : µ = µ0 vs H1 : µ > µ0の棄却域：(X − µ0)/ˆσ > (1/^√n)zα

信頼区間：X ± (ˆσ/^√^n)zα/2

(3) 最尤推定量に基づいた近似検定

確率関数もしくは確率密度関数 f(x; θ) に従っている母集団からのランダム標本を X1, . . . , Xn

とする。すなわち，X1, . . . , Xn, i.i.d.∼ f(x; θ) とし，θ の最尤推定量を ˆθ^{M L}^{とし, I(θ) を} フィッシャー情報量とする。

両側検定 H0 ^{: θ = θ}0 ^{vs H}1 ^{: θ}̸= θ0の棄却域：^√I(θ₀)_|ˆθ^{M L}_{− θ}₀_{| > (1/}^√n)z_α/2 片側検定 H0 : θ = θ0 vs H1 : θ > θ0の棄却域：^√I(θ0)(ˆθ^{M L}_{− θ}0) > (1/^√n)zα

信頼区間：ˆθ^{M L}_±⁽1/

√

nI(ˆθ^{M L})⁾zα/2

○ 等分散をもつ２標本の正規母集団

2つの標本を考える。X1, . . . , Xm, i.i.d._{∼ N (µ}1, σ²), Y1, . . . , Yn, i.i.d._{∼ N (µ}2, σ²)とし， 2つの標本が独立であるとする。X = m⁻¹^∑^m_i=1Xi, Y = n⁻¹^∑ⁿ_i=1Yiとする。平均に関する次の検定を考える。

(7)

(C) （両側検定）H0 : µ1 = µ2 vs H1 : µ1 _{̸= µ}2

(D) （片側検定）H0 : µ1 = µ2 vs H1 : µ1 > µ2

(1) σ² = σ₀²が既知の場合

両側検定 (C) の棄却域：|X − Y |^√^mn/(σ0^√m + n) > zα/2

片側検定 (D) の棄却域：(X − Y )^√^mn/(σ0

√m + n) > z_α µ1_{− µ}2の信頼区間：X − Y ±⁽^σ⁰^√^{m + n/}^√^mn⁾^z^α/2 (2) σ²が未知の場合

この場合 σ²については次のプールされた推定量を用いる。

ˆ

σ² = ¹ m + n_{− 2}

{_∑^m

i=1

(Xi_{− X)}²+

∑n i=1

(Yi_{− Y )}²

}

両側検定 (C) の棄却域：|X − Y |^√^mn/(ˆ^σ^√m + n) > t_m+n−2,α/2 片側検定 (D) の棄却域：(X − Y )^√^mn/(ˆ^σ^√m + n) > t_m+n−2,α/2 µ1_{− µ}2の信頼区間：X − Y ±⁽^σ^ˆ^√^{m + n/}^√^mn⁾^tm+n−2,α/2

○ 不等分散をもつ２標本の正規母集団

2標本問題において 2 つ標本で分散が異なっている問題を考えてみよう。X1, . . . , Xm, i.i.d._∼ N (µ1, σ²₁), Y1, . . . , Yn, i.i.d. _{∼ N (µ}2, σ₂²)とする。V₁² = (m_{− 1)}⁻¹^∑^m_i=1(Xi − X)²^{, V}2² ⁼

(n_{− 1)}⁻¹^∑ⁿ_i=1(Y_i_{− Y )}²とおく。 (1) σ²₁, σ₂²が既知の場合

両側検定 (C) の棄却域：|X − Y |/^√^σ1²^{/m + σ}²2^{/n > z}α/2

片側検定 (D) の棄却域：(X − Y )/^√^σ²1^{/m + σ}2²^{/n > z}^α

µ1− µ2の信頼区間：X − Y ±^√^σ²1^{/m + σ}2²^/nz^α/2

(2) σ²₁, σ₂²が未知の場合この場合，µ1 = µ2のとき，

X_{− Y}

√V₁²/m + V₂²/n

は t-分布に従わず，確率分布が母分散 σ₁², σ₂²に依存してしまう。これをべーレンス・フィッシャー (Behrens-Fisher) 問題という。そこで f を

f = ^(V

12^{/m + V}2²^/n)²

V₁⁴/_{m²(m_{− 1)} + V}₂⁴/_{n²(n_{− 1)}} で定義すると，µ1 = µ2のもとで

X_{− Y}

√V₁²/m + V₂²/n

は自由度 f の t-分布で近似することが知られている。この近似を用いた検定をウェルチの検定 (Welch’s test) という。ここで f は必ずしも自然数にならないので数値表から補間した値を用いる。

両側検定 (C) の棄却域：|X − Y |/^√^V1²^{/m + V}2²^{/n > t}^f,α/2

片側検定 (D) の棄却域：(X − Y )/^√^V1²^{/m + V}2²^{/n > t}f,α

(8)

µ1_{− µ}2の信頼区間：X − Y ±^√^V1²^{/m + V}2²^/nt^f,α/2

m, nが大きいときには V₁², V₂²は σ₁², σ₂²の一致推定量であるから，次のような近似的な手法を用いることもできる。

両側検定 (C) の棄却域：|X − Y |/^√^V1²^{/m + V}2²^{/n > z}α/2

片側検定 (D) の棄却域：(X − Y )/^√^V1²^{/m + V}2²^{/n > z}^α

µ1− µ2の信頼区間：X − Y ±^√^V1²^{/m + V}2²^/nz^α/2

(3) 分散の同等性の検定

2つの標本の分散が等しいか否かを検定する問題を考える。 H0 : σ²₁ = σ₂² vs H1 : σ₁² _{̸= σ}²₂

この検定の棄却域は V₁²

V₂² ^{< F}m−1,n−1,1−α/2 ^もしくは

V₁²

V₂² ^{> F}m−1,n−1,α/2

となる。ここで，Fm−1,n−1,1−α/2^{, F}m−1,n−1,α/2 は自由度 (m − 1, n − 1) の F-分布の上側 100(1− α/2)% 点，上側 100α/2% 点である。

分散比 σ²₁/σ₂²の信頼区間： V₁²/V₂² Fm−1,n−1,α/2 ^≤

σ₁² σ₂² ^≤

V₁²/V₂² Fm−1,n−1,1−α/2

○ ２標本の近似分布

(1) 比率の差の検定

男女の違いで内閣支持率に差があるかを調べるために男性の内閣支持率と女性の内閣支持率の同等性を検定することを考える。ベルヌーイ分布の 2 標本問題におけるパラメータの同等性検定を求めてみよう。２つの標本が独立であり，X1, . . . , Xm i.i.d._{∼ Ber(p}1), Y1, . . . , Yn i.i.d. _{∼ Ber(p}2)とする。このとき，同等性検定 H0 : p1 = p2 vs H1 : p1 ̸= p2

を考え，m, n ともに大きい場合に近似的な検定法を与える。る。H0が正しいときには p1 = p2 = pとおくと，H0のもとで p の一致推定量は

ˆ

p= (mX + nY )/(m + n) であるので，近似的な両側検定の棄却域は

|X − Y |/^√^p(1^ˆ − ˆp) >^√^m⁻¹^{+ n}⁻¹^z^α/2 で与えられる。

片側検定 H0 : p1 = p2 vs H1 : p1 > p2の棄却域：

(X _{− Y )/}^√p(1ˆ _{− ˆp) >}^√m⁻¹+ n⁻¹zα

p1− p2の信頼区間：

X_{− Y ±}^√p(1ˆ _{− ˆp)}^√m⁻¹+ n⁻¹zα/2

(2) 平均の差の近似検定

(9)

X1, . . . , Xm, i.i.d._{∼ (µ}1, σ²₁), Y1, . . . , Yn, i.i.d._{∼ (µ}2, σ²₂)とし，分布については特に定めないことにする。X = m⁻¹^∑^m_i=1Xi, Y = n⁻¹^∑ⁿ_i=1Yi, V₁² = (m_{− 1)}⁻¹^∑^m_i=1(Xi− X)²^, V₂² = (n_{− 1)}⁻¹^∑ⁿ_i=1(Yi− Y )²とおく。m, n が大きいときの近似的な検定法を与える。

ˆ

σ₁², ˆσ²₂を σ₁², σ²₂の一致推定量とする。V₁², V₂²は σ²₁, σ₂²の一致推定量であるから，これらを用いるときには，以下の記述において ˆσ₁², ˆσ₂²を V₁², V₂²で置き換える必要がある。

両側検定 (C) の棄却域：|X − Y |/^√^σ^ˆ1²^{/m + ˆ}^σ²2^{/n > z}α/2

片側検定 (D) の棄却域：(X − Y )/^√^σ^ˆ²1^{/m + ˆ}^σ2²^{/n > z}^α

µ1− µ2の信頼区間：X − Y ±^√^ˆ^σ²1^{/m + ˆ}^σ2²^/nz^α/2

母分散が等しい場合，すなわち σ₁² = σ²₂ = σ²のときには，プールされた一致推定量

ˆ

σ² = ^(m^{− 1)V}

12^{+ (n}− 1)V2²

m + n_{− 2} を用いる。

両側検定 (C) の棄却域：|X − Y |/{ˆσ^√^{1/m + 1/n}} > zα/2

片側検定 (D) の棄却域：(X − Y )/{ˆσ^√^{1/m + 1/n}} > z^α µ1− µ2の信頼区間：X − Y ± ˆσ^√^{1/m + 1/nz}α/2

○ 対のある 2 標本に関する検定と区間推定

(1) 正規分布を仮定する場合

コレステロールと下げる薬について，同じ人の投与前のコレステロールの値 Xiと投与して 1ヶ月後の値 Yiを測定することを考えよう。投与前の平均と分散を E[Xi] = µ1, Var(Xi) = σ₁², 投与１ヶ月後の平均と分散を E[Yi] = µ2, Var(Yi) = σ²₂とする。Xiと Yiは同じ人の値であるから相関が存在することになる。相関係数を ρ とする。Zi ^{= X}i− Yiとし，(Xi, Yi)に 2 変量正規分布を仮定すると, Z1, . . . , Znは互いに独立に分布し

Zi ∼ N (µ1 − µ2, σ²)

なる正規分布に従うことがわかる。ここで σ² = σ₁² + σ²₂ _{− 2ρσ}1σ2 である。V² = (n₋ 1)⁻¹^∑ⁿ_k=1(Zi− Z)²とおくと (n − 1)V²^/σ² ∼ χ²_n−1に従うことに注意する。従って分散が未知の 1 変量の正規集団に関する検定問題に帰着されることがわかる。

(C) (両側検定) H0 : µ1 = µ2 vs H1 : µ1 _{̸= µ}2

(D) (片側検定) H0 : µ1 = µ2 vs H1 : µ1 > µ2

このとき，検定の棄却域と信頼区間は次で与えられる。両側検定 (A) の棄却域：|X − Y |/V > (1/^√^n)tn−1,α/2

片側検定 (B) の棄却域：(X − Y )/V > (1/^√^n)tn−1,α

信頼区間：X − Y ± (V/^√^n)tn−1,α/2

(2) 比率の差についての近似的な検定

夫婦ペアーの内閣支持率を間に差があるか否かに興味がある問題を考えてみよう。夫の支持率を p1^, 妻の支持率を p2とし，n 組みの夫婦についてデータがとられたとする。 (X1, Y1), . . . , (Xn, Yn)が互いに独立に分布し，

X_i =

{ 1 夫が支持する

0 夫が支持しない ^Yⁱ ⁼

{ 1 妻が支持する 0 妻が支持しない

(10)

であり，P (Xi = 1) = p1, P (Yi = 1) = p2とする。夫婦のペアーについては Xiと Yiは必ずしも独立とは限らない点に注意する。このとき，両側検定 H0 : p1 = p2 vs H1 : p1 ̸= p2

を考えよう。

この問題については，Zi = Xi _{− Y}iとおくと 1 標本の問題に帰着できる。Ziの平均は E[Zi] = E[Xi]_−E[Yi] = p1−p2であるが，分散は σ² = p1(1_−p1)+p2(1_−p2)_−2Cov(Xi, Yi) となり，Xiと Yiの共分散に依存してしまう。この場合，σ²の一致推定量は Z = n⁻¹^∑ⁿ_i=1Zi

に対して ˆσ² = (n_{− 1)}⁻¹^∑ⁿ_i=1(Zi_{− Z)}²で与えらるので，この推定量を用いることができる。Z1, . . . , Zn, i.i.d._{∼ (p}1− p2, σ²)と書けるので中心極限定理より

√n(X− Y )/ˆσ ∼ N (0, 1) で近似できる。従って，両側検定 H0 : p1 = p2の棄却域は

√n|X − Y |/ˆσ > z^α/2 で与えられる。また p1− p2の信頼区間は次のようになる。

X_{− Y ±} _√^σ^ˆ n^z^α/2

○ 相関係数の検定と区間推定

身長と体重など同じ人について対のデータが観測されている状況を考える。(X1, Y1), . . . , (Xn, Yn) は互いに独立に同一分布に従うとする。E[X1] = µ1, E[Yi] = µ2, Var(Xi) = σ₁², Var(Yi) =

σ₂², Cov(X_i, Y_i) = ρσ₁σ₂とする。このとき，相関係数 ρ に関する仮説検定問題 H0 : ρ = ρ0 vs ρ_{̸= ρ}0

を考える。ここで ρ0は既知の値で，ρ0 = 0の場合は無相関であるか否かを検定することになる。

標本相関係数は

R =

∑n i=1

(Xi− X)(Yi− Y )^/ vu ut

∑n i=1

(Xi− X)²

∑n i=1

(Yi− Y )²

で与えられる。ρ が 0 から離れるとき R の分布は非対称性が大きくなるので， Z = ¹

2^log

(1 + R 1_{− R}

)

なる変換を考える。

ξ = ¹ 2^log

(1 + ρ 1_{− ρ}

)

とおくと，n が大きいとき Z は

Z ∼ N (ξ, 1/(n − 3))

で近似できることが知られている。これを Fisher の z 変換という。これを用いると，上の

両側検定の棄却域は _√

n_{− 3|Z − ξ}0| > zα/2

(11)

で与えられることがわかる。ここで ξ0 = (1/2) log{(1 + ρ)/(1 − ρ)} である。従って無相関であるか否かの検定は^√n− 3|Z| > zα/2となる。

ξの信頼区間は Z ± z^α^/2/^√ⁿ− 3 で与えられる。これを ρ = (e^ξ_{− e}^−ξ)/(e^ξ+ e^−ξ) を ρ に戻すと ρ の信頼区間が得られる。具体的には

ρL =(e^Z−z^α^/2/^√ⁿ⁻³_{− e}^−Z+z^α^/2/^√ⁿ⁻³)/(e^Z−z^α^/2/^√ⁿ⁻³+ e^−Z+z^α^/2/^√ⁿ⁻³) ρR =(e^Z+z^α^/2/^√ⁿ⁻³_{− e}^−Z−z^α^/2/^√ⁿ⁻³)/(e^Z+z^α^/2/^√ⁿ⁻³+ e^−Z−z^α^/2/^√ⁿ⁻³) とおくとき，[ρL, ρR]が信頼区間になる。

第１２章「回帰分析」に関して

○ 重回帰モデルにおける最小２乗推定量

p.237の (12.1) において，父親の身長 x1を用いて息子の身長 y を説明するモデルとして単回帰モデル

yj = β0+ β1x1j + uj, j = 1, . . . , n

を用いた。父親の身長 x1以外にも母親の身長 x2が利用可能なときには，両方を用いて息子の身長 y を説明するモデル

y_j = β₀+ β₁x_1j + β₂x_2j + u_j, j = 1, . . . , n

が考えられる。これを一般化して k 個の説明変数 x1, . . . , xkを用いて被説明変数 y を説明するモデルは重回帰モデルと呼ばれ，p.249 の (12.6) で与えられている。

yj = β0 + β1x1j +_{· · · + β}kxkj+ uj, j = 1, . . . , n

ここで β0は y-切片で，β1, . . . , βkは偏回帰係数 (partial regression coefficient) という。誤差項 u1, . . . , unは互いに独立に分布し，E[ui] = 0, Var(ui) = σ²であることを仮定する。さらに，正規性を仮定する場合には, ui _{∼ N (0, σ}²), i = 1, . . . , n, とするが，とりあえず正規性を仮定せずに進めす。本書では k = 2 の場合について説明しているが，ここでは一般の k の場合を扱うことにする。

まず，偏回帰係数に対して最小２乗推定量を求めてみよう。p.69 に単回帰モデルにおける最小２乗法が与えられているので，同様にして

Q(β0, β1, . . . , βp) = ¹ n

∑n i=1

(yi_{− β}0_{− β}1x1i− · · · − β^p^x^ki⁾²

を最小にする偏回帰係数を求めることになる。y − β⁰ − β¹^x¹− · · · − β^k^x^kと −(y − β⁰− β1x1− · · · − βkxk)を右辺の中に入れると

Q(β0, β1, . . . , βp) = ¹ n

∑n i=1

{(yi−y)−β1(x1i−x1)_{−· · ·−β}p(xki−xk)+(y_−β0−β1x1−· · ·−βkxk)_}²

(12)

となり，^∑ⁿ_i=1(xji_{− x}j) = 0に注意すると Q(β₀, β₁, . . . , β_p) = ¹

n

∑n i=1

{(yi−y)−β1^(x1i−x1⁾−· · ·−βp^(xki−xk⁾}²^+(y−β0−β1^x1−· · ·−βk^xk⁾²

と書けることがわかる。右辺の第２項から

y_{− β}0− β1x1− · · · − βkxk = 0 が出てくる。右辺の第１項を Q(β1, . . . , βk)とおくと，

Q(β1, . . . , βk) =¹ n

∑n i=1

{(yi− y) − β1(x1i− x1)− · · · − βp(xki− xk)_}²

=Syy− 2β1S1y− · · · − 2βkSky +

∑k a=1

∑k b=1

βaβbSab

と表される。ただし，Syy = n⁻¹^∑ⁿ_i=1(yi − y)²^{, S}ay = n⁻¹^∑ⁿ_i=1(xai− xa)(yi − y), Sab = n⁻¹^∑ⁿ_i=1(x_ai_{− x}_a)(x_bi_{− x}_b)である。p.238∼p.248 で用いられている Syy^{, S}ay^{, S}abは便宜上 n で割っていないものを用いており，ここで用いているものは n で割っている点に注意してほしい。

Q(β₁, . . . , β_k)を βaで偏微分すると

∂Q(β1, . . . , βk)

∂βa

=_−2Say+ 2

∑k b=1

Sabβb

となるので，正規方程式







S11β1+_{· · · + S}1kβk = S1y

...

S_k1β₁+_{· · · + S}_kkβ_k= S_ky が得られる。この解を bβ₁, . . . , bβ_kとおき，

βb₀ = y_{− b}β₁x₁− · · · − b^βk^xk

とおくとき，bβ0, bβ1, . . . , bβkが β0, β1, . . . , βkの最小２乗推定量になる。説明変数の新たな値 (x10, . . . , xk0)に対する予測値 (predicted value) は

ˆ

y0 = bβ0+ bβ1x10+_{· · · + b}βkxk0

で与えられる。また観測データ (yi, x1i, . . . , xki)を用いたときの yiの予測値は ˆ

y_i = bβ₀+ bβ₁x_1i+_{· · · + b}β_kx_ki

で与えられ，当てはめ値 (fitted value) とも呼ばれる。この当てはめ値 ˆyiと観測値 yiとの差 ei = yi_{− ˆy}iを残差 (residual) という。残差は

ei =yi_{− b}β0_{− b}β1x1i− · · · − b^β^k^x^ki

=(yi_{− y) − b}β1(x1i_{− x}1)− · · · − b^β^k^(x^ki− x^k⁾

(13)

と書ける。

上の正規方程式を行列を用いて書き直すと





S11 · · · S1k

... ··· ... Sk1 · · · Skk







 β1

... βk



 =



 S1y

... Sky





となる。ここで行列 A を

A=





S11 · · · S1k

... ··· ... Sk1 _{· · · S}kk





で定義すると，A が正則行列，すなわち A の逆行列が存在するとき，



 β1

... βk



 = A⁻¹



 S1y

... Sky





と書けるので，β1, . . . , β_kの最小２乗推定量は



 βb1

... βbk



 = A⁻¹



 S1y

... Sky





で与えられることがわかる。ここで，Say = n⁻¹^∑ⁿ_i=1(xai_{− x}a)(yi− y) であり，これは

Say =¹ n

∑n i=1

(xai_{− x}a)_{(x1i_{− x}1)β1+_{· · · + (x}ki_{− x}k)βk+ ui_{− u}}

=Sa1β1+_{· · · + S}akβk+ ¹ n

∑n i=1

(xai_{− x}a)ui

と表されることに注意する。ただし u = n⁻¹^∑ⁿ_i=1u_iである。従って，







E[S1y] = S11β1 +_{· · · + S}1kβk

...

E[Sky] = Sk1β1+_{· · · + S}kbkβk

となる。このことは _



E[S1y] ... E[Sky]



 = A



 β1

... βk





と表されることを意味する。よって



 E[ bβ1]

... E[ bβk]



 = A⁻¹





E[S1y] ... E[Sky]



 = A⁻¹^A



 β1

... βk



 =



 β1

... βk





(14)

となり，

E[ bβ1] = β1. . . , E[ bβk] = βk

が成り立つ。従って，bβ1, . . . , bβkは β1, . . . βkの不偏推定量である。また E[ bβ0] = E[y_{− x}1β^b1− · · · − xkβ^bk] = E[y]_{− x}1β1− · · · − xkβ1 = β0

となるので，bβ₀は β0の不偏推定量になる。このことから，y0 = β0+ x10β1+_{· · · + x}k0βk

の予測量 ˆy0についても

E[ˆy₀] = E[β₀+ x₁₀β₁+_{· · · + x}_k0β_k] = y₀ となり，不偏であることがわかる。

単回帰モデルについては回帰直線と残差の性質が p.70, p.71，p.239 で与えられているが，同様な性質が重回帰モデルにおいても成り立つ。

(1) 回帰直線は，点 (x1, . . . , xk, y)を通る。 (2) 予測値 ˆy1, . . . , ˆynの平均は y に一致する。 (3) 残差 e1, . . . , enの和もしくは平均は 0 である。

(4) 残差と説明変数 {(eⁱ^{, x}^ai⁾} の相関係数は 0 である。また残差と予測値 {(eⁱ^{, ˆ}^yⁱ⁾} の相関係数も 0 である。

(5) 全変動平方和の分解：単回帰モデルのとき変動平方和の分解が p.243 で与えられているが，同じ分解が重回帰モデルにおいても成り立つ。すなわち，（全変動平方和）＝（回帰変動平方和）＋（残差平方和），言い換えると

∑n i=1

(yi − y)² ⁼

∑n i=1

(ˆyi− y)²⁺

∑n i=1

(yi− ˆyi)²

が成り立つ。

(6) 残差の期待値は E[ei^{] = 0}であり，残差平方和 RSS =^∑ⁿ_i=1(y_i_{− ˆy}_i)²の期待値は E[RSS] = (n_{− k − 1)σ}²

となる。 (証明)

(1)については，回帰直線 y = bβ0+ x1β^b1+_{· · · + x}kβ^bkに bβ0 = y_{− b}β1x1− · · · − b^βkxkを代入すると

y_{− y = (x}1_{− x}1) bβ1+_{· · · + (x}k_{− x}k) bβk

となる。これは，回帰直線が点 (x1, . . . , xk, y)を通ることを示している。 (2)については，

ˆ y = ¹

n

∑n i=1

ˆ yi = ¹

n

∑n i=1

( bβ0+ x1iβ^b1+_{· · · + x}kiβ^bk) = bβ0+ bβ1x1+_{· · · + b}βkxk= y

となることからわかる。

(3)については，ei = (yi_{− y) − b}β1(x1i_{− x}1)− · · · − b^β^k^(x^ki− x^k⁾^{と表されることに注意} すると，^∑ⁿ_i=1ei = 0となることがわかる。

(15)

(4)については， 1

n

∑n i=1

ei(xai− xa) =¹ n

∑n i=1

{(yi − y) − b^β1(x1i− x1)− · · · − b^βk(xki− xk)_}(xai− xa)

=Say− b^β1S1a− · · · − b^βkSka

と書ける。最小２乗推定量を導く正規方程式から

Say_{− b}β1S1a− · · · − b^β^k^S^ka^{= 0}

となることがわかる。また ˆyi = bβ0+x1iβ^b1+_{· · ·+x}kiβ^bk= y +(x1i_−x1) bβ1+_{· · ·+(x}ki_−xk) bβk

と書けるので，

∑n i=1

ei(ˆyi_{− y) =}

∑k a=1

∑n i=1

ei(xai_{− x}a) bβa = 0 となる。

(5)については，

∑n i=1

(yi_{− y)}² =

∑n i=1

(ˆyi_{− y)}²+

∑n i=1

(yi_{− ˆy}i)²+ 2

∑n i=1

(ˆyi_{− y)(y}i_{− ˆy}i)

と書けており，(4) より最後の項が 0 になる。

(6)については，ei = (yi_{− y) − b}β1(x1i_{− x}1)− · · · − b^β^k^(x^ki− x^k⁾^{の両辺に期待値をとる} と，E[ei] = 0となることが容易に確かめられる。^∑ⁿ_i=1E[e²_i] = σ²(n− k − 1) を示すのはやや複雑であるので，証明のスケッチのみを与える。まず^∑ⁿ_i=1e²_i =^∑ⁿ_i=1ei(yi_{− y) とな}

り，この期待値を計算すると

∑n i=1

E[e²_i] =

∑n i=1

E[ei(yi− y)]

=

∑n i=1

E[_{ui− u − (b^β1− β1)(x1i− x1)− · · · − (b^βk− βk)(xki− xk)_}

× {ui− u + (x1i− x1^)β1⁺· · · + (xki− xk^)βk}]

=

∑n i=1

E[_{ui_{− u − (b}β1_{− β}1)(x1i_{− x}1)− · · · − (b^β^k− β^k^)(x^ki− x^k⁾} × uⁱ^]

=(n_{− 1)σ}²₋

∑n i=1

E[_{bβ1(x1i_{− x}1) +_{· · · + b}βk(xki_{− x}k)_{} × u}i]

と書ける。上で与えれた bβ1, . . . , bβkの形と

Say = Sa1β1+_{· · · + S}akβk+ ¹ n

∑n j=1

(xaj − xa)uj

及び E[Sayui] = (xai− xa)σ²となることに注意すると，

∑n i=1

E[_{bβ1(x1i_{− x}1) +_{· · · + b}βk(xki_{− x}k)_{} × u}i] = kσ²

(16)

が成り立つことがわかる。

○ 決定係数と自由度調整済み決定係数

データが回帰モデルにどの程度当てはまっているかを調べる方法として，データと予測値との相関係数を求めてみることが考えられる。この相関係数の２乗を決定係数といい， R²で表す。単回帰モデルのときには決定係数とその変形が p.242, p.243 で与えられている。重回帰モデルの場合も同じ変形が成り立つ。

まず，R²は

R² =^{

∑n i=1

(ˆyi_{− y)(y}i_{− y)}

}2

/^{

∑n i=1

(ˆyi_{− y)}²

∑n i=1

(yi_{− y)}²

}

で定義される。ここで上の (4) の性質より

∑n i=1

(ˆyi_{− y)(y}i_{− y) =}

∑n i=1

(ˆyi_{− y)(y}i_{− ˆy}i+ ˆyi_{− y) =}

∑n i=1

(ˆyi_{− y)e}i+

∑n i=1

(ˆyi_{− y)}²

=

∑n i=1

(ˆyi_{− y)}²

となる。上の (5) の性質を用いると R² =

∑n

i=1^(ˆ^yⁱ− y)²

∑n

i=1^(yⁱ− y)² ^{= 1}⁻

∑n RSS

i=1^(yⁱ− y)²

と表すことができる。ここで RSS = ^∑ⁿ_i=1(yi− ˆyi)²であり，残差平方和である。この式は，全変動平方和のうち残差平方和の割合が小さい程，データの重回帰モデルへの当てはまりがよいことを意味している。

説明変数の個数を増やしていくと決定係数 R²が 1 に近づいていくことが数値的に確認できる。しかし，k を増やすにつれて未知母数である回帰係数の個数が増えることになり，回帰係数の推定量の推定誤差が増大する。また σ²の推定量 ˆσ²の自由度は n − k − 1 であるが，k の増加とともに自由度が減少し，その結果 ˆσ²の推定精度も小さくなる。従って，説明変数の個数を増やすことはモデルの適合度を高くするものの，‘モデルの良さ’ を考えた場合，必ずしもよいとは限らないことがわかる。そこで，説明変数 x1, . . . , xkのうちどの変数を選択するかが重要な問題となり，そのための変数選択方法がいくつか知られている。赤池情報量規準 AIC やマローズの Cp基準はその代表的な選択方法として知られている。ここでは，自由度調整済み決定係数を紹介する。

自由度調整済み決定係数は，決定係数 R²の中の統計量 RSS, ^∑ⁿ_i=1(y_i_{− y)}²についてそれらの自由度 n − k − 1, n − 1 で割ったもので置き換えたもの

R^∗2_k = 1₋ _∑_n^RSS/(n^{− k − 1)}

i=1^(yⁱ ^{− y)}²^/(n^{− 1)}

で定義される。これを書き直すと

R^∗2_k = 1₋ ⁿ^{− 1}

n_{− k − 1}⁽¹^{− R}

2₎