このファイルでは,「統計学」(東京大学出版会)の誤植訂正及び補足説明を与えてい ます。
「統計学」訂正箇所
「統計学」について,表現の変更も含め訂正箇所を掲載します。ご指摘をお寄せ下さっ た皆様に感謝申し上げます。下の記述において,「-5 行」は,「下から 5 行目」を意味する。
○ 第 1 章 p.5, 12 行:Q = 31 を Q = 8.42 に訂正。 p.8, 9行:「回帰」を「回帰直線」に訂正
○ 第 2 章 p.27, -2 行:「標本平均」を「算術平均」に変更 p.29, 10行:文末に「(図 2.8)」を加える。
p.30, -7行:「このとき」を「Sx ̸= 0 のとき」に変更
p.35, -9行:「全体の平均,分散」と「全体の平均,標準偏差」に訂正 p.35, -5行:= 61 を = 60 に訂正
p.36, -7行:b3 > 3を b2 > 3に訂正,-5 行:b3 < 3を b2 < 3に訂正 p.42, -4行:(n−n∑ni=1を (n−1∑ni=1に訂正
p.42, -1行:「この不等式から」を「(1), (2) から」に変更
○ 第 2 章 p.40, -7 行:2, 400 円を 4, 800 円に訂正
○ 第 3 章 p.49, 7 行:bi ={x(1)+· · · + x(j)}/(nx) を bi ={x(1)+· · · + x(i)}/(nx) に訂正
○ 第4章 p.75∼p.77 で与えられている相関係数の数値は小数点以下第3位を切り捨て た値を与えていますが,小数点以下第4位を四捨五入した値を与えると,rxy =−0.845, rzx=−0.937, rzy = 0.892となり,p.77 の最初の式は
rxy|z = √ rxy − rxzryz 1− r2xz√1− r2yz =
−0.845 − (−0.937) × 0.892
√1− (−0.937)2√1− 0.8922 =−0.058
となります。最後の式は小数点以下第3位を四捨五入すると rxy|z =−0.06 となります。
○ 第 5 章 p.89, 11 行:P (B | Ac)を次のように訂正 P (B | Ac) = P (A
c | B)P (B)
P (Ac) = 1 10
1 3÷
19 30 =
1 19
○ 第 5 章 p.90, -1 行:「背反」を「排反」に修正
○ 第 7 章 p.127, 8 行:f(x) の式について,右側の分母に 2 を入れる。
f (x) = 1 σϕ
(x − µ σ
)= √1 2πσ exp
{−(x− µ)
2
2σ2 }
○ 第 7 章 p.127, -10 行:命題 7.6 において,「標準正規分布 N (µ, σ2)」の「標準」を削除 する。
○ 第 7 章 p.130, 10 行,11 行:V ar(X) = β2V ar(Y ) = αβ2を V ar(X) = β2V ar(Z) = αβ2に訂正
○ 第8章 p.142, 1 行:fY |X(x|y) を fY |X(y|x) に変更
○ 第9章 p.171, 13 行以下の (9.10) 式の最初の2つの等式の右辺について,以下のよう に,2カ所の − を + に訂正
∑n i=1
(Xi− µ)2 =
∑n i=1
{(Xi− X) + (X − µ)}2
=
∑n i=1
(Xi− X)2+ 2
∑n i=1
(Xi− X)(X − µ) + n(X − µ)2
○ 第 9 章 p.176, 図 9.4 の中の n を m に訂正
○ 第 9 章 p.183, -1 行:「Wn平均」を,「Wnの平均」に訂正
○ 第 10 章 p.193, -6 行以下の式の2番目,3番目,4番目の等式の右辺について,以 下のように,3カ所の − を + に訂正。
MSE(θ; ˆθ) =E[(ˆθ− θ)2] = E[{(ˆθ − E[ˆθ]) + (E[ˆθ] − θ)}2]
=E[(ˆθ− E[ˆθ])2+ 2(ˆθ− E[ˆθ])(E[ˆθ] − θ) + (E[ˆθ] − θ)2]
=E[(ˆθ− E[ˆθ])2] + 2E[(ˆθ− E[ˆθ])(E[ˆθ] − θ)] + (E[ˆθ] − θ)2
○ 第 10 章 p.203, 5 行∼6 行:よりわかりやすい表現に変更する。
「もしこの推定誤差 |X − µ| をある定数 E 以下にしたいのであれば,(σ0/√n)zα/2≤ E, すなわち」を
「この推定誤差 |X − µ| をある定数 E 以下にしたい,すなわち P (|X − µ| ≤ E) = 1 − α
がなりたつためには,(σ0/√n)zα/2≤ E を満たす必要がある。従って」に変更。
○ 第10章 p.206, -4 行:「精度 n/σ2と 1/τ2の比で内分」を「分散 σ2/nと τ2の比で 内分」に変更
○ 第11章 p.212, 14 行:hyposesis を hypothesis に訂正
また,その下の 17 行:「H0は有意である」を「H0の検定は有意である」という表現に 変更。同様に,p.221 の 4 行目,6 行目,p.233 の 4 行目,p.248 の 8 行目,p.252 の 9 行目, p.257の-12 行目,p.260 の 3 行目,p.261 の 2 行目についても,「H0は有意である」を「H0
の検定は有意である」という表現もしくは同等な表現に変更して下さい。
○ 第11章 p.218, 1∼4 行:右辺の P (·) を Pµ=µ0(·) に変更 同様に,その下の 9 行も P (·) を Pµ=µ0(·) に変更
○ 第11章 p.218, -4 行:「ここの測定値」を「この例での測定値」に変更
○ 第11章 p.219, 1 行:(σ/√n)を (V/√n)に変更
○ p.224, 1 行目は次の式に変更して下さい。
|x − y| >√p(1ˆ − ˆp)√m−1+ n−1zα/2 = 0.100
また,2 行目の「H0は有意でなく」を「この差は有意でなく」に訂正して下さい。
○ p.231 の-13 行目:「これを検定のサイズ」を「この確率を検定のサイズ」に変更。
○ 第12章 p.239, 8 行:右辺の RSS は,斜体からローマン体に変更
○ 第12章 p.240, -9 行:左辺の } を一つ削除して,(bβ− β)/{σ2/Sxx}1/2 ∼ N (0, 1) に 訂正。
その下の -3 行:R = {(β, σ2) :|bβ− β0|/{ˆσ2/Sxx}1/2 ≥ tn−2,α/2} に訂正
○ 第12章 p.248, 13 行:「信頼区間」と「予測信頼区間」に変更
○第12章 p.249, -1 行:
y w1y w2y
=
1 x1 x2
x1 w11 w12 x2 w21 w22
β0
β1 β2
と修正して下さい。同様に p.250 の 4 行目と 6 行目の次のように n を 1 に変更して下さい。
y = β0+ x1β1+ x2β2
w1y = x1β0+ w11β1+ w12β2
w2y = x2β0+ w21β1+ w22β2
1 x1 x2
x1 w11 w12
x2 w21 w22
−1
=
a11 a12 a13
a21 a22 a23
a31 a32 a33
○ p.251 の5行目,6行目,7行目,9行目に現れる aiiについては次のように ai+1,i+1
に変更して下さい。
βbi ∼ N (βi, σ2ai+1,i+1) ( bβi− β0,i)/(√ai+1,i+1σ)ˆ ∼ tn−3
R ={(y1, . . . , yn);|bβi− β0,i|/(√ai+1,i+1σ) > tˆ n−3,α/2 C = [ bβi−√ai+1,i+1σtˆ n−3,α/2, bβi+ √ai+1,i+1σtˆ n−3,α/2]
○ 第 12 章 第 12.4 節「分散分析」 p.257:
3行目:「自由度 (k, N − k)」を「自由度 (k − 1, N − k)」に修正。
9行目の表(本ページの2番目の表)については,最下欄の合計の数値に間違いがあり ますので,以下のように修正して下さい。
変動の種類 自由度 平方和 平均平方 F 統計量 群間変動 2 61.40 30.70 6.18 群内変動 27 134.10 4.97
合計 29 195.50
○ 第12章 p.261, -6 行:E[u2i]/Sxx = σ2/Sxxの部分を E[u2i]/Sxx2 = σ2/Sxxに訂正
○ 第13章 p.269 の式 (13.5) については,次のように修正して下さい。 E(V2) = N
N − 1σ
2 N
○ 第13章 p.271 の式 (13.7) については,等号無しで不等式が成り立ちます。
○ 第13章 p.276 の式 (13.11) は次に変更
r(k) =
∑T
t=k+1(yt− y)(yt−k − y)
∑T
t=1(yt− y)2
○ 第13章 p.281, -3 行:pF(t) =√PR(t)pP(t)を pF(t) =√PL(t)pP(t)に変更
○ 第14章 p.292, -2 行:「将来値 yt+h (h > 0) の予測値 yt+h|t」に変更。
p.292, 15行:vv+2を vt+2に訂正,16 行:vv+1を vt+1に訂正,17行:(vv+2+ ϕ1vt+2)
を (ϕ1vt+1+ vt+2)に訂正。
○ 付録 1 p.309, -1 行目の var(MS) を計算すると n − 1 で割った不偏分散の値が出力さ れます。
> var(MS) % 不偏分散 (n − 1 で割ったもの) p.310, 2行目についても以下のように説明を加えます。
> sd(MS) % 不偏分散 (n − 1 で割ったもの) の平方根による標準偏差 p.310, 15行目は以下のように変更して下さい。
> sum( (A-xm)*(A-xm))/n %A の標本分散 (n で割ったもの)
○ 付録1 p.311, -3 行:y を z に変更,すなわち
> reg2 <- glm(z ∼ 1+x1+x2, binomial(logit)) % ロジスティック回帰
○ 付録2 p.321, 6 行:(a)k = a(a− 1) · · · (a − k + 1) に訂正
○ 付録2 p.321, 7 行:nCkをaCkに訂正
○ 付録2 p.321, -6 行:「原点に対して」を削除して下さい。
○ 付録2 p.322, -2 行:次の形に訂正 d
dx f (x) g(x) =
f′(x)g(x)− f(x)g′(x) {g(x)}2
○ 付録2 p.324, 1 行:次の形に訂正
ex =
∑∞ k=0
xk k!
○ 付録2 p.327, -9 行:「行列の加法」に続く最初の2行の文章は行列の定義ですの で,前項「ベクトルと行列について」の最後に移動。またそこに,「m = n のとき,n × n 行列を正方行列という。」を加えて,正方行列の定義を加えて下さい。
○ 付録2 p.329, -1 行:「例えば」の前に,「また S はすべての置換の集合を表す。」を 加えて下さい。
「統計学」補足説明
(1)スキップの項
本書は,統計の面白さを感じてもらったり,推測統計の内容をすっきりした形で理解し てもらうために,通常の統計学の教科書では扱わない内容も含まれています。学部1∼2 年生の講義では以下の項目についてはスキップし,興味のある学生はその部分をお話しと して読み進めてもらうのがいいと思います。その部分の更なる詳しい説明については,数 理統計学の本を参照して下さい。また下記の(2)も参考にして下さい。
「各章末の発展的事項」
「p.131 の生存時間解析の項」
「p144,-5 行目∼p.145, 5 行目の条件付き期待値の期待値の部分」
「p.149, -4 行目以降」
「p.142 の歪度統計量と尖度統計量の項」
「p.173 の順序統計量の項」
「p.189∼p.190 の最尤推定量の性質の項」
「p.195, 有効性の項」
「p.201, (2) 最尤推定量に基づいた信頼区間の項」
「p.224, 最尤推定量に基づいた検定の項」
「p.224, 尤度比検定の項」
「p.248, 12.3 節 重回帰モデルの項」
(2)補足説明
教科書の内容の理解を深めるために,よりわかりやすい説明を与えていますので参考に して下さい。
第2章「分布の特徴を探る」
○ p.24, メディアンの性質 (2)
「すべての定数 a に対して
∑n i=1
|xi− a| ≥
∑n i=1
|xi− medx|
なる不等式が成り立つ。メディアンは,各点 xiと a との長さの絶対値 |xi− a| の和を最小 にする解を与える。」
(証明) を補足しておきます。
(a) 自然数 m に対して n = 2m + 1 の場合. このとき,メディアンは x(m+1)になり,
2m+1∑ i=1
|x(i)− x(m+1)| = −
∑m i=1
(x(i)− x(m+1)) +
2m+1∑ i=m+2
(x(i)− x(m+1))
= −
∑m i=1
x(i)+
2m+1∑ m+2
x(i)
となる。この値と∑2m+1i=1 |x(i)− a| の値との差を求めて,その差が非負であることを示せば よい。例えば,x(m+1) ≤ a < x(m+2)の範囲にある場合を考えてみる。この場合,i ≤ m + 1 に対しては x(i)− a ≤ 0 であり,i ≥ m + 2 に対しては x(i)− a ≥ 0 となるので
2m+1∑ i=1
|x(i)− a| = −
m+1∑
i=1
(x(i)− a) +
2m+1∑ i=m+2
(x(i)− a)
= −
m+1∑
i=1
x(i)+ (m + 1)a +
2m+1∑ m+2
x(i)− ma
= −
∑m i=1
x(i)+
2m+1∑ m+2
x(i)+ a− x(m+1)
と書ける。従って,∑2m+1i=1 |x(i)− a| −∑2m+1i=1 |x(i)− x(m+1)| = a − x(m+1) ≥ 0 が成り立つ ことがわかる。その他の範囲の a に対して同様の方法で不等式を示すことができる。
(b)自然数 m に対して n = 2m の場合. このとき,メディアンは medx = (x(m)+x(m+1))/2 になり,x(m) < medx < x(m+1)であるから
∑2m i=1
|x(i)− medx| = −
∑m i=1
(x(i)− medx) +
∑2m i=m+1
(x(i)− medx)
= −
∑m i=1
x(i)+
∑2m m+1
x(i)
となる。この値と∑2mi=1|x(i)− a| の値との差を求めて,その差が非負であることを示せば よい。
例えば,x(m) ≤ a < x(m+1)の範囲にある場合を考えてみる。この場合,i ≤ m に対し ては x(i)− a ≤ 0 であり,i ≥ m + 1 に対しては x(i)− a ≥ 0 となるので
∑2m i=1
|x(i)− a| = −
∑m i=1
(x(i)− a) +
∑2m i=m+1
(x(i)− a)
= −
∑m i=1
x(i)+
∑2m m+1
x(i)
となり,従って,
∑2m i=1
|x(i)− a| =
∑2m i=1
|x(i)− medx| (1) なる等号が成り立つことがわかる。
次に x(m−1) ≤ a < x(m)の範囲にある場合を考えてみる。この場合,i ≤ m − 1 に対し
ては x(i)− a ≤ 0 であり,i ≥ m に対しては x(i)− a ≥ 0 となるので
∑2m i=1
|x(i)− a| = −
m−1∑ i=1
(x(i)− a) +
∑2m i=m
(x(i)− a)
= −
m−1∑ i=1
x(i)+
∑2m i=m
x(i)− 2a
= −
∑m i=1
x(i)+
∑2m m+1
x(i)+ 2{x(m)− a}
と書ける。従って,∑2mi=1|x(i)− a| −∑2mi=1|x(i)− medx| = 2{x(m)− a} ≥ 0 が成り立つこ とがわかる。その他の範囲の a に対して同様の方法で不等式を示すことができる。
ここで注意することは,(1) より,x(m) ≤ a < x(m+1)なるすべての a が∑2mi=1|x(i)− a| を 最小にする解を与えている点である。従って n = 2m のときにもメディアンは∑2mi=1|x(i)−a|
を最小する解であるが唯一でないことがわかる。 □
○ p.30, データに関するチェビシェフの不等式
kを正の定数とし,|xi− x| ≥ kSxを満たすようなデータ xiの個数を nkをする。この とき,常に
nk
n ≤ 1
k2 もしくは
n− nk
n ≥ 1 − 1 k2 が成り立つ。これをデータに関するチェビシェフの不等式という。
例えば,k = 3 のとき,区間
[x− 3Sx, x + 3Sx] に入るデータの個数の割合は
n− n3
n ≥ 1 − 1 9 =
8
9 = 0.89
となるので,全データの約9割以上がその区間に入ることを意味する。
○ p.31, 平均,メディアン,標準偏差の間の関係
平均,メディアン,標準偏差の間には必ず |x − medx| < Sxなる関係が成り立つ。すな わち,メディアンは
x− Sx < medx < x + Sx
を満たす。例えば,x = 4, Sx = 2のときには,メディアンは 2 < medx < 6の範囲にあ る。従って, x = 4, Sx = 2, medx = 1.5であるようなデータは存在しないことになる。
○ p.38, データの分位点
p.38 の発展的事項の中で分位点の合理的な定義を与えている。0 < α < 1 に対して, qαL= (xi ≤ x となる xiの個数が nα以上となるような x の最小値)
qαR= (xi ≥ x となる xiの個数が n(1 − α) 以上となるような x の最大値) とおく。このとき,下側 100α% 点 q(α) は
qα = q
αL+ qαR
2 (2)
により定義される。
順序データを x(1) < x(2) <· · · < x(n)としタイ(等しい値)はないものとする。例えば α = 0.5の場合を考えよう。
n = 4のとき,nα = 2 より, xi ≤ x となる xiの個数が 2 以上になるには x は x ≥ x(2)で なければならないので,最小の x は x(2)になる。また n(1 − α) = 2 より,xi ≥ x となる xiの個数が 2 以上になるには x は x ≤ x(3)でなければならないので,最大の x は x(3)にな る。従って,q0.5 = (x(2)+ x(3))/2となる。
n = 5のとき,nα = 2.5 より, xi ≤ x となる xiの個数が 3 以上になるには x は x ≥ x(3) でなければならないので,最小の x は x(3)になる。また n(1 − α) = 2.5 より,xi ≥ x とな る xiの個数が 3 以上になるには x は x ≤ x(3)でなければならないので,最大の x は x(3)
になる。従って,q0.5 = x(3)となる。
一般に,nα = k で k が自然数のとき,xi ≤ x となる xiの個数が k 以上になるには x は x≥ x(k)でなければならないので,最小の x は x(k)になる。また n(1 − α) = n − k より, xi ≥ x となる xiの個数が n − k 以上になるには x は x ≤ x(k+1)でなければならないので, 最大の x は x(k+1)になる。従って,
qα= x(nα)+ x(nα+1) 2
となる。nα が自然数でなく,nα を超えない最大の自然数を [nα] で表し,これを k とす る。これをガウス記号といい,k ≤ nα < k + 1 を満たす自然数 k を意味する。このとき, xi ≤ x となる xiの個数が k + 1 以上になるには x は x ≥ x(k+1)でなければならないので, 最小の x は x(k+1)になる。また n(1 − α) を超えない最大の自然数 [n(1 − α)] は,[nα] = k に対して n − k ≥ n − nα > n − k − 1 より,n − k − 1 となることに注意すると,xi ≥ x となる xiの個数が n − k 以上になるには x は x ≤ x(k+1)でなければならないので,最大 の x は x(k+1)になる。従って,
qα = x(k+1)= x([nα]+1)
となる。
例えば α = 0.5 の場合,n が奇数のときには [nα] = (n − 1)/2 となり,n が偶数のとき には nα = n/2 より,q0.5はメディアンに一致することがわかる。
例えば,第1四分位点 (α = 0.25) については,m を自然数とすると,n = 4m に対し ては n/4 = m より q0.25 = (x(m) + x(m+1))/2, n = 4m + 1, 4m + 2, 4m + 3に対しては [n/4] = mより q0.25 = x(m+1) となる。
第4章「変数間の関係性をみる」
○ p.60, 相関係数とコサインの関係
相関係数の性質 (4) において次の性質をあげている。
a = (a1, . . . , an) = (x1− x, . . . , xn− x), b = (b1, . . . , bn) = (y1− y, . . . , yn− y) とおき, 2つの n-次元ベクトル a, b のなす角を θ とする。このとき,相関係数は
rxy = cos(θ)
と表される。この性質を用いれば,その上の (3) の性質を容易に確認することができる。 すなわち,−1 ≤ cos(θ) ≤ 1 より,−1 ≤ rxy ≤ 1 を導くことができる。また,等号 rxy = 1 が成り立つことは θ = 0 であり,このことは a と b が同方向のベクトルであることを意味 するので,ある t > 0 に対して b = ta,すなわち yi− y = t(xi− x) が成り立つ。また等 号 rxy =−1 が成り立つことは θ = π であり,このことは a と b が逆方向のベクトルであ ることを意味するので,ある t < 0 に対して b = ta,すなわち yi− y = t(xi − x) が成り
立つ。
第5章「確率の基礎」
○ p.90, 記号の説明
記号 ∪nk=1Bk= Ωは B1∪ · · · ∪ Bn= Ωを意味する。
第6章「確率分布と期待値」
○ p.100, 確率分布の分位点
連続な確率変数 X の確率密度関数を f(x), 確率分布関数を F (x) をすると F (x) = P (X ≤ x) =
∫ x
−∞
f (t)dt, −∞ < x < ∞
と表される。0 ≤ F (x) ≤ 1 であり,limx→−∞F (x) = 0, limx→∞F (x) = 1である。0 < y < 1となる y に対して
y = F (x)
となる x を分位点といい,F (x) の逆関数を用いて x = F−1(y)と表される。
分位点は信頼区間や仮説検定において重要である。例えば,標準正規分布の確率密度関 数を
ϕ(x) = √1 2πe
−x2/2, −∞ < x < ∞ とし,その確率分布関数を
Φ(x) =
∫ x
−∞
ϕ(z)dz
で表すとき,y の分位点は y = Φ(x) すなわち x = Φ−1(y)となる。 1− Φ(x) =
∫ ∞
x
ϕ(z)dz より,これは上側の確率を表す。特に
α = 1− Φ(zα) =
∫ ∞
zα
ϕ(z)dz
となる zαを上側 100α% 点といい,信頼区間や仮説検定において頻繁に登場する。
○ p.106, 確率のチェビシェフの不等式
確率変数 X の平均を µ = E[X], 分散を V ar(X) = σ2とすると,チェビシェフの不等式 P (|X − µ| > kσ) ≤ 1
k2, P (|X − µ| ≤ kσ) ≥ 1 − 1 k2 が成り立つ。
例えば,k = 3 とおくと,P (|X − µ| ≤ 3σ) ≥ 1 − 19 = 8/9であるから, どんな確率分布 もほぼ9割は
µ− 3σ ≤ X ≤ µ + 3σ の間に入ることを意味する。
第8章「多変数の確率分布」
○ p.137, 10 行:2次元分布の例(離散分布の場合)
y = FX(x)
x = FX−1(y)
FX(x)
y
FX−1(y)
図 1: 分位点 離散分布の場合の2次元の確率分布を考えてみよう。
例えば,ある法案が国会で議論されているとき,その法案の賛否に関して夫婦の間で同 じ傾向性があるか否かを検証する確率モデルを考えてみる。夫婦のうち夫の賛否について の確率変数 X は
X =
{ 1 夫が法案に賛成 0 夫が法案に反対 と表され,妻の賛否についての確率変数 Y は
Y =
{ 1 妻が法案に賛成 0 妻が法案に反対 と書かれる。このとき (X, Y ) は2次元の確率変数になり,
(X, Y ) =
(1, 1) 夫・妻ともに法案に賛成 (1, 0) 夫は賛成,妻は反対 (0, 1) 夫は反対,妻は賛成 (0, 0) 夫・妻ともに反対
となる。今,(X, Y ) = (1, 1) となる確率が P (X = 1, Y = 1) = 0.4, 同様に P (X = 1, Y = 0) = 0.2, P (X = 0, Y = 1) = 0.1, P (X = 0, Y = 0) = 0.3で与えられているとする。これ を (X, Y ) の同時確率分布という。これを表で表すと
X\Y 1 0 計 1 0.4 0.2 0.6 0 0.1 0.3 0.4 計 0.5 0.5 1 と書ける。表の中で横に加えた合計は
P (X = 1) = P (X = 1, Y = 1) + P (X = 1, Y = 0) = 0.4 + 0.2 = 0.6 P (X = 0) = P (X = 0, Y = 1) + P (X = 0, Y = 0) = 0.1 + 0.3 = 0.4
となり,それぞれ X = 1, X = 0 となる確率 P (X = 1), P (X = 0) を表している。これを Xの周辺確率という。同様にして,表の中で縦に加えた合計は
P (Y = 1) = P (X = 1, Y = 1) + P (X = 0, Y = 1) = 0.4 + 0.1 = 0.5 P (Y = 0) = P (X = 1, Y = 0) + P (X = 0, Y = 0) = 0.2 + 0.3 = 0.5
となり,それぞれ Y = 1, Y = 0 となる周辺確率 P (Y = 1), P (Y = 0) を表している。 X の周辺確率 P (X = 1) = 0.6, P (X = 0) = 0.4 を眺めると,夫婦のうち夫の確率 分布をみることができ,法案に賛成する確率が高いことがわかる。一方,Y の周辺確率 P (Y = 1) = 0.5, P (Y = 0) = 0.5を眺めると,夫婦のうち妻の確率分布をみることがで き,法案の賛否は同程度の確率であることがわかる。しかし,X 及び Y の周辺分布だけ では夫婦の間の関係を調べることができない。夫婦がともに同意見になる傾向があるかな ど夫婦の間の関係を捉えるには X と Y の同時確率分布 P (X = x, Y = y) が必要になるこ とがわかる。
一般に,X と Y の同時確率分布が
X\Y 1 0 計 1 p11 p10 p1· 0 p01 p00 p0· 計 p·1 p·0 1
で与えられるとしよう。すなわち,P (X = 1, Y = 1) = p11, P (X = 1, Y = 0) = p10, P (X = 0, Y = 1) = p01, P (X = 0, Y = 0) = p00であり,
p1·= p11+ p10, p0·= p01+ p00, p1·+ p0·= 1 p·1= p11+ p01, p·0= p10+ p10, p·1+ p·0= 1
が成り立つ。X と Y の平均はそれぞれ µX = E[X] = 1× p1·+ 0× p0·= p1·, µY = E[Y ] = 1× p·1+ 0× p·0 = p·1となる。また X と Y の共分散 Cov(X, Y ) = E[(X − µX)(Y − µY)] は (8.11) より
Cov(X, Y ) = E[XY ]− E[X] × E[Y ] と書ける。詳しくは次の節 (8.2 節) で解説されています。
E[XY ] = 1× 1 × p11+ 1× 0 × p10+ 0× 1 × p01+ 0× 0 × p00
= p11 となるので,
Cov(X, Y ) = p11− p1·× p·1
となることがわかる。
上の例において法案の賛否に関して夫と妻の間に関係がないという仮定は,X と Y の 確率分布が独立であることを意味する。独立性については次の節 (8.2 節) で説明すること になるが,X と Y が独立に確率分布するとは
p11= p1·× p·1, p10 = p1·× p·0 p01= p0·× p·1, p00 = p0·× p·0
が成り立つことをいう。これを簡単に
pij = pi·× p·j, i = 1, 0, j = 1, 0
と書くことができる。上の例では,X と Y が独立のときには2次元の確率分布は X\Y 1 0 計
1 0.3 0.3 0.6 0 0.2 0.2 0.4 計 0.5 0.5 1
と書けることになる。2次元の確率分布において興味があるのが,X と Y の間に関係が あるか,因果関係があるかなどの独立性の検定である。すなわち,X と Y が独立である とう仮説
H0 : pij = pi·× p·j, i = 1, 0, j = 1, 0
をデータから検定する問題である。具体的な方法は 11.4 節で与えられているので参照し てほしい。
○ p.141, 例 8.4 の前:2次元分布の例(連続分布の場合)
7.2.1節で区間 [0, 1] 上の一様分布を学んだ。これを2次元の x-y 平面上に拡張すると, 区間 [0, 1] 上の確率分布は正方形 [0, 1] × [0, 1] 上の確率分布を考えることになり,その正 方形上の点 (x, y) に対して
fX,Y(x, y) =
{ 1 0≤ x ≤ 1, 0 ≤ y ≤ 1 のとき 0 その他のとき
となる一様分布が考えられる。指示関数を I[0,1](x) =
{ 1 0 ≤ x ≤ 1 のとき 0 その他のとき I[0,1](y) =
{ 1 0 ≤ y ≤ 1 のとき 0 その他のとき と定義すると,
fX,Y(x, y) = I[0,1](x)× I[0,1](y) (3) と表されることがわかる。これを y に関して積分すると
fX(x) =
∫ 1 0
fX,Y(x, y)dy = I[0,1](x)×
∫ 1 0
I[0,1](y)dy = I[0,1](x) となり,x 軸の区間 [0, 1] 上の一様分布になる。同様にして x に関して積分すると
fY(y) =
∫ 1 0
fX,Y(x, y)dx =
∫ 1 0
I[0,1](x)dx× I[0,1](y) = I[0,1](y)
となり,y 軸の区間 [0, 1] 上の一様分布になる。fX(x)をさらに x に関して積分すると
∫1
0 fX(x)dx =
∫1
0 I[0,1](x)dx = 1となる。すなわち
∫ 1 0
{ ∫ 1
0
fX,Y(x, y)dy}dx =
∫ 1 0
fX(x)dx = 1
が成り立つので,fX,Y(x, y)は2次元の同時確率密度関数になることがわかる。また fX(x), fY(y)はそれぞれ X, Y の周辺確率密度関数である。(3) より
fX,Y(x, y) = fX(x)× fY(y)
が成り立つことに注意する。このことは本文の (8.7) より X と Y が独立な確率変数であ ることを示している。言い換えると,X を一様分布に従う確率変数,それと独立に Y を 一様分布に従う確率変数とするとき,それらの組み (X, Y ) は (3) で与えられる2次元の 一様分布 fX,Y(x, y)に従うことになる。
もう少し現実的な例を考えてみよう。成人男性の体重 (kg) を x, 身長 (m) を y として2 次元の確率変数 (X, Y ) を考える。(X, Y ) の確率密度関数 fX,Y(x, y)を与えることができ れば, これから成人男性の体重の確率分布は X の周辺分布として
fX(x) =
∫ ∞
0
fX,Y(x, y)dy
により求めることができる。また成人男性の身長の確率分布も Y の周辺分布 fY(y) =
∫ ∞
0
fX,Y(x, y)dx
として与えられる。体重の分布や身長の分布はそれぞれ1次元の分布なので容易に描くこ とができる。(X, Y ) の同時確率密度関数を与えることは簡単でないかもしれないが,も し同時確率密度関数 fX,Y(x, y)を与えることができれば体重 X と身長 Y の関係を調べる ことができる。例えば,BMI は (体重)/(身長)2で与えられ,この値が 25 を超えるとき肥 満であると定義される。肥満の確率を求めようとすると
P (X/Y2 > 25) = P (X > 25Y2) =
∫ ∞
0
{ ∫ ∞
25y2
fX,Y(x, y)dx}dy
を計算すればよいことになる。このように (X, Y ) の同時確率密度関数を与えることがで きれば体重と身長(もしくは身長の2乗)との相関関係など2つの変数の関係性について 調べることができる。しかし同時確率密度関数を与えることはそれほど簡単ではない。一 つの方法は 8.4 節の発展的事項の中で紹介している2変量正規分布を利用することである。
p.146, 1 行:共分散の補足説明
2つの確率変数 X と Y について,それぞれの平均と分散が E[X] = µX, E[Y ] = µY, Var(X) = σ2X, Var(Y ) = σY2 で与えられているとする。(X, Y ) の同時確率密度関数は x-y 平 面上の関数であり,その等高線が図 2 のように描けている場合を考えよう。(µX, µY)を中心 に右上を A,左上を B,左下を C,右下を D とすると,(X, Y ) が A と C の領域にあるとき には (X −µX)(Y−µY) > 0, (X, Y )が B と D の領域にあるときには (X −µX)(Y −µY) < 0
となる。等高線が図 2 のように描けているときには,2次元の確率分布は X が大きけれ ば Y も大きくなるように分布しており,(X, Y ) は B, D の領域よりも A, C の領域に入る 確率が高くなるので,期待値 E[(X − µX)(Y − µY)]は正の値をとることになる。従って, 2つの確率変数 X と Y の関係を捉える指標として
σXY = Cov(X, Y ) = E[(X− µX)(Y − µY)]
0.02
0.04 0.06
0.08 0.1
0.12 0.14
0.16 0.18
µX
µY
A B
C D
図 2: 平面上の分布 を用いることができる。これを X と Y の共分散という。
第9章「ランダム標本と標本分布」
○ p.159, ランダム標本
母集団を確率分布もしくは確率モデルとし母集団から抽出される標本を確率変数の組で あるとする考え方は,最初は誰しも理解に苦しむところです。しかしこうした推測統計の 考え方を用いることによって,信頼区間を作ったり仮説検定を行うことができるようにな ります。そこで,教科書の本文に入る前に,内閣支持率の確率モデルを具体例にとって説 明してみたい。
母集団を全国の有権者全体とし内閣支持率の推測を行いたい場合を考える。そこでラン ダムに n 個のデータ x1, . . . , xnを抽出してみる。ここで
xi =
{ 1 内閣を支持するとき 0 内閣を支持しないとき
であり,内閣支持率は x =∑ni=1xi/nで推定される。ここまでの内容は記述統計です。デー タ x1, . . . , xnのとる値によって x は
0 n,
1 n,
2 n, . . . ,
k n, . . . ,
n− 1 n ,
n n
のどれかの値をとることになります。今,母集団から 100 回データをとってみたとします。 1回目に取られたデータ x(1)1 , . . . , x(1)n から作られる平均 x(1) = x
(1)
1 +· · · + x(1)n n
2回目に取られたデータ x(2)1 , . . . , x(2)n から作られる平均 x(2) = x
(2)
1 +· · · + x(2)n n
· · ·
k回目に取られたデータ x(k)1 , . . . , x(k)n から作られる平均 x(k)= x
(k)
1 +· · · + x(k)n n
· · ·
100回目に取られたデータ x(100)1 , . . . , x(100)n から作られる平均 x(100) = x
(100)
1 +· · · + x(100)n n
このとき,x(1), x(2), . . . , x(k), . . . , x(100)はそれぞれ 0
n, 1 n,
2 n, . . . ,
k n, . . . ,
n− 1 n ,
n n
のどれかの値をとることになるが,どの値も同程度の回数起こるとは考えにくい。x が 1/2に近い値の方が x = 0 や x = 1 などの端の値よりも高い頻度で起こることは容易に想 像がつく。
このような起こりやすさの傾向性を捉えるために推測統計の枠組みを導入する。推測統 計の枠組みでは,母集団はある確率モデルに従うと仮定します。内閣支持率の問題では, ベルヌーイ分布 Ber(p) を仮定するのが自然です。確率変数 X を
X =
{ 1 内閣を支持するとき 0 内閣を支持しないとき とし,
P (X = 1) = p, P (X = 0) = 1− p
となる確率分布をベルヌーイ分布といいます。(本文の p.115 を参照)これを一つの式で 表現すると
P (X = x) = px(1− p)1−x, x = 0, 1 となります。これを
f (x; p) = px(1− p)1−x, x = 0, 1
とも書きます。母集団はベルヌーイ分布という確率モデル f(x; p) に従っていることを大 前提にします。この母集団から無作為に抽出されたサイズ n の標本を X1, . . . , Xnとし,ラ ンダム標本と呼びます。推測統計の枠組みでは,各 Xiは
Xi =
{ 1 内閣を支持するとき 0 内閣を支持しないとき
なる確率変数で,母集団のベルヌーイ分布 P (Xi = xi) = f (xi; p), xi = 0, 1, に従います。 すなわち P (Xi = 1) = p, P (Xi = 0) = 1− p を満たしています。
n個の確率変数 X1, . . . , Xnがランダム標本であるとは,X1, . . . , Xnが互いに独立にベル ヌーイ分布に従っているという意味です。これは,X1, . . . , Xnare mutually independently and identically distributed as Ber(p)という意味ですから
X1, . . . , Xn, i.i.d.∼ Ber(p) もしくは
X1, . . . , Xn, i.i.d.∼ f(x; p) と表します。
母集団の内閣支持率 p は,標本平均 X = 1
n
∑n i=1
Xi = X1+· · · + Xn n
で推定するのが自然です。では標本平均はどのように確率変動するのでしょうか。 まず n 個の確率変数の和 X1+· · · + Xnについて考えてみましょう。本文の (9.4) で示 されているように,X1+· · · + Xnの期待値と分散は
E[X1+· · · + Xn] = np
Var(X1+· · · + Xn) = np(1− p)
となります。このことから,標本平均の期待値と分散は E[X] = p, Var(X) = p(1− p)
n
と計算できます。すなわち,標本平均 X は X の確率分布で期待値をとれば p になり,そ の分散は p(1 − p)/n となって n とともに小さくなっていくことがわかります。X の分散が nとともに小さくなっていくことは X が母集団の内閣支持率 p に近づいていくことが予想 されます。このことを数学的に定式化したものが確率収束という概念で,すべての c > 0 に対して
n→∞lim P (|X − p| < c) = 1
が成り立ちます。一般に標本平均 X が Xiの期待値 E[Xi]に確率収束することを大数の法 則といいます。(p.162 を参照)このようにして,推測統計の枠組みにおいて X1, . . . , Xn
を確率変数の組として捉えることにより標本平均 X の確率変動を評価することができる わけです。
それでは,標本平均 X の確率分布はどのように与えられるでしょうか。まず,p.116 の 内容から確率変数の和 X1+· · · + Xnは2項分布 Bin(n, p) に従います。すなわち
P (X1+· · · + Xn = k) = nCkpk(1− p)n−k, k = 0, . . . , n となります。このことから標本平均 X の確率分布は
P (X = k/n) = nCkpk(1− p)n−k, k = 0, . . . , n
で与えられることになりますが,この確率を評価するには計算機を用いるしかありませ ん。(p.164 を参照)そこで,n が大きいときに中心極限定理を用いて正規分布で近似する ことを考えます。中心極限定理を利用するには,
E[X] = p, Var(X) = p(1− p) n に基づいて X を標準化します。すなわち
X− p
√p(1− p)/n =
√n(X − p)
√p(1− p)
とおくと,n が大きいときにこの確率分布が標準正規分布 N (0, 1) に収束することを保証 するのが中心極限定理です。(p.168 を参照)n が大きいときに
X− p
√p(1− p)/n ∼ N (0, 1) であるから
X ∼ N(p,p(1− p) n
)
のように近似できることになります。
以上のような推測統計の枠組みでは,標本平均 X の推定精度を測ったり,母集団内閣 支持率 p の信頼区間を作ったり,母集団内閣支持率が以前の支持率 p0より上昇したかの 仮説 H0 : p = p0v.s. H1 : p > p0などを検定することはできます。
p.201の p の信頼区間は, n が大きいときに X− p
√
X(1− X)/n
∼ N (0, 1)
で近似できることを用ると,
P(√ |X − p| X(1− X)/n
≤ zα/2)= 1− α
が近似的に成り立ちます。ここで zα/2は標準正規分布の上側 100(α/2)% 点を表している。 この中身を p に関して解くと
[X−
√
X(1− X)/nzα/2, X +
√
X(1− X)/nzα/2]
なる区間が作れます。これを信頼係数 1 − α の p の信頼区間といいます。この信頼区間を 簡単に
X±
√
X(1− X) n zα/2
と表記することもあります。このように確率変数に基づいた標本平均 X の確率分布を考 えることによって,その誤差を見積もった信頼区間を構成することができるのです。そし て実際に観測されたデータに基づいて x を計算してそれを代入することによって信頼区間
x±
√x(1− x) n zα/2 を与えることができます。
○ p.168, 中心極限定理とその証明
定理 (中心極限定理) X1, X2, . . . , nを互いに独立な確率変数で,Xi ∼ (µ, σ2)とする。 このとき,次の分布収束が成り立つ。
n→∞lim P (
√n(X − µ)/σ ≤ x) =
∫ x
−∞
√1 2πe
−y2/2dy = Φ(x)
証明は次のように行う。Zi = (Xi−µ)/σ, i = 1, 2, . . . , n, とおくと,E[Zi] = 0, Var(Zi) = 1, E[Z] = 0, Var(Z) = n−1となる。このとき,
n→∞lim P (
√nZ ≤ z) = Φ(z)
を示せばよいことになる。√nZ = Z1/√n +· · · + Zn/√nと書けて,この積率母関数は M√nZ(t) = E[et(Z1/√n+···+Zn/√n)] =(E[e(t/√n)Z1])n
と書ける。積率母関数については, p.179 に説明が与えられている。Z1 の積率母関数を φ(θ) = E[eθZ1]とおくと,E[e(t/√n)Z1] = φ(t/√n)と表される。n が大きいとき φ(·) をテー
ラー展開すると,
φ(√t
n) = φ(0) +
√t nφ
′(0) + t2
2nφ
′′(0) + o(n−1)
となる。ただし,o(n−1)は無限小の記号で limn→∞n· o(n−1)) = 0を意味する。ここで, φ(0) = 1, φ′(0) = E[Z1] = 0, φ′′(0) = E[Z12] = Var(Z1) = 1に注意すると,
φ(√t
n) = 1 + t2
2n + o(n
−1)
と近似できる。ここで p.320 の e の定義から
n→∞lim
(1 + a n
)n
= ea が成り立つ。従って,
n→∞lim φ
√nZ(t) = lim n→∞
( 1 + t
2
2n + o(n
−1)
)n
= et2/2
に収束する。et2/2は標準正規分布 N (0, 1) の積率母関数であり,積率母関数の形と確率分 布とは1対1に対応するので,√nZ の分布は標準正規分布 N (0, 1) に収束することがわ かる。
○ p.178, 標本平均と標本分散の独立性の証明
定理 X1, . . . , Xnを正規母集団 N (µ, σ2)からのランダム標本とし,Xn = n−1∑ni=1Xi
とおくと,以下の3つの性質が成り立つ。 (1) Xnと∑ni=1(Xi− Xn)2は独立
(2) Xn∼ N (µ, σ2/n)
(3) ∑ni=1(Xi− Xn)2/σ2 ∼ χ2n−1
この証明は,通常,「現代数理統計学の基礎」(久保川著)の p.87 で示されているように, ヘルマート行列を用いると美しく証明することができる。ここでは,この行列を用いずに 数学的帰納法だけを使って示すことにする。
まず,Zi = (Xi − µ)/σ, i = 1, . . . , n, とし,Zn = n−1∑ni=1Zi, Vn2 = ∑ni=1(Zi− Zn)2 とおくと,定理の3つの性質は
(1) Znと Vn2は独立 (2) Zn∼ N (0, 1/n) (3) Vn2 ∼ χ2n−1
と書き直すことができる。n = 2 のときには,Z2 = (Z1+ Z2)/2は N (0, 1/2) に従い, V22 =(Z1−
Z1+ Z2
2 )2
+(Z2−
Z1+ Z2
2 )2
= 1
2(Z1− Z2)
2
となるので,Z1 − Z2 ∼ N (0, 2), すなわち (Z1− Z2)/√2 ∼ N (0, 1) より,V22 = {(Z1− Z2)/√2}2 ∼ χ21となる。また,
Cov(Z1+ Z2, Z1− Z2) = E[(Z1+ Z2)(Z1− Z2)] = E[Z12]− E[Z22] = 0
であるから,Z1+ Z2と Z1− Z2は無相関になり,「正規分布の場合には無相関であれば独 立になる」ので,Z1+ Z2と Z1− Z2は独立になる。従って,Z2と V22は独立になる。
次に,n のときに,上の (1), (2), (3) が成り立っていると仮定する。n + 1 のときに3つ の性質が成り立つことを示せばよい。ここで,次の性質が成り立つことに注意する。
(A) Zn+1 = 1 n + 1
∑n+1 i=1
Zi = 1
n + 1(Zn+1+ nZn) = Zn+ 1
n + 1(Zn+1− Zn) (B) Vn+12 = Vn2+ n
n + 1(Zn+1− Zn)
2
(A)は容易に確かめられる。(B) については Vn+12 =
∑n i=1
(Zi− Zn+1)2+ (Zn+1− Zn+1)2
=
∑n i=1
{(Zi− Zn)− 1
n + 1(Zn+1− Zn) }2
+ n
2
(n + 1)2(Zn+1− Zn)
2
と書けるので,これを変形していくと,(B) の等式が得られる。
(2) については,Zn+1 = Zn+1/(n + 1) + (n/(n + 1)Zn において,Zn+1/(n + 1) ∼ N (0, 1/(n + 1)2), (n/(n + 1)Zn∼ N (0, n/(n + 1)2)であることに注意すると,p.180 で与 えられた正規分布の再生性から, Zn+1∼ N (0, 1/(n + 1)) となることがわかる。
(1)については,(A), (B) の表現式に注意して, (B) の右辺の2つの項が Zn+1と独立に なることを示す。まず Vn2と (Zn, Zn+1)とが独立になることから, Vn2と Zn+1+ nZnが独 立になることがわかる。次に nE[Z2n] = n/n = 1に注意すると,
Cov(Zn+1− Zn, Zn+1+ nZn) =E[(Zn+1− Zn)(Zn+1+ nZn)]
=E[Zn+12 ] + nE[ZnZn+1]− E[ZnZn+1]− nE[Z2n] = 0 となり,Zn+1− Znと Zn+1+ nZnが独立になることがわかる。以上より,(1) が示される。
(3)については,(B) の表現式において, Zn+1−Zn∼ N (0, (n+1)/n), すなわち√n/(n + 1)(Zn+1− Zn)∼ N (0, 1) より,
n
n + 1(Zn+1− Zn)
2 ∼ χ21
となることがわかる。帰納法の仮定から Vn2 ∼ χ2n−1であるので,p.181 のカイ2乗分布の 再生性より
Vn+12 = χ2n−1+ χ21 ∼ χ2n が成り立つので,(3) が示される。
第10章「推定」
○ p.185 , p.186 の内容の補足
いま,X1, . . . , Xnがベルヌーイ分布 Ber(p) からのランダム標本,すなわち X1, . . . , Xn, i.i.d.∼ Ber(p)
とします。この場合,本文の θ は p に対応します。p の推定量を ˆp = ˆp(X1, . . . , Xn)と書き ます。
E[ˆp(X1, . . . , Xn)] = p
となるとき,ˆp を p の不偏推定量といいます。ˆp として標本平均 X を考えると E[X] = p より,X は p の不偏推定量になっていることがわかります。また X が p に確率収束する ことから X は p の一致推定量にもなっています。
○ p.187 最尤推定量の補足
いま,X1, . . . , Xnがベルヌーイ分布 Ber(p) からのランダム標本,すなわち X1, . . . , Xn, i.i.d.∼ Ber(p)
とします。この場合,本文の θ は p に対応します。
f (x; p) = px(1− p)1−x, x = 0, 1 とおくと,
X1, . . . , Xn, i.i.d.∼ f(x; p) と表すことができます。これを同時確率分布を用いて表すと,
P (X1 = x1, . . . , Xn= xn) = P (X1 = x1)× · · · × P (Xn = xn)
= f (x1; p)× · · · × f(xn; p) (4)
= p∑ni=1xi(1− p)n−∑ni=1xi
と書けることを意味することになります。ここで各 xiは xi = 0, 1の値をとります。これを L(p; X1, . . . , Xn) = p∑ni=1Xi(1− p)n−∑ni=1Xi
と書いて,尤度関数といいます。またこれの対数をとったもの
ℓ(p; X1, . . . , Xn) = log L(p; X1, . . . , Xn) = (
∑n i=1
Xi
)log p +(n−
∑n i=1
Xi
)log(1− p)
= nX log p + n(1− X) log(1 − p)
を対数尤度関数といいます。尤度関数もしくは対数尤度関数を最大にする p の値を最尤推 定量と呼びます。実際,対数尤度関数を p に関して微分すると
d
dpℓ(p; X1, . . . , Xn) = nX p −
n(1− X) 1− p となり,これを = 0 とおいて p に関して解くと
ˆ p = X
が得られます。これを p の最尤推定量といいます。(p.190 を参照)