Statistics 2016 typo

(1)

このファイルでは，「統計学」（東京大学出版会）の誤植訂正及び補足説明を与えています。

「統計学」訂正箇所

「統計学」について，表現の変更も含め訂正箇所を掲載します。ご指摘をお寄せ下さった皆様に感謝申し上げます。下の記述において，「-5 行」は，「下から 5 行目」を意味する。

○ 第 1 章 p.5, 12 行：Q = 31 を Q = 8.42 に訂正。 p.8, 9行：「回帰」を「回帰直線」に訂正

○ 第 2 章 p.27, -2 行：「標本平均」を「算術平均」に変更 p.29, 10行：文末に「（図 2.8)」を加える。

p.30, -7行：「このとき」を「Sx ̸= 0 のとき」に変更

p.35, -9行：「全体の平均，分散」と「全体の平均，標準偏差」に訂正 p.35, -5行：= 61 を = 60 に訂正

p.36, -7行：b3 > 3を b2 > 3に訂正，-5 行：b3 < 3を b2 < 3に訂正 p.42, -4行：(n⁻ⁿ^∑ⁿ_i=1を (n⁻¹^∑ⁿ_i=1に訂正

p.42, -1行：「この不等式から」を「(1), (2) から」に変更

○ 第 2 章 p.40, -7 行：2, 400 円を 4, 800 円に訂正

○ 第 3 章 p.49, 7 行：bi =_{x(1)+_{· · · + x}(j)_{}/(nx) を b}i =_{x(1)+_{· · · + x}(i)_{}/(nx) に訂正}

○ 第４章 p.75∼p.77 で与えられている相関係数の数値は小数点以下第３位を切り捨てた値を与えていますが，小数点以下第４位を四捨五入した値を与えると，rxy ⁼−0.845, rzx=_{−0.937, r}zy = 0.892となり，p.77 の最初の式は

r_xy|z = _√ ^r^xy ^{− r}^xz^r^yz 1_{− r}²_xz^√1_{− r}²_yz ⁼

−0.845 − (−0.937) × 0.892

√1_{− (−0.937)}²^√1_{− 0.892}² ⁼^−0.058

となります。最後の式は小数点以下第３位を四捨五入すると r_xy|z =−0.06 となります。

○ 第 5 章 p.89, 11 行：P (B | A^c⁾^{を次のように訂正} P (B _{| A}^c) = ^{P (A}

c _{| B)P (B)}

P (A^c) ⁼ 1 10

1 3^÷

19 30 ⁼

1 19

○ 第 5 章 p.90, -1 行：「背反」を「排反」に修正

○ 第 7 章 p.127, 8 行：f(x) の式について，右側の分母に 2 を入れる。

f (x) = ¹ σ^ϕ

(x − µ σ

)= _√¹ 2πσ ^exp

{−^(x^{− µ)}

2

2σ² }

○ 第 7 章 p.127, -10 行：命題 7.6 において，「標準正規分布 N (µ, σ²^{)」の「標準」を削除} する。

○ 第 7 章 p.130, 10 行，11 行：V ar(X) = β²V ar(Y ) = αβ²を V ar(X) = β²V ar(Z) = αβ²に訂正

(2)

○ 第８章 p.142, 1 行：f_{Y |X}(x_{|y) を f}_{Y |X}(y_{|x) に変更}

○ 第９章 p.171, 13 行以下の (9.10) 式の最初の２つの等式の右辺について，以下のように，２カ所の − を + に訂正

∑n i=1

(Xi_{− µ)}² =

∑n i=1

{(Xⁱ− X) + (X − µ)}²

=

∑n i=1

(Xi− X)²^{+ 2}

∑n i=1

(Xi− X)(X − µ) + n(X − µ)²

○ 第 9 章 p.176, 図 9.4 の中の n を m に訂正

○ 第 9 章 p.183, -1 行：「Wn平均」を，「Wnの平均」に訂正

○ 第 10 章 p.193, -6 行以下の式の２番目，３番目，４番目の等式の右辺について，以下のように，３カ所の − を + に訂正。

MSE(θ; ˆθ) =E[(ˆθ_{− θ)}²] = E[{(ˆθ − E[ˆθ]) + (E[ˆθ] − θ)}²^]

=E[(ˆθ_{− E[ˆθ])}²+ 2(ˆθ− E[ˆθ])(E[ˆθ] − θ) + (E[ˆθ] − θ)²^]

=E[(ˆθ_{− E[ˆθ])}²] + 2E[(ˆθ− E[ˆθ])(E[ˆθ] − θ)] + (E[ˆθ] − θ)²

○ 第 10 章 p.203, 5 行∼6 行：よりわかりやすい表現に変更する。

「もしこの推定誤差 |X − µ| をある定数 E 以下にしたいのであれば，(σ⁰^/^√^n)z^α/2≤ E, すなわち」を

「この推定誤差 |X − µ| をある定数 E 以下にしたい，すなわち P (|X − µ| ≤ E) = 1 − α

がなりたつためには，(σ0/^√n)zα/2≤ E を満たす必要がある。従って」に変更。

○ 第１０章 p.206, -4 行：「精度 n/σ²と 1/τ²の比で内分」を「分散 σ²/nと τ²の比で内分」に変更

○ 第１１章 p.212, 14 行：hyposesis を hypothesis に訂正

また，その下の 17 行：「H0は有意である」を「H0の検定は有意である」という表現に変更。同様に，p.221 の 4 行目，6 行目，p.233 の 4 行目，p.248 の 8 行目，p.252 の 9 行目， p.257の-12 行目，p.260 の 3 行目，p.261 の 2 行目についても，「H0は有意である」を「H0

の検定は有意である」という表現もしくは同等な表現に変更して下さい。

○ 第１１章 p.218, 1∼4 行：右辺の P (·) を P^µ=µ⁰⁽·) に変更同様に，その下の 9 行も P (·) を P^µ=µ⁰⁽·) に変更

○ 第１１章 p.218, -4 行：「ここの測定値」を「この例での測定値」に変更

○ 第１１章 p.219, 1 行：(σ/^√n)を (V/^√n)に変更

○ p.224, 1 行目は次の式に変更して下さい。

|x − y| >^√^p(1^ˆ − ˆp)^√^m⁻¹^{+ n}⁻¹^z^α/2 ^{= 0.100}

また，2 行目の「H0は有意でなく」を「この差は有意でなく」に訂正して下さい。

(3)

○ p.231 の-13 行目：「これを検定のサイズ」を「この確率を検定のサイズ」に変更。

○ 第１２章 p.239, 8 行：右辺の RSS は，斜体からローマン体に変更

○ 第１２章 p.240, -9 行：左辺の } を一つ削除して，(b^β− β)/{σ²^/Sxx}^1/2 ∼ N (0, 1) に訂正。

その下の -3 行：R = {(β, σ²^{) :}|b^β− β0|/{ˆσ²^/Sxx}^1/2 ≥ tn−2,α/2} に訂正

○ 第１２章 p.248, 13 行：「信頼区間」と「予測信頼区間」に変更

○第１２章 p.249, -1 行：



 y w_1y w2y



 =





1 x1 x2

x₁ w₁₁ w₁₂ x2 w21 w22







 β0

β₁ β2





と修正して下さい。同様に p.250 の 4 行目と 6 行目の次のように n を 1 に変更して下さい。







y = β0+ x1β1+ x2β2

w1y = x1β0+ w11β1+ w12β2

w2y = x2β0+ w21β1+ w22β2





1 x1 x2

x1 w11 w12

x2 w21 w22





−1

=





a11 a12 a13

a21 a22 a23

a31 a32 a33





○ p.251 の５行目，６行目，７行目，９行目に現れる aiiについては次のように ai+1,i+1

に変更して下さい。

βbi ∼ N (βi, σ²ai+1,i+1) ( bβi− β0,i)/(√ai+1,i+1σ)ˆ _{∼ t}_n−3

R =_{(y1, . . . , yn);_|bβi_{− β}0,i_|/(^√ai+1,i+1σ) > tˆ _n−3,α/2 C = [ bβi₋^√ai+1,i+1σtˆ _n−3,α/2, bβi+ √ai+1,i+1σtˆ _n−3,α/2]

○ 第 12 章第 12.4 節「分散分析」 p.257：

３行目：「自由度 (k, N − k)」を「自由度 (k − 1, N − k)」に修正。

９行目の表（本ページの２番目の表）については，最下欄の合計の数値に間違いがありますので，以下のように修正して下さい。

変動の種類自由度平方和平均平方 F 統計量群間変動 2 61.40 30.70 6.18 群内変動 27 134.10 4.97

合計 29 195.50

○ 第１２章 p.261, -6 行：E[u²_i]/Sxx = σ²/Sxxの部分を E[u²_i]/S_xx² = σ²/Sxxに訂正

○ 第１３章 p.269 の式 (13.5) については，次のように修正して下さい。 E(V²) = ^N

N _{− 1}^σ

2 N

(4)

○ 第１３章 p.271 の式 (13.7) については，等号無しで不等式が成り立ちます。

○ 第１３章 p.276 の式 (13.11) は次に変更

r(k) =

∑T

t=k+1^(y^t− y)(yt−k − y)

∑T

t=1^(y^t^{− y)}²

○ 第１３章 p.281, -3 行：pF(t) =^√PR(t)pP(t)を pF(t) =^√PL(t)pP(t)に変更

○ 第１４章 p.292, -2 行：「将来値 yt+h (h > 0) の予測値 y_t+h|t」に変更。

p.292, 15行：vv+2を vt+2に訂正，16 行：vv+1を vt+1に訂正，１７行：(vv+2^{+ ϕ}1^vt+2⁾

を (ϕ1vt+1+ vt+2)に訂正。

○ 付録 1 p.309, -1 行目の var(MS) を計算すると n − 1 で割った不偏分散の値が出力されます。

> var(MS) % 不偏分散 (n − 1 で割ったもの) p.310, 2行目についても以下のように説明を加えます。

> sd(MS) % 不偏分散 (n − 1 で割ったもの) の平方根による標準偏差 p.310, 15行目は以下のように変更して下さい。

> sum( (A-xm)*(A-xm))/n %A の標本分散 (n で割ったもの)

○ 付録１ p.311, -3 行：y を z に変更，すなわち

> reg2 <- glm(z ∼ 1+x1+x2, binomial(logit)) % ロジスティック回帰

○ 付録２ p.321, 6 行：(a)k = a(a− 1) · · · (a − k + 1) に訂正

○ 付録２ p.321, 7 行：nCkをaCkに訂正

○ 付録２ p.321, -6 行：「原点に対して」を削除して下さい。

○ 付録２ p.322, -2 行：次の形に訂正 d

dx f (x) g(x) ⁼

f^′(x)g(x)_{− f(x)g}^′(x) {g(x)}²

○ 付録２ p.324, 1 行：次の形に訂正

e^x =

∑∞ k=0

x^k k!

○ 付録２ p.327, -9 行：「行列の加法」に続く最初の２行の文章は行列の定義ですので，前項「ベクトルと行列について」の最後に移動。またそこに，「m = n のとき，n × n 行列を正方行列という。」を加えて，正方行列の定義を加えて下さい。

○ 付録２ p.329, -1 行：「例えば」の前に，「また S はすべての置換の集合を表す。」を加えて下さい。

(5)

「統計学」補足説明

（１）スキップの項

本書は，統計の面白さを感じてもらったり，推測統計の内容をすっきりした形で理解してもらうために，通常の統計学の教科書では扱わない内容も含まれています。学部１∼２年生の講義では以下の項目についてはスキップし，興味のある学生はその部分をお話しとして読み進めてもらうのがいいと思います。その部分の更なる詳しい説明については，数理統計学の本を参照して下さい。また下記の（２）も参考にして下さい。

「各章末の発展的事項」

「p.131 の生存時間解析の項」

「p144，-5 行目∼p.145, 5 行目の条件付き期待値の期待値の部分」

「p.149, -4 行目以降」

「p.142 の歪度統計量と尖度統計量の項」

「p.173 の順序統計量の項」

「p.189∼p.190 の最尤推定量の性質の項」

「p.195, 有効性の項」

「p.201, (2) 最尤推定量に基づいた信頼区間の項」

「p.224, 最尤推定量に基づいた検定の項」

「p.224, 尤度比検定の項」

「p.248, 12.3 節重回帰モデルの項」

（２）補足説明

教科書の内容の理解を深めるために，よりわかりやすい説明を与えていますので参考にして下さい。

第２章「分布の特徴を探る」

○ p.24, メディアンの性質 (2)

「すべての定数 a に対して

∑n i=1

|xi− a| ≥

∑n i=1

|xi− medx|

なる不等式が成り立つ。メディアンは，各点 xiと a との長さの絶対値 |xi− a| の和を最小にする解を与える。」

(証明) を補足しておきます。

(a) 自然数 m に対して n = 2m + 1 の場合. このとき，メディアンは x(m+1)になり，

2m+1_∑ i=1

|x(i)− x(m+1)| = −

∑m i=1

(x(i)− x(m+1)) +

2m+1_∑ i=m+2

(x(i)− x(m+1))

= ₋

∑m i=1

x(i)+

2m+1_∑ m+2

x(i)

(6)

となる。この値と^∑^2m+1_i=1 _|x(i)− a| の値との差を求めて，その差が非負であることを示せばよい。例えば，x(m+1) _{≤ a < x}(m+2)の範囲にある場合を考えてみる。この場合，i ≤ m + 1 に対しては x(i)− a ≤ 0 であり，i ≥ m + 2 に対しては x(i)− a ≥ 0 となるので

2m+1_∑ i=1

|x(i)− a| = −

m+1∑

i=1

(x_(i)_{− a) +}

2m+1_∑ i=m+2

(x_(i)_{− a)}

= ₋

m+1∑

i=1

x(i)+ (m + 1)a +

2m+1_∑ m+2

x(i)_{− ma}

= ₋

∑m i=1

x(i)+

2m+1_∑ m+2

x(i)+ a_{− x}(m+1)

と書ける。従って，^∑^2m+1_i=1 _|x(i)− a| −^∑^2m+1i=1 |x(i)− x(m+1)| = a − x(m+1) ≥ 0 が成り立つことがわかる。その他の範囲の a に対して同様の方法で不等式を示すことができる。

(b)自然数 m に対して n = 2m の場合. このとき，メディアンは medx = (x(m)+x(m+1))/2 になり，x(m) < medx < x(m+1)であるから

∑2m i=1

|x⁽ⁱ⁾− med^x| = −

∑m i=1

(x(i)_{− med}x) +

∑2m i=m+1

(x(i)_{− med}x)

= ₋

∑m i=1

x(i)+

∑2m m+1

x(i)

となる。この値と^∑^2m_i=1_|x(i)− a| の値との差を求めて，その差が非負であることを示せばよい。

例えば，x(m) _{≤ a < x}(m+1)の範囲にある場合を考えてみる。この場合，i ≤ m に対しては x(i)− a ≤ 0 であり，i ≥ m + 1 に対しては x(i)− a ≥ 0 となるので

∑2m i=1

|x(i)− a| = −

∑m i=1

(x_(i)_{− a) +}

∑2m i=m+1

(x_(i)_{− a)}

= ₋

∑m i=1

x(i)+

∑2m m+1

x(i)

となり，従って，

∑2m i=1

|x(i)− a| =

∑2m i=1

|x(i)− medx| ⁽¹⁾ なる等号が成り立つことがわかる。

次に x_(m−1) _{≤ a < x}(m)の範囲にある場合を考えてみる。この場合，i ≤ m − 1 に対し

ては x(i)− a ≤ 0 であり，i ≥ m に対しては x(i)− a ≥ 0 となるので

∑2m i=1

|x⁽ⁱ⁾− a| = −

m−1_∑ i=1

(x(i)_{− a) +}

∑2m i=m

(x(i)_{− a)}

= ₋

m−1_∑ i=1

x_(i)+

∑2m i=m

x_(i)_{− 2a}

= ₋

∑m i=1

x(i)+

∑2m m+1

x(i)+ 2_{x(m)− a}

(7)

と書ける。従って，^∑^2m_i=1_|x(i)− a| −^∑^2mi=1|x(i)− medx| = 2{x(m)− a} ≥ 0 が成り立つことがわかる。その他の範囲の a に対して同様の方法で不等式を示すことができる。

ここで注意することは，(1) より，x(m) ≤ a < x(m+1)なるすべての a が^∑^2m_i=1_|x(i)− a| を最小にする解を与えている点である。従って n = 2m のときにもメディアンは^∑^2m_i=1_|x(i)−a|

を最小する解であるが唯一でないことがわかる。 □

○ p.30, データに関するチェビシェフの不等式

k_{を正の定数とし，|x}i_{− x| ≥ kS}xを満たすようなデータ xiの個数を nkをする。このとき，常に

nk

n ^≤ 1

k² ^もしくは

n_{− n}k

n ^{≥ 1 −} 1 k² が成り立つ。これをデータに関するチェビシェフの不等式という。

例えば，k = 3 のとき，区間

[x_{− 3S}x, x + 3Sx] に入るデータの個数の割合は

n_{− n}3

n ^{≥ 1 −} 1 9 ⁼

8

9 ^{= 0.89}

となるので，全データの約９割以上がその区間に入ることを意味する。

○ p.31, 平均，メディアン，標準偏差の間の関係

平均，メディアン，標準偏差の間には必ず |x − medx| < Sxなる関係が成り立つ。すなわち，メディアンは

x_{− S}x < medx < x + Sx

を満たす。例えば，x = 4, Sx = 2のときには，メディアンは 2 < medx < 6の範囲にある。従って, x = 4, Sx = 2, medx = 1.5であるようなデータは存在しないことになる。

○ p.38, データの分位点

p.38 の発展的事項の中で分位点の合理的な定義を与えている。0 < α < 1 に対して， q_α^L= (xi ≤ x となる xiの個数が nα以上となるような x の最小値)

q_α^R= (xi ≥ x となる xiの個数が n(1 − α) 以上となるような x の最大値) とおく。このとき，下側 100α% 点 q(α) は

q_α = ^q

αL^{+ q}α^R

2 ⁽²⁾

により定義される。

順序データを x(1) ^{< x}(2) ^<· · · < x(n)としタイ（等しい値）はないものとする。例えば α = 0.5の場合を考えよう。

n = 4のとき，nα = 2 より, xi ≤ x となる xiの個数が 2 以上になるには x は x ≥ x(2)でなければならないので，最小の x は x(2)になる。また n(1 − α) = 2 より，xⁱ ≥ x となる xiの個数が 2 以上になるには x は x ≤ x⁽³⁾でなければならないので，最大の x は x(3)になる。従って，q0.5 = (x(2)+ x(3))/2となる。

(8)

n = 5のとき，nα = 2.5 より, xi _{≤ x となる x}iの個数が 3 以上になるには x は x ≥ x⁽³⁾ でなければならないので，最小の x は x(3)になる。また n(1 − α) = 2.5 より，xi ≥ x となる xiの個数が 3 以上になるには x は x ≤ x(3)でなければならないので，最大の x は x(3)

になる。従って，q0.5 = x(3)となる。

一般に，nα = k で k が自然数のとき，xi ≤ x となる xiの個数が k 以上になるには x は x_{≥ x}_(k)でなければならないので，最小の x は x(k)になる。また n(1 − α) = n − k より， xi _{≥ x となる x}iの個数が n − k 以上になるには x は x ≤ x^(k+1)でなければならないので，最大の x は x(k+1)になる。従って，

q_α= ^x^(nα)^{+ x}^(nα+1) 2

となる。nα が自然数でなく，nα を超えない最大の自然数を [nα] で表し，これを k とする。これをガウス記号といい，k ≤ nα < k + 1 を満たす自然数 k を意味する。このとき， xi ≤ x となる xiの個数が k + 1 以上になるには x は x ≥ x^(k+1)でなければならないので，最小の x は x(k+1)になる。また n(1 − α) を超えない最大の自然数 [n(1 − α)] は，[nα] = k に対して n − k ≥ n − nα > n − k − 1 より，n − k − 1 となることに注意すると，xⁱ ≥ x となる xiの個数が n − k 以上になるには x は x ≤ x^(k+1)でなければならないので，最大の x は x(k+1)になる。従って，

qα = x(k+1)= x([nα]+1)

となる。

例えば α = 0.5 の場合，n が奇数のときには [nα] = (n − 1)/2 となり，n が偶数のときには nα = n/2 より，q0.5はメディアンに一致することがわかる。

例えば，第１四分位点 (α = 0.25) については，m を自然数とすると，n = 4m に対しては n/4 = m より q0.25 ^{= (x}(m) ^{+ x}(m+1))/2, n = 4m + 1, 4m + 2, 4m + 3に対しては [n/4] = mより q0.25 = x(m+1) となる。

第４章「変数間の関係性をみる」

○ p.60, 相関係数とコサインの関係

相関係数の性質 (4) において次の性質をあげている。

a _{= (a}₁, . . . , an) = (x1− x, . . . , xⁿ− x), b = (b¹, . . . , bn) = (y1− y, . . . , yⁿ− y) とおき， 2つの n-次元ベクトル a, b のなす角を θ とする。このとき，相関係数は

rxy = cos(θ)

と表される。この性質を用いれば，その上の (3) の性質を容易に確認することができる。すなわち，−1 ≤ cos(θ) ≤ 1 より，−1 ≤ rxy ≤ 1 を導くことができる。また，等号 rxy = 1 が成り立つことは θ = 0 であり，このことは a と b が同方向のベクトルであることを意味するので，ある t > 0 に対して b = ta，すなわち yi− y = t(xi− x) が成り立つ。また等号 rxy =−1 が成り立つことは θ = π であり，このことは a と b が逆方向のベクトルであることを意味するので，ある t < 0 に対して b = ta，すなわち yi_{− y = t(x}i _{− x) が成り}

立つ。

第５章「確率の基礎」

(9)

○ p.90, 記号の説明

記号 ∪ⁿk=1^B^k^{= Ω}^{は B}¹∪ · · · ∪ Bn= Ωを意味する。

第６章「確率分布と期待値」

○ p.100, 確率分布の分位点

連続な確率変数 X の確率密度関数を f(x), 確率分布関数を F (x) をすると F (x) = P (X _{≤ x) =}

∫ x

−∞

f (t)dt, −∞ < x < ∞

と表される。0 ≤ F (x) ≤ 1 であり，limx→−∞F (x) = 0, lim_x→∞F (x) = 1である。0 < y < 1となる y に対して

y = F (x)

となる x を分位点といい，F (x) の逆関数を用いて x = F⁻¹(y)と表される。

分位点は信頼区間や仮説検定において重要である。例えば，標準正規分布の確率密度関数を

ϕ(x) = _√¹ 2π^e

−x²^/2_, −∞ < x < ∞ とし，その確率分布関数を

Φ(x) =

∫ x

−∞

ϕ(z)dz

で表すとき，y の分位点は y = Φ(x) すなわち x = Φ⁻¹(y)となる。 1_{− Φ(x) =}

∫ _∞

x

ϕ(z)dz より，これは上側の確率を表す。特に

α = 1_{− Φ(z}α) =

∫ _∞

zα

ϕ(z)dz

となる zαを上側 100α% 点といい，信頼区間や仮説検定において頻繁に登場する。

○ p.106, 確率のチェビシェフの不等式

確率変数 X の平均を µ = E[X], 分散を V ar(X) = σ²とすると，チェビシェフの不等式 P (|X − µ| > kσ) ≤ ¹

k²^, ^{P (}|X − µ| ≤ kσ) ≥ 1 − ¹ k² が成り立つ。

例えば，k = 3 とおくと，P (|X − µ| ≤ 3σ) ≥ 1 − ¹₉ ^{= 8/9}であるから, どんな確率分布もほぼ９割は

µ− 3σ ≤ X ≤ µ + 3σ の間に入ることを意味する。

第８章「多変数の確率分布」

○ p.137, 10 行：２次元分布の例（離散分布の場合）

(10)

y = FX(x)

x = F_X⁻¹^(y)

F_X(x)

y

F_X⁻¹(y)

図 1: 分位点離散分布の場合の２次元の確率分布を考えてみよう。

例えば，ある法案が国会で議論されているとき，その法案の賛否に関して夫婦の間で同じ傾向性があるか否かを検証する確率モデルを考えてみる。夫婦のうち夫の賛否についての確率変数 X は

X =

{ 1 夫が法案に賛成 0 夫が法案に反対と表され，妻の賛否についての確率変数 Y は

Y =

{ 1 妻が法案に賛成 0 妻が法案に反対と書かれる。このとき (X, Y ) は２次元の確率変数になり，

(X, Y ) =











(1, 1) 夫・妻ともに法案に賛成 (1, 0) 夫は賛成，妻は反対 (0, 1) 夫は反対，妻は賛成 (0, 0) 夫・妻ともに反対

となる。今，(X, Y ) = (1, 1) となる確率が P (X = 1, Y = 1) = 0.4, 同様に P (X = 1, Y = 0) = 0.2, P (X = 0, Y = 1) = 0.1, P (X = 0, Y = 0) = 0.3で与えられているとする。これを (X, Y ) の同時確率分布という。これを表で表すと

X_\Y 1 0 計 1 0.4 0.2 0.6 0 0.1 0.3 0.4 計 0.5 0.5 1 と書ける。表の中で横に加えた合計は

P (X = 1) = P (X = 1, Y = 1) + P (X = 1, Y = 0) = 0.4 + 0.2 = 0.6 P (X = 0) = P (X = 0, Y = 1) + P (X = 0, Y = 0) = 0.1 + 0.3 = 0.4

(11)

となり，それぞれ X = 1, X = 0 となる確率 P (X = 1), P (X = 0) を表している。これを Xの周辺確率という。同様にして，表の中で縦に加えた合計は

P (Y = 1) = P (X = 1, Y = 1) + P (X = 0, Y = 1) = 0.4 + 0.1 = 0.5 P (Y = 0) = P (X = 1, Y = 0) + P (X = 0, Y = 0) = 0.2 + 0.3 = 0.5

となり，それぞれ Y = 1, Y = 0 となる周辺確率 P (Y = 1), P (Y = 0) を表している。 X の周辺確率 P (X = 1) = 0.6, P (X = 0) = 0.4 を眺めると，夫婦のうち夫の確率分布をみることができ，法案に賛成する確率が高いことがわかる。一方，Y の周辺確率 P (Y = 1) = 0.5, P (Y = 0) = 0.5を眺めると，夫婦のうち妻の確率分布をみることができ，法案の賛否は同程度の確率であることがわかる。しかし，X 及び Y の周辺分布だけでは夫婦の間の関係を調べることができない。夫婦がともに同意見になる傾向があるかなど夫婦の間の関係を捉えるには X と Y の同時確率分布 P (X = x, Y = y) が必要になることがわかる。

一般に，X と Y の同時確率分布が

X_\Y 1 0 計 1 p11 p10 p_1· 0 p01 p00 p_0· 計 p_·1 p_·0 1

で与えられるとしよう。すなわち，P (X = 1, Y = 1) = p11, P (X = 1, Y = 0) = p10, P (X = 0, Y = 1) = p01, P (X = 0, Y = 0) = p00であり，

p_1·= p11+ p10, p_0·= p01+ p00, p_1·+ p_0·= 1 p_·1= p₁₁+ p₀₁, p_·0= p₁₀+ p₁₀, p_·1+ p_·0= 1

が成り立つ。X と Y の平均はそれぞれ µX = E[X] = 1_{× p}_1·+ 0_{× p}_0·= p_1·, µY = E[Y ] = 1_{× p}_·1+ 0_{× p}_·0 = p_·1となる。また X と Y の共分散 Cov(X, Y ) = E[(X − µX)(Y _{− µ}Y)] は (8.11) より

Cov(X, Y ) = E[XY ]− E[X] × E[Y ] と書ける。詳しくは次の節 (8.2 節) で解説されています。

E[XY ] = 1_{× 1 × p}11+ 1_{× 0 × p}10+ 0_{× 1 × p}01+ 0_{× 0 × p}00

= p₁₁ となるので，

Cov(X, Y ) = p11− p1·× p·1

となることがわかる。

上の例において法案の賛否に関して夫と妻の間に関係がないという仮定は，X と Y の確率分布が独立であることを意味する。独立性については次の節 (8.2 節) で説明することになるが，X と Y が独立に確率分布するとは

p11= p_1·_{× p}_·1, p10 = p_1·_{× p}_·0 p01= p_0·_{× p}_·1, p00 = p_0·_{× p}_·0

(12)

が成り立つことをいう。これを簡単に

pij = p_i·_{× p}_·j, i = 1, 0, j = 1, 0

と書くことができる。上の例では，X と Y が独立のときには２次元の確率分布は X_\Y 1 0 計

1 0.3 0.3 0.6 0 0.2 0.2 0.4 計 0.5 0.5 1

と書けることになる。２次元の確率分布において興味があるのが，X と Y の間に関係があるか，因果関係があるかなどの独立性の検定である。すなわち，X と Y が独立であるとう仮説

H₀ : p_ij = p_i·_{× p}_·j, i = 1, 0, j = 1, 0

をデータから検定する問題である。具体的な方法は 11.4 節で与えられているので参照してほしい。

○ p.141, 例 8.4 の前：２次元分布の例（連続分布の場合）

7.2.1節で区間 [0, 1] 上の一様分布を学んだ。これを２次元の x-y 平面上に拡張すると，区間 [0, 1] 上の確率分布は正方形 [0, 1] × [0, 1] 上の確率分布を考えることになり，その正方形上の点 (x, y) に対して

f_X,Y(x, y) =

{ 1 0≤ x ≤ 1, 0 ≤ y ≤ 1 のとき 0 その他のとき

となる一様分布が考えられる。指示関数を I[0,1](x) =

{ 1 0 ≤ x ≤ 1 のとき 0 その他のとき I[0,1](y) =

{ 1 0 ≤ y ≤ 1 のとき 0 その他のときと定義すると，

fX,Y(x, y) = I[0,1](x)_{× I}[0,1](y) (3) と表されることがわかる。これを y に関して積分すると

f_X(x) =

∫ 1 0

f_X,Y(x, y)dy = I_[0,1](x)_×

∫ 1 0

I_[0,1](y)dy = I_[0,1](x) となり，x 軸の区間 [0, 1] 上の一様分布になる。同様にして x に関して積分すると

fY(y) =

∫ 1 0

fX,Y(x, y)dx =

∫ 1 0

I[0,1](x)dx_{× I}[0,1](y) = I[0,1](y)

となり，y 軸の区間 [0, 1] 上の一様分布になる。fX(x)をさらに x に関して積分すると

∫1

0 ^f^X^{(x)dx =}

∫1

0 ^I^[0,1]^{(x)dx = 1}^{となる。すなわち}

∫ 1 0

{ ∫ ¹

0

f_X,Y(x, y)dy^}dx =

∫ 1 0

f_X(x)dx = 1

(13)

が成り立つので，fX,Y(x, y)は２次元の同時確率密度関数になることがわかる。また fX(x), fY(y)はそれぞれ X, Y の周辺確率密度関数である。(3) より

fX,Y(x, y) = fX(x)_{× f}Y(y)

が成り立つことに注意する。このことは本文の (8.7) より X と Y が独立な確率変数であることを示している。言い換えると，X を一様分布に従う確率変数，それと独立に Y を一様分布に従う確率変数とするとき，それらの組み (X, Y ) は (3) で与えられる２次元の一様分布 fX,Y(x, y)に従うことになる。

もう少し現実的な例を考えてみよう。成人男性の体重 (kg) を x, 身長 (m) を y として２次元の確率変数 (X, Y ) を考える。(X, Y ) の確率密度関数 fX,Y(x, y)を与えることができれば, これから成人男性の体重の確率分布は X の周辺分布として

f_X(x) =

∫ _∞

0

f_X,Y(x, y)dy

により求めることができる。また成人男性の身長の確率分布も Y の周辺分布 fY(y) =

∫ _∞

0

fX,Y(x, y)dx

として与えられる。体重の分布や身長の分布はそれぞれ１次元の分布なので容易に描くことができる。(X, Y ) の同時確率密度関数を与えることは簡単でないかもしれないが，もし同時確率密度関数 fX,Y(x, y)を与えることができれば体重 X と身長 Y の関係を調べることができる。例えば，BMI は (体重)/(身長)²で与えられ，この値が 25 を超えるとき肥満であると定義される。肥満の確率を求めようとすると

P (X/Y² > 25) = P (X > 25Y²) =

∫ _∞

0

{ ∫ ^∞

25y²

fX,Y(x, y)dx^}dy

を計算すればよいことになる。このように (X, Y ) の同時確率密度関数を与えることができれば体重と身長（もしくは身長の２乗）との相関関係など２つの変数の関係性について調べることができる。しかし同時確率密度関数を与えることはそれほど簡単ではない。一つの方法は 8.4 節の発展的事項の中で紹介している２変量正規分布を利用することである。

p.146, 1 行：共分散の補足説明

2つの確率変数 X と Y について，それぞれの平均と分散が E[X] = µX, E[Y ] = µY, Var(X) = σ²_X, Var(Y ) = σ_Y² で与えられているとする。(X, Y ) の同時確率密度関数は x-y 平面上の関数であり，その等高線が図 2 のように描けている場合を考えよう。(µX, µY)を中心に右上を A，左上を B，左下を C，右下を D とすると，(X, Y ) が A と C の領域にあるときには (X −µX^)(Y−µY) > 0, (X, Y )が B と D の領域にあるときには (X −µX^)(Y −µY^{) < 0}

となる。等高線が図 2 のように描けているときには，２次元の確率分布は X が大きければ Y も大きくなるように分布しており，(X, Y ) は B, D の領域よりも A, C の領域に入る確率が高くなるので，期待値 E[(X − µX^)(Y − µY^)]は正の値をとることになる。従って，２つの確率変数 X と Y の関係を捉える指標として

σXY = Cov(X, Y ) = E[(X_{− µ}X)(Y _{− µ}Y)]

(14)

0.02

0.04 0.06

0.08 0.1

0.12 0.14

0.16 0.18

µX

µY

A B

C D

図 2: 平面上の分布を用いることができる。これを X と Y の共分散という。

第９章「ランダム標本と標本分布」

○ p.159, ランダム標本

母集団を確率分布もしくは確率モデルとし母集団から抽出される標本を確率変数の組であるとする考え方は，最初は誰しも理解に苦しむところです。しかしこうした推測統計の考え方を用いることによって，信頼区間を作ったり仮説検定を行うことができるようになります。そこで，教科書の本文に入る前に，内閣支持率の確率モデルを具体例にとって説明してみたい。

母集団を全国の有権者全体とし内閣支持率の推測を行いたい場合を考える。そこでランダムに n 個のデータ x1, . . . , xnを抽出してみる。ここで

xi =

{ 1 内閣を支持するとき 0 内閣を支持しないとき

であり，内閣支持率は x =^∑ⁿ_i=1xi/nで推定される。ここまでの内容は記述統計です。データ x1, . . . , xnのとる値によって x は

0 n^,

1 n^,

2 n^{, . . . ,}

k n^{, . . . ,}

n_{− 1} n ^,

n n

のどれかの値をとることになります。今，母集団から 100 回データをとってみたとします。１回目に取られたデータ x⁽¹⁾₁ , . . . , x⁽¹⁾n から作られる平均 x⁽¹⁾ = ^x

(1)

1 ⁺· · · + x⁽¹⁾ⁿ n

2回目に取られたデータ x⁽²⁾₁ , . . . , x⁽²⁾n から作られる平均 x⁽²⁾ = ^x

(2)

1 ⁺· · · + x⁽²⁾ⁿ n

· · ·

k回目に取られたデータ x^(k)₁ , . . . , x^(k)n から作られる平均 x^(k)= ^x

(k)

1 ⁺· · · + x^(k)ⁿ n

· · ·

100回目に取られたデータ x⁽¹⁰⁰⁾₁ , . . . , x⁽¹⁰⁰⁾n から作られる平均 x⁽¹⁰⁰⁾ = ^x

(100)

1 ⁺· · · + x⁽¹⁰⁰⁾ⁿ n

このとき，x⁽¹⁾, x⁽²⁾, . . . , x^(k), . . . , x⁽¹⁰⁰⁾はそれぞれ 0

n^, 1 n^,

2 n^{, . . . ,}

k n^{, . . . ,}

n_{− 1} n ^,

n n

(15)

のどれかの値をとることになるが，どの値も同程度の回数起こるとは考えにくい。x が 1/2に近い値の方が x = 0 や x = 1 などの端の値よりも高い頻度で起こることは容易に想像がつく。

このような起こりやすさの傾向性を捉えるために推測統計の枠組みを導入する。推測統計の枠組みでは，母集団はある確率モデルに従うと仮定します。内閣支持率の問題では，ベルヌーイ分布 Ber(p) を仮定するのが自然です。確率変数 X を

X =

{ 1 内閣を支持するとき 0 内閣を支持しないときとし，

P (X = 1) = p, P (X = 0) = 1_{− p}

となる確率分布をベルヌーイ分布といいます。（本文の p.115 を参照）これを一つの式で表現すると

P (X = x) = p^x(1_{− p)}^1−x, x = 0, 1 となります。これを

f (x; p) = p^x(1_{− p)}^1−x, x = 0, 1

とも書きます。母集団はベルヌーイ分布という確率モデル f(x; p) に従っていることを大前提にします。この母集団から無作為に抽出されたサイズ n の標本を X1, . . . , X_nとし，ランダム標本と呼びます。推測統計の枠組みでは，各 Xiは

Xi =

{ 1 内閣を支持するとき 0 内閣を支持しないとき

なる確率変数で，母集団のベルヌーイ分布 P (Xi = xi) = f (xi; p), xi = 0, 1, に従います。すなわち P (Xi = 1) = p, P (Xi = 0) = 1− p を満たしています。

n個の確率変数 X1, . . . , Xnがランダム標本であるとは，X1, . . . , Xnが互いに独立にベルヌーイ分布に従っているという意味です。これは，X1, . . . , Xnare mutually independently and identically distributed as Ber(p)という意味ですから

X1, . . . , Xn, i.i.d._{∼ Ber(p)} もしくは

X1, . . . , Xn, i.i.d._{∼ f(x; p)} と表します。

母集団の内閣支持率 p は，標本平均 X = ¹

n

∑n i=1

X_i = ^X¹⁺^{· · · + X}ⁿ n

で推定するのが自然です。では標本平均はどのように確率変動するのでしょうか。まず n 個の確率変数の和 X1⁺· · · + Xnについて考えてみましょう。本文の (9.4) で示されているように，X1+_{· · · + X}nの期待値と分散は

E[X1+_{· · · + X}n] = np

Var(X1+_{· · · + X}n) = np(1_{− p)}

(16)

となります。このことから，標本平均の期待値と分散は E[X] = p, Var(X) = ^p(1^{− p)}

n

と計算できます。すなわち，標本平均 X は X の確率分布で期待値をとれば p になり，その分散は p(1 − p)/n となって n とともに小さくなっていくことがわかります。X の分散が nとともに小さくなっていくことは X が母集団の内閣支持率 p に近づいていくことが予想されます。このことを数学的に定式化したものが確率収束という概念で，すべての c > 0 に対して

n→∞lim ^{P (}|X − p| < c) = 1

が成り立ちます。一般に標本平均 X が Xiの期待値 E[Xi]に確率収束することを大数の法則といいます。（p.162 を参照）このようにして，推測統計の枠組みにおいて X1, . . . , Xn

を確率変数の組として捉えることにより標本平均 X の確率変動を評価することができるわけです。

それでは，標本平均 X の確率分布はどのように与えられるでしょうか。まず，p.116 の内容から確率変数の和 X1⁺· · · + Xnは２項分布 Bin(n, p) に従います。すなわち

P (X₁+_{· · · + X}_n = k) = _nC_kp^k(1_{− p)}^n−k, k = 0, . . . , n となります。このことから標本平均 X の確率分布は

P (X = k/n) = nCkp^k(1_{− p)}^n−k, k = 0, . . . , n

で与えられることになりますが，この確率を評価するには計算機を用いるしかありません。（p.164 を参照）そこで，n が大きいときに中心極限定理を用いて正規分布で近似することを考えます。中心極限定理を利用するには，

E[X] = p, Var(X) = ^p(1^{− p)} n に基づいて X を標準化します。すなわち

X_{− p}

√p(1_{− p)/n} ⁼

√n(X _{− p)}

√p(1_{− p)}

とおくと，n が大きいときにこの確率分布が標準正規分布 N (0, 1) に収束することを保証するのが中心極限定理です。（p.168 を参照）n が大きいときに

X_{− p}

√p(1_{− p)/n} ^{∼ N (0, 1)} であるから

X _{∼ N}⁽p,^p(1^{− p)} n

)

のように近似できることになります。

以上のような推測統計の枠組みでは，標本平均 X の推定精度を測ったり，母集団内閣支持率 p の信頼区間を作ったり，母集団内閣支持率が以前の支持率 p0より上昇したかの仮説 H0 : p = p0v.s. H1 : p > p0などを検定することはできます。

(17)

p.201の p の信頼区間は, n が大きいときに X_{− p}

√

X(1_{− X)/n}

∼ N (0, 1)

で近似できることを用ると，

P⁽_√ ^{|X − p|} X(1_{− X)/n}

≤ z^α/2⁾^{= 1}− α

が近似的に成り立ちます。ここで zα/2は標準正規分布の上側 100(α/2)% 点を表している。この中身を p に関して解くと

[X₋

√

X(1_{− X)/nz}_α/2, X +

√

X(1_{− X)/nz}_α/2^]

なる区間が作れます。これを信頼係数 1 − α の p の信頼区間といいます。この信頼区間を簡単に

X_±

√

X(1_{− X)} n ^z^α/2

と表記することもあります。このように確率変数に基づいた標本平均 X の確率分布を考えることによって，その誤差を見積もった信頼区間を構成することができるのです。そして実際に観測されたデータに基づいて x を計算してそれを代入することによって信頼区間

x_±

√x(1_{− x)} n ^z^α/2 を与えることができます。

○ p.168, 中心極限定理とその証明

定理 (中心極限定理) X1, X2, . . . , nを互いに独立な確率変数で，Xi _{∼ (µ, σ}²)とする。このとき，次の分布収束が成り立つ。

n→∞lim ^{P (}

√n(X − µ)/σ ≤ x) =

∫ x

−∞

√1 2π^e

−y²^/2_{dy = Φ(x)}

証明は次のように行う。Zi ^{= (X}i−µ)/σ, i = 1, 2, . . . , n, とおくと，E[Zi] = 0, Var(Z_i) = 1, E[Z] = 0, Var(Z) = n⁻¹となる。このとき，

n→∞lim ^{P (}

√nZ ≤ z) = Φ(z)

を示せばよいことになる。^√nZ = Z1/^√n +_{· · · + Z}n/^√nと書けて，この積率母関数は M^√_nZ(t) = E[e^t(Z¹^/^√^n+···+Zⁿ^/^√ⁿ⁾] =⁽E[e^(t/^√^n)Z¹]⁾ⁿ

と書ける。積率母関数については, p.179 に説明が与えられている。Z1 の積率母関数を φ(θ) = E[e^θZ¹]とおくと，E[e^(t/^√^n)Z¹] = φ(t/^√n)と表される。n が大きいとき φ(·) をテー

(18)

ラー展開すると，

φ(_√^t

n^{) = φ(0) +}

√t n^φ

′_{(0) +} ^t²

2n^φ

′′_{(0) + o(n}−1₎

となる。ただし，o(n⁻¹)は無限小の記号で lim_n→∞n_{· o(n}⁻¹)) = 0を意味する。ここで， φ(0) = 1, φ^′(0) = E[Z1] = 0, φ^′′(0) = E[Z₁²] = Var(Z1) = 1に注意すると，

φ(_√^t

n^{) = 1 +} t²

2n ^{+ o(n}

−1₎

と近似できる。ここで p.320 の e の定義から

n→∞lim

(1 + ^a n

)n

= e^a が成り立つ。従って，

n→∞lim ^φ

√nZ^{(t) = lim} n→∞

( 1 + ^t

2

2n ^{+ o(n}

−1₎

)n

= e^t²^/2

に収束する。e^t²^/2は標準正規分布 N (0, 1) の積率母関数であり，積率母関数の形と確率分布とは１対１に対応するので，^√nZ の分布は標準正規分布 N (0, 1) に収束することがわかる。

○ p.178, 標本平均と標本分散の独立性の証明

定理 X1, . . . , X_nを正規母集団 N (µ, σ²⁾からのランダム標本とし，Xn ^{= n}⁻¹^∑ⁿ_i=1^Xi

とおくと，以下の３つの性質が成り立つ。 (1) Xnと^∑ⁿ_i=1(Xi− Xn)²は独立

(2) X_n_{∼ N (µ, σ}²/n)

(3) ^∑ⁿ_i=1(Xi_{− X}n)²/σ² _{∼ χ}²_n−1

この証明は，通常，「現代数理統計学の基礎」（久保川著）の p.87 で示されているように，ヘルマート行列を用いると美しく証明することができる。ここでは，この行列を用いずに数学的帰納法だけを使って示すことにする。

まず，Zi = (Xi − µ)/σ, i = 1, . . . , n, とし，Zn = n⁻¹^∑ⁿ_i=1Zi, V_n² = ^∑ⁿ_i=1(Zi− Zn)² とおくと，定理の３つの性質は

(1) Znと V_n²は独立 (2) Zn∼ N (0, 1/n) (3) V_n² _{∼ χ}²_n−1

と書き直すことができる。n = 2 のときには，Z2 = (Z1+ Z2)/2は N (0, 1/2) に従い， V₂² =⁽Z1₋

Z1+ Z2

2 )2

+⁽Z2₋

Z1+ Z2

2 )2

= ¹

2^(Z¹^{− Z}²⁾

2

となるので，Z1 _{− Z}2 ∼ N (0, 2), すなわち (Z¹− Z²^)/^√² ∼ N (0, 1) より，V2² ⁼ {(Z¹− Z2)/^√2_}² _{∼ χ}²₁となる。また，

Cov(Z₁+ Z₂, Z₁_{− Z}₂) = E[(Z₁+ Z₂)(Z₁_{− Z}₂)] = E[Z₁²]_{− E[Z}₂²] = 0

(19)

であるから，Z1+ Z2と Z1_{− Z}2は無相関になり，「正規分布の場合には無相関であれば独立になる」ので，Z1+ Z2と Z1− Z2は独立になる。従って，Z2と V₂²は独立になる。

次に，n のときに，上の (1), (2), (3) が成り立っていると仮定する。n + 1 のときに３つの性質が成り立つことを示せばよい。ここで，次の性質が成り立つことに注意する。

(A) Zn+1 = ¹ n + 1

∑n+1 i=1

Zi = ¹

n + 1^(Zⁿ⁺¹^{+ nZ}ⁿ^{) = Z}ⁿ⁺ 1

n + 1^(Zⁿ⁺¹^{− Z}ⁿ⁾ (B) V_n+1² = V_n²+ ⁿ

n + 1^(Zⁿ⁺¹^{− Z}ⁿ⁾

2

(A)は容易に確かめられる。(B) については V_n+1² =

∑n i=1

(Zi− Zn+1)²+ (Zn+1− Zn+1)²

=

∑n i=1

{(Zi− Zn)₋ ¹

n + 1^(Zⁿ⁺¹^{− Z}ⁿ⁾ }2

+ ⁿ

2

(n + 1)²^(Zⁿ⁺¹^{− Z}ⁿ⁾

2

と書けるので，これを変形していくと，(B) の等式が得られる。

(2) については，Zn+1 = Zn+1/(n + 1) + (n/(n + 1)Zn において，Zn+1/(n + 1) _∼ N (0, 1/(n + 1)²), (n/(n + 1)Zn∼ N (0, n/(n + 1)²⁾であることに注意すると，p.180 で与えられた正規分布の再生性から, Zn+1∼ N (0, 1/(n + 1)) となることがわかる。

(1)については，(A), (B) の表現式に注意して, (B) の右辺の２つの項が Zn+1と独立になることを示す。まず V_n²と (Zn, Zn+1)とが独立になることから, V_n²と Zn+1+ nZnが独立になることがわかる。次に nE[Z²_n] = n/n = 1に注意すると，

Cov(Zn+1_{− Z}n, Zn+1+ nZn) =E[(Zn+1_{− Z}n)(Zn+1+ nZn)]

=E[Z_n+1² ] + nE[Z_nZ_n+1]_{− E[Z}_nZ_n+1]_{− nE[Z}²_n] = 0 となり，Zn+1_{− Z}nと Zn+1+ nZnが独立になることがわかる。以上より，(1) が示される。

(3)については，(B) の表現式において, Zn+1−Zn∼ N (0, (n+1)/n), すなわち^√n/(n + 1)(Zn+1− Z_n)∼ N (0, 1) より，

n

n + 1^(Zⁿ⁺¹^{− Z}ⁿ⁾

2 ∼ χ²1

となることがわかる。帰納法の仮定から V_n² _{∼ χ}²_n−1であるので，p.181 のカイ２乗分布の再生性より

V_n+1² = χ²_n−1+ χ²₁ _{∼ χ}²_n が成り立つので，(3) が示される。

第１０章「推定」

○ p.185 ， p.186 の内容の補足

いま，X1, . . . , Xnがベルヌーイ分布 Ber(p) からのランダム標本，すなわち X1, . . . , Xn, i.i.d._{∼ Ber(p)}

とします。この場合，本文の θ は p に対応します。p の推定量を ˆp = ˆp(X1, . . . , Xn)と書きます。

E[ˆp(X1, . . . , Xn)] = p

(20)

となるとき，ˆp を p の不偏推定量といいます。ˆp として標本平均 X を考えると E[X] = p より，X は p の不偏推定量になっていることがわかります。また X が p に確率収束することから X は p の一致推定量にもなっています。

○ p.187 最尤推定量の補足

いま，X1, . . . , X_nがベルヌーイ分布 Ber(p) からのランダム標本，すなわち X1, . . . , Xn, i.i.d._{∼ Ber(p)}

とします。この場合，本文の θ は p に対応します。

f (x; p) = p^x(1_{− p)}^1−x, x = 0, 1 とおくと，

X₁, . . . , X_n, i.i.d._{∼ f(x; p)} と表すことができます。これを同時確率分布を用いて表すと,

P (X₁ = x₁, . . . , X_n= x_n) = P (X₁ = x₁)× · · · × P (Xn ^{= x}n⁾

= f (x1; p)× · · · × f(xn; p) (4)

= p^∑ⁿⁱ⁼¹^xⁱ(1_{− p)}ⁿ⁻^∑ⁿⁱ⁼¹^xⁱ

と書けることを意味することになります。ここで各 xiは xi = 0, 1の値をとります。これを L(p; X1, . . . , Xn) = p^∑ⁿⁱ⁼¹^Xⁱ(1_{− p)}ⁿ⁻^∑ⁿⁱ⁼¹^Xⁱ

と書いて，尤度関数といいます。またこれの対数をとったもの

ℓ(p; X1, . . . , Xn) = log L(p; X1, . . . , Xn) = ⁽

∑n i=1

Xi

)log p +⁽n₋

∑n i=1

Xi

)log(1_{− p)}

= nX log p + n(1− X) log(1 − p)

を対数尤度関数といいます。尤度関数もしくは対数尤度関数を最大にする p の値を最尤推定量と呼びます。実際，対数尤度関数を p に関して微分すると

d

dp^{ℓ(p; X}¹, . . . , Xn) = ^nX p ⁻

n(1_{− X)} 1_{− p} となり，これを = 0 とおいて p に関して解くと

ˆ p = X

が得られます。これを p の最尤推定量といいます。（p.190 を参照）