第 7 章 統計的推測
7.2 統計的推測
例 7.1. 日本の有権者全体(母集団)を考え,内閣を支持している人の割合pを知りたい2.2012 年11月に行われた世論調査(標本の大きさn = 1272人)によれば標本中の支持率は0.173で あった.
例7.1を考えてみる. 母集団における支持率p(真の支持率)は分からない(未知)が, 母集団 からの無作為標本を抽出し, 標本における支持率で真の支持率を推測する. 一般に,標本を用い て母集団分布の特性について推測を行うことを統計的推測という.
母集団分布の特性値(例7.1ではp)を母数あるいはパラメータという. 母数を1つの値で推 測することを点推定という. データから計算されたこの1つの値のことを推定値という. 母数 を区間を用いて推測することを区間推定という. また, 母数に関する仮説をたてて,その仮説が 間違っているかどうかを判断する仮説検定と呼ばれる方法がある. 本章では,この3つの形式に ついて解説する.
7.2.1 母比率の推定
母集団の中で,ある性質をもつ要素の割合をpとする.このようなpを母比率という.母比 率の推測について説明しよう.
母比率がpである母集団から大きさnの無作為標本を抽出する.この標本の中でこの性質を 持つ要素の個数をXとする.また標本における比率を
ˆ p= X
n
とする.標本における比率pˆが母比率pの点推定量である.
次に,母比率pの区間推定について説明しよう.
Xの確率分布は二項分布B(n, p)であるので,nが大きいとき√X−np
np(1−p)の分布は標準正規分
布で近似される(ド・モアブル=ラプラスの定理).標準正規分布N(0, 1)の上側2.5%点3は 1.96であるから
P {
−1.96≤ X−np
√np(1−p) ≤1.96 }
≒0.95 である.この式は次のように変形できる.
P {
−1.96×
√p(1−p)
n ≤pˆ−p≤1.96×
√p(1−p) n
}
≒0.95
2第45回衆議院議員総選挙当日の有権者数は約1億434万だった.
3標準正規分布N(0, 1)の上側2.5%点とは,標準正規分布で上側確率が0.025になる点である. 以前に配布し た付表1から1.96であることがわかる.
図 7.1: 母集団と標本の関係
大数の法則から, nが大きいときはpˆはpの値に近いので,上の式で√ の中のpをpˆで置きか えても上式は近似的に成り立つ.したがって
P {
ˆ
p−1.96×
√p(1ˆ −p)ˆ
n ≤p≤pˆ+ 1.96×
√p(1ˆ −p)ˆ n
}
≒0.95
が成り立つ.このような区間の公式に実際のデータを代入して得られる区間は,母比率pにつ いての信頼係数95%の信頼区間という.
母比率の信頼区間
✓ ✏
標本の大きさnが大きいとき,区間 [
ˆ
p−1.96
√p(1ˆ −p)ˆ
n , pˆ+ 1.96
√p(1ˆ −p)ˆ n
]
は信頼係数が近似的に95%に等しい,pの信頼区間である.
✒ ✑
例7.1で,信頼区間を求めてみる.
1.96×
√p(1ˆ −p)ˆ
n = 1.96×
√0.173(1−0.173)
1272 = 0.0208 であるから,pに対する信頼係数95%の信頼区間は
[0.173−0.0208, 0.173 + 0.0208] = [0.152, 0.194]
である.
問題 7.2.1 (統計学基礎,日本統計学会編, p.118). ある大都市の世帯のうち, 介護が必要な世帯 員がいる割合を知るため, 無作為に1200世帯を抽出して面接調査を実施した. 1200世帯のうち 65世帯で要介護の家族がいて, その比率は65/1200 = 0.054となった. この都市全体で要介護 者のいる世帯の割合の95%信頼区間を求めよ.
7.3 仮説検定
コインがフェアかどうか. スポーツ試合で攻めるサイドを決めるようなときにコイントスが 行われている. このようなとき暗黙のうちに,用いるコインは表が出る確率と裏が出る確率が同 じであることを想定している. あるコインを一定の投げ方で10回 投げたときに10回すべて表 になったとする. このとき, このコインで表の出る確率は1/2と考えて良いだろうか. それとも 1/2とは異なっていると考えてよいだろうか.
以下のように考える. 用いるコインで表の出る確率が1/2であれば, 表の回数は二項分布 B(10, 1/2)にしたがう. この場合, Xが10になる確率は
P(X = 10) = 1/210= 0.000977
であり非常に小さい. 10回すべて表という結果の場合には, 表の確率が1/2であることは疑わ しいと考えられる.
7.4 1 標本問題
1つの母集団についての統計的推測について説明する. 今, X1, . . . , Xnは母平均µ,母分散σ2 の母集団からの無作為標本であるとする.
母平均µの推定量としては標本平均Xを用いる. 母分散のσ2の推定量としては通常 ˆ
σ2 = 1 n−1
∑n
i=1
(Xi−X)2
を用いる. E[ˆσ2] = σ2である(定理7.1)ので, ˆσ2のことを標本分散あるいは不偏分散と呼ぶ. n 個の変数
X1−X, X2−X, . . . , Xn−X
は和が常に0であり, n個のうちn−1個を決めたら残りの1つは自動的に決まる. つまり自由 に値を取れるのはn−1個であることから,不偏分散の自由度(degree of freedom)はn−1であ るという.
✓ ✏
定理 7.1. X1, . . . , Xnは母平均µ, 母分散σ2の母集団からの無作為標本であるとする. この とき以下が成り立つ.
E[ ˆ σ2]
=σ2
✒ ✑
証明Yi =Xi−µ,i= 1, . . . , nとおくと, E[Yi] = 0かつE[Yi2] = σ2である. また,Y =X−µであ るので, E[Y] = 0, V[Y] = E[
(Y)2]
=σ2/nであることがわかる. Xi−X =Xi−µ−(X−µ) =
Yi−Y であることを用いれば E
[ n
∑
i=1
(Xi−X)2 ]
=E [ n
∑
i=1
(Yi−Y)2 ]
= E [ n
∑
i=1
Yi2−nY2 ]
=E [ n
∑
i=1
Yi2 ]
−nE[(
Y)2]
=nσ2−σ2 = (n−1)σ2 が得られる. したがって, E [ˆσ2] = (n−1)−1E[∑n
i=1(Xi−X)2]
=σ2. ✷
正規母集団についての推測
X1, . . . , Xnは正規母集団N(µ, σ2)からの無作為標本であるとする. このとき定理6.4から, X−µ
σ/√
n ∼N(0, 1) である. 一方(X−µ)/(σ/√
n)のσをσˆで置き換えた(X−µ)/(ˆσ/√
n)は自由度n−1 のt分 布と呼ばれる確率分布にしたがっていることが知られている4. 自由度 ν(「ニュー」と読む)の t 分布をt(ν)という記号で表す. この記号を用いれば
X−µ ˆ σ/√
n ∼t(n−1)
と書くことができる. 図7.2は自由度がそれぞれ2, 5のときのt分布と標準正規分布の確率密度 関数のグラフである.
0.00.10.20.30.4
0 1 2 3
−2 1
−3
N ( 0 , 1 )
t ( 5 )
t ( 2 )
図 7.2: t分布の確率密度関数
4t分布の定義や確率密度関数の式については本授業では扱わない. 関心のある人は, 「統計学入門」東京大学 教養学部統計学教室編,などを参照せよ.
✓ ✏
t 分布の特徴
(1) t 分布の確率密度関数は0を中心に左右対称である.
(2) 自由度 ν の t 分布の確率密度関数は標準正規分布 N(0,1) の確率密度関数よりも すそが厚い(ばらつきが大きい).
(3) 自由度ν が小さいほど t 分布のすそ野が長い. また ν → ∞のときt 分布の確率密度関 数はN(0,1)の確率密度関数に近ずく.
✒ ✑
σ2が既知のとき
標準正規分布の上側2.5%点は1.96であるから P
(
−1.96≤ X−µ σ/√
n ≤1.96 )
= 0.95 である. したがって
P (
X−1.96 σ
√n ≤µ≤X+ 1.96 σ
√n )
= 0.95 である. したがって区間
[
x−1.96 σ
√n, x+ 1.96 σ
√n ]
(7.1) はµの 信頼係数95%の信頼区間である.
σ2が未知のとき
σ2が未知のときは, 区間(7.1)は求められない. この場合, (X−µ)/(σ/√
n)のσをσˆで置き 換えた(X−µ)/(ˆσ/√
n)が自由度n−1のt分布にしたがうことを用いる.
t分布の上側パーセント点は付表2から求められる.
自由度νのt分布の上側2.5%点をt0.025(ν)で表す. (X−µ)/(ˆσ/√
n)∼t(n−1)であるから P
(
−t0.025(n−1)≤ X−µ ˆ σ/√
n ≤t0.025(n−1) )
= 0.95
である. 不等式を変形すると P
(
X−t0.025(n−1) σˆ
√n ≤µ≤X+t0.025(n−1) σˆ
√n )
= 0.95 であることがわかる. したがって区間
[
x−t0.025(n−1) σˆ
√n, x+t0.025(n−1) σˆ
√n ]
(7.2) はµの 信頼係数95%の信頼区間である.
図 7.3: 付表2:t分布の上側パーセント点
問題 7.4.1. ある特定の英語教材の効果を測定するために, ある県で25人の高校1年生を無作 為に選びこの教材を使って教えた後に, 共通の問題を使って試験を実施したところ, 標本平均は x= 62, 標本標準偏差はσˆ = 10.0であった. この県の高校1年生の試験の点数全体を母集団と考 え, 母集団分布は正規分布N(µ, σ2)であると仮定する. 母平均µの95%信頼区間を求めなさい.
正解:標本の大きさはn = 25である. t0.025(n−1) =t0.025(24) = 2.064であるので t0.025(n−1) σˆ
√n = 2.064×10
5 = 4.128
を得る. 62 −4.128 = 57.872, 62 + 4.128 = 66.128であるので母平均µの95%信頼区間は [57.9, 66.1]である(小数第1位まで求めた).
仮説検定
7.3節では仮説検定の考え方のみを説明した. ここでは1標本問題で仮説検定の方法を定式化 する.
母平均についての仮説検定
仮説検定の目的は, 母集団分布についての仮説(あるいは,命題)を標本にもとずいて,検証 することである.
✓ ✏
例:ある工場では, 容量の平均が300mlになるようにミネラルウォーターが製造されてい る. この工場の1つのラインで製造されたミネラルウォーターを無作為に16本選び, 容量 を測定したところ,平均はx= 298.0, 標本標準偏差はˆσ= 2.4 であった. このラインで製造 されるミネラルウォーターの容量の母平均は300mlとは異なると言ってよいか?
✒ ✑
この問いについて, 以下のように考える.
X1, X2, . . . , X16を16個のミネラルウォーターの容量の測定値とする. 母集団分布は正規分 布N(µ, σ2)であると仮定する. X1, X2, . . . , X16 はこの母集団分布からの無作為標本と考えら れる.
仮説検定では, まず検証したい仮説を設定する. このような仮説を帰無仮説とよび, H0で表 す. この例では, 容量の母平均が300mlかどうかを知りたいので
H0 :µ= 300
である. さらに, 帰無仮説が正しくないときに成り立つ仮説を対立仮説とよび,H1で表す. この 例では
H1 :µ̸= 300
である. 標本平均Xは大数の法則から, 標本の大きさが大きいときには,母平均µに近い可能性 が高い. したがって, データから求めたxが300から大きくずれていれば, それは帰無仮説H0
が誤りでµ̸= 300である証拠と考えられる. では, |x−300|がどの程度大きければ帰無仮説が 誤りであると結論できるだろうか.
これに答えるのにt分布が役に立つ. X−300をσ/ˆ √
16で割り, T = X−300
ˆ σ/√
16 (7.3)
とおく. 帰無仮説H0が正しいときには, µ= 300であるからT は自由度n−1 = 15のt分布に したがう. つまり, もし帰無仮説が正しいならば,
T = X−300 ˆ σ/√
16 ∼t(15) (7.4)
が成り立つ. 自由度15のt分布の上側 2.5% 点は2.131 だから P
(
X−300 ˆ σ/√
16
>2.131 )
= 0.05 (7.5)
を得る. つまり H0 が真のときに T の絶対値が 2.131 を越える確率は小さい(0.05). T の実現 値を tで表す. もし |t|>2.131 となったときには, H0 が真でめずらしいことが起ったと考える よりも, 帰無仮説H0 自身が正しくないだろうと判断する. このような論理で帰無仮説をしりぞ けることを帰無仮説を棄却するという. 上の例では,t= x−300
ˆ σ/√
16 = −2
2.4/4 = −2
0.6 =−3.3となり
|t|>2.131なので, 帰無仮説 H0 :µ= 300は棄却される.
有意水準
(7.4)式のT のように仮説検定に用いられる量を検定統計量という. 上の例の |t| > 2.131 のように, 帰無仮説を棄却すべき検定統計量の値の集合(範囲)を棄却域とよぶ. 上の例では,
|t|>2.131 のときには,帰無仮説は棄却されるといい, −2.131 ≤t≤2.131 であれば帰無仮説は 棄却されないという.
上の例では, 0.05 を十分小さい確率と考えた.どの程度の確率を小さいと判断するかは主観 の問題であるが,伝統的な基準として0.05あるいは0.01が用いられる.このような基準となる 確率は有意水準と呼ばれ,αで表される. 検定について, 有意水準の値を明らかにしたい場合に は, 有意水準 αの検定という.
母平均の検定:両側検定
X1, X2, . . . , Xnは正規母集団N(µ, σ2)からの無作為標本とする. 母平均µがある値µ0と等 しいかどうか検定したいとする.
帰無仮説を
H0 :µ=µ0 と設定,対立仮説を
H1 :µ̸=µ0
と設定する. このような形の対立仮説を両側対立仮説という.
有意水準αの仮説検定は以下のようになる. ただしx, ˆσ2 はそれぞれ標本平均, 不偏分散の実 現値である.