• 検索結果がありません。

第 7 章 統計的推測

7.2 統計的推測

例 7.1. 日本の有権者全体(母集団)を考え,内閣を支持している人の割合pを知りたい2.2012 年11月に行われた世論調査(標本の大きさn = 1272人)によれば標本中の支持率は0.173で あった.

例7.1を考えてみる. 母集団における支持率p(真の支持率)は分からない(未知)が, 母集団 からの無作為標本を抽出し, 標本における支持率で真の支持率を推測する. 一般に,標本を用い て母集団分布の特性について推測を行うことを統計的推測という.

母集団分布の特性値(例7.1ではp)を母数あるいはパラメータという. 母数を1つの値で推 測することを点推定という. データから計算されたこの1つの値のことを推定値という. 母数 を区間を用いて推測することを区間推定という. また, 母数に関する仮説をたてて,その仮説が 間違っているかどうかを判断する仮説検定と呼ばれる方法がある. 本章では,この3つの形式に ついて解説する.

7.2.1 母比率の推定

母集団の中で,ある性質をもつ要素の割合をpとする.このようなpを母比率という.母比 率の推測について説明しよう.

母比率がpである母集団から大きさnの無作為標本を抽出する.この標本の中でこの性質を 持つ要素の個数をXとする.また標本における比率を

ˆ p= X

n

とする.標本における比率pˆが母比率pの点推定量である.

次に,母比率pの区間推定について説明しよう.

Xの確率分布は二項分布B(n, p)であるので,nが大きいとき√X−np

np(1−p)の分布は標準正規分

布で近似される(ド・モアブル=ラプラスの定理).標準正規分布N(0, 1)の上側2.5%点3は 1.96であるから

P {

−1.96≤ X−np

√np(1−p) ≤1.96 }

≒0.95 である.この式は次のように変形できる.

P {

−1.96×

√p(1−p)

n ≤pˆ−p≤1.96×

√p(1−p) n

}

≒0.95

245回衆議院議員総選挙当日の有権者数は約1434万だった.

3標準正規分布N(0, 1)の上側2.5%点とは,標準正規分布で上側確率が0.025になる点である. 以前に配布し た付表1から1.96であることがわかる.

図 7.1: 母集団と標本の関係

大数の法則から, nが大きいときはpˆはpの値に近いので,上の式で√ の中のpをpˆで置きか えても上式は近似的に成り立つ.したがって

P {

ˆ

p−1.96×

√p(1ˆ −p)ˆ

n ≤p≤pˆ+ 1.96×

√p(1ˆ −p)ˆ n

}

≒0.95

が成り立つ.このような区間の公式に実際のデータを代入して得られる区間は,母比率pにつ いての信頼係数95%の信頼区間という.

母比率の信頼区間

標本の大きさnが大きいとき,区間 [

ˆ

p−1.96

√p(1ˆ −p)ˆ

n , pˆ+ 1.96

√p(1ˆ −p)ˆ n

]

は信頼係数が近似的に95%に等しい,pの信頼区間である.

例7.1で,信頼区間を求めてみる.

1.96×

√p(1ˆ −p)ˆ

n = 1.96×

√0.173(1−0.173)

1272 = 0.0208 であるから,pに対する信頼係数95%の信頼区間は

[0.173−0.0208, 0.173 + 0.0208] = [0.152, 0.194]

である.

問題 7.2.1 (統計学基礎,日本統計学会編, p.118). ある大都市の世帯のうち, 介護が必要な世帯 員がいる割合を知るため, 無作為に1200世帯を抽出して面接調査を実施した. 1200世帯のうち 65世帯で要介護の家族がいて, その比率は65/1200 = 0.054となった. この都市全体で要介護 者のいる世帯の割合の95%信頼区間を求めよ.

7.3 仮説検定

コインがフェアかどうか. スポーツ試合で攻めるサイドを決めるようなときにコイントスが 行われている. このようなとき暗黙のうちに,用いるコインは表が出る確率と裏が出る確率が同 じであることを想定している. あるコインを一定の投げ方で10回 投げたときに10回すべて表 になったとする. このとき, このコインで表の出る確率は1/2と考えて良いだろうか. それとも 1/2とは異なっていると考えてよいだろうか.

以下のように考える. 用いるコインで表の出る確率が1/2であれば, 表の回数は二項分布 B(10, 1/2)にしたがう. この場合, Xが10になる確率は

P(X = 10) = 1/210= 0.000977

であり非常に小さい. 10回すべて表という結果の場合には, 表の確率が1/2であることは疑わ しいと考えられる.

7.4 1 標本問題

1つの母集団についての統計的推測について説明する. 今, X1, . . . , Xnは母平均µ,母分散σ2 の母集団からの無作為標本であるとする.

母平均µの推定量としては標本平均Xを用いる. 母分散のσ2の推定量としては通常 ˆ

σ2 = 1 n−1

n

i=1

(Xi−X)2

を用いる. E[ˆσ2] = σ2である(定理7.1)ので, ˆσ2のことを標本分散あるいは不偏分散と呼ぶ. n 個の変数

X1−X, X2−X, . . . , Xn−X

は和が常に0であり, n個のうちn−1個を決めたら残りの1つは自動的に決まる. つまり自由 に値を取れるのはn−1個であることから,不偏分散の自由度(degree of freedom)はn−1であ るという.

定理 7.1. X1, . . . , Xnは母平均µ, 母分散σ2の母集団からの無作為標本であるとする. この とき以下が成り立つ.

E[ ˆ σ2]

2

証明Yi =Xi−µ,i= 1, . . . , nとおくと, E[Yi] = 0かつE[Yi2] = σ2である. また,Y =X−µであ るので, E[Y] = 0, V[Y] = E[

(Y)2]

2/nであることがわかる. Xi−X =Xi−µ−(X−µ) =

Yi−Y であることを用いれば E

[ n

i=1

(Xi−X)2 ]

=E [ n

i=1

(Yi−Y)2 ]

= E [ n

i=1

Yi2−nY2 ]

=E [ n

i=1

Yi2 ]

−nE[(

Y)2]

=nσ2−σ2 = (n−1)σ2 が得られる. したがって, E [ˆσ2] = (n−1)1E[∑n

i=1(Xi−X)2]

2. ✷

正規母集団についての推測

X1, . . . , Xnは正規母集団N(µ, σ2)からの無作為標本であるとする. このとき定理6.4から, X−µ

σ/√

n ∼N(0, 1) である. 一方(X−µ)/(σ/√

n)のσをσˆで置き換えた(X−µ)/(ˆσ/√

n)は自由度n−1 のt分 布と呼ばれる確率分布にしたがっていることが知られている4. 自由度 ν(「ニュー」と読む)の t 分布をt(ν)という記号で表す. この記号を用いれば

X−µ ˆ σ/√

n ∼t(n−1)

と書くことができる. 図7.2は自由度がそれぞれ2, 5のときのt分布と標準正規分布の確率密度 関数のグラフである.

0.00.10.20.30.4

0 1 2 3

2 1

3

N ( 0 , 1 )

t ( 5 )

t ( 2 )

図 7.2: t分布の確率密度関数

4t分布の定義や確率密度関数の式については本授業では扱わない. 関心のある人は, 「統計学入門」東京大学 教養学部統計学教室編,などを参照せよ.

t 分布の特徴

(1) t 分布の確率密度関数は0を中心に左右対称である.

(2) 自由度 ν の t 分布の確率密度関数は標準正規分布 N(0,1) の確率密度関数よりも すそが厚い(ばらつきが大きい).

(3) 自由度ν が小さいほど t 分布のすそ野が長い. また ν → ∞のときt 分布の確率密度関 数はN(0,1)の確率密度関数に近ずく.

σ2が既知のとき

標準正規分布の上側2.5%点は1.96であるから P

(

−1.96≤ X−µ σ/√

n ≤1.96 )

= 0.95 である. したがって

P (

X−1.96 σ

√n ≤µ≤X+ 1.96 σ

√n )

= 0.95 である. したがって区間

[

x−1.96 σ

√n, x+ 1.96 σ

√n ]

(7.1) はµの 信頼係数95%の信頼区間である.

σ2が未知のとき

σ2が未知のときは, 区間(7.1)は求められない. この場合, (X−µ)/(σ/√

n)のσをσˆで置き 換えた(X−µ)/(ˆσ/√

n)が自由度n−1のt分布にしたがうことを用いる.

t分布の上側パーセント点は付表2から求められる.

自由度νのt分布の上側2.5%点をt0.025(ν)で表す. (X−µ)/(ˆσ/√

n)∼t(n−1)であるから P

(

−t0.025(n−1)≤ X−µ ˆ σ/√

n ≤t0.025(n−1) )

= 0.95

である. 不等式を変形すると P

(

X−t0.025(n−1) σˆ

√n ≤µ≤X+t0.025(n−1) σˆ

√n )

= 0.95 であることがわかる. したがって区間

[

x−t0.025(n−1) σˆ

√n, x+t0.025(n−1) σˆ

√n ]

(7.2) はµの 信頼係数95%の信頼区間である.

図 7.3: 付表2:t分布の上側パーセント点

問題 7.4.1. ある特定の英語教材の効果を測定するために, ある県で25人の高校1年生を無作 為に選びこの教材を使って教えた後に, 共通の問題を使って試験を実施したところ, 標本平均は x= 62, 標本標準偏差はσˆ = 10.0であった. この県の高校1年生の試験の点数全体を母集団と考 え, 母集団分布は正規分布N(µ, σ2)であると仮定する. 母平均µの95%信頼区間を求めなさい.

正解:標本の大きさはn = 25である. t0.025(n−1) =t0.025(24) = 2.064であるので t0.025(n−1) σˆ

√n = 2.064×10

5 = 4.128

を得る. 62 −4.128 = 57.872, 62 + 4.128 = 66.128であるので母平均µの95%信頼区間は [57.9, 66.1]である(小数第1位まで求めた).

仮説検定

7.3節では仮説検定の考え方のみを説明した. ここでは1標本問題で仮説検定の方法を定式化 する.

母平均についての仮説検定

仮説検定の目的は, 母集団分布についての仮説(あるいは,命題)を標本にもとずいて,検証 することである.

例:ある工場では, 容量の平均が300mlになるようにミネラルウォーターが製造されてい る. この工場の1つのラインで製造されたミネラルウォーターを無作為に16本選び, 容量 を測定したところ,平均はx= 298.0, 標本標準偏差はˆσ= 2.4 であった. このラインで製造 されるミネラルウォーターの容量の母平均は300mlとは異なると言ってよいか?

この問いについて, 以下のように考える.

X1, X2, . . . , X16を16個のミネラルウォーターの容量の測定値とする. 母集団分布は正規分 布N(µ, σ2)であると仮定する. X1, X2, . . . , X16 はこの母集団分布からの無作為標本と考えら れる.

仮説検定では, まず検証したい仮説を設定する. このような仮説を帰無仮説とよび, H0で表 す. この例では, 容量の母平均が300mlかどうかを知りたいので

H0 :µ= 300

である. さらに, 帰無仮説が正しくないときに成り立つ仮説を対立仮説とよび,H1で表す. この 例では

H1 :µ̸= 300

である. 標本平均Xは大数の法則から, 標本の大きさが大きいときには,母平均µに近い可能性 が高い. したがって, データから求めたxが300から大きくずれていれば, それは帰無仮説H0

が誤りでµ̸= 300である証拠と考えられる. では, |x−300|がどの程度大きければ帰無仮説が 誤りであると結論できるだろうか.

これに答えるのにt分布が役に立つ. X−300をσ/ˆ √

16で割り, T = X−300

ˆ σ/√

16 (7.3)

とおく. 帰無仮説H0が正しいときには, µ= 300であるからT は自由度n−1 = 15のt分布に したがう. つまり, もし帰無仮説が正しいならば,

T = X−300 ˆ σ/√

16 ∼t(15) (7.4)

が成り立つ. 自由度15のt分布の上側 2.5% 点は2.131 だから P

(

X−300 ˆ σ/√

16

>2.131 )

= 0.05 (7.5)

を得る. つまり H0 が真のときに T の絶対値が 2.131 を越える確率は小さい(0.05). T の実現 値を tで表す. もし |t|>2.131 となったときには, H0 が真でめずらしいことが起ったと考える よりも, 帰無仮説H0 自身が正しくないだろうと判断する. このような論理で帰無仮説をしりぞ けることを帰無仮説を棄却するという. 上の例では,t= x−300

ˆ σ/√

16 = −2

2.4/4 = −2

0.6 =−3.3となり

|t|>2.131なので, 帰無仮説 H0 :µ= 300は棄却される.

有意水準

(7.4)式のT のように仮説検定に用いられる量を検定統計量という. 上の例の |t| > 2.131 のように, 帰無仮説を棄却すべき検定統計量の値の集合(範囲)を棄却域とよぶ. 上の例では,

|t|>2.131 のときには,帰無仮説は棄却されるといい, −2.131 ≤t≤2.131 であれば帰無仮説は 棄却されないという.

上の例では, 0.05 を十分小さい確率と考えた.どの程度の確率を小さいと判断するかは主観 の問題であるが,伝統的な基準として0.05あるいは0.01が用いられる.このような基準となる 確率は有意水準と呼ばれ,αで表される. 検定について, 有意水準の値を明らかにしたい場合に は, 有意水準 αの検定という.

母平均の検定:両側検定

X1, X2, . . . , Xnは正規母集団N(µ, σ2)からの無作為標本とする. 母平均µがある値µ0と等 しいかどうか検定したいとする.

帰無仮説を

H0 :µ=µ0 と設定,対立仮説を

H1 :µ̸=µ0

と設定する. このような形の対立仮説を両側対立仮説という.

有意水準αの仮説検定は以下のようになる. ただしx, ˆσ2 はそれぞれ標本平均, 不偏分散の実 現値である.

関連したドキュメント