統計学 Ⅱ( 章 ( 区間推定のシミュレーション母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

(1)

11章母集団パラメータの推定

１．信頼区間 (1) 点推定と区間推定 (2) 区間推定のシミュレーション (3) 母平均μの信頼区間 (4) 母比率pの信頼区間 (5) 母比率pのより厳密な信頼区間 ２．点推定量の特性 (1) 標本平均の持つ望ましい性質 (2) 不偏性 (3) 推定量の分散と有効性 (4) 平均２乗誤差MSEと最小分散性 (5) 一致性 (6) チェビシェフの不等式３．標本の大きさの決定 (1) 標準誤差 (2) 比率の推定と標本の大きさ (3) 平均値の推定と標本の大きさ４．母分散σ2_の推定 (1) 標本分散の性質 (2) 標本分散S2_{の標本分布と} χ2_分布 (3) 母分散σ2_{の信頼区間} ５．最尤法 (1) 最尤法の考え方 (2) 尤度と最尤推定値 (3) 最尤推定値の例 X

１信頼区間

(1) 点推定と区間推定 統計学の基本的な考え方（10章参照） データ＝母集団から抽出された標本 知りたいことは母集団の情報（パラメータ） 母（集団）平均μ 母（集団）比率 pなど しかし，それらは未知 知ることができるのは，標本のデータとそこから計算された統計量の実現値 標本平均 標本比率など 既知の標本（データ）の情報から，未知の母集団に関する情報をいかに推定するかが問題 x pˆ 教科書266-277ページ母集団：名古屋地区全体．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．標本：調査世帯（600世帯）．．．．．．．．．．．．．．．．．．．． 20％の視聴率 p=？ 推定標本抽出視聴率調査  pˆ

点推定と区間推定

母比率の推定：標本比率の標本分布の性質を利用  標本比率の標本分布の平均＝母集団比率p →標本比率で母比率を推定する（点推定）  しかし，個々の  １つの推定値で正確な推定は不可能  母集団の値は，実際にはわからない 一定の区間に母集団の値（母比率）が入るような推定値をつくる＝区間推定  推定値の精度を反映させる p pˆ X の実現値 X p :ˆ p の標本分布 X pˆ X  区間で推定することの意義：推定値の精度を反映 例  n=5000に対する視聴率調査の結果の  n=500 に対する視聴率調査の結果の 結果（点推定値）は同じだが，もっている意味は異なる 結果の精度は，n=5000の方が高い（なぜか？） 「精度」をどのように測るか 標本平均の標本分布の分散（小さいほど精度が高い） 区間で推定を行う（区間推定） ex. n=5000では，0.19～0.21に真の視聴率が含まれる n=500 では， 0.16～0.24に真の視聴率が含まれる 2 . 0 ˆ p 2 . 0 ˆ p n pq p X ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．母集団 N x1, x2, : xn 標本母平均 μ=？ 1600  x 推定

母平均の推定

ex. 日本の平均貯蓄残高  母平均の推定：標本平均の標本分布の性質を利用  標本平均の標本分布の平均＝母集団平均μ →標本平均で母平均を推定する（点推定）  しかし，個々の １つの推定値で正確な推定は不可能  一定の区間に母平均が入るような推定値をつくる＝区間推定   x X  の標本分布 X X x 

(2)

(2) 区間推定のシミュレーション

母平均μの区間推定  のとき 自由度n-1のt分布 の97.5％点：t0.975 この式にTを代入する



_, 2



~N X_i 分布の自由度n t n S X T ~ 1 1      t0.975Tt0.9750.95 P 975 . 0 t ．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．母集団．．．．．．．．．標本n ．．．．．．．．．標本n ．．．．．．．．．標本n ・・・．．．．．．．．．標本n x x x x ・・・ ) , ( 2 n N   の標本分布 X ) 1 , 0 ( N Z～基準化変量Z σをsで 置換え 1    n s x t  n x z     ・・・ n x z     n x z     n x z     T ～自由度 n-1のｔ分布 1    n s x t  ・・・ 1    n s x t  1    n s x t  母集団分布 ) , (__2 N μ=？ T統計量

母平均の区間推定

μについて解くと ⇒区間のなかに母平均が含まれる確率が95％ cf.標本分布（標本ごとにやSはいろいろな値をとる）           1 , 1 0.975 975 . 0 n S t X n S t X 表11-1 （269 ページ）参照 95 . 0 1 0.975 975 . 0            t n S X t P  μ：未知 95 . 0 1 1 0.975 975 . 0             n S t X n S t X P  X

（参考）区間の導出方法

をμについて解く（未知なのはμ だけ） 95 . 0 1 0.975 975 . 0            t n S X t P  95 . 0 ) 1 1 ( P 95 . 0 ) 1 1 ( P 95 . 0 ) 1 1 ( P 95 . 0 ) 1 / ( P 975 . 0 975 . 0 975 . 0 975 . 0 975 . 0 975 . 0 975 . 0 975 . 0                               n S t X n S t X n S t X n S t X n S t X n S t t n S X t    

(3) 母平均μの信頼区間

実際の状況  ある１つの標本のみが抽出される  その標本のデータをもとに標本平均，標本標準偏差が計算される 区間の式にとs を代入  実現値なので，確率変数ではない  確率表現ができない 2 1 2 2 1 , ) ( 1 , 1 _x _x _s _s n s x n x n i i n i i     _ _   x 95 . 0 1 1 0.975 975 . 0             n s t x n s t x P  95 . 0 1 1 0.975 975 . 0             n S t X n S t X P  は確率変数 , S X

信頼係数と信頼区間

P*( )は確率ではないことを表わす ある実現値をもとに計算した区間には，母平均μが入ってい るか，入っていないか確定している 0.95：確率ではなく，信頼の程度（信頼度）を表わす＝信頼係数 0.95など1に近い（=確からしい）値を用いる 通常は0.95で十分（0.99を用いることもある） 実現値に基づいた母平均μの区間推定値＝信頼区間 95 . 0 1 1 0.975 975 . 0 * _             n s t x n s t x P 

(3)

信頼係数

(270ページ)

信頼係数と確率 信頼係数は確率とは異なった概念 ある信頼区間に母平均は入っているか，入っていないか しかし，信頼区間を何度も作成すると，信頼区間のうちの95%が母平均を含むことから，確率と似たような解釈が可能 cf.標本分布，表11-1 1－信頼係数＝危険度：結論が間違える可能性ex. 0.05 信頼係数には，95％や99％が用いられる 95％の場合は，t 分布表の0.975に対する数値 t 分布の両側を2.5％ずつとるので，0.95ではなく，0.975を用いる 99％の場合は，t 分布表の0.995に対する数値 2.5% 2.5% 95% 97.5%

母平均

μの信頼区間

の公式

信頼係数95％の場合ただし，t0.975は自由度n-1のt分布の97.5%点 一般的に，信頼係数2γ-1の場合 信頼係数は，通常は95％か99％が用いられる 2 1 2 2 1 , ) ( 1 , 1 _x _x _s _s n s x n x n i i n i i    



  ) 1 , 1 ( ₀_.₉₇₅ ₀_.₉₇₅     n s t x n s t x           1 , 1 n s t x n s t x   99 . 0 1 995 . 0 2 1 2 ) ( 995 . 0 % 99 . 0.995             t t ex 信頼係数

母平均

μの信頼区間の計算例：例題11.1

201 . 2 3 . 4 , 4 . 18 , 9 . 2 975 . 0 2     t s s x ) 1 , 1 ( 95 975 . 0 975 . 0 _  _  n s t x n s t x ％の信頼区間の公式信頼係数 i 1 -0.9 -3.8 14.63 2 3.1 0.2 0.03 3 -0.6 -3.5 12.43 4 -5.7 -8.6 74.39 5 2.4 -0.5 0.28 6 2.7 -0.2 0.05 7 2.7 -0.2 0.05 8 4.3 1.4 1.89 9 9.3 6.4 40.64 10 0.2 -2.7 7.43 11 9.3 6.4 40.64 12 8.3 5.4 28.89 合計 35.1 0 221.34 平均 2.9 分散 18.4 標準偏差 4.3 x xi 2 ) (xix i x 0.1,5.8 1 12 3 . 4 201 . 2 9 . 2 , 1 12 3 . 4 201 . 2 9 . 2            母平均μ（真の平均）は，95％の信頼度で，0.1から5.8の区間に含まれている

(4) 母比率pの信頼区間

平均と比率は，基本的に同じ 信頼区間についても，同様の式で計算可能 ※ 標本の比率の標準偏差（1,0データの標準偏差）= 比率はデータ数nが大きい場合が多い →t分布ではなく，正規分布を用いても構わない（自由度が大きいと，t 分布は標準正規分布で近似できる） →n-1のかわりに，nを用いてもよい（ nが大きければn≒n-1 ）         n q p p n q p p pの信頼区間： ˆ 1.96 ˆˆ,ˆ 1.96 ˆˆ ) 1 , 1 (  0.975 _  0.975 _ n s t x n s t x の信頼区間　  q p ˆˆ

母比率

pの信頼区間の導出

中心極限定理 pについて解き，確率変数 を実現値で置き換える 95 . 0 96 . 1 ) 1 ( 96 . 1 ) 1 , 0 ( ) 1 ( ) 1 , 0 ( ) 1 (                        n X X p X P N n X X p X Z N n p p p X Z ～～ X pˆ 95 . 0 ) ˆ 1 ( ˆ 96 . 1 ˆ ) ˆ 1 ( ˆ 96 . 1 ˆ 95 . 0 ) 1 ( 96 . 1 ) 1 ( 96 . 1 * _       _  _ _ _            _  _ _ _  n p p p p n p p p P n X X X p n X X X P 標準偏差（分母）を推定量で置き換える   ・・・は標準正規分布の点 ※P1.96Z1.960.95 1.96 97.5% ※ 比率の場合，nは十分 大きいことが多い母比率pの信頼係数95%の信頼区間の公式 ) 58 . 2 ( 995 . 0 % 99 .   z z0.995 ex信頼係数   信頼係数2γ-1の場合

)

ˆ

96 .

1 ˆ

,

ˆ

96 .

1 ˆ

(

n

q

p

n

q

p





96 . 1 , ˆ 1 ˆ ˆ q p z0.975 pは標本比率，         n q p z p n q p z pˆ _ ˆˆ, ˆ _ ˆˆ

(4)

母比率pの信頼区間の計算例： 例題11.2（275ページ） を代入 908 , 47 . 0 ˆ 1 ˆ , 53 . 0 ˆ     p q p n ) ˆ ˆ 96 . 1 ˆ , ˆ ˆ 96 . 1 ˆ ( 95 n q p p n q p p p   ％の信頼区間の公式の信頼係数母比率 ) 562 . 0 , 498 . 0 ( ) 032 . 0 53 . 0 , 032 . 0 53 . 0 ( 908 ) 53 . 0 1 ( 53 . 0 96 . 1 53 . 0 , 908 ) 53 . 0 1 ( 53 . 0 96 . 1 53 . 0           _  _  母比率p（真の内閣支持率）は，95％の信頼度で， 49.8％から56.2％の区間に含まれる．

(5) 母比率pのより厳密な信頼区間

中心極限定理 これをpについて解き，確率変数 を実現値で置き換えれば信頼区間を作成できる 近似の度合いは高い ただし，nが大きければ，それほど大きな差はない（教科書 の練習問題12） 95 . 0 96 . 1 ) 1 ( 96 . 1 ) 1 , 0 ( ) 1 ( _               n p p p X P N n p p p X Z ～ X pˆ 95 . 0 4 96 . 1 ) 1 ( 96 . 1 2 96 . 1 96 . 1 4 96 . 1 ) 1 ( 96 . 1 2 96 . 1 96 . 1 2 2 2 2 2 2 2 2 _                                   n n X X n X n n p n n X X n X n n P

２点推定量の特性

(1) 点推定量のもつ望ましい特性 区間推定 未知の母平均（あるいは，一般にパラメータ）について区間を設定し，そこに含まれる確からしさ（信頼係数）を付与することによって推定 点推定 ある一つの推定値によって，母集団の情報（パラメータ）を推定する しかし，推定値（標本平均）は，一般にパラメータ（母平均）に一致しない（一致する確率は0）教科書277-284ページ

母平均と母比率の点推定量

母平均μの点推定量： 標本平均 例：日本全体の平均貯蓄残高の推定値として，約9000世帯を調査した貯蓄残高の平均約1600万円を用いる． 母比率pの点推定量： 標本比率 名古屋地区のある番組の視聴率は，抽出された600世帯の視聴率が20％だったので，20％であると推定した．  一般に推定値は母平均や母比率とは一致していない なぜ，それなのに推定量として用いるか  いくつかの望ましい特性をもっている）点推定値（ x X ）点推定値（ p X ˆ p p x,ˆ

(2) 不偏性

ある推定量の標本分布の平均が，推定しようとするパラメータと一致する＝不偏性 標本平均は不偏性をもつ 標本平均Xの標本分布の平均＝母平均μ  ) , ( 2 n N Xの標本分布～  不偏性をもたない推定量

不偏性（続）

不偏性は，推定量のもつ望ましい特性の１つ  １つ１つの推定値は，パラメータをあててはいない  しかし，全体としてみれば（平均すると），パラメータをうまくあてている 真の値を過大に推定する場合と，過小に推定する場合のバランスがとれている 標本比率も母比率の不偏推定量 メディアンやモードは不偏推定量ではない ⇒平均がメディアンなどより代表値として，よく用いられる理由

(5)

(3) 推定量の分散と有効性 不偏推定量 一般に，推定量とパラメータは一致しない どの程度一致していないか（＝誤差）を考える 標本分布の散らばりが大きい ⇒推定量がパラメータから離れたところに落ちる可能性が高い 標本分布の散らばりが小さい ⇒推定量がパラメータの近くに落ちる可能性が高いであっても，標本分布の散らばりが小さければ，標本平均の精度は高い（はμに近い）   x x  X

最小分散性

 不偏推定量の標本分布の分散は，小さいほど望ましい（誤差が小さい）  標本平均の標本分布の分散 一定の条件のもとで，最小の分散をもつ不偏推定量であることがわかっている 母集団が正規分布の場合 母集団が正規分布でなくても，線形不偏推定量のなかで最小の分散をもつ いずれにせよ，標本平均は標本分布の分散（＝誤差）が小さい推定量であることがわかっている cf. メディアン

(5) 一致性

不偏推定量の標本分布の分散 ⇒小さいほど望ましい データ数nが大きくなると，分散が0に近づく場 合，一致性をもつという  nが大→推定量がパラメータに近づく 標本平均の標本分布の分散＝  nが大きくなると0に近づく  nが大きいと，標本平均は 母平均に近い値をとる可能性が高い  ˆ nが大 a   a   n 2 

不偏推定量の誤差

誤差（精度）＝推定量の標本分布の散らばり（標準偏差で測ることが多い） 標本分布の標準偏差のことを，標準誤差という 標準誤差が大きい →推定量の誤差が大きい（精度が低い） 標準誤差が小さい →推定量の誤差が小さい（精度が高い）

３ 標本の大きさの決定

(1) 標準誤差 推定値の誤差＝標本分布の散らばり＝標本分布の標準偏差で測定される（単位が平均と同じなので，分散より利用しやすい） n  •標本平均の場合 _{•標本比率の場合} n pq 95％の信頼区間 ) 1 , 1 ( 0.975 0.975     n s t x n s t x (ˆ 1.96 ˆˆ, ˆ 1.96 ˆˆ) n q p p n q p p  教科書 284-289ページ

誤差

の大きさは何によって決まるか

1.

σ（母集団の標準偏差） • コントロールできない（一定）

2.

データ数n • コントロール可能 • nが大きいほど，誤差は小さい • データ数を２倍にする →誤差は1/2にならず， →精度は倍 n  ... 707 . 0 2 1  • 推定値の精度を２倍（誤差を半分）にするためには，データ数を４倍にする必要がある 2

(6)

推定値の精度とデータの個数

誤差＝標準誤差で測る 精度＝誤差と反比例 精度を２倍（＝誤差を2分の1） ⇒データ数を４倍にする必要がある 精度を3倍（＝誤差を3分の1） ⇒データ数を9倍にする必要がある 精度をk倍（＝誤差をk分の1） ⇒データ数をk2_{倍にする必要がある} n  n  n n   ・ 2 1 4  nを４倍 ※比率の場合も同様  比率の場合  よりが誤差になる

具体的な誤差の大きさ

（信頼係数95%） ) , ( ~ n pq p N X 平均の場合  よりが誤差になる n pq 96 . 1 

n



96 .

1 

) , ( ~ 2 n N X  ⇒真の平均より上下にの誤差を考える n  96 . 1 ⇒真の比率より上下にの誤差を考えるこのイメージは、現在表示できません。

(2) 比率の推定と標本の大きさ

標本の大きさ（=データ数n）をいくつすればよいか ⇒誤差をどの程度に抑えるかによって決定される 誤差を±a 以下にする場合 →pに適当な数値を与えて をnについて解く a n pq  96 . 1

標本の大きさの決定の例

（285-286ページ） 信頼係数95％の場合の誤差 誤差を1%以内に収める→a=0.01  p=0.2とすると a n pq  96 . 1 について解く n n    01 . 0 ) 2 . 0 1 ( 2 . 0 96 . 1 56 . 6146 01 . 0 8 . 0 2 . 0 96 . 1 01 . 0 8 . 0 2 . 0 96 . 1 01 . 0 8 . 0 2 . 0 96 . 1 2 2 2 2 2 2          n n n n よって，6147人以上

(3) 平均値の推定と標本の大きさ

誤差を±c以下にする →σに適当な数値を与えてをnについて解く ただし，σや cに数値を与えることは困難な場合 が多い c n   96 . 1 n  96 . 1 平均の誤差：

４ 母分散

σ

2

_の推定

母分散についても，平均と同様に考えることができる 推定量として，標本分散を用いる 標本分散の標本分布を考え， 標本分布の平均 標本分布の分散によって，推定量を判断する 推定量としては，偏差２乗和をnではなく，n-1で わった分散を用いることが多い（不偏性） 区間推定を行う教科書289-294ページ

(7)

12章

仮説検定

１仮説検定の考え方 (1) 簡単な例 (2) 帰無仮説と対立仮説 (3) 仮説の判定方法 (4) 棄却域，受容域，有意水準 (5) 検定統計量 (6) ２種類の過誤 (7) 仮説検定の手順のまとめ２母平均μの片側検定 (1) 母平均μの片側検定の例 (2) 母平均μの片側検定の手順 (3) 母比率pの片側検定３母平均μの両側検定 (1)母平均μの両側検定 (2)母比率pの両側検定４平均値の差の検定 (1)母分散が等しい場合の平均値の差の検定 (2)母分散が等しくない場合の平均値の差の検定５適合度検定と分割表の検定 (1)適合度検定 (2)独立性の検定６その他の検定

１ 仮説検定の考え方

(1) 簡単な例例題12.1： 10円玉を投げて表が出る確率が0.5かどうか調べる 知りたいのは母集団の比率（真の比率）p  pが0.5かどうかを検証したい ⇒信頼区間によって，検証する．．．． 1 0 0 1 1 ．．1 0 1 0 ．． 1 0 0 0 1 1 0 0 1 ．．．．．．．0 1 0 ． 1 0 0．． 0 1 0．． . .. 母集団 ? 5 . 0  p 標本 61 . 0 ˆ p であるとはいえないは％の信頼区間　の信頼係数 0.5 ) 706 . 0 , 514 . 0 ( 95 100 , 61 . 0 ˆ p p n p      ないであることは否定できは0.5 ) 677 . 0 , 483 . 0 ( 100 , 58 . 0 ˆ p n p      表が出たら1,裏が出たら0 ※1の割合=1,0データの平均=表の比率

(2) 帰無仮説と対立仮説

p=0.5かどうか判定したい ⇒pの信頼区間に0.5が含まれているかどうかで 判定できる p=0.5という仮説 (hypothesis) を検定する (test) という 特に，検定したいp=0.5 を帰無仮説といい，H0で表す H₀: p = 0.5 ※p ≠ 0.5：対立仮説（ H1 : p ≠ 0.5 ） （統計的）仮説検定の問題通常は，信頼区間を作成せずに，より直接的な検定を行う ex. サイコロで3の目が出る確率を判 定したければ， H0: p=1/6

(3) 仮説の判定方法

p=0.5 がデータと矛盾するかどうかで判定する データと矛盾する ⇒データから計算された比率が0.5からかなり離れる データと矛盾しない ⇒ データから計算された比率が0.5に近い 判定結果 ① p=0.5 がデータと矛盾したら， p ≠ 0.5と判定する ⇒帰無仮説は否定（棄却）される⇒対立仮説が正しい ②p=0.5 がデータと矛盾していなかったら， p= 0.5と判定する ⇒帰無仮説は否定（棄却）されない⇒受容される

仮説の棄却・採択

帰無仮説H₀が否定される 帰無仮説H₀が棄却される(reject) という ⇒対立仮説H₁が正しい 対立仮説H1が採択される(accept) という 帰無仮説H₀が否定されない 帰無仮説H₀が棄却されない 帰無仮説H₀が受容される  H0が正しいという言い方は正確ではない 通常は，否定したいことを帰無仮説に設定する 要は，帰無仮説H₀が棄却されるか，棄却されないかをデータによって判定することが，仮説検定 どの値を基準に判定を決めるかが問題 0: 0.5 1: 0.5 H p vs H p 帰無仮説と標本比率の標本分布  H₀: p=0.5のもとでの，標本比率の標本分布  H₀: p=0.5が正しければ，データから計算された標本 比率の値は0.5付近の値をとりやすい  そこで，を計算して判定する X ) 0025 . 0 , 5 . 0 ( ) , ( N n pq p N  100 0.0025 5 . 0 5 . 0  _  n pq ※ pˆ pˆ X N(0.5,0.0025) 0.5

(8)

標本比率の実現値による判定  H₀: p=0.5が正しければ，標本比率は平均0.5の正 規分布に従う ⇒データから計算されたが0.5付近の値をとりやすい  を計算した結果， ① が0.5付近の値をとった ⇒帰無仮説は受容される（当然のこと） ② が0.5から離れた値をとった ⇒２通りの解釈が可能 (1) たまたまめずらしいことが起こった (2) 帰無仮説が間違っている（棄却） ⇒(2) の立場をとる pˆ pˆ X pˆ N(0.5,0.0025) 0.5 pˆ pˆ   pˆ

(4) 棄却域，受容域，有意水準

 がどのくらい0.5から離れていれば，帰無仮説を棄却するか？ たまたま起こったとは言えない位離れた値を（起こりうる確率が十分に小さくなるように），その境界とする その境界を臨界値，棄却点という 基準となる確率が5％以下になるようにする  <臨界値₁,または >臨界値₂ ⇒帰無仮説を棄却する ⇒対立仮説を採択する 臨界値₁≦ ≦臨界値₂ ⇒帰無仮説を棄却しない（受容する） pˆ pˆ pˆ ⇒受容域 ⇒棄却域棄却域棄却域 0.5 5％臨界値2 臨界値1 N(0.5,0.0025) 受容域 pˆ

有意水準

仮説検定で用いる5％（ないしは1％）の値を有意水準という 有意水準 ＝帰無仮説 H₀が正しいにもかかわらず，それを棄却してしまう確率 ＝帰無仮説を棄却した場合，それが誤り (error) を犯 している確率 有意水準には，5％や1％がよく用いられる

臨界値（棄却域）の決め方

H₀: p=0.5のもとで有意水準を5％とすると，となるようにa,bを求める 中心極限定理より 95 . 0 ) (aX b  P 95 . 0 ) 598 . 0 402 . 0 ( 100 , 5 . 0 5 . 0 1 , 5 . 0 95 . 0 96 . 1 96 . 1 95 . 0 96 . 1 96 . 1                                 X P n q p n pq p X n pq p P n pq p X P を代入して ) , ( ~ n pq p N X を棄却するならばまたは 5 . 0 : H 598 . 0 ˆ 402 . 0 ˆ 0     p p p 0.5 5％ N(0.5,0.0025) b a

(5) 検定統計量

標本比率の実現値によって，帰無仮説を棄却するかどうか判断 いちいち上の不等式を解くのは面倒なので，より一般的な検定を考える 棄却域を固定し，検定統計量Z₀により検定を行う pˆ X n pq p X Z n pq p N X~ ( , )   96 . 1 96 . 1 95 . 0 ) 96 . 1 96 . 1 ( ) 1 , 0 ( ~ : 0 0 0 0 0 0 0 0 0            z z Z P N n q p p X Z p p H またはよって棄却域は，のもとで 2 . 2 100 5 . 0 5 . 0 5 . 0 61 . 0 ˆ 0 0 0 0       n q p p p z 先の例では， 5 . 0 5 . 0 : H0 p なら，p0 ※

(7) 仮説検定の手順のまとめ

1.検定の対象である母集団パラメータについて，帰無仮説H0と対立仮説H1を設定する． 2.検定統計量Wを選択し，H0のもとでのW0の標本分布を求める（W にH0で指定した値を代入したのがW0 ）． 3.有意水準を与えて，W0に対する棄却域を決める. 4.W0 の実現値w0をデータから計算 5.判定  w0が棄却域に入った⇒帰無仮説H0を棄却する（H1を採択する）  w0が棄却域に入っていない⇒帰無仮説H0を棄却しない（H0 を受容する）

(9)

3 母平均μの両側検定

仮説の設定  帰無仮説H0:μ=a （対立仮説 H1:μ≠a） 検定統計量 棄却域  有意水準を5%とする  P(T<c)=0.975となるcをt分布表より求める ※P(-c<T<c)=0.95  T0<-c またはT0>cが棄却域 データから，を求め，aとnとともにT₀の式に代入してt₀を計算 ⇒棄却域に入るかどうかで判定分布の自由度のもとで，分布の自由度 t n n S a X T H t n n S X T 1 ~ 1 1 ~ 1 0 0           棄却域自由度n-1のt分布 -c 0 c 0.05 棄却域 s x, 1 0    n s a x t

例題12.4

（318ページ） 仮説の設定 H₀:μ=80 （対立仮説 H₁:μ≠80） 検定統計量 n=5なので， t分布表より，自由度4では， P(T<2.776)=0.975  棄却域は，T0<-2.776 またはT0>2.776 n=5, より t₀は棄却域に含まれないので，帰無仮説は棄却されない ⇒80グラムである（ことは否定されない）分布の自由度のもとで， t n S X T H ~ 4 1 80 0 0    棄却域自由度4のt分布 -2.776 0 2.776 0.05 棄却域 8 . 0 , 4 . 80   s x i 1 79 -1.4 1.96 2 80 -0.4 0.16 3 81 0.6 0.36 4 81 0.6 0.36 5 81 0.6 0.36 合計 402 0 3.2 平均 80.4 s2 _0.64 s 0.8 i x xix (xix)2 1 1 5 8 . 0 80 4 . 80 1 0 0        n s x t 

母比率

pの両側検定

pˆ 仮説の設定 検定統計量 有意水準を0.05とするとP(-1.96<Z<1.96)=0.95より，棄却域は，Z0<-1.96, Z0>1.96 データよりを算出し，z₀を計算 判定  |z0| >c ⇒帰無仮説を棄却し，対立仮説を採択する．  | z0| ≦c ⇒帰無仮説は棄却されない． 0 1 0 0:p p vsH:p p H   n q p p X Z / H 0 0 0 0 0   を代入に ) 1 , 0 ( ~ /n N pq p X Z  n q p p p z / ˆ 0 0 0 0   棄却域 N(0,1) -1.96 0 1.96 0.05 棄却域 pˆ

２ 母平均

μの片側検定

(1) 母平均μの片側検定の例 例題11.1 帰無仮説H0:μ=0 対立仮説H1:μ>0 検定統計量T₀ 棄却域 有意水準を与えて，片側に設定する P(T<c)=0.95としたとき，T0>cが棄却域分布の自由度のもとで，分布の自由度 t n n S X n S X T H t n n S X T 1 ~ 1 1 0 1 ~ 1 0 0 _  _          自由度n-1のt分布 0 c 0.05 棄却域 仮説の設定 検定統計量 有意水準αを与えて，棄却域を決める • P(T<c)=1-αとすれば，棄却域はT0>c データよりとsを算出し，t₀を計算 判定  t0>c ⇒帰無仮説を棄却し，対立仮説を採択する．  t0≦c ⇒帰無仮説は棄却されない．

(2) 母平均μの片側検定の手順

1 0 0    n S X T  0 1 0 0: vsH : H 1 / 0 0    n s x t  x 自由度n-1のt分布 0 c 0.05 棄却域 仮説の設定 検定統計量 有意水準αを与えて，棄却域を決める • P(Z<c)=Φ(c)=1-αとすれば，棄却域はT0>c • α=0.05のとき，c=1.645 データよりを算出し，z₀を計算 判定  z0>c ⇒帰無仮説を棄却し，対立仮説を採択する．  z0≦c ⇒帰無仮説は棄却されない．

(3) 母比率pの片側検定

pˆ 0 1 0 0:p p vsH:p p H   n q p p X Z / 0 0 0 0   より ) 1 , 0 ( ~ /n N pq p X Z  n q p p p z / ˆ 0 0 0 0   N(0,1) 0 1.645 0.05 棄却域

(10)

11 章母集団のパラメータの推定練習問題

１．ある株の変化率の過去５か月分のデータは，0.5, 0.5, 1.5, 1.5, 2.0（単位：％）であった．以下の問いに答えよ． (1) データの平均，分散，標準偏差を求めよ．ただし，計算は％のまま行うこと（(3)も同様）． (2) 自由度 4 のｔ分布の97.5%点，すなわち

975 .

0 )

(

P

T

< a

=

となる a を求めよ． (3) 母平均

µ

の信頼係数 95％の信頼区間を求めよ．答えは信頼区間を求めた段階で，小数第３位で四捨五入し，小数第２位まで求めよ． (4) この株を買うべきかどうか（買ったらもうかるかどうか）について， (3)の結果とあわせて簡単に理由をつけて答えよ．２．過去５回の模擬テストの偏差値は，47,47,51,53,55 であった． (1) データの平均，分散，標準偏差を求めよ． (2) 自由度 4 のｔ分布の97.5%点，すなわち

P

(

T

< a

)

=

0 .

975

となる a を求めよ． (3) 母平均

µ

の信頼係数 95％の信頼区間を求めよ．答えは信頼区間を求めた段階で，小数第２位で四捨五入し，小数第１位まで求めよ． (4) 偏差値 46 の大学への合格可能性について， (3)の結果とあわせて簡単に理由をつけて答えよ．また，偏差値が48，56 の大学についても合格可能性を考えよ．３．過去４回の模擬テストの偏差値は，50,50,51,53 であった．２と同様に，偏差値の平均の95％信頼区間をつくり，偏差値が 45，50，55 の大学への合格可能性を判断せよ．４．ある株の4 か月の変化率は 0,0,1,1（単位：％）であった．１と同様に母平均

µ

の信頼係数95％の信頼区間を求め，この株を買ったら利益が出るかどうかについて判断せよ．５．298 ページの練習問題１６．298 ページの練習問題２

i

1 47 2 47 3 51 4 53 5 55 合計平均

s

2

s

i

x

x_i−x 2 ) (xi −x

i

1

0.5

2

0.5

3

1.5

4

1.5

5

2.0 合計

平均

s

2

s

i

x

i

−

x

2

)

(

x

_i

−

x

(11)

７. ある番組の視聴率を調べるために，400 世帯に調査をしたところそのうち 144 世帯がその番組を見ていたという． (1) 視聴率の点推定値を求めよ．ただし，単位は％で答えよ． (2) 真の視聴率の信頼係数 95％の信頼区間を求めよ．答えは，％の単位で，小数第１位まで答えること（はじめに視聴率を小数で計算し，小数第４位で四捨五入し，小数第３位まで求め，信頼区間は％表示で小数第１位まで答えよ）． (3) この番組の視聴率が 30％を越えたかどうかを， (2)の結果とあわせて簡単に理由をつけて答えよ．８. ある地域の現在の失業率を調べるために，労働力人口 6400 人に調査をしたところそのうち640 人が失業していたという．このとき次の問いに答えよ． (1) 失業率の点推定値を求めよ．ただし，単位は％で答えよ． (2) その地域の真の失業率の信頼係数 95％の信頼区間を求めよ．答えは，％の単位で，小数第１位まで答えること（はじめに失業率を小数で計算し，小数第４位で四捨五入し，小数第３位まで求め，信頼区間は％表示で小数第１位まで答えよ）． (3) この失業率の過去最高値は 9.6％であることがわかっている．現在の失業率が過去の最高値を越えたかどうかを， (2)の結果とあわせて簡単に理由をつけて答えよ．９．298 ページの練習問題４ 10．299 ページの練習問題５ 11．299 ページの練習問題６ 12. 2016 年 11 月 21 日(月) ～ 11 月 27 日(日)の週の関東地区のアニメ番組の視聴率で，第１位は「サザエさん」で14.2％，第２位は「ちびまるこちゃん」で 10.0％であった（ビデオリサーチによる視聴率調査）． (1) それぞれの番組の視聴率の 95％信頼区間を作成せよ．ただし，標本の大きさは 600 とする（はじめに小数で計算し，小数第４位で四捨五入し，小数第３位まで求め，信頼区間は％表示で小数第１位まで答えよ）． (2) 「サザエさん」が第１位といってよいかどうか，(1)の結果をもとに判断せよ． 13. 2016 年 10 月の完全失業率は，3.0%である．標本の大きさを 60000 として，信頼係数 95%の信頼区間をつくり，その誤差の範囲について考えよ． 14. 2016 年 10 月の男の完全失業率は 3.2%，女の完全失業率は 2.7%であった．男女別に失業率の95％信頼区間をつくり，男女の失業率に差があるかどうかを答えよ．ただし，男の標本を35000，女の標本を 25000 とする．

(12)

15. 日本経済新聞社とテレビ東京が第二次安倍内閣発足直後の 2012 年 12 月 26~27 日に実施した世論調査において，内閣支持率は62％，不支持率は 29％であった． (1) 有効回答数（標本の大きさ）を 872 として，内閣支持率の信頼係数 95％の信頼区間を求めよ． (2) 2006 年 9 月の第一次安倍内閣発足時の内閣支持率は 71％であった．第一次安倍内閣発足時の支持率を所与として，第二次安倍内閣の発足時の支持率が第一次のそれを下回っているかどうかを判断せよ． (3) 不支持率の信頼係数 95％信頼区間をつくり，支持率の信頼区間と比較せよ． 16．朝日新聞が 2016 年 10 月 15～16 日に実施した世論調査で，「トランプさんがアメリカの大統領になることで，日米関係はよい方向に向かうと思いますか．悪い方向に向かうと思いますか．それとも変わらないと思いますか」という質問を行ったところ，49％が「変わらないと思う」と答えた．「変わらない」と回答した割合の信頼係数95％の信頼区間を作成し，その割合が50％を下回っているかどうか判断せよ．ただし，有効回答数を 1973 とする．また，「よい方向に向かうと思う」と「悪い方向に向かうと思う」を合わせた回答の割合，つまり変わると思うと回答した割合は 31％であった．変わると回答した割合の信頼係数 95％の信頼区間を作成し，「変わらない」と回答した方が上回っているかどうかを判断せよ． 17. 100 人についてある調査を行ったところ誤差が大きかった．そこで誤差を 1/2（精度を２倍）にするためには，標本の大きさを何人にすればよいか．また，誤差を1/3 にしたい場合はどうか． 18．視聴率調査で真の視聴率が p=0.1 のときの誤差を求めよ．ただし，信頼係数は 95％， n=600 とする．また，p=0.2,p=0.3 についても，同様の計算を行え． 19. 視聴率調査（世論調査などでもよい）で誤差の範囲を±2％に押さえたい場合，標本の大きさはどのくらいにすればよいか．ただし，母集団比率が5%の場合と 10%の場合，それぞれについて求めよ．ただし，信頼係数を95％とする． 20．失業率の誤差を 1％以下にするためには，何人について失業に関する調査を行えばよい か．ただし，p=0.05 として求めよ．また，0.1%以下にするためには，何人の標本が必要か． 21.ある工場の製品の不良品の発生率は２％程度であることがわかっている．不良品発生率の誤差が1％以内になるようにするには，いくつの製品を調べればよいか．95％の信頼係数について求めよ． 22．平均貯蓄額を調査するのに，誤差を 30 万円以下にするには，何世帯を調査すればよいか．信頼係数を95%として答えよ．ただし，母集団の標準偏差をσ_{=1500 万円とする．} 23．何回かテストを受けて，その偏差値の平均を求めるとき，誤差を 3 以下にするためには，何回テストを受ける必要があるか．ただし，母集団の標準偏差が5 の場合と 2 の場合，それぞれについて求めよ． 24．299 ページの練習問題８

(13)

12 章仮説検定練習問題

１．過去５回の模擬テストの偏差値は，50,51,51,51,51 であった． (1) データの平均，分散，標準偏差を求めよ． (2) 自由度 4 の t 分布の 97.5%点，すなわち

P

(

t

 a

)



0 .

975

となる a を求めよ． (3) 母平均μの信頼係数 95％の信頼区間を求めよ．答えは信頼区間を求めた段階で，小数第２位で四捨五入し，小数第１位まで求めよ． (4) 偏差値の平均が 50 を上回ったかについて， (3)の結果とあわせて簡単に理由をつけて答えよ． (5) (4)を仮説検定の問題として次のように考えた．文中の（）に最もよくあてはまる語句・数値を答えよまず

H

₀

:





50 ,

H

₁

:





50

という２つの仮説を立てた．ここで H0は（）仮説， H1は（）仮説と呼ばれる．H0が正しいとすると， 1 50 0    n S X T は，自由度（）の t 分布に従うことがわかっている．そこで，T 0の実現値 t0 （t 値）を計算すると（）となる．自由度（）の t 分布で

P

(



a



t



a

)



0 .

95

を満たす a の値は t 分布表より（）である． t0（t 値）の絶対値は a よりも 大きいので， H0は有意水準（）％で（）される．したがって，偏差値の平均は50 ではないという結論が得られる．

i

1

50

2

51

3

51

4

51

5

51 合計

平均

_s

2 i

x

_i



x

2

)

(

x

_i



x

)

1 ,

1 (

95

975 . 0 975 . 0







n

s

t

x

n

s

t

x

％の信頼区間の公式

信頼係数

(14)

２．ある工場では，内容量が 300 グラムとなるように缶詰を生産している．生産された缶詰から無作為に選んだ５個の内容量を調べたところ，299,299,299,300,301 (単位:グラム) だった． (1) データの平均，分散，標準偏差を求めよ． (2) 自由度 4 の t 分布の 97.5%点，すなわち

P

(

t

 a

)



0 .

975

となる a を求めよ． (3) 母平均μの信頼係数 95％の信頼区間を求めよ．答えは信頼区間を求めた段階で，小数第２位で四捨五入し，小数第１位まで求めよ． (4) この工場で生産される缶詰の内容量が 300 グラムを下回ったかについて， (3)の結果をもとに簡単に理由をつけて答えよ． (5) (4)を仮説検定の問題として次のように考えた．文中の（）に最もよくあてはまる語句・数値を答えよまず

H

₀

:





300 ,

H

₁

:





300

という２つの仮説を立てた．ここで H0は（）仮説， H1は（）仮説と呼ばれる．H0が正しいとすると，

1

300

0





n

S

X

T

は，自由度（）の t 分布に従うことがわかっている．そこで，T 0の実現値 t0 （t 値）を計算すると（）となる．自由度（）の t 分布で

P

(



a



t



a

)



0 .

95

を満たす a の値は t 分布表より（）である．

t

0（t 値）の値は a よりも絶対値が小さいので，H0は（）5％で（）されない．よって，缶詰の内容量が300 グラムであるという仮説は否定されない．

)

1 ,

1 (

95

975 . 0 975 . 0







n

s

t

x

n

s

t

x

％の信頼区間の公式

信頼係数

i

1

299

2

299

3

299

4

300

5

301 合計

平均

_s

2

s

i

x

_i



x

2

)

(

x

_i

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

11章 母集団パラメータの推定

１ 信頼区間

点推定と区間推定

母平均の推定

(2) 区間推定のシミュレーション





母平均の区間推定

（参考）区間の導出方法

(3) 母平均μの信頼区間

信頼係数と信頼区間

信頼係数

(270ページ)

母平均

μの信頼区間

の公式





母平均

μの信頼区間の計算例：例題11.1

(4) 母比率pの信頼区間

母比率

pの信頼区間の導出

)

ˆ

ˆ

96

.

1

ˆ

,

ˆ

ˆ

96

.

1

ˆ

(

n

q

p

p

n

q

p

p





(5) 母比率pのより厳密な信頼区間

２ 点推定量の特性

母平均と母比率の点推定量

(2) 不偏性

不偏性（続）

最小分散性

(5) 一致性

不偏推定量の誤差

３

標本の大きさの決定

誤差

の大きさは何によって決まるか

1.

2.

推定値の精度とデータの個数

具体的な誤差の大きさ

n



96

.

1



(2) 比率の推定と標本の大きさ

標本の大きさの決定の例

(3) 平均値の推定と標本の大きさ

４

母分散

σ

の推定

12章

仮説検定

統計学 Ⅱ( 章 ( 区間推定のシミュレーション母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

11章母集団パラメータの推定

１信頼区間

２点推定量の特性

_の推定

11 章母集団のパラメータの推定練習問題

12 章仮説検定練習問題