• 検索結果がありません。

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

N/A
N/A
Protected

Academic year: 2021

シェア "統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団"

Copied!
14
0
0

読み込み中.... (全文を見る)

全文

(1)

11章 母集団パラメータの推定

1.信頼区間 (1) 点推定と区間推定 (2) 区間推定のシミュレーション (3) 母平均μの信頼区間 (4) 母比率pの信頼区間 (5) 母比率pのより厳密な信頼区間 2.点推定量の特性 (1) 標本平均 の持つ望ましい性質 (2) 不偏性 (3) 推定量の分散と有効性 (4) 平均2乗誤差MSEと最小分散性 (5) 一致性 (6) チェビシェフの不等式 3.標本の大きさの決定 (1) 標準誤差 (2) 比率の推定と標本の大きさ (3) 平均値の推定と標本の大き さ 4.母分散σ2の推定 (1) 標本分散の性質 (2) 標本分散S2の標本分布と χ2分布 (3) 母分散σ2の信頼区間 5.最尤法 (1) 最尤法の考え方 (2) 尤度と最尤推定値 (3) 最尤推定値の例 X

1 信頼区間

(1) 点推定と区間推定 統計学の基本的な考え方(10章参照) データ=母集団から抽出された標本 知りたいことは母集団の情報(パラメータ) 母(集団)平均μ 母(集団)比率 pなど しかし,それらは未知 知ることができるのは,標本のデータとそこから計算された 統計量の実現値 標本平均 標本比率 など 既知の標本(データ)の情報から,未知の母集団に 関する情報をいかに推定するかが問題 x 教科書266-277ページ 母集団: 名古屋地区全体 .... .... ... .... ... .. .. .... ..... ... .... .... .. .... ... .. ..... ... ... ... 標本: 調査世帯(600世帯) .... .... ... .... .. . .. 20%の視聴率 p=? 推定 標本抽出 視聴率調査 

点推定と区間推定

母比率の推定:標本比率の標本分布 の性質を利用  標本比率 の標本分布の平均=母集団比率p →標本比率で母比率を推定する(点推定)  しかし,個々の  1つの推定値で正確な推定は不可能  母集団の値は,実際にはわからない 一定の区間に母集団の値(母比率)が入るような推定値を つくる=区間推定  推定値の精度を反映させる p pˆ X の実現値 X p :ˆ p の標本分布 X X  区間で推定することの意義: 推定値の精度を反映 例  n=5000に対する視聴率調査の結果のn=500 に対する視聴率調査の結果の 結果(点推定値)は同じだが,もっている意味は異なる 結果の精度は,n=5000の方が高い(なぜか?) 「精度」をどのように測るか 標本平均の標本分布の分散(小さいほど精度が高い) 区間で推定を行う(区間推定) ex. n=5000では,0.19~0.21に真の視聴率が含まれる n=500 では, 0.16~0.24に真の視聴率が含まれる 2 . 0 ˆ p 2 . 0 ˆ p n pq p X .... .... ... .... ... . .. .... .. ... .... .... . .... .... . .... .. 母集団 N x1, x2, : xn 標本 母平均 μ=? 1600  x 推定

母平均の推定

ex. 日本の平均貯蓄残高  母平均の推定:標本平均の 標本分布の性質を利用  標本平均 の標本分布 の平均=母集団平均μ →標本平均で母平均を推定 する(点推定)  しかし,個々の 1つの推定値で正確な推 定は不可能  一定の区間に母平均が入 るような推定値をつくる= 区間推定   x X  の標本分布 X X x

(2)

(2) 区間推定のシミュレーション

母平均μの区間推定  のとき 自由度n-1のt分布97.5%点:t0.975 この式にTを代入する

, 2

~N Xi 分布 の 自由度n t n S X T ~ 1 1      t0.975Tt0.9750.95 P 975 . 0 t .... .... ... .... ... .. ... .... .... .. .... ... .. ..... ... ... ... 母集団 ... . .. . .. 標本n ... . .. . .. 標本n ... . .. . .. 標本n ・ ・ ・ ... . .. . .. 標本n x x x x ・ ・ ・ ) , ( 2 n N   の標本分布 X ) 1 , 0 ( N Z~ 基準化変量Z σをsで 置換え 1    n s x tn x z     ・ ・ ・ n x z     n x z     n x z     T ~ 自由度 n-1のt分布 1    n s x t  ・ ・ ・ 1    n s x t  1    n s x t  母集団分布 ) , (2 N μ=? T統計量

母平均の区間推定

μについて解くと ⇒区間 のなかに母平均が含まれる確率が95% cf.標本分布(標本ごとに やSはいろいろな値をとる)           1 , 1 0.975 975 . 0 n S t X n S t X 表11-1 (269 ページ)参照 95 . 0 1 0.975 975 . 0            t n S X t Pμ:未知 95 . 0 1 1 0.975 975 . 0             n S t X n S t X PX

(参考)区間の導出方法

μについて解く(未知なのはμ だけ) 95 . 0 1 0.975 975 . 0            t n S X t P  95 . 0 ) 1 1 ( P 95 . 0 ) 1 1 ( P 95 . 0 ) 1 1 ( P 95 . 0 ) 1 / ( P 975 . 0 975 . 0 975 . 0 975 . 0 975 . 0 975 . 0 975 . 0 975 . 0                               n S t X n S t X n S t X n S t X n S t X n S t t n S X t    

(3) 母平均μの信頼区間

実際の状況  ある1つの標本のみが抽出される  その標本のデータをもとに標本平均,標本標準偏差が計算さ れる 区間の式に とs を代入  実現値なので,確率変数ではない  確率表現ができない 2 1 2 2 1 , ) ( 1 , 1 x x s s n s x n x n i i n i i       x 95 . 0 1 1 0.975 975 . 0             n s t x n s t x P  95 . 0 1 1 0.975 975 . 0             n S t X n S t X P  は確率変数 , S X

信頼係数と信頼区間

P*( )は確率ではないことを表わす ある実現値をもとに計算した区間には,母平均μが入ってい るか,入っていないか確定している 0.95:確率ではなく,信頼の程度(信頼度)を表わす= 信頼係数 0.95など1に近い(=確からしい)値を用いる 通常は0.95で十分(0.99を用いることもある) 実現値に基づいた母平均μの区間推定値=信頼区間 95 . 0 1 1 0.975 975 . 0 *             n s t x n s t x P

(3)

信頼係数

(270ページ)

信頼係数と確率 信頼係数は確率とは異なった概念 ある信頼区間に母平均は入っているか,入っていないか しかし,信頼区間を何度も作成すると,信頼区間のうちの95%が 母平均を含むことから,確率と似たような解釈が可能 cf.標本分布,表11-1 1-信頼係数=危険度:結論が間違える可能性ex. 0.05 信頼係数には,95%や99%が用いられる 95%の場合は,t 分布表の0.975に対する数値 t 分布の両側を2.5%ずつとるので,0.95ではなく,0.975を用いる 99%の場合は,t 分布表の0.995に対する数値 2.5% 2.5% 95% 97.5%

母平均

μの信頼区間

の公式

信頼係数95%の場合 ただし,t0.975は自由度n-1のt分布の97.5%点 一般的に,信頼係数2γ-1の場合 信頼係数は,通常は95%か99%が用いられる 2 1 2 2 1 , ) ( 1 , 1 x x s s n s x n x n i i n i i    

  ) 1 , 1 ( 0.975 0.975     n s t x n s t x           1 , 1 n s t x n s t x   99 . 0 1 995 . 0 2 1 2 ) ( 995 . 0 % 99 . 0.995             t t ex 信頼係数

母平均

μの信頼区間の計算例:例題11.1

201 . 2 3 . 4 , 4 . 18 , 9 . 2 975 . 0 2     t s s x ) 1 , 1 ( 95 975 . 0 975 . 0 n s t x n s t x %の信頼区間の公式 信頼係数 i 1 -0.9 -3.8 14.63 2 3.1 0.2 0.03 3 -0.6 -3.5 12.43 4 -5.7 -8.6 74.39 5 2.4 -0.5 0.28 6 2.7 -0.2 0.05 7 2.7 -0.2 0.05 8 4.3 1.4 1.89 9 9.3 6.4 40.64 10 0.2 -2.7 7.43 11 9.3 6.4 40.64 12 8.3 5.4 28.89 合計 35.1 0 221.34 平均 2.9 分散 18.4 標準偏差 4.3 x xi 2 ) (xix i x 0.1,5.8 1 12 3 . 4 201 . 2 9 . 2 , 1 12 3 . 4 201 . 2 9 . 2            母平均μ(真の平均)は,95%の信頼度で,0.1から5.8の区間に含まれている

(4) 母比率pの信頼区間

平均と比率は,基本的に同じ 信頼区間についても,同様の式で計算可能 ※ 標本の比率の標準偏差(1,0データの標準偏差)= 比率はデータ数nが大きい場合が多いt分布ではなく,正規分布を用いても構わない (自由度が大きいと,t 分布は標準正規分布で近似できる) →n-1のかわりに,nを用いてもよい( nが大きければnn-1 )         n q p p n q p p pの信頼区間: ˆ 1.96 ˆˆ,ˆ 1.96 ˆˆ ) 1 , 1 (  0.975  0.975 n s t x n s t x の信頼区間   q p ˆˆ

母比率

pの信頼区間の導出

中心極限定理 pについて解き,確率変数 を実現値 で置き換える 95 . 0 96 . 1 ) 1 ( 96 . 1 ) 1 , 0 ( ) 1 ( ) 1 , 0 ( ) 1 (                        n X X p X P N n X X p X Z N n p p p X Z ~ ~ X 95 . 0 ) ˆ 1 ( ˆ 96 . 1 ˆ ) ˆ 1 ( ˆ 96 . 1 ˆ 95 . 0 ) 1 ( 96 . 1 ) 1 ( 96 . 1 *                  n p p p p n p p p P n X X X p n X X X P 標準偏差(分母)を推定量で置き換える   ・・・ は標準正規分布の 点 ※P1.96Z1.960.95 1.96 97.5% ※ 比率の場合,nは十分 大きいことが多い 母比率pの信頼係数95%の信頼区間の公式 ) 58 . 2 ( 995 . 0 % 99 .   zz0.995 ex信頼係数   信頼係数2γ-1の場合

)

ˆ

ˆ

96

.

1

ˆ

,

ˆ

ˆ

96

.

1

ˆ

(

n

q

p

p

n

q

p

p

96 . 1 , ˆ 1 ˆ ˆ q p z0.975 pは標本比率,         n q p z p n q p z pˆ ˆˆ, ˆ ˆˆ

(4)

母比率pの信頼区間の計算例: 例題11.2(275ページ) を代入 908 , 47 . 0 ˆ 1 ˆ , 53 . 0 ˆ     p q p n ) ˆ ˆ 96 . 1 ˆ , ˆ ˆ 96 . 1 ˆ ( 95 n q p p n q p p p   %の信頼区間の公式 の信頼係数 母比率 ) 562 . 0 , 498 . 0 ( ) 032 . 0 53 . 0 , 032 . 0 53 . 0 ( 908 ) 53 . 0 1 ( 53 . 0 96 . 1 53 . 0 , 908 ) 53 . 0 1 ( 53 . 0 96 . 1 53 . 0            母比率p(真の内閣支持率)は,95%の信頼度で, 49.8%から56.2%の区間に含まれる.

(5) 母比率pのより厳密な信頼区間

中心極限定理 これをpについて解き,確率変数 を実現値 で置 き換えれば信頼区間を作成できる 近似の度合いは高い ただし,nが大きければ,それほど大きな差はない(教科書 の練習問題12) 95 . 0 96 . 1 ) 1 ( 96 . 1 ) 1 , 0 ( ) 1 (                n p p p X P N n p p p X ZX 95 . 0 4 96 . 1 ) 1 ( 96 . 1 2 96 . 1 96 . 1 4 96 . 1 ) 1 ( 96 . 1 2 96 . 1 96 . 1 2 2 2 2 2 2 2 2                                    n n X X n X n n p n n X X n X n n P

2 点推定量の特性

(1) 点推定量のもつ望ましい特性 区間推定 未知の母平均(あるいは,一般にパラメータ)について区間 を設定し,そこに含まれる確からしさ(信頼係数)を付与す ることによって推定 点推定 ある一つの推定値によって,母集団の情報(パラメータ)を 推定する しかし,推定値(標本平均)は,一般にパラメータ(母平均) に一致しない(一致する確率は0) 教科書277-284ページ

母平均と母比率の点推定量

母平均μの点推定量: 標本平均 例:日本全体の平均貯蓄残高の推定値として,約9000世帯 を調査した貯蓄残高の平均約1600万円を用いる. 母比率pの点推定量: 標本比率 名古屋地区のある番組の視聴率は,抽出された600世帯の 視聴率が20%だったので,20%であると推定した.  一般に推定値は母平均や母比率とは一致していない なぜ,それなのに推定量として用いるか  いくつかの望ましい特性をもっている ) 点推定値 ( x X ) 点推定値 ( p X ˆ p p x,ˆ

(2) 不偏性

ある推定量の標本分布の平均が,推定しようとする パラメータと一致する =不偏性 標本平均は不偏性をもつ 標本平均Xの標本分布の平均=母平均μ  ) , ( 2 n N Xの標本分布~  不偏性をもたない推定量

不偏性(続)

不偏性は,推定量のもつ望ましい特性の1つ  1つ1つの推定値は,パラメータをあててはいない  しかし,全体としてみれば(平均すると),パラメー タをうまくあてている 真の値を過大に推定する場合と,過小に推定する場合 のバランスがとれている 標本比率も母比率の不偏推定量 メディアンやモードは不偏推定量ではない ⇒平均がメディアンなどより代表値として,よく 用いられる理由

(5)

(3) 推定量の分散と有効性 不偏推定量 一般に,推定量とパラメータは一致しない どの程度一致していないか(=誤差)を考える 標本分布の散らばりが大きい ⇒推定量がパラメータから離れたところに落ちる可能性が高い 標本分布の散らばりが小さい ⇒推定量がパラメータの近くに落ちる可能性が高い であっても,標 本分布の散らばりが小 さければ,標本平均の 精度は高い( はμに 近い)   x xX

最小分散性

 不偏推定量の標本分布の分散は,小さいほ ど望ましい(誤差が小さい)  標本平均の標本分布の分散 一定の条件のもとで,最小の分散をもつ不偏推定 量であることがわかっている 母集団が正規分布の場合 母集団が正規分布でなくても,線形不偏推定量のなかで 最小の分散をもつ いずれにせよ,標本平均は標本分布の分散(=誤 差)が小さい推定量であることがわかっている cf. メディアン

(5) 一致性

不偏推定量の標本分布の分散 ⇒小さいほど望ましい データ数nが大きくなると,分散が0に近づく場 合,一致性をもつという  nが大→推定量がパラメータに近づく 標本平均の標本分布の分散=  nが大きくなると0に近づくnが大きいと,標本平均は 母平均に近い値をとる可能性が高い  ˆ nが大 a   a   n 2 

不偏推定量の誤差

誤差(精度)=推定量の標本分布の散らばり (標準偏差で測ることが多い) 標本分布の標準偏差のことを,標準誤差という 標準誤差が大きい →推定量の誤差が大きい(精度が低い) 標準誤差が小さい →推定量の誤差が小さい(精度が高い)

標本の大きさの決定

(1) 標準誤差 推定値の誤差 =標本分布の散らばり =標本分布の標準偏差で測定される(単位が平均と同じ なので,分散より利用しやすい) n  •標本平均の場合 •標本比率の場合 n pq 95%の信頼区間 ) 1 , 1 ( 0.975 0.975     n s t x n s t x (ˆ 1.96 ˆˆ, ˆ 1.96 ˆˆ) n q p p n q p p  教科書 284-289ページ

誤差

の大きさは何によって決まるか

1.

σ(母集団の標準偏差) • コントロールできない(一定)

2.

データ数n • コントロール可能 • nが大きいほど,誤差は小さい • データ数を2倍にする →誤差は1/2にならず, →精度は 倍 n  ... 707 . 0 2 1  • 推定値の精度を2倍(誤差を半分)にするた めには,データ数を4倍にする必要がある 2

(6)

推定値の精度とデータの個数

誤差=標準誤差で測る 精度=誤差と反比例 精度を2倍(=誤差を2分の1) ⇒データ数を4倍にする必要がある 精度を3倍(=誤差を3分の1) ⇒データ数を9倍にする必要がある 精度をk倍(=誤差をk分の1) ⇒データ数をk2倍にする必要がある nnn n   ・ 2 1 4  nを4倍 ※比率の場合も同様  比率の場合  より が誤差になる

具体的な誤差の大きさ

(信頼係数95%) ) , ( ~ n pq p N X 平均の場合  より が誤差になる n pq 96 . 1 

n

96

.

1

) , ( ~ 2 n N X  ⇒真の平均より上下に の誤差を考える n  96 . 1 ⇒真の比率より上下に の誤差を考える このイメージは、現在表示 できません。

(2) 比率の推定と標本の大きさ

標本の大きさ(=データ数n)をいくつすればよいか ⇒誤差をどの程度に抑えるかによって決定される 誤差を±a 以下にする場合 →pに適当な数値を与えてnについて解く a n pq  96 . 1

標本の大きさの決定の例

285-286ページ) 信頼係数95%の場合の誤差 誤差を1%以内に収める→a=0.01p=0.2とすると a n pq  96 . 1 について解く n n    01 . 0 ) 2 . 0 1 ( 2 . 0 96 . 1 56 . 6146 01 . 0 8 . 0 2 . 0 96 . 1 01 . 0 8 . 0 2 . 0 96 . 1 01 . 0 8 . 0 2 . 0 96 . 1 2 2 2 2 2 2          n n n n よって,6147人以上

(3) 平均値の推定と標本の大きさ

誤差を±c以下にする →σに適当な数値を与えて をnについて解く ただし,σや cに数値を与えることは困難な場合 が多い c n   96 . 1 n  96 . 1 平均の誤差:

母分散

σ

2

の推定

母分散についても,平均と同様に考えること ができる 推定量として,標本分散を用いる 標本分散の標本分布を考え, 標本分布の平均 標本分布の分散 によって,推定量を判断する 推定量としては,偏差2乗和をnではなく,n-1で わった分散を用いることが多い(不偏性) 区間推定を行う 教科書289-294ページ

(7)

12章

仮説検定

1 仮説検定の考え方 (1) 簡単な例 (2) 帰無仮説と対立仮説 (3) 仮説の判定方法 (4) 棄却域,受容域,有意水準 (5) 検定統計量 (6) 2種類の過誤 (7) 仮説検定の手順のまとめ 2 母平均μの片側検定 (1) 母平均μの片側検定の例 (2) 母平均μの片側検定の手順 (3) 母比率pの片側検定 3 母平均μの両側検定 (1)母平均μの両側検定 (2)母比率pの両側検定 4 平均値の差の検定 (1)母分散が等しい場合の平 均値の差の検定 (2)母分散が等しくない場合 の平均値の差の検定 5 適合度検定と分割表の検定 (1)適合度検定 (2)独立性の検定 6 その他の検定

仮説検定の考え方

(1) 簡単な例 例題12.1: 10円玉を投げて表が出る確率が0.5かどうか調べる 知りたいのは母集団の比率(真の比率)ppが0.5かどうかを検証したい ⇒信頼区間によって,検証する .... 1 0 0 1 1 . .1 0 1 0 .. 1 0 0 0 1 1 0 0 1 .. .. .. .0 1 0 . 1 0 0.. 0 1 0.. . .. 母集団 ? 5 . 0  p 標本 61 . 0 ˆ p であるとはいえない は %の信頼区間  の信頼係数 0.5 ) 706 . 0 , 514 . 0 ( 95 100 , 61 . 0 ˆ p p n p      ない であることは否定でき は0.5 ) 677 . 0 , 483 . 0 ( 100 , 58 . 0 ˆ p n p      表が出たら1,裏が出たら0 ※1の割合=1,0データの平均=表の比率

(2) 帰無仮説と対立仮説

p=0.5かどうか判定したいpの信頼区間に0.5が含まれているかどうかで 判定できる p=0.5という仮説 (hypothesis) を検定する (test) という 特に,検定したいp=0.5 を帰無仮説といい,H0で表す H0 : p = 0.5p ≠ 0.5:対立仮説( H1 : p ≠ 0.5 ) (統計的)仮説検定の問題 通常は,信頼区間を作成せずに,より直接的な検定を行う ex. サイコロで3の目が出る確率を判 定したければ, H0: p=1/6

(3) 仮説の判定方法

p=0.5 がデータと矛盾するかどうかで判定する データと矛盾する ⇒データから計算された比率が0.5からかなり離れる データと矛盾しない ⇒ データから計算された比率が0.5に近い 判定結果 ① p=0.5 がデータと矛盾したら, p ≠ 0.5と判定する ⇒帰無仮説は否定(棄却)される⇒対立仮説が正しい ②p=0.5 がデータと矛盾していなかったら, p= 0.5と判定する ⇒帰無仮説は否定(棄却)されない⇒受容される

仮説の棄却・採択

帰無仮説H0が否定される 帰無仮説H0が棄却される(reject) という ⇒対立仮説H1が正しい 対立仮説H1が採択される(accept) という 帰無仮説H0が否定されない 帰無仮説H0が棄却されない 帰無仮説H0が受容される  H0が正しいという言い方は正確ではない 通常は,否定したいことを帰無仮説に設定する 要は,帰無仮説H0が棄却されるか,棄却されないか をデータによって判定することが,仮説検定 どの値を基準に判定を決めるかが問題 0: 0.5 1: 0.5 H pvs H p 帰無仮説と標本比率の標本分布  H0: p=0.5のもとでの,標本比率 の標本分布  H0: p=0.5が正しければ,データから計算された標本 比率の値 は0.5付近の値をとりやすい  そこで, を計算して 判定する X ) 0025 . 0 , 5 . 0 ( ) , ( N n pq p N  100 0.0025 5 . 0 5 . 0  n pq X N(0.5,0.0025) 0.5

(8)

標本比率の実現値による判定  H0: p=0.5が正しければ,標本比率 は平均0.5の正 規分布に従う ⇒データから計算された が0.5付近の値をとりやすい  を計算した結果, ① が0.5付近の値をとった ⇒帰無仮説は受容される(当然のこと) ② が0.5から離れた値をとった ⇒2通りの解釈が可能 (1) たまたまめずらしいことが起こった (2) 帰無仮説が間違っている(棄却) ⇒(2) の立場をとる X N(0.5,0.0025) 0.5  

(4) 棄却域,受容域,有意水準

 がどのくらい0.5から離れていれば,帰無仮説を 棄却するか? たまたま起こったとは言えない位離れた値を(起こりうる確 率が十分に小さくなるように),その境界とする その境界を臨界値,棄却点という 基準となる確率が5%以下になるようにする  <臨界値1,または >臨界値2 ⇒帰無仮説を棄却する ⇒対立仮説を採択する 臨界値1≦ ≦臨界値2 ⇒帰無仮説を棄却しない(受容する) ⇒受容域 ⇒棄却域 棄却域 棄却域 0.5 5% 臨界値2 臨界値1 N(0.5,0.0025) 受容域

有意水準

仮説検定で用いる5%(ないしは1%)の値を有意水 準という 有意水準 =帰無仮説 H0が正しいにもかかわらず,それを棄却 してしまう確率 =帰無仮説を棄却した場合,それが誤り (error) を犯 している確率 有意水準には,5%や1%がよく用いられる

臨界値(棄却域)の決め方

H0: p=0.5のもとで有意水準を5%とすると, となるようにa,bを求める 中心極限定理より 95 . 0 ) (aXbP 95 . 0 ) 598 . 0 402 . 0 ( 100 , 5 . 0 5 . 0 1 , 5 . 0 95 . 0 96 . 1 96 . 1 95 . 0 96 . 1 96 . 1                                 X P n q p n pq p X n pq p P n pq p X P を代入して ) , ( ~ n pq p N X を棄却する ならば または 5 . 0 : H 598 . 0 ˆ 402 . 0 ˆ 0     p p p 0.5 5% N(0.5,0.0025) b a

(5) 検定統計量

標本比率 の実現値 によって,帰無仮説を棄却 するかどうか判断 いちいち上の不等式を解くのは面倒なので,より一般的な 検定を考える 棄却域を固定し,検定統計量Z0により検定を行う X n pq p X Z n pq p N X~ ( , )   96 . 1 96 . 1 95 . 0 ) 96 . 1 96 . 1 ( ) 1 , 0 ( ~ : 0 0 0 0 0 0 0 0 0            z z Z P N n q p p X Z p p H または よって棄却域は, のもとで 2 . 2 100 5 . 0 5 . 0 5 . 0 61 . 0 ˆ 0 0 0 0       n q p p p z 先の例では, 5 . 0 5 . 0 : H0 p なら,p0 ※

(7) 仮説検定の手順のまとめ

1.検定の対象である母集団パラメータについて,帰無 仮説H0と対立仮説H1を設定する. 2.検定統計量Wを選択し,H0のもとでのW0の標本分布 を求める(W にH0で指定した値を代入したのがW0 ). 3.有意水準を与えて,W0に対する棄却域を決める. 4.W0 の実現値w0をデータから計算 5.判定  w0が棄却域に入った⇒帰無仮説H0を棄却する(H1を採択す る)  w0が棄却域に入っていない⇒帰無仮説H0を棄却しない(H0 を受容する)

(9)

3 母平均μの両側検定

仮説の設定  帰無仮説H0:μ=a (対立仮説 H1:μ≠a) 検定統計量 棄却域  有意水準を5%とする  P(T<c)=0.975となるcをt分布表より求める ※P(-c<T<c)=0.95T0<-c またはT0>cが棄却域 データから, を求め,aとnとともにT0の式に代入してt0を計算 ⇒棄却域に入るかどうかで判定 分布 の 自由度 のもとで, 分布 の 自由度 t n n S a X T H t n n S X T 1 ~ 1 1 ~ 1 0 0           棄却域 自由度n-1のt分布 -c 0 c 0.05 棄却域 s x, 1 0    n s a x t

例題12.4

(318ページ) 仮説の設定 H0:μ=80 (対立仮説 H1:μ≠80) 検定統計量 n=5なので,t分布表より,自由度4では, P(T<2.776)=0.975  棄却域は,T0<-2.776 またはT0>2.776 n=5, よりt0は棄却域に含まれないので, 帰無仮説は棄却されない ⇒80グラムである(ことは否定されない) 分布 の 自由度 のもとで, t n S X T H ~ 4 1 80 0 0    棄却域 自由度4のt分布 -2.776 0 2.776 0.05 棄却域 8 . 0 , 4 . 80   s x i 1 79 -1.4 1.96 2 80 -0.4 0.16 3 81 0.6 0.36 4 81 0.6 0.36 5 81 0.6 0.36 合計 402 0 3.2 平均 80.4 s2 0.64 s 0.8 i x xix (xix)2 1 1 5 8 . 0 80 4 . 80 1 0 0        n s x t

母比率

pの両側検定

仮説の設定 検定統計量 有意水準を0.05とするとP(-1.96<Z<1.96)=0.95より, 棄却域は,Z0<-1.96, Z0>1.96 データより を算出し,z0を計算 判定  |z0| >c ⇒帰無仮説を棄却し,対立仮説を採択する.| z0| ≦c ⇒帰無仮説は棄却されない. 0 1 0 0:p p vsH:p p H   n q p p X Z / H 0 0 0 0 0   を代入 に ) 1 , 0 ( ~ /n N pq p X Z  n q p p p z / ˆ 0 0 0 0   棄却域 N(0,1) -1.96 0 1.96 0.05 棄却域

母平均

μの片側検定

(1) 母平均μの片側検定の例 例題11.1 帰無仮説H0:μ=0 対立仮説H1:μ>0 検定統計量T0 棄却域 有意水準を与えて,片側に設定する P(T<c)=0.95としたとき,T0>cが棄却域 分布 の 自由度 のもとで, 分布 の 自由度 t n n S X n S X T H t n n S X T 1 ~ 1 1 0 1 ~ 1 0 0          自由度n-1のt分布 0 c 0.05 棄却域 仮説の設定 検定統計量 有意水準αを与えて,棄却域を決める • P(T<c)=1-αとすれば,棄却域はT0>c データより とsを算出し,t0を計算 判定  t0>c ⇒帰無仮説を棄却し,対立仮説を採択する.t0≦c ⇒帰無仮説は棄却されない.

(2) 母平均μの片側検定の手順

1 0 0    n S X T  0 1 0 0: vsH : H 1 / 0 0    n s x tx 自由度n-1のt分布 0 c 0.05 棄却域 仮説の設定 検定統計量 有意水準αを与えて,棄却域を決める • P(Z<c)=Φ(c)=1-αとすれば,棄却域はT0>c • α=0.05のとき,c=1.645 データより を算出し,z0を計算 判定  z0>c ⇒帰無仮説を棄却し,対立仮説を採択する.z0≦c ⇒帰無仮説は棄却されない.

(3) 母比率pの片側検定

0 1 0 0:p p vsH:p p H   n q p p X Z / 0 0 0 0   より ) 1 , 0 ( ~ /n N pq p X Z  n q p p p z / ˆ 0 0 0 0   N(0,1) 0 1.645 0.05 棄却域

(10)

11 章 母集団のパラメータの推定 練習問題

1.ある株の変化率の過去5か月分のデータは,0.5, 0.5, 1.5, 1.5, 2.0(単位:%)であっ た.以下の問いに答えよ. (1) データの平均,分散,標準偏差を求めよ. ただし,計算は%のまま行うこと((3)も同 様). (2) 自由度 4 のt 分布の97.5%点,すなわち

975

.

0

)

(

P

T

< a

=

となる a を求めよ. (3) 母平均

µ

の信頼係数 95%の信頼区間を求 めよ.答えは信頼区間を求めた段階で,小 数第3位で四捨五入し,小数第2位まで求 めよ. (4) この株を買うべきかどうか(買ったらもうかるかどうか)について, (3)の結果と あわせて簡単に理由をつけて答えよ. 2.過去5回の模擬テストの偏差値は,47,47,51,53,55 であった. (1) データの平均,分散,標準偏差を求めよ. (2) 自由度 4 のt 分布の97.5%点,すなわ ち

P

(

T

< a

)

=

0

.

975

となる a を求めよ. (3) 母平均

µ

の信頼係数 95%の信頼区間を 求めよ.答えは信頼区間を求めた段階 で,小数第2位で四捨五入し,小数第1 位まで求めよ. (4) 偏差値 46 の大学への合格可能性につい て, (3)の結果とあわせて簡単に理由を つけて答えよ.また,偏差値が48,56 の大学についても合格可能性を考えよ. 3.過去4回の模擬テストの偏差値は,50,50,51,53 であった.2と同様に,偏差値の平均 の95%信頼区間をつくり,偏差値が 45,50,55 の大学への合格可能性を判断せよ. 4.ある株の4 か月の変化率は 0,0,1,1(単位:%)であった.1と同様に母平均

µ

の信頼 係数95%の信頼区間を求め,この株を買ったら利益が出るかどうかについて判断せよ. 5.298 ページの練習問題1 6.298 ページの練習問題2

i

1 47 2 47 3 51 4 53 5 55 合計 平均

s

2

s

i

x

xix 2 ) (xix

i

1

0.5

2

0.5

3

1.5

4

1.5

5

2.0

合計

平均

s

2

s

i

x

x

i

x

2

)

(

x

i

x

(11)

7. ある番組の視聴率を調べるために,400 世帯に調査をしたところそのうち 144 世帯がそ の番組を見ていたという. (1) 視聴率の点推定値を求めよ.ただし,単位は%で答えよ. (2) 真の視聴率の信頼係数 95%の信頼区間を求めよ.答えは,%の単位で,小数第1位 まで答えること(はじめに視聴率を小数で計算し,小数第4位で四捨五入し,小数 第3位まで求め,信頼区間は%表示で小数第1位まで答えよ). (3) この番組の視聴率が 30%を越えたかどうかを, (2)の結果とあわせて簡単に理由 をつけて答えよ. 8. ある地域の現在の失業率を調べるために,労働力人口 6400 人に調査をしたところその うち640 人が失業していたという.このとき次の問いに答えよ. (1) 失業率の点推定値を求めよ.ただし,単位は%で答えよ. (2) その地域の真の失業率の信頼係数 95%の信頼区間を求めよ.答えは,%の単位で, 小数第1位まで答えること(はじめに失業率を小数で計算し,小数第4位で四捨五 入し,小数第3位まで求め,信頼区間は%表示で小数第1位まで答えよ). (3) この失業率の過去最高値は 9.6%であることがわかっている.現在の失業率が過去 の最高値を越えたかどうかを, (2)の結果とあわせて簡単に理由をつけて答えよ. 9.298 ページの練習問題4 10.299 ページの練習問題5 11.299 ページの練習問題6 12. 2016 年 11 月 21 日(月) ~ 11 月 27 日(日)の週の関東地区のアニメ番組の視聴率で,第 1位は「サザエさん」で14.2%,第2位は「ちびまるこちゃん」 で 10.0%であった(ビデ オリサーチによる視聴率調査). (1) それぞれの番組の視聴率の 95%信頼区間を作成せよ.ただし,標本の大きさは 600 とする(はじめに小数で計算し,小数第4位で四捨五入し,小数第3位まで求め, 信頼区間は%表示で小数第1位まで答えよ) . (2) 「サザエさん」が第1位といってよいかどうか,(1)の結果をもとに判断せよ. 13. 2016 年 10 月の完全失業率は,3.0%である.標本の大きさを 60000 として,信頼係数 95%の信頼区間をつくり,その誤差の範囲について考えよ. 14. 2016 年 10 月の男の完全失業率は 3.2%,女の完全失業率は 2.7%であった.男女別に失 業率の95%信頼区間をつくり,男女の失業率に差があるかどうかを答えよ.ただし,男の 標本を35000,女の標本を 25000 とする.

(12)

15. 日本経済新聞社とテレビ東京が第二次安倍内閣発足直後の 2012 年 12 月 26~27 日に実 施した世論調査において,内閣支持率は62%,不支持率は 29%であった. (1) 有効回答数(標本の大きさ)を 872 として,内閣支持率の信頼係数 95%の信頼区間を 求めよ. (2) 2006 年 9 月の第一次安倍内閣発足時の内閣支持率は 71%であった.第一次安倍内閣発 足時の支持率を所与として,第二次安倍内閣の発足時の支持率が第一次のそれを下回 っているかどうかを判断せよ. (3) 不支持率の信頼係数 95%信頼区間をつくり,支持率の信頼区間と比較せよ. 16.朝日新聞が 2016 年 10 月 15~16 日に実施した世論調査で,「トランプさんがアメリカ の大統領になることで,日米関係はよい方向に向かうと思いますか.悪い方向に向かうと思 いますか.それとも変わらないと思いますか」という質問を行ったところ,49%が「変わら ないと思う」と答えた.「変わらない」と回答した割合の信頼係数95%の信頼区間を作成し, その割合が50%を下回っているかどうか判断せよ.ただし,有効回答数を 1973 とする. また,「よい方向に向かうと思う」と「悪い方向に向かうと思う」を合わせた回答の割合, つまり変わると思うと回答した割合は 31%であった.変わると回答した割合の信頼係数 95%の信頼区間を作成し,「変わらない」と回答した方が上回っているかどうかを判断せよ. 17. 100 人についてある調査を行ったところ誤差が大きかった.そこで誤差を 1/2(精度を 2倍)にするためには,標本の大きさを何人にすればよいか.また,誤差を1/3 にしたい場 合はどうか. 18.視聴率調査で真の視聴率が p=0.1 のときの誤差を求めよ.ただし,信頼係数は 95%, n=600 とする.また,p=0.2,p=0.3 についても,同様の計算を行え. 19. 視聴率調査(世論調査などでもよい)で誤差の範囲を±2%に押さえたい場合,標本の 大きさはどのくらいにすればよいか.ただし,母集団比率が5%の場合と 10%の場合,それ ぞれについて求めよ.ただし,信頼係数を95%とする. 20.失業率の誤差を 1%以下にするためには,何人について失業に関する調査を行えばよい か.ただし,p=0.05 として求めよ.また,0.1%以下にするためには,何人の標本が必要か. 21.ある工場の製品の不良品の発生率は2%程度であることがわかっている.不良品発生率 の誤差が1%以内になるようにするには,いくつの製品を調べればよいか.95%の信頼係数 について求めよ. 22.平均貯蓄額を調査するのに,誤差を 30 万円以下にするには,何世帯を調査すればよい か.信頼係数を95%として答えよ.ただし,母集団の標準偏差をσ=1500 万円とする. 23.何回かテストを受けて,その偏差値の平均を求めるとき,誤差を 3 以下にするために は,何回テストを受ける必要があるか.ただし,母集団の標準偏差が5 の場合と 2 の場合, それぞれについて求めよ. 24.299 ページの練習問題8

(13)

12 章 仮説検定 練習問題

1.過去5回の模擬テストの偏差値は,50,51,51,51,51 であった. (1) データの平均,分散,標準偏差を求めよ. (2) 自由度 4 の t 分布の 97.5%点,すなわち

P

(

t

 a

)

0

.

975

となる a を求めよ. (3) 母平均μの信頼係数 95%の信頼区間を求めよ.答えは信頼区間を求めた段階で,小数第 2位で四捨五入し,小数第1位まで求めよ. (4) 偏差値の平均が 50 を上回ったかについて, (3)の結果とあわせて簡単に理由をつけて答 えよ. (5) (4)を仮説検定の問題として次のように考えた.文中の( )に最もよくあてはまる語句・ 数値を答えよ まず

H

0

:

50

,

H

1

:

50

という2つの仮説を立てた.ここで H0は( ) 仮説, H1は( )仮説と呼ばれる.H0が正しいとすると, 1 50 0    n S X T は,自由度( )の t 分布に従うことがわかっている.そこで,T 0の実現値 t0 (t 値)を計算すると( )となる.自由度( )の t 分布で

P

(

a

t

a

)

0

.

95

を満たす a の値は t 分布表より( )である. t0(t 値)の絶対値は a よりも 大きいので, H0は有意水準( )%で( )される.したがって,偏差値 の平均は50 ではないという結論が得られる.

i

1

50

2

51

3

51

4

51

5

51

合計

平均

s

2 i

x

x

i

x

2

)

(

x

i

x

)

1

,

1

(

95

975 . 0 975 . 0

n

s

t

x

n

s

t

x

%の信頼区間の公式

信頼係数

(14)

2.ある工場では,内容量が 300 グラムとなるように缶詰を生産している.生産された缶 詰から無作為に選んだ5個の内容量を調べたところ,299,299,299,300,301 (単位:グラム) だ った. (1) データの平均,分散,標準偏差を求めよ. (2) 自由度 4 の t 分布の 97.5%点,すなわち

P

(

t

 a

)

0

.

975

となる a を求めよ. (3) 母平均μの信頼係数 95%の信頼区間を求めよ.答えは信頼区間を求めた段階で,小数第 2位で四捨五入し,小数第1位まで求めよ. (4) この工場で生産される缶詰の内容量が 300 グラムを下回ったかについて, (3)の結果を もとに簡単に理由をつけて答えよ. (5) (4)を仮説検定の問題として次のように考えた.文中の( )に最もよくあてはまる語句・ 数値を答えよ まず

H

0

:

300

,

H

1

:

300

という2つの仮説を立てた.ここで H0は( ) 仮説, H1は( )仮説と呼ばれる.H0が正しいとすると,

1

300

0

n

S

X

T

は,自由度( )の t 分布に従うことがわかっている.そこで,T 0の実現値 t0 (t 値)を計算すると( )となる.自由度( )の t 分布で

P

(

a

t

a

)

0

.

95

を満たす a の値は t 分布表より( )である.

t

0(t 値)の値は a よりも絶 対値が小さいので,H0は( )5%で( )されない.よって,缶詰の 内容量が300 グラムであるという仮説は否定されない.

)

1

,

1

(

95

975 . 0 975 . 0

n

s

t

x

n

s

t

x

%の信頼区間の公式

信頼係数

i

1

299

2

299

3

299

4

300

5

301

合計

平均

s

2

s

i

x

x

i

x

2

)

(

x

i

x

参照

関連したドキュメント

We first recall the definition of the branching and merging space functors, and then the definition of a T -homotopy equivalence of flows, exactly as given in [3] (see Definition

Ngoc; Exponential decay and blow-up results for a nonlinear heat equation with a viscoelastic term and Robin conditions, Annales Polonici Mathematici 119 (2017), 121-145..

Since (in both models) I X is defined in terms of the large deviation rate function I T (t) for the hitting times T n /n , this is related to the fact that inf t I T (t) = 0 for

R., Existence theorem of periodic positive solutions for the Rayleigh equation of retarded type, Portugaliae Math.. R., Existence of periodic solutions for second order

By using the Fourier transform, Green’s function and the weighted energy method, the authors in [24, 25] showed the global stability of critical traveling waves, which depends on

Abstract: The existence and uniqueness of local and global solutions for the Kirchhoff–Carrier nonlinear model for the vibrations of elastic strings in noncylindrical domains

If in the infinite dimensional case we have a family of holomorphic mappings which satisfies in some sense an approximate semigroup property (see Definition 1), and converges to

In [13], some topological properties of solutions set for (FOSPD) problem in the convex case are established, and in [15], the compactness of the solutions set is obtained in