科目コード 130509, 130609, 110225
統計学 講義
第 19/20 回
2019 年 6 月 25 日(火)6/7 限 担当教員: 唐渡 広志(からと・こうじ) 研究室: 経済学研究棟4階432号室 email: [email protected] website: http://www3.u-toyama.ac.jp/kkarato/ 1講義の目的
サンプルサイズの大きい標本比率の分布は正規分布で近似できることを 理解します。 推定誤差をある一定範囲内にするために必要なサンプルサイズを求める 方法について学びます。 標本分散の分布について学びます。 母分散を区間推定する方法について学びます。 F分布について学びます。 二つの正規母集団の母分散の比を区間推定する方法について学びます。 key words: 標本平均の分布,中心極限定理,区間推定 参考書:宮川 pp.181-242,白砂 pp.118-139,大屋 pp.139-174,山本 pp. 104-137,鳥居 pp.131-172 2【復習】標本平均の分布
標本平均は分布をもつ 母集団から抽出される1組の標本から計算できる標本平均は一つ だけであるが,多数の組の標本がある場合には,標本平均は様々 な値をとるものと考えることができる。 サンプルサイズ が十分に大きいとき,標本平均の分布は正規分 布に近似できる。 中心極限定理 平均 ,分散 の同一の母集団分布から抽出した , , ⋯ , の 標本平均 は,サンプルサイズ が十分に大きいならば,平均 , 分散 の正規分布に近似することができる。 ~ , 観測データから計算できる標本平均は正規分布 , の実現値 の一つである。【復習】母集団分布とサンプルサイズ
母標準偏差 が既知 母標準偏差 が未知 大標本 小標本 大標本 小標本 母 集 団 分 布 の 形 正規分布 正規分布 正規分布 t 分布または正規分布 による近似 t分布 非正規分布 による近似正規分布 なし による近似正規分布 なし 区間推定を行うときの標本平均の分布 • 母集団はどのような分布か? • 母標準偏差は既知か未知か? • サンプルサイズは十分に大きいか否か? 大標本の目安: ≥ 30 または ≥ 100 とする場合もある標本比率の分布 (1)
標本が二項データ = 0または1 からなるときの平均は「標本比 率」を示している: ̂ =∑ 例. [視聴率の調査]NHK大河ドラマ「西郷どん」の視聴率は 9.6% であった(2018年11月 全国個人視聴率調査の結果,有効回答数 2,310人)。 5 二項分布 B(1, p) 番組を見た=1 Pr (X = 1) = p 見なかった=0 Pr (X = 0) = 1−p 二項分布の成功比率 のことを「母比 率」とよぶ。 母集団 調査結果 Xi 1 見た 1 2 見なかった 0 ・ ・ ・ ・・・ ・・・ 2310 見なかった 0 合計 S Xi= 222 平均 ̂ =2310 = 0.096222 標本抽出標本比率の分布(2)
二項変数 は二項分布 1, にしたがうので,∑ ~ , である (真の視聴率[母比率]が であるTV番組について, 人を調査す るとき見ていた人数の分布)。このとき∑ の期待値は ,分散は 1 − である。 が十分に大きいとき,和の分布は正規分布に近づくので ~ , 1 − であり,視聴率 ̂ =∑ も正規分布で近似できる: ̂~ , 1 − したがって, ̂ を標準化すると = ̂ − 1 − ~ 0,1 6標本比率の分布(3)
例. 「西郷どん」の視聴率は 9.6%,有効回答数2,310人 ̂ = 0.096, = 2310 調査によって得られた ̂ = 0.096 は正規分布の実現値の一つであると考 えられる。標本比率の分布 (4)
例題1. 富山県の女性(25~29歳)の有配偶率は 38% である(総務省 『国勢調査』)。ランダムに400人選び,配偶者がいるかどうかを調べ るものとしよう。母比率を 0.38 と考えるとき,400人の有配偶率はど のような分布で近似できるか? 母比率 = 0.38 サンプルサイズ = 400 標本の有配偶率 ̂~ 0.38, . × .標本比率の分布 (5)
例題2. 家庭の生活状況について「前年に比べて暮らし向きが良くなっ た」かどうかを調査するものとしよう。「良くなった」と考える人の 真の比率[母比率]を 0.2 とするとき,900人の調査によって得られる 「良くなった」と考える人の標本比率はどのような分布で近似できる か? 母比率 = 0.2 サンプルサイズ = 900 標本の有配偶率 ̂~ 0.2, . × . 9母比率の区間推定 (1)
標本比率 ̂ は が十分に大きいとき正規分布に近似できるので: = ̂ − 1 − ~ 0,1 このとき,標準正規分布において 95% の範囲は次の確率で示される −1.96 ≤ ̂ − 1 − ≤ 1.96 = 0.95 不等式を整理すると次が得られる ̂ − 1.96 × 1 − ≤ ≤ ̂ + 1.96 × 1 − ここで, を標本比率の「標準誤差」とよぶ。したがって,信 頼限界を求めるには,未知の母比率 を推定しておく必要がある。 10母比率の区間推定 (2)
不等式の2乗をとり, について整理する: ̂ − 1 − ≤ 1.96 ↔ 1 +1.96 − 2 ̂ +1.96 + ̂ ≤ 0 に関する2次不等式の判別式 + + に対して = − と符号条件は次のように書ける: = 4 ×1.96 ̂ 1 − ̂ + 1.96 > 0 > 0 より二つの異なる実数解をもつので, ≤ ≤ となる信頼区 間(下側信頼限界 ,上側信頼限界 )が存在する。母比率の区間推定 (3)
∗= または として,解の公式を利用して について解くと ∗= 2 + 1.962 ± 4 1.96 1 − + 1.96 2 1 + 1.96 サンプルサイズ が十分に大きい場合には, . → 0 より ∗= ± 1.96 × 1 − 信頼区間は ≤ ≤ は次のように書き直すことができる: − 1.96 × 1 − ≤ ≤ + 1.96 × 1 − 母比率の区間推定における標本比率の標準誤差は より計算する。母比率の区間推定 (4)
例題1. 富山県の女性(25~29歳)についてランダムに400人選び,配偶 者がいるかどうかを調べたところ有配偶者は156人であった。母比率 (配偶者がいる人の真の割合)を信頼係数95%のもとで区間推定しな さい。 ̂ = = 0.39 より信頼限界は ̂ − 1.96 × ̂ 1 − ̂ = 0.39 − 1.96 × 0.39 × 0.61400 = 0.342 ̂ + 1.96 × ̂ 1 − ̂ = 0.39 + 1.96 × 0.39 × 0.61400 = 0.438 より,信頼区間は 0.342 ≤ ≤ 0.438 である。 13母比率の区間推定 (5)
例題2. 家庭の生活状況について「前年に比べて暮らし向きが良くなっ た」かどうかを900人について調査したところ, 「良くなった」と考 える人の割合は 21% であった。母比率 ( 「良くなった」と考える人 の真の割合)を信頼係数95%のもとで区間推定しなさい。 ̂ = 0.21 より信頼限界は ̂ − 1.96 × ̂ 1 − ̂ = 0.21 − 1.96 × 0.21 × 0.79900 = 0.183 ̂ + 1.96 × ̂ 1 − ̂ = 0.21 + 1.96 × 0.21 × 0.79900 = 0.237 より,信頼区間は 0.183 ≤ ≤ 0.237 である。 14練習問題 (1)
NHK大河ドラマ「西郷どん」の視聴率は 9.6% であった(2018年11月 全国個人視聴率調査の結果,有効回答数2,310人)。母比率 (真の視 聴率)を信頼係数95%のもとで区間推定しなさい。練習問題 (2)
統計学受講者 = 56 人についてスマートフォンの種類を尋ねたところ,44 人が iOS (iphone) であった。この結果を大学生の iphone 占有率に関する標 本調査とみなして,母比率 を信頼係数 95%のもとでの母平均を区間推定 しなさい。母比率の推定誤差 (1)
標準正規分布において −1.96 ≤ ≤ 1.96 である確率は 95% であり, 標本比率を標準化した = も標準正規分布にしたがうので − 1.96 ≤ ≤ 1.96 であり, −1.96 ⋅ 1 − ≤ ̂ − ≤ 1.96 ⋅ 1 − と同値である。これを ̂ − ≤ 1.96 ⋅ 1 − と書く。 ̂ − を(信頼係数95%での)「推定誤差」とよぶ。 17母比率の推定誤差 (2)
標準誤差 の設定方法は2通り考えられる: i. 母比率 の代わりに標本比率 ̂ を利用する。 ii. 標準誤差が最大となる = 0.5 を利用する。 推定誤差を 以下にするために必要なサンプルサイズ ≥ 1.96 ⋅ より ≥ . 1 − iの場合 ≥ . ̂ 1 − ̂ ii の場合 ≥ . × 0.25 18母比率の推定誤差 (3)
例題1. 富山県の女性(25~29歳)の有配偶率を推定するために,信頼 係数95%のもとでの推定誤差を1%以内にしたい。最低限必要なサンプ ルサイズを求めなさい。 [i] = 400 の場合の標本比率が ̂ = = 0.39 であったのでこれを利用 する: ≥ 1.960.01 0.39 × 0.61 = 9139.166 ⋯ 少なくとも = 9140 のサンプルサイズが必要。 [ii] = 0.5 とする場合: ≥ 1.960.01 0.5 × 0.5 = 9604 少なくとも = 9604 のサンプルサイズが必要。練習問題 (3)
大学生が所有するスマートフォンについて iphone の占有率を調査する。 信頼係数95%のもとでの母比率の推定誤差を5%以内にしたい。次の [i] [ii] の場合について最低限必要なサンプルサイズを求めなさい。 [i] 統計学受講者 = 56 人の標本比率44 56⁄ を母比率の参考にする 場合 [ii] 母比率を = 0.5 とする場合母分散の推定
母平均 を推定するために標本平均 が利用されるのと同様,母分 散 を推定するために標本分散 = が利用される。ただし, = ∑ − は偏差2乗和を示す。 標本は変動するので,標本分散もいろいろな値をとる可能性を持っ ていると考えることができる。つまり,標本分散は分布を持つ。 標本分散の期待値と分散* 期待値 = 分散 = 標本分散は平均的に見て母分散に等しく,母分散やサンプルサイズ の値に応じて散らばりが決まる。標本分散を で計算すると,期待 値は とは等しくならない( が小さい場合は特に)。 サンプルサイズが大きくなれば,標本分散の分散はゼロに近づくの で と は大きな違いはない。 21標本分散の分布 (1)
22 演習問題-2 (4月23日) 問5 母集団 復元抽出 標本 = 4 = 456,400,336,366 = 389.5, = 2649.0 演習問題-2 の提出者は 65 人 = 4 の標本が 65 組得られた。標本分散の分布 (2)
【有限母集団】 母平均 = 358.0 万円 母分散 = 3997.3 母標準偏差 = 63.2 万円 = 4 の標本が 65 組得られた。 受講者番号 標本平均 標本分散 (1) 456 400 336 366 389.50 2649.00 (2) 484 365 366 400 403.75 3126.92 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ (65) 472 240 364 365 360.25 8994.92 平均 356.51 345.51 358.26 367.78 357.02 3686.61 分散 3167.91 3478.75 3936.16 3131.02 809.86 8373098 65個の ← 65個の の平均 ← 65個の の分散 = 4 の「標本平均の平 均」は母平均 に近い値を とり,かつ「標本平均の分 散」は母分散を = 4 で 割った値に近いをとる。 65個の標本分散の分布 (3)
母集団 標本サイズは = 4(標本数は65) 平均 = 358.0 の平均: 357.02(分散 809.86) 分散 = 3997.3 の平均: 3686.61(分散 8373098) 実は標本分散の分布はカイ2乗 分布と関連性がある。 0 5000 10000 15000 20000 標本分散 の分布【復習】カイ2乗分布 (1)
標準正規分布にしたがう 個の確率変数 , , ⋯ , の2乗和を = ∑ = + + ⋯ + とおくとき, は自由度 のカイ2乗分布に したがう: ~χ , の期待値 = , 分散 = ~ , , = のとき, = ∑ = ∑ =∑ と書 ける: =∑ − ~χ 25 0 2 4 6 8 10 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 1. 2 Y Y 0 2 4 6 8 10 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 1. 2 Y Y 0 2 4 6 8 10 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 1. 2 Y Y = + + = + = χ 1 χ 2 χ 3 自由度1のカイ2乗分布 自由度2のカイ2乗分布 自由度3のカイ2乗分布【復習】カイ2乗分布 (2)
母分散が の正規母集団から抽出したサイズ の標本における標本 分散を = とするとき, は自由度 − 1 のカイ2乗分布に したがう。 − 1 ~χ − 1 ~ , , = 1,2, ⋯ , のとき, =∑ ~χ ( ) − = − − − より, = − − − = − 1 ↔ − 1 =∑ − − − = ⁄ = ⁄ = ~χ (1) なので, は χ ( ) にし たがう確率変数から χ (1) にしたがう確率変数を引いた変数なので自 由度 − 1 のカイ2乗分布にしたがう。 26 なぜか?【復習】カイ2乗分布 (3)
0 5000 10000 15000 20000 標本分散 の分布 = 3997.3 受講者番号(1) の = 4 の標本分散 = 2649.00 − 1 = 4 − 1 × 2649.003997.3 = 1.988 0 2 4 6 8 10 0 .0 0 0. 0 5 0 .1 0 0. 1 5 0 .2 0 0 .2 5 0 .3 0 自由度3 の カイ2乗分布 χ (3) − 1 = − 1 = 3 • は自由度 − 1 のカイ2乗分布における実現値と考 えることができる。 • − 1 = である点に注意。カイ2乗分布の有意確率と臨界値 (1)
0 5 10 15 20 0 5 10 15 20 χ. 3 = 9.35 Pr χ ≥ χ. 3 = 0.025 χ . 3 = 0.2158 Pr χ ≤ χ. 3 = 0.025 自由度3のカイ2乗分布 自由度3のカイ2乗分布 上側(右側)から覆った 面積が2.5%となる値 上側(右側)から覆った 面積が97.5%となる値0.2158 5 9.3500 15 20
カイ2乗分布の有意確率と臨界値 (2)
χ は α を上側有意確率, を自由度とするときの臨界値 95%の範囲( = 3 のとき) Pr χ . 3 ≤ χ ≤ χ . 3 = 0.95 ↔ Pr 0.2158 ≤ − 1 ≤ 9.35 = 0.95 母分散 の95%信頼区間 0.2158 ≤ ≤ 9.35 ↔ . ≤ ≤ . 例. 標本分散 = 2649.00 850 ≤ ≤ 36826 29 0.95 自由度3のカイ2乗分布母分散の区間推定 (1)
母分散が の正規母集団からサンプルサイズ の標本を抽出し,そ の標本分散が であるとき,信頼係数95%のもとでの母分散 の信 頼区間は次のようになる。 − 1 χ . ( − 1)≤ ≤ − 1 χ . ( − 1) 30 0 5 10 15 20 0 5 10 15 20 χ. − 1 χ . − 1母分散の区間推定 (2)
例題1. 正規母集団から = 16 の標本を抽出し,標本分散を計算したと ころ = 0.42 であった。母分散 を信頼係数95%のもとで区間推定 しなさい。 自由度 = − 1 = 15 標本分散 = 0.42 偏差2乗和 = − 1 = 15 × 0.42 = 6.3 臨界値 χ . (15) = 27.5, χ . (15) = 6.26 信頼区間 . ( )≤ ≤ . ( ) ↔ .. ≤ ≤ .. ↔ 0.229 ≤ ≤ 1.006母分散の区間推定 (3)
例題2. 統計学受講者(女性) = 21 人の身長は標本平均 = 157.9 cm, 標本標準偏差 = 5.2 cm であった。女子大学生の身長の母集団は正規 分布であるものとして,母分散 を信頼係数 99% のもとで区間推定 しなさい。 自由度 = − 1 = 20 標本分散 = 5.2 = 27.04 偏差2乗和 = − 1 = 20 × 27.04 = 540.8 臨界値 χ . (20) = 40.0, χ . (20) = 7.43 信頼区間 . ( )≤ ≤ . ( ) ↔ .. ≤ ≤ . . ↔ 13.52 ≤ ≤ 72.79練習問題 (4)
ある株式会社の株価の変化率を = 30 日間計測したところ,標本標準 偏差は = 2 % であった。株価の変化率は正規分布にしたがうと仮定 して,母分散 を [1] 信頼係数95%のもとで区間推定しなさい。 [2] 信頼係数99%のもとで区間推定しなさい。 33母標準偏差の区間推定
母分散が の正規母集団からサンプルサイズ の標本を抽出し,そ の標本分散が であるとき,信頼係数95%のもとでの母標準偏差 の信頼区間は次のようになる。 − 1 χ . ( − 1)≤ ≤ − 1 χ . ( − 1) 34F
分布 (1)
カイ2乗分布にしたがう二つの確率変数を , とし,それぞれの自 由度が , であるとする( ~χ , ~χ )。このとき = ~ , 0 2 4 6 8 0 .0 0 .2 0 .4 0. 6 0 .8 1 .0 F 自由度 2, 10 自由度 3, 10 自由度 3, 100 ⁄ ⁄ ~ , 分子の自由度 , 分母の自由度 の 分布F
分布 (2) F 分布表を参照
F f( F ) 0 2 4 6 8 F f( F ) 0 2 4 6 8 例. 分子の自由度 = 3,分母の自由度 = 20 の F 分布と臨界値 , 両側 5%の臨界値 (上側2.5%,下側2.5%) (上側5%,下側5%)両側 10%の臨界値 . 3,20 = 3.86 . 3,20 = 0.0706 上側 下側 . 3,20 = 3.10 . 3,20 = 0.1155 上側 下側F
分布 (3)
例. 二つの正規母集団 , , , からそれぞれサンプルサイズ , の標本を抽出し,その標本分散を = − 1 , = − 1 と書く。 − 1 ⁄ は自由度 = − 1 の, − 1 ⁄ は自由度 = − 1 のカイ2乗分布にしたがうので, = − 1 ⁄ , = − 1 ⁄ とおくと = = ~ − 1, − 1 • F 分布 − 1, − 1 は二つの標本の分散比に関連した分布になっ ている。 • F 分布 − 1, − 1 の実現値を「 値」とよぶ。 37 分子の自由度 − 1, 分母の自由度 − 1 の 分布F
分布 (4)
例. 二つの正規母集団の分散が等しい場合(等分散): 二つの正規母集団が , , , のとき = − 1 , = − 1 であるから, = ~ − 1, − 1 例. 二つの株式会社(A社,B社)の株価収益率は正規分布にしたがい, 母分散はどちらも等しく = = = 4 であるとしよう。それぞれ サンプルサイズ = = 21 で株価収益率の標本分散を計算したとこ ろ次が得られた。 = 3.97, = 3.69 このとき,F 値は = .. = 1.075 であり,この値は 分布 20,20 の 実現値である。 38F
分布 (5)
F f( F ) 0 2 4 6 8 = .. = 1.075 2.5% 2.5% F分布とその実現値(母分散が等分散の場合の標本分散の比) 20,20F
分布 (6)
逆数の F 分布 確率変数 F が自由度 , の F 分布にしたがうとき,確率変数の逆数 1⁄ は自由度 , の F 分布にしたがう。つまり: ~ , ↔ 1~ , 例. . 3,20 = 0.0706 → . 20,3 = . = 14.17 F f( F ) 0 2 4 6 8 F f( F ) 0 5 10 15 20 , 3,20 20,3T -2.228 0 2.228