• 検索結果がありません。

資料置き場 hustat2017 20171124slide

N/A
N/A
Protected

Academic year: 2018

シェア "資料置き場 hustat2017 20171124slide"

Copied!
55
0
0

読み込み中.... (全文を見る)

全文

(1)

統計学(8) :標本と母集団,標本による母数の推定

担当者: 高木 真吾

質問等は, [email protected] までお願いします.

November 24, 2017

(2)

復習

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

(3)

まとめ

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

n個の確率変数 {X1, X2, . . . , Xn} を用いて,以下の Y を定める. Y = β0 +

n

X

i=1

βi · Xi

平均

E[Y ] = β0 +

n

X

i=1

βi · E[Xi]

分散

V[Y ] =

n

X

i=1

βi2 · V[Xi] + 2

n−1

X

i=1 n

X

j=i+1

βiβj · cov(Xi, Xj)

n個の確率変数 X1, X2, . . . , Xn が互いに独立であるとき,

(4)

まとめ

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

n 個 の 確 率 変 数 X1, X2, . . ., Xn が す べ て 正 規 分 布 に 従って い る(Xi N (µi, σi2)i=1,2,. . . ,n

Xi Xj の共分散は σij と与えられる

このとき,確率変数 Y を以下のように定めると Y = β0 +

n

X

i=1

βiXi

平均:E[Y ] ≡ µY = β0 + Pni=1 βi · µi

分散:V[Y ] ≡ σY2 = Pni=1 βi2 · σi2 + 2Pn−1i=1 Pnj=i+1 βiβj · σij

さらに,Y もまた正規分布に従い,その平均は µY ,分散は σ

2

Y となる.

またすべての Xi が互いに独立であるなら共分散 σij = 0 はなので上の結果 は σ

2 Y =

Pn i=1 β

2

i · σi2 と変更されて成立する.

(5)

標本平均: X ¯

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

さらに n 個の確率変数が互いに 独立で あり,同一 の平均 µ・分散 σ

2

であると する

Xi ∼ N(µ, σ2), i = 1, 2, . . . , n

このとき,次の確率変数について考える X =¯ 1

n

n

X

i=

Xi

(6)

標本平均: X ¯

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

X¯ の平均,分散,分布

平均:

E[ ¯X] = E

" 1 n

n

X

i=

Xi

#

= 1 n

n

X

i=

E[Xi] = µ

分散:

V[ ¯X] = V

" 1 n

n

X

i=

Xi

#

= 1 n2

n

X

i=

V[Xi] = σ

2

n

分布:X ∼ N(µ, σ¯ 2/n)

X¯ は今後,『標本平均』と呼ぶ.その意味は後日説明する.

X¯ の分散はもとの分散に比べ,n 分の1になっていることに注意.

(7)

図:標本平均の分布

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

標本平均の分布

density

X

i

: N(µ , σ

2

) X : N(µ , σ

2

n)

(8)

確率変数の和の分布:一般論

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

互いに独立な {X

i

}

n

i=1

について

すべて正規分布に従うとき, X ¯ も正規分布にしたがう

{X

i

}

n

i=1

が正規分布には従わないとき, X ¯ は厳密には正規分布に従わ

ない

ただし,中心極限定理によって近似的に正規分布に従うことが示される

ことがある.

(9)

標本と母集団

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

(10)

選挙予測 : 「 LD 社」 v.s. 「 G 社」

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

1936 年アメリカ大統領選:ルーズベルト(民主党)v.s. ラドン(共和党)

LD

読者からの葉書アンケート,電話帳・自動車保有者リストに片っ端から 葉書を送付

1000 万通以上に配布,250 万近く回収した

43% 57% でラドン(共和党)の勝ちと予測

G

2000 人を全人口(学歴・人種・年齢構成の面で)を反映するように 選択

54% 46% でルーズベルト(民主党)の勝ちと予測

結果は,60% 40% でルーズベルト(民主党)の勝ち

雑誌 LD,廃刊.

(11)

選挙予測 : 「 LD 社」 v.s. 「 G 社」の教訓

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

ポイント

たくさん集めても(すべてを集めない限り)それが何を反映してい

るのか不明

LD 社の調査は,お金持ちだけを集めていた− 伝統的に保守層が

多く,共和党寄り

全体を反映するよう一部を抜き出すのが得策(費用・精度)

(12)

無作為標本

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

(13)

定義1

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

母集団

興味の対象全体

◆ 例)日本人の意識調査:母集団 = 日本人全体,

◆ 例)高校生の身長  :母集団 = 高校生全体

母集団分布

◆ 母集団において,興味ある事柄の分布状態

◆ 例)日本人の意識調査:100p %が YES100(1 − p)NO

◆ 例)高校生の身長:どの程度の人がどのくらいいるか(ヒストグラムのよう な形で集約可能)

(14)

定義2

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

(大きさnの)標本

◆ 母集団について知るために,選ばれた母集団の一部(n個)

◆ 母集団全体を反映するように選ばれることが望ましい

◆ 無作為抽出によって得られるであろう調査結果を,n個の確率変数を用い て表現したもの

{X1, X2, . . . , Xn}

標本値(観測値)

◆ 実際の調査によって得られた調査結果(の数値)

◆ 標本(確率変数)の実現値

(15)

定義3

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

母数(parameter; population parameter

◆ 母集団分布を特徴付けるパラメータ

◆ 例)視聴率調査:母集団において見ている人の割合:割合 p が母数

◆ 例)母集団分布が正規分布と考えられる:平均 µ や分散 σ

2

が母数

統計量(推定量)

◆ 母数に関する統計的推測を行うため,標本(確率変数)で構成される関数: t(X1, . . . , Xn)

例)標本平均:X = n¯ −1 Pni=1 Xi は母集団平均を推定するための統計量

統計値(推定値):統計量(推定量)の実現値:t(x1, . . . , xn)

標本分布:統計量の確率分布

(16)

無作為抽出による標本1

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

全体を反映するよう一部を抜き出す = 無作為抽出による方法

◆ 無作為抽出(大きさnの標本を抜き出す)1 1. 全対象に1番から N 番まで番号がつける

2. 「くじ」などですべての対象が公平に選ばれるようにして,ひとつの番 号を選ぶ

3. 選んだ対象に知りたい事柄を聞いて,元に戻す.

4. 上の2,3の手順をn回繰り返し,全部でn個の結果が手元に残る

この無作為抽出でよいのか?

1

注)母集団が有限(それほど大きくない)のときは,復元抽出か非復元抽出かが重要な 意味を持つ.ただし母集団が十分大きい場合を想定すると,どちらの抽出方法をとるのかは 影響を与えない.したがって教科書の議論は無視してくださって結構です.

(17)

無作為抽出による標本2

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

結論:無作為抽出によって得られるであろう結果は母集団を反映している

どういう意味か?

標本:抽出によって得られるであろう結果を確率変数を用いて表現したもの

◆ どういう回答が得られるか(得られるであろう回答)を確率変数を用いて 表現

◆ その確率変数は,母集団分布に従う確率変数となっている

◆ 得られる結果=大きさnの標本は,n個の確率変数を用いて表現可能. { X1, X2, X3, . . . , Xn }

各確率変数 Xi は,互いに独立で,母集団分布を確率分布として持つ.

観測値:標本の実現値(調査した結果の数字)

大きさn:{x1, x2, . . . , xn}

(18)

無作為抽出による標本3

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

例:若者は血液型を信じるか,についての調査

特徴:起きうる結果が二つのうち一方.

母集団:(理想的には)若い世代全員

母集団分布:『信じる=1』『信じない=0』とする

◆ 大きさnの無作為標本:{X1, X2, . . . , Xn}

ここで各 Xi は左表の母集団分布と同じような確率分布に従う確率変数で ある

Table 1:

血液型信仰の母集団

分布

信じる 1 0 割合 p 1-p

Table 2:

Xi の確率分布

Xi

確率 p 1-p

(19)

無作為抽出による標本4

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

例:既婚男性のお小遣い調査

特徴:起きうる結果がどういう値でも取り得る.

母集団:既婚男性(25 歳以上男性)

◆ 母集団分布:下図参照(仮想例)

大きさn= 649 の無作為標本:{X1, X2, . . . , X649}

Xi は左表の母集団分布と同じような確率分布に従う

図の実線は平均 33, 000 円・分散 7, 5002 の正規分布

『母集団分布が平均 33, 000・分散 7, 5002 の正規分布で記述されるとき の大きさnの標本』という

Figure 1:

お小遣い分布

Figure 2:

Xi の確率分布

(20)

無作為抽出:まとめ

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

全体を反映するよう一部を抜き出す = 無作為抽出による方法

◆ 無作為抽出(大きさnの標本を抜き出す)

◆ 標本:抽出によって得られるであろう結果を確率変数を用いて表現したもの

大きさn:{X1, X2, . . . , Xn}

Xi は,互いに独立2 で,母集団分布を確率分布として持つ確率変数で ある.

観測値:標本の実現値

大きさn:{x1, x2, . . . , xn}

2

非復元抽出の場合には,厳密には独立ではないが,互いの相関係数の大きさは母集団の大 きさの逆数に比例するので,大きな母集団を考えると互いに無関係になる.

(21)

母集団平均・分散の推定

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

(22)

標本によって知りたいこと

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

大きさnの標本:{X1, X2, . . . , Xn}

母集団比率について知りたい

◆ 例:血液型を信じている人の割合

◆ 例:視聴率は母集団比率(見ている人の割合)

◆ 標本から母集団比率に関する情報を得るには以下の量を考える

標本比率(平均): X =¯ 1 n

n

X

i=1

Xi

Pni=1 Xi は1の回答数,n は標本の大きさ

◆ また,この標本比率はどの程度正確なのか?

(23)

標本によって知りたいこと

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

大きさnの標本:{X1, X2, . . . , Xn}

母集団平均・分散について知りたい

◆ 例:お小遣いの平均,身長の平均

◆ 標本から母集団平均・母集団分散に関する情報を得るには以下の量を考える

標本平均: X =¯ 1 n

n

X

i=1

Xi, 標本分散: S2 = 1 n − 1

n

X

i=1

(Xi − ¯X)2

◆ また,この標本平均などはどの程度正確なのか?

(24)

標本平均 X ¯ ・標本分散 S

2

の性質

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

母集団平均は µ,母集団分散は σ2 とする

大きさnの標本:{X1, X2, . . . , Xn} について

各確率変数 Xi は母集団分布を確率分布として持ち,互いに独立

◆ つまり平均・分散について E[Xi] = µ,V[Xi] = σ2 という性質を持つ

不偏性:母数を偏りなく推定すること

標本平均 X¯:母集団平均 µ を偏りなく推定 E[ ¯X] = µ

標本分散 S2:母集団分散を標本を偏りなく推定 E[S2] = σ2

(25)

標本平均 X ¯ の不偏性

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

E[Xi] = µ なので

E[ ¯X] = E

" 1 n

n

X

i=1

Xi

#

= 1 n

n

X

i=1

E[Xi] 期待値の性質

= 1 n

n

X

i=1

µ = µ

(26)

標本分散 S

2

の不偏性

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

E[Xi] = µV[Xi] = σ2 なので

E[S2] = E

" 1 n − 1

n

X

i=1

(Xi − ¯X)2

#

= E

" 1 n − 1

n

X

i=1

{(Xi − µ) − ( ¯X − µ)}2

#

= 1

n − 1E

" n X

i=1

{(Xi − µ) − ( ¯X − µ)}2

#

= 1

n − 1E

" n X

i=1

{(Xi − µ)2 − 2( ¯X − µ)(Xi − µ) + ( ¯X − µ])2}

#

= 1

n − 1E

" n X

i=1

(Xi − µ)2 − 2n( ¯X − µ)( ¯X − µ) + n( ¯X − µ)2}

#

= 1 E

" n

X(X − µ)2 − n( ¯X − µ)2

#

(27)

標本分散 S

2

の不偏性

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

E[Xi] = µV[Xi] = σ2 なので

E[S2] = 1

n − 1E

" n X

i=1

(Xi − µ)2 − n( ¯X − µ)2

#

= 1

n − 1

( n X

i=1

E[(Xi − µ)2] − n · E[( ¯X − µ)2] )

= 1

n − 1

( n X

i=1

V[Xi] − n · V[ ¯X] )

= 1

n − 1



n · σ2 − n · σ

2

n



= σ2

E[S2] = E

"

1 Xn

(Xi − ¯X)2

#

= n − 1σ2

(28)

不偏性について

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

成功確率 p のベルヌーイ分布に従う確率変数について考える. Xi =

 1 確率:p

0 確率:1 − p

独立で同一な上記分布に従う n 個の確率変数について考える. {X1, X2, . . . , Xn} 標本平均について

E[ ¯X] = p, V[ ¯X] = E[( ¯X − p)2] = p(1 − p) n .

標本分散については以下の関係が成り立つ

S2 = 1 n − 1

n

X

i=1

(Xi − ¯X)2 = 1 n − 1

n

X

i=1

(Xi − p)2 n

n − 1( ¯X − p)

2

(29)

不偏性について

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

不偏性については以下の通り. E[S2] = E

" 1 n − 1

n

X

i=1

(Xi − p)2 n

n − 1( ¯X − p)

2

#

= 1

n − 1

n

X

i=1

E(Xi − p)2 − n

n − 1E( ¯X − p)

2

= 1

n − 1

n

X

i=1

p(1 − p) − n n − 1

p(1 − p) n

=

 n

n − 1

1 n − 1



· p(1 − p) = p(1 − p)

(30)

不偏性について

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

V[Xi] = p(1 − p) なので S22 = ¯X(1 − ¯X) を考える.

S22 = 1 n

n

X

i=1

Xi 1 n2

n

X

i=1

Xi

!2

Xi2 = Xi に注意しながら

E[S2

2] = E

 1 n

n

X

i=1

Xi 1 n2

n

X

i=1

Xi

!2

= 1 n

n

X

i=1

E[Xi] − 1 n2

n

X

i=1

EX2

i



= 1 n

n

X

i=1

p − 1 n2

n

X

i=1

p = n − 1 n p

(31)

互いに独立で同一の分布に従う場合:標本

平均

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

さらに,すべての確率変数が同一の分布にしたがっていて,共通の平均

と分散をもつ

つまり任意の i について, E [X

i

] = µ, V[X

i

] = σ

2

となっている

このとき,

E [ ¯ X] = 1

n

n

X

i=1

µ = µ

V [ ¯ X] = 1

n

2

n

X

i=1

σ

2

= σ

2

n (1)

(32)

母集団比率を知りたいとき

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

母集団比率が p である.

大きさnの標本 {X1, X2, . . . , Xn} において

Xi は1を確率 p0 を確率 1 − p でとり,互いに独立な確率変数(ベル ヌーイ分布)

したがって E[Xi] = p= 1 · p + 0 · (1 − p)

標本から母集団比率を推定:標本でいくつ1になっているかという割合を利用

これは標本平均 X¯ に他ならない!

したがってその不偏性は先ほどと同じ.

(33)

推定値の計算の仕方1

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

回答が二種類の調査における母集団比率の推定値の計算

◆ 標本調査の結果,大きさ5の標本 { X1, X2, X3, X4, X5 } の結果が { 0, 1, 1, 1, 0 } となった.

◆ このとき,母集団比率の推定値は

¯

x = 1 5

5

X

i=1

xi = 1

5(0 + 1 + 1 + 1 + 0) = 3

5 = 0.60

◆ つまり,母集団比率の推定値は 60 %と計算された. 例2 調査結果から「血液型を信じる」と答えた人が 41.4 %,

つまり標本 { X1, X2, . . . , Xn } において,1となった回答が 111 個,0が 157 個であった.

(34)

推定値の計算の仕方2

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

回答がどのような値でも取り得る調査における母集団平均の推定値の計算

◆ 標本調査の結果,大きさ4の標本 { X1, X2, X3, X4 } の結果が { 32000, 40000, 48000, 40000 } となった.

◆ このとき,母集団平均の推定値は

¯

x = 1 4

4

X

i=1

xi = 1

4(32, 000 + 40, 000 + 48, 000 + 40, 000) = 40, 000

◆ つまり,母集団平均の推定値は 40,000 と計算された. 例3 調査結果では,回答されたお小遣いの平均値を計算した結果

推定値の計算の仕方:X¯ の公式に標本値(調査結果を代入する)

◆ 標本平均の値は,言うまでもなく,x = 21, 036, 675/645 = 32, 615¯

(35)

問題

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

(36)

標本理論の応用問題

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

以下の問題を考えてください.

1. 血液型で性格診断できると信じている人が本当は 50 %いたとすると,300 人に調査した結果として 40 %以下と出てしまう確率はどの程度ですか? 2. 同じ調査で,本当は 50 %のとき,45 55 %と言う計測結果が出る確率はい

くらですか?

3. テレビ視聴率調査を無作為抽出で行うとき,非常に高い確率で正確に測定 したい.具体的には確率 0.95 以上で誤差が ±2% 以内となるようにするに はどのくらいの人たちに調査する必要があるか?

4. 既婚男性のお小遣いの母集団分布が平均 33,000 円,分散 7, 500

2

円の正規 分布で記述されるとき,600 人に調査した結果,お小遣いの平均が 34,000

35,000 円の間で観測される確率はいくらですか.

1∼ 3は中心極限定理を使う.

(37)

略解

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

1. 確率 0.00027,つまり 0.03 %程度と非常に低い確率である. 2. 確率 0.916,つまり 91.6 %程度と高い確率である.

3. 許容できる誤差と必要な標本の大きさ(n)の関係は以下のとおり

Table 3: 許容できる誤差と必要な標本の大きさ( n )の関係

許容誤差 ±10% ±7% ±5% ±4% ±3% ±2% ±1% ±0.1%

必要標本 96 196 384 600 1067 2041 9604 960400 4. 確率 0.0005454176,つまり 0.05 %程度である.

(38)

標本理論の応用問題1:解説

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

問題 血液型で性格診断できると信じている人が本当は 50 %いたとすると,

300 人に調査した結果として 40 %以下と出てしまう確率はどの程度で

すか?

問題より, n = 300 で,本当は 50 %.母集団分布は正規分布ではな

いので中心極限定理を適用するため,標準化した標本平均を考える.

Z = X − p ¯

pp(1 − p)/n =

X − 0.5 ¯

p0.5(1 − 0.5)/300 ∼ N(0, 1).

ただし, X ¯ の平均・分散が pp(1 − p)/n であることを用いた.

(39)

標本理論の応用問題1:解説

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

問題 血液型で性格診断できると信じている人が本当は 50 %いたとすると,

300 人に調査した結果として 40 %以下と出てしまう確率はどの程度で

すか?

ところで,問題は X ≤ 0.40 ¯ の場合の確率を求めることなので

X ≤ 0.40 ¯

⇔ Z = X − 0.5 ¯

p0.5(1 − 0.5)/300

0.4 − 0.5

p0.5(1 − 0.5)/300

≈ −3.46

つまり Pr[ ¯ X ≤ 0.40] = Pr[Z ≤ −3.46] = 0.00027 となって 0.03 %程

度と非常に低い確率になる.

(40)

問題1図解

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

-4 -2 0 2 4

0.00.10.20.30.4

Problem 1: Pr[ Z < -3.46 ]

x

y1

µ =0 , σ2=1

Pr[Z<-3.46] = 0.00027

(41)

問題の説明

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

(42)

標本理論の応用問題

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

回答が離散変数(0と1しかない)であるときの標本問題

1. 血液型で性格診断できると信じている人が本当は 50 %いたとする

と, 300 人に調査した結果として 40 %以下と出てしまう確率はどの

程度ですか?

2. 同じ調査で,本当は 50 %のとき, 45 55 %と言う計測結果が出る

確率はいくらですか?

3. 既婚男性のお小遣いの母集団分布が平均 33,000 円,分散 7, 500

2

の正規分布で記述されるとき, 600 人に調査した結果,お小遣いの

平均が 34,00035,000 円の間で観測される確率はいくらですか.

以下,上の問題を順に解く

(43)

標本理論の応用問題1:解説

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

問題 血液型で性格診断できると信じている人が本当は 50 %いたとすると,300 人に 調査した結果として 40 %以下と出てしまう確率はどの程度ですか?

n = 300 で,本当は 50 %と問題に与えられるているので p = 0.50.母集団 分布は正規分布ではないので表??の上側を用いて,

Z = X − p¯

pp(1 − p)/n =

X − 0.5¯

p0.5(1 − 0.5)/300 ∼ N(0, 1).

ところで,問題は X ≤ 0.40¯ の場合の確率を求めることなので X ≤ 0.40 ⇔ Z =¯ X − 0.5¯

p0.5(1 − 0.5)/300

0.4 − 0.5

p0.5(1 − 0.5)/300 ≈ −3.46 つまり Pr[ ¯X ≤ 0.40] = Pr[Z ≤ −3.46] = 0.00027 となって 0.03 %程度と非 常に低い確率になる.

(44)

問題1図解

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

-4 -2 0 2 4

0.00.10.20.30.4

Problem 1: Pr[ Z < -3.46 ]

x

y1

µ =0 , σ2=1

Pr[Z<-3.46] = 0.00027

(45)

標本理論の応用問題3

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

問題 テレビ視聴率調査を無作為抽出で行うとき,非常に高い確率で正確に測定した い.具体的には確率 0.95 (0.99) 以上で誤差が ±2% 以内となるようにするには どのくらいの人たちに調査する必要があるか?

◆ この問題に対する一般公式は次のように書ける. n =

 1.96

2 × 誤差の大きさ

2

n =

 2.58

2 × 誤差の大きさ

2

◆ 許容できる誤差の大きさを ±2% 以内としているので n =

 1.96 2 × 0.02

2

= 2401 n =

 2.58 2 × 0.02

2

≈ 4160

つまり 2,400 (4,160) 人以上調べれば問題の要求を満たすことがわかる.

(46)

標本理論の応用問題3

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

問題 テレビ視聴率調査を無作為抽出で行うとき,非常に高い確率で正確に測定した い.具体的には確率 0.95 (0.99) 以上で誤差が ±2% 以内となるようにするには どのくらいの人たちに調査する必要があるか?

◆ 許容できる誤差の大きさを変化させると表 4のようになる

◆ ほどほどの精度で満足しないと大変なコストが掛かる.

Table 4: 許容できる誤差と必要な標本の大きさ( n )の関係

許容誤差 ±10% ±5% ±4% ±3% ±2% ±1% ±0.1%

必要標本 (95%) 96 384 600 1,067 2401 9,604 960,400 必要標本 (99%) 166 666 1,040 1,849 4,160 16,641 1,664,100

(47)

標本理論の応用問題3:追加解説1

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

問題 テレビ視聴率調査を無作為抽出で行うとき,非常に高い確率で正確に測定した い.具体的には確率 0.95 以上で誤差が ±2% 以内となるようにするにはどのく らいの人たちに調査する必要があるか?

真の視聴率を p,計測される視聴率の誤差は X − p¯ と書ける.

問題文は,誤差が ±2% 以内となるような確率が 0.95 以上ということなので Pr −0.02 ≤ ¯X − p ≤ 0.02 ≥ 0.95

◆ ところで母集団分布が正規分布ではないので表??の左上を用いて, Z = X − p¯

pp(1 − p)/n ∼ N(0, 1).

(48)

標本理論の応用問題3:追加解説2

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

問題 テレビ視聴率調査を無作為抽出で行うとき,非常に高い確率で正確に測定した い.具体的には確率 0.95 以上で誤差が ±2% 以内となるようにするにはどのく らいの人たちに調査する必要があるか?

ところで,問題は −0.02 ≤ ¯X − p ≤ 0.02 の場合の確率が 0.95 以上となる ような n を求めることなので

−0.02 ≤ ¯X − p ≤ 0.02

−0.02

pp(1 − p)/n

X − p¯

pp(1 − p)/n

0.02

pp(1 − p)/n

−0.02

pp(1 − p)/n ≤ Z ≤

0.02

pp(1 − p)/n

(49)

標本理論の応用問題3:追加解説3

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

問題 テレビ視聴率調査を無作為抽出で行うとき,非常に高い確率で正確に測定した い.具体的には確率 0.95 以上で誤差が ±2% 以内となるようにするにはどのく らいの人たちに調査する必要があるか?

また

−0.02

pp(1 − p)/n

−0.02

p0.5 · 0.5/n = −0.02 · 2 · n = −0.04 · n 0.02

pp(1 − p)/n

0.02

p0.5 · 0.5/n = 0.02 · 2 · n = 0.04 · n

したがって

Pr−0.02 ≤ ¯X − p ≤ 0.02 ≥ Pr −0.04n ≤ Z ≤ 0.04n となる.数表から Pr [−1.96 ≤ Z ≤ 1.96] = 0.95 なので

0.04n = 1.96 =⇒ n =  1.96 0.04

2

= 2401

(50)

標本理論の応用問題3:追加解説4

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

問題 テレビ視聴率調査を無作為抽出で行うとき,非常に高い確率で正確に測定した い.具体的には確率 0.99 以上で誤差が ±2% 以内となるようにするにはどのく らいの人たちに調査する必要があるか?

真の視聴率を p,計測される視聴率の誤差は X − p¯ と書ける.

問題文は,誤差が ±2% 以内となるような確率が 0.99 以上ということなので Pr −0.02 ≤ ¯X − p ≤ 0.02 ≥ 0.99

◆ ところで母集団分布が正規分布ではないので表??の左上を用いて, Z = X − p¯

pp(1 − p)/n ∼ N(0, 1).

(51)

標本理論の応用問題3:追加解説5

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

問題 テレビ視聴率調査を無作為抽出で行うとき,非常に高い確率で正確に測定した い.具体的には確率 0.99 以上で誤差が ±2% 以内となるようにするにはどのく らいの人たちに調査する必要があるか?

ところで,問題は −0.02 ≤ ¯X − p ≤ 0.02 の場合の確率が 0.99 以上となる ような n を求めることなので

−0.02 ≤ ¯X − p ≤ 0.02

−0.02

pp(1 − p)/n

X − p¯

pp(1 − p)/n

0.02

pp(1 − p)/n

−0.02

pp(1 − p)/n ≤ Z ≤

0.02

pp(1 − p)/n

(52)

標本理論の応用問題3:追加解説6

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

問題 テレビ視聴率調査を無作為抽出で行うとき,非常に高い確率で正確に測定した い.具体的には確率 0.99 以上で誤差が ±2% 以内となるようにするにはどのく らいの人たちに調査する必要があるか?

また

−0.02

pp(1 − p)/n

−0.02

p0.5 · 0.5/n = −0.02 · 2 · n = −0.04 · n 0.02

pp(1 − p)/n

0.02

p0.5 · 0.5/n = 0.02 · 2 · n = 0.04 · n

したがって

Pr−0.02 ≤ ¯X − p ≤ 0.02 ≥ Pr −0.04n ≤ Z ≤ 0.04n となる.数表から Pr [−2.58 ≤ Z ≤ 2.58] = 0.99 なので

0.04n = 2.58 =⇒ n =  2.58 0.04

2

= 4160.25

つまり 4, 160 人程度調査すると問題文のような精度で調査できる.

(53)

練習問題3(ヒント)

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

5. 「調査による平均視聴時間」と「母集団における平均視聴時間」が母集団標準 偏差の 0.5 倍以上も乖離してしまうという結果が出る確率は?

問題から

Z ≡ X − µ¯2/n =

X − µ¯

2/200 ∼ N(0, 1)

求めるのは,| ¯X − µ| ≥ 0.5σ という事象の確率なので Pr[| ¯X − µ| ≥ 0.5σ] = Pr

"

| ¯X − µ| pσ2/200

0.5σ pσ2/200

#

最後のカッコ内を整理して確率計算を行えばよい.

(54)

練習問題3(ヒント)

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

5’. 母集団平均が µ 分の正規分布であったとするならば、「調査による平均視聴時 間」と「母集団における平均視聴時間」が母集団標準偏差の k 倍以上も乖離し てしまうという結果が出る確率が 0.05 以下となるのは何人について調査したと きか?

求めるのは,| ¯X − µ| ≥ k · σ という事象の確率なので Pr| ¯X − µ| ≥ k · σ = 0.05 ⇔ Pr

"

| ¯X − µ| pσ2/n

kσ pσ2/n

#

= Pr|Z| ≥ kn =

kn = 1.96 とすると, 標準正規分布に従う Z について Pr[|Z| ≥ 1.96] = 0.05.

このような関係にある k n の組み合わせは,先ほどの表のとおり.

(55)

練習問題3(ヒント)

復習 標本と母集団 無作為標本 母集団平均・分散の推定 問題 問題の説明

k 0.10 0.25 0.50 0.75 1.00

n 385 62 16 7 4

ここまでの問題は,(計算上消えるように工夫しているとはいえ)あたかも母集 団分散が既知であるかのように考えてきた.

実際,母集団分散は未知で,S

2

という推定量で推定することになる

このとき,これまでの議論にどのような変更が必要か?

参照

関連したドキュメント

指標の名称 指標の説明 方向 目標値(R5) 単位

資料

現実感のもてる問題場面からスタートし,問題 場面を自らの考えや表現を用いて表し,教師の

例えば,立証責任分配問題については,配分的正義の概念説明,立証責任分配が原・被告 間での手続負担公正配分の問題であること,配分的正義に関する

例えば,立証責任分配問題については,配分的正義の概念説明,立証責任分配が原・被告 間での手続負担公正配分の問題であること,配分的正義に関する

〃o''7,-種のみ’であり、‘分類に大きな問題の無い,グループとして見なされてきた二と力判った。しかし,半

指標名 指標説明 現 状 目標値 備 考.

目標を、子どもと教師のオリエンテーションでいくつかの文節に分け」、学習課題としている。例