• 検索結果がありません。

統計学 I (H25 前期 水曜 3限 & 5限) Toshihide Kitakado's Website Lec12 13

N/A
N/A
Protected

Academic year: 2017

シェア "統計学 I (H25 前期 水曜 3限 & 5限) Toshihide Kitakado's Website Lec12 13"

Copied!
39
0
0

読み込み中.... (全文を見る)

全文

(1)

統計学 I

北門 利英(海洋生物資源学科)

Lecture 12-13

(2)

Lecture 12-13

区間推定法

・正規分布の平均の信頼区間(分散既知)

・正規分布の平均の信頼区間(分散未知)

仮説検定のロジック

様々な仮説の検定法

・正規分布の平均の検定(1標本,分散既知)

・正規分布の平均の検定(1標本,分散未知)

8 28

・正規分布の平均の検定(2標本,等分散)

・比率の検定(2項分布の正規分布近似)

(3)

正規分布の平均 (分散既知)

(4)

例題

ある海域に生息するXXマグロの1歳魚をn個体ランダムに

サンプリングし,その体長を測定した.これらが以下のよう

に独立同一に正規分布に従うとするとき, μの95%信頼

区間を求めよ.

ただし,分散は既知とする.

2

1 , 2 ,..., n ~ ( ) ( , )

Y Y Y iid N µ σ

 これまでは,パラメータの値を「 1 点」で推定した

(例えば, などのように)

これとは別に,「区間」で推定する方法もある

(例えば,μの95%信頼区間 = (34.2, 58.4)など)

ˆ 45 cm SE ( 5.2 cm )

µ = =

(5)

区間推定の定式化

1. 観測データの確率分布と推定するパラメータを定義

2. 区間推定の信頼水準を定める ( 例えば 95% など)

この信頼水準の意味は,以下のような区間の決め方

を定めた時に,その区間が本当のパラメータの値を含

む頻度が 95 %であることをいう

3. 信頼水準を満たすような区間の決め方を定める

4. 観測データを得たとき,上記の方式に基づいて区間を

計算し,これを信頼水準 95% の信頼区間として与える

(6)

区間推定の定式化(例)

1. 観測データの確率分布と推定するパラメータを定義

2. 信頼水準を 95% とする

3. 信頼水準を満たすような区間の決め方を定める

4. 観測データに対して計算

例えば, n=9, σ=6, のとき

2

1 , 2 ,..., n ~ ( ) ( , )

Y Y Y iid N µ σ

1.96 1.96

Y Y

n n

σ µ σ

− ≤ ≤ +

40

Y = 36.08 ≤ ≤ µ 43.92

(7)

信頼水準の意味をもう少し

μ の値は何か分からないが,ある値

であるとする

信頼水準を 95% と定める

サンプル数 n のデータに対して信頼

区間を計算する

 仮にそういう操作を何度も繰り返し

たとするとき ( 例えば 100) ,そのう

95% の頻度で真の μ の値を含む

 データの解析者は1セットしかデー

タをもっていないので,そのデータ

から構成した信頼区間が真の値を含

んでいるどうかは分からない ( 確率

的にしか分からない ) µ

真の値 ( 未知 )

(8)

正規分布に関する性質 (1)

2

2

~ ( , )

~ (0, )

~ (0,1)

Y N

Y N

Y N

µ σ

µ σ

σ µ

(9)

正規分布に関する性質 (2)

(10)

ところで信頼区間をどのように構成?

定めた水準 1- α に合うよう,観測データの確率分布

に基づき区間を構成する (95% 信頼水準なら α=0.05)

2

1 2

2

1 2

2

1 2

, ,..., ~ ( ) ( , )

~ ( , )

~ ( , )

n

n

n

Y Y Y iid N

Y Y Y N n n

Y Y Y

Y N

n n

µ σ

µ σ

µ σ

+ + +

+ + +

=

2

2

/ 2 / 2

~ (0, )

~ (0,1)

/

( ) 1

Y N

n

Z Y N

n

P z α Z z α

µ σ

µ

σ α

= −

− ≤ ≤ = − 0

Z

z α / 2

α / 2

(11)

ところで信頼区間をどのように構成?

したがって

/ 2 / 2

( ) 1

P z α ≤ ≤ Z z α = − α

/ 2 / 2

/ 2 2 / 2

/ 2 / 2

/ 2 / 2

/ 2 / 2

/ 2 / 2

/

z Z z

z Y z

n

z Y z

n n

Y z Y z

n n

Y z Y z

n n

Y z Y z

n n

α α

α α

α α

α α

α α

α α

µ

σ σ µ σ

σ µ σ

σ µ σ

σ µ σ

− ≤ ≤

⇔ − ≤ − ≤

⇔ − ≤ − ≤

⇔ − − − ≤ − +

⇔ + ≥ ≥ −

⇔ − ≤ ≤ +

(12)

ところで信頼区間をどのように構成?

したがって

/ 2 / 2

( ) 1

P z α ≤ ≤ Z z α = − α

/ 2 / 2

/ 2 2 / 2

/ 2 / 2

/ 2 / 2

/ 2 / 2

/ 2 / 2

/

z Z z

z Y z

n

z Y z

n n

Y z Y z

n n

Y z Y z

n n

Y z Y z

n n

α α

α α

α α

α α

α α

α α

µ

σ σ µ σ

σ µ σ

σ µ σ

σ µ σ

− ≤ ≤

⇔ − ≤ − ≤

⇔ − ≤ − ≤

⇔ − − − ≤ − +

⇔ + ≥ ≥ −

⇔ − ≤ ≤ +

(13)

演習 (1)

先程のマグロの体長の例で 9 個体のデータが下記のと

おりであった. σ=6 と仮定し, 90% 信頼区間 , 95%

頼区間および 99% 信頼区間を求めよ.

Y=(42, 40, 50, 39, 40, 43, 42, 48, 43)

90% 信頼区間

95% 信頼区間

99% 信頼区間

(14)

正規分布の平均 (分散未知)

(15)

分散が既知の場合と未知の場合の違いは?

2

/ 2 / 2

~ (0,1)

/ /

( ) 1

Y Y

Z N

n n

P z α Z z α

µ µ

σ σ

α

− −

= =

− ≤ ≤ = −

0

Z

z

α/ 2

α / 2

残念ながら,いま上記の式は使えない

( なぜなら,分散が未知だから!)

そこで,分散の推定値を代入するが,正規分布の仮定が崩れる

2 2

1

/ 2 / 2

ˆ 1 ( )

1

~ ( 1)

ˆ /

( ) 1

n

i

i

Y Y

n

T Y t n

n

P t α T t α

σ

σ µ

α

= = −

=− −

− ≤ ≤ = −

自由度 n-1

t 分布

0

T

/ 2

( 1)

t

α

n

α / 2

(16)

分散が既知の場合と未知の場合の違いは?

0

Z

z

α/ 2

α / 2

0

T

/ 2

( 1)

t

α

n

α / 2

n α = 0.05

Z

α/2

- 1.96

t α/2(n-1) 2

3

4

5

9

10

(17)

分散が既知の場合と未知の場合の違いは?

0

Z

z

α/2

α / 2

0

T

/ 2

( 1)

t

α

n

α / 2

n α = 0.05

Z

α/2

- 1.96

t α/2(n-1) 2 12.706

3 4.303

4 3.182

5 2.276

9 2.306

10 2.262

∞ 1.96

分散が未知のため,不確実性

が大きくなる.よって自動的

に安全を見越した広めの区間

となる

(18)

演習 (2)

先程のマグロの体長の例で 9 個体のデータが下記のと

おりであった. σ の推定値は 3.71 と求まる.このと

き, 90% 信頼区間 , 95% 信頼区間および 99% 信頼区間

を求めよ.

90% 信頼区間

95% 信頼区間

99% 信頼区間

(19)
(20)

生物や科学における検証課題

 クロマグロの資源量は減少傾向にあるか?

 ミンククジラの肥満度は雌雄で異なるか?

 北太平洋に回遊してくるニタリクジラは単一系群か?

 ある毒性のある物質は発ガン性があるか?

 新薬は治療に有効か

など

仮説とは?

(21)

例題:ポテトチップス問題

A社のある菓子のパッケージには内容量 100 gと記されていた.

好奇心旺盛なあなたは,これが本当かどうかを知りたくなっ

た.そこで,早速スーパーに出かけて 10 袋購入し,帰宅後重

さを量った.その結果, Y

1 , Y 2 , …, Y n (g) と観測された.

(22)

例題:ポテトチップス問題

A社のある菓子のパッケージには内容量 100 gと記されていた.

好奇心旺盛なあなたは,これが本当かどうかを知りたくなった.

そこで,早速スーパー 10 か所に出かけて 1 袋ずつ購入し,帰宅

後重さを量った.その結果, Y

1 , Y 2 , …, Y n (g) と観測された.

このとき,あなたが積極的に示したいのは,

「内容量の平均 μ100g である」(これを帰無仮説という)

ではなく,むしろ

「内容量の平均 μ100g ではない」 ( 対立仮説として設定 )

の方であろう.

これをどのように示すか?あるいは判断を下すか?

2

1 , 2 ,..., n ~ ( ) ( , )

Y Y Y iid N µ σ

(23)

背理法

主張したい命題Aに対して H

0

= {Aではない}を仮定

H 0 の仮定の下で矛盾が生じる ⇒ 命題Aは真

 矛盾が生じない ⇒ 命題については何もいえない

命題 (1)

「自然数a,b,cに対して が成り立つとき,

a,b,cのうち少なくとも1つは偶数である」は真,偽?

命題 (2)

「自然数a,bに対して が成り立つとき,

a,b のうち少なくとも1つは偶数である」は真,偽?

2 2 2

a + = b c

2 2

a = b

(24)

刑事裁判

検察はB氏が有罪であることを主張したい.

そこで,それとは逆のBが無罪を想定してみる

 疑問の余地のないくらい高度な証拠

⇒ 有罪

 疑問の余地のないくらい高度な証拠がない

⇒ 証拠不十分で無罪

「無罪」を同じロジックで示そうとすると大変

(疑わしきは罰せず,万人は善人)

(25)

判断の誤り

背理法 命題を真と判断 命題を偽と判断

命題が真 正しい判断 この間違いは許されない

命題が偽 - -

刑事裁判 被疑者は無罪と判断 被疑者は有罪と判断

被疑者は無罪 正しい判断 冤罪 ( 可能な限りゼロに)

被疑者は有罪 罪の見逃し 正しく罪を裁く

仮説の検定 仮説を真と判断 仮説を偽と判断

仮説が真 正しい判断 第 1 種の過誤

仮説が偽 第2種の過誤 正しい判断

「第 1 種の過誤」と「第2種の過誤」はトレードオフ

(同時に小さくすることはできない.刑事裁判も同様 )

(26)

仮説検定における過誤の確率

仮説検定 仮説を真と判断 仮説を偽と判断

仮説が真 正しい判断 第 1 種の過誤

仮説が偽 第2種の過誤 正しい判断

「第 1 種の過誤」の確率をゼロにすると,背理法と同様で,仮説

が偽の時に判断を下せない

「第 1 種の過誤」の確率があまりに小さいと,仮説が偽のときに

真と謝る「第 2 種の過誤」の確率が大きくなりすぎる

そこで, 「第 1 種の過誤」の確率をある程度認めて( 5% など),

仮説が偽のときに偽と判断する確率を大きくしたい

(27)

仮説検定の流れ

1. 帰無仮説と対立仮説を設定

2. 観測データの確率分布を定義し,それぞれの仮説と対応さ

せる

3. 検定の有意水準(第1種の過誤の確率)を設定( α =0.05など)

4. 帰無仮説が正しいと仮定する

5. 有意水準に合わせて帰無仮説の採択域と棄却域を設定

6. 帰無仮説を採択する (疑わしきは罰せず)か, あるいは

(積極的に)帰無仮説を棄却し対立仮説

(28)

(1標本,分散既知)

(29)

ポテチ問題 ()

2

1 , 2 ,..., n ~ ( ) ( , )

Y Y Y iid N µ σ

帰無仮説 (H

0 ) μ=100

対立仮説 (H

1 ) μ≠100

いま,10袋の計測結果が以下のとおりであったとする

Y=(98, 96, 96, 101, 103, 99, 98, 97, 97, 98)

この平均値は98.3であり,この値

が100に値に近ければH0を採択

し,100から離れていればH0を

棄却する

では,どれくらい離れていると棄

却に帰無仮説を棄却すべきか?

分散は既知とする

(30)

ポテチ問題 ()

2

1 , 2 ,..., n ~ ( ) ( 0 , )

Y Y Y iid N µ σ

帰無仮説 (H

0 ) μ=100 が正しいとする

帰無仮説 (H

0 ) μ=100 が正しいとして

標本平均の値に注目すると,随分可

能性の低い値であることが分かる

2

~ ( 0 , )

Y N

n

µ σ

(31)

σ=2 と仮定し,さらに標準化

してみると

下側 2.5% の領域域に入って

いることが分かる

すなわち,帰無仮説を仮定

すると,かなり可能性の低

いことが起きていることに

なる

ポテチ問題 ()

0

2 ~ (0,1)

/

Z Y N

n

µ

σ

= −

(32)

採択域と棄却域の設定

0

2

/ 2 / 2

/ 2 / 2

~ (0,1)

/

( ) 1

( , )

Z Y N

n

P z Z z

P Z z z Z

α α

α α

µ

σ α

α

= −

− ≤ ≤ = −

< − < =

/ 2 / 2

z α Z z α

− ≤ ≤

有意水準αの採択域

念のためZの値が採択域に含まれるかどうか確認してみて下さい

(33)

(1標本,分散未知)

(34)

ある溶液中に含まれているアルコールの割合 (%)10

回測定して次の結果を得た.真のアルコールの割合を

μ とするとき,無帰仮説 H 0 : μ=12 を対立仮説 H 1 : μ≠12

に対して有意水準 5% で検定せよ.

12.3 , 13.0, 11.8, 12.7, 12.6, 13.4, 11.9, 12.4, 11.6, 12.3

演習問題

(35)

2

1 , 2 ,..., 10 ~ ( ) ( , )

Y Y Y iid N µ σ

0

1

: 12

: 12

H

H

µ

µ

=

分散の値によって,帰無仮説の妥当性が変わる

演習問題

(36)

ˆ 0.554

σ =

2

1 2 10

2

, ,..., ~ ( ) ( , )

~ ,

Y Y Y iid N

Y N

n

µ σ

µ σ

 

 

分散の値によって,

帰無仮説の妥当性が変わる

これをどのように使う?

演習問題

(37)

ˆ 0.554

σ =

( )

2

1 , 2 ,..., 10 ~ ( ) ( , )

~ 0,1

~ ( 1)

ˆ

Y Y Y iid N

Z n Y N

T n Y t n

µ σ

σ µ

σ µ

= −

=− −

2.284 ? (check please!)

T =

採択域

- 2.262 T 2.262

2.5 2.5

演習問題

それでは採択域,棄却域を求め,

判断してみてください

(38)

Go to some exercises

on the attachment

(39)

次回の予定

Lecture 14

様々な仮説の検定法

・正規分布の平均の検定(1標本,分散既知)

・正規分布の平均の検定(1標本,分散未知)

・正規分布の平均の検定(2標本,等分散)

・比率の検定(2項分布の正規分布近似)

参照

関連したドキュメント

本時は、「どのクラスが一番、テスト前の学習を頑張ったか」という課題を解決する際、その判断の根

ヒュームがこのような表現をとるのは当然の ことながら、「人間は理性によって感情を支配

このような情念の側面を取り扱わないことには それなりの理由がある。しかし、リードもまた

このような状況の下で、当業界は、高信頼性及び省エネ・環境対応の高い製品を内外のユーザーに

このガイドラインは、東京都北区(以下「区」という。

また、 NO 2 の環境基準は、 「1時間値の1 日平均値が 0.04ppm から 0.06ppm までの ゾーン内又はそれ以下であること。」です

以上の基準を仮に想定し得るが︑おそらくこの基準によっても︑小売市場事件は合憲と考えることができよう︒

指針に定める測定下限濃度   :2×10 -2 Bq/cm 3 ,指針上、この数値を目標に検出することとしている値 測定器の検出限界濃度     :約1×10