• 検索結果がありません。

確率と統計 確率と統計 中山クラス

N/A
N/A
Protected

Academic year: 2021

シェア "確率と統計 確率と統計 中山クラス"

Copied!
5
0
0

読み込み中.... (全文を見る)

全文

(1)

確率と統計 確率と統計

中山クラス 第8週 中山クラス

第8週

0

本日の内容

1 小テストの解説

第4章 4.5 標本分布

4.6 標本平均以外の標本分布 第3回レポートの出題

コンピュータ演習

正規分布に関する補足



P(X

)0.6826



P(X 2)0.9546



P(X3)0.9974

2

-4 -2 0 2 4

0.00.10.20.30.4

x

dnorm(x, mean = 0, sd = 1)

3

4.5 標本分布

標本分布とは

標本統計量(標本平均,標本分散など)に関する確率分布 確率変数である標本統計量の分布状況を確率的に表す

→母数の推定値の信頼度を知る上で重要

標本における個々のデータの実現値を表した度数分布ではなく,

標本統計量の確率分布である.

母集団分布と標本統計量の種類,サンプルサイズから理論的

(数学的)に導かれるもので,実際のデータから作成されるもので はない.

4

母集団

(母数)

標本統計量 標本統計量 標本統計量

標本統計量

標本統計量 標本統計量

確率分布 ↓ 標本分布

(確率変数)

無作 為 標本 抽出

<推定量>

5

4.5.1 標本分布から分かること

母数の本当の値を中心 に狭い範囲に分布 ↓ 正しい値を高い確度で 推定している

(2)

6

母数の本当の値からずれた 所に狭く分布

間違った値を高い確度で推 定している

7

母数の本当の値を中心 に広く分布

↓ 正しい値を低い確度で 推定している

「標本分布の平均と標準偏差(標準誤差)」により,

推定値がどれだけ母数に近いか評価できる.

標本分布は,理論的に計算できるが,簡単ではない.

→Rを使って「経験的(実験的)に」標本分布を計算

注意:

• サンプルから計算する標本分布は真の標本分布の

「近似値」にすぎない.

• 母集団の分布は種々あるが本章では正規分布を 想定する.

9

4.5.2 標本分布を「経験的」に求める

確率変数の実現値を多量に得る ↓

実現値のヒストグラムが確率分布に近づく ↓

近似的な標本分布

4.5.3 正規母集団の母平均の推定

正規分布に従う母集団の平均(=母平均)を推定する.

→標本の平均(=標本平均)=母平均の推定量

R で標本平均を計算してみると,試行ごとに標本平均が 変化する.

( R では平均をあらかじめ決めてサンプルを生成してい るので,真の母平均がわかっている.教科書の例で は 50 が母平均.)

標本抽出を繰り返して推定値を調べる. →4.5.4 10

母集団分布:𝑁(50, 10

2)

サンプル数: n=10 標本の無作為抽出と平均

> 標本 <- rnorm(n=10, mean=50, sd=10)

> 標本

[1] 49.78527 53.83358 32.68944 50.65051 55.88846 54.73556 40.45287 52.80188

[9] 65.50508 62.29281

> mean(標本) [1] 51.86355

(3)

12

> 標本 <-rnorm(n=10, mean=50, sd=10)

> 標本

[1] 49.78527 53.83358 32.68944 50.65051 55.88846 54.73556 40.45287 52.80188

[9] 65.50508 62.29281

> mean(標本) [1] 51.86355

> 標本 <-rnorm(n=10, mean=50, sd=10)

> 標本

[1] 56.55998 62.13028 63.16473 52.05961 61.03372 57.48173 50.13165 45.09212

[9] 51.82399 37.71204

> mean(標本) [1] 53.71898

13

4.5.4 標本分布を求める

<推定値を格納する場所を確保>

> 標本平均 <- numeric(length=10000)

{ }

で囲まれた処理を

10000

回繰り返す>

> for(i in 1:10000){

+ 標本<- rnorm(n=10,mean=50,sd=10) + 標本平均[i]<- mean(標本) }

<ヒストグラムを表示>

> hist(標本平均)

14

Histogram of 標本平均

標本平均

Frequency

40 45 50 55 60

0500100015002000

15 正規分布𝑁(𝜇, 𝜎

2)に従う母集団から𝑛サンプルを無作

為抽出したとき,その標本平均の確率分布(標本分 布)は𝑁(𝜇,

𝜎𝑛2)に従う.

> mean(標本平均) [1] 50.00082

> mean((標本平均-mean(標本平均))^2) [1] 9.906092

標本平均の確率分布

16

> hist(標本平均,freq=FALSE) <面積=1となるように調整>

> curve(dnorm(x,mean=50,sd=sqrt(10)),add=TRUE)

Histogram of 標本平均

標本平均

Density

40 45 50 55 60

0.000.020.040.060.080.100.12

17

4.5.5 不偏性

ある推定量の標本分布の平均が推定しようとしている 母数の値と一致するとき,その推定量は不偏性がある

(不偏である).→不偏推定量

標本平均は母集団分布にかかわらず母平均の不偏推 定量である.

推定量の不偏性 → 標本分布が母数の本当の値を中心

として分布している.

(4)

18

4.5.6 標準誤差

標準誤差:標本分布の広がり(標準偏差で評価)

𝑁 50, 102の正規分布から𝑛 = 10の標本を抽出したときの 標本平均の標本分布は𝑁(50, 10)であったから,標準誤差は 10 となる.

𝑁 𝜇, 𝜎2の母集団に対して標本分散は𝑁 𝜇,𝜎2

𝑛 となるので,

標準誤差は𝜎/ 𝑛となる.

母集団分布の分散(標準偏差)が大きい →標本平均の標準誤差も大きい サンプルサイズ𝑛が大きい

→標本平均の標準誤差は小さい

19

4.6 標本平均以外の標本分布

平均以外の母数に対しても標本分布を考えて母 数を推定できる.

4.6.1 標本分散と不偏分散の標本分布

標本分散:標本データに基づく分散(分母:n)

不偏分散:母分散の不偏推定量(分母:n-1)

実験的に違いを調べる

母集団分布:𝑁 50, 102,サンプルサイズ:𝑛 = 10 母分散=100

> 標本分散 <- numeric(length=10000)

> 不偏分散 <- numeric(length=10000)

> for(i in 1:10000){

+ 標本<- rnorm(n=10,mean=50,sd=10) + 標本分散[i]<-mean((標本-mean(標本))^2) + 不偏分散[i]<-var(標本)

+ }

> mean(標本分散) <標本分散は1/n>

> [1] 90.46028

21

標本分散と不偏分散の標準偏差

> sd(標本分散) [1] 42.61138

> sd(不偏分散) [1] 47.34598

不偏分散の方がばらつきが大きい

22

Histogram of 標本分散

標本分散

Frequency

0 100 200 300 400 500

02004006008001000

Histogram of 不偏分散

不偏分散

Frequency

0 100 200 300 400 500

0200400600800

> hist(標本分散,breaks=seq(0,500,10))

> hist(不偏分散,breaks=seq(0,500,10))

標本分散 不偏分散

不偏分散の標準偏差

> mean(sqrt(不偏分散)) [1] 9.752271

母標準偏差=10>9.75

不偏分散の平方根は母標準偏差の推定量にはならない.

(5)

4.6.2 中央値の標本分布

中央値:データを並べて中央に位置する値.平均よりも 外れ値の影響を受けにくい.

→標本中央値の標本分布を実験的に求める.

→ 標本中央値の推定値の平均は母平均に近い.しかし,

標準誤差は標本平均よりも大きくなる.(実は,標本 中央値のほうが外側の値が混ざる→図4.16)

→母平均の推定量としては,標本中央値よりも標本平 均のほうが平均的に誤差が小さく,適している.

24

25

中央値の標本分布

> 標本平均 <- numeric(length=10000)

> 標本中央値 <- numeric(length=10000)

> for(i in 1:10000){

+ 標本<- rnorm(n=10,mean=50,sd=10) + 標本平均[i]<-mean(標本)

+ 標本中央値[i]<-median(標本) + }

> mean(標本平均) [1] 49.96765

> mean(標本中央値) [1] 49.98527

> sd(標本平均) [1] 3.160037

> sd(標本中央値) [1] 3.75616

26

Histogram of 標本平均

標本平均

Frequency

40 45 50 55 60

05001000150020002500

Histogram of 標本中央値

標本中央値

Frequency

35 40 45 50 55 60 65

0500100015002000

> hist(標本平均)

> hist(標本中央値)

標本平均 標本中央値

第3回レポート

◆締切:12月5日(金)17:00

◆提出場所:1号館2階 レポート提出箱

27

第3回レポート課題

Ⅰ.次の用語を説明せよ.

母集団,母数,標本,標本抽出,推定量,推定値,

確率変数,確率分布,正規分布,標本分布,不偏性,

標準誤差

Ⅱ.第4章の練習問題を行ったうえで,以下に答えよ.

(1)で作成した図から分かることを述べよ.

(2)で作成した図から分かることを述べよ.

*(1),(2)に関して,図のプリントアウトに書き込んで もよい.

28

次回の予定

第5章 統計的仮説検定

5.1〜5.3

標準正規分布を用いた検定を行う予定

29

参照

関連したドキュメント

て当期の損金の額に算入することができるか否かなどが争われた事件におい

2 E-LOCA を仮定した場合でも,ECCS 系による注水流量では足りないほどの原子炉冷却材の流出が考

統制の意図がない 確信と十分に練られた計画によっ (逆に十分に統制の取れた犯 て性犯罪に至る 行をする)... 低リスク

・ 津波高さが 4.8m 以上~ 6.5m 未満 ( 津波シナリオ区分 3) において,原

社会調査論 調査企画演習 調査統計演習 フィールドワーク演習 統計解析演習A~C 社会統計学Ⅰ 社会統計学Ⅱ 社会統計学Ⅲ.

炉心損傷 事故シーケンスPCV破損時期RPV圧力炉心損傷時期電源確保プラント損傷状態 後期 TW 炉心損傷前 早期 後期 長期TB 高圧電源確保 TQUX 早期 TBU

表4.1.1.f-1代表炉心損傷シーケンスの事故進展解析結果 PDS 炉心溶融 RPV下部プレナム リロケーションRPV破損 PCV破損 TQUV (TBP) TQUX (TBU、TBD) TQUX (RPV破損なし)

据付確認 ※1 装置の据付位置を確認する。 実施計画のとおりである こと。. 性能 性能校正