• 検索結果がありません。

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

N/A
N/A
Protected

Academic year: 2021

シェア "統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :"

Copied!
29
0
0

読み込み中.... (全文を見る)

全文

(1)

統計学

社会統計の基礎

-正規分布、標準正規分布

累積分布関数の逆関数

t分布

正規分布に従うサンプルの平均の信頼区間

担当: 岸 康人

資料ページ: https://goo.gl/qw1DJw

(2)

正規分布(復習)

▋正規分布(Normal Distribution)N (μ, σ

2

)

別名:ガウス分布(Gaussian Distribution)

密度関数

Excel:= NORM.DIST ( x, μ, σ, FALSE )

累積分布関数

???(-_-;) 初等関数で書けない(が数値計算は可能) NORM.DIST ( x, μ, σ, TRUE )

平均:

分散:

(標準偏差:σ)

(3)

正規分布(復習)

正規分布の特徴

2項分布の極限

観測誤差の分布

中心極限定理

• 平均はn→∞で正規分布に従う

平均に関して左右対称

再生性

(4)

前回の演習

1. X~N(20, 25)のとき、P[X>25]を求めよ。

P[X>25]=1-P[X≦25]~0.159

(5)

前回の演習

2. X~N(20, 25)のとき、P[X≦15]を求めよ。

P[X≦15]~0.159

(6)

前回の演習

3. X~N(20, 25)のとき、P[15≦X≦25]を求めよ。

P[15≦X≦25]=P[X≦25]-P[X≦15]~0.683

=NORMDIST(25,20,SQRT(25),TRUE)

-NORMDIST(15,20,SQRT(25),TRUE)

σ σ

(7)

前回の演習

4. X~N(20, 100)のとき、P[10≦X≦30]を求めよ。

P[10≦X≦30]=P[X≦30]-P[X≦10]~0.683

=NORMDIST(30,20,SQRT(100),TRUE)

-NORMDIST(10,20,SQRT(100),TRUE)

σ σ

(8)

前回の演習

5. X~N(20, 225)のとき、P[5≦X≦35]を求めよ。

P[5≦X≦35]=P[X≦35]-P[X≦5]~0.683

=NORMDIST(35,20,SQRT(225),TRUE)

-NORMDIST(5,20,SQRT(225),TRUE)

σ σ

(9)

前回の演習

6. X~N(30, 225)のとき、P[15≦X≦45]を求めよ。

P[15≦X≦45]=P[X≦45]-P[X≦15]~0.683

=NORMDIST(45,30,SQRT(225),TRUE)

-NORMDIST(15,30,SQRT(225),TRUE)

σ σ

(10)

前回の演習

7. X~N(25, 100)のとき、P[15≦X≦35]を求めよ。

P[15≦X≦35]=P[X≦35]-P[X≦15]~0.683

=NORMDIST(35,25,SQRT(100),TRUE)

-NORMDIST(15,25,SQRT(100),TRUE)

σ σ

(11)

前回の演習

3. X~N(20, 25)のとき、 σ=5だから、 P[15≦X≦25]=P[20-5≦X≦20+5] =P[μ-σ≦X≦μ+σ] 4. X~N(20, 100)のとき、σ=10だから、 P[10≦X≦30]=P[20-10≦X≦20+10] =P[μ-σ≦X≦μ+σ] 5. X~N(20, 225)のとき、σ=15だから、 P[5≦X≦35]=P[20-15≦X≦20+15] =P[μ-σ≦X≦μ+σ] 6. X~N(30, 225)のとき、σ=15だから、 P[15≦X≦45]=P[30-15≦X≦30+15] =P[μ-σ≦X≦μ+σ] 7. X~N(25, 100)のとき、σ=10だから、 P[15≦X≦35]=P[25-10≦X≦25+10] =P[μ-σ≦X≦μ+σ]

X~N(μ, σ

2

)のとき、

P[μ-σ≦X≦μ+σ] ~0.683

(12)

前回の演習

X~N(μ, σ

2

)のとき、P[μ-3σ≦X≦μ+3σ]は?

例えば、X~N(20,100)として、P[-10≦X≦50]~0.9973

=NORMDIST(50,20,10,TRUE)

-NORMDIST(-10,20,10,TRUE)

3σ 3σ

(13)

正規分布

▋標準正規分布 N(0,1)

μ=0, σ

2

=1(σ=1)の正規分布を標準正規分布と呼ぶ

(14)

正規分布

▋標準正規分布 N(0,1)

密度関数

= NORM.DIST ( x, 0, 1, FALSE )

=

NORM.S.DIST

(

x

, FALSE )

累積分布関数

= NORM.DIST ( x, 0, 1, TRUE )

=

NORM.S.DIST

(

x

, TRUE )

(15)

正規分布

▋3σ範囲

1σ範囲:P[μ-σ≦X≦μ+σ] =P[-1≦Z≦1]=0.6827…

2σ範囲:P[μ-2σ≦X≦μ+2σ]=P[-2≦Z≦2]=0.9545…

3σ範囲:P[μ-3σ≦X≦μ+3σ]=P[-3≦Z≦3]=0.9973…

4σ範囲:P[μ-4σ≦X≦μ+4σ]=P[-4≦Z≦4]=0.9999…

3σ 3σ 正規分布の場合 99.7%のサンプル は3σ範囲内

(16)

正規分布

▋確率→実現値を求める

確率pが与えられたとき、P[-r≦Z≦r]=pを満たすrは?

• Z~N(0,1) • 例えばp=0.9のとき、下図 90%のサンプルが 入っているような範 囲をみつけたい ? ?

(17)

正規分布

▋確率→実現値を求める

確率pが与えられたとき、P[-r≦Z≦r]=pを満たすrは?

• P[-r≦Z≦r]=1-P[Z≦-r]-P[Z<r] だから、 P[Z≦-r](=P[Z<r])=(1-p)/2 となるrを求めればよい P[Z<r]=5% ? ? P[Z≦-r]=5%

(18)

正規分布

▋確率→実現値を求める

確率pが与えられたとき、P[-r≦Z≦r]=pを満たすrは?

• 正規分布の累積分布関数が書けないので、P[Z≦-r]=(1-p)/2の解r も初等関数で表せないが、数値計算は可能 =NORM.S.INV(確率) (標準正規分布の累積分布関数の逆関数) ? ? NORM.S.INV(0.05) =-1.64485… 1.64485…

(19)

正規分布

▋確率→実現値を求める

確率pが与えられたとき、P[-r≦Z≦r]=pを満たすrは?

• r=NORM.S.INV( (1-p)/2 ) 90%のサンプルが入ってい る範囲は、 -1.64485≦Z≦1.64485 -1.64485 1.64485

(20)

正規分布

▋標準正規分布 N(0,1)

密度関数

=

NORM.S.DIST

(

x

, FALSE )

累積分布関数

=

NORM.S.DIST

(

x

, TRUE )

累積分布関数の逆関数

• 確率から実現値を求める

=

NORM.S.INV

( p )

(21)

t分布

▋t分布 T(ν)

ν(ニュー;ギリシャ文字):自由度

• サンプルサイズ-1 • νを大きくするとN(0,1)に近づく

Wikipedia:t分布

平均:E[X]=0

分散:V[X]=ν/(ν-2) (ν>2)

(22)

t分布

考案した人

William Sealy Gosset a.k.a. Student

• 1876-1937

ペンネームから「Studentのt分布」とも呼ばれる

• 名付けたのはFisher http://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A 3%E3%83%AA%E3%82%A2%E3%83%A0%E3%83%BB %E3%82%B4%E3%82%BB%E3%83%83%E3%83%88 サンプルサイズが少な くてもなるべく正確な 統計にしたい

(23)

t分布

t分布

次の確率変数Tの分布

n個の(μ, σ)正規分布に従う 確率変数X1~Xnの標本平均 n個の(μ, σ)正規分布に従 う確率変数X1~Xnの(不 偏)標準偏差

(24)

t分布

▋t分布 T(ν)

密度関数

=

T.DIST

(x, ν , FALSE)

累積分布関数

=

T.DIST

(x, ν , TRUE)

累積分布関数の逆関数

=

T.INV

( p, ν )

• 信頼区間を求めるときに出てきた関数

(25)

正規分布の期待値の区間推定

分散が未知

の場合:

CONFIDENCE.T

信頼区間:

c=ー

t

U

/√n

• U:(不偏)標準偏差(不偏分散の平方根);サンプルから計算 • n :サンプルサイズ • t :=-T.INV( (1-α)/2 , ν )

α

:信頼度  ν:自由度=n-1 =CONFIDENCE.T( 1-α, U, n )  分散未知な正規分布の平均の信頼幅(Confidence Interval)  1-α :有意水準=1-信頼度(95%→0.05、90%→0.01) » 2で割らないことに注意

(26)

正規分布の期待値の区間推定

分散が既知

の場合:

CONFIDENCE.NORM

信頼区間:

c=ーzσ/√n

• σ :標準偏差(母分散の平方根) • n :サンプルサイズ • =-z*σ/SQRT(n)  z= NORM.S.INV( (1-α)/2 )

»

α

:信頼度 =CONFIDENCE.NORM( 1-α, σ, n )  分散既知な正規分布の平均の信頼幅(Confidence Interval)  1-α :有意水準=1-信頼度(95%→0.05、90%→0.01) » 2で割らないことに注意

(27)

この講義で学習したこと

レポート・論文での研究・分析手法

分析プラン:テーマ、仮説、分析ポイント

統計での分析手法

サンプルデータの扱い

• 度数分布(ヒストグラム) • 特徴量(平均、中央値、標準偏差、分散、…)

サンプルデータの分布の推定

• 分布の種類を推定  離散 → 二項分布/幾何分布/ポアソン分布/…  連続 → 指数分布/正規分布/…

点推定と区間推定(信頼区間)

• 正規分布のサンプルのみ

分布が与えられたときの確率の計算

(28)

この講義で学習しなかったこと

多くの分布

ロングテール/ヘビーテールに属する分布

• 世の中のいろいろな現象は裾の重い分布 • これらの現象に裾の軽い分布を適用すると、滅多に起こらない方の確 率を過小評価することになる • パレート分布、対数正規分布、ワイブル分布(一部)、t分布、etc.

統計学の手法

*検定

*多変量解析

ベイズ統計

機械学習

etc.

(29)

今日の演習

参照

関連したドキュメント

Bでは両者はだいたい似ているが、Aではだいぶ違っているのが分かるだろう。写真の度数分布と考え

• 1つの厚生労働省分類に複数の O-NET の職業が ある場合には、 O-NET の職業の人数で加重平均. ※ 全 367

第四系更新統の段丘堆積物及び第 四系完新統の沖積層で構成されて おり、富岡層の下位には古第三系.

統制の意図がない 確信と十分に練られた計画によっ (逆に十分に統制の取れた犯 て性犯罪に至る 行をする)... 低リスク

本部

原子力規制委員会 設置法の一部の施 行に伴う変更(新 規制基準の施行に 伴う変更). 実用発電用原子炉 の設置,運転等に

 千葉 春希 家賃分布の要因についての分析  冨田 祥吾 家賃分布の要因についての分析  村田 瑞希 家賃相場と生活環境の関係性  安部 俊貴

「事業分離等に関する会計基準」(企業会計基準第7号 平成20年12月26 日)、「持分法に関する会計基準」(企業会計基準第16号