統計学

(1)

社会統計の基礎

-正規分布、標準正規分布

累積分布関数の逆関数

t分布

正規分布に従うサンプルの平均の信頼区間

担当：岸康人

資料ページ： https://goo.gl/qw1DJw

(2)

正規分布（復習）

▋正規分布（Normal Distribution）N (μ, σ

2

₎

別名：ガウス分布（Gaussian Distribution）

–

密度関数

Excel:= NORM.DIST ( x, μ, σ, FALSE )

–

累積分布関数

？？？(-_-;) 初等関数で書けない（が数値計算は可能） NORM.DIST ( x, μ, σ, TRUE )

–

平均：

–

分散：

（標準偏差：σ）

(3)

正規分布（復習）

▋

正規分布の特徴

–

2項分布の極限

–

観測誤差の分布

–

中心極限定理

• 平均はn→∞で正規分布に従う

–

平均に関して左右対称

–

再生性

(4)

前回の演習

1. X～N(20, 25)のとき、P[X>25]を求めよ。

P[X>25]=1－P[X≦25]～0.159

(5)

前回の演習

2. X～N(20, 25)のとき、P[X≦15]を求めよ。

P[X≦15]～0.159

(6)

前回の演習

3. X～N(20, 25)のとき、P[15≦X≦25]を求めよ。

P[15≦X≦25]=P[X≦25]－P[X≦15]～0.683

=NORMDIST(25,20,SQRT(25),TRUE)

－NORMDIST(15,20,SQRT(25),TRUE)

σ σ

(7)

前回の演習

4. X～N(20, 100)のとき、P[10≦X≦30]を求めよ。

P[10≦X≦30]=P[X≦30]－P[X≦10]～0.683

=NORMDIST(30,20,SQRT(100),TRUE)

－NORMDIST(10,20,SQRT(100),TRUE)

σ σ

(8)

前回の演習

5. X～N(20, 225)のとき、P[5≦X≦35]を求めよ。

P[5≦X≦35]=P[X≦35]－P[X≦5]～0.683

=NORMDIST(35,20,SQRT(225),TRUE)

－NORMDIST(5,20,SQRT(225),TRUE)

σ σ

(9)

前回の演習

6. X～N(30, 225)のとき、P[15≦X≦45]を求めよ。

P[15≦X≦45]=P[X≦45]－P[X≦15]～0.683

=NORMDIST(45,30,SQRT(225),TRUE)

－NORMDIST(15,30,SQRT(225),TRUE)

σ σ

(10)

前回の演習

7. X～N(25, 100)のとき、P[15≦X≦35]を求めよ。

P[15≦X≦35]=P[X≦35]－P[X≦15]～0.683

=NORMDIST(35,25,SQRT(100),TRUE)

－NORMDIST(15,25,SQRT(100),TRUE)

σ σ

(11)

前回の演習

3. X～N(20, 25)のとき、 σ=5だから、 P[15≦X≦25]=P[20－5≦X≦20+5] =P[μ－σ≦X≦μ+σ] 4. X～N(20, 100)のとき、σ=10だから、 P[10≦X≦30]=P[20－10≦X≦20+10] =P[μ－σ≦X≦μ+σ] 5. X～N(20, 225)のとき、σ=15だから、 P[5≦X≦35]=P[20－15≦X≦20+15] =P[μ－σ≦X≦μ+σ] 6. X～N(30, 225)のとき、σ=15だから、 P[15≦X≦45]=P[30－15≦X≦30+15] =P[μ－σ≦X≦μ+σ] 7. X～N(25, 100)のとき、σ=10だから、 P[15≦X≦35]=P[25－10≦X≦25+10] =P[μ－σ≦X≦μ+σ]

X～N(μ, σ

2

_{)のとき、}

P[μ-σ≦X≦μ+σ] ～0.683

(12)

前回の演習

X～N(μ, σ

2

_{)のとき、P[μ-3σ≦X≦μ+3σ]は？}

例えば、X～N(20,100)として、P[－10≦X≦50]～0.9973

=NORMDIST(50,20,10,TRUE)

－NORMDIST(－10,20,10,TRUE)

3σ 3σ

(13)

正規分布

▋標準正規分布 N(0,1)

–

μ=0, σ

2

=1（σ=1）の正規分布を標準正規分布と呼ぶ

(14)

正規分布

▋標準正規分布 N(0,1)

–

密度関数

= NORM.DIST ( x, 0, 1, FALSE )

=

NORM.S.DIST

(

x

, FALSE )

–

累積分布関数

= NORM.DIST ( x, 0, 1, TRUE )

=

NORM.S.DIST

(

x

, TRUE )

(15)

正規分布

▋3σ範囲

–

1σ範囲：P[μ－σ≦X≦μ+σ] =P[－1≦Z≦1]=0.6827…

–

2σ範囲：P[μ－2σ≦X≦μ+2σ]=P[－2≦Z≦2]=0.9545…

–

3σ範囲：P[μ－3σ≦X≦μ+3σ]=P[－3≦Z≦3]=0.9973…

–

4σ範囲：P[μ－4σ≦X≦μ+4σ]=P[－4≦Z≦4]=0.9999…

3σ 3σ 正規分布の場合 99.7％のサンプルは3σ範囲内

(16)

正規分布

▋確率→実現値を求める

–

確率pが与えられたとき、P[－r≦Z≦r]=pを満たすrは？

• Z~N(0,1) • 例えばp=0.9のとき、下図 90％のサンプルが入っているような範囲をみつけたい？？

(17)

正規分布

▋確率→実現値を求める

–

確率pが与えられたとき、P[－r≦Z≦r]=pを満たすrは？

• P[－r≦Z≦r]=1－P[Z≦－r]－P[Z<r] だから、 P[Z≦－r]（=P[Z<r]）=(1－p)/2 となるrを求めればよい P[Z<r]=5% ？？ P[Z≦－r]=5%

(18)

正規分布

▋確率→実現値を求める

–

確率pが与えられたとき、P[－r≦Z≦r]=pを満たすrは？

• 正規分布の累積分布関数が書けないので、P[Z≦－r]=(1－p)/2の解r も初等関数で表せないが、数値計算は可能 =NORM.S.INV(確率) （標準正規分布の累積分布関数の逆関数）？？ NORM.S.INV(0.05) =-1.64485… 1.64485…

(19)

正規分布

▋確率→実現値を求める

–

確率pが与えられたとき、P[－r≦Z≦r]=pを満たすrは？

• r=NORM.S.INV( (1－p)/2 ) 90％のサンプルが入っている範囲は、－1.64485≦Z≦1.64485 －1.64485 1.64485

(20)

正規分布

▋標準正規分布 N(0,1)

–

密度関数

=

NORM.S.DIST

(

x

, FALSE )

–

累積分布関数

=

NORM.S.DIST

(

x

, TRUE )

–

累積分布関数の逆関数

• 確率から実現値を求める

=

NORM.S.INV

( p )

(21)

t分布

▋t分布 T(ν)

–

ν（ニュー；ギリシャ文字）：自由度

• サンプルサイズ－１ • νを大きくするとN(0,1)に近づく

–

Wikipedia：t分布

–

平均：E[X]=0

–

分散：V[X]=ν/(ν-2) (ν>2)

(22)

t分布

▋

考案した人

–

William Sealy Gosset a.k.a. Student

• 1876-1937

–

ペンネームから「Studentのt分布」とも呼ばれる

• 名付けたのはFisher http://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A 3%E3%83%AA%E3%82%A2%E3%83%A0%E3%83%BB %E3%82%B4%E3%82%BB%E3%83%83%E3%83%88 サンプルサイズが少なくてもなるべく正確な統計にしたい

(23)

t分布

▋

t分布

–

次の確率変数Tの分布

n個の(μ, σ)正規分布に従う確率変数X1～Xnの標本平均 n個の(μ, σ)正規分布に従う確率変数X1～Xnの（不偏）標準偏差

(24)

t分布

▋t分布 T(ν)

–

密度関数

=

T.DIST

(x, ν , FALSE)

–

累積分布関数

=

T.DIST

(x, ν , TRUE)

–

累積分布関数の逆関数

=

T.INV

( p, ν )

• 信頼区間を求めるときに出てきた関数

(25)

正規分布の期待値の区間推定

▋

分散が未知

の場合：

CONFIDENCE.T

–

信頼区間：

–

c=ー

t

U

/√n

• U：（不偏）標準偏差（不偏分散の平方根）；サンプルから計算 • n ：サンプルサイズ • t :=－T.INV( (1－α)/2 , ν )

α

：信頼度  ν：自由度＝n－1 =CONFIDENCE.T_{( 1-α,}U, n )  分散未知な正規分布の平均の信頼幅（Confidence Interval）  1-α ：有意水準＝1－信頼度（95%→0.05、90％→0.01） » 2で割らないことに注意

(26)

正規分布の期待値の区間推定

▋

分散が既知

の場合：

CONFIDENCE.NORM

–

信頼区間：

–

c=ーzσ/√n

• σ ：標準偏差（母分散の平方根） • n ：サンプルサイズ • =-z*σ/SQRT(n)  z= NORM.S.INV( (1－α)/2 )

»

α

：信頼度 =CONFIDENCE.NORM( _1-α, σ, n )  分散既知な正規分布の平均の信頼幅（Confidence Interval）  1-α ：有意水準＝1－信頼度（95%→0.05、90％→0.01） » 2で割らないことに注意

(27)

この講義で学習したこと

▋

レポート・論文での研究・分析手法

–

分析プラン：テーマ、仮説、分析ポイント

▋

統計での分析手法

–

サンプルデータの扱い

• 度数分布（ヒストグラム） • 特徴量（平均、中央値、標準偏差、分散、…）

–

サンプルデータの分布の推定

• 分布の種類を推定  離散 → 二項分布/幾何分布/ポアソン分布/…  連続 → 指数分布/正規分布/…

–

点推定と区間推定（信頼区間）

• 正規分布のサンプルのみ

–

分布が与えられたときの確率の計算

(28)

この講義で学習しなかったこと

▋

多くの分布

–

ロングテール/ヘビーテールに属する分布

• 世の中のいろいろな現象は裾の重い分布 • これらの現象に裾の軽い分布を適用すると、滅多に起こらない方の確率を過小評価することになる • パレート分布、対数正規分布、ワイブル分布（一部）、t分布、etc.

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

統計学

社会統計の基礎

-正規分布、標準正規分布

累積分布関数の逆関数

t分布

正規分布に従うサンプルの平均の信頼区間

資料ページ： https://goo.gl/qw1DJw

正規分布（復習）

▋正規分布（Normal Distribution）N (μ, σ

)

別名：ガウス分布（Gaussian Distribution）

–

密度関数

–

累積分布関数

–

平均：

–

分散：

（標準偏差：σ）

正規分布（復習）

▋

正規分布の特徴

–

2項分布の極限

–

観測誤差の分布

–

中心極限定理

–

平均に関して左右対称

–

再生性

前回の演習

1. X～N(20, 25)のとき、P[X>25]を求めよ。

P[X>25]=1－P[X≦25]～0.159

前回の演習

2. X～N(20, 25)のとき、P[X≦15]を求めよ。

P[X≦15]～0.159

前回の演習

3. X～N(20, 25)のとき、P[15≦X≦25]を求めよ。

P[15≦X≦25]=P[X≦25]－P[X≦15]～0.683

=NORMDIST(25,20,SQRT(25),TRUE)

－NORMDIST(15,20,SQRT(25),TRUE)

前回の演習

4. X～N(20, 100)のとき、P[10≦X≦30]を求めよ。

P[10≦X≦30]=P[X≦30]－P[X≦10]～0.683

=NORMDIST(30,20,SQRT(100),TRUE)

－NORMDIST(10,20,SQRT(100),TRUE)

前回の演習

5. X～N(20, 225)のとき、P[5≦X≦35]を求めよ。

P[5≦X≦35]=P[X≦35]－P[X≦5]～0.683

=NORMDIST(35,20,SQRT(225),TRUE)

－NORMDIST(5,20,SQRT(225),TRUE)

前回の演習

6. X～N(30, 225)のとき、P[15≦X≦45]を求めよ。

P[15≦X≦45]=P[X≦45]－P[X≦15]～0.683

=NORMDIST(45,30,SQRT(225),TRUE)

－NORMDIST(15,30,SQRT(225),TRUE)

前回の演習

7. X～N(25, 100)のとき、P[15≦X≦35]を求めよ。

P[15≦X≦35]=P[X≦35]－P[X≦15]～0.683

=NORMDIST(35,25,SQRT(100),TRUE)

－NORMDIST(15,25,SQRT(100),TRUE)

前回の演習

X～N(μ, σ

)のとき、

P[μ-σ≦X≦μ+σ] ～0.683

前回の演習

X～N(μ, σ

)のとき、P[μ-3σ≦X≦μ+3σ]は？

例えば、X～N(20,100)として、P[－10≦X≦50]～0.9973

=NORMDIST(50,20,10,TRUE)

－NORMDIST(－10,20,10,TRUE)

正規分布

▋標準正規分布 N(0,1)

–

μ=0, σ

=1（σ=1）の正規分布を標準正規分布と呼ぶ

統計学 - 社会統計の基礎 - 正規分布標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間担当 : 岸康人資料ページ :

₎

_{)のとき、}

_{)のとき、P[μ-3σ≦X≦μ+3σ]は？}