確率・統計の基礎

(1)

確率・統計の基礎

(2)

項目

• 確率変数

– 分布関数，密度関数

– 期待値・分散

• さまざまな確率分布

– 二項分布，ポアソン分布

– 正規分布，対数正規分布，ロジスティック分布

– カイ二乗分布，t分布，F分布

– Excelでの確率・統計関数

• 同時分布

(3)

確率変数 random variable

• ある変数Xの値が事前にどの値が実現するかわか

らない場合，Xの実現値xが確率Pをもって実現する

とみなす。

– 確率論ではもっと抽象的な定義が与えられる

– Xを確率変数。実現した値xを実現値とよぶ。

• 離散型(discrete type)

– Xのとりうる値が離散変数の場合

• サイコロ

X={1,2,3,4,5,6

}

• 連続型(continuous type)

– Xのとりうる値が連続変数の場合

(4)

分布関数，密度関数

• 分布関数(distribution function)

– Pr(X≤x) 確率変数Xがx以下の値をとる確率

– 累積分布関数(cumulative distribution function)

– F(x)は単調増加関数

• 密度関数(density function)

– 確率密度関数(probability density function)

)

Pr(

)

(

x

X

x

F





1 )

(

lim

)

(

0 )

(

lim

)

(









   

x

F

x

F

x x

h

x

F

h

x

F

x

f

h

)

(

)

(

lim

)

(

0







 

(5)

分布関数，密度関数(2)

• 分布関数（続き）

– F(x)が微分可能な場合には

• 離散型確率変数の場合

– Xのとりうる値がx

₁

,x

₂

,…の場合







x x i i i i

p

x

F

x

X

p

)

(

)

Pr(

dx

x

dF

x

f

(

)



(

)













b a

f

u

du

a

F

b

F

b

X

a

)

(

)

(

)

(

)

Pr(







x

f

u

du

x

F

(

)

(

)

(6)

分布関数，密度関数(3)







x

f

u

du

x

F

(

)

(

)

-3 -2 -1 0 1 2 3 0 .0 0 .1 0 .2 0 .3 0 .4 Normal Distribution: = 0, = 1 x D e n si ty -3 -2 -1 0 1 2 3 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 Normal Distribution: = 0, = 1 x C u m u la ti ve P ro b a b il it y

分布関数(distribution function) 密度関数(density function) 標準正規分布の場合

(7)

期待値，分散

• 期待値(expected value)

• 分散（variance)

mを期待値として

重要な公式







i

p

i

x

i

X

dx

x

xf

X

)

E(

)

(

)

E(









2 2

)

Var(

)

(

)

Var(













i

p

i

x

i

X

dx

x

f

x

X

m

2 2

)

E(

)

Var(

X



X



m

(8)

離散的な確率変数の例

• 2項分布 binomial distribution

– 1回の試行で成功する確率をp，失敗する確率をqと

する(q=1-p)

– n回の独立な試行で成功した回数を確率変数Xで表

す。X=k(0≤k≤n)となる確率は

– 期待値，分散は

k n k k n

C

p

q

k

X

 )





Pr(

npq

X

np

X



)

Var(

)

E(

(9)

その他の離散分布の例

ポアソン分布

 



_



exp

!

)

Pr(

k

X

k

 



    



    k k X E k k k k k 0 0 exp ! ) ( 1 exp ! 0 1 2 3 4 5 6 7 0 .0 0 0 .0 5 0 .1 0 0 .1 5 0 .2 0 0 .2 5 0 .3 0

Poisson Distribution: Mean = 1.5

x P ro b a b il it y M a ss 2項分布でnが大きく，pが非常に小さいときの極限 1回の試行では起こることが稀だが，試行回数が多いので，何回かは起こるプロシアの軍隊で馬に頭を蹴られて死亡する軍人の数（1年間で）

(10)

連続的な確率変数の例

• 正規分布

• カイ二乗分布

• t 分布

• F分布

• 対数正規分布

• 指数分布

(11)

正規分布 normal distribution

平均

m，分散 s

2

の正規分布

X~ N(m, s

2

)

密度関数

m=0, s

2

_{=1の正規分布}

– 標準正規分布(standard normal distribution)の密度関数











2

1 exp

2

1 )

(

z



























 





2

1 exp

2

1 )

(

s

m

s



x

f

(12)

標準正規分布のグラフ







x

f

u

du

x

F

(

)

(

)

-3 -2 -1 0 1 2 3 0 .0 0 .1 0 .2 0 .3 0 .4 Normal Distribution: = 0, = 1 x D e n si ty -3 -2 -1 0 1 2 3 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 Normal Distribution: = 0, = 1 x C u m u la ti ve P ro b a b il it y

(13)

標準正規分布の性質



















z

dt

t

z

)

(

)

(

2

1 exp

2

1 )

(

2







• 密度関数は左右対称

• X~N(m,s)のとき，Z=(X-m)/s は標準正規分布に従う

• Pr(Z≤z)=(z) ：分布関数

• Pr(Z>z)=1−(z)

• Pr(a≤Z≤b)=(b) − (a)

(14)

標準正規分布の性質(2)

• Pr(-1<Z<1)=0.6827

• Pr(-2<Z<2)=0.9545

• Pr(-3<Z<3)=0.9973

• 分布関数の逆関数

– Pr（Z≤z)=p となるzを求める

– Excelでは norm.s.inv (p) という関数を用いて求められる

p=0.90  z=1.2812

p=0.95  z=1.6449

p=0.975  z=1.9600

– Excelの統計関数はversionに違いがあるので注意

(15)

正規分布と標準正規分布

X ~ N(m, s

2 ) の場合

𝑍 =

𝑋 − 𝜇

𝜎

~𝑁 0,1

• Pr −1 ≤ 𝑍 ≤ 1 = 0.6827

• Pr −2 ≤ 𝑍 ≤ 2 = 0.9545

• Pr 𝜇 − 𝜎 ≤ 𝑋 ≤ 𝜇 + 𝜎 = 0.6827

• Pr 𝜇 − 2𝜎 ≤ 𝑋 ≤ 𝜇 + 2𝜎 = 0.9545

(16)

カイ二乗分布

• カイ二乗分布(chi squared distribution)

• z

_i

が互いに独立で同一の標準正規分布に従う確

率変数であるとした場合(i=1,2,..,n)， z

_i

の平方和

z

₁2

+ z

₂2

+ ....+ z

_n2

は自由度nのカイ二乗分布に従う

)

(

~

i.i.d.

)

1 ,

0 (

~

2

1 z

z

n

z

N

z

n

i







i.i.d. 独立で同一の分布に従う

(17)

F分布，t分布

• x ~



2

_{(n)， y~}



2

_{(m)で，x と y が独立であるとする。こ}

のとき，x/n と y/m の比は自由度(n, m)のF分布に

従う

• z~N(0,1) ，x~

2

_{(n)でzとxは独立であるとする。この}

とき，次の変数は自由度nのt分布に従う

m

y

n

x

m

n

F

(

,

)



n

x

z

n

t

(

)



(18)

0 5 10 15 0 .0 0 .1 0 .2 0 .3 0 .4 0 .5 Chi-Squared Distribution: df = 2 2 D e n si ty 0 5 10 15 20 0 .0 0 0 .0 5 0 .1 0 0 .1 5 Chi-Squared Distribution: df = 5 2 D e n si ty 5 10 15 20 25 30 0 .0 0 0 .0 2 0 .0 4 0 .0 6 0 .0 8 0 .1 0 Chi-Squared Distribution: df = 10 2 D e n si ty

カイ二乗分布



2

_distribution

df=2 df=5 df=10

(19)

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0 .0 0 .2 0 .4 0 .6 0 .8

F Distribution: Numerator df = 10, Denominator df = 100

f D e n si ty 0 2 4 6 8 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0

f D e n si ty 0 1 2 3 4 5 0 .0 0 .2 0 .4 0 .6

f D e n si ty

F分布

df=(2,100) df=(5,100) df=(10,100)

(20)

t 分布

黒：標準正規分布 赤： t 分布（df=10) 赤： t 分布(df=10) 青： t 分布（df=1000) t分布は正規分布より裾の厚い分布自由度の増加  正規分布に近づく

(21)

対数正規分布 lognormal distribution

xの対数値が正規分布に従う場合

ln x ~ N(m, s

2

₎

xは対数正規分布に従うといい，

次のように表す

x ~ LN(m, s

2

₎

なお，期待値は次の通り

E(x)=exp(m+s

2

_/2)

所得分布はこの分布でうまく近似できることが知られている x~LN(0, 1.0)のとき，E(x)=exp(0.5)≈1.65 平均値はモードよりもかなり高い

(22)

Excel2016での統計関数

• CHISQ.DIST(x, df, 関数形式) : Pr(X<=x) を返す • CHISQ.INV(p, df) • CHISQ.DIST.RT(x, df) : Pr(X>x) を返す • CHISQ.INV.RT(p, df) • F.DIST(x, df1, df2,関数形式) : Pr(X<=x) を返す • F.INV(p, df1, df2) • F.DIST.RT(x, df1, df2) : Pr(X>x) を返す • F.INV.RT(p, df1, df2)

• LOGNORM.DIST(x, mean, stdev,関数形式) • LOGNORM.INV(p, mean, stdev)

• NORM.DIST(x, mean, stdev, 関数形式） • NORM.INV(p, mean, stdev)

• NORM.S.DIST(x, 関数形式) • NORM.S.INV(p) • T.DIST(x, df, 関数形式) • T.DIST.2T(x, df) 両側 • T.DIST.RT(x, df) 右側 • T.INV（p, df) • T.INV.2T(p, df) • 関数形式： TRUE : 累積分布， FALSE : 密度関数 Excel の関数は versionによって異なる場合があるので，help 等で確かめること

(23)

Eviewsでの統計関数(1)

• 累積分布(CDF)

@c...

• 密度関数

@d...

• Quantile (CDFの逆関数） @q...

• 乱数の生成

@r...

---• 標準正規分布

– @cnorm(x), @dnorm(x), @qnorm(p), @rnorm

• t分布

(24)

Eviewsでの統計関数(2)

• F分布

– @cfdist(x,df1,df2), @dfdist(x,df1,df2),

@qfdist(p,df1,df2),@rfdist(df1,df2)

• カイ二乗分布

– @cchisq(x,df), @dchisq(x,df), @qchisq(p,df),

@rchisq(df)

• 対数正規分布

– @clognorm(x,m,s), @dlognorm(x,m,s),

@qlognorm(p,m,s), @rlognorm(m,s)

– log x ~ N(m, s

2

₎

(25)

Eviewsでの統計関数(3)

コマンドラインに式を書くこの例では， scalar p = @cnorm(2.0) として，計算結果を変数pに代入した。 scalarは変数pがスカラー変数だという宣言結果は，pという変数に収められている

(26)

Rの統計関数(1)

• 累積分布（CDF）

p + …

• 密度関数(density function) d + …

• Quantile(CDFの逆関数）

q + …

• 乱数

r + …

• 例） pnorm(x), dnorm(x), qnorm(p), rnorm(n)

– normは正規分布を表す。

– mean（平均）とsd（標準偏差）を指定する。省略した場合はmean=0, sd=1 – pnorm(x) = pnorm(x, mean=0, sd=1)

– qnorm(p, mean, sd) : 累積確率pを与えてpnorm(x,mean,sd)=pを満たすxを返す

(27)

Rの統計関数(2)

Distribution

R name

additional arguments

beta

shape1, shape2, ncp

binomial

binom

size, prob

chi-squared

chisq

df, ncp

exponential

exp

rate

F

f

df1, df2, ncp

log-normal

lnorm

meanlog, sdlog

logistic

logis

location, scale

normal

norm

mean, sd

Student’s t

t

df, ncp

uniform

unif

min, max

(28)

Rの統計関数(3)

コマンドラインで次のようにタイプする ---› x<- seq(from = −5.0, to = 5.0, by=0.1) › y<- dnorm(x) › plot(x,y,type="l") ---−5から5まで0.1刻みのベクトルを作り，xに代入 seq( )は連続データを作成する関数標準正規分布の密度関数 yに代入 plot(x,y) で散布図を描かせる type=“l”は線(line)グラフの指定平均，標準偏差の指定は dnorm(x, mean=xx, sd= xx)とする (省略時はmean=0, sd=1) 累積分布関数のグラフを書くには， pnorm(x,mean,sd )を用いる

(29)

Rでの統計関数(4)

統計表として利用

標準正規分布で累積確率が0.975になる点は

> qnorm(0.975)

[1] 1.959964

Pr(x<=2.0) を求める（標準正規分布）

> pnorm(2.0)

[1] 0.9772499

自由度20のt分布の場合の同様の計算

> pt(2.0,df=20)

[1] 0.9703672

> qt(0.975,df=20)

[1] 2.085963

(30)

同時分布（離散分布の場合）

• XとYが確率変数

• 同時確率(joint probability)

– p(x,y)≡Pr(X=x,Y=y)

• 周辺確率(marginal probability)

– p(x) ≡ Pr(X=x)=

∑

_y

p(x,y)

• 条件付確率(conditional probability)

– X=xが与えられた場合のYの確率関数

– p(y|x) ≡ Pr(Y=y| X=x)=p(x,y)/p(x)

• 分布の独立性

(31)

同時分布（連続分布の場合）

• XとYが確率変数

• 同時分布関数(joint distribution function)

– F(x,y)≡Pr(X≤x,Y≤y)

• 同時密度関数

• 周辺密度関数

)

,

(

)

,

(

2

y

x

F

y

x

y

x

f











f

x

y

dy

x

f

_X

(

)

(

,

)

(32)

同時分布（連続変数の場合 2)

• 条件付密度関数

– X=xが与えられた場合のYの密度関数

• 分布の独立性

– F(x,y) = F

_X

(x)F

_Y

(y)

– f(x,y)=f

_X

(x) f

_Y

(y)

)

(

)

,

(

)

|

(

x

f

y

x

f

x

y

f

X



(33)

共分散と相関係数





Y X XY Y X

Y

X

Y

X

Y

X

Y

X

E

Y

X

s

m













)

var(

)

var(

)

,

cov(

)

,

(

corr

)

)(

(

)

,

cov(

• 共分散 covariance, 相関係数 correlation coefficient

• -1≤ cor(X,Y) ≤1

• cor(X,Y)=0  確率変数XとYは無相関

• 相関は2つの変数間の線型関係をみるもの。XとYが無相関

であっても，非線形の関係があるかもしれない。

(34)

期待値，分散の性質

• a,bを定数。X,Yを確率変数として

• 分散

)

,

cov(

2 )

var(

)

var(

)

var(

)

var(

)

var(

)

E(

)

E(

)

E(

)

E(

)

E(

2

Y

X

Y

X

Y

X

a

b

aX

Y

X

Y

X

b

X

a

b

aX



















2 2

)

E(

)

Var(

X



X



m

(35)

標本平均の性質





 





n

Y

n

Y

n

Y

n

Y

X n n i i n 2 2 1 1 2 1

1 var

var

E

1 E

1 s

m











_













• Y

₁

,Y

₂

,...,Y

_n

は互い独立で同一の分布に従う

• E(Y

_i

)=m, var(Y

_i

)=s, (i=1,2,..,n)

nが大きくなる

につれ，標本

平均のバラつ

きは小さくなる

（大数の法則）

(36)

Excelで確率分布のグラフを描く

• 2項分布

– n：試行回数

– p:ある事象の起きる確率

– Pr(X=k)=

_n

C

_k

p

k

(1-p)

n-k

を計算

–

_n

C

_k

combin (n,k)

– 2項分布

binom.dist(k,n,p,関数形式）

– 関数形式

– TRUE  累積分布, FALSE確率密度

• ポアソン分布

– poisson.dist(n,, 関数形式）

(37)

(38)

Eviewsで確率分布のグラフを描く

新しいwork fileを作成

menuから File NewWorkfile

observationsに適当な値を入れる（ここでは101にした xの範囲と刻みによって決める）。

workfileのstructure typeは unstructured に xの値を作成（[-5,5]の区間で0.1刻みの連続データを作成コマンドウィンドウで次のようにタイプ series x = ─5.0 + @trend/10 続いて，正規分布，ｔ分布(自由度30）の確率密度関数を作成 series y1 = @dnorm(x) series y2 = @dtdist(x, 30) 後は，x,y1,y2を選択してグラフを描く @trend : オブザベーションの順番に0,1,2,3,... を返す関数変数の作成は，menuからgenrを選択してもよい

(39)

.0 .1 .2 .3 .4 .5 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 X Y1 Y2

Eviews で書いた標準正規分布と自由度30のt分布の密度関数

同様にして，自由度の異なるt分布の密度関数を描くことできる

F分布や，カイ二乗分布も同様に描ける（定義域はx>0）

(40)

Rでのグラフ

コマンドラインでつぎのようにタイプ

› x<- seq(from=-5.0, to= 5.0, by=0.1)

› y<- dnorm(x) 標準正規分布

› y1 <- dt(x,df = 10) 自由度10のt分布

› y2 <- dt(x,df= 100) 自由度100のt分布

› plot(x,yy,type=“l”) : yy にy,y1,y2を入れる。 type=l（エル）は線グラフの指定

ｰｰｰｰｰｰｰ

重ね描きすると，yとy1,y2の違いがわかりやすい

› plot(x,y,type=“l”,col=“red”)

› par(new=T)

 前のグラフに上書きするコマンド

› plot(x,y1,type=“l”,col=“blue”)

– col =“red” は色を指定するオプション – RのコマンドのオプションはHelpで調べること

• カイ二乗分布，F分布のグラフ

– dchisq(x,df) ，df(x,df1,df2) – Xは正の数であることに注意

(41)

問題(Eviews)

• Eviewを用いて，標準正規分布の密度関数と累積分布関数

のグラフを作成せよ。

– -5.0から5.0まで，0.1刻みの変数を作る(x) – y1=@dnorm(x)で密度関数の値を入れた変数を作る – y2=@cnorm(x)で累積分布関数の値を入れた変数を作る

• 標準正規分布で，累積分布が0.95,0.975,0.99,0.995となるxの値を

求めよ

– @qnorm(p) でｘの値が返る

• 自由度5,10,50,100のt分布の密度関数のグラフと標準正規分布の

グラフを比較せよ

• 異なる自由度のカイ二乗分布のグラフを描け

• 異なる自由度のF分布のグラフを描け

(42)

問題(R)

• Rを用いて，標準正規分布の密度関数と累積分布関数のグラフを作成せよ。

– -5.0から5.0まで，0.1刻みの変数を作る(x) x <- seq(from=-5.0, to=5.0, by=0.1) – y1 <- dnorm(x)で密度関数の値を入れた変数を作る – y2 <- pnorm(x)で累積分布関数の値を入れた変数を作る – plot(x,y1), plot(x,y2)

• 標準正規分布で，累積分布が0.95,0.975,0.99,0.995となるxの値を求めよ

– qnorm(p) でｘの値が返る

• 自由度5,10,50,100のt分布の密度関数のグラフと標準正規分布のグラフを比較

せよ

• 異なる自由度のカイ二乗分布のグラフを描け

• 異なる自由度のF分布のグラフを描け

• 100個の乱数（標準正規分布）を発生させ，グラフに描く。 x <- rnorm(100),

plot(x), hist(x)

• 平均値等を求める mean(x), var(x), summary(x)

• 1000個，10000個の乱数で同様のことを行う