• 検索結果がありません。

確率・統計の基礎

N/A
N/A
Protected

Academic year: 2021

シェア "確率・統計の基礎"

Copied!
42
0
0

読み込み中.... (全文を見る)

全文

(1)

確率・統計の基礎

(2)

項目

• 確率変数

– 分布関数,密度関数

– 期待値・分散

• さまざまな確率分布

– 二項分布,ポアソン分布

– 正規分布,対数正規分布,ロジスティック分布

– カイ二乗分布,t分布,F分布

– Excelでの確率・統計関数

• 同時分布

(3)

確率変数 random variable

• ある変数Xの値が事前にどの値が実現するかわか

らない場合,Xの実現値xが確率Pをもって実現する

とみなす。

– 確率論ではもっと抽象的な定義が与えられる

– Xを確率変数。実現した値xを実現値とよぶ。

• 離散型(discrete type)

– Xのとりうる値が離散変数の場合

• サイコロ

X={1,2,3,4,5,6

}

• 連続型(continuous type)

– Xのとりうる値が連続変数の場合

(4)

分布関数,密度関数

• 分布関数(distribution function)

– Pr(X≤x) 確率変数Xがx以下の値をとる確率

– 累積分布関数(cumulative distribution function)

– F(x)は単調増加関数

• 密度関数(density function)

– 確率密度関数(probability density function)

)

Pr(

)

(

x

X

x

F

1

)

(

lim

)

(

0

)

(

lim

)

(



   

x

F

F

x

F

F

x x

h

x

F

h

x

F

x

f

h

)

(

)

(

lim

)

(

0

 

(5)

分布関数,密度関数(2)

• 分布関数(続き)

– F(x)が微分可能な場合には

• 離散型確率変数の場合

– Xのとりうる値がx

1

,x

2

,…の場合

x x i i i i

p

x

F

x

X

p

)

(

)

Pr(

dx

x

dF

x

f

(

)

(

)

b a

f

u

du

a

F

b

F

b

X

a

)

(

)

(

)

(

)

Pr(



x

f

u

du

x

F

(

)

(

)

(6)

分布関数,密度関数(3)



x

f

u

du

x

F

(

)

(

)

-3 -2 -1 0 1 2 3 0 .0 0 .1 0 .2 0 .3 0 .4 Normal Distribution: = 0, = 1 x D e n si ty -3 -2 -1 0 1 2 3 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 Normal Distribution: = 0, = 1 x C u m u la ti ve P ro b a b il it y

分布関数(distribution function) 密度関数(density function) 標準正規分布の場合

(7)

期待値,分散

• 期待値(expected value)

• 分散(variance)

mを期待値として

重要な公式

i

p

i

x

i

X

dx

x

xf

X

)

E(

)

(

)

E(

2 2

)

Var(

)

(

)

Var(

i

p

i

x

i

X

dx

x

f

x

X

m

m

2 2

)

E(

)

Var(

X

X

m

(8)

離散的な確率変数の例

• 2項分布 binomial distribution

– 1回の試行で成功する確率をp,失敗する確率をqと

する(q=1-p)

– n回の独立な試行で成功した回数を確率変数Xで表

す。X=k(0≤k≤n)となる確率は

– 期待値,分散は

k n k k n

C

p

q

k

X

 )

Pr(

npq

X

np

X

)

Var(

)

E(

(9)

その他の離散分布の例

ポアソン分布

 

exp

!

)

Pr(

k

k

X

k

 

 

    

    k k X E k k k k k 0 0 exp ! ) ( 1 exp ! 0 1 2 3 4 5 6 7 0 .0 0 0 .0 5 0 .1 0 0 .1 5 0 .2 0 0 .2 5 0 .3 0

Poisson Distribution: Mean = 1.5

x P ro b a b il it y M a ss 2項分布でnが大きく,pが非常に小さいときの極限 1回の試行では起こることが稀だが,試行回数が多いので,何回かは起こる プロシアの軍隊で馬に頭を蹴られて死亡する軍人の数(1年間で)

(10)

連続的な確率変数の例

• 正規分布

• カイ二乗分布

• t 分布

• F分布

• 対数正規分布

• 指数分布

(11)

正規分布 normal distribution

平均

m,分散 s

2

の正規分布

X~ N(m, s

2

)

密度関数

m=0, s

2

=1の正規分布

– 標準正規分布(standard normal distribution)の密度関数







2

2

1

exp

2

1

)

(

z

z

 

2

2

1

exp

2

1

)

(

s

m

s

x

x

f

(12)

標準正規分布のグラフ



x

f

u

du

x

F

(

)

(

)

-3 -2 -1 0 1 2 3 0 .0 0 .1 0 .2 0 .3 0 .4 Normal Distribution: = 0, = 1 x D e n si ty -3 -2 -1 0 1 2 3 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 Normal Distribution: = 0, = 1 x C u m u la ti ve P ro b a b il it y

(13)

標準正規分布の性質









z

dt

t

z

z

z

)

(

)

(

2

1

exp

2

1

)

(

2

• 密度関数は左右対称

• X~N(m,s)のとき,Z=(X-m)/s は標準正規分布に従う

• Pr(Z≤z)=(z) : 分布関数

• Pr(Z>z)=1−(z)

• Pr(a≤Z≤b)=(b) − (a)

(14)

標準正規分布の性質(2)

• Pr(-1<Z<1)=0.6827

• Pr(-2<Z<2)=0.9545

• Pr(-3<Z<3)=0.9973

• 分布関数の逆関数

– Pr(Z≤z)=p となるzを求める

– Excelでは norm.s.inv (p) という関数を用いて求められる

p=0.90  z=1.2812

p=0.95  z=1.6449

p=0.975  z=1.9600

– Excelの統計関数はversionに違いがあるので注意

(15)

正規分布と標準正規分布

X ~ N(m, s

2

) の場合

𝑍 =

𝑋 − 𝜇

𝜎

~𝑁 0,1

• Pr −1 ≤ 𝑍 ≤ 1 = 0.6827

• Pr −2 ≤ 𝑍 ≤ 2 = 0.9545

• Pr 𝜇 − 𝜎 ≤ 𝑋 ≤ 𝜇 + 𝜎 = 0.6827

• Pr 𝜇 − 2𝜎 ≤ 𝑋 ≤ 𝜇 + 2𝜎 = 0.9545

(16)

カイ二乗分布

• カイ二乗分布(chi squared distribution)

• z

i

が互いに独立で同一の標準正規分布に従う確

率変数であるとした場合(i=1,2,..,n), z

i

の平方和

z

12

+ z

22

+ ....+ z

n2

は自由度nのカイ二乗分布に従う

)

(

~

i.i.d.

)

1

,

0

(

~

2

2

2

2

2

1

z

z

n

z

N

z

n

i

i.i.d. 独立で同一の分布に従う

(17)

F分布,t分布

• x ~

2

(n), y~

2

(m)で,x と y が独立であるとする。こ

のとき,x/n と y/m の比は自由度(n, m)のF分布に

従う

• z~N(0,1) ,x~

2

(n)でzとxは独立であるとする。この

とき,次の変数は自由度nのt分布に従う

m

y

n

x

m

n

F

(

,

)

n

x

z

n

t

(

)

(18)

0 5 10 15 0 .0 0 .1 0 .2 0 .3 0 .4 0 .5 Chi-Squared Distribution: df = 2 2 D e n si ty 0 5 10 15 20 0 .0 0 0 .0 5 0 .1 0 0 .1 5 Chi-Squared Distribution: df = 5 2 D e n si ty 5 10 15 20 25 30 0 .0 0 0 .0 2 0 .0 4 0 .0 6 0 .0 8 0 .1 0 Chi-Squared Distribution: df = 10 2 D e n si ty

カイ二乗分布

2

distribution

df=2 df=5 df=10

(19)

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0 .0 0 .2 0 .4 0 .6 0 .8

F Distribution: Numerator df = 10, Denominator df = 100

f D e n si ty 0 2 4 6 8 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0

F Distribution: Numerator df = 2, Denominator df = 100

f D e n si ty 0 1 2 3 4 5 0 .0 0 .2 0 .4 0 .6

F Distribution: Numerator df = 5, Denominator df = 100

f D e n si ty

F分布

df=(2,100) df=(5,100) df=(10,100)

(20)

t 分布

黒: 標準正規分布 赤: t 分布(df=10) 赤: t 分布(df=10) 青: t 分布(df=1000) t分布は正規分布より裾の厚い分布 自由度の増加  正規分布に近づく

(21)

対数正規分布 lognormal distribution

xの対数値が正規分布に従う場合

ln x ~ N(m, s

2

)

xは対数正規分布に従うといい,

次のように表す

x ~ LN(m, s

2

)

なお,期待値は次の通り

E(x)=exp(m+s

2

/2)

所得分布はこの分布でうまく近似 できることが知られている x~LN(0, 1.0)のとき,E(x)=exp(0.5)≈1.65 平均値はモードよりもかなり高い

(22)

Excel2016での統計関数

• CHISQ.DIST(x, df, 関数形式) : Pr(X<=x) を返す • CHISQ.INV(p, df) • CHISQ.DIST.RT(x, df) : Pr(X>x) を返す • CHISQ.INV.RT(p, df) • F.DIST(x, df1, df2,関数形式) : Pr(X<=x) を返す • F.INV(p, df1, df2) • F.DIST.RT(x, df1, df2) : Pr(X>x) を返す • F.INV.RT(p, df1, df2)

• LOGNORM.DIST(x, mean, stdev,関数形式) • LOGNORM.INV(p, mean, stdev)

• NORM.DIST(x, mean, stdev, 関数形式) • NORM.INV(p, mean, stdev)

• NORM.S.DIST(x, 関数形式) • NORM.S.INV(p) • T.DIST(x, df, 関数形式) • T.DIST.2T(x, df) 両側 • T.DIST.RT(x, df) 右側 • T.INV(p, df) • T.INV.2T(p, df) • 関数形式: TRUE : 累積分布, FALSE : 密度関数 Excel の関数は versionによって異なる 場合があるので,help 等で確かめること

(23)

Eviewsでの統計関数(1)

• 累積分布(CDF)

@c...

• 密度関数

@d...

• Quantile (CDFの逆関数) @q...

• 乱数の生成

@r...

---• 標準正規分布

– @cnorm(x), @dnorm(x), @qnorm(p), @rnorm

• t分布

(24)

Eviewsでの統計関数(2)

• F分布

– @cfdist(x,df1,df2), @dfdist(x,df1,df2),

@qfdist(p,df1,df2),@rfdist(df1,df2)

• カイ二乗分布

– @cchisq(x,df), @dchisq(x,df), @qchisq(p,df),

@rchisq(df)

• 対数正規分布

– @clognorm(x,m,s), @dlognorm(x,m,s),

@qlognorm(p,m,s), @rlognorm(m,s)

– log x ~ N(m, s

2

)

(25)

Eviewsでの統計関数(3)

コマンドラインに式を書く この例では, scalar p = @cnorm(2.0) として,計算結果を変数pに代 入した。 scalarは変数pがスカラー変数 だという宣言 結果は,pという変数に 収められている

(26)

Rの統計関数(1)

• 累積分布(CDF)

p + …

• 密度関数(density function) d + …

• Quantile(CDFの逆関数)

q + …

• 乱数

r + …

• 例) pnorm(x), dnorm(x), qnorm(p), rnorm(n)

– normは正規分布を表す。

– mean(平均)とsd(標準偏差)を指定する。省略した場合はmean=0, sd=1 – pnorm(x) = pnorm(x, mean=0, sd=1)

– qnorm(p, mean, sd) : 累積確率pを与えてpnorm(x,mean,sd)=pを満たすxを返 す

(27)

Rの統計関数(2)

Distribution

R name

additional arguments

beta

beta

shape1, shape2, ncp

binomial

binom

size, prob

chi-squared

chisq

df, ncp

exponential

exp

rate

F

f

df1, df2, ncp

log-normal

lnorm

meanlog, sdlog

logistic

logis

location, scale

normal

norm

mean, sd

Student’s t

t

df, ncp

uniform

unif

min, max

(28)

Rの統計関数(3)

コマンドラインで次のようにタイプする ---› x<- seq(from = −5.0, to = 5.0, by=0.1) › y<- dnorm(x) › plot(x,y,type="l") ---−5から5まで0.1刻みのベクトルを作り,xに代入 seq( )は連続データを作成する関数 標準正規分布の密度関数 yに代入 plot(x,y) で散布図を描かせる type=“l”は線(line)グラフの指定 平均,標準偏差の指定は dnorm(x, mean=xx, sd= xx)とす る (省略時はmean=0, sd=1) 累積分布関数のグラフを書くには, pnorm(x,mean,sd )を用いる

(29)

Rでの統計関数(4)

統計表として利用

標準正規分布で累積確率が0.975になる点は

> qnorm(0.975)

[1] 1.959964

Pr(x<=2.0) を求める(標準正規分布)

> pnorm(2.0)

[1] 0.9772499

自由度20のt分布の場合の同様の計算

> pt(2.0,df=20)

[1] 0.9703672

> qt(0.975,df=20)

[1] 2.085963

(30)

同時分布(離散分布の場合)

• XとYが確率変数

• 同時確率(joint probability)

– p(x,y)≡Pr(X=x,Y=y)

• 周辺確率(marginal probability)

– p(x) ≡ Pr(X=x)=

y

p(x,y)

• 条件付確率(conditional probability)

– X=xが与えられた場合のYの確率関数

– p(y|x) ≡ Pr(Y=y| X=x)=p(x,y)/p(x)

• 分布の独立性

(31)

同時分布(連続分布の場合)

• XとYが確率変数

• 同時分布関数(joint distribution function)

– F(x,y)≡Pr(X≤x,Y≤y)

• 同時密度関数

• 周辺密度関数

)

,

(

)

,

(

2

y

x

F

y

x

y

x

f



f

x

y

dy

x

f

X

(

)

(

,

)

(32)

同時分布(連続変数の場合 2)

• 条件付密度関数

– X=xが与えられた場合のYの密度関数

• 分布の独立性

– F(x,y) = F

X

(x)F

Y

(y)

– f(x,y)=f

X

(x) f

Y

(y)

)

(

)

,

(

)

|

(

x

f

y

x

f

x

y

f

X

(33)

共分散と相関係数

Y X XY Y X

Y

X

Y

X

Y

X

Y

X

E

Y

X

s

s

s

m

m

)

var(

)

var(

)

,

cov(

)

,

(

corr

)

)(

(

)

,

cov(

• 共分散 covariance, 相関係数 correlation coefficient

• -1≤ cor(X,Y) ≤1

• cor(X,Y)=0  確率変数XとYは無相関

• 相関は2つの変数間の線型関係をみるもの。XとYが無相関

であっても,非線形の関係があるかもしれない。

(34)

期待値,分散の性質

• a,bを定数。X,Yを確率変数として

• 分散

)

,

cov(

2

)

var(

)

var(

)

var(

)

var(

)

var(

)

E(

)

E(

)

E(

)

E(

)

E(

2

Y

X

Y

X

Y

X

X

a

b

aX

Y

X

Y

X

b

X

a

b

aX

2 2

)

E(

)

Var(

X

X

m

(35)

標本平均の性質

 

 

 

n

Y

Y

Y

n

Y

Y

n

Y

Y

Y

Y

n

Y

X n n i i n 2 2 1 1 2 1

1

var

var

E

1

E

1

s

m





• Y

1

,Y

2

,...,Y

n

は互い独立で同一の分布に従う

• E(Y

i

)=m, var(Y

i

)=s, (i=1,2,..,n)

nが大きくなる

につれ,標本

平均のバラつ

きは小さくなる

(大数の法則)

(36)

Excelで確率分布のグラフを描く

• 2項分布

– n:試行回数

– p:ある事象の起きる確率

– Pr(X=k)=

n

C

k

p

k

(1-p)

n-k

を計算

n

C

k

combin (n,k)

– 2項分布

binom.dist(k,n,p,関数形式)

– 関数形式

– TRUE  累積分布, FALSE確率密度

• ポアソン分布

– poisson.dist(n,, 関数形式)

(37)
(38)

Eviewsで確率分布のグラフを描く

新しいwork fileを作成

menuから File NewWorkfile

observationsに適当な値を入れる(ここで は101にした xの範囲と刻みによって決 める)。

workfileのstructure typeは unstructured に xの値を作成([-5,5]の区間で0.1刻みの連 続データを作成 コマンドウィンドウで次のようにタイプ series x = ─5.0 + @trend/10 続いて,正規分布,t分布(自由度30)の確 率密度関数を作成 series y1 = @dnorm(x) series y2 = @dtdist(x, 30) 後は,x,y1,y2を選択してグラフを描く @trend : オブザベーションの順番に0,1,2,3,... を返す関数 変数の作成は,menuからgenrを選択してもよい

(39)

.0 .1 .2 .3 .4 .5 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 X Y1 Y2

Eviews で書いた標準正規分布と自由度30のt分布の密度関数

同様にして,自由度の異なるt分布の密度関数を描くことできる

F分布や,カイ二乗分布も同様に描ける(定義域はx>0)

(40)

Rでのグラフ

コマンドラインでつぎのようにタイプ

› x<- seq(from=-5.0, to= 5.0, by=0.1)

› y<- dnorm(x) 標準正規分布

› y1 <- dt(x,df = 10) 自由度10のt分布

› y2 <- dt(x,df= 100) 自由度100のt分布

› plot(x,yy,type=“l”) : yy にy,y1,y2を入れる。 type=l(エル)は線グラフの指定

ーーーーーーー

重ね描きすると,yとy1,y2の違いがわかりやすい

› plot(x,y,type=“l”,col=“red”)

› par(new=T)

 前のグラフに上書きするコマンド

› plot(x,y1,type=“l”,col=“blue”)

– col =“red” は色を指定するオプション – RのコマンドのオプションはHelpで調べること

• カイ二乗分布,F分布のグラフ

– dchisq(x,df) ,df(x,df1,df2) – Xは正の数であることに注意

(41)

問題(Eviews)

• Eviewを用いて,標準正規分布の密度関数と累積分布関数

のグラフを作成せよ。

– -5.0から5.0まで,0.1刻みの変数を作る(x) – y1=@dnorm(x)で密度関数の値を入れた変数を作る – y2=@cnorm(x)で累積分布関数の値を入れた変数を作る

• 標準正規分布で,累積分布が0.95,0.975,0.99,0.995となるxの値を

求めよ

– @qnorm(p) でxの値が返る

• 自由度5,10,50,100のt分布の密度関数のグラフと標準正規分布の

グラフを比較せよ

• 異なる自由度のカイ二乗分布のグラフを描け

• 異なる自由度のF分布のグラフを描け

(42)

問題(R)

• Rを用いて,標準正規分布の密度関数と累積分布関数のグラフを作成せよ。

– -5.0から5.0まで,0.1刻みの変数を作る(x) x <- seq(from=-5.0, to=5.0, by=0.1) – y1 <- dnorm(x)で密度関数の値を入れた変数を作る – y2 <- pnorm(x)で累積分布関数の値を入れた変数を作る – plot(x,y1), plot(x,y2)

• 標準正規分布で,累積分布が0.95,0.975,0.99,0.995となるxの値を求めよ

– qnorm(p) でxの値が返る

• 自由度5,10,50,100のt分布の密度関数のグラフと標準正規分布のグラフを比較

せよ

• 異なる自由度のカイ二乗分布のグラフを描け

• 異なる自由度のF分布のグラフを描け

• 100個の乱数(標準正規分布)を発生させ,グラフに描く。 x <- rnorm(100),

plot(x), hist(x)

• 平均値等を求める mean(x), var(x), summary(x)

• 1000個,10000個の乱数で同様のことを行う

参照

関連したドキュメント

1-1 睡眠習慣データの基礎集計 ……… p.4-p.9 1-2 学習習慣データの基礎集計 ……… p.10-p.12 1-3 デジタル機器の活用習慣データの基礎集計………

本研修会では、上記クリーニング&加工作業の 詳細は扱いません。午後のPower BIレポート

町の中心にある「田中 さん家」は、自分の家 のように、料理をした り、畑を作ったり、時 にはのんびり寝てみた

2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月.  過去の災害をもとにした福 島第一の作業安全に関する

 本資料作成データは、 平成24年上半期の輸出「確報値」、輸入「9桁速報値」を使用

 本資料作成データは、 平成26年上半期の輸出「確報値」、輸入「9桁速報値」を使用

 本資料作成データは、 平成29年上半期の輸出「確報値」、輸入「9桁速報値」を使用

 本資料作成データは、 平成27年上半期の輸出「確報値」、輸入「9桁速報値」を使用