確率・統計の基礎
項目
• 確率変数
– 分布関数,密度関数
– 期待値・分散
• さまざまな確率分布
– 二項分布,ポアソン分布
– 正規分布,対数正規分布,ロジスティック分布
– カイ二乗分布,t分布,F分布
– Excelでの確率・統計関数
• 同時分布
確率変数 random variable
• ある変数Xの値が事前にどの値が実現するかわか
らない場合,Xの実現値xが確率Pをもって実現する
とみなす。
– 確率論ではもっと抽象的な定義が与えられる
– Xを確率変数。実現した値xを実現値とよぶ。
• 離散型(discrete type)
– Xのとりうる値が離散変数の場合
• サイコロ
X={1,2,3,4,5,6
}
• 連続型(continuous type)
– Xのとりうる値が連続変数の場合
分布関数,密度関数
• 分布関数(distribution function)
– Pr(X≤x) 確率変数Xがx以下の値をとる確率
– 累積分布関数(cumulative distribution function)
– F(x)は単調増加関数
• 密度関数(density function)
– 確率密度関数(probability density function)
)
Pr(
)
(
x
X
x
F
1
)
(
lim
)
(
0
)
(
lim
)
(
x
F
F
x
F
F
x xh
x
F
h
x
F
x
f
h)
(
)
(
lim
)
(
0
分布関数,密度関数(2)
• 分布関数(続き)
– F(x)が微分可能な場合には
• 離散型確率変数の場合
– Xのとりうる値がx
1,x
2,…の場合
x x i i i ip
x
F
x
X
p
)
(
)
Pr(
dx
x
dF
x
f
(
)
(
)
b af
u
du
a
F
b
F
b
X
a
)
(
)
(
)
(
)
Pr(
xf
u
du
x
F
(
)
(
)
分布関数,密度関数(3)
xf
u
du
x
F
(
)
(
)
-3 -2 -1 0 1 2 3 0 .0 0 .1 0 .2 0 .3 0 .4 Normal Distribution: = 0, = 1 x D e n si ty -3 -2 -1 0 1 2 3 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 Normal Distribution: = 0, = 1 x C u m u la ti ve P ro b a b il it y分布関数(distribution function) 密度関数(density function) 標準正規分布の場合
期待値,分散
• 期待値(expected value)
• 分散(variance)
mを期待値として
重要な公式
ip
ix
iX
dx
x
xf
X
)
E(
)
(
)
E(
2 2)
Var(
)
(
)
Var(
ip
ix
iX
dx
x
f
x
X
m
m
2 2)
E(
)
Var(
X
X
m
離散的な確率変数の例
• 2項分布 binomial distribution
– 1回の試行で成功する確率をp,失敗する確率をqと
する(q=1-p)
– n回の独立な試行で成功した回数を確率変数Xで表
す。X=k(0≤k≤n)となる確率は
– 期待値,分散は
k n k k nC
p
q
k
X
)
Pr(
npq
X
np
X
)
Var(
)
E(
その他の離散分布の例
ポアソン分布
exp
!
)
Pr(
k
k
X
k
k k X E k k k k k 0 0 exp ! ) ( 1 exp ! 0 1 2 3 4 5 6 7 0 .0 0 0 .0 5 0 .1 0 0 .1 5 0 .2 0 0 .2 5 0 .3 0Poisson Distribution: Mean = 1.5
x P ro b a b il it y M a ss 2項分布でnが大きく,pが非常に小さいときの極限 1回の試行では起こることが稀だが,試行回数が多いので,何回かは起こる プロシアの軍隊で馬に頭を蹴られて死亡する軍人の数(1年間で)
連続的な確率変数の例
• 正規分布
• カイ二乗分布
• t 分布
• F分布
• 対数正規分布
• 指数分布
正規分布 normal distribution
平均
m,分散 s
2の正規分布
X~ N(m, s
2)
密度関数
m=0, s
2=1の正規分布
– 標準正規分布(standard normal distribution)の密度関数
22
1
exp
2
1
)
(
z
z
22
1
exp
2
1
)
(
s
m
s
x
x
f
標準正規分布のグラフ
xf
u
du
x
F
(
)
(
)
-3 -2 -1 0 1 2 3 0 .0 0 .1 0 .2 0 .3 0 .4 Normal Distribution: = 0, = 1 x D e n si ty -3 -2 -1 0 1 2 3 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 Normal Distribution: = 0, = 1 x C u m u la ti ve P ro b a b il it y標準正規分布の性質
zdt
t
z
z
z
)
(
)
(
2
1
exp
2
1
)
(
2
• 密度関数は左右対称
• X~N(m,s)のとき,Z=(X-m)/s は標準正規分布に従う
• Pr(Z≤z)=(z) : 分布関数
• Pr(Z>z)=1−(z)
• Pr(a≤Z≤b)=(b) − (a)
標準正規分布の性質(2)
• Pr(-1<Z<1)=0.6827
• Pr(-2<Z<2)=0.9545
• Pr(-3<Z<3)=0.9973
• 分布関数の逆関数
– Pr(Z≤z)=p となるzを求める
– Excelでは norm.s.inv (p) という関数を用いて求められる
p=0.90 z=1.2812
p=0.95 z=1.6449
p=0.975 z=1.9600
– Excelの統計関数はversionに違いがあるので注意
正規分布と標準正規分布
X ~ N(m, s
2
) の場合
𝑍 =
𝑋 − 𝜇
𝜎
~𝑁 0,1
• Pr −1 ≤ 𝑍 ≤ 1 = 0.6827
• Pr −2 ≤ 𝑍 ≤ 2 = 0.9545
• Pr 𝜇 − 𝜎 ≤ 𝑋 ≤ 𝜇 + 𝜎 = 0.6827
• Pr 𝜇 − 2𝜎 ≤ 𝑋 ≤ 𝜇 + 2𝜎 = 0.9545
カイ二乗分布
• カイ二乗分布(chi squared distribution)
• z
iが互いに独立で同一の標準正規分布に従う確
率変数であるとした場合(i=1,2,..,n), z
iの平方和
z
12+ z
22+ ....+ z
n2は自由度nのカイ二乗分布に従う
)
(
~
i.i.d.
)
1
,
0
(
~
2
2
2
2
2
1
z
z
n
z
N
z
n
i
i.i.d. 独立で同一の分布に従うF分布,t分布
• x ~
2(n), y~
2(m)で,x と y が独立であるとする。こ
のとき,x/n と y/m の比は自由度(n, m)のF分布に
従う
• z~N(0,1) ,x~
2(n)でzとxは独立であるとする。この
とき,次の変数は自由度nのt分布に従う
m
y
n
x
m
n
F
(
,
)
n
x
z
n
t
(
)
0 5 10 15 0 .0 0 .1 0 .2 0 .3 0 .4 0 .5 Chi-Squared Distribution: df = 2 2 D e n si ty 0 5 10 15 20 0 .0 0 0 .0 5 0 .1 0 0 .1 5 Chi-Squared Distribution: df = 5 2 D e n si ty 5 10 15 20 25 30 0 .0 0 0 .0 2 0 .0 4 0 .0 6 0 .0 8 0 .1 0 Chi-Squared Distribution: df = 10 2 D e n si ty
カイ二乗分布
2distribution
df=2 df=5 df=100.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0 .0 0 .2 0 .4 0 .6 0 .8
F Distribution: Numerator df = 10, Denominator df = 100
f D e n si ty 0 2 4 6 8 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0
F Distribution: Numerator df = 2, Denominator df = 100
f D e n si ty 0 1 2 3 4 5 0 .0 0 .2 0 .4 0 .6
F Distribution: Numerator df = 5, Denominator df = 100
f D e n si ty
F分布
df=(2,100) df=(5,100) df=(10,100)t 分布
黒: 標準正規分布 赤: t 分布(df=10) 赤: t 分布(df=10) 青: t 分布(df=1000) t分布は正規分布より裾の厚い分布 自由度の増加 正規分布に近づく対数正規分布 lognormal distribution
xの対数値が正規分布に従う場合ln x ~ N(m, s
2)
xは対数正規分布に従うといい,
次のように表す
x ~ LN(m, s
2)
なお,期待値は次の通り
E(x)=exp(m+s
2/2)
所得分布はこの分布でうまく近似 できることが知られている x~LN(0, 1.0)のとき,E(x)=exp(0.5)≈1.65 平均値はモードよりもかなり高いExcel2016での統計関数
• CHISQ.DIST(x, df, 関数形式) : Pr(X<=x) を返す • CHISQ.INV(p, df) • CHISQ.DIST.RT(x, df) : Pr(X>x) を返す • CHISQ.INV.RT(p, df) • F.DIST(x, df1, df2,関数形式) : Pr(X<=x) を返す • F.INV(p, df1, df2) • F.DIST.RT(x, df1, df2) : Pr(X>x) を返す • F.INV.RT(p, df1, df2)• LOGNORM.DIST(x, mean, stdev,関数形式) • LOGNORM.INV(p, mean, stdev)
• NORM.DIST(x, mean, stdev, 関数形式) • NORM.INV(p, mean, stdev)
• NORM.S.DIST(x, 関数形式) • NORM.S.INV(p) • T.DIST(x, df, 関数形式) • T.DIST.2T(x, df) 両側 • T.DIST.RT(x, df) 右側 • T.INV(p, df) • T.INV.2T(p, df) • 関数形式: TRUE : 累積分布, FALSE : 密度関数 Excel の関数は versionによって異なる 場合があるので,help 等で確かめること
Eviewsでの統計関数(1)
• 累積分布(CDF)
@c...
• 密度関数
@d...
• Quantile (CDFの逆関数) @q...
• 乱数の生成
@r...
---• 標準正規分布
– @cnorm(x), @dnorm(x), @qnorm(p), @rnorm
• t分布
Eviewsでの統計関数(2)
• F分布
– @cfdist(x,df1,df2), @dfdist(x,df1,df2),
@qfdist(p,df1,df2),@rfdist(df1,df2)
• カイ二乗分布
– @cchisq(x,df), @dchisq(x,df), @qchisq(p,df),
@rchisq(df)
• 対数正規分布
– @clognorm(x,m,s), @dlognorm(x,m,s),
@qlognorm(p,m,s), @rlognorm(m,s)
– log x ~ N(m, s
2)
Eviewsでの統計関数(3)
コマンドラインに式を書く この例では, scalar p = @cnorm(2.0) として,計算結果を変数pに代 入した。 scalarは変数pがスカラー変数 だという宣言 結果は,pという変数に 収められているRの統計関数(1)
• 累積分布(CDF)
p + …
• 密度関数(density function) d + …
• Quantile(CDFの逆関数)
q + …
• 乱数
r + …
• 例) pnorm(x), dnorm(x), qnorm(p), rnorm(n)
– normは正規分布を表す。
– mean(平均)とsd(標準偏差)を指定する。省略した場合はmean=0, sd=1 – pnorm(x) = pnorm(x, mean=0, sd=1)
– qnorm(p, mean, sd) : 累積確率pを与えてpnorm(x,mean,sd)=pを満たすxを返 す
Rの統計関数(2)
Distribution
R name
additional arguments
beta
beta
shape1, shape2, ncp
binomial
binom
size, prob
chi-squared
chisq
df, ncp
exponential
exp
rate
F
f
df1, df2, ncp
log-normal
lnorm
meanlog, sdlog
logistic
logis
location, scale
normal
norm
mean, sd
Student’s t
t
df, ncp
uniform
unif
min, max
Rの統計関数(3)
コマンドラインで次のようにタイプする ---› x<- seq(from = −5.0, to = 5.0, by=0.1) › y<- dnorm(x) › plot(x,y,type="l") ---−5から5まで0.1刻みのベクトルを作り,xに代入 seq( )は連続データを作成する関数 標準正規分布の密度関数 yに代入 plot(x,y) で散布図を描かせる type=“l”は線(line)グラフの指定 平均,標準偏差の指定は dnorm(x, mean=xx, sd= xx)とす る (省略時はmean=0, sd=1) 累積分布関数のグラフを書くには, pnorm(x,mean,sd )を用いるRでの統計関数(4)
統計表として利用
標準正規分布で累積確率が0.975になる点は
> qnorm(0.975)
[1] 1.959964
Pr(x<=2.0) を求める(標準正規分布)
> pnorm(2.0)
[1] 0.9772499
自由度20のt分布の場合の同様の計算
> pt(2.0,df=20)
[1] 0.9703672
> qt(0.975,df=20)
[1] 2.085963
同時分布(離散分布の場合)
• XとYが確率変数
• 同時確率(joint probability)
– p(x,y)≡Pr(X=x,Y=y)
• 周辺確率(marginal probability)
– p(x) ≡ Pr(X=x)=
∑
yp(x,y)
• 条件付確率(conditional probability)
– X=xが与えられた場合のYの確率関数
– p(y|x) ≡ Pr(Y=y| X=x)=p(x,y)/p(x)
• 分布の独立性
同時分布(連続分布の場合)
• XとYが確率変数
• 同時分布関数(joint distribution function)
– F(x,y)≡Pr(X≤x,Y≤y)
• 同時密度関数
• 周辺密度関数
)
,
(
)
,
(
2y
x
F
y
x
y
x
f
f
x
y
dy
x
f
X(
)
(
,
)
同時分布(連続変数の場合 2)
• 条件付密度関数
– X=xが与えられた場合のYの密度関数
• 分布の独立性
– F(x,y) = F
X(x)F
Y(y)
– f(x,y)=f
X(x) f
Y(y)
)
(
)
,
(
)
|
(
x
f
y
x
f
x
y
f
X
共分散と相関係数
Y X XY Y XY
X
Y
X
Y
X
Y
X
E
Y
X
s
s
s
m
m
)
var(
)
var(
)
,
cov(
)
,
(
corr
)
)(
(
)
,
cov(
• 共分散 covariance, 相関係数 correlation coefficient
• -1≤ cor(X,Y) ≤1
• cor(X,Y)=0 確率変数XとYは無相関
• 相関は2つの変数間の線型関係をみるもの。XとYが無相関
であっても,非線形の関係があるかもしれない。
期待値,分散の性質
• a,bを定数。X,Yを確率変数として
• 分散
)
,
cov(
2
)
var(
)
var(
)
var(
)
var(
)
var(
)
E(
)
E(
)
E(
)
E(
)
E(
2Y
X
Y
X
Y
X
X
a
b
aX
Y
X
Y
X
b
X
a
b
aX
2 2)
E(
)
Var(
X
X
m
標本平均の性質
n
Y
Y
Y
n
Y
Y
n
Y
Y
Y
Y
n
Y
X n n i i n 2 2 1 1 2 11
var
var
E
1
E
1
s
m
• Y
1
,Y
2
,...,Y
n
は互い独立で同一の分布に従う
• E(Y
i
)=m, var(Y
i
)=s, (i=1,2,..,n)
nが大きくなる
につれ,標本
平均のバラつ
きは小さくなる
(大数の法則)
Excelで確率分布のグラフを描く
• 2項分布
– n:試行回数
– p:ある事象の起きる確率
– Pr(X=k)=
nC
kp
k(1-p)
n-kを計算
–
nC
kcombin (n,k)
– 2項分布
binom.dist(k,n,p,関数形式)
– 関数形式
– TRUE 累積分布, FALSE確率密度
• ポアソン分布
– poisson.dist(n,, 関数形式)
Eviewsで確率分布のグラフを描く
新しいwork fileを作成
menuから File NewWorkfile
observationsに適当な値を入れる(ここで は101にした xの範囲と刻みによって決 める)。
workfileのstructure typeは unstructured に xの値を作成([-5,5]の区間で0.1刻みの連 続データを作成 コマンドウィンドウで次のようにタイプ series x = ─5.0 + @trend/10 続いて,正規分布,t分布(自由度30)の確 率密度関数を作成 series y1 = @dnorm(x) series y2 = @dtdist(x, 30) 後は,x,y1,y2を選択してグラフを描く @trend : オブザベーションの順番に0,1,2,3,... を返す関数 変数の作成は,menuからgenrを選択してもよい
.0 .1 .2 .3 .4 .5 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 X Y1 Y2
Eviews で書いた標準正規分布と自由度30のt分布の密度関数
同様にして,自由度の異なるt分布の密度関数を描くことできる
F分布や,カイ二乗分布も同様に描ける(定義域はx>0)
Rでのグラフ
コマンドラインでつぎのようにタイプ
› x<- seq(from=-5.0, to= 5.0, by=0.1)
› y<- dnorm(x) 標準正規分布
› y1 <- dt(x,df = 10) 自由度10のt分布
› y2 <- dt(x,df= 100) 自由度100のt分布
› plot(x,yy,type=“l”) : yy にy,y1,y2を入れる。 type=l(エル)は線グラフの指定
ーーーーーーー
重ね描きすると,yとy1,y2の違いがわかりやすい
› plot(x,y,type=“l”,col=“red”)
› par(new=T)
前のグラフに上書きするコマンド
› plot(x,y1,type=“l”,col=“blue”)
– col =“red” は色を指定するオプション – RのコマンドのオプションはHelpで調べること• カイ二乗分布,F分布のグラフ
– dchisq(x,df) ,df(x,df1,df2) – Xは正の数であることに注意問題(Eviews)
• Eviewを用いて,標準正規分布の密度関数と累積分布関数
のグラフを作成せよ。
– -5.0から5.0まで,0.1刻みの変数を作る(x) – y1=@dnorm(x)で密度関数の値を入れた変数を作る – y2=@cnorm(x)で累積分布関数の値を入れた変数を作る• 標準正規分布で,累積分布が0.95,0.975,0.99,0.995となるxの値を
求めよ
– @qnorm(p) でxの値が返る
• 自由度5,10,50,100のt分布の密度関数のグラフと標準正規分布の
グラフを比較せよ
• 異なる自由度のカイ二乗分布のグラフを描け
• 異なる自由度のF分布のグラフを描け
問題(R)
• Rを用いて,標準正規分布の密度関数と累積分布関数のグラフを作成せよ。
– -5.0から5.0まで,0.1刻みの変数を作る(x) x <- seq(from=-5.0, to=5.0, by=0.1) – y1 <- dnorm(x)で密度関数の値を入れた変数を作る – y2 <- pnorm(x)で累積分布関数の値を入れた変数を作る – plot(x,y1), plot(x,y2)