確率論と統計学の資料
熊澤 吉起 5 June 2015
ii
目次
目次 ii ギリシャ文字一覧 . . . ii 第1章 予備的公式 1 1.1 順列と組合せ . . . 1 1.2 微積分. . . 3 1.3 ガンマ関数、ベータ関数、スターリングの公式. . . 4 第2章 確率 6 2.1 確率 . . . 6 2.2 確率変数と分布関数 . . . 7 2.3 平均値とモーメント . . . 8 2.4 不等式. . . 10 2.5 収束 . . . 11 2.6 多次元の確率分布 . . . 12 2.7 独立性. . . 14 2.8 平均値とモーメント . . . 15 2.9 特性関数 . . . 16 第3章 基本的な分布 18 3.1 1次元の基本分布. . . 18 3.1.1 離散一様分布 . . . 18 一般・統計用語索引 20 英語索引 21ギリシャ文字一覧
読み方 大文字 小文字 読み方 大文字 小文字 読み方 大文字 小文字alpha A α beta B β gamma Γ γ
delta ∆ δ epsilon E ϵ, ε zeta Z ζ
eta H η theta Θ θ, ϑ iota I ι
kappa K κ lambda Λ λ mu M µ
nu N ν omicron O o xi Ξ ξ
pi Π π, ϖ rho P ρ, ϱ sigma Σ σ, ς
tau T τ upsilon Υ υ phi Φ ϕ, φ
1
第
1
章 予備的公式
1.1
順列と組合せ
a を任意の実数とし、r を任意の自然数 (a≥ r) とするとき、 a[r]= a(a − 1)(a − 2) · · · (a − r + 1) とおく。これは、a から順に小さな数を r 個かけたものである。r= 0 ならば、 a[0]= 1 とおく。a が非負の整数で、a= r のとき、 r[r]= r(r − 1)(r − 2) · · · 2 · 1 = r! (r > 0), 0[0]= 0! = 1 とおく。また、a を任意の実数、r を非負の整数 (a≥ r) とするとき、 ( a r ) =a[r] r! = a(a− 1)(a − 2) · · · (a − r + 1) r(r− 1)(r − 2) · · · 2 · 1 (r> 0), ( a 0 ) = 1 とおく。n と r がともに整数で n≥ r ≥ 0 のとき、 n[r]=n! r!, nCr= ( n r ) = n! r!(n− r)! がなりたつ。 積の記号 ∏ を用いると、整数 n に対して、 n!= n(n − 1)(n − 2) · · · 3 · 2 · 1 = n ∏ k=1 (n− k + 1) = n ∏ k=1 k と書くことができる。 (a) n 個の異なるものから重複を許して、r 個を取り出して出来る順列の個数は nrとなる。 (b) n 個の異なるものから重複を許さず、r 個を取り出して出来る順列の個数は n[r]となる。 (c) n 個の異なるものから重複を許さず、r 個を取り出して出来る組合せの個数は(nr)となる。 (d) n 個の異なるものから重複を許して、r 個を取り出して出来る組合せの個数は(n+r−1n−1)=(n+r−1r )となる。 組合せの性質として次のことが成り立つ。 (e) ( n 0 ) = ( n n ) = 1 (f) ( n r ) = ( n n− r ) (g) ( n r ) = ( n− 1 r ) + ( n− 1 r− 1 ) (パスカルの三角形:Pascal’s triangle)定理 1.1.1 (二項定理 (Binomial Theorem)) n を自然数とするとき、実数 a、b に対して、
(a+ b)n= n ∑ k=0 ( n k ) akbn−k = ( n 0 ) bn+ ( n 1 ) a1bn−1+ · · · + ( n n ) an がなりたつ。
2 第 1 章 予備的公式 上の定理から次の性質を得る。 (h) (1+ t)n= ( n 0 ) + ( n 1 ) t+ · · · + ( n n ) tn= n ∑ k=0 ( n k ) tk (i) (1− t)n= n ∑ k=0 ( n k ) (−1)ktk (j) 2n= n ∑ k=0 ( n k ) (k) 0= n ∑ k=0 (−1)k ( n k ) (l) 2n+1− 1 n+ 1= ( n 0 ) +1 2 ( n 1 ) + · · · + 1 r+ 1 ( n r ) + · · · + 1 n+ 1 ( n n ) (m) ( a+ b n ) = n ∑ k=0 ( a k )( b n− k ) 定理 1.1.2 (多項定理 (Multinomial Theorem)) n、k を自然数とするとき、実数 t1, t2, · · · , tkに対して、 (t1+ t2+ · · · + tk)n= ∑ n! r1!r2!· · · rk! tr1 1t r2 2 · · · t rk k がなりたつ。ここで、総和 ∑ は r1≥ 0, r2≥ 0, · · · , rk≥ 0, r1+ r2+ · · · + rk= n を満たすすべての整数の組 (r1, r2, · · · , rk) にわ たるものとする。 総和について次の公式が成り立つ。 n ∑ k=1 k=n(n+ 1) 2 n ∑ k=1 k2=n(n+ 1)(2n + 1) 6 n ∑ k=1 k3=n 2(n+ 1)2 4 n ∑ k=1 k4= n 30(n+ 1)(2n + 1)(3n 2+ 3n − 1) n ∑ k=1 k5= n 2 12(n+ 1) 2(2n2+ 2n − 1) n ∑ k=1 k6= n 42(n+ 1)(2n + 1)(3n 4+ 6n2− 3n + 1) 例えば、 n ∑ k=1 k2=n(n+ 1)(2n + 1) 6 は、恒等式 (k+ 1) 3− k3= 3k2+ 3k + 1 の両辺を k を 1 から n まで加えると、 左辺 23− 13 33− 23 ... (n+ 1)3− n − 3 (n+ 1)3− 1
1.2 微積分 3 一方、右辺は、 n ∑ k=1 { 3k2+ 3k + 1 } = 3 n ∑ k=1 k2+ 3 n ∑ k=1 k+ n ∑ k=1 1 ここで、 n ∑ k=1 k=n(n+ 1) 2 と n ∑ k=1 1= n を用いると、 = 3 n ∑ k=1 k2+ 3n(n+ 1) 2 + n よって、左辺が (n+ 1)3− n − 3 であったから (n+ 1)3− 1 = 3 n ∑ k=1 k2+ 3n(n+ 1) 2 + n ∴ 3 n ∑ k=1 k2= (n + 1)3− 1 − 3n(n+ 1) 2 − n =n+ 1 2 { 2n2+ 4n + 2 − 3n − 2} =n(n+ 1)(2n + 1) 2 となる。
1.2
微積分
定義 1.2.1 (自然対数の底) 無限数列 (1+1 n) n, (n = 1, 2, · · · ) に対して、極限値 lim n→+∞(1+ 1 n) n が存在し、自然対数の底またはネイピア数(Napier’s constant)といい、e を用いて表す。 この数 e は円周率π と同様に無理数であることが知られている。指数関数 exは ex= exp(x) と書くことがある。 定理 1.2.1 (ロピタルの定理 (l’Hospital’s rule)) 関数 f (x) と g(x) は、点 x= a で微分可能で、 limx→af (x)= limx→ag(x)= 0,
lim x→a f′(x) g′(x)が存在する とき、極限値 lim x→a f (x) g(x) が存在し、 lim x→a f (x) g(x) = limx→a f′(x) g′(x) が成り立つ。
4 第 1 章 予備的公式 定理 1.2.2 (積分記号の下での微分) 関数 F(t)= ∫h(t) g(t) f (x ; t) dt を考える。ここで、関数 f (x ; t)、g(t)、h(t) は微分可能であるとする。このとき、 dF(t) dt = ∫h(t) g(t) ∂ f (x ; t) ∂t dt+ f (h(t) ; t) dh(t) dt − f (g(t) ; t) dg(t) dt が成り立つ。
定理 1.2.3 (テーラー展開 (Taylor expansion)) 関数 f (x) は、k 次導関数 f(k)(x) (0≤ k ≤ n − 1) が有界区間 [a, b] で連続で、
f(n−1)(x) は区間 (a, b) で連続微分可能であるとする。このとき、 f (b)= n−1 ∑ k=0 f(k)(a) k! (b− a) k+ R n, Rn= f(n)(c) n! (b− a) n を満たす c∈ (a, b) が存在する。
1.3
ガンマ関数、ベータ関数、スターリングの公式
定義 1.3.1 (ガンマ関数) x> 0 に対して、 Γ(x) =∫∞ 0 tx−1e−tdt によって定義される関数Γ(x) をガンマ関数(Γ function)という。 定義 1.3.2 (ベータ関数) x> 0、y > 0 に対して、 B(x, y) = ∫1 0 tx−1(1− t)y−1dt によって定義される関数 B(x, y) をベータ関数(B function)という。 このとき、ガンマ関数とベータ関数について次のことが成り立つ。 (a) x> 0 のとき、 Γ(x + 1) = xΓ(x) (b) n が非負の整数のとき、 Γ(n + 1) = n! (c) n が非負の整数のとき、 Γ ( n+1 2 ) =(n−1 2 )( n−3 2 ) · · ·3 2· 1 2 √ 2 (d) x> 0、y > 0 のとき、 B(x, y) =Γ(x)Γ(y) Γ(x + y)1.3 ガンマ関数、ベータ関数、スターリングの公式 5 (e) Γ (1 2 ) = √ 1 2 定理 1.3.1 (スターリングの公式 (Stirling’s formula)) x→ ∞ のとき、 Γ(x) ∼ √2πxx−1/2e−x がなりたつ。ここで、∼ は x → ∞ のとき両辺の比が 1 に収束することを示す。 よって、n が自然数のとき、 n!∼ √2πnn+1/2e−n (n→ ∞) がなりたつ。 Γ(1 2 ) = √π B ( 1 2, 1 2 ) = ∫1 0 x−1/2(1− x)−1/2dx = ∫1 0 1 √ x(1− x)dx =∫1 0 1 √ (1 2)2− (x − 1 2) 1 2 dx ここで、d dxSin −1(x)= √ 1 1− x2であるから、 =[Sin−1(x− 1 2 1 2 ) ]1 0= π ∴ B ( 1 2, 1 2 ) = π ∴ Γ ( 1 2 ) = √π
6
第
2
章 確率
2.1
確率
定義 2.1.1 (ボレル集合族) Ω を標本空間(sample space)とし、B を次の性質を満たす Ω の部分集合の集まりとする: (i) Ω ∈ B (ii) A∈ B ならば、Ac∈ B (iii) A1, A2, · · · ∈ B に対して、∪∞i=1Ai∈ B このとき、B をボレル集合族(σ-field)とよぶ。また、B の成分を事象 (event) とよぶ。 定義 2.1.2 (確率) 確率 Pr{·} は B 上で定義された集合関数で次の性質を満たすものをいう: (i) すべての A∈ B に対して、Pr{A} ≥ 0 が成り立つ。 (ii) Pr{Ω} = 1。 (iii) B の互いに背反な事象 A1, A2, · · · に対して、 Pr {∪∞ i=1 Ai } = ∞ ∑ i=1 Pr{Ai} が成り立つ。このとき、Pr{·} を確率(probability)といい、(Ω, B, Pr{·}) を確率空間(probability space)とよぶ。
定義 2.1.3 (条件付き確率) A と B を確率空間 (Ω, B, Pr{·}) の集合族 B に含まれる事象とする。Pr{B} > 0 のとき、Pr{A|B}
によって示される、事象 B を与えたものでの事象 A の条件付き確率(conditional probaility)は
Pr{A|B} =Pr{A ∩ B}
Pr{B}
によって定義される。
定理 2.1.1 (全確率の定理 (Theorem of total probabilities)) 確率空間 (Ω, B, Pr{·}) を考え、B1, B2, · · · , Bnを
(i) Ω = ∪n k=1Bk (ii) Pr{Bk} > 0 (k = 1, 2, · · · , n) を満たす互いに素な事象の集まりとする。このとき、すべての A∈ B に対して、 Pr{A} = n ∑ k=1 Pr{A|Bk} Pr{Bk} が成り立つ。
2.2 確率変数と分布関数 7 定理 2.1.2 (ベイズの定理 (Bayes’ formula)) 確率空間 (Ω, B, Pr{·}) を考え、B1, B2, · · · , Bnを (i) Ω = ∪nk=1Bk (ii) Pr{Bk} > 0 (k = 1, 2, · · · , n) を満たす互いに素な事象の集まりとする。このとき、Pr{A} > 0 となつ事象 A ∈ B に対して、 Pr{Bk|A} = Pr{A|Bk} Pr{Bk} ∑n j=1Pr{A|Bj} Pr{Bj} が成り立つ。
Pr{Bk} を事象 Bkの事前確率(prior probability)、Pr{Bk|A}を Bkの事後確率(posterior probability)という。
定義 2.1.4 (独立性) A と B をB の事象とする。このとき、事象 A と B が独立であるとは、 Pr{A ∩ B} = Pr{A} Pr{B} が成り立つことをいう。
2.2
確率変数と分布関数
定義 2.2.1 (確率変数) 確率空間 (Ω, B, Pr{·}) に対して、X または X(·) によって表される確率変数は、定義域として Ω を、 値域として実数 を持つ関数をいう。ここで、関数 X は、すべての実数 x∈ に対して集合 {ω : X(ω) ≤ x} が B に含まれ る(可測性)。 定義 2.2.2 (累積分布関数) 1 次元空間 1の値をとる確率変数 X が区間 (a, b] に入る確率を Pr{a < X ≤ b} または、 Pr{X ∈ (a, b]} という記号を用いて表す。実数 x に対して、確率 Pr{X ≤ x} を x の関数として考えるとき、F(x) を X の累積分布関数(cumulative distribution function: cdf )という。
累積分布関数の性質として次のことが成り立つ:
(a) F(−∞) = lim
x→−∞F(x)= 0, F(+∞) = limx→+∞F(x)= 1
(b) F(x) は単調増加関数である。つまり、F(x)≤ F(y) (x ≤ y)
(c) F(x) は右連続関数である。つまり、lim
x↓aF(a)= F(a)
【離散確率変数】
確率変数 X のとる値が有限個または可付番個の値 x1, x2, · · · のとき、X を離散確率変数(discrete random variable)といい、
それぞれの値をとる確率は Pr{X = xi} = fX(xi) に対応し、∑ i fX(xi)= 1 となり、総和 ∑ i は確率変数 X のとる値に渡るものとする。このとき、 F(x)= Pr{X ≤ x} = ∑ {xi:xi≤x} fX(xi)
8 第 2 章 確率 が成り立つ。 fX(xi) を確率関数 (probability function) とよぶ。 【連続確率変数】 f (x)≥ 0、∫f (x) dx= 1 を満たす関数 f (x) により、 F(x)= Pr{X ≤ x} = ∫x −∞f (t) dt
と分布関数が表されるとき、X を連続型確率変数(continuous random variable)という。ここで、 f (x) を確率密度関数 (probability density function: pdf ) とよぶ。
A を Borel 集合とすると、X∈ A となる確率 Pr{X∈ A}は、離散と連続の場合に Pr{X∈ A}=∑ xi∈A pi, Pr{X∈ A}= ∫ A f (x) dx によって表される。 一次元分布の代表的な確率関数、分布関数については、このpdf ファイルを参照。 定理 2.2.1 X は確率密度関数 f (x) をもつ連続確率変数とする。関数 g(x) により、X と Y が 1 対 1 に対応し、X= h(Y) とい う関数関係 h(·) に対して、確率変数 Y の確率密度関数は f{h(y)}|h′(y)| によって与えられる。
2.3
平均値とモーメント
定義 2.3.1 (期待値) 確率変数 X が分布関数 F(x) に従うとき、 ∫ |x| dF(x) が存在するとき、X の期待値(expectation)を E[X]= ∫ x dF(x) によって定義する。ここで、上の積分は Stieltjes 積分を用いて定義されている。 よって、 E[X]= ∑ i xifX(xi) (X が離散確率変数の場合), ∫∞ −∞ x fX(x) dx (X が連続確率変数の場合) となる。定義 2.3.2 (分散・標準偏差) 確率変数 X の期待値を E[X]= µ とおき、E[(X−µ)2] が存在するとき、σ2= Var(X) = E[(X−µ)2]
2.3 平均値とモーメント 9
定義 2.3.3 (モーメント、平均回りのモーメント) mr = E[Xr] を原点回りの r 次モーメント (rth moment)とよび、µr =
E[(X− µ)r] を平均回りの r 次モーメント (rth central moment)という。
定義 2.3.4 (歪度、尖度) 平均回りの 3 次モーメントが存在するとき、 E[(X− µ)3] σ3 を尖度(skewness)とよび、X の分布関数の歪みを表す。X の分布関数が正規分布の場合、平均、分散の値に関わらず、こ の値は 0 となる。平均回りの 4 次モーメントが存在するとき、 E[(X− µ)4] σ4 を尖度(kurtosis)とよび、X の分布関数の尖りを表す。X の分布関数が正規分布の場合、平均、分散の値に関わらず、こ の値は 3 となる。 このとき、期待値 E[X]、原点回りのモーメント mr、平均回りのモーメントµrについて次のことがなりたつ。 (a) X が離散確率変数のとき、関数 g(x) に対して∑ i g(xi)fX(xi) が収束すれば、 E[g(X)]=∑ i g(xi) fX(xi) がなりたつ。 (b) X が連続確率変数のとき、関数 g(x) に対して ∫∞ −∞g(x)f (x) dx< ∞ ならば、 E[g(X)]= ∫∞ −∞ g(x) f (x) dx がなりたつ。 (c) a、b1、b2、· · · 、bkを実数、g1(x)、g2(x)、· · · 、gk(x) を k 個の関数とするとき、
E[a+ b1g(X)+ b2g(X)+ · · · + bkg(X)]= a + b1E[g1(X)]+ b2E[g2(X)]+ · · · + +bkE[gk(X)]
がなりたつ。ただし、E[a+ b1g(X)+ b2g(X)+ · · · + bkg(X)] が存在するものとする。これを期待値の線形性という。
(d) 定数 a、b に対して、Y= a + bX という確率変数を考えると、
E[Y]= a + bE[X], Var(Y) = b2Var[X], µr(Y)= brµr(X)
がなりたつ。 代表的な分布関数の平均、分散、モーメントについては、前にあげたpdf ファイルを参照。 定義 2.3.5 (分位点) 分布関数 F(x) の q 分位点(q-quantile)は F(ξ) ≥ q となる最小の ξ として定義される。つまり、 inf x { F(x)≥ q }
10 第 2 章 確率 定義 2.3.6 (メジアン) 分布関数 F(x) のメジアン(median)は F(ξ) ≥ 0.5 となる最小の ξ として定義される。よって、メ ジアンは 0.5 分位点に等しい。 定義 2.3.7 (積率母関数) 確率変数 X は分布関数 F(x) に従うものとする。このとき、X の積率母関数(moment generating function)は、実数 t に対して、 E[etX]= ∫ etxdF(x) によって定義され、F(x) のラプラス変換(Laplace transformation)とよばれる。 よって、 E[etX]= ∑ i etxifX(x i) (X が離散確率変数の場合) ∫∞ −∞e txf (x) dx (X が連続確率変数の場合) が成り立つ。ただし、すべての実数 t に対して、常に積率母関数が存在するというわけでなく、複素数 i(i2= −1)を用いた特 性関数(characteristic function) ∫ eitxdF(x) はすべての実数 t について存在するので、この特性関数がしばしば用いられる。これは、F(x) のフーリエ変換(Fourier transformation)ともよばれる。
2.4
不等式
定理 2.4.1 (シュワルツの不等式 (Schwart’s inequality)) X を有限な期待値を持つ非負確率変数とし、ε > 0 を任意の実数 とする。このとき、 Pr { X ≥ ε } ≤ E[X] ε が成り立つ。 定理 2.4.2 (チェビシェフの不等式 (Qebywv’s inequality)) X を有限な期待値を持つ非負確率変数とし、ε > 0 を任意の実 数とする。このとき、 Pr { X ≥ ε } ≤ E[X] ε が成り立つ。 定理 2.4.3 (チェビシェフの不等式) (Qebywv’s inequality) 確率変数 X の平均をµ、分散を σ2とし、ε > 0 を任意の実数 とする。このとき、 Pr { |X − µ| ≥ εσ}≤ 1 ε22.5 収束 11
が成り立つ。
定義 2.4.1 (凸関数) 関数 k(u) が上に凸であるとは、すべての u1, u2とα(0 ≤ α ≤ 1) に対して、
k(αu1+ (1 − α)u2)≤ αk(u1)+ (1 − α)k(u2)
が成り立つことを言う。 定理 2.4.4 (Minkowski の不等式) E[g2 1(X)] と E[g22(X)] が有限のとき、 √ E[ { g1(X)± g2(X) }2 ]≤ √ E[g2 1(X)]+ √ E[g2 2(X)] が成り立つ。
定理 2.4.5 (ジェンセンの不等式 (Jensen’s inequality)) k(x) を上に凸な関数とし、X を E[X] が存在するような確率変数と
する。このとき、 E[k(X)]≥ k(E[X]) が成り立つ。
2.5
収束
X1, X2, · · · を確率変数の列とし、X を確率変数とする。 定義 2.5.1 (概収束) 確率変数 X に対して、 Pr { lim n→∞Xn= X } = 1が成り立つとき、確率変数列{Xn}∞n=1は X に概収束(almost sure convergence)するといい、
Xn−−→ Xa.s. と書く。 定義 2.5.2 (確率収束) 任意のε > 0 に対して、 lim n→∞Pr{Xn− X > ε } = 0 が成り立つとき、確率変数列{Xn}∞n=1は X に確率収束(convergence in probability)するといい、 Xn in P −−−→ X
12 第 2 章 確率 と書く。 定義 2.5.3 (分布収束) Fn(x) を確率変数 Xnに対する分布関数とし、F(x) を確率変数 X に対する分布関数とする。F(x) の 任意の連続点 x に対して、 lim n→∞Fn(x)= F(x) が成り立つとき、確率変数列{Xn}∞ n=1は X に分布収束(convergence in distribution)するといい、 Xn in d −−−→ X と書く。 定理 2.5.1 (i) Xn a.s. −−→ X =⇒ Xn in P −−−→ X (ii) Xn in P −−−→ X =⇒ Xn in d −−−→ X
2.6
多次元の確率分布
定義 2.6.1 (k 次元同時確率分布関数) k 次元確率変数 (X1, X2, · · · , Xk) に対して、 FX1,X2,··· ,Xk(x1, x2, · · · , xk)= Pr{X1≤ x1, X2≤ x2, · · · , Xk≤ xk}を 確 率 変 数 (X1, X2, · · · , Xk) の 同 時 確 率 分 布 関 数(simultaneous probability distribution function)と よ ぶ 。こ こ で 、
x1, x2, · · · , xkは、k 個の実数である。 【(X1, X2, · · · , Xk) が離散確率変数の場合】 (X1, X2, · · · , Xk) のとる値がいずれも有限または可付番個の値であるとき、それぞれの値のとる確率は fX1,X2,··· ,Xk(x1, x2, , xk)= Pr{X1= x1, X2= x2, · · · , Xk= xk} となる。ここで、 ∑ i1,i2,··· ,ik fX1,X2,··· ,Xk(x1i1, x2i2, · · · , xkik)= 1 となり、総和 ∑ i1,i2,··· ,ik は、確率変数 (X1, X2, · · · , Xk) のとるすべての値に渡るものとする。また、同時分布関数は、 FX1,X2,··· ,Xk(x1, x2, · · · , xk)= Pr{X1≤ x1, X2≤ x2, · · · , Xk≤ xk} = ∑ i1,i2,··· ,ik fX1,X2,··· ,Xk(xi1, xi2, · · · , xik) となる。ここで、総和 ∑ i1,i2,··· ,ik は xi1≤ x1, xi2≤ x2, · · · , xik ≤ xkとなるすべての i1, i2, · · · , ikについてのものである。 【(X1, X2, · · · , Xk) が連続確率変数の場合】 f (x1, x2, · · · , xk)≥ 0、 ∫ · · ·∫f (x1, x2, · · · , xk) dx1· · · dxk= 1 を満たす関数 f (x1, x2, · · · , xk) により、同時分布関数は、 FX1,X2,··· ,Xk(x1, x2, · · · , xk)= ∫x1 −∞· · · ∫xk −∞f (t1, t2, · · · , tk) dt1· · · dtk
2.6 多次元の確率分布 13
と分布関数が表されることをいう。ここで、 f (x1, x2, · · · , xk) を確率密度関数 (probability density function: pdf ) とよぶ。
定義 2.6.2 (周辺分布) 確率変数 X と Y は同一の確率空間 (Ω, B, Pr{·}) 上で定義され、同時確率分布関数 FX,Y(x, y) に従う
とする。このとき、
FX(x)= FX,Y(x, +∞), FY(x)= FX,Y(+∞, y)
を各々、X と Y の周辺確率分布(marginal probability distribution)という。
したがって、確率変数 X と Y が同時確率分布 FX,Y(x, y) に従い、 FX,Y(x, y) = ∑ {x1:x1≤x} ∑ {x2:x2≤x} fX,Y(x1, x2) と表せる離散確率変数であるとき、 FX(x)= FX,Y(x, +∞) =∑ y fX,Y(x, y) が成り立つ。ここで、∑ y は、確率変数 Y のすべての値についての総和である。また、∑ x を確率変数 X のすべての値について の総和とすると、 FY(y)= FX,Y(+∞, y) =∑ x fX,Y(x, y) が成り立つ。 確率変数 X と Y が連続確率変数で、同時確率分布 FX,Y(x, y) に従い、 FX,Y(x, y) = ∫ {s:s≤x} ∫ {t:t≤y}fX,Y(s, t) dt ds と表せるとき、 FX(x)= FX,Y(x, +∞) = ∫ y fX,Y(x, t) dt が成り立つ。ここで、 ∫ y は、確率変数 Y のすべての値についての積分である。 定義 2.6.3 (条件付き離散確率関数) X と Y を同時離散確率関数 fX,Y(x, y) に従う離散確率変数とする。Y = y を与えた下
での X の条件付き離散確率関数(conditional discrete probability function)は、
fXY(xy)= fX,Y(x, y) fY(y) ( fY(y), 0), 定義されない ( fY(y)= 0) によって定義される。
14 第 2 章 確率
定義 2.6.4 (条件付き離散累積分布) X と Y を同時離散確率関数 fX,Y(x, y) に従う離散確率変数とする。Y = y を与えたも
のでの X の条件付き離散累積分布(conditional discrete cumulative distribution)は、
FXY(xy)= Pr{X ≤ xY= y} = ∑
{xi:xi≤x}
fXY(x, y)
によって定義される。ただし、Y の確率関数 fY(y) に対して、 fY(y)= 0 となる y に対しては定義されない。
定義 2.6.5 (条件付き連続確率関数) X と Y を同時連続確率関数 fX,Y(x, y) に従う連続確率変数とする。Y = y を与えたも
のでの X の条件付き連続確率関数(conditional continuous probability function)は、
f XY(xy)= fX,Y(x, y) fY(y) ( fY(y), 0), 定義されない ( fY(y)= 0) によって定義される。 定義 2.6.6 (条件付き連続累積分布) X と Y を同時連続確率関数 fX,Y(x, y) に従う連続確率変数とする。Y = y を与えたも
のでの X の条件付き連続累積分布(conditional continuous cumulative distribution)は、
FXY(xy)= Pr{X ≤ xY= y} =
∫
{t:t≤x}fXY(t, y) dt
によって定義される。ただし、Y の確率密度関数 fY(y) に対して、 fY(y)= 0 となる y に対しては定義されない。
2.7
独立性
【(X1, X2, · · · , Xk) が離散確率変数の場合】 (X1, X2, · · · , Xk) の周辺分布をそれぞれ Pr{X1= x1i1 } = p1i1, Pr { X2= x2i2 } = p2i2, · · · , Pr { Xk= xkik } = pkikとする。 定義 2.7.1 (互いに独立) すべての i1, · · · , ikについて、 pi1···ik= Pr { X1= x1i1, X2= x2i2, · · · , Xk= xkik } = Pr{X1= x1i1 } Pr{X2= x2i2 }· · · Pr{ Xk= xkik }= p 1i1p2i2· · · pkik が成り立つとき、X1, X2, · · · , Xkは互いに独立である(mutually independent)という。 【(X1, X2, · · · , Xk) が連続確率変数の場合】 (X1, X2, · · · , Xk) の周辺確率密度関数をそれぞれ、 f1(x1), f2(x2), · · · , fk(xk) とする。 定義 2.7.2 (密度関数の独立性) すべての (x1, x2, · · · , xk) について、 f (x1, x2, · · · , xk)= f1(x1) f2(x2)· · · fk(xk) が成り立つとき、X1, X2, · · · , Xkは互いに独立である(mutually independent)という。2.8 平均値とモーメント 15
2.8
平均値とモーメント
【(X1, X2, · · · , Xk) が離散確率変数の場合】 関数 g(x1, x2, · · · , xk) に対して、 ∑ i1,i2,··· ,ik g(x1i1, x2i2, · · · , xkik)pi1···ik が存在するとき、関数 g(x1, x2, · · · , xk) の期待値を E[g(X1, X2, · · · , Xk)]= ∑ i1,i2,··· ,ik g(x1i1, x2i2, · · · , xkik)pi1···ik と定義する。 【(X1, X2, · · · , Xk) が連続確率変数の場合】 関数 g(x1, x2, · · · , xk) に対して、 ∫∞ −∞· · · ∫∞ −∞g(x1, x2, · · · , xk)f (x1, x2, · · · , xk) dx1· · · dxk が存在するとき、関数 g(x1, x2, · · · , xk) の期待値を E[g(X1, X2, · · · , Xk)]= ∫∞ −∞· · · ∫∞ −∞g(x1, x2, · · · , xk) f (x1, x2, · · · , xk) dx1· · · dxk と定義する。 定理 2.8.1 (期待値の線形性) a, b1, · · · , brを定数、g1(x1, x2, · · · , xk), g2(x1, x2, · · · , xk), · · · , gr(x1, x2, · · · , xk) を r 個の関数と する。このとき、 E[a+ b1g1(X1, X2, · · · , Xk)+ b2g2(X1, X2, · · · , Xk)+ · · · + brgr(X1, X2, · · · , Xk)]= a + b1E[g1(X1, X2, · · · , Xk)]+ b2E[g2(X1, X2, · · · , Xk)]+ · · · + brE[gr(X1, X2, · · · , Xk)]
が成り立つ。 定義 2.8.1 (モーメント、分散、共分散、相関係数) 確率変数 (X1, X2, · · · , Xk) に対して、原点回りのモーメントを αr1···rk= E[X r1 1X r2 2 · · · X rk k] によって定義する。特に、ri= 1、rj= 0 ( j , i) のとき、αr1···rkは Xiの期待値 E[Xi] に一致し、これを miで表す。また、平 均値回りのモーメントを µr1···rk= E[(X1− m1) r1(X 2− m2)r2· · · (Xk− mk)rk] によって定義する。特に、ri= 2、rj= 0 ( j , i) のとき、µr1···rkは Xiの分散 Var(Xi) σ2 i = µ2(Xi)= E[(Xi− mi)2] となり、ri= rj= 1、rk= 0 (k , i, j) のとき、 σi j= µ11(Xi, Xj)= E[(Xi− mi)(Xj− mj)] とし、Xiと Xjの共分散という。i= j のときには、µ11(Xi, Xj) はσ2(Xi) を表すのもとする。また、0< σ2i < ∞, 0 < σ2j< ∞ のとき、 ρi j= ρ(Xi, Xj)= σi j √σiiσj j を Xiと Xjの共分散という。
16 第 2 章 確率
定義 2.8.2 (分散共分散行列、相関行列) k× k 行列 Σ = (σi j) を (X1, X2, · · · , Xk) の分散共分散行列(variance-covarinace
matrix)といい、k× k 行列 (rhoi j) を相関係数行列(correlation coefficient matrix)という。
定理 2.8.2 k 次元確率変数 (X1, X2, · · · , Xk) の分散がいずれも有限とし、a1, a2, · · · , akを定数とする。 (i) Var( k ∑ i=1 aiXi)= k ∑ i=1 k ∑ j=1 aiajCov(Xi, Xj) = k ∑ i=1 a2iVar(Xi)+ 2 ∑ ∑ 1≤i< j≤n aiajCov(Xi, Xj) (ii) さらに、(X1, X2, · · · , Xk) が互いに独立であれば、 Var( k ∑ i=1 aiXi)= k ∑ i=1 a2 iVar(Xi)
2.9
特性関数
定義 2.9.1 (特性関数) k 次元確率変数 (X1, X2, · · · , Xk) に対して、t1, t2, · · · , tkの関数 φ(t1, t2, · · · , tk)= E[exp(i(t1X1+ t2X2+ · · · + tkXk))] を (X1, X2, · · · , Xk) の特性関数(characteristic function)という。 定理 2.9.1 (i) k 次元確率変数 (X1, X2, · · · , Xk) が互いに独立のとき、 φ(t1, t2, · · · , tk)= φ(t1)φ(t2)· · · φ(tk) が成り立つ。 (ii) k 次元確率変数 (X1, X2, · · · , Xk) の確率分布は特性関数により一意に決定させる。 定理 2.9.2 k 次元確率変数 (X1, X2, · · · , Xk) は同時密度関数 f (x1, x2, · · · , xk) を持つとする。k 個の関数 yi= gi(x1, x2, · · · , xk) によって、(x1, x2, · · · , xk) と (y1, y2, · · · , yk) が一対一に対応し、x1, x2, · · · , xkについて解いたものを xi= gi(y1, y2, · · · , yk)2.9 特性関数 17 とする。さらに、 ∂xi ∂yi, (i = 1, 2, · · · , k) はいずれも連続で、 ∂(x1, x2, · · · , xk) ∂(y1, y2, · · · , yk) = ∂x1 ∂y1 ∂x1 ∂y2 · · · ∂x1 ∂yk ∂x2 ∂y1 ∂x2 ∂y2 · · · ∂x2 ∂yk ... ... ... ... ∂xk ∂y1 ∂xk ∂y2 · · · ∂xk ∂yk , 0 とする。このとき、確率変数 Y1, Y2, · · · , Ykを Yi= gi(X1, X2, · · · , Xk), (i = 1, 2, · · · , k) によって定義すれば、(Y1, Y2, · · · , Yk) の 確率密度関数は、 f { h1(y1, y2, · · · , yk), h2(y1, y2, · · · , yk), · · · , hk(y1, y2, · · · , yk)} ∂(x1, x2, · · · , xk ) ∂(y1, y2, · · · , yk) によって与えられる。 定理 2.9.3 (たたみ込み(Convolution)) 確率変数 X と Y は独立で、それぞれ密度関数 f (x) と g(y) をもつとき、確率変数 Z= X + Y の密度関数 h(z) は h(z)= ∫∞ −∞f (z− y)g(y) dy = ∫∞ −∞g(z− x) f (y) dy によって与えられる。
18
第
3
章 基本的な分布
3.1 1
次元の基本分布
このpdf ファイルに載せられている 1 次元の基本的な分布について考える。 3.1.1 離散一様分布 コインの表裏やサイコロの出目などの N 通りの事象が同様に確からしい、同程度に確からしい(equally likely) 状況で発生す る確率を記述し、母数は N。 Pr{X= x}= 1 N, (x= 1, 2, · · · , N) 期待値 分散 モーメント 積率母関数 N+ 1 2 N2− 1 12 µ ′ 3= N(N+ 1)2 4 N ∑ j=1 1 Ne jt µ′ 4= (N+ 1)(2N + 1)(3N2+ 3N − 1) 30 ここで、µ′r= E[Xr] は原点回りの r 次モーメント、µ r= E[X − µr] は平均値回りの r 次モーメントを表す。 ベルヌーイ分布 1 回の試行において、成功または失敗の 2 種類の状況の片方が必ず起こり、成功の確率が p(失敗確率 q= 1 − p)で与えら れ、母数は p となる。 Pr{X= 0}= p, Pr{X= 1}= 1 − p ≡ q 期待値 分散 モーメント 積率母関数 p pq µ′r= p q+ pet • 独立なベルヌーイ試行を n 回繰り返したとき、成功回数の和は次の二項分布 B(n, p) に従う。 二項分布 成功か失敗かのいずれかが発生するベルヌーイ試行を n 回繰り返したときの成功回数を表し、母数は試行回数 n と成功確率 p となる。確率変数 X が母数 (n, p) の二項分布に従うとき、 X∼ Bi(n, p) と書く。 Pr{X= k}= ( n k ) pk(1− p)n−k (k= 0, 1, · · · , n) 期待値 分散 モーメント 積率母関数 np npq µ3= npq(q − p) (q+ pet) µ4= 3n2p2q2+ npq(1 − 6pq) • 二つの独立な確率変数 X と Y X∼ Bi(n1, p), Y ∼ Bi(n2, p) に対して、その和について X+ Y ∼ Bi(n1+ n2, p) が成り立つ。3.1 1 次元の基本分布 19 • X ∼ Bi(n, p) のとき、n → ∞ に対して、 X− np √npq −−−→ N(0, 1in d 2) が成り立つ。ここで、−−−→ はin d 12ページの分布収束を意味し、N(0, 12) は平均ゼロ、分散 12の正規分布を表す。 • X ∼ Bi(n, p) のとき、np = λ として、λ を一定として n → ∞ とすると、 X−−−→ Po(λ)in d が成り立つ。ここで、Po(λ) は母数 λ のポアソン分布を表す。 超幾何分布 2 種類の状態(K 個の成功と M− K 個の失敗)からなる成分を持つ M 個の要素よりなる集まりから n 個の要素を非復元抽出 したときに x 個の成功が含まれている確率。 Pr{X= k}= (K x )(M−K n−x ) (M n ) (x= 0, 1, 2, · · · , n) 期待値 分散 モーメント 積率母関数 nK M n K M M− K N M− n M− 1 E[X(X− 1) · · · (X − r + 1)] 有効でない = r! (K r )(n r ) (M r ) • 二項分布は超幾何分布の定義における「非復元抽出」を「復元抽出」に置き換えたものになる。 Poisson分布 2 種類の状態(K 個の成功と M− K 個の失敗)からなる成分を持つ M 個の要素よりなる集まりから n 個の要素を非復元抽出 したときに x 個の成功が含まれている確率。 Pr{X= k}= (K x )(M−K n−x ) (M n ) (x= 0, 1, 2, · · · , n) 期待値 分散 モーメント 積率母関数 nK M n K M M− K N M− n M− 1 E[X(X− 1) · · · (X − r + 1)] 有効でない = r! (K r )(n r ) (M r ) •
20
一般・統計用語索引
か 概収束 . . . .11 確率 . . . .6 確率関数 . . . .8 確率空間 . . . .6 確率収束 . . . .12 確率変数 . . . .7 確率密度関数 . . . .8 ガンマ関数 . . . .4 き 期待値 . . . .8 期待値の線形性 . . . .9,15 共分散 . . . .16 け 原点回りの r 次モーメント . . . .9,15 し ジェンセンの不等式 . . . .11 事後確率 . . . .7 事象 . . . .6 事前確率 . . . .7 自然対数の底 . . . .3 周辺確率分布 . . . .13 シュワルツの不等式 . . . .10 条件付き確率 . . . .6 条件付き離散確率関数 . . . .13 条件付き連続確率関数 . . . .14 条件付きるいせき確率関数 . . . .13,14 す スターリングの公式 . . . .5 せ 正規分布 . . . .9,19 積率母関数 . . . .10 全確率の定理 . . . .6 尖度 . . . .9 そ 相関係数 . . . .16 相関係数行列 . . . .16 た 多項定理 . . . .2 たたみ込み . . . .17 ち チェビシェフ (Qebywv) の不等式. . . .10 超幾何分布 . . . .19 て テーラー展開 . . . .4 と 同時確率分布 . . . .12 同様に確からしい . . . .18 特性関数 . . . .10,16 独立性 . . . .7,14 凸関数 . . . .11 に 二項定理 . . . .2 二項分布 . . . .18 期待値 . . . .18 原点回りの r 次モーメント . . . .18 分散 . . . .18 ね ネイピア数 . . . .3 は パスカルの三角形 . . . .1 ひ 標準偏差 . . . .8 標本空間 . . . .6 ふ フーリエ変換 . . . .10 分位点 . . . .9 分散 . . . .8,16 分散共分散行列 . . . .16 分布収束 . . . .12,19 へ 平均値回りの r 次モーメント . . . .9,15 ベイズの定理 . . . .7 ベータ関数 . . . .4 ベルヌーイ分布 . . . .18 期待値 . . . .18 原点回りの r 次モーメント . . . .18 分散 . . . .18 ほ Poisson 分布 . . . .19 ポアソン分布 . . . .19 ボレル集合族 . . . .6 み ミンコフスキーの不等式 . . . .11 め メジアン . . . .10 も モーメント 原点回りの r 次— . . . .9,15 平均値回りの r 次— . . . .9,15 ら ラプラス変換 . . . .10 り 離散一様分布 . . . .18 期待値 . . . .18 原点回りの r 次モーメント . . . .18 分散 . . . .18 平均値回りの r 次モーメント . . . .18 離散確率変数 . . . .7 る 累積分布関数 . . . .7 れ 連続型確率変数 . . . .8 ろ ロピタルの定理 . . . .3 わ 歪度 . . . .921
英語索引
Aalmost sure convergence . . . .11
B Bayes’ formula . . . .7 Bernoulli distribution . . . .18 Beta function . . . .4 binomial distribution . . . .18 Binomial Theorem . . . .2 C characteristic function . . . .10,16 Qebywv’s inequality . . . .10
conditional continuous cumulative distribution . . . .14
conditional continuous probability function . . . .14
conditional discrete cumulative distribution . . . .13
conditional discrete probability function . . . .13
conditional probability . . . .6
continuous random variable . . . .8
convergence in distribution . . . .12,19 convergence in probability . . . .12
convex function . . . .11
convolution . . . .17
correlation coefficient . . . .16
correlation coefficient matrix. . . .16
covariance . . . .16
cumulative distribution function . . . .7
D discrete random variable . . . .7
discrete uniform distribution . . . .18
E equally likely . . . .18 event . . . .6 expectation . . . .8 F Fourier transformation . . . .10 G Gamma function . . . .4 H hypergeometric distribution . . . .19 I independence . . . .7 J Jensen’s inequality . . . .11 K kurtosis . . . .9 L Laplace transformation . . . .10 l’Hospital’s rule . . . .3 M marginal probability distribution . . . .13
median . . . .10
Minkowski’s inequality . . . .11
moment rth central — . . . .9,15 rth — . . . .9,15 moment generating function . . . .10
Multinomial Theorem . . . .2 mutually independence . . . .14 N Napier’s constant . . . .3 normal distribution . . . .9,19 P Pascal’s triangle . . . .1 Poisson distribution . . . .19 posterior probability . . . .7 prior probability . . . .7
probability density function . . . .8
probability function . . . .8 probability space . . . .6 probability . . . .6 Q quantile . . . .9 R random variable . . . .7 rth central moment . . . .9,15 rth moment . . . .9,15 S sample space . . . .6 Schwart’s inequality . . . .10 σ-field . . . .6
simultaneous probability distribution function . . . .12
skewness . . . .9
standard deviation . . . .8
Stirling’s formula . . . .5
T Taylor expansion . . . .4
Theorem of total probabilities . . . .6
V variance . . . .8,16 variance-covarinace matrix . . . .16