確率論と統計学の資料

(1)

確率論と統計学の資料

熊澤吉起 5 June 2015

(2)

ii

目次 ii ギリシャ文字一覧 . . . ii 第1章予備的公式 1 1.1 順列と組合せ . . . 1 1.2 微積分. . . 3 1.3 ガンマ関数、ベータ関数、スターリングの公式. . . 4 第2章確率 6 2.1 確率 . . . 6 2.2 確率変数と分布関数 . . . 7 2.3 平均値とモーメント . . . 8 2.4 不等式. . . 10 2.5 収束 . . . 11 2.6 多次元の確率分布 . . . 12 2.7 独立性. . . 14 2.8 平均値とモーメント . . . 15 2.9 特性関数 . . . 16 第3章基本的な分布 18 3.1 1次元の基本分布. . . 18 3.1.1 離散一様分布 . . . 18 一般・統計用語索引 20 英語索引 21

ギリシャ文字一覧

読み方大文字小文字読み方大文字小文字読み方大文字小文字

alpha A α beta B β gamma Γ γ

delta ∆ δ epsilon E ϵ, ε zeta Z ζ

eta H η theta Θ θ, ϑ iota I ι

kappa K κ lambda Λ λ mu M µ

nu N ν omicron O o xi Ξ ξ

pi Π π, ϖ rho P ρ, ϱ sigma Σ σ, ς

tau T τ upsilon Υ υ phi Φ ϕ, φ

(3)

1

第

1 章予備的公式

1.1 順列と組合せ

a を任意の実数とし、r を任意の自然数 (a≥ r) とするとき、 a[r]_{= a(a − 1)(a − 2) · · · (a − r + 1)} とおく。これは、a から順に小さな数を r 個かけたものである。r= 0 ならば、 a[0]= 1 とおく。a が非負の整数で、a= r のとき、 r[r]= r(r − 1)(r − 2) · · · 2 · 1 = r! (r > 0), 0[0]= 0! = 1 とおく。また、a を任意の実数、r を非負の整数 (a≥ r) とするとき、 ( a r ) =a[r] r! = a(a− 1)(a − 2) · · · (a − r + 1) r(r− 1)(r − 2) · · · 2 · 1 (r> 0), ( a 0 ) = 1 とおく。n と r がともに整数で n≥ r ≥ 0 のとき、 n[r]=n! r!, nCr= ( n r ) = n! r!(n− r)! がなりたつ。 積の記号 ∏ を用いると、整数 n に対して、 n!= n(n − 1)(n − 2) · · · 3 · 2 · 1 = n ∏ k=1 (n− k + 1) = n ∏ k=1 k と書くことができる。 (a) n 個の異なるものから重複を許して、r 個を取り出して出来る順列の個数は nr_となる。 (b) n 個の異なるものから重複を許さず、r 個を取り出して出来る順列の個数は n[r]となる。 (c) n 個の異なるものから重複を許さず、r 個を取り出して出来る組合せの個数は(n_r)となる。 (d) n 個の異なるものから重複を許して、r 個を取り出して出来る組合せの個数は(n+r−1_n₋₁)=(n+r−1_r )となる。組合せの性質として次のことが成り立つ。 (e) ( n 0 ) = ( n n ) = 1 (f) ( n r ) = ( n n− r ) (g) ( n r ) = ( n− 1 r ) + ( n− 1 r− 1 ) (パスカルの三角形：Pascal’s triangle)

定理 1.1.1 （二項定理 (Binomial Theorem)） n を自然数とするとき、実数 a、b に対して、

(a+ b)n= n ∑ k=0 ( n k ) akbn−k = ( n 0 ) bn+ ( n 1 ) a1bn−1+ · · · + ( n n ) an がなりたつ。

(4)

2 第 1 章予備的公式上の定理から次の性質を得る。 (h) (1+ t)n= ( n 0 ) + ( n 1 ) t+ · · · + ( n n ) tn= n ∑ k=0 ( n k ) tk (i) (1− t)n= n ∑ k=0 ( n k ) (−1)ktk (j) 2n₌ n ∑ k=0 ( n k ) (k) 0= n ∑ k=0 (−1)k ( n k ) (l) 2n+1− 1 n+ 1= ( n 0 ) +1 2 ( n 1 ) + · · · + 1 r+ 1 ( n r ) + · · · + 1 n+ 1 ( n n ) (m) ( a+ b n ) = n ∑ k=0 ( a k )( b n− k ) 定理 1.1.2 （多項定理 (Multinomial Theorem)） n、k を自然数とするとき、実数 t1, t2, · · · , tkに対して、 (t1+ t2+ · · · + tk)n= ∑ n! r1!r2!· · · rk! tr1 1t r2 2 · · · t rk k がなりたつ。ここで、総和 ∑ は r1≥ 0, r2≥ 0, · · · , rk≥ 0, r1+ r2+ · · · + rk= n を満たすすべての整数の組 (r1, r2, · · · , rk) にわたるものとする。総和について次の公式が成り立つ。 n ∑ k=1 k=n(n+ 1) 2 n ∑ k=1 k2=n(n+ 1)(2n + 1) 6 n ∑ k=1 k3=n 2_(n_{+ 1)}2 4 n ∑ k=1 k4= n 30(n+ 1)(2n + 1)(3n 2_{+ 3n − 1)} n ∑ k=1 k5= n 2 12(n+ 1) 2_(2n2_{+ 2n − 1)} n ∑ k=1 k6= n 42(n+ 1)(2n + 1)(3n 4_{+ 6n}2_{− 3n + 1)} 例えば、 n ∑ k=1 k2=n(n+ 1)(2n + 1) 6 は、恒等式 (k+ 1) 3_{− k}3_{= 3k}2_{+ 3k + 1 の両辺を k を 1 から n まで加えると、} 左辺 23− 13 33_{− 2}3 ... (n+ 1)3_{− n − 3} (n+ 1)3_{− 1}

(5)

1.2 微積分 3 一方、右辺は、 n ∑ k=1 { 3k2+ 3k + 1 } = 3 n ∑ k=1 k2+ 3 n ∑ k=1 k+ n ∑ k=1 1 ここで、 n ∑ k=1 k=n(n+ 1) 2 と n ∑ k=1 1= n を用いると、 = 3 n ∑ k=1 k2_{+ 3}n(n+ 1) 2 + n よって、左辺が (n+ 1)3_{− n − 3 であったから} (n+ 1)3− 1 = 3 n ∑ k=1 k2+ 3n(n+ 1) 2 + n ∴ 3 n ∑ k=1 k2_{= (n + 1)}3_{− 1 − 3}n(n+ 1) 2 − n =n+ 1 2 { 2n2_{+ 4n + 2 − 3n − 2}} =n(n+ 1)(2n + 1) 2 となる。

1.2 微積分

定義 1.2.1 （自然対数の底）無限数列 (1+1 n) n_{, (n = 1, 2, · · · )} に対して、極限値 lim n→+∞(1+ 1 n) n が存在し、自然対数の底またはネイピア数（Napier’s constant）といい、e を用いて表す。 この数 e は円周率π と同様に無理数であることが知られている。指数関数 ex_は ex= exp(x) と書くことがある。 定理 1.2.1 （ロピタルの定理 (l’Hospital’s rule)）関数 f (x) と g(x) は、点 x= a で微分可能で、 lim

x→af (x)= limx→ag(x)= 0,

lim x→a f′(x) g′(x)が存在するとき、極限値 lim x→a f (x) g(x) が存在し、 lim x→a f (x) g(x) = limx→a f′(x) g′(x) が成り立つ。

(6)

4 第 1 章予備的公式 定理 1.2.2 （積分記号の下での微分）関数 F(t)= ∫h(t) g(t) f (x ; t) dt を考える。ここで、関数 f (x ; t)、g(t)、h(t) は微分可能であるとする。このとき、 dF(t) dt = ∫h(t) g(t) ∂ f (x ; t) ∂t dt+ f (h(t) ; t) dh(t) dt − f (g(t) ; t) dg(t) dt が成り立つ。

定理 1.2.3 （テーラー展開 (Taylor expansion)）関数 f (x) は、k 次導関数 f(k)_{(x) (0}_{≤ k ≤ n − 1) が有界区間 [a, b] で連続で、}

f(n−1)_{(x) は区間 (a}_{, b) で連続微分可能であるとする。このとき、} f (b)= n−1 ∑ k=0 f(k)_(a) k! (b− a) k_{+ R} n, Rn= f(n)_(c) n! (b− a) n を満たす c∈ (a, b) が存在する。

1.3 ガンマ関数、ベータ関数、スターリングの公式

定義 1.3.1 （ガンマ関数） x> 0 に対して、 Γ(x) =∫∞ 0 tx−1e−tdt によって定義される関数_{Γ(x) をガンマ関数（Γ function）という。} 定義 1.3.2 （ベータ関数） x> 0、y > 0 に対して、 B(x, y) = ∫1 0 tx−1(1− t)y−1dt によって定義される関数 B(x, y) をベータ関数（B function）という。 このとき、ガンマ関数とベータ関数について次のことが成り立つ。 (a) x> 0 のとき、 Γ(x + 1) = xΓ(x) (b) n が非負の整数のとき、 Γ(n + 1) = n! (c) n が非負の整数のとき、 Γ ( n+1 2 ) =(n−1 2 )( n−3 2 ) · · ·3 2· 1 2 √ 2 (d) x> 0、y > 0 のとき、 B(x, y) =Γ(x)Γ(y) Γ(x + y)

(7)

1.3 ガンマ関数、ベータ関数、スターリングの公式 5 (e) Γ (₁ 2 ) = √ 1 2 定理 1.3.1 （スターリングの公式 (Stirling’s formula)） x→ ∞ のとき、 Γ(x) ∼ √2πxx−1/2e−x がなりたつ。ここで、_{∼ は x → ∞ のとき両辺の比が 1 に収束することを示す。} よって、n が自然数のとき、 n!∼ √2πnn+1/2e−n (n→ ∞) がなりたつ。 Γ(1 2 ) = √π B ( 1 2, 1 2 ) = ∫1 0 x−1/2(1− x)−1/2dx = ∫1 0 1 √ x(1− x)dx =∫1 0 1 √ (1 2)2− (x − 1 2) 1 2 dx ここで、d dxSin −1_(x)₌ _√ 1 1− x2であるから、 =[Sin−1(x− 1 2 1 2 ) ]1 0= π ∴ B ( 1 2, 1 2 ) = π ∴ Γ ( 1 2 ) = √π

(8)

6

第

₂

章確率

2.1 確率

定義 2.1.1 （ボレル集合族） Ω を標本空間（sample space）とし、B を次の性質を満たす Ω の部分集合の集まりとする： (i) Ω ∈ B (ii) A∈ B ならば、Ac_{∈ B} (iii) A1, A2, · · · ∈ B に対して、∪∞i=1Ai∈ B このとき、_{B をボレル集合族（σ-field）とよぶ。また、B の成分を事象 (event) とよぶ。} 定義 2.1.2 （確率）確率 Pr{·} は B 上で定義された集合関数で次の性質を満たすものをいう： (i) すべての A∈ B に対して、Pr{A} ≥ 0 が成り立つ。 (ii) Pr{Ω} = 1。 (iii) B の互いに背反な事象 A1, A2, · · · に対して、 Pr {_∪∞ i=1 Ai } = ∞ ∑ i=1 Pr{Ai} が成り立つ。

このとき、Pr{·} を確率（probability）といい、(Ω, B, Pr{·}) を確率空間（probability space）とよぶ。

定義 2.1.3 （条件付き確率） A と B を確率空間 (Ω, B, Pr{·}) の集合族 B に含まれる事象とする。Pr{B} > 0 のとき、Pr{A|B}

によって示される、事象 B を与えたものでの事象 A の条件付き確率（conditional probaility）は

Pr{A|B} =Pr{A ∩ B}

Pr{B}

によって定義される。

定理 2.1.1 （全確率の定理 (Theorem of total probabilities)）確率空間 (Ω, B, Pr{·}) を考え、B1, B2, · · · , Bnを

(i) Ω = ∪n k=1Bk (ii) Pr{Bk} > 0 (k = 1, 2, · · · , n) を満たす互いに素な事象の集まりとする。このとき、すべての A∈ B に対して、 Pr{A} = n ∑ k=1 Pr{A|Bk} Pr{Bk} が成り立つ。

(9)

2.2 確率変数と分布関数 7 定理 2.1.2 （ベイズの定理 (Bayes’ formula)）確率空間 (Ω, B, Pr{·}) を考え、B1, B2, · · · , Bnを (i) Ω = ∪n_k₌₁Bk (ii) Pr{Bk} > 0 (k = 1, 2, · · · , n) を満たす互いに素な事象の集まりとする。このとき、Pr{A} > 0 となつ事象 A ∈ B に対して、 Pr{Bk|A} = Pr{A|Bk} Pr{Bk} ∑n j=1Pr{A|Bj} Pr{Bj} が成り立つ。

Pr{Bk} を事象 Bkの事前確率（prior probability）、Pr{Bk|A}を Bkの事後確率（posterior probability）という。

定義 2.1.4 （独立性） A と B をB の事象とする。このとき、事象 A と B が独立であるとは、 Pr{A ∩ B} = Pr{A} Pr{B} が成り立つことをいう。

2.2 確率変数と分布関数

定義 2.2.1 （確率変数）確率空間 (Ω, B, Pr{·}) に対して、X または X(·) によって表される確率変数は、定義域として Ω を、 値域として実数を持つ関数をいう。ここで、関数 X は、すべての実数 x∈ に対して集合 {ω : X(ω) ≤ x} が B に含まれ る（可測性）。 定義 2.2.2 （累積分布関数） 1 次元空間 1_{の値をとる確率変数 X が区間 (a, b] に入る確率を Pr{a < X ≤ b} または、} Pr{X ∈ (a, b]} という記号を用いて表す。実数 x に対して、確率 Pr{X ≤ x} を x の関数として考えるとき、F(x) を X の累積分

布関数（cumulative distribution function: cdf ）という。

累積分布関数の性質として次のことが成り立つ：

(a) F(−∞) = lim

x→−∞F(x)= 0, F(+∞) = limx→+∞F(x)= 1

(b) F(x) は単調増加関数である。つまり、F(x)≤ F(y) (x ≤ y)

(c) F(x) は右連続関数である。つまり、lim

x↓aF(a)= F(a)

【離散確率変数】

確率変数 X のとる値が有限個または可付番個の値 x1, x2, · · · のとき、X を離散確率変数（discrete random variable）といい、

それぞれの値をとる確率は Pr{X = xi} = fX(xi) に対応し、∑ i fX(xi)= 1 となり、総和 ∑ i は確率変数 X のとる値に渡るものとする。このとき、 F(x)= Pr{X ≤ x} = ∑ {xi:xi≤x} fX(xi)

(10)

8 第 2 章確率 が成り立つ。 fX(xi) を確率関数 (probability function) とよぶ。 【連続確率変数】 f (x)≥ 0、∫f (x) dx= 1 を満たす関数 f (x) により、 F(x)= Pr{X ≤ x} = ∫x −∞f (t) dt

と分布関数が表されるとき、X を連続型確率変数（continuous random variable）という。ここで、 f (x) を確率密度関数 (probability density function: pdf ) とよぶ。

A を Borel 集合とすると、X∈ A となる確率 Pr{X∈ A}は、離散と連続の場合に Pr{X∈ A}=∑ xi∈A pi, Pr{X∈ A}= ∫ A f (x) dx によって表される。一次元分布の代表的な確率関数、分布関数については、このpdf ファイルを参照。 定理 2.2.1 X は確率密度関数 f (x) をもつ連続確率変数とする。関数 g(x) により、X と Y が 1 対 1 に対応し、X= h(Y) とい う関数関係 h(·) に対して、確率変数 Y の確率密度関数は f{h(y)}|h′(y)| によって与えられる。

2.3 平均値とモーメント

定義 2.3.1 （期待値）確率変数 X が分布関数 F(x) に従うとき、 ∫ |x| dF(x) が存在するとき、X の期待値（expectation）を E[X]= ∫ x dF(x) によって定義する。ここで、上の積分は Stieltjes 積分を用いて定義されている。よって、 E[X]=      ∑ i xifX(xi) (X が離散確率変数の場合), ∫∞ −∞ x fX(x) dx (X が連続確率変数の場合) となる。

定義 2.3.2 （分散・標準偏差）確率変数 X の期待値を E[X]= µ とおき、E[(X−µ)2_{] が存在するとき、}_σ2_{= Var(X) = E[(X−µ)}2_]

(11)

2.3 平均値とモーメント 9

定義 2.3.3 （モーメント、平均回りのモーメント） mr = E[Xr] を原点回りの r 次モーメント (rth moment）とよび、µr =

E[(X− µ)r_{] を平均回りの r 次モーメント (rth central moment）という。}

定義 2.3.4 （歪度、尖度）平均回りの 3 次モーメントが存在するとき、 E[(X− µ)3_] σ3 を尖度（skewness）とよび、X の分布関数の歪みを表す。X の分布関数が正規分布の場合、平均、分散の値に関わらず、こ の値は 0 となる。平均回りの 4 次モーメントが存在するとき、 E[(X− µ)4_] σ4 を尖度（kurtosis）とよび、X の分布関数の尖りを表す。X の分布関数が正規分布の場合、平均、分散の値に関わらず、こ の値は 3 となる。 このとき、期待値 E[X]、原点回りのモーメント mr、平均回りのモーメントµrについて次のことがなりたつ。 (a) X が離散確率変数のとき、関数 g(x) に対して∑ i g(xi)fX(xi) が収束すれば、 E[g(X)]=∑ i g(xi) fX(xi) がなりたつ。 (b) X が連続確率変数のとき、関数 g(x) に対して ∫∞ −∞g(x)f (x) dx< ∞ ならば、 E[g(X)]= ∫∞ −∞ g(x) f (x) dx がなりたつ。 (c) a、b1、b2、· · · 、bkを実数、g1(x)、g2(x)、· · · 、gk(x) を k 個の関数とするとき、

E[a+ b1g(X)+ b2g(X)+ · · · + bkg(X)]= a + b1E[g1(X)]+ b2E[g2(X)]+ · · · + +bkE[gk(X)]

がなりたつ。ただし、E[a+ b1g(X)+ b2g(X)+ · · · + bkg(X)] が存在するものとする。これを期待値の線形性という。

(d) 定数 a、b に対して、Y= a + bX という確率変数を考えると、

E[Y]= a + bE[X], Var(Y) = b2Var[X], µr(Y)= brµr(X)

がなりたつ。代表的な分布関数の平均、分散、モーメントについては、前にあげたpdf ファイルを参照。 定義 2.3.5 （分位点）分布関数 F(x) の q 分位点（q-quantile）は F(ξ) ≥ q となる最小の ξ として定義される。つまり、 inf x { F(x)≥ q }

(12)

10 第 2 章確率 定義 2.3.6 （メジアン）分布関数 F(x) のメジアン（median）は F(ξ) ≥ 0.5 となる最小の ξ として定義される。よって、メジアンは 0.5 分位点に等しい。 定義 2.3.7 （積率母関数）確率変数 X は分布関数 F(x) に従うものとする。このとき、X の積率母関数（moment generating function）は、実数 t に対して、 E[etX]= ∫ etxdF(x) によって定義され、F(x) のラプラス変換（Laplace transformation）とよばれる。 よって、 E[etX_]₌      ∑ i etxi_fX_(x i) （X が離散確率変数の場合） ∫∞ −∞e tx_{f (x) dx （X が連続確率変数の場合）} が成り立つ。ただし、すべての実数 t に対して、常に積率母関数が存在するというわけでなく、複素数 i（i2_{= −1）を用いた特} 性関数（characteristic function） _∫ eitxdF(x) はすべての実数 t について存在するので、この特性関数がしばしば用いられる。これは、F(x) のフーリエ変換（Fourier transformation）ともよばれる。

2.4 不等式

定理 2.4.1 （シュワルツの不等式 (Schwart’s inequality)） X を有限な期待値を持つ非負確率変数とし、ε > 0 を任意の実数とする。このとき、 Pr { X ≥ ε } ≤ E[X] ε が成り立つ。 定理 2.4.2 （チェビシェフの不等式 (Qebywv’s inequality)） X を有限な期待値を持つ非負確率変数とし、ε > 0 を任意の実数とする。このとき、 Pr { X ≥ ε } ≤ E[X] ε が成り立つ。 定理 2.4.3 （チェビシェフの不等式） (Qebywv’s inequality) 確率変数 X の平均をµ、分散を σ2_とし、_{ε > 0 を任意の実数} とする。このとき、 Pr { |X − µ| ≥ εσ}≤ 1 ε2

(13)

2.5 収束 11

が成り立つ。

定義 2.4.1 （凸関数）関数 k(u) が上に凸であるとは、すべての u1, u2とα(0 ≤ α ≤ 1) に対して、

k(αu1+ (1 − α)u2)≤ αk(u1)+ (1 − α)k(u2)

が成り立つことを言う。 定理 2.4.4 （Minkowski の不等式） E[g2 1(X)] と E[g22(X)] が有限のとき、 √ E[ { g1(X)± g2(X) }2 ]≤ √ E[g2 1(X)]+ √ E[g2 2(X)] が成り立つ。

定理 2.4.5 （ジェンセンの不等式 (Jensen’s inequality)） k(x) を上に凸な関数とし、X を E[X] が存在するような確率変数と

する。このとき、 E[k(X)]≥ k(E[X]) が成り立つ。

2.5 収束

X1, X2, · · · を確率変数の列とし、X を確率変数とする。 定義 2.5.1 （概収束）確率変数 X に対して、 Pr { lim n→∞Xn= X } = 1

が成り立つとき、確率変数列_{X_n_}∞_n₌₁は X に概収束（almost sure convergence）するといい、

Xn−−→ Xa.s. と書く。 定義 2.5.2 （確率収束）任意のε > 0 に対して、 lim n→∞Pr{Xn− X > ε } = 0 が成り立つとき、確率変数列_{X_n_}∞_n₌₁は X に確率収束（convergence in probability）するといい、 Xn in P −−−→ X

(14)

12 第 2 章確率と書く。 定義 2.5.3 （分布収束） Fn(x) を確率変数 Xnに対する分布関数とし、F(x) を確率変数 X に対する分布関数とする。F(x) の 任意の連続点 x に対して、 lim n→∞Fn(x)= F(x) が成り立つとき、確率変数列_{X_n_}∞ n=1は X に分布収束（convergence in distribution）するといい、 Xn in d −−−→ X と書く。 定理 2.5.1 (i) Xn a.s. −−→ X =⇒ Xn in P −−−→ X (ii) Xn in P −−−→ X =⇒ Xn in d −−−→ X

2.6 多次元の確率分布

定義 2.6.1 （k 次元同時確率分布関数） k 次元確率変数 (X1, X2, · · · , Xk) に対して、 FX1,X2,··· ,Xk(x1, x2, · · · , xk)= Pr{X1≤ x1, X2≤ x2, · · · , Xk≤ xk}

を確率変数 (X1, X2, · · · , Xk) の同時確率分布関数（simultaneous probability distribution function）とよぶ。ここで、

x1, x2, · · · , xkは、k 個の実数である。 【(X1, X2, · · · , Xk) が離散確率変数の場合】 (X1, X2, · · · , Xk) のとる値がいずれも有限または可付番個の値であるとき、それぞれの値のとる確率は fX1,X2,··· ,Xk(x1, x2, , xk)= Pr{X1= x1, X2= x2, · · · , Xk= xk} となる。ここで、 _∑ i1,i2,··· ,ik fX1,X2,··· ,Xk(x1i1, x2i2, · · · , xkik)= 1 となり、総和 ∑ i1,i2,··· ,ik は、確率変数 (X1, X2, · · · , Xk) のとるすべての値に渡るものとする。また、同時分布関数は、 FX1,X2,··· ,Xk(x1, x2, · · · , xk)= Pr{X1≤ x1, X2≤ x2, · · · , Xk≤ xk} = ∑ i1,i2,··· ,ik fX1,X2,··· ,Xk(xi1, xi2, · · · , xik) となる。ここで、総和 ∑ i1,i2,··· ,ik は xi1≤ x1, xi2≤ x2, · · · , xik ≤ xkとなるすべての i1, i2, · · · , ikについてのものである。 【(X1, X2, · · · , Xk) が連続確率変数の場合】 f (x1, x2, · · · , xk)≥ 0、 ∫ · · ·∫f (x1, x2, · · · , xk) dx1· · · dxk= 1 を満たす関数 f (x1, x2, · · · , xk) により、同時分布関数は、 FX1,X2,··· ,Xk(x1, x2, · · · , xk)= ∫x1 −∞· · · ∫xk −∞f (t1, t2, · · · , tk) dt1· · · dtk

(15)

2.6 多次元の確率分布 13

と分布関数が表されることをいう。ここで、 f (x1, x2, · · · , xk) を確率密度関数 (probability density function: pdf ) とよぶ。

定義 2.6.2 （周辺分布）確率変数 X と Y は同一の確率空間 (Ω, B, Pr{·}) 上で定義され、同時確率分布関数 FX,Y(x, y) に従う

とする。このとき、

FX(x)= FX,Y(x, +∞), FY(x)= FX,Y(+∞, y)

を各々、X と Y の周辺確率分布（marginal probability distribution）という。

したがって、確率変数 X と Y が同時確率分布 FX,Y(x, y) に従い、 FX,Y(x, y) = ∑ {x1:x1≤x} ∑ {x2:x2≤x} fX,Y(x1, x2) と表せる離散確率変数であるとき、 FX(x)= FX,Y(x, +∞) =∑ y fX,Y(x, y) が成り立つ。ここで、∑ y は、確率変数 Y のすべての値についての総和である。また、∑ x を確率変数 X のすべての値について の総和とすると、 FY(y)= FX,Y(+∞, y) =∑ x fX,Y(x, y) が成り立つ。 確率変数 X と Y が連続確率変数で、同時確率分布 FX,Y(x, y) に従い、 FX,Y(x, y) = ∫ {s:s≤x} ∫ {t:t≤y}fX,Y(s, t) dt ds と表せるとき、 FX(x)= FX,Y(x, +∞) = ∫ y fX,Y(x, t) dt が成り立つ。ここで、 ∫ y は、確率変数 Y のすべての値についての積分である。 定義 2.6.3 （条件付き離散確率関数） X と Y を同時離散確率関数 fX,Y(x, y) に従う離散確率変数とする。Y = y を与えた下

での X の条件付き離散確率関数（conditional discrete probability function）は、

f_X_Y(xy)=    fX,Y(x, y) fY(y) ( fY(y), 0), 定義されない ( fY(y)= 0) によって定義される。

(16)

14 第 2 章確率

定義 2.6.4 （条件付き離散累積分布） X と Y を同時離散確率関数 fX,Y(x, y) に従う離散確率変数とする。Y = y を与えたも

のでの X の条件付き離散累積分布（conditional discrete cumulative distribution）は、

F_X_Y(xy)= Pr{X ≤ xY= y} = ∑

{xi:xi≤x}

f_X_Y(x, y)

によって定義される。ただし、Y の確率関数 fY(y) に対して、 fY(y)= 0 となる y に対しては定義されない。

定義 2.6.5 （条件付き連続確率関数） X と Y を同時連続確率関数 fX,Y(x, y) に従う連続確率変数とする。Y = y を与えたも

のでの X の条件付き連続確率関数（conditional continuous probability function）は、

f XY(xy)=    fX,Y(x, y) fY(y) ( fY(y), 0), 定義されない ( fY(y)= 0) によって定義される。 定義 2.6.6 （条件付き連続累積分布） X と Y を同時連続確率関数 fX,Y(x, y) に従う連続確率変数とする。Y = y を与えたも

のでの X の条件付き連続累積分布（conditional continuous cumulative distribution）は、

F_X_Y(xy)= Pr{X ≤ xY= y} =

∫

{t:t≤x}fXY(t, y) dt

によって定義される。ただし、Y の確率密度関数 fY(y) に対して、 fY(y)= 0 となる y に対しては定義されない。

2.7 独立性

【(X1, X2, · · · , Xk) が離散確率変数の場合】 (X1, X2, · · · , Xk) の周辺分布をそれぞれ Pr{X1= x1i1 } = p1i1, Pr { X2= x2i2 } = p2i2, · · · , Pr { Xk= xkik } = pkikとする。 定義 2.7.1 （互いに独立）すべての i1, · · · , ikについて、 pi1···ik= Pr { X1= x1i1, X2= x2i2, · · · , Xk= xkik } = Pr{X1= x1i1 } Pr{X2= x2i2 }_{· · · Pr}{ Xk= xkik }_{= p} 1i1p2i2· · · pkik が成り立つとき、X1, X2, · · · , Xkは互いに独立である（mutually independent）という。 【(X1, X2, · · · , Xk) が連続確率変数の場合】 (X1, X2, · · · , Xk) の周辺確率密度関数をそれぞれ、 f1(x1), f2(x2), · · · , fk(xk) とする。 定義 2.7.2 （密度関数の独立性）すべての (x1, x2, · · · , xk) について、 f (x1, x2, · · · , xk)= f1(x1) f2(x2)· · · fk(xk) が成り立つとき、X1, X2, · · · , Xkは互いに独立である（mutually independent）という。

(17)

2.8 平均値とモーメント 15

2.8 平均値とモーメント

【(X1, X2, · · · , Xk) が離散確率変数の場合】 関数 g(x1, x2, · · · , xk) に対して、 ∑ i1,i2,··· ,ik g(x1_i1, x2_i2, · · · , xk_ik)pi1···ik が存在するとき、関数 g(x1, x2, · · · , xk) の期待値を E[g(X1, X2, · · · , Xk)]= ∑ i1,i2,··· ,ik g(x1i1, x2i2, · · · , xkik)pi1···ik と定義する。 【(X1, X2, · · · , Xk) が連続確率変数の場合】 関数 g(x1, x2, · · · , xk) に対して、 ∫∞ −∞· · · ∫∞ −∞g(x1, x2, · · · , xk)f (x1, x2, · · · , xk) dx1· · · dxk が存在するとき、関数 g(x1, x2, · · · , xk) の期待値を E[g(X1, X2, · · · , Xk)]= ∫∞ −∞· · · ∫∞ −∞g(x1, x2, · · · , xk) f (x1, x2, · · · , xk) dx1· · · dxk と定義する。 定理 2.8.1 （期待値の線形性） a, b1, · · · , brを定数、g1(x1, x2, · · · , xk), g2(x1, x2, · · · , xk), · · · , gr(x1, x2, · · · , xk) を r 個の関数とする。このとき、 E[a+ b1g1(X1, X2, · · · , Xk)+ b2g2(X1, X2, · · · , Xk)+ · · · + brgr(X1, X2, · · · , Xk)]

= a + b1E[g1(X1, X2, · · · , Xk)]+ b2E[g2(X1, X2, · · · , Xk)]+ · · · + brE[gr(X1, X2, · · · , Xk)]

が成り立つ。 定義 2.8.1 （モーメント、分散、共分散、相関係数）確率変数 (X1, X2, · · · , Xk) に対して、原点回りのモーメントを αr1···rk= E[X r1 1X r2 2 · · · X rk k] によって定義する。特に、ri= 1、rj= 0 ( j , i) のとき、αr1···rkは Xiの期待値 E[Xi] に一致し、これを miで表す。また、平 均値回りのモーメントを µr1···rk= E[(X1− m1) r1_(X 2− m2)r2· · · (Xk− mk)rk] によって定義する。特に、ri= 2、rj= 0 ( j , i) のとき、µr1···rkは Xiの分散 Var(Xi) σ2 i = µ2(Xi)= E[(Xi− mi)2] となり、ri= rj= 1、rk= 0 (k , i, j) のとき、 σi j= µ11(Xi, Xj)= E[(Xi− mi)(Xj− mj)] とし、Xiと Xjの共分散という。i= j のときには、µ11(Xi, Xj) はσ2(Xi) を表すのもとする。また、0< σ2i < ∞, 0 < σ2j< ∞ のとき、 ρi j= ρ(Xi, Xj)= σi j √σiiσj j を Xiと Xjの共分散という。

(18)

16 第 2 章確率

定義 2.8.2 （分散共分散行列、相関行列） k× k 行列 Σ = (σi j) を (X1, X2, · · · , Xk) の分散共分散行列（variance-covarinace

matrix）といい、k× k 行列 (rhoi j) を相関係数行列（correlation coeﬃcient matrix）という。

定理 2.8.2 k 次元確率変数 (X1, X2, · · · , Xk) の分散がいずれも有限とし、a1, a2, · · · , akを定数とする。 (i) Var( k ∑ i=1 aiXi)= k ∑ i=1 k ∑ j=1 aiajCov(Xi, Xj) = k ∑ i=1 a2_iVar(Xi)+ 2 ∑ ∑ 1≤i< j≤n aiajCov(Xi, Xj) (ii) さらに、(X1, X2, · · · , Xk) が互いに独立であれば、 Var( k ∑ i=1 aiXi)= k ∑ i=1 a2 iVar(Xi)

2.9 特性関数

定義 2.9.1 （特性関数） k 次元確率変数 (X1, X2, · · · , Xk) に対して、t1, t2, · · · , tkの関数 φ(t1, t2, · · · , tk)= E[exp(i(t1X1+ t2X2+ · · · + tkXk))] を (X1, X2, · · · , Xk) の特性関数（characteristic function）という。 定理 2.9.1 (i) k 次元確率変数 (X1, X2, · · · , Xk) が互いに独立のとき、 φ(t1, t2, · · · , tk)= φ(t1)φ(t2)· · · φ(tk) が成り立つ。 (ii) k 次元確率変数 (X1, X2, · · · , Xk) の確率分布は特性関数により一意に決定させる。 定理 2.9.2 k 次元確率変数 (X1, X2, · · · , Xk) は同時密度関数 f (x1, x2, · · · , xk) を持つとする。k 個の関数 yi= gi(x1, x2, · · · , xk) によって、(x1, x2, · · · , xk) と (y1, y2, · · · , yk) が一対一に対応し、x1, x2, · · · , xkについて解いたものを xi= gi(y1, y2, · · · , yk)

(19)

2.9 特性関数 17 とする。さらに、 ∂xi ∂yi, (i = 1, 2, · · · , k) はいずれも連続で、 ∂(x1, x2, · · · , xk) ∂(y1, y2, · · · , yk) = ∂x1 ∂y1 ∂x1 ∂y2 · · · ∂x1 ∂yk ∂x2 ∂y1 ∂x2 ∂y2 · · · ∂x2 ∂yk ... ... ... ... ∂xk ∂y1 ∂xk ∂y2 · · · ∂xk ∂yk , 0 とする。このとき、確率変数 Y1, Y2, · · · , Ykを Yi= gi(X1, X2, · · · , Xk), (i = 1, 2, · · · , k) によって定義すれば、(Y1, Y2, · · · , Yk) の確率密度関数は、 f { h1(y1, y2, · · · , yk), h2(y1, y2, · · · , yk), · · · , hk(y1, y2, · · · , yk)} ∂(x1, x2, · · · , xk ) ∂(y1, y2, · · · , yk) によって与えられる。 定理 2.9.3 （たたみ込み（Convolution））確率変数 X と Y は独立で、それぞれ密度関数 f (x) と g(y) をもつとき、確率変数 Z= X + Y の密度関数 h(z) は h(z)= ∫∞ −∞f (z− y)g(y) dy = ∫∞ −∞g(z− x) f (y) dy によって与えられる。

(20)

18

第

₃

章基本的な分布

3.1 1

次元の基本分布

このpdf ファイルに載せられている 1 次元の基本的な分布について考える。 3.1.1 離散一様分布 コインの表裏やサイコロの出目などの N 通りの事象が同様に確からしい、同程度に確からしい（equally likely) 状況で発生す る確率を記述し、母数は N。 Pr{X= x}= 1 N, (x= 1, 2, · · · , N) 期待値分散モーメント積率母関数 N+ 1 2 N2_{− 1} 12 µ ′ 3= N(N+ 1)2 4 N ∑ j=1 1 Ne jt µ′ 4= (N+ 1)(2N + 1)(3N2_{+ 3N − 1)} 30 ここで、_µ′_r_{= E[X}r_{] は原点回りの r 次モーメント、}_µ r= E[X − µr] は平均値回りの r 次モーメントを表す。 ベルヌーイ分布 1 回の試行において、成功または失敗の 2 種類の状況の片方が必ず起こり、成功の確率が p（失敗確率 q= 1 − p）で与えら れ、母数は p となる。 Pr{X= 0}= p, Pr{X= 1}= 1 − p ≡ q 期待値分散モーメント積率母関数 p pq µ′_r= p q+ pet • 独立なベルヌーイ試行を n 回繰り返したとき、成功回数の和は次の二項分布 B(n, p) に従う。 二項分布 成功か失敗かのいずれかが発生するベルヌーイ試行を n 回繰り返したときの成功回数を表し、母数は試行回数 n と成功確率 p となる。確率変数 X が母数 (n, p) の二項分布に従うとき、 X∼ Bi(n, p) と書く。 Pr{X= k}= ( n k ) pk(1− p)n−k (k= 0, 1, · · · , n) 期待値分散モーメント積率母関数 np npq µ3= npq(q − p) (q+ pet) µ4= 3n2p2q2+ npq(1 − 6pq) • 二つの独立な確率変数 X と Y X∼ Bi(n1, p), Y ∼ Bi(n2, p) に対して、その和について X+ Y ∼ Bi(n1+ n2, p) が成り立つ。

(21)

3.1 1 次元の基本分布 19 • X ∼ Bi(n, p) のとき、n → ∞ に対して、 X− np √_npq −−−→ N(0, 1in d 2₎ が成り立つ。ここで、_{−−−→ は}in d 12ページの分布収束を意味し、N(0, 12_{) は平均ゼロ、分散 1}2_{の正規分布を表す。} • X ∼ Bi(n, p) のとき、np = λ として、λ を一定として n → ∞ とすると、 X−−−→ Po(λ)in d が成り立つ。ここで、Po(λ) は母数 λ のポアソン分布を表す。 超幾何分布 2 種類の状態（K 個の成功と M− K 個の失敗）からなる成分を持つ M 個の要素よりなる集まりから n 個の要素を非復元抽出 したときに x 個の成功が含まれている確率。 Pr{X= k}= (_K x )(_M_−K n−x ) (_M n ) (x= 0, 1, 2, · · · , n) 期待値分散モーメント積率母関数 nK M n K M M− K N M− n M− 1 E[X(X− 1) · · · (X − r + 1)] 有効でない = r! (_K r )(_n r ) (_M r ) • 二項分布は超幾何分布の定義における「非復元抽出」を「復元抽出」に置き換えたものになる。 Poisson分布 2 種類の状態（K 個の成功と M− K 個の失敗）からなる成分を持つ M 個の要素よりなる集まりから n 個の要素を非復元抽出 したときに x 個の成功が含まれている確率。 Pr{X= k}= (_K x )(_M_−K n−x ) (_M n ) (x= 0, 1, 2, · · · , n) 期待値分散モーメント積率母関数 nK M n K M M− K N M− n M− 1 E[X(X− 1) · · · (X − r + 1)] 有効でない = r! (_K r )(_n r ) (_M r ) •

(22)

20

一般・統計用語索引

か概収束 . . . .11 確率 . . . .6 確率関数 . . . .8 確率空間 . . . .6 確率収束 . . . .12 確率変数 . . . .7 確率密度関数 . . . .8 ガンマ関数 . . . .4 き期待値 . . . .8 期待値の線形性 . . . .9,15 共分散 . . . .16 け 原点回りの r 次モーメント . . . .9,15 しジェンセンの不等式 . . . .11 事後確率 . . . .7 事象 . . . .6 事前確率 . . . .7 自然対数の底 . . . .3 周辺確率分布 . . . .13 シュワルツの不等式 . . . .10 条件付き確率 . . . .6 条件付き離散確率関数 . . . .13 条件付き連続確率関数 . . . .14 条件付きるいせき確率関数 . . . .13,14 すスターリングの公式 . . . .5 せ正規分布 . . . .9,19 積率母関数 . . . .10 全確率の定理 . . . .6 尖度 . . . .9 そ相関係数 . . . .16 相関係数行列 . . . .16 た多項定理 . . . .2 たたみ込み . . . .17 ちチェビシェフ (Qebywv) の不等式. . . .10 超幾何分布 . . . .19 てテーラー展開 . . . .4 と同時確率分布 . . . .12 同様に確からしい . . . .18 特性関数 . . . .10,16 独立性 . . . .7,14 凸関数 . . . .11 に二項定理 . . . .2 二項分布 . . . .18 期待値 . . . .18 原点回りの r 次モーメント . . . .18 分散 . . . .18 ねネイピア数 . . . .3 はパスカルの三角形 . . . .1 ひ標準偏差 . . . .8 標本空間 . . . .6 ふフーリエ変換 . . . .10 分位点 . . . .9 分散 . . . .8,16 分散共分散行列 . . . .16 分布収束 . . . .12,19 へ 平均値回りの r 次モーメント . . . .9,15 ベイズの定理 . . . .7 ベータ関数 . . . .4 ベルヌーイ分布 . . . .18 期待値 . . . .18 原点回りの r 次モーメント . . . .18 分散 . . . .18 ほ Poisson 分布 . . . .19 ポアソン分布 . . . .19 ボレル集合族 . . . .6 みミンコフスキーの不等式 . . . .11 めメジアン . . . .10 もモーメント 原点回りの r 次— . . . .9,15 平均値回りの r 次— . . . .9,15 らラプラス変換 . . . .10 り離散一様分布 . . . .18 期待値 . . . .18 原点回りの r 次モーメント . . . .18 分散 . . . .18 平均値回りの r 次モーメント . . . .18 離散確率変数 . . . .7 る累積分布関数 . . . .7 れ連続型確率変数 . . . .8 ろロピタルの定理 . . . .3 わ歪度 . . . .9

(23)

21

英語索引

A

almost sure convergence . . . .11

B Bayes’ formula . . . .7 Bernoulli distribution . . . .18 Beta function . . . .4 binomial distribution . . . .18 Binomial Theorem . . . .2 C characteristic function . . . .10,16 Qebywv’s inequality . . . .10

conditional continuous cumulative distribution . . . .14

conditional continuous probability function . . . .14

conditional discrete cumulative distribution . . . .13

conditional discrete probability function . . . .13

conditional probability . . . .6

continuous random variable . . . .8

convergence in distribution . . . .12,19 convergence in probability . . . .12

convex function . . . .11

convolution . . . .17

correlation coeﬃcient . . . .16

correlation coeﬃcient matrix. . . .16

covariance . . . .16

cumulative distribution function . . . .7

D discrete random variable . . . .7

discrete uniform distribution . . . .18

E equally likely . . . .18 event . . . .6 expectation . . . .8 F Fourier transformation . . . .10 G Gamma function . . . .4 H hypergeometric distribution . . . .19 I independence . . . .7 J Jensen’s inequality . . . .11 K kurtosis . . . .9 L Laplace transformation . . . .10 l’Hospital’s rule . . . .3 M marginal probability distribution . . . .13

median . . . .10

Minkowski’s inequality . . . .11

moment rth central — . . . .9,15 rth — . . . .9,15 moment generating function . . . .10

Multinomial Theorem . . . .2 mutually independence . . . .14 N Napier’s constant . . . .3 normal distribution . . . .9,19 P Pascal’s triangle . . . .1 Poisson distribution . . . .19 posterior probability . . . .7 prior probability . . . .7

probability density function . . . .8

probability function . . . .8 probability space . . . .6 probability . . . .6 Q quantile . . . .9 R random variable . . . .7 rth central moment . . . .9,15 rth moment . . . .9,15 S sample space . . . .6 Schwart’s inequality . . . .10 σ-field . . . .6

simultaneous probability distribution function . . . .12

skewness . . . .9

standard deviation . . . .8

Stirling’s formula . . . .5

T Taylor expansion . . . .4

Theorem of total probabilities . . . .6

V variance . . . .8,16 variance-covarinace matrix . . . .16

確率論と統計学の資料