期待値（平均）と分散 - 数理統計学Iノート

40 4 確率変数・確率分布と期待値・分散

いう．

誰でも知っているであろうあの平均値のことだが，確率変数に対しては期待値と言い，実際の観測データに対しては平均と言うことが多い印象がある．誰でも知っているというのは誤解が多いということでもあり，特に多いのは「平均値= 最頻値」という誤解だろう．一般に平均値̸=最頻値であることは図 3を見ればわかる．もちろん，二項分布や正規分布のような山型のきれいな分布に対しては優れた指標だし最初に勉強するときは正規分布のイメージで考えておけばよいのだが，そうでないこともあるということ．

正規分布N(µ, σ²) E[X] =µ, V[X] =σ²

x p(x)

µ σ小

σ中 σ大

1 2 3 4 5 6 7 8 9 10 11 12 13 k

p(k) Poisson分布Poi(λ)

E[X] =V[X] =λ λ= 3

λ= 7

指数分布Exp(λ) E[X] = 1/λ, V[X] = 1/λ²

0 x

p(x)

1/λ Exp(λ)

1/λ^′

Exp(λ^′) (λ^′< λ)

逆正弦分布

p(x) = 1 π√

a²−x²

E[X] = 0, V[X] =a2/2

x p(x)

−a 0 a

図3:様々な密度関数・質量関数の形状: 正規分布では期待値・最頻値・中央値が全て一致する．Poisson 分布でも期待値・最頻値・中央値はほぼ一致する．指数分布では常に中央値<期待値であり分布は期待値より小さい側に偏っている．逆正弦分布には最頻値は存在しないが，期待値=中央値である．

確率を質量と対応させて考えれば期待値=重心である．というのも，x軸を針金かなにかに見立てて各点の密度がp(x)だとすれば，この針金の重心は

∫ _∞

−∞

xp(x)dx

∫ _∞

∞

p(x)dx

だが，確率は全体で

∫ _∞

−∞

p(x)dx= 1となるように（単位か何かを）決められた質量と等価なので，上式で分母を1にすれば連続型の期待値の定義式と一致する．離散型の場合についても，質点系の重心を考えれば同様である．

注 4.12(期待値を定義するための前提条件). 実は定義4.11には条件が足りていない．数学的には，連続型の場合は

∫ _∞

−∞|x|p(x)dx <+∞を満たすとき，離散型の場合は

∑∞ k=0

|xk|p(k)<+∞ を満たすときに限り期待値を定義する．

この条件は可積分条件と呼ばれるのだが，可積分条件を満たさない確率変数に対して期待値を考えると直感に反する結果を招くことになるのであらかじめ除外しているとでも思っておけばよい

4.4 ^{期待値（平均）と分散} 41

（例4.26,例4.27参照）．

期待値や分散が定義されない確率変数もあるということを知っておこう．

補足4.13(測度論を用いた期待値の定義). 期待値の定義を連続型と離散型と別々に書かねばならないのは煩雑である．実は，確率論が基礎にしている測度論（ルベーグ積分論などともいう）の言葉を使えば密度関数や質量関数を介す必要がなくなり，連続か離散かなど関係なく期待値は同じ式

E[X] =

∫

Ω

X(ω)P(dω) (4.2)

で定義できる．（とても乱暴に言うと，X(ω) =x, P(dω) =p(x)dx という置換積分ができる．）

さらに，例えば後述するE[X+Y] =E[X] +E[Y]は定義から自明になるなど基礎的な話がすっきりするし，そもそも測度論抜きでは定義しにくい概念や性質，証明もある．だから基礎的な部分は測度論の言葉で書いてしまいたいのが，一般的な（数学科対象でもない）統計の講義で測度論の知識を仮定するわけにもいかず，色々な本で勉強するであろう学生の利便性（過去とのしがらみとも言う）なども考えると，密度と質量で分けて書くのが妥当なのだろう．

X が確率変数ならば2X やX²，一般に関数f(x)との合成も確率変数だがその期待値は E[f(X)] =

∫ _∞

−∞

f(x)p(x)dx or

∑∞ k=0

f(xk)p(k) で与えられる．

期待値に関する計算を行う上で，次の性質（線型性という）は基本的である．

定理 4.14(期待値の線型性).

(1) 確率変数 X と関数f(x), g(x)に対して E[f(X) +g(X)] =E[f(X)] +E[g(X)]. 特に，

定数a, bに対してE[aX+b] =aE[X] +b. （定数 bの期待値はE[b] =b.） (2) 二つの確率変数X, Y に対してE[X+Y] =E[X] +E[Y].

以下に証明らしきものを書いておくが，解釈の方が大事だろう．(1)は，試験の平均点が40点と低かっ たので一律20点下駄を履かせれば平均60点になるという当たり前のこと，(2)も，数学の平均点が 70点で英語の平均点が80点なら合計点の平均は150点，という当たり前のことを言っている．しか し，感覚的には当たり前であるにも関わらず，(2)を補足 4.13なしで証明するには少々準備が必要になってしまう^*19のが測度論なしでやるときに嫌なところである．

証明. (1)こちらは何も考えなくてよい．

E[f(X) +g(X)] =

∫ _∞

−∞

(f(x) +g(x))p(x)dx

∫ _∞

−∞

f(x)p(x)dx+

∫ _∞

−∞

g(x)p(x)dx=E[f(X)] +E[g(X)]

(2)ここでは式(4.2)を期待値の定義として認めてしまう．そうすれば E[X+Y] =

∫

Ω

(X(ω) +Y(ω))P(dω)

∫

Ω

X(ω)P(dω) +

∫

Ω

Y(ω)P(dω) =E[X] +E[Y] \(^o^)/

続いて分散である．

*19このためだけに同時分布を導入するのは馬鹿らしい．

42 4 確率変数・確率分布と期待値・分散

定義4.15(分散と標準偏差). V[X] =E[(X−E[X])²]と定め，X の分散(variance)という．

また， √

V[X]を標準偏差 (standard deviation) という．

期待値，分散，標準偏差は頻繁に使うので簡便に一文字で表したい．その際には，標準偏差にはσかs を使い，分散はσ² かv とし，期待値はµかmを使うことが多い．

このノートでは原則としてµ=E[X], σ=√

V[X], σ²=V[X] とする．

V[X] =E[(X−E[X])²]という定義では意味がわからないかもしれないが，密度関数（質量関数）

を用いて書けば

V[X] =

∫ _∞

−∞

(x−µ)²p(x)dx or

∑∞ k=0

(xk−µ)²p(k)

である．この式を見れば，確率と質量の対応で期待値=重心だったのと同様に分散=慣性モーメント であることがわかる．物理を知らない人向けに簡単に言えば，質量が一点集中せずどれくらい広範にばらけているかを表すのが慣性モーメントであり，分散は確率変数がどれくらい幅広い値をとるかの指 標になっている（図3の正規分布のグラフや定理4.17も参照せよ）．そういうことを直感的に理解するためには密度関数を用いた式が適しているが，V[X] =E[(X−E[X])²]の方が普遍性は高く計算が明快になることも多いので，期待値の性質とセットにして早めに慣れよう．例えば，分散の計算などでよく用いられる性質に（µ=E[X]とおくと）

V[X] =E[(X−µ)²] =E[X²−2µX+µ²]

=E[X²]−2µE[X] +µ² （←期待値の線型性より）

=E[X²]−µ²

があるが，これを密度関数（質量関数）を用いた形で（場合分けもして）書くのは面倒以外の何物でもない．上式も含め，分散の性質として最低限，以下のものは押さえておくべきである．

定理 4.16(分散の性質).

(1) V[X] =E[X²]−(E[X])². （上で示した．）

(2) 定数a, bに対してV[aX+b] =a²V[X]. （期待値の性質E[aX+b] =aE[X] +bとの違いに注意．）

(3) V[X]≥0であり，V[X] = 0はX が定数のときにのみ成り立つ．（これは厳密な表現ではない．詳細は証明参照．）

(4) X, Y が独立ならばV[X±Y] =V[X] +V[Y]. （左辺の ± ^{に依らず右辺は} +なので要 注意！定理5.4参照．）

証明の前に(3)について一言．試験で分散の値を計算せよという問題を出すと V[X]<0 となってい る答案が散見されるが，これは定義も意味も何も解っていないと大声で宣言するようなもので書かな い方がまし（書いてあったらむしろ余計に減点したいくらい）である．V[X]<0 はそもそも有り得

ない．V[X] = 0 は確率変数とは言うものの実質定数という特殊な場合であり，ほとんどの場合には

V[X]>0 である．

証明. (4)は次節の定理5.4で解説するのでここでは省略．(1)は既に済んでいる．(2)は期待値の性質 E[aX+b] =aE[X] +bなどから

V[aX+b] =E[(aX+b−E[aX+b])²] =E[(aX+b−(aE[X] +b))²] =E[a²(X−E[X])²]

=a²E[(X−E[X])²] =a²V[X].

4.4 ^{期待値（平均）と分散} 43

(3)を補足4.13の内容抜きにきちんと証明するのは少し面倒なので，離散型の場合に限定して雰囲気を示すことにする．（前半）質量関数を用いて書くとV[X] =

∑∞ k=0

(xk−µ)²p(k)だが，足される項は (xk−µ)² ≥0 とp(k)≥0 の積で非負なので足し合わせても V[X]≥0. （後半）非負の数を足して V[X] =

∑∞ k=0

(xk−µ)²p(k) = 0となるには，xk ̸=µとなる全てのk についてp(k) = 0でなければならない．これは質量関数の定義に戻って考えるとP(X̸=µ) = ∑

x_k̸=µ

p(k) = 0を意味するので X がµ 以外の値をとる確率は0. この意味において，X は実質定数である． \(^o^)/

分散の性質については次の定理も基本的である．

定理 4.17 (チェビシェフ (Chebyshev) の不等式 (Chebyshev’s inequality)). µ =E[X], σ =

√V[X]とする．任意の実数α >0 に対してP(|X−µ| ≥ασ)≤ 1

α² が成り立つ．（実際に意味があるのは α >1 の場合のみである．）

これも（証明が大事でないと言う気は全くないが）証明よりこれで何が言えるかがより大事だろう．

チェビシェフの不等式でα=√

2 とすれば，確率変数 X が区間 I= [µ−√

2σ, µ+√

2σ] から外れた 値をとる確率は50%以下，逆に言えば5割方は I の範囲内の値をとる．同様に α= 3 とすればほぼ 9割方は [µ−3σ, µ+ 3σ] の範囲の値をとることがわかる．

このような事実もあり，標準偏差・分散は確率変数の値がどの程度ばらつくかを表す指標の一つとされるし，µ±σ や µ±3σは確率変数がとる値の範囲の目安としてよく用いられる．なお，チェビシェ フの不等式は密度関数などがわからなくても任意の確率変数に対して成り立つが，それゆえに精度は最悪に近い見積りであり，具体的な分布がわかれば遥かによい見積りが可能である^*20．

証明. ここでは連続型の場合のみ書くが離散型の場合も同様（和をとる範囲を場合分けするだけ）である．

σ²=

∫ _∞

−∞

(x−µ)²p(x)dx

∫

|x−µ|≥ασ

(x−µ)²p(x)dx+

∫

|x−µ|<ασ

(x−µ)²p(x)dx

（第2項は非負なので取り除いた方が小さい）

≥

∫

|x−µ|≥ασ

(x−µ)²p(x)dx （この積分範囲では(x−µ)²≥(ασ)²）

≥

∫

|x−µ|≥ασ

(ασ)²p(x)dx

=α²σ²

∫

|x−µ|≥ασ

p(x)dx=α²σ²P[|X−µ| ≥ασ].

両辺をα²σ² で割れば結論を得る． \(^o^)/

いくつか例題を挙げておく．問題4.18と問題 4.19の二つの結果は今後至る所で使うので特に重要で ある．それ以外の問題も基本的なものばかりなので全て目を通すことが望ましい．

問題 4.18 (標準化). 確率変数X の期待値と標準偏差を µ =E[X], σ =√

V[X] とするとき，

Z =X−µ

σ という確率変数を考えるとE[Z] = 0, V[Z] = 1が成り立つことを示せ．（X からZ を考える（変換する）ことを標準化 (standardization)という．変数の単位やスケールを揃えて議論するために必須．）

*20例えば正規分布に従う場合，[µ−3σ, µ+ 3σ]の範囲の値をとる確率は99.7%を越える．

44 4 確率変数・確率分布と期待値・分散

【解説】 E[Z] =E

[X−µ σ

]

= 1

σE[X−µ] = 1

σ(E[X]−µ) = 0.

V[Z] =V

[X−µ σ

]

= (1

σ )2

V[X] = (1

σ )2

×σ²= 1. \(^o^)/

問題 4.19(ベルヌーイ(Bernoulli)分布). 0≤θ≤1 を定数とする．0, 1の二値のみをとる確率変数X の質量関数が

P(X = 1) =θ, P(X= 0) = 1−θ

で与えられるとき，Xはベルヌーイ分布(Bernoulli distribution)に従うという．E[X], V[X]

を求めよ．（表が出る確率 θ のコインを1回投げるときの表裏，支持率 θ の世論調査においてある回答者の支持・不支持など，色々な現象がこの確率変数を用いて表される．非常に基礎的かつ重要．）

【解説】期待値: E[X] = 1×θ+ 0×(1−θ) =θ.

分散: E[X²] = 1²×θ+0²×(1−θ) =θなのでV[X] =E[X²]−(E[X])²=θ(1−θ). \(^o^)/

計算して終わりではなく，結果からわかる次の性質も大事なので押さえておきたい．θ = 0 (θ = 1) のとき，絶対に裏（表）しか出ないコインを投げても結果は揺らぎようがないので V[X] = 0となる．一方，V[X] が最大になるのは表裏が完全に五分五分で出るθ= 1/2 のときである．

例 4.20(基本中の基本). サイコロを1回投げて出る目をX とすると，これは離散型の確率変数で質量関数p(k) =P(X =k)と分布関数F(k) =P(X ≤k)は次のようになる．

k 1 2 3 4 5 6

p(k) ¹₆ ¹₆ ¹₆ ¹₆ ¹₆ ¹₆ F(k) ¹₆ ²₆ ³₆ ⁴₆ ⁵₆ 1 期待値は

E[X] = 1×1

6 + 2×1

6 + 3×1

6 + 4×1

6 + 5×1

6 + 6×1 6 =7

2 分散は

E[X²] = 1²×1

6 + 2²×1

6 + 3²×1

6+ 4²×1

6+ 5²×1

6 + 6²×1 6 =91

6 よりV[X] =E[X²]−(E[X])²=35

12.

問題 4.21. 例4.2の確率変数は全て離散型である． X の確率質量関数と，各確率変数の期待値

を求めよ．

【解説】 (1)のX は上の例と同じ．従って E[X] = 7

2, E[Y] = E[2X] = 2E[X] = 7, E[Z] = E[X²] = 91

6 .

(2)例 4.4で一部は求めていて，pX(k) =P(X =k) = 1

6 ^で(1)と一致し，pY(k) = pX(k) で X と Y の密度関数も一致している．従って E[X] = E[Y] = 7

2, E[Z] = E[X +Y] = E[X] +E[Y] = 7.

4.4 ^{期待値（平均）と分散} 45

(3) これも例 4.4で一部は求めていて p_Y(1) = P(Y = 1) = 1

2, p_Y(0) = 1

2 ^なので E[Y] = 1×1

2 + 0×1 2 = 1

2. 明らかに p_X(k) = p_Y(k) = p_Z(k) なので E[X] = E[Z] = 1

2, E[T] = E[X+Y +Z] = 3

2. \(^o^)/

問題4.22. 確率変数 X の期待値と分散をµ=E[X], v=V[X]とするとき，次の値をµ, v を用いて表せ．

(1)E[2X] (2)E[3X+ 4] (3)E[X²] (4)E[X²+ 2X+ 3] (5)V[4X] (6)V[X+ 2] (7)V[3X−4] (8)E[X²+ 3X]

【解説】（定数aを確率変数と考えたとき期待値はE[a] =aである．）

(1)E[2X] = 2E[X] = 2µ (2)E[3X+ 4] = 3E[X] +E[4] = 3µ+ 4 (3)E[X²] =v+µ² (4)E[X²+ 2X+ 3] =E[X²] + 2E[X] +E[3] =v+µ²+ 2µ+ 3 =µ²+ 2µ+v+ 3

(5) V[4X] = 4²V[X] = 16v (6) V[X + 2] = V[X] = v (7) V[3X + 4] = V[3X] = 3²V[X] = 9v

(8)E[X²+ 3X] =E[X²] + 3E[X] =µ²+ 4µ+v \(^o^)/

例 4.23. a < b は定数とする．確率変数X の密度関数が

p(x) = {

c (a≤x≤b) 0 (その他) のとき次を求めよ． (1)定数cの値 (2)E[X], V[X]

【解説】 (1)

∫ b a

c dx=c(b−a) = 1なのでc= 1

b−a. (2) 期待値はµ=E[X] =c

∫ b a

x dx= 1

b−a b²−a²

2 = a+b

2 . 分散は E[X²] = c

∫ b a

x²dx = 1 b−a

b³−a³

3 = a²+ab+b²

3 ^なので

V[X] =E[X²]−µ²=a²+ab+b²

3 −(a+b)²

4 = (b−a)²

12 . \(^o^)/

ここで求めた密度関数

p(x) =



 1

b−a (a≤x≤b)

0 (その他)

で定まる分布を[a, b] 上の一様分布 (uniform distribution)という．均等なコインやサイコロの連続変数版である．a, bの差が広がるほど分散が大きくなることがわかる．

例 4.24. 確率変数 X の密度関数が

p(x) = {

cx(1−x) (0≤x≤1)

0 (その他)

のとき次を求めよ．（この例はベータ分布と呼ばれる分布の一例になっている．）

(1)定数cの値 (2)P[0≤X ≤1/2] (3)E[X], V[X] (4)F(x)

【解説】 (1)

∫ 2 0

cx(1−x)dx= 1を解けば c= 6.

(2)P[0≤X ≤1/2] =

∫ 1/2 0

6x(1−x)dx= 1 2

46 4 確率変数・確率分布と期待値・分散

(3)µ=E[X] =

∫ 1 0

x·6x(1−x)dx= 1

2,V[X] =E[X²]−µ²=

∫ 2 0

x²·6x(1−x)dx−1 = 1 20 (4)F(x) =P[X≤x] =

∫ x

−∞

p(t)dt だから

F(x) =







0 (x <0) 3x²−2x³ (0≤x≤1) 1 (1< x)

\(^o^)/

問題 4.25. σ > 0 と µ は定数とする．確率変数 X の確率密度関数が p^X(x) =

√ 1

2πσ²exp (

−(x−µ)² 2σ²

)

のとき， Y =e^X の確率密度関数を求めよ．

【解説】こういう問題は定義が理解できているかどうかが試される．Y の分布関数は F^Y(y) =P[Y ≤y] =P[e^X ≤y] =P[X ≤logy] =

∫ logy

−∞

p^X(x)dx だから，これを微分すれば密度関数は

p^Y(y) = d

dyF^Y(y) =p^X(logy)· d dy(logy)

= 1

√2πσ²yexp

((logy−µ)² 2σ²

)

\(^o^)/

仮定はX ∼N(µ, σ)ということなので，Y はlogY が正規分布に従う確率変数であり，Y の分布を対数正規分布 (log normal distribution) という．

注 4.12で少し触れたように，期待値はいつも存在するわけではなく発散することもある．そのような場合には直感が通用しなくなるので注意が必要．次の二つの例が有名である．

例4.26(サンクトペテルブルクの賭け (St. Petersburg paradox)). コインを何度も投げていきk 回目に初めて表が出ると賞金2^k 円を貰えるゲームがある．賞金の期待値を求めよ．ゲームに参加費が必要だとして，いくらまでなら参加費を出す価値がある（儲かる）か？

【解説】暗黙の了解として，表裏の確率は 1

2 ^{で各回は独立とする．}k回目に初めて表が出る確率をp(k)とするとp(k) =

(1 2

で，そのとき賞金2^k 円貰えるのだから期待値は

∑∞ k=1

kp(k) = 2×1

2 + 2²× 1

2² +· · ·+ 2^k× 1

2^k +· · ·= 1 + 1 +· · ·=∞.

で発散する． \(^o^)/

だからといって参加費をいくらつぎ込んででも参加すべき……とは思わないだろう．

この例は単純なので何かおかしいと直感で気付ける人もいるかもしれないが，似たようなことがもう少し複雑な形で表われたときにも気付けるだろうか？

ドキュメント内数理統計学Iノート (ページ 39-48)