2
平均値と分散
2.1
平均値/期待値
2.1.1 有限データの場合
定義 2.1.1 有限データXに含まれる数値の総和をデータのサイズで割った値を、
そのデータの平均値(mean value)と言い記号E[X]で表します。
数の羅列 10,10,8,7,10,8,8,6,10,9,8,9 度数分布表
得点 10 9 8 7 6 度数 4 2 4 1 1
相対度数分布表 得点 10 9 8 7 6 相対度数 4
12 2 12
4 12
1 12
1 12
データのサイズ:12 例えばこの例では、まず数値の羅列状態から計算すると
(平均値)=10 + 10 + 8 + 7 + 10 + 8 + 8 + 6 + 10 + 9 + 8 + 9
12 =103
12 = 8.58333. . . ですが、10は4個あり、9は2個あるわけですから、度数を使ってまとめると
(平均値)=10·4 + 9·2 + 8·4 + 7·1 + 6·1 12
となります。また、更に変形して分母のデータサイズ(12)を度数に合わせてしまって
(平均値)= 10× 4
12+ 9× 2
12+ 8× 4
12+ 7× 1
12+ 6× 1 12 と計算しても良く、ここに現れる分数 (度数)
(データサイズ)は相対度数ですから
(平均値)=X
(数値)×(相対度数)
と云う風になっている事が分かります。
またこのデータの中から1つ数値を取り出した結果と云う確率変数と考えれば、相対 度数はその数値の出る確率に等しいので
(平均値)=X
(数値)×(確率)
と書けます。
2.1.2 データに含まれる数値の種類が高々可算個の場合
定義2.1.2 可算無限種類の数値からなるデータXに対して、各数値にその数値の
相対度数を掛けた値の総和が有限値として存在する場合、その総和を平均値と言い 記号E[X]で表します。
サイコロを振って初めて5が出るまでの振る回数をXと置けば、Xの確率分布表は n 1 2 3 . . . n . . .
P[X =n] 16 5616 °5
6
¢2 1
6 · · · °5
6
¢n−1 1 6 · · · となりますから、平均値は
1 6
( 1 + 2
µ5 6
∂ + 3
µ5 6
∂2
+· · · )
= 6 =E[X] です。1回振るごとに5が『1
6 回出ている』と考えれば、確かに6回振ってようやく
『1回出た』事になるわけですね。
この様に、データを数値の集まりとしてよりもくじ引きの結果として考える空気が濃 厚な場合は確率計算によってその確率変数が『どの程度の値をとると期待されるか』を 求めていると考えられます。そこで確率変数に対しては平均値と言う代わりに『期待値
(expected value)』と呼ぶ事もあります。
別の例で見てみましょう。前回見た漸化式によって定まるデータY では:
数 2 4 8 16 32 · · · 2n · · · 相対度数 1
2 1 4
1 8
1 16
1
32 · · · 21n · · ·
(数値と相対度数の積の総和)= 2·1 2 + 4·1
4+· · ·= +1
となって+1に発散していますから平均値は存在しません(平均値は+1であるとす る流儀もあります)。
また、負の数もとり得るようなデータでは、数値と相対度数の積の総和が負の項を含 む無限級数になります。一般に負の項を含む級数は『足す順番を換えると総和が変わっ てしまう』など扱いが難しく、平均値は(±1を許容しても)存在しない事もあります ので注意が必要です。だから上の定義で『有限値として存在』と書いたところは、『絶 対収束』の方が良いかも知れません。
Revised at 20:32, October 3, 2014 統計学 第2回 http://my.reset.jp/˜gok/math/statistics/ 2
2.1.3 密度関数をもつ場合
密度がf(x)である様なデータ/確率変数Xが与えられたとき、平均値(期待値)と は何であり、どうやって計算されるでしょうか。
今までの話を振り返れば平均値とは数値とその相対度数の積の総和のことでした:
(平均値)= X
全部足す
(数値)×(相対度数).
しかし今考えているような非可算無限データでは素朴な意味での相対度数は意味を成し ていません。そこで密度関数の積分式をよく見ると:
Z 1
−1
f(x)dx=P[−1< X <1] = 1
これは全ての数値の相対度数の総和が1になる事を示していると考える事が出来、
Z 1
|{z}−1 全部足す
f(x)dx
| {z }
xの相対度数
= 1
と読む事が出来ます。そうすると(数値)×(相対度数)=x·f(x)dxですからこれを全 て足し合わせる記号を積分記号で書いて次の計算が何となく分かります:
(平均値)= Z 1
−1
xf(x)dx.
ただしこの積分は多くの場合広義積分であり、扱いが微妙な事もあります。
定義 2.1.3 密度関数がf(x)であるデータ/確率変数Xに対して次の積分が有限
値として存在する時、これをXの平均値(期待値)と言い記号E[X]で表します:
Z 1
−1
xf(x)dx.
例題 2.1.4 確率変数 X の分布密度関数が次のh(x) で与えられているとき、確率
P[−0.5≤X ≤1.5]、平均値E[X]を求めて下さい。
h(x) =
3
4(1−x2) −1≤x≤1
0 otherwise
P[−0.5≤X ≤1.5] = Z 1.5
−0.5
h(x)dx= Z 1
−0.5
3
4(1−x2)dx=
∑3 4x−1
4x3
∏1
−0.5
= 27 32 Z 1
−1
xh(x)dx= Z 1
−1
x3
4(1−x2)dx=
∑3 8x2− 3
16x4
∏1
−1
= 0 =E[X]
2.2
派生データとその平均値
データX に含まれるそれぞれの数値xに対してf(x)と云う新たな数値を考え、こ のf(x)を全て集めて1つの新たなデータf(X)として考える事があります。
例えば次の相対度数分布表が表すデータXの各数値から3を引いた数値を集めて得 られるデータをX−3で表します(これはf(x) =x−3に対応しています)。
元データ:X 数値 7 6 5 4 3 2 1 0 相対度数 2
12 1
12 0 0 123 122 123 121
↓加工
派生データ:f(X) =X−3 数値 4 3 2 1 0 −1 −2 −3 相対度数 2
12 1
12 0 0 123 122 123 121 数値がシフトするだけで分布表は全く同じ構造になっているのが分かりますね。従って f(X) =X−3の平均値の計算は、本来はf(X)の相対度数を使って
E[f(X)] =X
n
nP[f(X) =n] = 4P[f(X) = 4]+3P[f(X) = 3]+· · ·+(−3)P[f(X) =−3]
としなければならないところを(相対度数は確率で表現しています)
E[X] = (7−3)P[X= 7] + (6−3)P[X= 6] +· · ·+ (0−3)P[X = 0]
=X
n
(n−3)P[X =n]
=X
n
f(n)P[X =n]
としてXの相対度数を使って計算しても良い事が分かります。
しかし更に自乗してg(x) = (x−3)2による派生データg(X) = (X−3)2を考えると、
派生データ:g(X) = (X−3)2 数値 16 9 4 1 0 相対度数 2
12 1
12+121 123 122 123
元データの数値6 と0はどちらも3を引いて自乗すると9になり、結果的にデータ (X −3)2では数値9の相対度数は元データの6と0それぞれの相対度数の和である
1
12+121 =122 になり、分布表の構造が変わってしまいます。
しかしこの場合も、
E[g(X)] =X
n
nP[g(X) =n]
= 16P[g(X) = 16] + 9P[g(X) = 9] +· · ·+ 0P[g(X) = 0]
= (7−3)2P[X = 7] +©
(6−3)2P[X = 6] + (0−3)P[X = 0]™ +
· · ·+ (3−3)2P[X = 3]
=X
n
(n−3)2P[X =n]
=X
n
g(n)P[X =n]
と変形する事が出来ますから、同様にXの値の分布を使って計算する事が出来ます。有 限データに関してのみ見ましたが、可算無限データや密度関数をもつ非可算無限データ の場合にも成立するでしょう(ただし絶対収束性、積分可能性などに注意は必要です):
事実 2.2.1 高々可算無限のデータXと関数f(x)に対して次の和が有限値として
存在するとき:
X
Xのとり得る値xの全て
f(x)P[X=x]
この和は派生データf(X)の平均値E[f(X)]に等しくなります。
事実2.2.2 密度関数h(x)をもつデータXと関数f(x)に対して次の積分が有限値 として存在するとき: Z 1
−1
f(x)h(x)dx
この積分は派生データf(X)の平均値E[f(X)]に等しくなります。
2.2.1 平均値の線形性
Xの平均値が存在するとき、派生データaX+bの平均値も存在して
E[aX+b] =X
j
(axj+b)P[X=xj] =aX
j
xjP[X=xj] +bX
j
P[X=xj] =aE[X] +b
E[aX+b] = Z 1
−1
(ax+b)h(x)dx=a Z 1
−1
xh(x)dx+b Z 1
−1
h(x)dx=aE[X] +b
となります(これを線形性と言います)。
2.3
分散
データの各数値が平均値から(平均的に見て)どの程度ずれているかを調べます。
単純に各数値と平均値との差をとって派生データX−E[X]を考えてもその平均値は
E[X−E[X]] =E[X]−E[X] = 0
となってしまいます。つまり『ずれ』そのものの平均値はずれが1の部分と−1の部分 が打ち消し合って0になってしまい埒があきません。そこで右にずれるのも左にずれ るのも区別しない事にしてずれの絶対値をとってE[|X−E[X]|]とするのですが、絶 対値を含む計算は面倒になりますからこれもイマイチです。そこで代替物として自乗 E£
(X−E[X])2§を使う事にします。
定義2.3.1 データXが平均値E[X]をもち、更にE£
(X−E[X])2§も存在する場 合これをデータXの分散(variance)と言って記号V ar[X]で表します。また、分 散の正の平方根を標準偏差(standard deviation)と言います。
分散は差の自乗ですから例えば長さのデータなら単位がメートルの自乗になってし まっています。そこでスケールを元に戻した標準偏差を使う事も大いにあります。
Revised at 20:32, October 3, 2014 統計学 第2回 http://my.reset.jp/˜gok/math/statistics/ 4 また、密度関数h(x)をもつデータの場合に分散を計算してみると
V ar[X] =E£
(X−E[X])2§
= Z 1
−1
(x−E[X])2h(x)dx
= Z 1
−1
°x2−2E[X]x+E[X]2¢ h(x)dx
= Z 1
−1
x2h(x)dx−2E[X]
Z 1
−1
xh(x)dx+E[X]2 Z 1
−1
h(x)dx
=E£ X2§
−2E[X]2+E[X]2
=E£ X2§
−E[X]2
となっている事が分かります(同様の事は高々可算無限データに対しても成立します)。
場合によってはこの形の方が便利な場合もありますので覚えておくべきです。
2.4
標準化
平均値は線形性をもっていましたが分散はどうでしょうか。
まず定数を加える事ですが、1つ1つの数値が同じだけずれますが平均値も同じだけ ずれてくれるので平均値からのずれは変わらない事に注意しましょう:
V ar[X+b] =E[(X+b−E[X+b])2] =E[(X+b−E[X]−b)2] =E[(X−E[X])2] =V ar[X].
また定数倍は
V ar[aX] =E[(aX−E[aX])2] =E[(aX−aE[X])2] =E[a2(X−E[X])2] =a2V ar[X] となりますから、合わせると次の等式が成り立つ事が分かります:
V ar[aX+b] =a2V ar[X].
この様に、平均値、分散が存在する(0でないとします)データXに対して、派生 データX−E[X]は平均値が0であり、分散は変わりません。ここで更に標準偏差で 割ったものを考えると、平均値は0のままですが分散が1になります:
V ar
"
X−E[X]
pV ar[X]
#
= V ar[X−E[X]]
V ar[X] = 1.
この様に平均0・分散1になる様に行われる上記の変形を標準化(normalization)と言 います。
2.5
問題演習
基本演習2.1 次のデータXについて、E[X]、E[X−3]、E£
(X−3)2§を計算し て下さい:
数値 7 6 5 4 3 2 1 0 相対度数 2
12 1
12 0 0 123 122 123 121
基本演習2.2 Xの密度関数が次のf(x)で与えられているとき定数aの値を求め、
平均値E[X]、分散V ar[X]を求めて下さい。
f(x) =
a(2−x) 0≤x≤2
0 otherwise.
基本演習2.3 有限データの場合にもV ar[X] =E£ X2§
−E[X]2を証明して下さい。
基本演習 2.4 密度f(x)をもったデータXの平均値がm、分散がvであるとき、
派生データ−2X+ 3の平均値、分散をm, vで表して下さい。
発展演習2.5 Xの密度関数はh(x)で分散が存在するとし、任意のα >0を1つ とります。分散の計算式の積分:
V ar[X] = Z 1
−1
(x−E[X])2h(x)dx
において、積分範囲を|x−E[X]| ≥αであるxの範囲と|x−E[X]|< αであるx の範囲に分けて後者を捨てることによってChebyshevの不等式:
P[|X−E[X]| ≥α]≤ 1
α2V ar[X]
が成立する事を示して下さい。またこの不等式からどんな事が読み取れますか。
発展演習 2.6 Chebyshevの不等式が有限データの場合にも成立する事を証明して
下さい。
発展演習2.7 任意の正の整数kと任意の正数αに対して P[|X| ≥α]≤ 1
αkE[|X|k] (Markovの不等式)
が成り立つ事を証明して下さい。
平成26年度後学期 統計学 第2回 課題
名 年 科 号
5課題 2.1 次のデータの平均値と分散を求めて下さい。
{3,6,4,3,6,6,5,9,5,2,5,6}
課題 2.2 白玉3個赤玉2個の入った袋から3個の玉を同時に取り出すとき白玉の 個数を表す確率変数をX とします。X の確率分布表を書き、平均値と分散、標準 偏差を求めて下さい。
課題 2.3 密度関数が次のh(x)であるデータの平均値と分散を計算して下さい:
h(x) =
x 0≤x≤1
−x+ 2 1≤x≤2
0 otherwise.