8
標本平均と極限定理
8.1
標本平均
統計処理/分析の対象となるデータ(あるいはくじ引きの結果としての確率変数)を 母集団と呼びます。
母集団としては現実に目の前にある数値の集まりだけでなく、実際に採集されたわけ ではない(不可能な場合もあるでしょう)けれども、想像上の話として考える事が出来 るようなデータも扱います。
例えばある工場である日1日のうちに生産される全ての製品の重量など、こんなもの をいちいち全て量るわけにはいきませんが、仮に量ったとすればそう云うデータを空想 する事は出来ます。このような場合、母集団は想像上のデータですから色んな意味で未 知のデータと言えるでしょう。
そして未知の母集団の様子を窺うために、この母集団からn個の数値を独立に、そ して無作為にサンプルとして取り出して調査する事を考えます。
具体的にはn回復元抽出をするわけですが、どんなn個の数値の組が出て来るかは 復元抽出をする度にランダムに変わるわけで、その全体を考えればこれはn個の(ある いはn次元の)確率変数であると考えられます。そうして得られたn個の確率変数は独 立であり、1つ1つは同じくじ引きの結果ですから全て母集団と同じ分布に従います。
この様に独立で同じ分布に従う確率変数のファミリーは今後略してi.i.d. (independent and identically distributed)であると言います。
定義8.1.1 母集団と同じ分布に従うi.i.d.なn個の確率変数のファミリーを、この
母集団からとった大きさnの標本と呼びます。
この講義では、一貫して復元抽出の結果の総体を表す確率変数を『標本』と呼び、実 際の抽出によって得られる具体的な数値の事を『サンプル』と呼んで区別する事にしま す。具体的なサンプルは標本と云う確率変数の1つの実現値です。
定義 8.1.2 母集団Xからとった大きさnの標本X1, . . . , Xnに対して、
X¯ = X1+· · ·+Xn
n
で定まる確率変数X¯ を、この母集団からとった大きさnの標本平均と言います。
確率変数である標本平均の1つの実現値は、具体的なn個のサンプルの平均値になっ ています。逆に言えば、実際にn個の数値をサンプルとして取り出した時にどんな数 値が出るかはランダムでしたからその平均値もランダムであって、その可能性の総体を 確率変数として考えたものがこの標本平均であると言えます。
母集団が平均m・分散vをもつ場合、多次元確率変数の成分の和についての知識から E[ ¯X] =m, V ar[ ¯X] = v
n
である事を既に知っています。従って標本の大きさが非常に大きければX¯ の分散は非常 に小さい事になり、平均値である母平均のまわりに密集している事が分かります。つま り、非常に大きなサンプルをとれば、その平均値は母平均からそう離れた値にはならな いだろうと云う事になります。次節でこの辺りをもう少し正確に表現してみましょう。
8.2 Chebyshev
の不等式と
Weak Law of large numbers確率変数Zは密度関数h(z)をもち、平均値はm、分散はv >0であるとします。こ のとき分散の計算式は
V ar[Z] = Z 1
−1
(z−m)2h(z)dz
でしたが、ある正の実数wを固定しておいて積分範囲を|z−m|< wである範囲、す なわち区間(m−w, m+w)とそれ以外の|z−m| ≥wである範囲に分けます:
= Z m+w
m−w
(z−m)2h(z)dz+ Z
それ以外
(z−m)2h(z)dz
すると2つの積分はどちらも非負値ですから第1項の方をなくせば小さくなります:
≥ Z
それ以外
(z−m)2h(z)dz
この積分範囲は|z−m| ≥wでしたから被積分関数を下から定数で評価出来て
≥w2 Z
{|z−m|≥w}
h(z)dz
=w2P[|Z−m| ≥w]
となって、結局、任意の正数wに対して
P[|Z−m| ≥w]≤ V ar[Z]
w2
が成立する事が分かりました。これをChebyshevの不等式と言います。
Revised at 14:13, May 21, 2014 統計学 第8回 http://my.reset.jp/˜gok/math/statistics/ 2 この不等式をZがX¯ の場合に当てはめると、
P∑ØØØØX1+· · ·+Xn
n −m
ØØ ØØ≥w
∏
≤ v nw2 ですから極限をとれば、任意の正数wに対して
nlim→1P∑ØØØØX1+· · ·+Xn
n −m
ØØ ØØ≥w
∏
= 0
となります。これを大数の弱法則(weak law of large numbers)と言います。
もう少し精密な議論を重ねれば次のような結果も示す事が出来ます:
P
∑
nlim→1
X1+· · ·+Xn
n =m
∏
= 1
こちらは大数の強法則(strong law of large numbers)と呼ばれています。
8.3
モーメントと特性関数
確率変数Xの分散はX2の平均値に関連していましたが、一般に3次以上のXnの 平均値も扱う場合があり、これらはモーメントと呼ばれます。
例えば区間(−1,1)上の一様分布の平均値は0、分散は 1
3ですから、1・2次のモー メントは正規分布N°
0,13¢
と同じですが、これらは全く別の分布をしています。しか し、これが3次、4次と続いた場合、つまり、任意の次数のモーメントが等しいような 場合には実は2つの確率変数は同じ分布に従うことが知られています。
指数関数exのTaylor展開を使えば E[eitX] =E
∑
1 +itX− 1
2!t2X2+· · ·
∏
= 1 +itE[X]− 1
2!t2E[X2] +· · · (8.1) ですから、全てのモーメントが等しければE[eitX]も等しい事が分かります。
しかしこの期待値をXの分布密度f(x)を使って具体的に書いてみれば E[eitX] =
Z 1
−1
eitxf(x)dx
であって、これは密度関数のFourier変換に他なりません。そこで逆Fourier変換を考え れば、全てのモーメントが等しければ分布密度が等しくなる事が分かるわけです。
このE£
eitX§の事をXの特性関数(characteristic function)と呼び、この講義では 多くの場合記号φXで表します。
独立な確率変数X, Y の和の特性関数を計算してみると、eitXとeitY も独立ですから φX+Y(t) =Eh
eit(X+Y)i
=E£
eitXeitY§
=E£ eitX§
E£ eitY§
=φX(t)φY(t) となってそれぞれの特性関数の積になります。
また、W の特性関数がφW(t)であるときその定数倍aW の特性関数φaW(t)は φaW(t) =E[eit(aW)] =E[ei(at)W] =φW(at)
となる事も注意しておきます。
8.3.1 標準正規分布の特性関数
標準正規分布に従う確率変数X の特性関数は、その展開式(8.1)に注意してモーメ ントを計算すれば求める事が出来ます。
まず明らかに奇数次のモーメントは0です(奇関数の積分)。また偶数次では E[X2n] =
Z 1
−1
√1
2πx2ne−x
2 2 dx
= Z 1
−1
√1
2π(−x2n−1)(−x)e−x
2 2 dx
=
∑ 1
√2π(−x2n−1)e−x
2 2
∏1
−1
− Z 1
−1
√1
2π−(2n−1)x2n−2e−x
2 2 dx
= (2n−1)E[X2(n−1)] となりますから、
E[X2n] = (2n−1)(2n−3)· · ·1 = (2n−1)!!
が分かります。従って特性関数は E[eitX] = 1− 1
2!t2+3!!
4!t4− · · ·+ (−1)n(2n−1)!!
(2n)! t2n+· · ·
= 1−1
2t2+ 1
2!22t4− · · ·+ (−1)n 1
n!2nt2n+· · ·
= 1 + µ
−t2 2
∂ + 1
2!
µ
−t2 2
∂2
+· · ·+ 1 n!
µ
−t2 2
∂n
+· · ·
= e−t22
となる事が分かります。(定数倍は除いて)これはまた標準正規分布の密度関数になっ ている事は注目に値するでしょう。
8.4 the central limit theorem
平均m・分散v >0である母集団X からとった大きさnの標本X1, . . . , Xnを考え ます。このとき標本平均X¯ はnを大きくすれば母平均m付近に密集する事を先に見ま したが、このときの誤差、つまりX¯−mの分布はどうなっているでしょうか。
X¯ −m= X1+· · ·+Xn−nm
n = (X1−m) +· · ·+ (Xn−m) n
は平均値0、分散 v
n をもちますから、標準化した(つまり標準偏差pv
n で割った)も のである(X1−m)+√···+(Xn−m)
nv について調べてみましょう。
分子のXj−mはi.i.d.であってそれぞれ平均値0、分散v ですからその特性関数
φXj−m(t)のべき級数展開は3次以上の部分をR(t)として φXj−m(t) = 1−1
2vt2+R(t)
です。従ってそれらの独立和である分子(X1−m) +· · ·+ (Xn−m)の特性関数φ(t)は φ(t) =
Ω 1−1
2vt2+R(t) æn
になりますから、標準化された確率変数(X1−m)+√···+(Xn−m)
nv の特性関数φn(t)は、先に 見た定数倍と特性関数の関係から、
φn(t) = Ω
φ µ t
√nv
∂æn
= Ω
1− 1 2nt2+R
µ t
√nv
∂æn
と書ける事が分かります。
これを1−2n1 t2とR≥
√t nv
¥で2項展開して、°
1−2n1t2¢n
とそれ以外(これを余り と考える事にします)に分けてやると:
φn(t) = µ
1− 1 2nt2
∂n
+(余り)
ですが、この『余り』の項はn→ 1で0に収束する事が次の様に分かります。
まず一般に|α| ≤1,|β| ≤1なら
|αn−βn|=ØØ(α−β)(αn−1+αn−2β+αn−3β2+· · ·+βn−1)ØØ
≤ |α−β|°
|α|n−1+|α|n−2|β|+|α|n−3|β|2+· · ·+|β|n−1¢
≤n|α−β|
が成り立ちますから、
ØØ ØØφ
µ t
√nv
∂ØØØØ= ØØ ØEh
ei√tnvYjiØØØ≤EhØØØei√tnvYj ØØ Øi
≤E[1] = 1
に注意して、
|(余り)|= ØØ ØØ Ω
φ µ t
√nv
∂æn
− µ
1− 1 2nt2
∂nØØØØ
≤n ØØ ØØφ
µ t
√nv
∂
− µ
1− 1 2nt2∂ØØØØ
=n ØØ ØØR
µ t
√nv
∂ØØØØ
です。ここで√tnv =Nと置けば、これは
|(余り)| ≤ t2|R(N)| vN2
を意味し、n→ 1のときN →0です。またR(N)は最小次数の項でもN の3次でし たからlimN→0R(N)
N2 = 0となっており、右辺はn→ 1で0に収束しています。従っ て余りは0に収束する事が得られました。以上から、
nlim→1φn(t) = lim
n→1
µ 1− 1
2nt2
∂n
= lim
n→1
(µ 1 + 1
−2nt2
∂−2nt2)−t22
= e−t
2 2
が分かります。これは平均0、分散1の標準正規分布の特性関数に一致しており、従っ てX1+···√+Xnvn−nm はnが大きい時には標準正規分布で近似される事が分かります。
これはX¯ −mを標準化したものでしたから、pv
n 倍すれば元に戻って rv
n
X1+· · ·+Xn−nm
√nv = X1+· · ·+Xn
n −m= ¯X−m X¯−mは平均0、分散 v
n の正規分布で近似されます。
この様に、母集団がどんな分布に従っていようとも(ただし平均値・分散は存在しな ければなりませんが)十分大きな標本サイズをとれば標本平均と母平均の差はほぼ正規 分布になっていると云う事が分かりました。
Revised at 14:13, May 21, 2014 統計学 第8回 http://my.reset.jp/˜gok/math/statistics/ 4 これにmを加えれば標本平均自身の分布と考えられますので今後はこの形で運用し
て行く事が多いでしょう(中心極限定理と呼ばれています):
定理 8.4.1 (the central limit theorem) 平均m、分散v 6= 0である母集団X か らとった大きさnの標本平均X¯ はnが十分大きい時には正規分布N°
m,vn¢ で近 似されます。
この結果と、前回見たi.i.d.な正規分布のファミリーに関する結果を標本平均と云う 言葉を使って表現したもの:
定理 8.4.2 N(m, v)に従う母集団Xからとった大きさnの標本平均X¯ は正規分 布N°
m,vn¢
に従います。
を比べてみればよく分かりますが、標本平均と云うものは標本数が十分大きければ、母 集団がどんな分布であったとしても母集団が正規分布であった場合と(ほぼ)同じ分布 をしていることになります。統計学では正規分布が重要である、あるいは、至る所に正 規分布が現れると言われる所以です。
確かに中心極限定理の結果が示しているものは近似値であるわけですが、実際に計算 する時はその近似値を使って計算するわけですから、計算上は全く同じ計算になってし まうと云う事なのです。
多くの場合標本のサイズが50以上であればこの中心極限定理を適用して差し支えな いとされています。
8.5
問題演習
基本演習8.1 関数f(x):
f(x) =
e−x 0≤x 0 otherwise
を密度関数とする確率変数Xのモーメントを計算して下さい。
基本演習8.2 区間[−1,1]上の一様分布のモーメントを求めて下さい。
発展演習8.3 密度関数がh(x) =12e−|x|であるような確率変数Xのモーメントと 特性関数を求めて下さい。
発展演習 8.4 有限データに対してChebyshevの不等式が成り立つ事を示して下 さい。
平成26年度前学期 統計学 第8回 課題
名 年 科 号
5課題 8.1 中心極限定理とはどんな定理であるか説明して下さい。
課題8.2 母集団Xの平均がm、分散がvであるとき、この母集団からとった大き さnの標本平均の平均がm、分散がv
n となる事を示して下さい。