8 標本平均と極限定理

(1)

Revised at 00:34, November 28, 2014

統計学第

8

回

http://my.reset.jp/˜gok/math/statistics/ 1

8

^{標本平均と極限定理}

8.1

標本平均

統計処理／分析の対象となるデータ（あるいはくじ引きの結果としての確率変数）を母集団と呼びます。

母集団としては現実に目の前にある数値の集まりだけでなく、実際に採集されたわけではない（不可能な場合もあるでしょう）けれども、想像上の話として考える事が出来るようなデータも扱います。

例えばある工場である日１日のうちに生産される全ての製品の重量など、こんなものをいちいち全て量るわけにはいきませんが、仮に量ったとすればそう云うデータを空想する事は出来ます。このような場合、母集団は想像上のデータですから色んな意味で未知のデータと言えるでしょう。

そして未知の母集団の様子を窺うために、この母集団から

n

個の数値を独立に、そして無作為にサンプルとして取り出して調査する事を考えます。

具体的には

n

回復元抽出をするわけですが、どんな

n

個の数値の組が出て来るかは復元抽出をする度にランダムに変わるわけで、その全体を考えればこれは

n

個の（あるいは

n

次元の）確率変数であると考えられます。そうして得られた

n

個の確率変数は独立であり、１つ１つは同じくじ引きの結果ですから全て母集団と同じ分布に従います。

この様に独立で同じ分布に従う確率変数のファミリーは今後略して

i.i.d.

（

independent and identically distributed

）であると言います。

定義

8.1.1

母集団と同じ分布に従う

i.i.d.

な

n

個の確率変数のファミリーを、この

母集団からとった大きさ

n

の標本と呼びます。

この講義では、一貫して復元抽出の結果の総体を表す確率変数を『標本』と呼び、実際の抽出によって得られる具体的な数値の事を『サンプル』と呼んで区別する事にします。具体的なサンプルは標本と云う確率変数の１つの実現値です。

定義

8.1.2

母集団

X

からとった大きさ

n

の標本

X1, . . . , Xn

に対して、

X¯ = X1+· · ·+Xn

n

で定まる確率変数

X¯

を、この母集団からとった大きさ

n

の標本平均と言います。

確率変数である標本平均の１つの実現値は、具体的な

n

個のサンプルの平均値になっています。逆に言えば、実際に

n

個の数値をサンプルとして取り出した時にどんな数値が出るかはランダムでしたからその平均値もランダムであって、その可能性の総体を確率変数として考えたものがこの標本平均であると言えます。

母集団が平均

m

・分散

v

をもつ場合、多次元確率変数の成分の和についての知識から

E[ ¯X] =m, V ar[ ¯X] = v

n

である事を既に知っています。従って標本の大きさが非常に大きければ

X¯

の分散は非常に小さい事になり、平均値である母平均のまわりに密集している事が分かります。つまり、非常に大きなサンプルをとれば、その平均値は母平均からそう離れた値にはならないだろうと云う事になります。次節でこの辺りをもう少し正確に表現してみましょう。

8.2 Chebyshev

の不等式と

Weak Law of large numbers

確率変数

Z

は密度関数

h(z)

をもち、平均値は

m

、分散は

v >0

であるとします。このとき分散の計算式は

V ar[Z] = Z ₁

−1

(z−m)²h(z)dz

でしたが、ある正の実数

w

を固定しておいて積分範囲を

|z−m|< w

である範囲、すなわち区間

(m−w, m+w)

とそれ以外の

|z−m| ≥w

である範囲に分けます：

= Z m+w

m−w

(z−m)²h(z)dz+ Z

それ以外

(z−m)²h(z)dz

すると２つの積分はどちらも非負値ですから第１項の方をなくせば小さくなります：

≥ Z

それ以外

(z−m)²h(z)dz

この積分範囲は

|z−m| ≥w

でしたから被積分関数を下から定数で評価出来て

≥w² Z

{|z−m|≥w}

h(z)dz

=w²P[|Z−m| ≥w]

となって、結局、任意の正数

w

に対して

P[|Z−m| ≥w]≤ V ar[Z]

w²

が成立する事が分かりました。これを

Chebyshev

の不等式と言います。

(2)

統計学第

8

回

この不等式を

Z

が

X¯

の場合に当てはめると、

P∑ØØØØX1+· · ·+Xn

n −m

ØØ ØØ≥w

∏

≤ v

nw²

ですから極限をとれば、任意の正数

w

に対して

nlim→1P∑ØØØØ

X1+· · ·+Xn

n −m

ØØ ØØ≥w

∏

= 0

となります。これを大数の弱法則（

weak law of large numbers

）と言います。

もう少し精密な議論を重ねれば次のような結果も示す事が出来ます：

P

∑

nlim→1

X1+· · ·+Xn

n =m

∏

= 1

こちらは大数の強法則（

strong law of large numbers

）と呼ばれています。

8.3

モーメントとその

generating function

確率変数

X

の分散は

X²

の平均値に関連していましたが、一般に３次以上の

Xⁿ

の平均値も扱う場合があり、これらは存在するならばモーメント（積率）と呼ばれます。

例えば区間

(−1,1)

上の一様分布の平均値は

0

、分散は

¹

3

ですから、１・２次のモーメントは正規分布

N°

0,¹₃¢

と同じですが、これらは全く別の分布をしています。しかし、これが３次、４次と続いた場合、つまり、任意の次数のモーメントが等しいような場合には実は２つの確率変数は同じ分布に従うことが知られています。

指数関数

e^x

の

Taylor

展開を使えば

E[e^tX] =E

∑

1 +tX+ 1

2!t²X²+· · ·

∏

= 1 +tE[X] + 1

2!t²E[X²] +· · · (8.1)

ですから、展開式の係数が丁度モーメントになっている（階乗は除く）事が分かります。ただしモーメントは存在しない事もありますし、期待値

E[e^tX]

が存在しない事もあります。

この

E£ e^tX§

の事を（もちろん存在する場合に限りますが）

X

の積率母関数（

moment generating function

）と呼び、この講義では多くの場合記号

MX(t)

で表します。

２つの確率変数があって

が等しければ全てのモーメントも等しい事が分かりますから、その場合は確率変数同士が同じ分布に従う事が言えます。

独立な確率変数

X, Y

の和の

を計算してみると、

e^tX

と

e^tY

も独立ですから

MX+Y(t) =Eh

e^t(X+Y⁾i

=E£ e^tXe^tY§

=E£ e^tX§

E£ e^tY§

=MX(t)MY(t)

となってそれぞれの

の積になります。

また、

W

の

が

MW(t)

であるとき、その定数倍

aW

の

moment generating functionMaW(t)

は

MaW(t) =E[e^t(aW⁾] =E[e^(at)W] =MW(at)

となる事も注意しておきます。

例えば標準正規分布に従う確率変数

X

の

は、簡単な計算により

MX(t) =E[e^tX]

= Z ₁

−1

e^tx 1

√2πe⁻¹²^x²dx

= Z ₁

−1

√1

2πe⁻¹²^x²^+txdx

= Z ₁

−1

√1

2πe⁻¹²^{^(x⁻^t)²⁻^t²^}dx

= e¹²^t² Z ₁

−1

√1

2πe⁻¹²^(x⁻^t)²dx

= e¹²^t² Z ₁

−1

√1

2πe⁻¹²^y²dy

= e¹²^t²

となる事が分かります。

もちろん各次数のモーメントを計算して展開式を求める事によって計算する事も出来

ます。

(3)

統計学第

8

回

8.4 the central limit theorem

平均

m

・分散

v >0

である母集団

X

からとった大きさ

n

の標本

X1, . . . , Xn

を考えます。このとき標本平均

X¯

は

n

を大きくすれば母平均

m

付近に密集する事を先に見ましたが、このときの誤差、つまり

X¯−m

の分布はどうなっているでしょうか。

X¯ −m= X1+· · ·+Xn−nm

n = (X1−m) +· · ·+ (Xn−m) n

は平均値

0

、分散

^v

n

をもちますから、これを標準化した（つまり標準偏差

p_v

n

で割った）ものである

Zn= ^(X¹⁻^m)+√^···nv^+(Xⁿ⁻^m)

について調べてみましょう。

まず

Zn=

X√1−m

v +· · ·+^Xⁿ^√⁻_v^m

√n

である事に注意します。すると分子の

Yj = ^X^j√⁻v^m

は

Xj

を標準化したものであって、

それぞれ平均値

0

、分散

1

ですからその

moment generating functionMYj(t)

のべき級数展開は

MYj(t) = 1 +1

2t²+

（３次以上の項）

です。従ってそれらの独立和である分子

Y1+· · ·+Yn= ^X¹√⁻v^m+· · ·+^Xⁿ√⁻v^m

の

moment generating functionM(t)

は

M(t) = Ω

1 +1

2t²+

（３次以上の項）

æn

になりますから、標準化された確率変数

Zn

の

moment generating functionMZn(t)

は、

先に見た定数倍と

の関係から、

MZn(t) = Ω

M µ t

√n

∂æn

= Ω

1 + 1 2nt²+

µ t

√n

の３次以上の項

∂æn

と書ける事が分かります。

ここで定数項以外の部分を

R

と書くことにして対数をとれば、

n

が十分大きいとき

n

を分母に含む

R

の部分は

|R|<1

ですから

log(1 +R)

の

Taylor

展開式から

logMZn(t) =nlog(1 +R)

=n µ

R−1 2R²+1

3R³− · · ·

∂

=nR−1

2nR²+1

3nR³− · · ·

となります。

するとまず

nR=n

Ω 1 2nt²+

µ t

√n

の３次以上の項

∂æ

=1 2t²+

µ 1

√n

の１次以上の項

∂

ですからここで

n→ 1

の極限をとれば

limnR= 1

2t²

となります。また、

nR²=n Ω 1

2nt²+ µ t

√n

の３次以上の項

∂æ2

= µ1

n

の１次以上の項

∂

なのでこちらは極限をとると０である事が分かります。

nR³

等、これ以上のべきは全て同様に０に収束しますから、結局のところ

nlim→1logMZn(t) = 1 2t²

であり、従って

nlim→1MZn(t) = e¹²^t²

が得られることになります。これは標準正規分布の

に一致しており、従って

Zn

は

n

が大きい時には標準正規分布で近似される事が分かります。

これは

X¯ −m

を標準化したものでしたから、

p_v

n

倍すれば元に戻って

rv

n

X1+· · ·+Xn−nm

√nv = X1+· · ·+Xn

n −m= ¯X−m X¯−m

は平均

0

、分散

^v

n

の正規分布で近似されます。

この様に、母集団がどんな分布に従っていようとも（ただしモーメントは存在しなければなりませんが）十分大きな標本サイズをとれば標本平均と母平均の差はほぼ正規分布になっていると云う事が分かりました。

これに

m

を加えれば標本平均自身の分布と考えられますので今後はこの形で運用して行く事が多いでしょう（中心極限定理と呼ばれています）。

今日はモーメントを使って証明しましたが、平均値と分散さえ存在すれば（つまり２

次までのモーメントさえ存在すれば）同様の事実が成り立つ事が知られています。

(4)

統計学第

8

回

定理

8.4.1 (the central limit theorem)

平均

m

、分散

v 6= 0

である母集団

X

からとった大きさ

n

の標本平均

X¯

は

n

が十分大きい時には正規分布

N°

m,^v_n¢

で近似されます。

この結果と、前回見た

i.i.d.

な正規分布のファミリーに関する結果を標本平均と云う言葉を使って表現したもの：

定理

8.4.2 N(m, v)

に従う母集団

X

からとった大きさ

n

の標本平均

X¯

は正規分布

N°

m,^v_n¢

に従います。

を比べてみればよく分かりますが、標本平均と云うものは標本数が十分大きければ、母集団がどんな分布であったとしても母集団が正規分布であった場合と（ほぼ）同じ分布をしていることになります。統計学では正規分布が重要である、あるいは、至る所に正規分布が現れると言われる所以です。

確かに中心極限定理の結果が示しているものは近似値であるわけですが、実際に計算する時はその近似値を使って計算するわけですから、計算上は全く同じ計算になってしまうと云う事なのです。

多くの場合標本のサイズが５０以上であればこの中心極限定理を適用して差し支えないとされています。

8.5

問題演習

基本演習

8.1

標準正規分布に従う確率変数

X

のモーメントを、定義に従った計算：

E[Xⁿ] = Z ₁

−1

xⁿ 1

√2πe⁻^x²²dx

によって計算して下さい。まず奇数次のモーメントが０である事を示し、偶数次については漸化式を求めると良いでしょう。

基本演習

8.2

関数：

f(x) =





e⁻^x 0≤x 0 otherwise

を密度関数とする確率変数

X

のモーメントを計算して下さい。

基本演習

8.3

区間

[−1,1]

上の一様分布のモーメントを求めて下さい。

発展演習

8.4

可算無限個の事象の列

E1, E2, . . .

があって、級数

P

nP(En)

が収束しているとき、無限個の

En

（全部ではなく、飛び飛びの無限個でも構いません）

が同時に起る確率は０である事を示して下さい。

発展演習

8.5

密度関数が

h(x) = ¹₂e^−|^x^|

であるような確率変数

X

に対して

を求めて下さい。

発展演習

8.6 (

再掲

)

有限データに対して

Chebyshev

の不等式が成り立つ事を示し

て下さい。

発展演習

8.7 (

再掲

)

任意の正の整数

k

と任意の正数

α

に対して

P[|X| ≥α]≤ 1

α^kE[|X|^k]

（

Markov

8 標本平均と極限定理

統計学 第

回

標本平均と極限定理

標本平均

統計処理／分析の対象となるデータ（あるいはくじ引きの結果としての確率変数）を 母集団と呼びます。

母集団としては現実に目の前にある数値の集まりだけでなく、実際に採集されたわけ ではない（不可能な場合もあるでしょう）けれども、想像上の話として考える事が出来 るようなデータも扱います。

そして未知の母集団の様子を窺うために、この母集団から

個の数値を独立に、そ して無作為にサンプルとして取り出して調査する事を考えます。

具体的には

回復元抽出をするわけですが、どんな

個の数値の組が出て来るかは 復元抽出をする度にランダムに変わるわけで、その全体を考えればこれは

個の（ある いは

次元の）確率変数であると考えられます。そうして得られた

個の確率変数は独 立であり、１つ１つは同じくじ引きの結果ですから全て母集団と同じ分布に従います。

この様に独立で同じ分布に従う確率変数のファミリーは今後略して

（

）であると言います。

定義

母集団と同じ分布に従う

な

個の確率変数のファミリーを、この

母集団からとった大きさ

の標本と呼びます。

定義

母集団

からとった大きさ

の標本

に対して、

で定まる確率変数

を、この母集団からとった大きさ

の標本平均と言います。

確率変数である標本平均の１つの実現値は、具体的な

個のサンプルの平均値になっ ています。逆に言えば、実際に

個の数値をサンプルとして取り出した時にどんな数 値が出るかはランダムでしたからその平均値もランダムであって、その可能性の総体を 確率変数として考えたものがこの標本平均であると言えます。

母集団が平均

・分散

をもつ場合、多次元確率変数の成分の和についての知識から

である事を既に知っています。従って標本の大きさが非常に大きければ

の不等式と

確率変数

は密度関数

をもち、平均値は

、分散は

であるとします。こ のとき分散の計算式は

でしたが、ある正の実数

を固定しておいて積分範囲を

である範囲、す なわち区間

とそれ以外の

である範囲に分けます：

すると２つの積分はどちらも非負値ですから第１項の方をなくせば小さくなります：

この積分範囲は

でしたから被積分関数を下から定数で評価出来て

となって、結局、任意の正数

に対して

が成立する事が分かりました。これを

の不等式と言います。

統計学 第

回

この不等式を

が

の場合に当てはめると、

ですから極限をとれば、任意の正数

に対して

となります。これを大数の弱法則（

）と言います。

もう少し精密な議論を重ねれば次のような結果も示す事が出来ます：

こちらは大数の強法則（

）と呼ばれています。

モーメントとその

確率変数

の分散は

の平均値に関連していましたが、一般に３次以上の

の 平均値も扱う場合があり、これらは存在するならばモーメント（積率）と呼ばれます。

例えば区間

上の一様分布の平均値は

、分散は

ですから、１・２次のモー メントは正規分布

と同じですが、これらは全く別の分布をしています。しか し、これが３次、４次と続いた場合、つまり、任意の次数のモーメントが等しいような 場合には実は２つの確率変数は同じ分布に従うことが知られています。

指数関数

統計学第

^{標本平均と極限定理}

統計処理／分析の対象となるデータ（あるいはくじ引きの結果としての確率変数）を母集団と呼びます。

母集団としては現実に目の前にある数値の集まりだけでなく、実際に採集されたわけではない（不可能な場合もあるでしょう）けれども、想像上の話として考える事が出来るようなデータも扱います。

個の数値を独立に、そして無作為にサンプルとして取り出して調査する事を考えます。

個の数値の組が出て来るかは復元抽出をする度にランダムに変わるわけで、その全体を考えればこれは

個の（あるいは

個の確率変数は独立であり、１つ１つは同じくじ引きの結果ですから全て母集団と同じ分布に従います。

個のサンプルの平均値になっています。逆に言えば、実際に

個の数値をサンプルとして取り出した時にどんな数値が出るかはランダムでしたからその平均値もランダムであって、その可能性の総体を確率変数として考えたものがこの標本平均であると言えます。

であるとします。このとき分散の計算式は

である範囲、すなわち区間

統計学第

の平均値も扱う場合があり、これらは存在するならばモーメント（積率）と呼ばれます。

ですから、１・２次のモーメントは正規分布

と同じですが、これらは全く別の分布をしています。しかし、これが３次、４次と続いた場合、つまり、任意の次数のモーメントが等しいような場合には実は２つの確率変数は同じ分布に従うことが知られています。

ですから、展開式の係数が丁度モーメントになっている（階乗は除く）事が分かります。ただしモーメントは存在しない事もありますし、期待値

が存在しない事もあります。

が等しければ全てのモーメントも等しい事が分かりますから、その場合は確率変数同士が同じ分布に従う事が言えます。

は、簡単な計算により

統計学第

を考えます。このとき標本平均

付近に密集する事を先に見ましたが、このときの誤差、つまり

で割った）ものである

のべき級数展開は