• 検索結果がありません。

8 標本平均と極限定理

N/A
N/A
Protected

Academic year: 2021

シェア "8 標本平均と極限定理"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

Revised at 00:34, November 28, 2014

統計学 第

8

http://my.reset.jp/˜gok/math/statistics/ 1

8

標本平均と極限定理

8.1

標本平均

統計処理/分析の対象となるデータ(あるいはくじ引きの結果としての確率変数)を 母集団と呼びます。

母集団としては現実に目の前にある数値の集まりだけでなく、実際に採集されたわけ ではない(不可能な場合もあるでしょう)けれども、想像上の話として考える事が出来 るようなデータも扱います。

例えばある工場である日1日のうちに生産される全ての製品の重量など、こんなもの をいちいち全て量るわけにはいきませんが、仮に量ったとすればそう云うデータを空想 する事は出来ます。このような場合、母集団は想像上のデータですから色んな意味で未 知のデータと言えるでしょう。

そして未知の母集団の様子を窺うために、この母集団から

n

個の数値を独立に、そ して無作為にサンプルとして取り出して調査する事を考えます。

具体的には

n

回復元抽出をするわけですが、どんな

n

個の数値の組が出て来るかは 復元抽出をする度にランダムに変わるわけで、その全体を考えればこれは

n

個の(ある いは

n

次元の)確率変数であると考えられます。そうして得られた

n

個の確率変数は独 立であり、1つ1つは同じくじ引きの結果ですから全て母集団と同じ分布に従います。

この様に独立で同じ分布に従う確率変数のファミリーは今後略して

i.i.d.

independent and identically distributed

)であると言います。

定義

8.1.1

母集団と同じ分布に従う

i.i.d.

n

個の確率変数のファミリーを、この

母集団からとった大きさ

n

の標本と呼びます。

この講義では、一貫して復元抽出の結果の総体を表す確率変数を『標本』と呼び、実 際の抽出によって得られる具体的な数値の事を『サンプル』と呼んで区別する事にしま す。具体的なサンプルは標本と云う確率変数の1つの実現値です。

定義

8.1.2

母集団

X

からとった大きさ

n

の標本

X1, . . . , Xn

に対して、

X¯ = X1+· · ·+Xn

n

で定まる確率変数

X¯

を、この母集団からとった大きさ

n

の標本平均と言います。

確率変数である標本平均の1つの実現値は、具体的な

n

個のサンプルの平均値になっ ています。逆に言えば、実際に

n

個の数値をサンプルとして取り出した時にどんな数 値が出るかはランダムでしたからその平均値もランダムであって、その可能性の総体を 確率変数として考えたものがこの標本平均であると言えます。

母集団が平均

m

・分散

v

をもつ場合、多次元確率変数の成分の和についての知識から

E[ ¯X] =m, V ar[ ¯X] = v

n

である事を既に知っています。従って標本の大きさが非常に大きければ

X¯

の分散は非常 に小さい事になり、平均値である母平均のまわりに密集している事が分かります。つま り、非常に大きなサンプルをとれば、その平均値は母平均からそう離れた値にはならな いだろうと云う事になります。次節でこの辺りをもう少し正確に表現してみましょう。

8.2 Chebyshev

の不等式と

Weak Law of large numbers

確率変数

Z

は密度関数

h(z)

をもち、平均値は

m

、分散は

v >0

であるとします。こ のとき分散の計算式は

V ar[Z] = Z 1

−1

(zm)2h(z)dz

でしたが、ある正の実数

w

を固定しておいて積分範囲を

|zm|< w

である範囲、す なわち区間

(mw, m+w)

とそれ以外の

|zm| ≥w

である範囲に分けます:

= Z m+w

mw

(zm)2h(z)dz+ Z

それ以外

(zm)2h(z)dz

すると2つの積分はどちらも非負値ですから第1項の方をなくせば小さくなります:

Z

それ以外

(zm)2h(z)dz

この積分範囲は

|zm| ≥w

でしたから被積分関数を下から定数で評価出来て

w2 Z

{|zm|≥w}

h(z)dz

=w2P[|Zm| ≥w]

となって、結局、任意の正数

w

に対して

P[|Zm| ≥w] V ar[Z]

w2

が成立する事が分かりました。これを

Chebyshev

の不等式と言います。

(2)

Revised at 00:34, November 28, 2014

統計学 第

8

http://my.reset.jp/˜gok/math/statistics/ 2

この不等式を

Z

X¯

の場合に当てはめると、

P∑ØØØØX1+· · ·+Xn

n m

ØØ ØØw

v

nw2

ですから極限をとれば、任意の正数

w

に対して

nlim→1P∑ØØØØ

X1+· · ·+Xn

n m

ØØ ØØw

= 0

となります。これを大数の弱法則(

weak law of large numbers

)と言います。

もう少し精密な議論を重ねれば次のような結果も示す事が出来ます:

P

nlim→1

X1+· · ·+Xn

n =m

= 1

こちらは大数の強法則(

strong law of large numbers

)と呼ばれています。

8.3

モーメントとその

generating function

確率変数

X

の分散は

X2

の平均値に関連していましたが、一般に3次以上の

Xn

の 平均値も扱う場合があり、これらは存在するならばモーメント(積率)と呼ばれます。

例えば区間

(1,1)

上の一様分布の平均値は

0

、分散は

1

3

ですから、1・2次のモー メントは正規分布

N°

0,13¢

と同じですが、これらは全く別の分布をしています。しか し、これが3次、4次と続いた場合、つまり、任意の次数のモーメントが等しいような 場合には実は2つの確率変数は同じ分布に従うことが知られています。

指数関数

ex

Taylor

展開を使えば

E[etX] =E

1 +tX+ 1

2!t2X2+· · ·

= 1 +tE[X] + 1

2!t2E[X2] +· · · (8.1)

ですから、展開式の係数が丁度モーメントになっている(階乗は除く)事が分かりま す。ただしモーメントは存在しない事もありますし、期待値

E[etX]

が存在しない事も あります。

この

E£ etX§

の事を(もちろん存在する場合に限りますが)

X

の積率母関数(

moment generating function

)と呼び、この講義では多くの場合記号

MX(t)

で表します。

2つの確率変数があって

moment generating function

が等しければ全てのモーメント も等しい事が分かりますから、その場合は確率変数同士が同じ分布に従う事が言えます。

独立な確率変数

X, Y

の和の

moment generating function

を計算してみると、

etX

etY

も独立ですから

MX+Y(t) =Eh

et(X+Y)i

=E£ etXetY§

=E£ etX§

E£ etY§

=MX(t)MY(t)

となってそれぞれの

moment generating function

の積になります。

また、

W

moment generating function

MW(t)

であるとき、その定数倍

aW

moment generating functionMaW(t)

MaW(t) =E[et(aW)] =E[e(at)W] =MW(at)

となる事も注意しておきます。

例えば標準正規分布に従う確率変数

X

moment generating function

は、簡単な計 算により

MX(t) =E[etX]

= Z 1

−1

etx 1

e12x2dx

= Z 1

−1

1

e12x2+txdx

= Z 1

−1

1

e12{(xt)2t2}dx

= e12t2 Z 1

−1

1

e12(xt)2dx

= e12t2 Z 1

−1

1

e12y2dy

= e12t2

となる事が分かります。

もちろん各次数のモーメントを計算して展開式を求める事によって計算する事も出来

ます。

(3)

Revised at 00:34, November 28, 2014

統計学 第

8

http://my.reset.jp/˜gok/math/statistics/ 3

8.4 the central limit theorem

平均

m

・分散

v >0

である母集団

X

からとった大きさ

n

の標本

X1, . . . , Xn

を考え ます。このとき標本平均

X¯

n

を大きくすれば母平均

m

付近に密集する事を先に見ま したが、このときの誤差、つまり

X¯m

の分布はどうなっているでしょうか。

X¯ m= X1+· · ·+Xnnm

n = (X1m) +· · ·+ (Xnm) n

は平均値

0

、分散

v

n

をもちますから、これを標準化した(つまり標準偏差

pv

n

で割っ た)ものである

Zn= (X1m)+···nv+(Xnm)

について調べてみましょう。

まず

Zn=

X1m

v +· · ·+Xnvm

n

である事に注意します。すると分子の

Yj = Xjvm

Xj

を標準化したものであって、

それぞれ平均値

0

、分散

1

ですからその

moment generating functionMYj(t)

のべき級数 展開は

MYj(t) = 1 +1

2t2+

(3次以上の項)

です。従ってそれらの独立和である分子

Y1+· · ·+Yn= X1vm+· · ·+Xnvm

moment generating functionM(t)

M(t) = Ω

1 +1

2t2+

(3次以上の項)

æn

になりますから、標準化された確率変数

Zn

moment generating functionMZn(t)

は、

先に見た定数倍と

moment generating function

の関係から、

MZn(t) = Ω

M µ t

n

∂æn

= Ω

1 + 1 2nt2+

µ t

n

の3次以上の項

∂æn

と書ける事が分かります。

ここで定数項以外の部分を

R

と書くことにして対数をとれば、

n

が十分大きいとき

n

を分母に含む

R

の部分は

|R|<1

ですから

log(1 +R)

Taylor

展開式から

logMZn(t) =nlog(1 +R)

=n µ

R1 2R2+1

3R3− · · ·

=nR1

2nR2+1

3nR3− · · ·

となります。

するとまず

nR=n

Ω 1 2nt2+

µ t

n

の3次以上の項

∂æ

=1 2t2+

µ 1

n

の1次以上の項

ですからここで

n→ 1

の極限をとれば

limnR= 1

2t2

となります。また、

nR2=n Ω 1

2nt2+ µ t

n

の3次以上の項

∂æ2

= µ1

n

の1次以上の項

なのでこちらは極限をとると0である事が分かります。

nR3

等、これ以上のべきは全 て同様に0に収束しますから、結局のところ

nlim→1logMZn(t) = 1 2t2

であり、従って

nlim→1MZn(t) = e12t2

が得られることになります。これは標準正規分布の

moment generating function

に一致 しており、従って

Zn

n

が大きい時には標準正規分布で近似される事が分かります。

これは

X¯ m

を標準化したものでしたから、

pv

n

倍すれば元に戻って

rv

n

X1+· · ·+Xnnm

nv = X1+· · ·+Xn

n m= ¯Xm X¯m

は平均

0

、分散

v

n

の正規分布で近似されます。

この様に、母集団がどんな分布に従っていようとも(ただしモーメントは存在しなけ ればなりませんが)十分大きな標本サイズをとれば標本平均と母平均の差はほぼ正規分 布になっていると云う事が分かりました。

これに

m

を加えれば標本平均自身の分布と考えられますので今後はこの形で運用し て行く事が多いでしょう(中心極限定理と呼ばれています)。

今日はモーメントを使って証明しましたが、平均値と分散さえ存在すれば(つまり2

次までのモーメントさえ存在すれば)同様の事実が成り立つ事が知られています。

(4)

Revised at 00:34, November 28, 2014

統計学 第

8

http://my.reset.jp/˜gok/math/statistics/ 4

定理

8.4.1 (the central limit theorem)

平均

m

、分散

v 6= 0

である母集団

X

か らとった大きさ

n

の標本平均

X¯

n

が十分大きい時には正規分布

N°

m,vn¢

で近 似されます。

この結果と、前回見た

i.i.d.

な正規分布のファミリーに関する結果を標本平均と云う 言葉を使って表現したもの:

定理

8.4.2 N(m, v)

に従う母集団

X

からとった大きさ

n

の標本平均

X¯

は正規分 布

N°

m,vn¢

に従います。

を比べてみればよく分かりますが、標本平均と云うものは標本数が十分大きければ、母 集団がどんな分布であったとしても母集団が正規分布であった場合と(ほぼ)同じ分布 をしていることになります。統計学では正規分布が重要である、あるいは、至る所に正 規分布が現れると言われる所以です。

確かに中心極限定理の結果が示しているものは近似値であるわけですが、実際に計算 する時はその近似値を使って計算するわけですから、計算上は全く同じ計算になってし まうと云う事なのです。

多くの場合標本のサイズが50以上であればこの中心極限定理を適用して差し支えな いとされています。

8.5

問題演習

基本演習

8.1

標準正規分布に従う確率変数

X

のモーメントを、定義に従った計算:

E[Xn] = Z 1

−1

xn 1

ex22dx

によって計算して下さい。まず奇数次のモーメントが0である事を示し、偶数次に ついては漸化式を求めると良いでしょう。

基本演習

8.2

関数:

f(x) =

ex 0x 0 otherwise

を密度関数とする確率変数

X

のモーメントを計算して下さい。

基本演習

8.3

区間

[1,1]

上の一様分布のモーメントを求めて下さい。

発展演習

8.4

可算無限個の事象の列

E1, E2, . . .

があって、級数

P

nP(En)

が収束 しているとき、無限個の

En

(全部ではなく、飛び飛びの無限個でも構いません)

が同時に起る確率は0である事を示して下さい。

発展演習

8.5

密度関数が

h(x) = 12e−|x|

であるような確率変数

X

に対して

moment generating function

を求めて下さい。

発展演習

8.6 (

再掲

)

有限データに対して

Chebyshev

の不等式が成り立つ事を示し

て下さい。

発展演習

8.7 (

再掲

)

任意の正の整数

k

と任意の正数

α

に対して

P[|X| ≥α] 1

αkE[|X|k]

Markov

の不等式)

が成り立つ事を証明して下さい。

参照

関連したドキュメント

非自明な和として分解できない結び目を 素な結び目 と いう... 定理 (

テューリングは、数学者が紙と鉛筆を用いて計算を行う過程を極限まで抽象化することに よりテューリング機械の定義に到達した。

これらの定義でも分かるように, Impairment に関しては解剖学的または生理学的な異常 としてほぼ続一されているが, disability と

また、JR東日本パス (本券) を駅の指定席券売機に

基本目標2 一 人 ひとり が いきいきと活 動するに ぎわいのあるま ち づくり1.

基本目標2 一人ひとりがいきいきと活動する にぎわいのあるまちづくり 基本目標3 安全で快適なうるおいのあるまちづくり..

討することに意義があると思われる︒ 具体的措置を考えておく必要があると思う︒

自然言語というのは、生得 な文法 があるということです。 生まれつき に、人 に わっている 力を って乳幼児が獲得できる言語だという え です。 語の それ自 も、 から