• 検索結果がありません。

8 標本平均と中心極限定理

N/A
N/A
Protected

Academic year: 2021

シェア "8 標本平均と中心極限定理"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

Revised at 23:10, June 6, 2016 統計学 第8 http://my.reset.jp/˜gok/math/statistics/ 1

8 標本平均と中心極限定理

8.1 独立な正規分布の和

正規分布N(0, t)の密度をNt(x)としてN1N1を計算してみると、

(N1N1)(x) = Z 1

−1

1

e(x2y)2 1

ey

2 2 dy

= 1

Z 1

−1

e

y2xy+x22¥

dy

= 1 ex42

Z 1

−1

e(yx2)2dy

となります。更にyx2 =zと云う風に変数変換すれば、Gauß積分が出て来て

(N1N1)(x) = 1 ex

2 4

Z 1

−1

ez2dz= 1

·2ex

2

2·2 =N2(x)

が得られますから、丁度分散が1 + 1 = 2の正規分布になっている事が分かります。

同様に計算すれば、一般の分散の場合も分散の和:NsNt=Ns+tとなる事が分か ります(演習問題)。

また、平均が0でない場合やn個の独立な正規分布N(m, t)の和については X1+· · ·+Xn = (X1m) +· · ·+ (Xnm) +nm

から平均nm、分散ntの正規分布に従う事が分かり、次の結果が得られます:

定理8.1.1 独立な確率変数X1, . . . , Xnは全て平均値m、分散t >0の正規分布に 従うものと仮定します。

このときX1+···n+Xn は正規分布N° m,nt¢

に従います。

袋の中に正規分布N(m, t)が入っているとし、この袋からn回復元抽出した結果を X1, . . . , Xnとしましょう。このとき各Xjは全て同じ分布N(m, t)に従い、独立です。

つまりX1, . . . , Xnは上の定理の仮定を満たしていますからその主張が成り立ち、n が十分大きければn回の復元抽出の結果の平均値はmのごく近くに密集する事になり ます。

8.2 標本平均

統計処理/分析の対象となるデータ(あるいはくじ引きの結果としての確率変数)を 母集団と呼びます。

母集団としては現実に目の前にある数値の集まりだけでなく、実際に採集されたわけ ではない(不可能な場合もあるでしょう)けれども、想像上の話として考える事が出来 るようなデータも扱います。

例えばある工場である日1日のうちに生産される全ての製品の重量など、こんなもの をいちいち全て量るわけにはいきませんが、仮に量ったとすればそう云うデータを空想 する事は出来ます。このような場合、母集団は想像上のデータですから色んな意味で未 知のデータと言えるでしょう。

そして未知の母集団の様子を窺うために、この母集団からn個の数値を独立に、そ して無作為にサンプルとして取り出して調査する事を考えます。

具体的にはn回復元抽出をするわけですが、どんなn個の数値の組が出て来るかは 復元抽出をする度にランダムに変わるわけで、その全体を考えればこれはn個の(ある いはn次元の)確率変数であると考えられます。そうして得られたn個の確率変数は独 立であり、1つ1つは同じくじ引きの結果ですから全て母集団と同じ分布に従います。

この様に独立で同じ分布に従う確率変数のファミリーは今後略してi.i.d. independent and identically distributed)であると言います。

定義8.2.1 母集団と同じ分布に従うi.i.d.n個の確率変数のファミリーを、この

母集団からとった大きさnの標本と呼びます。

この講義では、一貫して復元抽出の結果の総体を表す確率変数を『標本』と呼び、実 際の抽出によって得られる具体的な数値の事を『サンプル』と呼んで区別する事にしま す。具体的なサンプルは標本と云う確率変数の1つの実現値です。

定義8.2.2 母集団Xからとった大きさnの標本X1, . . . , Xnに対して、

X¯ = X1+· · ·+Xn

n

で定まる確率変数X¯を、この母集団からとった大きさnの標本平均と言います。

(2)

Revised at 23:10, June 6, 2016 統計学 第8 http://my.reset.jp/˜gok/math/statistics/ 2 確率変数である標本平均の1つの実現値は、具体的なn個のサンプルの平均値になっ

ています。逆に言えば、実際にn個の数値をサンプルとして取り出した時にどんな数 値が出るかはランダムでしたからその平均値もランダムであって、その可能性の総体を 確率変数として考えたものがこの標本平均であると言えます。

母集団が平均m・分散vをもつ場合、多次元確率変数の成分の和についての知識から E[ ¯X] =m, V ar[ ¯X] = v

n

である事を既に知っています。従って標本の大きさが非常に大きければX¯ の分散は非 常に小さい事になり、平均値である母平均のまわりに密集している事が分かります。つ まり、非常に大きなサンプルをとれば、その平均値は母平均からそう離れた値にはなら ないだろうと云う事になります。

8.3 モーメントとそのgenerating function

確率変数Xの分散はX2の平均値に関連していましたが、一般に3次以上のXn 平均値も扱う場合があり、これらは存在するならばモーメント(積率)と呼ばれます。

例えば区間(1,1)上の一様分布の平均値は0、分散は 13ですから、1・2次のモー メントは正規分布N°

0,13¢

と同じですが、これらは全く別の分布をしています。しか し、これが3次、4次と続いた場合、つまり、任意の次数のモーメントが等しいような 場合には実は2つの確率変数は同じ分布に従うことが知られています。

指数関数exTaylor展開を使えば E[etX] =E

1 +tX+ 1

2!t2X2+· · ·

= 1 +tE[X] + 1

2!t2E[X2] +· · · (8.1) ですから、展開式の係数が丁度モーメントになっている(階乗は除く)事が分かりま す。ただしモーメントは存在しない事もありますし、期待値E[etX]が存在しない事も あります。

このE£ etX§

の事を(もちろん存在する場合に限りますが)Xの積率母関数(moment generating function)と呼び、この講義では多くの場合記号MX(t)で表します。

2つの確率変数があってmoment generating functionが等しければ全てのモーメント も等しい事が分かりますから、その場合は確率変数同士が同じ分布に従う事が言えます。

独立な確率変数X, Y の和のmoment generating functionを計算してみると、etX etY も独立ですから

MX+Y(t) =Eh

et(X+Y)i

=E£ etXetY§

=E£ etX§

E£ etY§

=MX(t)MY(t) となってそれぞれのmoment generating functionの積になります。

また、W moment generating functionMW(t)であるとき、その定数倍aW moment generating functionMaW(t)

MaW(t) =E[et(aW)] =E[e(at)W] =MW(at) となる事も注意しておきます。

例えば標準正規分布に従う確率変数Xmoment generating functionは、簡単な計 算により

MX(t) =E[etX]

= Z 1

−1

etx 1

e12x2dx

= Z 1

−1

1

e12x2+txdx

= Z 1

−1

1

e12{(xt)2t2}dx

= e12t2 Z 1

−1

1

e12(xt)2dx

= e12t2 Z 1

−1

1

e12y2dy

= e12t2 となる事が分かります。

もちろん各次数のモーメントを計算して展開式を求める事によって計算する事も出来 ます。

(3)

Revised at 23:10, June 6, 2016 統計学 第8 http://my.reset.jp/˜gok/math/statistics/ 3

8.4 the central limit theorem

平均m・分散v >0である母集団X からとった大きさnの標本X1, . . . , Xnを考え ます。このとき標本平均X¯ nを大きくすれば母平均m付近に密集する事を先に見ま したが、このときの誤差、つまりX¯mの分布はどうなっているでしょうか。

X¯ m= X1+· · ·+Xnnm

n = (X1m) +· · ·+ (Xnm) n

は平均値0、分散 v

n をもちますから、これを標準化した(つまり標準偏差pv

n で割っ た)ものであるZn= (X1m)+···nv+(Xnm)について調べてみましょう。

まず

Zn=

X1m

v +· · ·+Xnvm

n

である事に注意します。すると分子のYj = XjvmXjを標準化したものであって、

それぞれ平均値0、分散1ですからそのmoment generating functionMYj(t)のべき級数 展開は

MYj(t) = 1 +1

2t2+(3次以上の項)

です。従ってそれらの独立和である分子Y1+· · ·+Yn= X1vm+· · ·+Xnvmmoment generating functionM(t)

M(t) = Ω

1 +1

2t2+(3次以上の項)

æn

になりますから、標準化された確率変数Znmoment generating functionMZn(t)は、

先に見た定数倍とmoment generating functionの関係から、

MZn(t) = Ω

M µ t

n

∂æn

= Ω

1 + 1 2nt2+

µ t

n の3次以上の項

∂æn

と書ける事が分かります。

ここで定数項以外の部分をRと書くことにして対数をとれば、nが十分大きいとき nを分母に含むRの部分は|R|<1ですからlog(1 +R)Taylor展開式から

logMZn(t) =nlog(1 +R)

=n µ

R1 2R2+1

3R3− · · ·

=nR1

2nR2+1

3nR3− · · ·

となります。

するとまず nR=n

Ω 1 2nt2+

µ t

n の3次以上の項

∂æ

=1 2t2+

µ 1

n の1次以上の項

ですからここでn→ 1の極限をとれば limnR= 1

2t2 となります。また、

nR2=n Ω 1

2nt2+ µ t

n の3次以上の項

∂æ2

= µ1

nの1次以上の項

なのでこちらは極限をとると0である事が分かります。nR3等、これ以上のべきは全 て同様に0に収束しますから、結局のところ

nlim→1logMZn(t) = 1 2t2 であり、従って

nlim→1MZn(t) = e12t2

が得られることになります。これは標準正規分布のmoment generating functionに一致 しており、従ってZnnが大きい時には標準正規分布で近似される事が分かります。

これはX¯ mを標準化したものでしたから、pv

n 倍すれば元に戻って rv

n

X1+· · ·+Xnnm

nv = X1+· · ·+Xn

n m= ¯Xm X¯mは平均0、分散 v

n の正規分布で近似されます。

この様に、母集団がどんな分布に従っていようとも(ただしモーメントは存在しなけ ればなりませんが)十分大きな標本サイズをとれば標本平均と母平均の差はほぼ正規分 布になっていると云う事が分かりました。

これにmを加えれば標本平均自身の分布と考えられますので今後はこの形で運用し て行く事が多いでしょう(中心極限定理と呼ばれています)。

今日はモーメントを使って証明しましたが、平均値と分散さえ存在すれば(つまり2 次までのモーメントさえ存在すれば)同様の事実が成り立つ事が知られています。

(4)

Revised at 23:10, June 6, 2016 統計学 第8 http://my.reset.jp/˜gok/math/statistics/ 4

定理 8.4.1 (the central limit theorem) 平均m、分散v 6= 0である母集団X らとった大きさnの標本平均X¯ nが十分大きい時には正規分布N°

m,vn¢ で近 似されます。

この結果と、前回見たi.i.d.な正規分布のファミリーに関する結果を標本平均と云う 言葉を使って表現したもの:

定理 8.4.2 N(m, v)に従う母集団Xからとった大きさnの標本平均X¯ は正規分 N°

m,vn¢に従います。

を比べてみればよく分かりますが、標本平均と云うものは標本数が十分大きければ、母 集団がどんな分布であったとしても母集団が正規分布であった場合と(ほぼ)同じ分布 をしていることになります。統計学では正規分布が重要である、あるいは、至る所に正 規分布が現れると言われる所以です。

確かに中心極限定理の結果が示しているものは近似値であるわけですが、実際に計算 する時はその近似値を使って計算するわけですから、計算上は全く同じ計算になってし まうと云う事なのです。

多くの場合標本のサイズが50以上であればこの中心極限定理を適用して差し支えな いとされています。

8.5 問題演習

基本演習8.1 正規分布N(0, t)の密度関数をNtで表します。NsNt=Ns+tとな る事を示して下さい。ただしGauß積分R1

−1ex2dx=

πは既知とします。

基本演習8.2 標準正規分布に従う確率変数Xのモーメントを、定義に従った計算:

E[Xn] = Z 1

−1

xn 1

ex22dx

によって計算して下さい。まず奇数次のモーメントが0である事を示し、偶数次に ついては漸化式を求めると良いでしょう。

基本演習8.3 関数:

f(x) =

ex 0x 0 otherwise

を密度関数とする確率変数Xのモーメントを計算して下さい。

基本演習8.4 区間[1,1]上の一様分布のモーメントを求めて下さい。

発展演習8.5 密度関数がh(x) = 12e−|x|であるような確率変数Xに対してmoment generating functionを求めて下さい。

参照

関連したドキュメント

非自明な和として分解できない結び目を 素な結び目 と いう... 定理 (

テューリングは、数学者が紙と鉛筆を用いて計算を行う過程を極限まで抽象化することに よりテューリング機械の定義に到達した。

2(1)健康リスクの定義 ●中間とりまとめまでの議論 ・第

基本目標2 一 人 ひとり が いきいきと活 動するに ぎわいのあるま ち づくり1.

基本目標2 一人ひとりがいきいきと活動する にぎわいのあるまちづくり 基本目標3 安全で快適なうるおいのあるまちづくり..

自然言語というのは、生得 な文法 があるということです。 生まれつき に、人 に わっている 力を って乳幼児が獲得できる言語だという え です。 語の それ自 も、 から

わが国の障害者雇用制度は「直接雇用限定主義」のもとでの「法定雇用率」の適用と いう形態で一貫されていますが、昭和

では恥ずかしいよね ︒﹂と伝えました ︒そうする と彼も ﹁恥ずかしいです ︒﹂と言うのです