ばらつきのまとめ方

観察結果、ということができます。レベニューマネジメントの例で、あるフライトの正規運賃利用客数をX とすると、そのフライトの損失額Zは正規運賃利用客数の関数ですからZ=f(X) と表すことが出来るので、Zも確率変数になります。

シミュレーション実験結果z1, z2, ...^{は確率変数}Z の独立な標本ということになるので、そうすると、これは確率論を使って議論しなければいけません。そこで、ちょっと大胆ですが、シミュレーションの実験結果は平均µ^{、標準偏差}σの正規分布に従う確率変数である、と仮定することにします。大胆ですが、上のヒストグラムを見ればそれほど違和感はありません。実際、乱数を変えて実験を「無数に」繰り返し、結果を無数に集めれば、統計の基本定理からそれらは正規分布に従うことが保証されています。シミュレーション実験の目的は、この未知の平均µ（この場合は平均損失額）を推定することである、と限定しましょう。

シミュレーション実験をn回繰り返した実験結果をZ₁, Z₂, ..., Z_nとしたとき、それらの平均値、つまり、標本平均

Z¯=Z1+Z2+...+Zn

を未知の平均µの推定値とするのが普通です。n→ ∞^とすればZ¯→µ^{となることが「大数の} 法則」で保証されていますし、期待値を計算すると、

E( ¯Z) = E(Z₁) +E(Z₂) +...+E(Z_n)

n =µ

となりますから、µ^{は標本平均}Z¯に等しい、という推定の仕方は自然です。このような推定の仕方を点推定（point estimation^{）といいます。}

大数の法則 X1, X2, ...を独立な確率変数列とし、その期待値をµ^{とすると、}

X¯ =X₁+X₂+...+X_n n

はn→ ∞^のときµ^{に近づく。}

しかし、標本平均値は「推定値」であって真の値でないことは世論調査やさいころ振りの場合と同じです。そこで、世論調査の場合のような「2500^{調査すれば誤差は}2%^{以内におさまる」と} いうタイプの誤差の評価が必要になりますが、それは正規分布の性質を利用して求めることができます。

Z₁, Z₂, ..., Z_n^{が独立で平均}µ^{、標準偏差}σの正規分布に従うならば、それらの和は平均nµ^、分散nσ²の正規分布に従うことが分かっていますから、Z¯^は平均µ^{、標準偏差}σ/√

n^の正規分布に従うことが分かります（なぜでしょう）。となると、_σ/^Z−µ^¯√n は標準正規分布に従うので、次のような確率計算が可能です。

µZ¯−µ σ/√

n ≤z

= Z _z

−∞

√1

2πe^−x²^/2dx(≡Φ(z))

標本平均の誤差¯¯Z¯−µ¯¯_がhより小さくなる確率はこの式を使って次のように評価することが出来ます：

P¡X¯ −µ < h¢

µX¯ −µ σ/√

n <h√ n σ

= Φ µh√

n σ

P¡X¯−µ >−h¢

µX¯ −µ σ/√

n >−h√ n σ

= 1−Φ µ

−h√n σ

したがって

P¡¯¯X¯−µ¯¯< h¢

= 2Φ µh√

n σ

−1

ここで、Φ (−z) = 1−Φ (z)という関係式を使いました。この式を使えば標本平均が真の値にど

れくらい近いかを評価することが出来ます。

たとえば、Φ (2)≈0.973^{ですから、}h√

n/σ= 2^をhについて解いて、誤差がh= 2σ/√ n^以内となる確率は約0.95であると主張できます。言い換えれば、「未知の平均値µは、標本平均プラスマイナス2σ/√nの範囲にある」、つまり、区間

·X¯−2√σn,X¯+ 2√σn

の中に真の値µがあるはずだ、という主張は95%正しい、ということになります。この区間のことを95%信頼区間といいます。たとえば、n= 200,X¯ = 205.7, σ= 6.4^{だった場合は、}95%

信頼区間は[204.8,206.6]^{となります。}

一般に

1−Φ(z) =α

をみたすzの値を標準正規分布の上側100α%^{点といい、}zαと書くことにしますが、このzαを

使った区間表示 ·

X¯−z_α/2√σ

n,X¯+z_α/2√σ n

のことを100(1−α)%信頼区間と言い、信頼区間を使った推定法を区間推定（interval estimation）といいます。また1−αを信頼度（あるいは信頼水準conﬁdence level）といいます。よく使われるα^に対するz_αの値を表にしておきます。

α 0.05 0.025 0.005

z_α 1.645 1.96 2.58

区間推定はなんだか持って回ったようなまだるっこしい主張ですが、さいころの目のようなランダム現象を相手にしている以上やむを得ないあいまいさだと思って受け入れるしかありません。

練習8.10 在庫管理シミュレーションを10回繰り返した結果、平均粗利は187.6^、分散は97.5 だった。粗利の期待値に対する95%信頼区間を計算しなさい。90%信頼区間はどうなりますか。

練習8.11 ^{上で作った}Excelのシートを使い、再計算キーを使って10通りのシミュレーション結果を記録し、それらを基に、粗利の平均値に対する95%信頼区間を計算しなさい。

8.6.3 標準偏差の推定、t分布

95%信頼区間の計算には少しごまかしがあります。それは標準偏差σ^{の値として標本から計} 算した値を使っているということです。本当はσの値も未知ですから、チョット怪しい数字です。そういう場合は信頼区間を広めに取りなさい、というのがt^{分布の理論です。}

t^{分布の理論} X1, X2, ..., Xnを平均µ^、^{（未知の）分散}σ²の正規母集団からとられた大きさn^{の独立標本として、}

X¯ = 1 n

Xn k=1

Xk, S= vu ut 1

n−1 Xn k=1

¡Xn−X¯¢₂

とおくと、¡X¯−µ¢ /(S/√

n)^は自由度n−1^のt^{分布にしたがう。}

S²^は分散σ²の不偏推定量といいます。普通の分散はn^{で割りますが、それを}n−1^で割ることにより、普通の分散よりちょっと大きめにばらつきを評価していることになります。これを使って、上と同じように展開して行くと最後に得られる100(1−α)%信頼区間は次のようにな

ります。 ·

X¯−t⁽ⁿ⁻¹⁾_α/2 √S

n,X¯ +t⁽ⁿ⁻¹⁾_α/2 √S n

ここで、tⁿ_αは自由度nのt分布の上側100α%を表す記号です。いくつかのαとnに対してこの数字がどれくらいになるか、z_αとどれくらい違うかを表にしました。

α 0.05 0.025 0.005

t⁽¹⁰⁾α 1.812 2.228 3.169 t⁽²⁰⁾α 1.725 2.086 2.845 t⁽⁵⁰⁾α 1.676 2.009 2.678

z_α 1.645 1.960 2.576

これを見て分かるように、実用的に見ればデータが50もあれば、標準正規分布の確率を使ってもあまり支障がないと言えます。

8.6.4 ^{信頼区間の意味}

95%当たる、という表現は降水確率90%という言い方と同じようなものですが、直感的に理解することが難しいようですので、改めて説明しましょう。確率が0.95ということを言い換えれば、20万人の人が別々に実験を行って信頼区間を計算し、真の値はこの範囲にある、と主張したとき、20^{万人中おおよそ}19万人は当たっているということです。逆に言うと、１万人の主張は「間違い」ということになります。

大ざっぱに言って20^人中19人の人があっていればよい、という考え方は数理統計学でよく使われる議論です。標本がランダムに変動するかぎり、標本すべてが極端に大きな値になってしまう確率は0ではありません。内閣の支持率だって標本の取り方によっては0%^{ということが起こ} りえないというわけではありません。したがって、どんなケースでも100%^{当たるという推定を} するためには推定区間を確率変数の取りうる値の最小値から最大値までとしなければなりません

（内閣支持率は0%以上100%以下であることは確実！）。これでは全く無意味な推論となってしまいます。したがって意味ある結論を導きたければ、このように、標本から得られる結論は必ず

間違える可能性がある、ということを覚悟し、95%は当たる、という表現で我慢しなければいけません。１回の実験でたまたま間違った結論を導き、間違った主張をする人がいるかもしれないが、そういう場合もあるさ、それはその人の責任ではないよ、というのが、数理統計学に基づく推定結果への正しい対処の仕方です。

信頼区間が広いと推定が甘くなり、結果の信頼性が損なわれることになりますから、インチキをして意図的に信頼区間の幅を狭くするとどういうことになるでしょうか。95%^{信頼区間とい} うことは20^{人の実験結果のうち}19人の結論は正しい（その区間の中に真の値が入っている）ということですから、それを狭くするということは「当たる」人が少なくなることを意味します。

つまり、95%も信用できない、ということになり、それを数値で表したのが信頼水準です。信頼区間の幅を狭くする、すなわち、S/√nの係数t⁽ⁿ⁻¹⁾_α/2 を小さくした場合にはα^{の値が大きくな} り、それだけ推定の確実性が失われます。たとえば、95%信頼区間を半分の幅に縮めると、（正規分布で近似した場合）Φ (1)≈0.6413ですから、その狭い（見かけ上は誤差の少ない）信頼区間の信頼水準は約68%^{となって、}3^回に1回は外れるというかなりあやふやなものになってしまいます。

ではどのようにしてα^{の値（したがって}t⁽ⁿ⁻¹⁾_α/2 の値）をきめれば良いのか、という問題が持ち上がりますが、この問題に対する正解はありません。95%というのは前にも書きましたが、信頼区間を求めるときによく使われる、というだけで、特に根拠があるわけではありません。範囲を狭くして見かけの正確さを強調するか、外れたときのリスクを回避するために範囲を大きめに取るか、それはこの結果を使う人次第です。特に理由がなければ習慣にしたがって95%^としておきましょう。

8.6.5 実験回数と実験精度

信頼区間の幅は実験回数nの平方根に反比例していますから、実験回数を増やせば、信頼水準を落とすことなく誤差の小さい推定が可能です。シミュレーションで推定する場合、答えの誤差の許容範囲が与えられる場合があります。たとえば相対誤差1%の範囲で推定するという場合、

相対誤差は最大誤差を平均値で割ったものですので、

µt⁽ⁿ⁻¹⁾_α/2 √S

n <0.01⇔n >10000 µ

t⁽ⁿ⁻¹⁾_α/2 S µ

¶₂

という不等式を満たすような実験回数が必要になります。µは未知ですので標本平均値で代用

し、t⁽ⁿ⁻¹⁾_α/2 ^{の変わりに}z_α/2を使って概算すると、前に挙げた数値例では標本平均、不偏分散が

それぞれ205.7,6.4²^{でしたから、}α= 0.05^として、

n >10000 µ

2 6.4 205.7

¶₂

を満たす最小のn^、つまり39回の実験が必要だということになります。

一般に、許容相対誤差をε^とすると n >

µ1 ε

¶₂µ t⁽ⁿ⁻¹⁾_α/2 S

¶₂

と表されます。誤差の大きさを半分にしようとすると、実験回数は４倍になります。標本の大きさは計算時間と比例関係にあり、計算時間は費用と比例関係にあると考えると、有効桁をもう１

ドキュメント内 ii (ページ 96-106)