観察結果、ということができます。レベニューマネジメントの例で、あるフライトの正規運賃利 用客数をX とすると、そのフライトの損失額Zは正規運賃利用客数の関数ですからZ=f(X) と表すことが出来るので、Zも確率変数になります。
シミュレーション実験結果z1, z2, ...は確率変数Z の独立な標本ということになるので、そう すると、これは確率論を使って議論しなければいけません。そこで、ちょっと大胆ですが、シ ミュレーションの実験結果は平均µ、標準偏差σの正規分布に従う確率変数である、と仮定する ことにします。大胆ですが、上のヒストグラムを見ればそれほど違和感はありません。実際、乱 数を変えて実験を「無数に」繰り返し、結果を無数に集めれば、統計の基本定理からそれらは正 規分布に従うことが保証されています。シミュレーション実験の目的は、この未知の平均µ(こ の場合は平均損失額)を推定することである、と限定しましょう。
シミュレーション実験をn回繰り返した実験結果をZ1, Z2, ..., Znとしたとき、それらの平均 値、つまり、標本平均
Z¯=Z1+Z2+...+Zn
n
を未知の平均µの推定値とするのが普通です。n→ ∞とすればZ¯→µとなることが「大数の 法則」で保証されていますし、期待値を計算すると、
E( ¯Z) = E(Z1) +E(Z2) +...+E(Zn)
n =µ
となりますから、µは標本平均Z¯に等しい、という推定の仕方は自然です。このような推定の仕 方を点推定(point estimation)といいます。
大数の法則 X1, X2, ...を独立な確率変数列とし、その期待値をµとすると、
X¯ =X1+X2+...+Xn n
はn→ ∞のときµに近づく。
しかし、標本平均値は「推定値」であって真の値でないことは世論調査やさいころ振りの場合 と同じです。そこで、世論調査の場合のような「2500調査すれば誤差は2%以内におさまる」と いうタイプの誤差の評価が必要になりますが、それは正規分布の性質を利用して求めることがで きます。
Z1, Z2, ..., Znが独立で平均µ、標準偏差σの正規分布に従うならば、それらの和は平均nµ、 分散nσ2の正規分布に従うことが分かっていますから、Z¯は平均µ、標準偏差σ/√
nの正規分 布に従うことが分かります(なぜでしょう)。となると、σ/Z−µ¯√n は標準正規分布に従うので、次の ような確率計算が可能です。
P
µZ¯−µ σ/√
n ≤z
¶
= Z z
−∞
√1
2πe−x2/2dx(≡Φ(z))
標本平均の誤差¯¯Z¯−µ¯¯がhより小さくなる確率はこの式を使って次のように評価することが 出来ます:
P¡X¯ −µ < h¢
=P
µX¯ −µ σ/√
n <h√ n σ
¶
= Φ µh√
n σ
¶
P¡X¯−µ >−h¢
=P
µX¯ −µ σ/√
n >−h√ n σ
¶
= 1−Φ µ
−h√n σ
¶
したがって
P¡¯¯X¯−µ¯¯< h¢
= 2Φ µh√
n σ
¶
−1
ここで、Φ (−z) = 1−Φ (z)という関係式を使いました。この式を使えば標本平均が真の値にど
れくらい近いかを評価することが出来ます。
たとえば、Φ (2)≈0.973ですから、h√
n/σ= 2をhについて解いて、誤差がh= 2σ/√ n以 内となる確率は約0.95であると主張できます。言い換えれば、「未知の平均値µは、標本平均プ ラスマイナス2σ/√nの範囲にある」、つまり、区間
·X¯−2√σn,X¯+ 2√σn
¸
の中に真の値µがあるはずだ、という主張は95%正しい、ということになります。この区間の ことを95%信頼区間といいます。たとえば、n= 200,X¯ = 205.7, σ= 6.4だった場合は、95%
信頼区間は[204.8,206.6]となります。
一般に
1−Φ(z) =α
をみたすzの値を標準正規分布の上側100α%点といい、zαと書くことにしますが、このzαを
使った区間表示 ·
X¯−zα/2√σ
n,X¯+zα/2√σ n
¸
のことを100(1−α)%信頼区間と言い、信頼区間を使った推定法を区間推定(interval estimation) といいます。また1−αを信頼度(あるいは信頼水準confidence level)といいます。よく使われ るαに対するzαの値を表にしておきます。
α 0.05 0.025 0.005
zα 1.645 1.96 2.58
区間推定はなんだか持って回ったようなまだるっこしい主張ですが、さいころの目のような ランダム現象を相手にしている以上やむを得ないあいまいさだと思って受け入れるしかありま せん。
練習8.10 在庫管理シミュレーションを10回繰り返した結果、平均粗利は187.6、分散は97.5 だった。粗利の期待値に対する95%信頼区間を計算しなさい。90%信頼区間はどうなりますか。
練習8.11 上で作ったExcelのシートを使い、再計算キーを使って10通りのシミュレーション 結果を記録し、それらを基に、粗利の平均値に対する95%信頼区間を計算しなさい。
8.6.3 標準偏差の推定、t分布
95%信頼区間の計算には少しごまかしがあります。それは標準偏差σの値として標本から計 算した値を使っているということです。本当はσの値も未知ですから、チョット怪しい数字で す。そういう場合は信頼区間を広めに取りなさい、というのがt分布の理論です。
t分布の理論 X1, X2, ..., Xnを平均µ、(未知の)分散σ2の正規母集団からとられた 大きさnの独立標本として、
X¯ = 1 n
Xn k=1
Xk, S= vu ut 1
n−1 Xn k=1
¡Xn−X¯¢2
とおくと、¡X¯−µ¢ /(S/√
n)は自由度n−1のt分布にしたがう。
S2は分散σ2の不偏推定量といいます。普通の分散はnで割りますが、それをn−1で割る ことにより、普通の分散よりちょっと大きめにばらつきを評価していることになります。これを 使って、上と同じように展開して行くと最後に得られる100(1−α)%信頼区間は次のようにな
ります。 ·
X¯−t(n−1)α/2 √S
n,X¯ +t(n−1)α/2 √S n
¸
ここで、tnαは自由度nのt分布の上側100α%を表す記号です。いくつかのαとnに対してこ の数字がどれくらいになるか、zαとどれくらい違うかを表にしました。
α 0.05 0.025 0.005
t(10)α 1.812 2.228 3.169 t(20)α 1.725 2.086 2.845 t(50)α 1.676 2.009 2.678
zα 1.645 1.960 2.576
これを見て分かるように、実用的に見ればデータが50もあれば、標準正規分布の確率を使って もあまり支障がないと言えます。
8.6.4 信頼区間の意味
95%当たる、という表現は降水確率90%という言い方と同じようなものですが、直感的に理 解することが難しいようですので、改めて説明しましょう。確率が0.95ということを言い換え れば、20万人の人が別々に実験を行って信頼区間を計算し、真の値はこの範囲にある、と主張し たとき、20万人中おおよそ19万人は当たっているということです。逆に言うと、1万人の主張 は「間違い」ということになります。
大ざっぱに言って20人中19人の人があっていればよい、という考え方は数理統計学でよく使 われる議論です。標本がランダムに変動するかぎり、標本すべてが極端に大きな値になってしま う確率は0ではありません。内閣の支持率だって標本の取り方によっては0%ということが起こ りえないというわけではありません。したがって、どんなケースでも100%当たるという推定を するためには推定区間を確率変数の取りうる値の最小値から最大値までとしなければなりません
(内閣支持率は0%以上100%以下であることは確実!)。これでは全く無意味な推論となってし まいます。したがって意味ある結論を導きたければ、このように、標本から得られる結論は必ず
間違える可能性がある、ということを覚悟し、95%は当たる、という表現で我慢しなければいけ ません。1回の実験でたまたま間違った結論を導き、間違った主張をする人がいるかもしれない が、そういう場合もあるさ、それはその人の責任ではないよ、というのが、数理統計学に基づく 推定結果への正しい対処の仕方です。
信頼区間が広いと推定が甘くなり、結果の信頼性が損なわれることになりますから、インチキ をして意図的に信頼区間の幅を狭くするとどういうことになるでしょうか。95%信頼区間とい うことは20人の実験結果のうち19人の結論は正しい(その区間の中に真の値が入っている)と いうことですから、それを狭くするということは「当たる」人が少なくなることを意味します。
つまり、95%も信用できない、ということになり、それを数値で表したのが信頼水準です。信頼 区間の幅を狭くする、すなわち、S/√nの係数t(n−1)α/2 を小さくした場合にはαの値が大きくな り、それだけ推定の確実性が失われます。たとえば、95%信頼区間を半分の幅に縮めると、(正 規分布で近似した場合)Φ (1)≈0.6413ですから、その狭い(見かけ上は誤差の少ない)信頼区 間の信頼水準は約68%となって、3回に1回は外れるというかなりあやふやなものになってし まいます。
ではどのようにしてαの値(したがってt(n−1)α/2 の値)をきめれば良いのか、という問題が持 ち上がりますが、この問題に対する正解はありません。95%というのは前にも書きましたが、信 頼区間を求めるときによく使われる、というだけで、特に根拠があるわけではありません。範囲 を狭くして見かけの正確さを強調するか、外れたときのリスクを回避するために範囲を大きめに 取るか、それはこの結果を使う人次第です。特に理由がなければ習慣にしたがって95%として おきましょう。
8.6.5 実験回数と実験精度
信頼区間の幅は実験回数nの平方根に反比例していますから、実験回数を増やせば、信頼水準 を落とすことなく誤差の小さい推定が可能です。シミュレーションで推定する場合、答えの誤差 の許容範囲が与えられる場合があります。たとえば相対誤差1%の範囲で推定するという場合、
相対誤差は最大誤差を平均値で割ったものですので、
1
µt(n−1)α/2 √S
n <0.01⇔n >10000 µ
t(n−1)α/2 S µ
¶2
という不等式を満たすような実験回数が必要になります。µは未知ですので標本平均値で代用
し、t(n−1)α/2 の変わりにzα/2を使って概算すると、前に挙げた数値例では標本平均、不偏分散が
それぞれ205.7,6.42でしたから、α= 0.05として、
n >10000 µ
2 6.4 205.7
¶2
を満たす最小のn、つまり39回の実験が必要だということになります。
一般に、許容相対誤差をεとすると n >
µ1 ε
¶2µ t(n−1)α/2 S
µ
¶2
と表されます。誤差の大きさを半分にしようとすると、実験回数は4倍になります。標本の大き さは計算時間と比例関係にあり、計算時間は費用と比例関係にあると考えると、有効桁をもう1