拡張超幾何分布の正規近似
(昭和54年8月31日受理)
On the Normal Approximation of the Extended
Hypergeometric Distribution
志村健一
久世紀之
Ken-ichiSHIMURA NoriyukiKUZE
AbstractThe normal approximation of extended hypergeometric distribution is studied from the
viewpoint of its mean, variance, skewness and kurtosis. The absolute and relative errorsof the approximate moments are numerically evaluated and graphically displayed. The
true values of those moments are computed by a newly devised method. It is observed that the relative errors of the mean and variance, and the absolute error of the kurtosis are decreased in the order of 1/n and that the absolute error of the skewness is of the order of 1/1/万, where n denotes the size of the population・Aformula empirically corrected for the approximate variance is proposed. In the
appelldix, several figures for the exact probabilities of extended hypergeometric distribution a「e glven・1・序
論2つの母集団を対象として二者択一式の質問を行っ
た場合,あるいは1つの母集団に対し2種類の二者択
一式の質問を行った場合,その結果は表一1のような
2×2分割表として表現できる。nidは各セルの度数を
表し,nto,ηoプは周辺和を表す。 iと元は1,2を値
にとる。添字の0はその添字についての和を示す。た
とえぽnlO=nl、+n12である。またnはセル度数の
総和を表すものとする。この分割表に対して,次の対
数交積比(log cross product ratio)λが定義される。 λ=109(Mll・M22/M12・M21)ここでmitiは各セルの期待度数を表す。
λは分割表の連関係数の一つと考えられる。得られ
たデータからこのλについての推測を行うことが2×
2分割表での重要な問題の一つとなる。
表一12×2分割表
nll n12 n21 n22 nol no2 n10 n20n
今nio,ηo元が与えられ,λが与えられたと仮定する。
このときnllは次の確率分布に従うことが導かれる1)。
h(n・・;n… n・カλ)=∫1λ)・芸蒜 (1・1) t,ゴ ここで,f(z)一遵,鎧 (・・2)
z,」 レ=max(0, nlo十nol−n),ω=min(nlo, nol), 17η乞ゴ!=n、、!・n12!・n2、!・n22! (1.3) 乞,ゴ特にλ=0の場合,
ω 1 n! f(°)=蕊恐・!n・・!・n・・!・n・1!・n・2! となることから, (1.1)は h(nll;n…n・bO)=(:1?)・(》;1)/(:。、) (1.4)と書ける。(1.4)は超幾何分布にほかならない。この
ことより(1.1)は拡張超幾何分布と呼ぼれる。 しか
し,この分布に関連する諸々の計算は,例えぽ平均で
さえ複雑な計算を要し,nが大きくなると実際上計算
不能であった。それでこの分布のいろいろな場合に対
一65一
して近似が考えられている。本論文では,拡張超幾何
分布の正規分布による近似を考える。その近似可能性
の一つの証明をCorn丘eld(1956)2)が概略的に与え,
また別の証明法をHannan&Harkness(1g63)3)が
論じている。しかし現実の応用には近似の程度,すなわちnが
大きくなるに従ってどの程度近似がよくなるかを各種
の観点から知らなけれぽならない。具体的に与えられ
たデータに対し,そこで正規近似を使う妥当性につい
て判断の根拠が必要であると考える。今回は,平均,
分散,歪み,尖り等のモーメントの観点からその近似
の程度を考察する。特にnOl=nlo=n/2の場合を中心
に考える。そしてこれらのモーメントとnとの関係
について,応用上有効だと考えられる実験的結果を得
たのでここに報告する。
近似の程度は,モーメントの真の値とその近似値と
の比較を通して論じられる。このため拡張超幾何分布
の正確な確率の計算が必要である。一般に,離散分布
の確率計算には漸化式を使うのが有効である。通常
は,n11=0の場合の確率を計算してそれを初期値とし
て漸化式をni1=1,2…について進める方法,あるいは
n11=0の時の(1.1)の値を仮に1として漸化式によ
り計算を進め,最後に全体の確率の和が1になるよう
に正規化する方法が用いられる。いずれの方法も,正
規分布への近似が問題になるような大きなnの値に
対しては数値計算上,オーバーフローを起すなどの欠
点があり,数百程度の小さなnの値にしか適用でき
ない。漸化式を使わず(1.1)の109を各nllについ
て計算すれぽ確率は求まるが,計算所要時間や精度の
点で現実的方法とならない。
よって,本研究では次のような計算方法を工夫し
た。まず,確率分布のモード付近の点nllを求めてそ
こでの関数値を仮りに1とする。それを出発値として
漸化式を両方向に進める。適当に関数値が小さくなっ
たところで進行を打ち切り,全体の確率の和が1とな
るように正規化する。この方法により数十万の大きな
nに対しても確率の計算が可能になった。
以下2章で拡張超幾何分布の二,三の性質,および
この分布の正規近似について述べる。3章では拡張超
幾何分布の平均,分散,歪み,ならびに尖りの4種の
モーメントの真値の表を与えた後,λを固定してnを
変化させた時の各近似モーメントの真値からの誤差を
両対数グラフに表し,近似の程度について考察する。
なお付録として拡張超幾何分布の正確な確率分布図
を収録するg9の種のグラフの形状を把握しておくこ
とも重要であると考える。
2・正規近似とモーメント
最初に,拡張超幾何分布の正規近似に対するCorn・
丘eld(1956)2)の結果を引用する。「次式を満たすmi」*が一意的に存在する。
2 2 Σ〃初*=nio,Σmi」*=n。」(i=1,2;元=1,2), ゴロ1 ゴ=1 10g(Mll*・M22*/M12*・M21*)=λ. (2.1) nio, noプカミπ10/n→π10, no1/n→7ごOl,0<π10〈1,0〈πOI<1,
とする。Nl1を(1.1)に与えた確率を持つ確率変数
とすると,x−(Nl1−m11*)・(赤+☆
+嘉+毒)÷(2・2)
は漸近的に標準正規分布に従う。」
つまりN、、についての平均,分散,歪み,および
尖りは漸近的にそれぞれ
z一硫♂一(1十1十1十1Mll*M12*M21*M22*);’ β1=0,β2=3. (2.3)† となる。つぎに,(2.1)を満たすmij*の求め方を述べる。
2×2分割表の場合は直接に解を求めることが可能で
ある。特にnlo/n=nOl/n・=n/2の場合,
⊥
Mll*−9・ε竺 (2・4)
1十e2
となる。しかしここでは一般のr×5分割表の場合で
も使用可能な次の反復法を使う。まずMll*をeλ,残
りを1とする。つぎに行の周辺和がnio (i=1,2)に
等しくなるように各行を定数倍する。さらに列の周辺
和がηoゴ(元=1,2)に等しくなるように各列を定数倍
する。行と列への以上の操作を行和,列和とnio,μoプ
との差が適当に小さくなるまで続ける廿。行への操作
は,λの分子分母に同じ行の要素が1つずつ含まれる
ことから,λの値を変えない。列への操作も同様にλ
を変えない。 †β1=μ3/σ3,β2=μ4/04.ここでμ、は平均値まわりのα次モーメントを示す。チィルダー(∼)は
漸近分布でのモーメソトを示す。
††この手続きの収束性と解の一意性はSinkhorn
(1967).Diagonal equivalence to matrices withprescribed row and column sums, Amer.
Math. Mon.,74,402・5・表一2Coxによる平均,分散の近似値の例
r
λ 期 待 値 分 散T
T
0.5 0.25 0.5 1.0 2.6736 2.8472 3.1944 2.6734 2.8455 3.1810 .69440 .69440 .69440 .69187 .68420 .65509 0.2 0.25 0.5 1.0 .47111 .54222 .68444 .47500 .55720 .7387 .31644 .34844 .41244 .31500 .34190 .38040 A:近似値,T:真の値, r=nlo/n= nOl/n, n=10拡張超幾何分布のモーメントについては,Cox
(1958)4)による次の結果がある。 E(Nl 1;λ)=κ、+κ2・λ+0(λ2), V(Nl 1;A)=κ2+κ3・λ+O(Z2).ここではκ。は超幾何分布のα次のキュムラントを表
し,0(・)はランダウの記号である。これはλが小さ
いとき有効である。数値例を表一2に示した。平均の
上限,下限などさらに詳しいモーメントの検討は,
Harkness(1965)5)にある。つぎに拡張超幾何分布の漸化式を示し,続いてこれ
を使い,拡張超幾何分布の単峰性を示す。この分布の
漸化式は次式で与えられる。
ん(nll十1;λ)=θλ・ (n10−nll)(nOl−nn) (nll+1)(n−no一nlo+nll十1) h(n11;λ) (2.5)ここで次のようなg(nll)なる関数を考える。
9(・11)−n・…(eλ一・)一・11・{(・L・)(n・・ +n・1)+n+2}+e・・nl・・n・1−(n−n1・ −no1十1). (2.6) (2.5)のh(nll;λ)の係数との関係から, g(nll)≧0 はh(nll十1;λ)≧h(nll;λ)を, g(nll)≦0はh(nl1 +1;め≦h(n11;Z)を示す。 nlo≦no1,つまり(1.3) よりca・・=・nloとしても一般性は失わない。単峰性が崩れるのは,g(nll)が2実根α,βを持ち,
v<α,β<ω一1 (2.7)となる場合である。(2.6)について次式が成立するこ
とに注意する。 g(nlo)=(nlo十1)(no一n−1)〈0 (2.8)上式を考慮すると(2.7)を満たすのは(2.6)の係数
ελ一1が負で2根α,βが正の場合だけである。2根
が正のための条件は根と係数の関係より次のようにな
る。 n・・+n・・+。《誓〉・・,、と、{・・ nl・n・・ 一(n−nl・−n・・+・)}〉・θλ一1が負の場合であることに注意すると
nlo+no一n>2, nlo+no一n〈1
となる。よって(2.7)を満たす2実根α,βは存在し
ない。以上より拡張超幾何分布が単峰性を持つことが
わかる。これによりモードを出発値として1章で述べ
た算法をこの分布に適用できる。
最後にnlo =・ nOl=n/2に対し, h (nii;Z)のλとnllに関するある種の対称性,すなわち
h(nll;一λ):=h(n/2−nn;λ) (2・9) の成立を示す。nlo=no1=n/2の場合(1.1),(1.2)は次式で書け
る。(忽2ア・eX・n (2.、。)
h(n11;λ)= 竃(n5 2)2・e…分子について次の関係があることに注意する。
鄭2ア・・』λ雪(n52)ジ・(2…)
上式と(n/2n/2一ツ)一(n52)とから・ h、(n/2−。n、、)一(忽2yゾ(s’一”n)・『・竃(n52)ゲ・
=h(nll;一λ)
が得られ,(2.9)の対称性が示された。この対称性によりnlo=no1=n/2の場合はλが正
のときだけ調べれぽよいことがわかる。
3.モーメントの近似について
拡張超幾何分布と対応する正規分布とについて,平
均,分散,歪み,ならびに尖りに関して近似の程度を
数値例を使い考察する。
(1.1)の拡張超幾何分布には,n, nlo, no1,λと4つのパラメータがある。本論文では正規近似の検討の
第1報として
nlO/n =nOl/n=rの場合を取りあげる。r=0・5の場合を中心に数値例
一67一
を示す。またrが0.5では2節の後半で示したよう
に,正しくλと一λとはn/4に関して対称である。
それゆえλは正の場合に限った。さらにrが0.5以
上ではnll’=n−no一nlO+n11なる変数変換でrが
0.5以下の場合に帰着する。よってγも0.5以下に限
った。計算はFACOM 230−45 Sで行った。単精度計
算だとnが5000以上になると誤差の影響が大きくな
る。そこですべて倍精度計算を行っている。
表一3から表一6に拡張超幾何分布の数値計算によ
る真の平均,分散,歪み,尖りを示した。表一7はr
が0.5のときの平均について近似値と真の値との絶対
誤差と相対誤差を示したものである。次に誤差の傾向
を見るために図一1には平均についての相対誤差を両
対数グラフ上にプロットした。同様に図一2は分散に
ついての相対誤差を,図一3,図一4はそれぞれ歪み
と尖りとの絶対誤差を両対数グラフとして表したもの
である。いずれの図も横軸はnで10,20,50,100,
200,500,1000,2000,5000,10000の場合のデータ
である。λの値はグラフが重ならないものでしかも特
徴的なものを選んだ。
表一3拡張超幾何分布の平均
λ 0.0 1.0 2.0 3.0 4.0 〉ぐ1 10 20 50 100 200 5001000
2000 0.1 0.3 0.5 0.1 0.3 0.5 0.1 0.3 0.5 0.1 0.3 0.5 0.1000 0.9000 2.500 0.2000 1.800 5.000 0.5000 4.500 12.50 1.000 9.000 25.00 2.000 18.00 50.00 5.000 45.00 125.0 10.00 90.00 250.0 20.00 180.0 500.0 0.2320 1.420 3.181 0.4362 2.778 6.289 1.058 6.860 15.62 2.097 13.67 31.18 4.175 27.28 62.31 10.41 68.12 155.7 20.80 136.2 311.3 41.58 272.3 622.5 0.4509 1.936 3.791 0.7922 3.730 7.434 1.867 9.148 18.40 3.670 18.19 36.67 7.278 36.26 73.22 18.11 90.50 182.9 36.15 180.9 365.6 72.25 361.7 731.2 0.6906 2.379 4。290 1.196 4.532 8.352 2.754 11.06 20.60 5.383 21.96 41.04 10.65 43.77 81.92 26,46 109.2 204.6 52,81 218.2 408.9 105.5 436.3 817.7 0.1 0.3 0.5 0.8585 2.696 4.647 1.555 5.147 9.036 3.540 12.50 22.22 6.893 24.79 44.24 13,62 49.40 88.27 33.81 123.2 220.4 67.46 246.2 440.6 134.8 492.3 881.0表一4 拡張超幾何分布の分散
λ1>ぐ1 10 20 50 100 200 500 1000 2000 0.0 1.0 2.0 3.0 4.0 0.1 0.3 0,5 0.1 0.3 0.5 0.1 0.3 0.5 0.1 0.3 0.5 0.1 0.3 0.5 0.9000E・01 0.1705 0.4900 0.9284 0.6944 1.316 0.4133 2.250 3.189 0.8182 4.455 6.313 1.628 8.864 12.56 4.058 22.09 31.31 8.108 44.14 62.56 16.21 88.24 125.1 0.1782 0.5324 0.6551 0.3031 0.9936 1.238 0.7019 2.392 2.998 1.371 4.726 5.935 2.712 9.394 11.81 6.734 23.40 29.43 13.44 46,75 58.81 26.85 93.44 117.6 0.2476 0.4879 0.5589 0.3952 0.8903 1.038 0.8835 2.134 2.509 1.712 4.213 4.965 3.372 8.374 9.880 8.355 20.86 24.63 16.66 41.66 49.20 33.27 83.28 98.36 O.2137 0.3886 0.4342 0.3966 0.7087 0.7965 0.8579L677
1.905 1.655 3,308 3.768 3.255 6,573 7.495 8.059 16.37 18.68 16.07 32.70 37.32 32.09 65,36 74.61 O.1215 0.2426 0.2759 0.3070 0.5214 0.5758 0.7034 1.208 1.345 1.341 2.375 2.654 2.633 4.716 5,277 6.519 11.74 13.15 13.00 23.46 26.27 25.95 46.89 52.52表一5拡張超幾何分布の歪み
1 0.0 1.0 2.0 3.0 4.0\n
r\
O.1 0.3 0.5 0.1 0.3 0.5 0.1 0.3 0.5 0.1 0.3 0.5 0.1 0.3 0.5 10 20 50 100 200 500 10002000
2.667 1.722 1.037 0.2857 0.1845 0.1111 0.8813E・15 0.1354E・14 −0.3305E・14 0.7220 0.7736E−01 0.3428E・13 0.5066 0.3190 0.2252 0.5428E・01 0.3418E・01 0.2413E・01 03670E・13 0.1762E・13 _0.4607E・12 0.1591 0.1705E・Ol −0.9043E・13 1.270 0.7681 0.4552 _0.2413E・01 −0.3123E.01 −0.2278E・01 _0.1410 _O.1088 _O.7062E・01 0.3158 −0.1668E・01 −O.5025E・Ol 0.2213 0.1392 0.9827E・01 −0.1198E・01 −O.7648E・02 _O.5424E・02 −0.3563E・01 −0.2257E・Ol −0.1597E−Ol O.6942E・01 _0.3841E・02 _O.1129E・01 0.1975 _O.2121 _O.2652 0.1913 _0.1895 −0.2218 0.9243E・01 _0.1265 _O.1455 0.6226E・01 −O.9030E.01 −0.1036 0.4311E・01 0.2695E・01 0.1898E・01 _0.6411E・01 _0.4064E・01 _O.2875E・01 −O.7350E・Ol _O.4656E・01 _O.3294E・01 0.1340E・01 −0.2034E’01 −O.2330E・01 _O.8245 −0.5316 _0.5008 _0.1787 _0.3183 −0.3330 一〇.1401 −O.2246 −0.2289 一〇.1052 _O.1607 _0.1634 一〇.7552E・01 _OA809E・01 ..O.3407E・01 −0.1141 _0.7234E−01 _0.5118E・01 −0.1160 _0.7347E・01 _O.5198E・01 一〇.2412E・Ol −0.3620E・01 _O.3677E・01 一2.057 _1.243 _1.116 一〇.7452 −0.4998 −O.4772 一〇.3020 −0.3270 _0.3233 _O.2366 _O.2373 −0.2331 _0.1704 _0.1688 −0.1657 一〇.1084 _0.1070 _0.1050 _0.7679E・01 _0.7572E・01 −0.7429E・01 一〇.5433E・01 _O.5356E・01 −0.5254E・01表一6拡張超幾何分布の尖り
1 0.0 1.0 2.0 3.0 4.0\n
r\
0.1 0.3 0.5 0.1 0.3 0.5 0.1 0.3 0.5 0.1 0.3 0.5 0.1 0.3 0.5 10 20 50 100 200 500 10002000
8.111 2.539 2.829 4.613 2.773 2.906 3.488 2.910 2.961 3.222 2.955 2.980 3.106 2.978 2,990 3.041 2.991 2.996 3.020 2.996 2.998 3.010 2.998 2.999 2.613 2.685 2.862 2.512 2.823 2.918 2.765 2.928 2.966 2.878 2.964 2.983 2.938 2.982 2.991 2.975 2.993 2.997 2.987 2.996 2.998 2.994 2.998 2.999 1.039 2.798 2.933 2.392 2.902 2.961 2.711 2.957 2.982 2.853 2,978 2.991 2.926 2.989 2.995 2.970 2.996 2.998 2.985 2.998 2.999 2.993 2.999 3.000 1.680 2.620 2.768 2.398 3.009 3.048 2.823 2.999 3.014 2.905 2.999 3.007 2.952 2.999 3.004 2.981 3.000 3.001 2.990 3.000 3.001 2.995 3.000 3.000 5.231 3.443 3.286 2.490 2.957 3.031 2.967 3.066 3.072 2.977 3.031 3.035 2.987 3.016 3.018 2.995 3.006 3.007 2.997 3.003 3.004 2.999 3.002 3.002表一7近似平均と真値との誤差
nl近似値真の値
絶対誤差
相対誤差
10
20
50
100
200
500
10002000
5000
10000
3.1143 3.1810 6.2287 6.2893 15.559 15.624 31.124 31.185 62.248 62.307 155.61 155.68 311.23 311.29 622.46 622.52 1556.1 1556.2 3112.3 3112.4 一.66695×10−1 −.20966×10−1 −.60570×10−1 −.96307×10−2 −.65103×10−1 −.41668×10−2 _.60647×10−1 −.19448×10−2 −.59073×10−1 −.94809×10−3 −.62882×10−1 −.40393×10−3 _.64337×10−1 −.20668×10−3 −.59772×10−1 −.96016×10−4 −.57528×10−1 −.36967×10−4 −.63070×10−1 −.20264×10−4 r=0.5, λ=1.0これらのグラフよりまず次のことがわかる。各図で
の同一マークの勾配を見ることにより平均と分散につ
いての相対誤差,および尖りについての絶対誤差は
n”1のオーs“一一で減少する。しかし歪みの絶対誤差は
1
n”ケのオーダーで減少する。
おのおのの場合について少し詳しく検討してみる。
以下r=O.5とし,真のモーメントをμ(n,λ),♂
(n,λ),β1(n,Z),β2(n,λ),近似値を宕(n, Z), N N σ2(n,a),β1(n,λ),β2(n,λ)とする。まず平均についてはλが7.0の付近で最も誤差が大きいようで
ある。しかしnが50以上なら,大体相対誤差0.01以
一69一
| 0.0001 10.00001 図一1
}一
担0 ’φ1000−n
平均についての相対誤差
翼 ↑ Yλ:=d.5(r・=0.5):0・0001 100t 1000
→n
図一3歪みについての絶対誤差
↑ 10 1 0.1 O.01、 0.001 ×λ=0.0 ◇ 4.0 6.0 + 8.0 8.0, 0.OOO1・ 100 1000:10000.
−n
図一2分散についての相対誤差
下で押えられる。図一1は次の関係が成立することを
不している。N
μ(〃,λ)一μ(〃,λ)_・e1(λμ(n,λ) n)+・(n−1)(3・1)el(のはλに依存してnには依らない。λが1.0の
場合,nが100で誤差0.02,よってel(1)=2・0が予
想される。同様にel(2)≒3・3, el(3)≒4などがグ
ラフから読みとれる。またλが0の時は超幾何分布
であるから平均はn/4。一方(2.4)でλを0と置K
とn/4を得る。よってe1.(0)=0を得る。歪み,尖
:10 1 0.1艇
粟い・1
0.001 0.0001 100 ’1000 10000−→ n
図一4尖りについての絶対誤差
りなどについても同様にグラフからei(のの値を読
み取ることができる。また図一1上にrが0.1でλ
が2.0の場合ものせた。rが0.5に近い程分布が対称
形に近づくことから,rが0.5に近い方が近似がよい
ことが予想されるが,それが図一1で確認される。
分散については他と違い,nが1000ぐらいだと,1
の値に依らずに,相対誤差は大体同じ値となる。この
傾向はrにも依らない。図一2にrが0.3,λが8.0
の場合ものせた。rが0.5,λが8.0の時と比べて平
均に対してほどはrの値は影響しない。次式を考え
る。 箒⑰宏鵬)(n,λ)_・e2(λ n)+・(n−1)(3・2)分散ではnが大きいならe2(z)はnにもλにも依ら
ない定数とみなせることが特徴である。λが0.0の値
から1 e2(λ)1≡1と考えられる。よってaN2(n,λ)> a2(n,λ)ならぽ, σ2(n,1)=σ2(n,λ)(・+告+・(n−1)) (3・3)
を得る。この式は近似分散を補正する時に有効である
と考えられる。表一8に近似分散の補正についての例
を示す。実際図一2から相対誤差を0.01以下にする
には,λが5以下ならnが100程度でよいことがわ
かる。分散はλが大きいと,nが500以下では大部
不安定のようである。Rが0.0の超幾何分布の時は
(3.2)の右辺は1/nになる。なぜならまず(2.4)
でλを0と置き(2.3)のσ2に代入することにより
∂2(n,0)=n/16を得る。一方超幾何分布の分散は
n2/16(n−1)である。これらを(3.2)左辺に代入
することにより右辺が1/nを得る。
1
歪みについてはオーダーがn−Yであることが特徴
的である。そのため,たとえぽλが4.0くらいだとn
が10000でも誤差は0.03程度残る。λが4.0で誤差
を0.01にするにはnを1×105とする必要があるこ
とも図一3より読みとれる。誤差について次の式を考
える。表一8近似分散の補正
λ 0. 1. 2. 4. 8. 10 20 20 100 100正規近⇒籠協
.625 1.1750 .98305 2.6248 .44156 .69444 1.2368 1.0348 2.6513 .44608真 値
.69444 1.2376 1.0384 2.6538 .45326・♂
i・+Zi,「)の値を計算した・ 表一9ei(λ), i=1,3・4の値A e1(λ) e3(λ) e4(1)
0. .25 .5 1.0 2.0 3.0 4.0 8.0 0.0 .06 .13 ,20 .32 .40 .43 27. 0.0 .12 .25 .5 1.O l.6 2.4 7.2 2.0 1.98 1.93 1.8 0.9 0.7 3.5 50. 己(n・ z)−P・ (・・ ・)1一雲)+・(n÷)・
(3.4)
図一3よりe3(1)=0・5, e3(2)=1, e3(のはλの単調増加関数らしいことが読みとれる。rが0.5のと
き,超幾何分布の歪みは0であるからe3(0)=0であ
る。尖りについては,λが3.0の付近が正規近似が最も
よい点が特徴的であると考える。λが0.0,nが200
で誤差0.01になるのに対し,λが2.0,3.0ではnが
100程度で誤差0.01になっている。他でも,たとえ
ぽ平均ではλ=4・0の方がλ=3.0の時より誤差は少
ない。 しかしλが0.0は,平均,歪みで誤差はなく,
分散でも相対誤差1/nで最も誤差は少ない。ところ
が尖りについてはλが1.,2・,3・,の方が0.のとき
より誤差が少ない。次式を考える。
巨鋪一焼(n…)1一θ41λ)+・(n−1)
(3.5) 各ei(λ)は(3・2),(3・4),(3・5)で定義されたもの
図一4よりe4(0)=2, e4(3)=0.7などが読みとれ
る。またλが4.0でnが20のとき急に精度があが
っているのは他の項の影響でe4(1)/nの項が,たま
たま打ち消し合うことが考えられる。表一9にグラフ
から読みとれるeτ(i=1,3,4)の値をのせた。
まとめると,平均については,λに依らずnが50以
上なら相対誤差0.01以下に押えられるが,その他に
ついてはλが大きく影響するようである。特に歪み,
尖りについてはλが1だけ違うと同じ精度を得るの
にnが倍必要になる。また歪みについてはλが1以
下でも誤差0.01にするにはnが2000は必要である。
尖りもλが5程度で誤差0.01以下にするのにnが
1000は必要である。したがってnが大きくてもλが
大きいなら,近似を使うより直接確率計算すべきであ
る。ところでλが大きいときは分散は小さく,平均
は大きな値を取る。よって通常のnllを0から始める
漸化式を使った方法では適当でなく,1章の後半で述
べた方法を使うことを勧める。
4.結
論
拡張超幾何分布について,その正規近似の程度に関
し,平均,分散,歪み,および尖りを調べた。確率計
算でnが大きい時でも使用可能な方法を述べ,それ
を使い実際の平均などとその近似値とを比較した。パ
一71一
ラメータについては,一般にはnle/n=α, nOl/n=β
としてαとβを変えて調べる必要がある。ここでは
α=βの場合を扱った。ただしα+β=1の場合は,
α=βでのn12の分布を考えることに等しい。だから
α+β十1の場合が未検討である。
モi・一一メントに対する結果として,平均,分散の相対誤差と,尖りに対する絶対誤差は1/nのオーダーで
減少するが,歪みの絶対誤差だけは1/〆万のオー
ダーで減少することが知れた。つまり歪みが正規近似
の盤路であることが判明した。さらにこの近似はλ
に強く影響され,λが大きい時はnがかなり大きくて
も近似はよくない。結論として,λが大きいなら(λ>
5)拡張超幾何分布を直接計算した方がよい。それに
はnの大きい時は1節の後半で述べた,モード付近
から計算を始める方法が適していると考える。
実際に正規近似を使用する場合で重要なのは,検定
における検出力の計算,λに対する区間推定の計算な
どである。このような場合には確率分布全体の近似の
程度を調べる必要がある。ここでの結果をもとに,分
布全体としての近似を調べることが重要な問題だと考
える。 謝辞
本学工学部計算機科学科 吉沢 正教授には,本研
究を進めるにあたって,有益な御指導,御助言をいた
だいた。ここに記して感謝の意を表する。
参考文献
1) Plackett, R.L.(1974).The AnalysisげCα彦θ・ gorical Data. Gri伍n・ 2)Corn丘eld, J.(1956). A statistical problem arising from retrospective studies. Pプ06.3 rd Berkeley 8ツ〃功・ハイα彦ん S彦atis彦・and Prob・ (ed. J. Neyman),4,135−48・ 3)Hannan, J. and Harkness, W.L.(1963).Nor・mal approximation to the distribution of
two independent binomials conditional on
丘xed sum.ノlnn. Math.5彦atist.,34,1593− 5, 4) Cox, D.R.(1958). The regression analysis of binary sequences(with discussion). J.R. Statis彦. Soc. B,20, 215−42. 5)Harkness, W.L.(1965)・Properties of the extended hypergeometric distribution. Ann. Math. Sta]tist.,36, 938−45. 0.07 0.06 ?0.05 き・・4 べ 0.03↑ 0.02 0.01 400 600 700 800−nll
付図一1 拡張超幾何分布(r=O・5・n・=2000) 1000 0.08 0.06 三 ξ )0.04 べ ↑ 0.02 0 50 λ=4.0 100 150 200 250 3Q.O −一一一> nll付図一2 拡張超幾何分布(r=o・2・n=2000)
3500.12 0.10 含0.08