アクチュアリー「数学」演習
杉浦 誠
最終変更日
: 2018
年9
月14
日目次
1
回帰分析1
1.1
回帰直線(
単回帰) . . . . 1
1.2
重回帰. . . . 2
1.3
非線形回帰. . . . 3
1.4
確率分布の前提を置いた回帰モデルの分析. . . . 4
1.5
統計の復習1
正規母集団と二項母集団. . . . 7
2
時系列解析8 2.1
時系列に現れる確率過程と用語の定義. . . . 8
2.2 AR(p) (p
次の自己回帰モデル, Auto-regressive Model) . . . . 9
2.3 MA(q) (q
次の移動平均モデル, Moving-average Model) . . . . 11
2.4 ARMA(p, q) (Autoregressive Moving-average Model) . . . . 12
2.5
時系列モデルに基づく予測. . . . 13
2.6
統計の復習2
順序統計量. . . . 14
3
確率過程17 3.1
マルコフ連鎖とマルチンゲール. . . . 17
3.2
ポアソン過程. . . . 20
3.3
ブラウン運動. . . . 21
4
シミュレーション22 4.1
確率変数を生成する技法. . . . 22
4.2
分散減少法. . . . 26
4.3
統計の復習3
適合度、独立性の検定. . . . 29
5
損保数理に関する確率統計の話題から32 5.1
最尤推定量の漸近挙動. . . . 32
5.2
極値問題. . . . 38
5.3
安定分布. . . . 46
これは
2014
年度後期に情報理論II
として行うアクチュアリー試験「数学」用の講義ノートです。教科書・参考書として以下を用いています。
•
日本アクチュアリー会編 モデリング 日本アクチュアリー会•
藤田岳彦 著 確率・統計・モデリング問題集 日本アクチュアリー会•
藤田岳彦 著 弱点克服大学生の確率・統計 東京図書, 2010
•
黒田耕嗣 著 生保年金数理 培風館, 2007
•
岩沢宏和 黒田耕嗣 著 損害保険数理(
アクチュアリー数学シリーズ4),
日本評論社, 2015
•
国沢清典編 確率統計演習2
統計 培風館, 1966
•
稲垣宣生 著 数理統計学 改訂版 裳華房, 2003
•
小寺平治 著 明解演習 数理統計 共立出版, 1986
• E.L. Lehmann, George Casella: Theory of Point Estimation, Second Edition, Springer, 1998
• S.I. Resnick: Extreme Values, Regular Variation and Point Processes, Springer, 1987
•
高橋 倫也,
志村 隆彰:
極値統計学(ISM
シリーズ:
進化する統計数理),
近代科学社, 2016
• Breiman, L.: Probability, Addison-Wesley, 1968. (Classics in applied mathematics, 7, Society for Industrial and Applied Mathematics, 1992. Reprint
版)
• Durrett, R.: Probablity Theory and Examples, 4th ed., Cambridge University Press, 2010.
教科書・参考書は今後増えていく予定です。
•
「藤田岳彦 著 確率・統計・モデリング問題集 日本アクチュアリー会」に従って述べていく。1 回帰分析
1.1
回帰直線(
単回帰)
2
種類のデータの観測値(x
i, y
i), (i = 1, 2, · · · , n)
が与えられているとする。x = 1 n
∑
n i=1x
i, (
データの平均)
s
x2= 1 n
∑
n i=1(x
i− x)
2= 1 n
∑
n i=1x
i2− x
2= x
2− x
2, (
データの分散) s
xy= 1
n
∑
n i=1(x
i− x)(y
i− y) = 1 n
∑
n i=1x
iy
i− x y = xy − x y, (
データの共分散) r
xy= s
xys
xs
y, (
データの相関係数)
ただし、s
x= √ s
x2などがデータの性質や関係を表す基本的な量である。以下の性質があった。
• − 1 ≤ r
xy≤ 1.
• r
xy= 1 ( − 1) ⇐⇒
ある定数a > 0 (a < 0)
が存在し∀ i
に対してy
i= ax
i+ b.
• r
xy≒ 1 ( − 1)
のとき、正の相関(
負の相関)
が強いという。• a, b, c, d
を定数としac > 0
のとき、r
ax+b,cy+d= r
xy. (
相関係数は単位のとりかたによらない。)
•
最小二乗法x
i から予測される値α + βx
i と現実の値y
i との差の二乗y
ix
ib α + βx b
iy = α b + βx b
x y
O
の和Q =
∑
n i=1{ y
i− (α + βx
i) }
2 が 最小 と なる よ うに 係数α = α, β b = β b
を定める:
0 = ∂Q
∂α = − 2
∑
n i=1(
y
i− ( α b + βx b
i) )
= − 2n(y − α b − βx) b
0 = ∂Q
∂β = − 2
∑
n i=1x
i(
y
i− ( α b + βx b
i) )
= − 2n(xy − αx b − βx b
2)
これより正規方程式b
α + βx b = y b
αx + βx b
2= xy
行列表示で( 1 x x x
2) ( α b β b )
= ( y
xy )
(1.1)
これを解いてβ b = − x y + xy
x
2− x
2= s
xys
2x= r
xys
ys
x, α b = y − βx b = y − r
xys
ys
xx
を得る。この
y = α b + βx b
をx
を説明変数、y
を被説明変数とする回帰直線という。単に、x
からy
への回帰直線と いうこともある。α b = y − βx, b β b = r
xys
ys
xより、回帰直線は
y − y = β(x b − x)
あるいはy − y
s
y= r
xyx − x s
xつまり
y
の標準化=
相関係数× x
の標準化(1.2)
と表されることに注意する。また、回帰直線は
(x, y)
を通ることを注意する。問題
1.1 x
からy
への回帰直線がy = α
1+ β
1x, y
からx
への回帰直線がx = α
2+ β
2y
であるとする。(1) β
1β
2> 0
のときr
xy, s
y/s
xをβ
1, β
2を用いて表せ。(2)
更に、β
1β
2̸ = 1
と仮定する。x, y
をα
1, α
2, β
1, β
2を用いて表せ。•
決定係数b
y
i= α b + βx b
iをy
iの内挿値、e
i= y
i− y b
iを残差という。このとき、∑
n i=1e
i= 0,
∑
n i=1x
ie
i= 0
が成立する。実 際、α b = y − βx b
とβ b = s
xys
2x に注意すれば∑
n i=1e
i=
∑
n i=1(y
i− y b
i) = n (
y − ( α b + βx) b )
= 0,
∑
n i=1x
ie
i=
∑
n i=1x
i(y
i− y b
i) = n (
xy − ( αx b + βx b
2) )
= n (
xy − (y − βx)x b − βx b
2)
= n (
s
xy− βs b
2x)
= 0.
全変動、回帰変動、残差変動について以下の関係式が成り立つ
:
全変動≡
∑
n i=1(y
i− y)
2=
∑
n i=1(e
i+ y b
i− y)
2=
∑
n i=1e
2i+ 2
∑
n i=1e
i( y b
i− y) +
∑
n i=1( y b
i− y)
2=
∑
n i=1e
2i+ 2
∑
n i=1e
i( α b + βx b
i− y) +
∑
n i=1( y b
i− y)
2=
∑
n i=1e
2i+
∑
n i=1( y b
i− y)
2≡
残差変動+
回帰変動.
決定係数
R
2= 1 −
残差変動全変動=
回帰変動全変動 と定める。
R
2が1
に近いほど回帰直線がデータによくあてはまっ ている。また、以下のようにR
2= r
xy2が示せる。全変動
≡
∑
n i=1(y
i− y)
2= ns
2y 回帰変動≡
∑
n i=1( y b
i− y)
2=
∑
n i=1{ α b + βx b
i− ( α b + βx) b }
2= β b
2∑
n i=1(x
i− x)
2= (
r
xys
ys
x)
2· ns
2x.
問題
1.2
次に対しx, y, s
2x, s
2y, s
xy, β, b α b
と、全変動,
決定係数R
2,
回帰変動,
残差変動を求めよ。(1) (x
i, y
i) = (i, i
2) (i = 1, 2, . . . , n)
ヒント:
∑
n i=1i
4= n(n + 1)(2n + 1)(3n
2+ 3n − 1)
30 (
導けるかな?)
(2)
i 1 2 3 4 5 6
x
i1 2 2 4 5 5
y
i5 14 11 21 18 26 (3)
i 1 2 3 4 5 6 7 8
x
i3 6 8 9 6 7 3 5
y
i4 7 8 9 4 5 5 6
((2), (3)
は電卓を 用い分数で表せ。)
1.2
重回帰単回帰では説明変数が
1
つだったが、ここでは2
個以上の場合を考える。簡単のため2
個として説明する。データの観測値
(x
1i, x
2i, y
i), (i = 1, 2, · · · , n)
が与えられているとし、Q =
∑
n i=1{ y
i− (α + β
1x
1i+ β
2x
2i) }
2が最小となるα, b β b
1, β b
2は、∂Q
∂α = ∂Q
∂β
1= ∂Q
∂β
2= 0
より正規方程式
1 x
1x
2x
1x
21x
1x
2x
2x
1x
2x
22
α b β b
1β b
2
=
y x
1y x
2y
を解いたものとなる。次のように書けることに注意する。
(X
T は行列X
の転置を表す。)
X =
1 1 · · · 1 x
11x
12· · · x
1nx
21x
22· · · x
2n
とするとXX
T= n
1 x
1x
2x
1x
21x
1x
2x
2x
1x
2x
22
, X
y
1y
2.. . y
n
= n
y x
1y x
2y
.
また、以下が成り立つ。
回帰式
y = α b + β b
1x
1+ β b
2x
2 は(x
1, x
2, y)
を通る。残差
e
i= y
i− y b
i= y
i− ( α b + β b
1x
1i+ β b
2x
2i)
について∑
n i=1e
i= 0,
∑
n i=1x
1ie
i= 0,
∑
n i=1x
2ie
i= 0
が成立.
自由度修正決定係数R
2= 1 −
残差変動/(n − k − 1)
総変動
/(n − 1) .
ここで、残差変動=
∑
n i=1e
2i,
総変動=
∑
n i=1(y
i− y)
2, n
は観測値の数、k
は説明変数の数である。問題
1.3
五個のデータ(x
11, y
21, y
1), · · · , (x
15, y
25, y
5)
が与えられている。ここで、∑
x
1i= 3, ∑
x
2i= 2,
∑ y
i= 5, ∑
x
1ix
2i= 4, ∑
x
1iy
i= 12, ∑
x
2iy
i= 8, ∑
x
21i= 10, ∑
x
22i= 12, ∑
y
i2= 16
であった。y
をx
1, x
2で線形回帰するときの回帰式を求めよ。•
ダミー変数データ
(x
i, y
i), (i = 1, 2, · · · , n)
から、奇数時点と偶数時点で定数項α
を変えた回帰式y = α + βx
を考える。ダミー変数
d
i= {
1 i =
奇数0 i =
偶数として、データ
(x
i, d
i, y
i)
から、回帰式y = α b + β b
1d + β b
2x
を考えると、奇数時点では回帰式
y = α b + β b
1+ β b
2x,
偶数時点では回帰式y = α b + β b
2x
と、定数項のみを変えた回帰式を求 めることができる。同様に、奇数時点と偶数時点で係数
β
を変えた回帰式y = α + βx
は、上記のダミー変数を用い、データ
(x
i, d
ix
i, y
i)
から、回帰式y = α b + β b
1x + β b
2(dx)
を考えると、奇数時点では回帰式
y = α b + ( β b
1+ β b
2)x,
偶数時点では回帰式y = α b + β b
1x
と求めることができる。問題
1.4 (1)
問題1.2 (2)
のデータについて、定数項ダミーを用いて奇数時点と偶数時点で定数項α
を変えた回帰式
y = α + βx
を推定せよ。(2)
問題1.2 (2)
のデータについて、係数ダミーを用いて奇数時点と偶数時点で係数β
を変えた回帰式y = α + βx
を推定せよ。(3)
問題1.2 (3)
のデータの前半4
つ上半期、後半4
つは下半期についてであった。適当な定数項ダミーd
を入れることにより、上半期と下半期で定数項
α
を変えた回帰式y = α + βx
を推定せよ。1.3
非線形回帰あるタイプの非線形関数で当てはめるべきケースがある。ここでは応用上よく用いられるものを紹介する。
対数線形モデル
y = αx
βの両辺の対数をとると、log y = log α + β log x.
新しい変数として
y
′= log y, x
′= log x
をとるとよい。指数関数モデル
y = αe
βxは、log y = log α + βx
と変形せよ。.
変数y
のみをy
′= log y
に変える。ロジスティック関数モデル
y = e
α+βx1 + e
α+βx(β > 0)
これは微分方程式dy
dx = βy(1 − y) (0 < y < 1)
の解 変数y
のみをy
′= log y
1 − y
に変える。2
項回帰モデル 発生確率y (0 ≤ y ≤ 1)
が説明変数に依存して決まる回帰モデル。これをある確率分布の分布関数
F
を用いてy = F (α+βx)
と表すと、y
′= F
−1(y)
とおくとy
′= α+βx.
F (x) = Φ(x)
がN (0, 1)
の分布関数のとき、プロビット・モデルという。F (x) = e
x1 + e
x(
ロジスティック分布の分布関数)
のとき、ロジット・モデルという。これはロジス ティック関数モデルと同一のものである。問題
1.5 (x, y)
のデータが表のとおりに与えられている。このデータから、ロジット・モデルy = e
α+βx1 + e
α+βx(β > 0)
を用いた回帰式を求めるとき、α, β
の 値を求めよ。また、プロビット・モデルの場合も求めよ。ただし 小数点以下第2
位まで求めよ。x 1.2 1.4 2.7 3.5 4.8
y 10% 10% 50% 80% 90%
1.4
確率分布の前提を置いた回帰モデルの分析1.4.1
推定量の分布説明変数を
x
i,
誤差項を確率変数ε
iとし、被説明変数Y
iをY
i= α + βx
i+ ε
i, i = 1, 2, · · · , n (1.3)
とし、次を仮定する。ε
1, · · · , ε
n は独立でε
i∼ N (0, σ
2). (1.4)
このとき、最小二乗推定量α, b β b
および誤差項の分散b σ
2を考える:
β b = s
xYs
2x=
∑
ni=1
(x
i− x)(Y
i− Y )
∑
ni=1
(x
i− x)
2, α b = Y − βx, b σ b
2= 1 n − 2
∑
n i=1(
Y
i− ( α b + βx b
i) )
2. (1.5)
定理
1.1
仮定(1.4)
の下、α, b β b , b σ
2について以下が成立する。(1) ( α b
β b )
∼ N (( α
β )
, σ
2(
1n
+
nsx22x
−
nsx2 x−
nsx2 x1 ns2x
))
= N (( α
β )
, σ
2n
( 1 x x x
2)
−1) .
特に、α b ∼ N
( α, σ
2( 1 n + x
2ns
2x))
, β b ∼ N (
β, σ
2ns
2x) . (2) (n − 2) b σ
2σ
2∼ χ
2n−2.
ただし、χ
2n−2は自由度n − 2
のカイ二乗分布を表す。(3) α b
とσ b
2は独立。また、β b
とσ b
2は独立。証明
: α, b β b
をε
1, · · · , ε
nの線形結合で表す。c
i= x
i− x
∑
ni=1
(x
i− x)
2 とし、∑
n i=1c
i= 0
および∑
n i=1c
ix
i= 1 ns
2x( ∑
ni=1
x
2i− x
∑
n i=1x
i)
= x
2− x
2s
2x= 1
に注意すると、β b =
∑
ni=1
(x
i− x)(Y
i− Y )
∑
ni=1
(x
i− x)
2=
∑
n i=1c
i(α + βx
i+ ε
i) −
∑
n i=1c
iY = β +
∑
n i=1c
iε
i, b
α = Y − βx b = 1 n
∑
n i=1(α + βx
i+ ε
i) − ( β +
∑
n i=1c
iε
i)
x = α +
∑
n i=1( 1 n − c
ix
) ε
i.
従って、
(1.4)
より( α, b β) b
は二次元正規分布に従い、E[ α] = b α, E[ β] = b β.
また、∑
ni=1
c
2i= ns
2x(ns
2x)
2= 1
ns
2x に 注意して、V ( β) = b
∑
n i=1c
2iV (ε
i) = 1 ns
2xσ
2, V ( α) = b
∑
n i=1( 1 n − c
ix
)
2V (ε
i) =
∑
n i=1( 1
n
2− 2c
ix n + c
2ix
2) σ
2=
( 1 n + x
2ns
2x)
σ
2,
Cov( α, b β) = b
∑
n i=1( 1 n − c
ix
)
c
iV (ε
i) = − x ns
2xσ
2 より(1)
の∼
は示せる。最後の等号は1 + x
2s
2x= x
2s
2x に注意して逆行列を計算せよ。(2) b σ
2はe
i= Y
i− ( α b + βx b
i)
とすると、∑
ni=1
e
i= 0, ∑
ni=1
c
ie
i= 0
の二つの制約条件があるため、自由度が2
つ減ってχ
2n−2に従うと説明される。(3)
のため厳密な証明の概略を述べる: 1
行目が(1/ √
n, · · · , 1/ √ n),
2
行目が( x
1− x
√ ns
2x, · · · , x
n− x
√ ns
2x)
で与えらる直行行列を
A
とする。このとき、
˜ ε
1.. .
˜ ε
n
= A
ε
1.. . ε
n
と定めると˜
ε
1, · · · , ε ˜
nは独立でε ˜
i∼ N (0, σ
2)
となる。また、ε ˜
1= 1
√ n
∑
n i=1ε
i, ˜ ε
2=
∑
n i=1x
i− x
√ ns
2xε
i,
∑
n i=1ε
2i=
∑
n i=1˜ ε
2i よりb
α − α = 1
√ n ε ˜
1− x
√ ns
2xε ˜
2, β b − β = 1
√ ns
2xε ˜
2,
(n − 2) σ b
2=
∑
n i=1{
ε
i− ( α b − α) − ( β b − β)x
i}
2=
∑
n i=1{ ε
i− 1
√ n ε ˜
1− x
i− x
√ ns
2xε ˜
2}
2= · · · =
∑
n i=3˜ ε
2i.
よって(2)
は明らか。また、α, b β b
はε ˜
1, ε ˜
2の、b σ
2はε ˜
3, · · · , ε ˜
nの関数なので(3)
も従う。□
1.4.2 α, β
の区間推定と検定自由度
n
のt
分布は独立なZ ∼ N (0, 1)
とY ∼ χ
2nを用いて、T = Z
√ Y /n
の分布と定義されることに注意 する。また、t
n(α)
で自由度n
のt
分布の上側α
点: T ∼ t
nのときP(T ≥ t
n(α)) = α
とする。以下、定理
1.1
を引用なしに頻繁に用いる。• α
の信頼区間: Z = α b − α
√ V ( α) b ∼ N(0, 1), Y = (n − 2) b σ
2σ
2∼ χ
2n−2でZ
とY
は独立なので、T = Z
√ Y /(n − 2) = α b − α
√ V ( α) b b σ
2/σ
2= α b − α
√ σ b
2(
1n
+
nsx22x
) ∼ t
n−2.
従って、信頼度
1 − ε
でのα
の信頼区間はb
α − t
n−2(ε/2)
√ b σ
2( 1 n + x
2ns
2x) ≤ α ≤ α b + t
n−2(ε/2)
√ b σ
2( 1 n + x
2ns
2x)
.
• β
の信頼区間: Z = β b − β
√ V ( β) b
∼ N(0, 1), Y = (n − 2) b σ
2σ
2∼ χ
2n−2でZ
とY
は独立なので、T = Z
√ Y /(n − 2) = β b − β
√
V ( β) b σ b
2/σ
2= β b − β
√ b σ
21
ns
2x∼ t
n−2.
従って、信頼度
1 − ε
でのβ
の信頼区間はβ b − t
n−2(ε/2)
√ σ b
2ns
2x≤ β ≤ β b + t
n−2(ε/2)
√ b σ
2ns
2x.
注意1.1 σ b
2を計算する際はσ b
2= 1
n − 2 (1 − r
xy2)ns
2yと計算するのがよい。これは次のように導かれる。b σ
2= 1
n − 2
∑
n i=1e
2i= 1
n − 2 (
残差変動) = 1
n − 2 (
全変動−
回帰変動) = 1
n − 2 (1 −
決定係数R
2)(
全変動)
= 1
n − 2 (1 − r
xy2)ns
2y.
•
検定:
次の手順で有意水準ε
の両側検定を行うことができる。帰無仮説
H
0: β = β
0,
対立仮説H
1: β ̸ = β
0H
0のもとで、T = β b − β
√ b σ
2ns
2x∼ t
n−2.
よって、t
分布表からt
n−2(ε/2)
を求め、標本からの実現値t
に対して、| t | > t
n−2(ε/2)
ならH
0を棄却、| t | ≤ t
n−2(ε/2)
ならH
0を採択 すればよい。同様に、片側検定の場合、
帰無仮説
H
0: β = β
0,
対立仮説H
1: β > β
0のときは、t > t
n−2(ε)
ならH
0を棄却、t ≤ t
n−2(ε)
ならH
0を採択 すればよい。帰無仮説
H
0: β = β
0,
対立仮説H
1: β < β
0のときは、t < t
n−2(ε)
ならH
0を棄却、t ≥ t
n−2(ε)
ならH
0を採択 すればよい。問題
1.6
問題1.2 (2)
のデータについて、b σ
2の実現値を求め、α, β
の95%
信頼区間を求めよ。ただし小数点 以下第3
位まで求めよ。問題
1.7
問題1.2 (3)
のデータについて、帰無仮説H
0: β = 0,
対立仮説H
1: β > 0
を、有意水準5%
で検 定せよ。1.4.3
点予測、区間予測説明変数
x
n+1が与えられたときのY
n+1の予測量Y b
n+1は、α, b β b
を用いて、Y b
n+1= α b + βx b
n+1となり。これは正規分布に従う。
(
これはα, b β b
がε
1, · · · , ε
nの線形結合であることによる。)
予測誤差Y
n+1− Y b
n+1= − ( α b − α) − ( β b − β )x
n+1+ ε
n+1 について定理1.1(1)
より、E[Y
n+1− Y b
n+1] = − E[ α b − α] − x
n+1E[ β b − β] + E[ε
n+1] = 0,
V (Y
n+1− Y b
n+1) = V (ε
n+1− ( α b − α) − ( β b − β)x
n+1) = V (ε
n+1− α b − βx b
n+1)
= V (ε
n+1) + V ( −b α − βx b
n+1), ( ∵ ε
n+1はα, b β b
と独立)
= σ
2+ V ( α) + 2x b
n+1Cov( α, b β) + b x
2n+1V ( β) b
= σ
2+ σ
2( 1
n + x
2ns
2x)
+ 2x
n+1− xσ
2ns
2x+ x
2n+1σ
2ns
2x= σ
2{
1 + 1
n + (x
n+1− x)
2ns
2x}
従って、予測誤差
Y
n+1− Y b
n+1∼ N (
0, σ
2{
1 + 1
n + (x
n+1− x)
2ns
2x})
となる。これより、
σ
2が既知であればこれより区間推定できる。σ
2が未知の場合、Z = Y
n+1− Y b
n+1√
V (Y
n+1− Y b
n+1)
∼ N(0, 1), W = (n − 2) b σ
2σ
2∼ χ
2n−2でZ
とW
は独立なので、T = Z
√ W/(n − 2) = Y
n+1− Y b
n+1√
V (Y
n+1− Y b
n+1) σ b
2/σ
2= Y
n+1− Y b
n+1√ b σ
2{ 1 + 1
n + (x
n+1− x)
2ns
2x} ∼ t
n−2.
従って、信頼度
1 − ε
でのY
n+1の信頼区間はY b
n+1− t
n−2( ε 2
) √ b σ
2{ 1 + 1
n + (x
n+1− x)
2ns
2x}
≤ Y
n+1≤ Y b
n+1+ t
n−2( ε
2 ) √
b σ
2{ 1 + 1
n + (x
n+1− x)
2ns
2x}
となる。ただし、上式で
Y b
n+1とb σ
2は実現値を表す。問題
1.8
問題1.2 (3)
のデータに対して推定された回帰式を用いて(
問題1.7
も参照のこと)
、x
8+1= 4
に対 する点予測および信頼係数95%
信頼区間を求めよ。ただし小数点以下第3
位まで求めよ。1.5
統計の復習1
正規母集団と二項母集団定義
1.1
正規母集団の統計において次の分布は特に重要である。χ
2分布: X
1, . . . , X
nがi.i.d.
でN(0, 1)
に従うとき、X
12+ · · · + X
n2∼ χ
2n(
自由度n
のχ
2分布).
t
分布: Y, Z
は独立でY ∼ χ
2n, Z ∼ N(0, 1)
のとき、T = Z
√ Y /n ∼ t
n(
自由度n
のt
分布).
F
分布: X, Y
は独立でX ∼ χ
2m, Y ∼ χ
2nのとき、W = X/m
Y /n ∼ F
nm(
自由度(m, n)
のF
分布).
次の定理は確率統計学
I
で定理3.7
で示した。定理
1.2 X
1, . . . , X
nが独立で、それぞれ同一の正規分布N(µ, σ
2)
に従うとするとき、次が成立する。(1)
標本平均X = 1 n
∑
n i=1X
iはN (
µ, σ
2n
)
に従う。
(2)
不偏分散U
2= 1 n − 1
∑
n i=1(X
i− X )
2 について、n − 1
σ
2U
2= 1 σ
2∑
n i=1(X
i− X)
2∼ χ
2n−1. (3) X
とU
2は独立。応用例
•
正規母集団の母平均の区間推定、検定において、母分散σ
2が既知の場合、定理1.2 (1)
を用いて行うことが できた。例えば、標本平均の実現値がx
のとき、信頼度1 − ε
での母平均µ
のの信頼区間はx − u(ε/2)
√ σ
2n ≤ µ ≤ x + u(ε/2)
√ σ
2n ,
ここで、
u(α)
はN(0, 1)
の上側α
点を表す。母分散が未知であっても、標本数が大きい場合は母分散を不偏 分散の実現値としてこれを用いた。•
正規母集団の母分散の区間推定、検定において、定理1.2 (2)
を用いて行うことができた。例えば、不偏分散 の実現値がu
2のとき、信頼度1 − ε
での母分散σ
2の信頼区間は(n − 1)u
2χ
2n−1(ε/2) ≤ σ
2≤ (n − 1)u
2χ
2n−1(1 − ε/2) ,
ここで、χ
2n−1(α)
はχ
2n−1の上側α
点を表す。•
正規母集団の母平均の区間推定、検定において、母分散σ
2が未知の場合、定理1.2
よりT = X − µ
√ U
2/n ∼ t
n−1となること
(
各自証明を試みよ)
を用いて行うことができた。例えば、標本平均,
不偏分散の実現値がx, u
2の とき、信頼度1 − ε
での母平均µ
のの信頼区間はx − t
n−1(ε/2)
√ u
2n ≤ µ ≤ x + t
n−1(ε/2)
√ u
2n ,
ここで、t
n−1(α)
はt
n−1の上側α
点を表す。• 2
つの正規母集団の母数の比較に関する検定を前期の数理統計学I
の最後の節で取り上げた。これは区間推 定にも用いられる。例えば、X
1, . . . , X
m, Y
1, . . . , Y
nをそれぞれ正規母集団N (µ
1, σ
12), N(µ
2, σ
22)
からの無作為標本とする。このとき、標本平均を
X, Y ,
標本分散をS
X2, S
Y2 とすると(
母分散σ
12とσ
22は既知であれば)
、Z = X − Y − (µ
1− µ
2)
√ σ
12/m + σ
22/n
はN(0, 1)
に従う。従って、標本平均の実現値をx, y
とすると、平均の差µ
1− µ
2の信頼度1 − ε
の信頼区間はx − y − u(ε/2)
√ σ
21m + σ
22n ≤ µ
1− µ
2≤ x − y + u(ε/2)
√ σ
12m + σ
22n ,
ここで、母分散が未知であっても、標本数が大きい場合は母分散
σ
21, σ
22をそれぞれの不偏分散の実現値u
21, u
22 で置き換えて成立する。•
上記は大標本での二項母集団の区間推定や検定にも用いることができる。例えば、母比率
p
1の二項母集団からの大きさm
の標本比率をP b
1,
母比率p
2の二項母集団からの大きさn
の標本比率をP b
2とすると、二項分布の正規分布近似を考え、P b
1∼ N (
p
1, p
1(1 − p
1) m
)
, P b
2∼ N (
p
2, p
2(1 − p
2) n
)
よりP b
1− P b
2∼ N (
p
1− p
2, p
1(1 − p
1)
m + p
2(1 − p
2) n
) .
これより、標準化し、標本比率と根号内の母比率をその実現値p b
1, p b
2に置き換えることで、母比率の差p
1− p
2 の信頼度1 − ε
の信頼区間b
p
1− p b
2− u(ε/2)
√ b p
1(1 − p b
2)
m + p b
2(1 − p b
2)
n ≤ p
1− p
2≤ p b
1− p b
2+ u(ε/2)
√ p b
1(1 − p b
2)
m + p b
2(1 − p b
2) n
を得る。例題
1.1
ある政策の支持率を予想するために、母集団から男性900
人、女性800
人をそれぞれ無作為に抽出 して調査を行ったところ、男性は300
人、女性は320
人が支持すると回答した。母集団全体の男女比は5 : 4
であるとして、母集団全体での支持率を近似法を用いて、信頼度95%
で区間推定せよ。解
:
男女の支持率をp
1, p
2 とし、標本比率をP b
1, P b
2 とする。このとき、P b
1∼ N (
p
1, p
1(1 − p
1) 900
) , P b
2∼ N
(
p
2, p
2(1 − p
2) 800
)
と近似される。男女比を考慮すると全体の支持率は
P b = 5 9 P b
1+ 4
9 P b
2となるから、P b
1とP b
2は独立なので、P b ∼ N
( 5 9 p
1+ 4
9 p
2, ( 5
9
)
2p
1(1 − p
1)
900 +
( 4 9
)
2p
2(1 − p
2) 800
)
.
これより、標準化し、標本比 率と根号内の母比率をその実現値p b
1= 300
900 , p b
2= 320
800
に置き換えることで、5 9 p b
1+ 4
9 p b
2± u(0.025)
√( 5 9
)
2p b
1(1 − p b
1)
900 +
( 4 9
)
2p b
2(1 − p b
2)
800 = 0.36296 · · · ± 0.02281 · · · =
{ 0.3857 · · · 0.3401 · · ·
従って、0.340 ≤ p ≤ 0.386. □
問題
1.9
ある都市の市長選挙の結果を予想するために、60
才未満の者120
人に意見を求めたところ48
人が 保守系を支持すると言った。一方、60
才以上の者80
人について調べたところ、56
人が保守系を支持した。(1)
近似法を用いて、60
才以上の人の支持率と60
才未満の人の支持率の差の信頼係数95%
信頼区間を求め よ。ただし小数点以下第3
位まで求めよ。(2)
投票率を考慮すると、この都市の60
才未満の人と60
才以上の人の比は4 : 5
である。近似法を用いて、こ の選挙での保守系の得票率を信頼度95%
で区間推定せよ。ただし小数点以下第3
位まで求めよ。2 時系列解析
2.1
時系列に現れる確率過程と用語の定義確率過程
Y
t, t = 0, ± 1, ± 2, . . .
を考える。ここでは、時間パラメータt
は負の値もとることに注意する。定義
2.1
確率過程Y
t, t = 0, ± 1, ± 2, . . .
が定常(stationary)
であるとは、条件
1 E[Y
t] = µ (
定数)
条件