Lec08
一般化線形モデル
I. Takeuchi, ML, DSML-08 1/35
実数変数の予測モデル(復習)
車体重量(xi) 燃費(yi)
1.22 41.2
1.25 40.5
1.35 40.8
1.36 39.6
1.38 38.3
1.40 39.4
1.48 38.7
1.53 37.6
1.55 36.5
1.62 37.3
1.2 1.3 1.4 1.5 1.6
36373839404142
Car Weight
Fuel Efficiency
実数変数の予測モデル(復習)
車体重量(xi) 燃費(yi)
1.22 41.2
1.25 40.5
1.35 40.8
1.36 39.6
1.38 38.3
1.40 39.4
1.48 38.7
1.53 37.6
1.55 36.5
1.62 37.3
1.2 1.3 1.4 1.5 1.6
36373839404142
Car Weight
Fuel Efficiency
I. Takeuchi, ML, DSML-08 2/35
二値変数の予測モデル
価格(xi) 自動運転(yi)
1.25 0
1.36 0
1.52 1
1.55 0
1.64 0
1.74 1
1.82 0
2.01 1
2.27 1
2.35 1 1.0 1.5 2.0 2.5
01
Car Price
Auto−Driving Equipment
二値変数の予測モデル
価格(xi) 自動運転(yi)
1.25 0
1.36 0
1.52 1
1.55 0
1.64 0
1.74 1
1.82 0
2.01 1
2.27 1
2.35 1
1.0 1.5 2.0 2.5
01
Car Price
Auto−Driving Equipment
I. Takeuchi, ML, DSML-08 3/35
二値変数の予測モデル
価格(xi) 自動運転(yi)
1.25 0
1.36 0
1.52 1
1.55 0
1.64 0
1.74 1
1.82 0
2.01 1
2.27 1
2.35 1
1.0 1.5 2.0 2.5
01
Car Price
Auto−Driving Equipment
カウント変数の予測モデル
人口密度(xi) 死亡事故(yi)
1000 0
1120 2
1350 3
1420 4
1560 3
1780 4
1920 6
2050 5
2130 7
2180 9 500 1000 1500 2000 2500
012345678910
Population Density
Death by Car Accident
I. Takeuchi, ML, DSML-08 4/35
カウント変数の予測モデル
人口密度(xi) 死亡事故(yi)
1000 0
1120 2
1350 3
1420 4
1560 3
1780 4
1920 6
2050 5
2130 7
2180 9
500 1000 1500 2000 2500
012345678910
Population Density
Death by Car Accident
カウント変数の予測モデル
人口密度(xi) 死亡事故(yi)
1000 0
1120 2
1350 3
1420 4
1560 3
1780 4
1920 6
2050 5
2130 7
2180 9
500 1000 1500 2000 2500
012345678910
Population Density
Death by Car Accident
I. Takeuchi, ML, DSML-08 4/35
一般化線形モデル
▶ 連続変数
▶ 計量値⇒ 正規分布⇒ 最小二乗回帰
▶ 生存率⇒ 指数分布⇒ 指数回帰
▶ · · ·
▶ 離散変数
▶ 二値 ⇒ ベルヌーイ分布⇒ ロジスティック回帰
▶ カウント値⇒ ポアソン分布 ⇒ ポアソン回帰
▶ · · ·
ベルヌーイ分布
▶ 二値変数の確率モデル
P[yi= 1] =q, P[yi= 0] = 1−q
▶ 確率分布
P[yi=y] =qy(1−q)1−y
I. Takeuchi, ML, DSML-08 6/35
ベルヌーイ分布の期待値と分散
▶ ベルヌーイ分布の期待値
E[yi] =q
(証明)
▶ ベルヌーイ分布の分散
V[yi] =q(1−q)
(証明)
ベルヌーイ分布の最尤推定
▶ 尤度
L(q) =
∏n
i=1
qyi(1−q)1−yi
▶ 最尤推定(基本問題1)
ˆ
q= arg max
q L(q) = 1 n
∑n
i=1
yi
I. Takeuchi, ML, DSML-08 8/35
二値変数の線形モデル
価格(xi) 自動運転(yi)
1.25 0
1.36 0
1.52 1
1.55 0
1.64 0
1.74 1
1.82 0
2.01 1
2.27 1
2.35 1
1.0 1.5 2.0 2.5
01
Car Price
Auto−Driving Equipment
0≤E[yi]≤1でなければならない
ロジスティック関数
h(z) = 1
1 + exp(−z)
−5 0 5
0.00.20.40.60.81.0
z
Logistic Function
I. Takeuchi, ML, DSML-08 10/35
ロジスティック回帰モデル
▶ 確率モデル
P[yi= 1] = 1
1 + exp(−w⊤xi), P[yi= 0] = exp(−w⊤xi)
1 + exp(−w⊤xi)
▶ 期待値の予測モデル
E[yi] =P[yi= 1]×1 +P[yi= 0]×0 = 1
1 + exp(−w⊤xi)
ロジスティック回帰モデルの例
価格(xi) 自動運転(yi)
1.25 0
1.36 0
1.52 1
1.55 0
1.64 0
1.74 1
1.82 0
2.01 1
2.27 1
2.35 1
1.0 1.5 2.0 2.5
01
Car Price
Auto−Driving Equipment
I. Takeuchi, ML, DSML-08 12/35
基本問題1
パラメータqのベルヌーイ分布に従ってn個の観測値y1, . . . , ynが得ら れたとする.パラメータqの最尤推定量が
ˆ q= 1
n
∑n
i=1
yi
と表されることを示せ.
基本問題1の解答
I. Takeuchi, ML, DSML-08 14/35
二項分布
▶ ベルヌーイ分布からm個ランダム変数を生成 y1, . . . , ym
▶ 二項分布:m個の二値変数のうち,1がk個,0がm−k個であ る確率
P[k] = (m
k )
qk(1−q)m−k, k= 1, . . . , m
二項定理
▶ 二項分布
P[k] = (m
k )
qk(1−q)m−k, k= 1, . . . , m
は確率分布であり,和が1,すなわち,
∑m
k=0
(m k )
qk(1−q)m−k= 1
(証明)
I. Takeuchi, ML, DSML-08 16/35
二項分布の期待値と分散
▶ 二項分布Bi(m, q)の期待値
E[k] =mq
(証明)
▶ 二項分布Bi(m, q)の分散
V[k] =mq(1−q)
(証明)
個数(m)が大きく頻度(q)が小さい場合
▶ (例)人口:n= 10000人,1人が交通事故にあう確率:q= 0.0005 Bi(10000,0.0005)
▶ 交通事故が7件ある確率 (10000
7 )
(0.0005)7(0.9995)9993
▶ ポアソン分布:mq→λとなるように,m→ ∞,q→0の極限を 考える
(m k )
qk(1−q)m−k → e−λλk k!
I. Takeuchi, ML, DSML-08 18/35
二項分布からポアソン分布へ
▶ 二項分布Bi(m, q)において,mq→λとなるように,
m→ ∞, q→0の極限をとると,ポアソン分布となること,すな わち,
mlim→∞
(m k
) (λ m
)k( 1− λ
m )m−k
→ e−λλk k!
(証明)
ポアソン分布の期待値と分散
▶ ポアソン分布の期待値(基本問題2)
E[yi] =λ
▶ ポアソン分布の分散(基本問題2)
V[yi] =λ
I. Takeuchi, ML, DSML-08 20/35
ポアソン分布の最尤推定
▶ 尤度
L(λ) =
∏n
i=1
e−λλyi yi!
▶ 最尤推定
ˆλ= arg max
λ L(λ) = 1 n
∑n
i=1
yi
(証明)
カウント変数の線形モデル
人口密度(xi) 死亡事故(yi)
1000 0
1120 2
1350 3
1420 4
1560 3
1780 4
1920 6
2050 5
2130 7
2180 9
500 1000 1500 2000 2500
012345678910
Population Density
Death by Car Accident
0≤E[yi]でなければならない
I. Takeuchi, ML, DSML-08 22/35
指数関数
−2 −1 0 1 2
0246
z
Exp Function
ポアソン回帰モデル
▶ カウント変数の期待値
E[yi] = exp(w⊤xi)
▶ カウント変数の確率モデル
P[yi=y] =e−exp(w⊤xi)exp(w⊤xi)y y!
I. Takeuchi, ML, DSML-08 24/35
ポアソン回帰モデルの例
人口密度(xi) 死亡事故(yi)
1000 0
1120 2
1350 3
1420 4
1560 3
1780 4
1920 6
2050 5
2130 7
2180 9
500 1000 1500 2000 2500
012345678910
Population Density
Death by Car Accident
基本問題2
ポアソン分布
P[yi=y] = e−λλy y!
の期待値と分散が,どちらも
E[yi] =λ, V[yi] =λ
と表されることを示せ.ただし,任意のa∈Rに対し,
exp(a) =
∑∞ ℓ=0
aℓ ℓ!
を利用してよい.
I. Takeuchi, ML, DSML-08 26/35
基本問題2の解答
一般化線形モデル
車体重量(xi) 燃費(yi)
1.22 41.2
1.25 40.5
1.35 40.8
1.36 39.6
1.38 38.3
1.40 39.4
1.48 38.7
1.53 37.6
1.55 36.5
1.62 37.3
価格(xi) 自動運転(yi)
1.25 0
1.36 0
1.52 1
1.55 0
1.64 0
1.74 1
1.82 0
2.01 1
2.27 1
2.35 1
人口密度(xi) 死亡事故(yi)
1000 0
1120 2
1350 3
1420 4
1560 3
1780 4
1920 6
2050 5
2130 7
2180 9
1.2 1.3 1.4 1.5 1.6
36373839404142
Car Weight
Fuel Efficiency
1.0 1.5 2.0 2.5
01
Car Price
Auto−Driving Equipment
500 1000 1500 2000 2500
012345678910
Population Density
Death by Car Accident
(a)正規線形回帰 (b) ロジスティック回帰 (c) ポアソン回帰
I. Takeuchi, ML, DSML-08 28/35
一般化線形モデルの考え方
入力変数 中間変数 パラメータ 確率分布
一般化線形モデルの構成要素
▶ 線形予測子(linear predictor)
zi=
∑d
j=1
wjxij
▶ リンク関数(link function)
g:θi 7→zi, g−1:zi7→θi
▶ 確率モデル(probability model)
P(yi;θi)
I. Takeuchi, ML, DSML-08 30/35
一般化線形モデルの例
▶ 正規線形モデル
線形予測子 リンク関数 確率モデル zi=∑d
j=1wjxij θi=g−1(zi) =zi √1
2πσ2exp(−(yi2σ−θ2i)2)
▶ ロジスティック回帰モデル
線形予測子 リンク関数 確率モデル zi=∑d
j=1wjxij θi=g−1(zi) =1+exp(1−z
i) θiyi(1−θi)(1−yi)
▶ ポアソン回帰モデル
線形予測子 リンク関数 確率モデル zi=∑d
j=1wjxij θi=g−1(zi) = exp(zi) exp(−yθi)θyii
i!
一般化線形モデルの性質
▶ 指数型分布族
P(yi;θi) = exp (a(yi)b(θi) +c(θi) +d(yi))
▶ モデルのパラメータ推定は最尤推定
( ˆw1, . . . ,wˆd) = arg max
w1,...,wd
∏n
i=1
P(yi;g−1(
∑d
j=1
wjxij))
▶ 統計的性質
▶ 一致性(漸近的に不偏)
▶ 漸近有効性
▶ 漸近正規性
▶ 統計的検定
▶ Wald検定
▶ スコア検定
▶ 尤度比検定
I. Takeuchi, ML, DSML-08 32/35
一般化線形モデル
車体重量(xi) 燃費(yi)
1.22 41.2
1.25 40.5
1.35 40.8
1.36 39.6
1.38 38.3
1.40 39.4
1.48 38.7
1.53 37.6
1.55 36.5
1.62 37.3
価格(xi) 自動運転(yi)
1.25 0
1.36 0
1.52 1
1.55 0
1.64 0
1.74 1
1.82 0
2.01 1
2.27 1
2.35 1
人口密度(xi) 死亡事故(yi)
1000 0
1120 2
1350 3
1420 4
1560 3
1780 4
1920 6
2050 5
2130 7
2180 9
1.2 1.3 1.4 1.5 1.6
36373839404142
Car Weight
Fuel Efficiency
1.0 1.5 2.0 2.5
01
Car Price
Auto−Driving Equipment
500 1000 1500 2000 2500
012345678910
Population Density
Death by Car Accident
(a)正規線形回帰 (b) ロジスティック回帰 (c) ポアソン回帰
基本問題3
▶ 正規分布,ベルヌイ分布,ポアソン分布は指数型分布族である.
それぞれの分布における
a(θi), b(yi), c(yi), d(θi) を求めよ.
▶ 上記の3つの分布以外に指数型分布族に属する確率分布を探し,
対応する
a(θi), b(yi), c(yi), d(θi) を求めよ.
I. Takeuchi, ML, DSML-08 34/35
基本問題3の解答