情報量規準とクロスバリデーションの
同じ点と異なる点
渡辺澄夫
東京工業大学 数理・計算科学系
謝辞:このサマーセミナーでは矢田和善先生(筑波大学数理物質系)に お世話いただきました。御礼申し上げます。
統計サマーセミナー 2017 招待講演 2017年8月6日18:00-19:15
栃木県日光市, 鬼怒川パークホテルズ (木楽館)
目次
2 . クロスバリデーション
3. モデル選択
5. 条件つき独立の問題
1. 情報量規準
4. ハイパーパラメータ最適化
1 情報量規準
統計的推測の方法
データ Xn が真の分布 q(x) から独立に発生
統計モデル p(x|w) , 事前分布 φ(w) : パラメータの次元を d と書く データをもとに x の密度を推測したものを p(x|Xn) と書く
(1) 最尤推定: 尤度関数を最大にするパラメータ w* を 見つけて p(x|w*) を推測とする。
(2) 事後確率最大化推定(MAP):事後確率を最大にする パラメータ w+ を見つけて p(x|w+) を推測とする。
(3) 平均プラグイン法:事後確率で平均したパラメータ Ew[w] を求めて p(x|Ew [w]) を推測とする。
(4) ベイズ法:事後確率によるモデルの平均 Ew [p(x|w)] を 推測とする。
汎化損失と経験損失
推測p(x|Xn) について
G
n= - ∫ q(x) log p(x|X
n) dx
汎化損失
T
n= - (1/n) Σ log p(X
i|X
n)
経験損失
n i=1
汎化損失 Gn が小さいほど q(x) と p(x|Xn) のKL距離が小さい。
情報量規準: G
n –Tn を理論的に求める
クロスバリデーション: Gn と同じ平均値を持つ確率変数を作る
実現可能性と正則性
(1) p(x|w) = q(x) を満たすパラメータ w が存在するとき q(x) は p(x|w) で 実現可能であるという。
(2) L(w) = - ∫ q(x) log p(x|w) dx を最小にする点のひとつを w0 と書く。 w0 がひとつで、ヘッセ行列が正定値であるとき、q(x) は p(x|w) に
対して正則であるという。
L = - ∫ q(x) log p(x|w
0) dx
L
n= - (1/n) Σ log p(X
n i|w
0)
i=1
7
赤池情報量規準
AIC
n= T
n+ (d/n)
(1974 赤池弘次 )
もし真の分布が統計モデルで実現可能かつ正則であれば、最尤推定の 汎化損失と経験損失について
E[G
n] = E[AIC
n] + o(1/n).
(G
n– L) + (AIC
n– L
n) = d/n + o
p(1/n).
このことの証明は、上記の条件のもとで最尤推定量が w
0 を平均とし
(フィッシャー情報行列)-1/n を共分散とする正規分布に漸近することを 用いて行なわれる。
8
赤池情報量規準
(1) AIC は情報量規準の概念のパイオニアであり、「合理的にモデリングを評価する」と いう考え方自体に人類が初めて到達した記念碑である。モデリングを「思想」や「主義」 を出発点として行なうのではなく、推測や予測の精度を調べながら行なうことが適切で あると推奨することは現代の統計学の基礎になっている。言われてみれば当然のことの ように思えるかもしれないが人類がその当然のことに到着するまでに長い時間と不毛な 論争を要した事は、推測・予測・学習・人工知能というものを考えるときに私たちが陥り やすい「思想や主義の螺旋」が何かを教えてくれている。今日の私たちも螺旋に引き込 まれないようにしましょう。
(2) AICは最尤推測に対して定義されたものであるが、真の分布がモデルで実現可能 かつ正則な場合には経験損失も汎化損失もベイズと最尤は漸近的に同じになるので、 AICはベイズでも利用可能である。 また正則な場合には、真の分布が統計モデルで実 現可能でないときはパラメータ次元 d を tr(IJ-1) にすれば同じ式が成り立つ( I はフィッ シャー情報行列、J はマイナス対数尤度関数のヘッセ行列)。これを TIC (竹内情報量 規準)という。真の分布が正則でモデルで実現できないときには、最尤とベイズの汎化 損失と経験損失は漸近的にも異なるが、「汎化損失ー経験損失」は漸近的に同じで
tr(IJ-1)/n である。従って TIC はベイズでも利用できる。
9
偏差情報量規準 (DIC)
DIC
n= - (1/n) Σ log( p(X
i|E
w[w]) )
n i=1
+ (2/n) Σ { - E
w[ log( p(X
i|w)) ] + log ( p(X
i|E
w[w]) ) }
n i=1
(2002 Spiegelhalter et.al.)
真の分布がモデルで実現可能であり正則であれば、平均プラグイン法で
E[G
n] = E[DIC
n] + o(1/n).
実現可能かつ正則な場合には最尤・MAP・平均プラグイン・ベイズは漸近的 に等価なので上記が成り立つ。実現可能でないか正則でない場合には
上記の式は成り立たない。
(G
n– L) + (DIC
n– L
n) = d/n + o
p(1/n).
10
広く使える情報量規準
WAIC
n= T
n+ (1/n) Σ V
w[ log( p(X
i|w)) ]
n i=1
(2009 Watanabe) 事後分布による分散を Vw[ ] とかく。ベイズ推測で
真がモデルで実現できなくても正則でなくても、ベイズ推測では
E[G
n]=E[WAIC
n] + o(1/n).
(G
n– L) + (WAIC
n– L
n) = 2λ/n + o
p(1/n).
定数 λ は (q(x),p(x|w),φ(w)) により定まる双有理不変量(実対数閾値)。 正則ならば λ=d/2. 正則でない場合は異なる値になる。
データが独立であるとき WAIC はクロスバリデーションと極めて近い 挙動を持つ。
2 クロスバリデーション
12
Leave-one-out クロスバリデーション
CV
n= - (1/n) Σ log
np( X
i| w(X
n-X
i) )
i=1 推定量 w(Xn-X
i) を用いて Stone, 1974. Geisser, 1975.
真がモデルで実現できなくても正則でなくても
E[G
n]=E[CV
n] + o(1/n).
CV
n= AIC
n+ o
p(1/n).
真がモデルで実現でき正則ならば
定義から Xn が独立で平均が有限ならば常に成り立つ。 ただし n 回推定量を求める必要がある。
13
重点サンプリングクロスバリデーション
ISCV
n= (1/n) Σ log E
n w[ 1 / p(X
i|w) ]
i=1
ベイズ法では (1992Gelfand et.al.)
Peruggia (1997) は Xn の中に影響力の大きなデータが含まれて いるときには平均値 Ew[1/p(x|w)] が存在しない、あるいは分散が 無限大になることを示した。
ISCV
n= CV
nベイズ法では、上記の Ew[ ] が有限ならば
Vehtari (2017) はMCMCサンプルを元に Ew[1/p(x|w)] の分布を
Pareto 分布を用いて推定して大きなもの20%を置き換える方法
を提案している。
実験例
確率モデル p(y|x,w) = (1/C) exp( -(s/2) (y – w ・ x)
2)
データ x ∈ R
M, y ∈R
1真の分布 p(y|x,w
0
) = (1/C) exp( - (1/2σ
2) (y – w
0・ x)
2)
入
力
x
出
力
y
+ 雑音
N (0,σ
2)
入力は平均0共分散が ( 単位行列 /s) の正規分布
実験例
X
n,Y
nが独立な場合 M=5, n=100 (Xは正規分布) .
1000 回独立な実験を行なったときの諸量の平均と標準偏差
最尤汎化1 = 0.035, 0.023
最尤汎化2 = 0.033, 0.021
#定義は後で説明最尤 AIC = 0.028, 0.018
最尤 CV = 0.035, 0.019
ベイズ汎化 1 = 0.032, 0.017
ベイズ汎化 2 = 0.029, 0.015
#定義は後で説明DIC = 0.031, 0.018
WAIC = 0.030, 0.018
ISCV = 0.030, 0.018
○ 汎化損失は、ベイズが最尤より平均も分散も小さい。
最尤汎化1
ベ
イ
ズ
汎
化
最尤汎化1
A
I
C
最尤汎化1
最
尤
C
V
最尤 AIC
最
尤
C
V
ベイズ汎化1
AIC
W
A
I
C
W
A
I
C
ベイズ汎化1
I
S
C
V
I
S
C
V
W AIC
3 モデル選択
19
モデル選択の一致性について
考察しているモデルの集合の中に真の分布と過不足なく
一致しているモデル(真のモデルと呼ぶ)があるとする.
モデルを選択する方法が、「 n →∞ において真のモデルが
選ばれる確率が1に近づく」をみたすとき、モデル選択の
一致性を持つという.
クロスバリデーションおよび汎化損失を推測する情報量
規準は、モデル選択の一致性を持たないことが知られている.
◎ 周辺尤度最大化によるモデル選択(I.J.Good, Schwarz)はモデル 選択の一致性を持つ。
20
混合正規分布の
コンポーネント数を選択 データ2次元, n=100 真:3コンポーネント
混合正規分布のモデル選択
21
神経回路網のモデル選択
入力2出力1の神経回路網 のモデル選択を行なった
n=200. 真のモデルH=3. 神経回路網のようなモデル では事後分布が正確にでき ないことがあり、真のモデル が選ばれていない例は、 それが原因である。
ベイズ法を適用すると真の 分布よりも複雑なモデルを 用いても汎化損失はあまり 大きくならないが、その分 だけ真の分布があたり にくくなる。
汎 化 損 失
A I C
Bayes
I S C V
W A
I C
22
モデル選択はいつでも汎化損失を小さくするわけではない
3次元のデータに対し て二つの正規分布を 比較する。d=3, n=30. 次のいずれかのモデ ルを選ぶ。
モデル0 : N
3(0,1)
モデル1: N
3(a,1)
真: N
3 (a0,1)
ISCV, WAIC を小さく するほうを選ぶという 条件での汎化損失を 調べた。
原点と真の分布の平均の距離
汎化損失ーエントロピー
23
現実の世界について(赤池先生のディスカッション)
(2) 真の分布は不明ですが、仮に人間が用意したモデル族の中に真の 分布とぴったり一致するものが含まれているという特別なケースを考え ましょう。真の分布とぴったり一致するモデルの中で最もパラメータ次元 の小さいものを【真のモデル】と呼ぶことにします。データの数が無限大 に近づく極限を考えましょう。汎化誤差の推測値を最小にするモデルを 選んでも、【真のモデル】が選ばれる確率は1には近づかないことが知 られています。一方、事後確率を最大化する方法(I.J.Good)でモデルを 選ぶと、【真のモデル】が選ばれる確率が1に近づきます。
(1) 現実的な状況では真の分布は無限に複雑であり、人間が用意する 有限個のモデルの集合の中に真の分布とぴったりと一致するものはな いと考えられます。データの数が多くなるにつれて少しずつ真の分布の 詳しい理解ができるようになります。汎化誤差の推測値を最小にする方 法はデータの持つ情報を最大限に予測に活かすために有効であると考 えられます(赤池弘次)。そのことを数学的に証明できるモデル族があり ます(柴田里程)。
24
4 ハイパーパラメータの最適化
真の分布がモデルに対して正則であるとき
CV( ϕ ) = CV( ϕ
0) + (1/n
2) M
n( ϕ ,w*) +O
p(1/n
3)
E[CV( ϕ )] = E[G
n( ϕ )] + (d/2n
2) + o(1/n
2)
(1) ϕ0 を固定された事前分布、ϕを候補の事前分布とする。 ある関数 M と平均が漸近的に等しい関数 M
n が存在して次が成立。
CV(ϕ) を最小化することは E[Gn(ϕ)] を漸近的に最小化する。
E[CV( ϕ )] = E[CV( ϕ
0)] + (1/n
2) M( ϕ ,w
0) +O
p(1/n
3)
WAIC( ϕ ) = WAIC( ϕ
0) + (1/n
2) M
n( ϕ ,w*) +O
p(1/n
3)
E[WAIC( ϕ )] = E[WAIC( ϕ
0)] + (1/n
2) M( ϕ ,w
0) +O(1/n
3)
E[WAIC( ϕ )] = E[G
n( ϕ )] + (d/2n
2) +o(1/n
2)
WAIC(ϕ) を最小化は E[Gn(ϕ)] を漸近的に最小化する。
真の分布がモデルに対して正則であるとき
G
n( ϕ ) = G
n( ϕ
0) +O
p(1/n
3/2)
E[ G
n( ϕ ) ] = E[ G
n( ϕ
0) ] + (1/n
2) M( ϕ ,w
0) +O(1/n
3)
(2) 汎化損失は次をみたす。
E[ Gn (ϕ) ]の最小化は Gn (ϕ) を漸近的に最小化しない。 CV(ϕ) の最小化は Gn(ϕ) を漸近的に最小化しない。 WAIC(ϕ) の最小化は Gn(ϕ) を漸近的に最小化しない。
(注意) 周辺尤度の最大化は、事前分布がプロパーでないと意味がないが、
CV, WAIC の最小化は事前分布がプロパーであることを必要としない。
汎化損失を最小にするハイパーパラメータは事前分布をプロパーにするとは 限らない。周辺尤度の最大化は汎化損失の最小化と漸近的にも異なる。
具体的な例
統計モデル p(x|s,m) = (s/2 π )
1/2exp(- (s/2)(x-m)
2)
事前分布 ϕ (s,m| µ, λ ) = s
µexp( - λ s(m
2+1) )
真の分布 q(x) = p(x|1,1)
プロパー ⇔ µ > −1/2, λ>0
固定の事前分布 ϕ
0(s,m) =1 なのでこのケースでは
(w*,s*) : MAP = MLE
( µ, λ ) はハイパーパラメータ
実験例
ISCV(µ)-ISCV(0) WAIC(µ)-WAIC(0)
WAICR(µ) - WAICR(0)
F(µ)-F(0) DIC(µ)-DIC(0)
G(µ)-G(0)
Improper
ハイパーパラメータ最適化の問題 (1)
事後分布が正規分布で近似できる場合を考える。
(2) 確率変数としての汎化損失は、上記の3つとは挙動が異なり、ハイパーパラメータ を変えると 1/n3/2 のオーダーの項が変化する。この項はデータの出かたによって変動 するものであり、交差検証、WAICの最小化でも最小化することはできない。
(1) ハイパーパラメータを変えることで変化するのは、交差検証、WAIC、平均汎化損失 では1/n2 のオーダーの項でそれは、漸近的に等価である。従って、交差検証または WAICを最小化することで平均汎化損失を漸近的に最小化することができる。
(3) 現実の問題としては、次のようなことが起こる。学習用のデータとは別に
テスト用のデータを用意しておいて、学習用のデータで作った予測分布をテスト用の データを使って汎化損失を計算する(テスト損失と呼ぶ)。交差検証あるいはWAICを 最小化することで得られたハイパーパラメータはテスト損失を最小にしない。このため 交差検証やWAICの有効性を調べるためにテスト損失と較べてみるという方法は うまくいかない。
(4) 真の分布は不明という条件下でも平均汎化損失を最小化するハイパーパラメータ を選ぶことはできるが、確率変数としての汎化損失を最小化するハイパーパラメータを 選ぶことは不可能のように思われる。(要研究)。
ハイパーパラメータ α 汎化損失
ーエントロピー
漸近理論
事後分布が正規分布で近似できないとき
事後分布が正規分布で近似できない場合にはハイパーパラメータの変化が相転移 を引き起こすことがある。
x∈R2, n=100. 統計モデル ( w=(a
1,a2,b1,b2) )
p(x|w)=a1N2(x,b1)+a2N2(x,b2) 真の分布 p(x|0.5,0.5,0,0) a の事前分布 ディリクレ分布
φ(a|α)∝(a1 (1-a1) a2 (1-a2)) α-1 b の事前分布 裾広の正規分布 ハイパーパラメータ α の値を 変えると実対数閾値が変わる
λ(α) = α/2 (α<2) 2 (α≧2)
事後分布の形が α=2の前後で 急激に変わる(相転移)。汎化 損失ーエントロピーは λ(α)/2n。
ハイパーパラメータ最適化の問題 (2)
事後分布が正規分布で近似できない場合を考える。
(1) ハイパーパラメータを変えると実対数閾値が変わる場合がある。この場合には 汎化損失は 1/n のオーダーで変わる。
(2) ハイパーパラメータを変えると実対数閾値が微分可能でない点があることがある。 相転移点という。相転移点の前後では事後分布の形が急激に変わる。前ページの例 では、α<2では、ひとつのコンポーネントでの学習が行われているのに対して、α≧2 では、ふたつのコンポーネントが用いられるようになる。
(3) 相転移がある場合でも汎化損失はCVとWAICで推測することができるが、汎化 損失の揺らぎは(CVとWAICの揺らぎも)相転移の付近では大きくなる。相転移点の 近くは安定した統計的推測に適さないように思われる。事後分布の形状もMCMC法 での近似がより難しくなることが多い。
(4) 2個の混合からなる混合正規分布のように簡単な問題であれば相転移の構造は 解明されているが、多数の隠れユニットを持つ神経回路網のように複雑な対象では 実対数閾値も相転移の構造もまだ解明されていない。
5 条件つき独立の問題
X は独立か
(1) あるクラス 30 人の
身長と体重のデータをもとに
身長から体重を予測したい。
(2) 太陽系にある星の
半径と質量のデータをもとに
半径から質量を予測したい。
太陽
二つの汎化損失
条件つき確率の推測の問題を考える。
G
n= - (1/n) Σ ∫ q(y|X
i) log p(y|X
i,X
n,Y
n) dy
汎化損失2 固定データ Xn について Yn は q(y|x) から独立に発生 p(y|x,Xn,Yn): サンプルサイズ n のデータ Xn Yn から推測された密度関数
G
n= - ∫ ∫ q(x) q(y|x) log p(y|x,X
n,Y
n) dx dy
n i=1 二つの汎化損失を考える。
汎化損失1 データ Xn Yn は q(y|x) q(x) から独立に発生
交差確認と情報量規準の定義
IC
n= - (1/n) Σ log p(Y
n i|X
i,X
n,Y
n) + 複雑さ / n
i=1 情報量規準
CV
n= - (1/n) Σ log p(Y
n i|X
i,X
n-i,Y
n-i)
i=1
ひとつを除外する交差確認(検証) (LOOCV)
情報量規準 と LOOCV を次式で定義する。このふたつは Xn Yn を発生して いる確率分布についての仮定がなくても値を計算することはできる・・・。
X
n,Y
nが独立 → G
n, G
n, IC
n, CV
nの平均値は漸近的に等しい。
Y
nだけが独立 → G
n, IC
nの平均値は漸近的に等しい。
影響力の大きなデータがあるとき
ひとつだけ標準偏差が5倍(20倍) の X が含まれている場合 クロスバリデーションは大きくなるが情報量規準はならない。
5倍のとき 平均と標準偏差
最尤汎化 1 = 0.032, 0.023
最尤汎化 2 = 0.033, 0.024
最尤 AIC = 0.029, 0.018
最尤 CV = 0.040, 0.028
ベイズ汎化 1 = 0.029,0.016
ベイズ汎化 2 = 0.028,0.017
DIC = 0.032,0.019
WAIC = 0.030,0.019
ISCV = 0.032,0.019
20 倍のとき 平均と標準偏差
最尤汎化 1 = 0.029, 0.023
最尤汎化2 = 0.033, 0.023
最尤 AIC = 0.029, 0.018
最尤 CV = 0.140, 0.236
ベイズ汎化 1 = 0.026,0.016
ベイズ汎化 2 = 0.027,0.015
DIC = 0.032,0.018
WAIC = 0.029,0.018
ISCV = 0.033,0.019
ベイズ汎化2
ベ
イ
ズ
汎
化
1
最尤汎化2
最
尤
汎
化
1
最尤汎化2 最尤汎化2
A
I
C
最
尤
C
V
ベイズ汎化2 ベイズ汎化2
W
A
I
C
I
S
C
V
ひとつだけ標準偏差が 5 倍 の X が含まれている場合
M=1, n=10 の例
回帰問題 Y=aX+N(0,1/s) で(M=1,n=10), X1,…X9 は 区間[0,1] にあり、 X
10がそ
れらから離れた位置にあ る場合、 X
10は影響力の大
きなデータである。このとき 交差検証は使えないが WAICは使うことができる。
X1,…X9 X10 影響力の大きなデータX10の位置 Y=aX+N(0,1/s)
影響力のおおきなデータ
データセット Xn の中のあるデータの有無が推測に大きな影響を及ぼす データを影響力の大きなデータという。
(1) 太陽系の惑星の体積から重さを推測するとき、太陽は 影響力の大きなデータである。
(2) 識別問題では識別境界付近のデータが影響力の大きな データになる。
(3) 高次元空間上では、ほとんどのデータが影響力の大きなデータ。 影響力の大きなデータでは E
w[ 1/ p(Yj|Xj) ] が発散する。
CVは計算できるが、影響力の大きなデータも含めてもよいかどうかを 考察する必要がある。
影響力の大きなデータがあるケースは、Xが独立とみなせない場合に 相当し、交差検証は使えないが AIC WAICは使える。