講演ファイル(渡辺先生)pdf

(1)

情報量規準とクロスバリデーションの

同じ点と異なる点

渡辺澄夫

東京工業大学数理・計算科学系

謝辞：このサマーセミナーでは矢田和善先生（筑波大学数理物質系）にお世話いただきました。御礼申し上げます。

統計サマーセミナー 2017 招待講演 2017年8月6日18:00-19:15

栃木県日光市, 鬼怒川パークホテルズ (木楽館)

(2)

２ _. クロスバリデーション

3. ^{モデル選択}

5. ^{条件つき独立の問題}

1. ^{情報量規準}

4. ハイパーパラメータ最適化

(3)

１情報量規準

(4)

統計的推測の方法

データ _Xⁿ が真の分布 _q(x)から独立に発生

統計モデル _{p(x|w) ,}事前分布 _φ(w)：パラメータの次元を _dと書くデータをもとに _xの密度を推測したものを _p(x|Xⁿ₎と書く

(1) ^{最尤推定：} 尤度関数を最大にするパラメータ _w*を見つけて _p(x|w*)を推測とする。

(2) ^{事後確率最大化推定（}MAP)：事後確率を最大にするパラメータ _w⁺ を見つけて _p(x|w⁺₎を推測とする。

(3) 平均プラグイン法：事後確率で平均したパラメータ _E_w_[w] を求めて _p(x|E_w _[w])を推測とする。

(4) ベイズ法：事後確率によるモデルの平均 _E_w _[p(x|w)]を推測とする。

(5)

汎化損失と経験損失

推測_p(x|Xⁿ₎について

G

_n

= - _∫ q(x) log p(x|X

ⁿ

) dx

汎化損失

T

_n

= - (1/n) Σ log p(X

_i

^|X

ⁿ

⁾

経験損失

n i=1

汎化損失 _G_n が小さいほど _q(x)と _p(x|Xⁿ₎の_KL距離が小さい。

情報量規準： _G

n ^–Tn ^{を理論的に求める}

クロスバリデーション： _G_n と同じ平均値を持つ確率変数を作る

(6)

実現可能性と正則性

(1) p(x|w) = q(x) ^{を満たすパラメータ} w ^{が存在するとき} q(x) ^は p(x|w) ^で実現可能であるという。

(2) L(w) = - _∫q(x) log p(x|w) dx を最小にする点のひとつを _w₀ と書く。 w₀ がひとつで、ヘッセ行列が正定値であるとき、_q(x)は _p(x|w)に

対して正則であるという。

Ｌ _{= -} _∫ q(x) log p(x|w

₀

) dx

L

_n

= - (1/n) Σ log p(X

ⁿ _i

^|w

₀

⁾

i=1

(7)

7

赤池情報量規準

AIC

_n

= T

_n

+ (d/n)

(1974 ^赤池弘次 )

もし真の分布が統計モデルで実現可能かつ正則であれば、最尤推定の汎化損失と経験損失について

E[G

_n

] = E[AIC

_n

] + o(1/n).

(G

_n

– L) + (AIC

_n

– L

_n

) = d/n + o

_p

(1/n).

このことの証明は、上記の条件のもとで最尤推定量が _w

0 ^{を平均とし}

(^{フィッシャー情報行列})^-1/n を共分散とする正規分布に漸近することを用いて行なわれる。

(8)

8

赤池情報量規準

(1) AIC は情報量規準の概念のパイオニアであり、「合理的にモデリングを評価する」という考え方自体に人類が初めて到達した記念碑である。モデリングを「思想」や「主義」を出発点として行なうのではなく、推測や予測の精度を調べながら行なうことが適切であると推奨することは現代の統計学の基礎になっている。言われてみれば当然のことのように思えるかもしれないが人類がその当然のことに到着するまでに長い時間と不毛な論争を要した事は、推測・予測・学習・人工知能というものを考えるときに私たちが陥りやすい「思想や主義の螺旋」が何かを教えてくれている。今日の私たちも螺旋に引き込まれないようにしましょう。

(2) AICは最尤推測に対して定義されたものであるが、真の分布がモデルで実現可能かつ正則な場合には経験損失も汎化損失もベイズと最尤は漸近的に同じになるので、 AICはベイズでも利用可能である。また正則な場合には、真の分布が統計モデルで実現可能でないときはパラメータ次元 _dを _tr(IJ^-1₎ にすれば同じ式が成り立つ（Ｉはフィッシャー情報行列、_Jはマイナス対数尤度関数のヘッセ行列）。これを _TIC（竹内情報量規準）という。真の分布が正則でモデルで実現できないときには、最尤とベイズの汎化損失と経験損失は漸近的にも異なるが、「汎化損失ー経験損失」は漸近的に同じで

tr(IJ^-1)/n ^{である。従って} TIC はベイズでも利用できる。

(9)

9

偏差情報量規準 _(DIC)

DIC

_n

= - (1/n) Σ log( p(X

i

^|E

w

^{[w]) )}

n i=1

+ (2/n) Σ { ^{- E}

_w

^{[ log( p(X}

_i

|w)) ] + log ( p(X

_i

|E

_w

[w]) ) }

n i=1

(2002 Spiegelhalter et.al.)

真の分布がモデルで実現可能であり正則であれば、平均プラグイン法で

E[G

_n

] = E[DIC

_n

] + o(1/n).

実現可能かつ正則な場合には最尤・ＭＡＰ・平均プラグイン・ベイズは漸近的に等価なので上記が成り立つ。実現可能でないか正則でない場合には

上記の式は成り立たない。

(G

_n

– L) + (DIC

_n

– L

_n

) = d/n + o

_p

(1/n).

(10)

10

広く使える情報量規準

WAIC

_n

= T

_n

+ _{(1/n) Σ V}

_w

[ log( p(X

_i

|w)) ]

n i=1

(2009 Watanabe) ^{事後分布による分散を} V_w[ ] ^{とかく。ベイズ推測で}

真がモデルで実現できなくても正則でなくても、ベイズ推測では

E[G

_n

]=E[WAIC

_n

] + o(1/n).

(G

_n

– L) + (WAIC

_n

– L

_n

) = 2λ/n + o

_p

^(1/n).

定数 _λは (q(x),p(x|w_),φ(w))により定まる双有理不変量（実対数閾値）。正則ならば _λ=d/2.正則でない場合は異なる値になる。

データが独立であるとき _WAICはクロスバリデーションと極めて近い挙動を持つ。

(11)

２クロスバリデーション

(12)

12

Leave-one-out ^{クロスバリデーション}

CV

_n

= - (1/n) Σ log

ⁿ

^{p( X}

_i

^{| w(X}

ⁿ

^-X

_i

^{) )}

i=1 推定量 _w(Xⁿ_-X

i⁾^を用いて Stone, 1974. Geisser, 1975.

真がモデルで実現できなくても正則でなくても

E[G

_n

]=E[CV

_n

] + o(1/n).

ＣＶ

n

^＝ ^AIC

n

^{+ o}

p

^(1/n).

真がモデルで実現でき正則ならば

定義から _Xⁿが独立で平均が有限ならば常に成り立つ。ただし _n 回推定量を求める必要がある。

(13)

13

重点サンプリングクロスバリデーション

ISCV

_n

= (1/n) Σ log E

ⁿ _w

^{[ 1 / p(X}

_i

^{|w) ]}

i=1

ベイズ法では (1992Gelfand et.al.)

Peruggia (1997) ^{は X}ⁿ の中に影響力の大きなデータが含まれて いるときには平均値 E_w[1/p(x|w)] が存在しない、あるいは分散が無限大になることを示した。

ISCV

_n

= CV

_n

ベイズ法では、上記の _E_w_{[ ]}が有限ならば

Vehtari (2017) はＭＣＭＣサンプルを元に _E_w_[1/p(x|w)] の分布を

Pareto 分布を用いて推定して大きなもの２０％を置き換える方法

を提案している。

(14)

実験例

確率モデル p(y|x,w) = (1/C) exp( -(s/2) (y – w ^・ x)

²

)

データ _x ∈ _R

^M

_{, y} ∈Ｒ

¹

真の分布 _p(y|x,w

0

) = (1/C) exp( - _(1/2σ

²

) (y – w

₀

^・ x)

²

)

入

力

ｘ

出

力

y

+ ^雑音

N _(0,σ

²

)

入力は平均０共分散が ₍ 単位行列 _/s) の正規分布

(15)

実験例

X

ⁿ

,Y

ⁿ

^{が独立な場合} M=5, n=100 ^{（Ｘは正規分布）} .

1000 回独立な実験を行なったときの諸量の平均と標準偏差

最尤汎化１ = 0.035, 0.023

最尤汎化２ = 0.033, 0.021

^{＃定義は後で説明}

最尤 AIC = 0.028, 0.018

最尤 CV = 0.035, 0.019

ベイズ汎化 1 = 0.032, 0.017

ベイズ汎化 2 = 0.029, 0.015

^{＃定義は後で説明}

DIC = 0.031, 0.018

WAIC = 0.030, 0.018

ISCV = 0.030, 0.018

○ 汎化損失は、ベイズが最尤より平均も分散も小さい。

(16)

最尤汎化１

ベ

イ

ズ

汎

化

最尤汎化１

A

I

C

最尤汎化１

最

尤

C

V

最尤 _AIC

最

尤

C

V

(17)

ベイズ汎化１

AIC

W

A

I

C

W

A

I

C

ベイズ汎化１

I

S

C

V

I

S

C

V

Ｗ _AIC

(18)

３モデル選択

(19)

19

モデル選択の一致性について

考察しているモデルの集合の中に真の分布と過不足なく

一致しているモデル（真のモデルと呼ぶ）があるとする．

モデルを選択する方法が、「 _n _→∞ において真のモデルが

選ばれる確率が１に近づく」をみたすとき、モデル選択の

一致性を持つという．

クロスバリデーションおよび汎化損失を推測する情報量

規準は、モデル選択の一致性を持たないことが知られている．

◎ 周辺尤度最大化によるモデル選択（I.J.Good, Schwarz)^はモデル選択の一致性を持つ。

(20)

20

混合正規分布の

コンポーネント数を選択データ２次元_{, n=100} 真：３コンポーネント

混合正規分布のモデル選択

(21)

21

神経回路網のモデル選択

入力２出力１の神経回路網のモデル選択を行なった

n=200. ^{真のモデル}H=3. 神経回路網のようなモデルでは事後分布が正確にできないことがあり、真のモデルが選ばれていない例は、それが原因である。

ベイズ法を適用すると真の分布よりも複雑なモデルを用いても汎化損失はあまり大きくならないが、その分だけ真の分布があたりにくくなる。

汎化損失

A I C

Bayes

ＩＳＣＶ

W A

I C

(22)

22

モデル選択はいつでも汎化損失を小さくするわけではない

３次元のデータに対して二つの正規分布を比較する。d=3, n=30. 次のいずれかのモデルを選ぶ。

モデル_{0 : N}

3^(0,1)

モデル_{1: N}

3^(a,1)

真_{: N}

3 ^(a0^,1)

ISCV, WAIC ^を小さくするほうを選ぶという条件での汎化損失を調べた。

原点と真の分布の平均の距離

汎化損失ーエントロピー

(23)

23

現実の世界について（赤池先生のディスカッション）

(2) 真の分布は不明ですが、仮に人間が用意したモデル族の中に真の分布とぴったり一致するものが含まれているという特別なケースを考えましょう。真の分布とぴったり一致するモデルの中で最もパラメータ次元の小さいものを【真のモデル】と呼ぶことにします。データの数が無限大に近づく極限を考えましょう。汎化誤差の推測値を最小にするモデルを選んでも、【真のモデル】が選ばれる確率は１には近づかないことが知られています。一方、事後確率を最大化する方法_(I.J.Good)でモデルを選ぶと、【真のモデル】が選ばれる確率が１に近づきます。

(1) 現実的な状況では真の分布は無限に複雑であり、人間が用意する有限個のモデルの集合の中に真の分布とぴったりと一致するものはないと考えられます。データの数が多くなるにつれて少しずつ真の分布の詳しい理解ができるようになります。汎化誤差の推測値を最小にする方法はデータの持つ情報を最大限に予測に活かすために有効であると考えられます（赤池弘次）。そのことを数学的に証明できるモデル族があります（柴田里程）。

(24)

24

４ハイパーパラメータの最適化

(25)

真の分布がモデルに対して正則であるとき

CV( _ϕ ) = CV( _ϕ

₀

) + (1/n

²

) M

_n

( _ϕ ,w*) +O

_p

(1/n

³

)

E[CV( _ϕ )] = E[G

_n

( _ϕ )] + (d/2n

²

) + o(1/n

²

)

(1) _ϕ₀ を固定された事前分布、_ϕを候補の事前分布とする。ある関数 _Mと平均が漸近的に等しい関数 _M

n ^{が存在して次が成立。}

CV(_ϕ) ^{を最小化することは} E[G_n(_ϕ)] を漸近的に最小化する。

E[CV( _ϕ )] = E[CV( _ϕ

₀

)] + (1/n

²

) M( _ϕ ,w

₀

) +O

_p

(1/n

³

)

WAIC( _ϕ ) = WAIC( _ϕ

₀

) + (1/n

²

) M

_n

( _ϕ ,w*) +O

_p

(1/n

³

)

E[WAIC( _ϕ )] = E[WAIC( _ϕ

₀

)] + (1/n

²

) M( _ϕ ,w

₀

) +O(1/n

³

)

E[WAIC( _ϕ )] = E[G

_n

( _ϕ )] + (d/2n

²

) +o(1/n

²

)

WAIC(_ϕ) ^{を最小化は} E[G_n(_ϕ)] を漸近的に最小化する。

(26)

真の分布がモデルに対して正則であるとき

G

_n

( _ϕ ) = G

_n

( _ϕ

₀

) +O

_p

(1/n

^3/2

)

E[ G

_n

( _ϕ ) ] = E[ G

_n

( _ϕ

₀

) ] + (1/n

²

) M( _ϕ ,w

₀

) +O(1/n

³

)

(2) 汎化損失は次をみたす。

E[ G_n(_ϕ) ]^{の最小化は} G_n(_ϕ) を漸近的に最小化しない。 CV(_ϕ) ^{の最小化は} G_n(_ϕ) を漸近的に最小化しない。 WAIC(_ϕ) ^{の最小化は} G_n(_ϕ) を漸近的に最小化しない。

(^注意) 周辺尤度の最大化は、事前分布がプロパーでないと意味がないが、

CV, WAIC の最小化は事前分布がプロパーであることを必要としない。

汎化損失を最小にするハイパーパラメータは事前分布をプロパーにするとは限らない。周辺尤度の最大化は汎化損失の最小化と漸近的にも異なる。

(27)

具体的な例

統計モデル p(x|s,m) = (s/2 _π )

^1/2

exp(- (s/2)(x-m)

²

)

事前分布 _ϕ _(s,m| _{µ, λ} _{) = s}

^µ

_{exp( -} _λ _s(m

²

_{+1) )}

真の分布 q(x) = p(x|1,1)

プロパー ⇔ µ > −1/2, λ>0

固定の事前分布 _ϕ

₀

_{(s,m) =1} なのでこのケースでは

(w,s) : MAP = MLE

( _{µ, λ} ) ^{はハイパーパラメータ}

(28)

実験例

ISCV(_µ)-ISCV(₀) WAIC(_µ)-WAIC(₀)

WAICR(_µ) - WAICR(0)

F(_µ)-F(₀₎ DIC(_µ)-DIC(0)

G(_µ)-G(0)

Improper

(29)

ハイパーパラメータ最適化の問題 ₍₁₎

事後分布が正規分布で近似できる場合を考える。

(2) 確率変数としての汎化損失は、上記の３つとは挙動が異なり、ハイパーパラメータを変えると _1/n^3/2 のオーダーの項が変化する。この項はデータの出かたによって変動するものであり、交差検証、_WAICの最小化でも最小化することはできない。

(1) ハイパーパラメータを変えることで変化するのは、交差検証、_WAIC、平均汎化損失では_1/n² のオーダーの項でそれは、漸近的に等価である。従って、交差検証または WAICを最小化することで平均汎化損失を漸近的に最小化することができる。

(3) 現実の問題としては、次のようなことが起こる。学習用のデータとは別に

テスト用のデータを用意しておいて、学習用のデータで作った予測分布をテスト用のデータを使って汎化損失を計算する（テスト損失と呼ぶ）。交差検証あるいは_WAICを最小化することで得られたハイパーパラメータはテスト損失を最小にしない。このため交差検証や_WAICの有効性を調べるためにテスト損失と較べてみるという方法はうまくいかない。

(4) 真の分布は不明という条件下でも平均汎化損失を最小化するハイパーパラメータを選ぶことはできるが、確率変数としての汎化損失を最小化するハイパーパラメータを選ぶことは不可能のように思われる。（要研究）。

(30)

ハイパーパラメータ _α 汎化損失

ーエントロピー

漸近理論

事後分布が正規分布で近似できないとき

事後分布が正規分布で近似できない場合にはハイパーパラメータの変化が相転移を引き起こすことがある。

x^∈R², n=100. 統計モデル _{( w=(a}

1^,a2,^b1^,b2^{) )}

p(x|w)=a₁N₂(x,b₁)+a₂N₂(x,b₂) 真の分布 p(x|0.5,0.5,0,0) a ^{の事前分布} ^{ディリクレ分布}

φ(a|α)^∝^(a₁^(1-a₁^{) a}₂^(1-a₂⁾⁾^α^-1 b ^{の事前分布} ^{裾広の正規分布} ハイパーパラメータ _α の値を変えると実対数閾値が変わる

λ(α) = α/2 (α<2) 2 (α^≧²⁾

事後分布の形が _α＝２の前後で急激に変わる（相転移）。汎化損失ーエントロピーは _λ（_α）_/2n。

(31)

ハイパーパラメータ最適化の問題 ₍₂₎

事後分布が正規分布で近似できない場合を考える。

(1) ハイパーパラメータを変えると実対数閾値が変わる場合がある。この場合には汎化損失は _1/nのオーダーで変わる。

(2) ハイパーパラメータを変えると実対数閾値が微分可能でない点があることがある。相転移点という。相転移点の前後では事後分布の形が急激に変わる。前ページの例では、_α＜２では、ひとつのコンポーネントでの学習が行われているのに対して、_α≧２では、ふたつのコンポーネントが用いられるようになる。

(3) 相転移がある場合でも汎化損失は_CVと_WAICで推測することができるが、汎化損失の揺らぎは（_CVと_WAICの揺らぎも）相転移の付近では大きくなる。相転移点の近くは安定した統計的推測に適さないように思われる。事後分布の形状も_MCMC法での近似がより難しくなることが多い。

(4) ２個の混合からなる混合正規分布のように簡単な問題であれば相転移の構造は解明されているが、多数の隠れユニットを持つ神経回路網のように複雑な対象では実対数閾値も相転移の構造もまだ解明されていない。

(32)

５条件つき独立の問題

(33)

X ^は独立か

(1) ^{あるクラス} 30 ^人の

身長と体重のデータをもとに

身長から体重を予測したい。

(2) ^{太陽系にある星の}

半径と質量のデータをもとに

半径から質量を予測したい。

太陽

(34)

二つの汎化損失

条件つき確率の推測の問題を考える。

G

_n

^{= -} _{(1/n) Σ} _∫ ^q(y|X

_i

) log p(y|X

_i

,X

ⁿ

,Y

ⁿ

) dy

汎化損失₂ 固定データ _Xⁿ について _Yⁿ は _q(y|x)から独立に発生 p(y|x,Xⁿ,Yⁿ)^： ^{サンプルサイズ} n ^のデータ Xⁿ Yⁿ から推測された密度関数

G

_n

= - _{∫ ∫} q(x) q(y|x) log p(y|x,X

ⁿ

,Y

ⁿ

) dx dy

n i=1 二つの汎化損失を考える。

汎化損失１データ _Xⁿ _Yⁿ は q(y|x) q(x) ^{から独立に発生}

(35)

交差確認と情報量規準の定義

IC

_n

= - (1/n) Σ log p(Y

ⁿ _i

^|X

_i

^,X

ⁿ

^,Y

ⁿ

^{) +} ^複雑さ ^{/ n}

i=1 情報量規準

CV

_n

= - (1/n) Σ log p(Y

ⁿ _i

^|X

_i

^,X

^n-i

^,Y

^n-i

⁾

i=1

ひとつを除外する交差確認（検証） _(LOOCV)

情報量規準と _LOOCV を次式で定義する。このふたつは _Xⁿ _Yⁿ を発生している確率分布についての仮定がなくても値を計算することはできる・・・。

X

ⁿ

,Y

ⁿ

^が独立 _→ G

_n

, _G

_n

, IC

_n

, CV

_n

の平均値は漸近的に等しい。

Y

ⁿ

^{だけが独立} _{→ G}

_n

, IC

_n

の平均値は漸近的に等しい。

(36)

影響力の大きなデータがあるとき

ひとつだけ標準偏差が₅倍（₂０倍₎の _Xが含まれている場合クロスバリデーションは大きくなるが情報量規準はならない。

５倍のとき平均と標準偏差

最尤汎化 1 = 0.032, 0.023

最尤汎化 2 = 0.033, 0.024

最尤 AIC = 0.029, 0.018

最尤 CV = 0.040, 0.028

ベイズ汎化 1 = 0.029,0.016

ベイズ汎化 2 = 0.028,0.017

DIC = 0.032,0.019

WAIC = 0.030,0.019

ISCV = 0.032,0.019

20 ^倍のとき ^{平均と標準偏差}

最尤汎化 1 = 0.029, 0.023

最尤汎化２ = 0.033, 0.023

最尤 AIC = 0.029, 0.018

最尤 CV = 0.140, 0.236

ベイズ汎化 1 = 0.026,0.016

ベイズ汎化 2 = 0.027,0.015

DIC = 0.032,0.018

WAIC = 0.029,0.018

ISCV = 0.033,0.019

(37)

ベイズ汎化２

ベ

イ

ズ

汎

化

１ 最尤汎化２

最

尤

汎

化

１ 最尤汎化２ ^{最尤汎化２}

A

I

C

最

尤

C

V

ベイズ汎化２ベイズ汎化２

W

A

I

C

I

S

C

V

ひとつだけ標準偏差が ₅ 倍の _X が含まれている場合

(38)

M=1, n=10 ^の例

回帰問題 Y=aX+N(0,1/s) で(M=1,n=10), X₁,…X₉ ^は区間_[0,1]にあり、 _X

10^がそ

れらから離れた位置にある場合、 _X

10^{は影響力の大}

きなデータである。このとき交差検証は使えないが WAIC^{は使うことができる。}

X₁,…X₉ X₁₀ ^{影響力の大きなデータ}^X₁₀^の位置 Y=aX+N(0,1/s)

(39)

影響力のおおきなデータ

データセット _Xⁿ の中のあるデータの有無が推測に大きな影響を及ぼすデータを影響力の大きなデータという。

(1) 太陽系の惑星の体積から重さを推測するとき、太陽は影響力の大きなデータである。

(2) 識別問題では識別境界付近のデータが影響力の大きなデータになる。

(3) 高次元空間上では、ほとんどのデータが影響力の大きなデータ。影響力の大きなデータでは _E

w^{[ 1/ p(Y}j^|Xj^{) ]}^{が発散する。}

ＣＶは計算できるが、影響力の大きなデータも含めてもよいかどうかを考察する必要がある。

影響力の大きなデータがあるケースは、_Xが独立とみなせない場合に相当し、交差検証は使えないが _{AIC WAIC}は使える。

講演ファイル(渡辺先生)pdf

情報量規準とクロスバリデーションの

同じ点と異なる点

渡辺澄夫

東京工業大学 数理・計算科学系

目次

２ . クロスバリデーション

3. モデル選択

5. 条件つき独立の問題

1. 情報量規準

4. ハイパーパラメータ最適化

１ 情報量規準

統計的推測の方法

汎化損失と経験損失

G

= - ∫ q(x) log p(x|X

) dx

T

= - (1/n) Σ log p(X

|X

)

実現可能性と正則性

Ｌ = - ∫ q(x) log p(x|w

) dx

L

= - (1/n) Σ log p(X

|w

)

赤池情報量規準

AIC

= T

+ (d/n)

(1974 赤池弘次 )

E[G

] = E[AIC

] + o(1/n).

(G

– L) + (AIC

– L

) = d/n + o

(1/n).

赤池情報量規準

偏差情報量規準 (DIC)

DIC

= - (1/n) Σ log( p(X

|E

[w]) )

+ (2/n) Σ { - E

[ log( p(X

|w)) ] + log ( p(X

|E

[w]) ) }

E[G

] = E[DIC

] + o(1/n).

(G

– L) + (DIC

– L

) = d/n + o

(1/n).

広く使える情報量規準

WAIC

= T

+ (1/n) Σ V

[ log( p(X

|w)) ]

E[G

]=E[WAIC

] + o(1/n).

(G

– L) + (WAIC

– L

) = 2λ/n + o

(1/n).

２ クロスバリデーション

Leave-one-out クロスバリデーション

CV

= - (1/n) Σ log

p( X

| w(X

東京工業大学数理・計算科学系

２ _. クロスバリデーション

3. ^{モデル選択}

5. ^{条件つき独立の問題}

1. ^{情報量規準}

１情報量規準

= - _∫ q(x) log p(x|X

^|X

⁾

Ｌ _{= -} _∫ q(x) log p(x|w

^|w

⁾

(1974 ^赤池弘次 )

偏差情報量規準 _(DIC)

^|E

^{[w]) )}

+ (2/n) Σ { ^{- E}

^{[ log( p(X}

+ _{(1/n) Σ V}

^(1/n).

２クロスバリデーション

Leave-one-out ^{クロスバリデーション}

^{p( X}

^{| w(X}

^-X

^{) )}

^＝ ^AIC

^{+ o}

^(1/n).

^{[ 1 / p(X}

^{|w) ]}

確率モデル p(y|x,w) = (1/C) exp( -(s/2) (y – w ^・ x)

データ _x ∈ _R

_{, y} ∈Ｒ

真の分布 _p(y|x,w

) = (1/C) exp( - _(1/2σ

^・ x)

+ ^雑音

N _(0,σ

入力は平均０共分散が ₍ 単位行列 _/s) の正規分布

^{が独立な場合} M=5, n=100 ^{（Ｘは正規分布）} .

最尤 _AIC