Part 4

(1)

集中講義

情報認知特論（第４部）

講師：中島伸一

（株）ニコン光技術研究所

[email protected]

http://sites.google.com/site/shinnkj23/

(2)

✤ _{７月２５日（水）}

✤ _{第０部：講義の概要}

✤ 第１部：ベイズ学習の枠組み

✤ 第２部：ベイズ学習の計算

✤ _{７月２６日（木）}

✤ 第３部：変分ベイズ学習

✤ 第４部：ベイズ学習の解の性質

✤ _レポート

(3)

✤ 基本的な学習法（最尤法、MAP法等を近似とみなせる）。

✤ 予測の確信度を提供（予測分布）。

✤ （モデルと事前分布が適切なら）最強。

✤ モデル選択（次元削減、特徴選択）の枠組みを提供

→ スパース推定に関連。

講義の概要

ベイズ学習

✤ 計算が面倒（しばしば不可能）→ 近似が必要。

✤ 「適切」な事前分布選択が必要。

✤ 不思議な（直感とは異なる）振る舞い。

(4)

✤ _{ベイズ学習の性質}

✤ _{モデル起因正則化}

✤ Jeffreys _{事前分布と特異点}

✤ 変分ベイズ解のスパース性

✤ 分解モデルのベイズ事後分布と変分ベイズ事後分布

✤ ARD(Automatic Relevance Determination) _{モデルとの関係}

(5)

１次元ガウスモデル（分散既知）

モデル分布：

観測変数：

パラメータ：

事前分布：

事後分布：

ベイズ推定量：

観測データ：

正則化が効いている。原因は？事前分布！

(6)

モデル分布：

観測変数：

パラメータ：

事前分布：

事後分布：

ベイズ推定量：

観測データ：

最尤推定に一致。事前分布による正則化がなくなった。

(7)

１次元スカラー分解モデル（分散既知）

モデル分布：

観測変数：

パラメータ：

事前分布：

事後分布：

ベイズ推定量：

観測データ：

のとき最尤推定に一致するか（正則化はなくなるか）？

?

→レポート３（これから説明しますが、自分の考えを。）

分解してみる

(8)

カルバック擬距離が均一になるよう補正した確率分布の空間上で均一。

：Fisher計量

パラメータ変換に依存しない！

Jeffreys 事前分布を使えば、同じ結果が得られる。

(9)

Fisher 計量（分布関数の空間の計量）

ガウシアン：

u を少しだけ動かしたとき、確率分布がどのくらい変

わるか？

平均値間距離は

同じだが、分布

間距離は

遠い近い

(10)

u _{に依存しないので、}

元のガウシアン：

分散は既知（定数）とする。

分解モデル：

(11)

Jeffreys _{事前分布の計算}

u _{に依存しないので、}

元のガウシアン：

分散は既知（定数）とする。

分解モデル：

よって、

実は、固有値分解すると

パラメータを変えても分布が変化しない方向が存在！

共通の 0 は無視して、 ^識別不能

|F| = 0

(12)

同じ結果を与える

元のガウシアン：分解モデル：

均一事前分布 ^なら

モデル起因正則化均一分布を使うことによって観測される

縮小効果。

(13)

特異点

分解モデル：

Fisher 計量のランクが落ちる点 ∼ 特異点

- 均一事前分布は、（Jeffreys事前分布と比較して）

特異点とその周辺に異常に大きい重みを持つ。

- 特異点は、周囲より自由度が小さいことが多い。

ベイズ学習は自由度の

小さいモデルを好む。

(14)

ならを動かしても分布は変わらない。

なら（を固定して）を変えても分布は変わらない。

行列分解モデル：

となる点でランク落ち。

のランク H が小さいモデルに大きい重み。

混合正規分布：

少ない成分数 H のモデルに大きい重み。

ランク落ち（識別不能）

(15)

Singular Learning Theory

特異点をもつ学習機械を非特異な事前分布でベイズ学習したときの挙動を

代数幾何学を使って解析！

：代数幾何と学習理論知能情報科学シリーズ渡辺澄夫本

W En

自分のイメージを掲載するこの本の中身を閲覧する

こんにちは。おすすめ商品を見るにはサインインしてください。初めての方はこちら。 ^最大 ^{夏のバーゲン}_{今すぐチェック} マイストアポイントギフトストアギフト券タイムセールアカウントサービスヘルプ

_本

本詳細検索ジャンル一覧新刊・予約ランキング漫画・アニメ雑誌文庫・新書専門書

代数幾何と学習理論 (知能情報科学シリー

ズ)

^[単行本]

渡辺澄夫 ₍著₎

(1 件のカスタマーレビュー₎ (1)

価格：

￥ _3,990

通常配送無料通常配送無料詳細在庫あり。在庫あり。在庫状況について

この商品は、Amazon.co.jp ^{が販売、発送します。}ギフトラッピングを利用できます。

4点在庫あり。ご注文はお早めに。

7/21 ^{土曜日}^{土曜日}にお届けします。にお届けします。関東へのお届けの場合、今から₁₈時間と 31 分以内に「お急ぎ便」または「当日お急ぎ便」を選択して注文を確定してください（有料オプション。_Amazonプライム会員は無料）。関東以外の場合は、注文確定画面でお届け予定日をご確認ください。

中古品の出品：中古品の出品：₂_{￥ 3,790}より

キャンペーンおよび追加情報キャンペーンおよび追加情報

本と合わせて買うとお買い得本と合わせて買うとお買い得：「ソフトと合わせ買い」で最大円「アドビ製品と合わせ買い」で円「ブラウンマイナスイオンブラシと合わせ買い」で円

【科学・テクノロジー】心躍る科学読み物から現場で使える専門書まで。科学・テクノロジーのページへ。

著者ページ著者ページ：著者の作品一覧や、著者写真・略歴など、著者に関する情報を満載した｢著者ページ｣。著者の方は、｢著者セントラル｣へ。

よく一緒に購入されている商品よく一緒に購入されている商品

この本と確率論の基礎概念ちくま学芸文庫コルモゴロフ文庫 _￥をあわせて買う合計価格合計価格 _￥

在庫状況の表示

商品の説明商品の説明

出版社著者からの内容紹介

代数幾何や代数幾何に関連する数学的な概念を，できるだけ具体的に説明し，代数幾何における基礎的な概念が，超関数論と経験過程を通して学習シス

% , ' + 5 C 9 S X / .% , ' + 5 C 9 S X / . 5 X D / .5 X D / . - $ # S = D- $ # S = D

数量

またはまたは

で注文する場合は、サインインをしてください。

またはまたは

プライム会員に適用。注文手続プライム会員に適用。注文手続きの際にお申し込みください。きの際にお申し込みください。詳細はこ詳細はこ

ちらちら

こちらからも買えますよこちらからも買えますよの新品の新品中古品の出品を見る中古品の出品を見る：_￥

よりこの商品をお持ちですか？

シェアする

この商品を買った人はこんな商品も買っていますこの商品を買った人はこんな商品も買っています ^ページ

学習システムの理論と実現渡辺澄夫

￥

確率論の基礎概念ちくま学芸文庫コルモゴロフ

￥

確率と統計情報学への架橋渡辺澄夫

￥

数学をいかに使うかちくま学芸文庫志村五郎

￥

15

(16)

上のすべての点は同じモデル（確率分布）に対応。

(17)

モデル起因正則化は「積分」によって現れる

>

(a, b) 上の均一分布は u 上で不均一！

の空間の空間

(18)

MAP _推定量

ピークを見つける _{点推定では}

この違いは反映されない。

(19)

変分ベイズ法は過学習しにくい（観測事実）

[Raiko et al.2007]

VB test error

MAP/ML test error

映画推薦データ（Netflix Prize）

予測精度10%上げたら１億円もらえます

（2009年終了）！

17770 movies

2649429 users

１億個の計測値

(20)

横軸：真のランク

縦軸：推定結果のランク

フルランクモデル（）で変分ベイズ

推定すると（もデータから推定すると）、

ランク（次元）が自動的に定まる！

15 20 25 30 35 40 45 50

10 20 30 40 50 60

True dimensions H^∗

Estimateddimensions

ˆ H

M = 300, L = 100

EVB-PCA Simple-EVB-PCA

人工データによるシミュレーション

調整パラメータなしで真のランクを

見つける便利なツール！

多くの成分が 0 になる（スパース推定）

(21)

ベイズ事後分布と変分ベイズ事後分布

0^.1

0.1

0.1 0.1

0.1

0^.1

0.1 0^.2

0.2

0.2 0.2

0.2

0^.2

0.2 0^.3

0.3

0.3 0.3

0.3

0^.3

0.3

A

Bayes p osterior ( = 0)

−3 −2 −1 ⁰ ¹ ² ³

−3

−2

−1 0 1 2 3

MAP estimator: (A, B ) = (0, 0)

0.1 0.1

0^.1

0.1

0^.1

0.1 0.1

0.1

0.2 0.2

0.2

0.2 0.2

0.2

0.2 0.2

0.2

0.3 0.3

0.3

0.3 0.3

0.3

0.3 0.3

0.3

−3 −2 −1 A⁰ ¹ ² ³

−3

−2

−1 0 1 2 3

MAP estimators: (A, B ) ≈ (± 1, ± 1)

0.1

0.1 0.1

0.1

0.1 0.1

0.2

0.2 ⁰.2

0.2

0.2 0.2

0.2

0.3 0.3

0.3

0.3 0.3

0.3

B

−3 −2 −1 ⁰ ¹ ² ³

−3

−2

−1 0 1 2 3

MAP estimators: (A, B ) ≈ (±^√2, ±^√2)

0^.0 5

0.05 0.0₅

0^.0 5

0.05 0.0₅ 0.05

0^.1 0.1

0.15 0.1₅

−3 −2 −1 ⁰ ¹ ² ³

−3

−2

−1 0 1 2 3

VB estimator : (A, B ) = (0, 0)

0.0₅

0.⁰⁵ 0.05 0.0

5 0^.0

5 0.05

0.¹ 0.1 0^.1

0.1

0^.1 0.1₅ 5 0^.1

5 ^0.15

0.2 0^.2

0.2

0^.2 5

0.25 ^0.

3

B

−3 −2 −1 ⁰ ¹ ² ³

−3

−2

−1 0 1 2 3

VB estimator : (A, B ) ≈ (^√^1.5,^√^1.5)

0^.0 5

0.05 0.0₅

0^.0 5

0.05 0.0₅

0.05

0^.1 0.1

0.15 0.1₅

−3 −2 −1 ⁰ ¹ ² ³

−3

−2

−1 0 1 2 3

VB estimator : (A, B ) = (0, 0)

スレッショルディング！

変分ベイズ推定量：

(22)

1 2 3

1

2

3 V

! U

F B

M AP

VB

PB

1 2 3

1

2

3 V

! U

F B

M AP

VB

PB

変分ベイズ

Bayes

MAP

スパース性！

観測値が小さいと、変分ベイズ解は 0 になる。

(23)

−1 ¹ ² ³

−3

−2

−1 0 1 2 3

0 0.2 0.4

B aye s post e r ior ( V = 1)

B

（厳密）ベイズ解はスパースになりにくい

+

-

の符号

x _{> 0} _{であれば必ず}

1, 3 _{象限に重みが偏る！}

(24)

−3 ⁻² ⁻¹ ⁰ ¹

2 ³

−3

−2

−1 0 1 2 3

0 0.2 0.4

A B

0.1 0.1

0^.1

0.1

0^.1

0.1 0.1

0.1

0.2 0.2

0.2

0.2 0.2

0.2

0.2 0.2

0.2

0.3 0.3

0.3

0.3 0.3

0.3

0.3 0.3

0.3

−3 −2 −1 A⁰ ¹ ² ³

−3

−2

−1 0 1 2 3

0.1 0.1

0^.1

0.1

0^.1

0.1 0.1

0.1

0.2 0.2

0.2

0.2 0.2

0.2

0.2 0.2

0.2

0.3 0.3

0.3 0.3 0.3

0.3

0.3 0.3

0.3

−3 −2 −1 A⁰ ¹ ² ³

−3

−2

−1 0 1 2 3

相関を許せばスレッショル

ディングは起こらない！

+

-

24

(25)

が求まったら、で元の画像が求まる。

圧縮センシング

JPEG で圧縮可能＝ウェーブレット変換するとスパース

: _{ウェーブレット変換}

は自然画像のウェーブレット変換 → スパースなはず

・・・（＊）

（＊）をできるだけ満たすスパースなを求めれば良い → スパース推定

[Lustig et al.2008]

短い計測時間（計測数）で高画質なMRI画像が得られる！

(26)

注：A は定数

モデル分布：

観測変数：

パラメータ：

事前分布：

経験ベイズをやるとが決まるが、モデル選択効果がうまく

働けば、不要な自由度を使わないモデル（）が選ばれるはず。

0 1 2 3

0 2 4 6

c_u

0 1 2 3

0 0.5

c_u ⁰ ¹ ² ³

0 2 4

c_u

ARD (automatic relevance determination)[MacKay92, Neal96] _{として知られる。}

Relevance vector machines [Tipping01] などもこの現象を利用。

脳波計測に応用[Sato et al.04]

にさらに事前分布（hyperprior）を入れて

変分ベイズ推定を行う流儀もある。

(27)

ARD モデルと分解モデルは等価！

ARD _モデル

分解モデル

＝をintegrate out, を（Type II）最尤推定。

をintegrate out, を経験ベイズ推定。

部分ベイズ法！

(28)

- 変数間の独立性を仮定 [Bishop2001,Lim&Teh2007]

変分ベイズ法

をデルタ関数に限定するのと等価

部分ベイズ法

- を積分消去、をType II 最尤推定 [Tipping&Bishop99]

MAP

- 全体をδ関数で近似。

注: 制約の強さは VB < PB < MAP（PB、MAPも独立性を満たす）

(29)

−3 ⁻² ⁻¹ ⁰ ¹

2 ³

−3

−2

−1 0 1 2 3

0 0.2 0.4

A B

スパーシティは独立制約に起因する

0.1 0.1

0^.1

0.1

0^.1

0.1 0.1

0.1

0.2 0.2

0.2

0.2 0.2

0.2

0.2 0.2

0.2

0.3 0.3

0.3

0.3 0.3

0.3

0.3 0.3

0.3

−3 −2 −1 A⁰ ¹ ² ³

−3

−2

−1 0 1 2 3

0.1 0.1

0^.1

0.1

0^.1

0.1 0.1

0.1

0.2 0.2

0.2

0.2 0.2

0.2

0.2 0.2

0.2

0.3 0.3

0.3 0.3 0.3

0.3

0.3 0.3

0.3

−3 −2 −1 A⁰ ¹ ² ³

−3

−2

−1 0 1 2 3

相関を許せばスレッショル

ディングは起こらない！

0.1 0.1

0^.1

0.1

0^.1

0.1 0.1

0.1

0.2 0.2

0.2

0.2 0.2

0.2

0.2 0.2

0.2

0.3 0.3

0.3

0.3 0.3

0.3

0.3 0.3

0.3

−3 −2 −1 A⁰ ¹ ² ³

−3

−2

−1 0 1 2 3

+

-

29

(30)

1 2 3 1

2 3

V

! U

F B M AP VB EF B EVB

仮説：点推定（> 独立性制約）がスパーシティを起こしている。

VB

Bayes

Empirical VB

ベイズ法においてスパース性が起こるときは、

どこかに「独立性」が強いられているはず。

を点推定

点推定すると必ず独立

Empirical Bayes

（を積分消去、を経験ベイズ推定）

(31)

第４部のまとめ

✤ 少し複雑なモデルの殆どは特異モデルであり、均一事前分布でベイ

ズ学習を行うとモデル起因正則化が起こる。

✤ モデル起因正則化はJeffreys事前分布によって説明される。

✤ 変分ベイズ法では、「独立性」に起因する相転移現象が起こり、ス

パース解が得られる。

✤ 部分ベイズ法や経験ベイズ法などにおいても、点推定による「独立

性」によってスパース解が得られる。

✤ ARD モデルと分解モデルは等価。

(32)

✤ 基本的な学習法（最尤法、MAP法等を近似とみなせる）。

✤ 予測の確信度を提供（予測分布）。

✤ （モデルと事前分布が適切なら）最強。

✤ モデル選択（次元削減、特徴選択）の枠組みを提供

→ スパース推定に関連。

ベイズ学習

✤ 計算が面倒（しばしば不可能）→ 近似が必要。

✤ 「適切」な事前分布選択が必要。

✤ 不思議な（直感とは異なる）振る舞い。

(33)

目標は達成されましたでしょうか？

✤ ベイズ学習の概念を理解。

✤ 簡単なモデルでベイズ学習の計算ができる。

✤ 実用的なモデルで近似法（変分ベイズ法）の導出ができる。

✤ ベイズ学習の特徴を知る。

将来、「自分で」ベイズ学習を使うため。

(34)

Part 4

集中講義

情報認知特論（第４部）

講師：中島伸一

（株）ニコン光技術研究所

[email protected]

http://sites.google.com/site/shinnkj23/

✤ ７月２５日（水）

✤ 第０部： 講義の概要

✤ 第１部：ベイズ学習の枠組み

✤ 第２部：ベイズ学習の計算

✤ ７月２６日（木）

✤ 第３部：変分ベイズ学習

✤ 第４部：ベイズ学習の解の性質

✤ レポート

✤ 基本的な学習法（最尤法、MAP法等を近似とみなせる）。

✤ 予測の確信度を提供（予測分布）。

✤ （モデルと事前分布が適切なら）最強。

✤ モデル選択（次元削減、特徴選択）の枠組みを提供

→ スパース推定に関連。

講義の概要

ベイズ学習

✤ 計算が面倒（しばしば不可能）→ 近似が必要。

✤ 「適切」な事前分布選択が必要。

✤ 不思議な（直感とは異なる）振る舞い。

✤ ベイズ学習の性質

✤ モデル起因正則化

✤ Jeffreys 事前分布と特異点

✤ 変分ベイズ解のスパース性

✤ 分解モデルのベイズ事後分布と変分ベイズ事後分布

✤ ARD(Automatic Relevance Determination) モデルとの関係

１次元ガウスモデル（分散既知）

モデル分布：

観測変数：

パラメータ：

事前分布：

事後分布：

ベイズ推定量：

観測データ：

正則化が効いている。原因は？ 事前分布！

モデル分布：

観測変数：

パラメータ：

事前分布：

事後分布：

ベイズ推定量：

観測データ：

最尤推定に一致。事前分布による正則化がなくなった。

１次元スカラー分解モデル（分散既知）

モデル分布：

観測変数：

パラメータ：

事前分布：

事後分布：

ベイズ推定量：

観測データ：

のとき最尤推定に一致するか（正則化はなくなるか）？

?

→レポート３（これから説明しますが、自分の考えを。）

分解してみる

カルバック擬距離が均一になるよう補正した 確率分布の空間上で均一。

：Fisher計量

パラメータ変換に依存しない！

Jeffreys 事前分布を使えば、同じ結果が得られる。

Fisher 計量（分布関数の空間の計量）

ガウシアン：

u を少しだけ動かしたとき、確率分布がどのくらい変

わるか？

平均値間距離は

同じだが、分布

間距離は

遠い 近い

u に依存しないので、

元のガウシアン：

分散は既知（定数）とする。

分解モデル：

Jeffreys 事前分布の計算

u に依存しないので、

元のガウシアン：

分散は既知（定数）とする。

✤ _{７月２５日（水）}

✤ _{第０部：講義の概要}

✤ _{７月２６日（木）}

✤ _レポート

✤ _{ベイズ学習の性質}

✤ _{モデル起因正則化}

✤ Jeffreys _{事前分布と特異点}

✤ ARD(Automatic Relevance Determination) _{モデルとの関係}

正則化が効いている。原因は？事前分布！

カルバック擬距離が均一になるよう補正した確率分布の空間上で均一。

遠い近い

u _{に依存しないので、}

Jeffreys _{事前分布の計算}

u _{に依存しないので、}

共通の 0 は無視して、 ^識別不能

元のガウシアン：分解モデル：

均一事前分布 ^なら

モデル起因正則化均一分布を使うことによって観測される

ならを動かしても分布は変わらない。

なら（を固定して）を変えても分布は変わらない。

￥ _3,990

の空間の空間

MAP _推定量

ピークを見つける _{点推定では}

縦軸：推定結果のランク

フルランクモデル（）で変分ベイズ

推定すると（もデータから推定すると）、