✤ 7月25日(水)
✤ 第0部: 講義の概要
✤ 第1部:ベイズ学習の枠組み
✤ 第2部:ベイズ学習の計算
✤ 7月26日(木)
✤ 第3部:変分ベイズ学習
✤ 第4部:ベイズ学習の解の性質
✤ レポート
✤ 基本的な学習法(最尤法、MAP法等を近似とみなせる)。
✤ 予測の確信度を提供(予測分布)。
✤ (モデルと事前分布が適切なら)最強。
✤ モデル選択(次元削減、特徴選択)の枠組みを提供
→ スパース推定に関連。
講義の概要
ベイズ学習
✤ 計算が面倒(しばしば不可能)→ 近似が必要。
✤ 「適切」な事前分布選択が必要。
✤ 不思議な(直感とは異なる)振る舞い。
✤ ベイズ学習の性質
✤ モデル起因正則化
✤ Jeffreys 事前分布と特異点
✤ 変分ベイズ解のスパース性
✤ 分解モデルのベイズ事後分布と変分ベイズ事後分布
✤ ARD(Automatic Relevance Determination) モデルとの関係
1次元ガウスモデル(分散既知)
モデル分布:
観測変数:
パラメータ:
事前分布:
事後分布:
ベイズ推定量:
観測データ:
正則化が効いている。原因は? 事前分布!
モデル分布:
観測変数:
パラメータ:
事前分布:
事後分布:
ベイズ推定量:
観測データ:
最尤推定に一致。事前分布による正則化がなくなった。
1次元スカラー分解モデル(分散既知)
モデル分布:
観測変数:
パラメータ:
事前分布:
事後分布:
ベイズ推定量:
観測データ:
のとき最尤推定に一致するか(正則化はなくなるか)?
?
→レポート3(これから説明しますが、自分の考えを。)
分解してみる
カルバック擬距離が均一になるよう補正した 確率分布の空間上で均一。
:Fisher計量
パラメータ変換に依存しない!
Jeffreys 事前分布を使えば、同じ結果が得られる。
Fisher 計量(分布関数の空間の計量)
ガウシアン:
u を少しだけ動かしたとき、確率分布がどのくらい変
わるか?
平均値間距離は
同じだが、分布
間距離は
遠い 近い
u に依存しないので、
元のガウシアン:
分散は既知(定数)とする。
分解モデル:
Jeffreys 事前分布の計算
u に依存しないので、
元のガウシアン:
分散は既知(定数)とする。
分解モデル:
よって、
実は、固有値分解すると
パラメータを変えても分布が変化しない方向が存在!
共通の 0 は無視して、 識別不能
|F| = 0
同じ結果を与える
元のガウシアン: 分解モデル:
均一事前分布 なら
モデル起因正則化 均一分布を使うことによって観測される
縮小効果。
特異点
分解モデル:
Fisher 計量のランクが落ちる点 ∼ 特異点
- 均一事前分布は、(Jeffreys事前分布と比較して)
特異点とその周辺に異常に大きい重みを持つ。
- 特異点は、周囲より自由度が小さいことが多い。
ベイズ学習は自由度の
小さいモデルを好む。
なら を動かしても分布は変わらない。
なら( を固定して) を変えても分布は変わらない。
行列分解モデル:
となる点でランク落ち。
のランク H が小さいモデルに大きい重み。
混合正規分布:
少ない成分数 H のモデルに大きい重み。
ランク落ち(識別不能)
Singular Learning Theory
特異点をもつ学習機械を非特異な事前分布でベイズ学習したときの挙動を
代数幾何学を使って解析!
: 代数幾何と学習理論 知能情報科学シリーズ 渡辺 澄夫 本
W En
自分のイメージを掲載する この本の中身を閲覧する
こんにちは。おすすめ商品を見るにはサインインしてください。 初めての方はこちら。 最大 夏のバーゲン今すぐチェック マイストア ポイント ギフトストア ギフト券 タイムセール アカウントサービス ヘルプ
本
本 詳細検索 ジャンル一覧 新刊・予約 ランキング 漫画・アニメ 雑誌 文庫・新書 専門書
代数幾何と学習理論 (知能情報科学シリー
ズ)
[単行本]渡辺澄夫 (著)
(1 件のカスタマーレビュー) (1)
価格:
¥ 3,990
通 常 配 送 無 料通 常 配 送 無 料 詳細 在 庫 あ り 。在 庫 あ り 。 在庫状況についてこの商品は、Amazon.co.jp が販売、発送します。ギフトラッピングを利用 できます。
4点在庫あり。ご注文はお早めに。
7/21 土 曜 日土 曜 日に お 届 け し ま す 。に お 届 け し ま す 。関東へのお届けの場合、今から18 時間と 31 分以内に「お急ぎ便」または「当日お急ぎ便」を選択して注文を確定し てください(有料オプション。Amazonプライム会員は無料)。関東以外の 場合は、注文確定画面でお届け予定日をご確認ください。
中 古 品 の 出 品 :中 古 品 の 出 品 :2¥ 3,790より
キ ャ ン ペ ー ン お よ び 追 加 情 報キ ャ ン ペ ー ン お よ び 追 加 情 報
本 と 合 わ せ て 買 う と お 買 い 得本 と 合 わ せ て 買 う と お 買 い 得:「 ソフトと合わせ買い」で最大 円 「アドビ製品と合わせ買い」 で 円 「ブラウン マイナスイオンブラシと合わせ買い」で 円
【科学・テクノロジー】心躍る科学読み物から現場で使える専門書まで。科学・テクノロジーのページへ。
著 者 ペ ー ジ著 者 ペ ー ジ: 著者の作品一覧や、著者写真・略歴など、著者に関する情報を満載した「著者ページ」。著者の方は、「著者セントラル」へ。
よ く 一 緒 に 購 入 さ れ て い る 商 品よ く 一 緒 に 購 入 さ れ て い る 商 品
この本と確率論の基礎概念 ちくま学芸文庫 コルモゴロフ 文庫 ¥ をあわせて買う 合 計 価 格合 計 価 格 ¥
在庫状況の表示
商 品 の 説 明商 品 の 説 明
出版社 著者からの内容紹介
代数幾何や代数幾何に関連する数学的な概念を,できるだけ具体的に説明し,代数幾何における基礎的な概念が,超関数論と経験過程を通して学習シス
% , ' + 5 C 9 S X / .% , ' + 5 C 9 S X / . 5 X D / .5 X D / . - $ # S = D- $ # S = D
数量
ま た はま た は
で注文する場合は、サインインをし てください。
ま た はま た は
プ ラ イ ム 会 員 に 適 用 。 注 文 手 続プ ラ イ ム 会 員 に 適 用 。 注 文 手 続 き の 際 に お 申 し 込 み く だ さ い 。き の 際 に お 申 し 込 み く だ さ い 。詳 細 は こ詳 細 は こ
ち らち ら
こ ち ら か ら も 買 え ま す よこ ち ら か ら も 買 え ま す よ の 新 品の 新 品 中 古 品 の 出 品 を 見 る中 古 品 の 出 品 を 見 る:¥
より この商品をお持ちですか?
シェアする
こ の 商 品 を 買 っ た 人 は こ ん な 商 品 も 買 っ て い ま すこ の 商 品 を 買 っ た 人 は こ ん な 商 品 も 買 っ て い ま す ページ
学習システムの理論と実現 渡辺 澄夫
¥
確率論の基礎概念 ちくま 学芸文庫 コルモゴロフ
¥
確率と統計 情報学への架 橋渡辺 澄夫
¥
数学をいかに使うか ちく ま学芸文庫 志村 五郎
¥
15
上のすべての点は同じモデル(確率分布)に対応。
モデル起因正則化は「積分」によって現れる
>
(a, b) 上の均一分布は u 上で不均一!
の空間 の空間
MAP 推定量
ピークを見つける 点推定では
この違いは反映されない。
変分ベイズ法は過学習しにくい(観測事実)
[Raiko et al.2007]
VB test error
MAP/ML test error
映画推薦データ(Netflix Prize)
予測精度10%上げたら1億円もらえます
(2009年終了)!
17770 movies
2649429 users
1億個の計測値
横軸:真のランク
縦軸:推定結果 のランク
フルランクモデル( )で変分ベイズ
推定すると( もデータから推定すると)、
ランク(次元)が自動的に定まる!
15 20 25 30 35 40 45 50
10 20 30 40 50 60
True dimensions H∗
Estimateddimensions
ˆ H
M = 300, L = 100
EVB-PCA Simple-EVB-PCA
人工データによるシミュレーション
調整パラメータなしで真のランクを
見つける便利なツール!
多くの成分が 0 になる(スパース推定)
ベイズ事後分布と変分ベイズ事後分布
0.1
0.1
0.1 0.1
0.1
0.1
0.1
0.1 0.2
0.2
0.2 0.2
0.2
0.2
0.2
0.2 0.3
0.3
0.3 0.3
0.3
0.3
0.3
0.3
A
Bayes p osterior ( = 0)
−3 −2 −1 0 1 2 3
−3
−2
−1 0 1 2 3
MAP estimator: (A, B ) = (0, 0)
0.1 0.1
0.1
0.1
0.1
0.1 0.1
0.1
0.2 0.2
0.2
0.2 0.2
0.2
0.2
0.2 0.2
0.2
0.3 0.3
0.3
0.3 0.3
0.3
0.3
0.3 0.3
0.3
−3 −2 −1 A0 1 2 3
−3
−2
−1 0 1 2 3
MAP estimators: (A, B ) ≈ (± 1, ± 1)
0.1
0.1
0.1 0.1
0.1
0.1
0.1 0.1
0.2
0.2 0.2
0.2
0.2
0.2 0.2
0.2
0.3 0.3
0.3 0.3
0.3
0.3 0.3
0.3
B
−3 −2 −1 0 1 2 3
−3
−2
−1 0 1 2 3
MAP estimators: (A, B ) ≈ (±√2, ±√2)
0.0 5
0.05 0.05
0.0 5
0.05 0.05 0.05
0.1 0.1
0.1 0.1
0.15 0.15
−3 −2 −1 0 1 2 3
−3
−2
−1 0 1 2 3
VB estimator : (A, B ) = (0, 0)
0.05
0.05 0.05 0.0
5 0.0
5 0.05
0.1 0.1 0.1
0.1
0.1
0.1 0.15 5 0.1
5 0.15
0.2 0.2
0.2
0.2 5
0.25 0.
3
B
−3 −2 −1 0 1 2 3
−3
−2
−1 0 1 2 3
VB estimator : (A, B ) ≈ (√1.5,√1.5)
0.0 5
0.05 0.05
0.0 5
0.05 0.05
0.05
0.1 0.1
0.1 0.1
0.15 0.15
−3 −2 −1 0 1 2 3
−3
−2
−1 0 1 2 3
VB estimator : (A, B ) = (0, 0)
スレッショルディング!
変分ベイズ推定量:
1 2 3
1
2
3
V
! U
F B
M AP
VB
PB
1 2 3
1
2
3
V
! U
F B
M AP
VB
PB
変分ベイズ
変分ベイズ
Bayes
Bayes
MAP
MAP
スパース性!
観測値が小さいと、変分ベイズ解は 0 になる。
−1 1 2 3
−3
−2
−1 0 1 2 3
0 0.2 0.4
B aye s post e r ior ( V = 1)
B
(厳密)ベイズ解はスパースになりにくい
+
+
-
-
の符号
x > 0 であれば必ず
1, 3 象限に重みが偏る!
−3 −2 −1 0 1
2 3
−3
−2
−1 0 1 2 3
0 0.2 0.4
B aye s post e r ior ( V = 1)
A B
0.1 0.1
0.1
0.1
0.1
0.1 0.1
0.1
0.2 0.2
0.2
0.2 0.2
0.2
0.2
0.2 0.2
0.2
0.3 0.3
0.3
0.3 0.3
0.3
0.3
0.3 0.3
0.3
−3 −2 −1 A0 1 2 3
−3
−2
−1 0 1 2 3
MAP estimators: (A, B ) ≈ (± 1, ± 1)
0.1 0.1
0.1
0.1
0.1
0.1 0.1
0.1
0.2 0.2
0.2
0.2 0.2
0.2
0.2
0.2 0.2
0.2
0.3 0.3
0.3 0.3 0.3
0.3
0.3
0.3 0.3
0.3
−3 −2 −1 A0 1 2 3
−3
−2
−1 0 1 2 3
MAP estimators: (A, B ) ≈ (± 1, ± 1)
相関を許せばスレッショル
ディングは起こらない!
+
+
-
-
24
が求まったら、 で元の画像が求まる。
圧縮センシング
JPEG で圧縮可能 = ウェーブレット変換するとスパース
: ウェーブレット変換
は自然画像のウェーブレット変換 → スパースなはず
・・・(*)
(*)をできるだけ満たすスパースな を求めれば良い → スパース推定
[Lustig et al.2008]
短い計測時間(計測数)で高画質なMRI画像が得られる!
注:A は定数
モデル分布:
観測変数:
パラメータ:
事前分布:
経験ベイズをやると が決まるが、モデル選択効果がうまく
働けば、不要な自由度を使わないモデル( )が選ばれるはず。
0 1 2 3
0 2 4 6
cu
0 1 2 3
0 0.5
cu 0 1 2 3
0 2 4
cu
ARD (automatic relevance determination)[MacKay92, Neal96] として知られる。
Relevance vector machines [Tipping01] などもこの現象を利用。
脳波計測に応用[Sato et al.04]
にさらに事前分布(hyperprior)を入れて
変分ベイズ推定を行う流儀もある。
ARD モデルと分解モデルは等価!
ARD モデル
分解モデル
= をintegrate out, を(Type II)最尤推定。
をintegrate out, を経験ベイズ推定。
部分ベイズ法!
- 変数間の独立性を仮定 [Bishop2001,Lim&Teh2007]
変分ベイズ法
をデルタ関数に限定するのと等価
部分ベイズ法
- を積分消去、 をType II 最尤推定 [Tipping&Bishop99]
MAP
- 全体をδ関数で近似。
注: 制約の強さは VB < PB < MAP(PB、MAPも独立性を満たす)
−3 −2 −1 0 1
2 3
−3
−2
−1 0 1 2 3
0 0.2 0.4
B aye s post e r ior ( V = 1)
A B
スパーシティは独立制約に起因する
0.1 0.1
0.1
0.1
0.1
0.1 0.1
0.1
0.2 0.2
0.2
0.2 0.2
0.2
0.2
0.2 0.2
0.2
0.3 0.3
0.3
0.3 0.3
0.3
0.3
0.3 0.3
0.3
−3 −2 −1 A0 1 2 3
−3
−2
−1 0 1 2 3
MAP estimators: (A, B ) ≈ (± 1, ± 1)
0.1 0.1
0.1
0.1
0.1
0.1 0.1
0.1
0.2 0.2
0.2
0.2 0.2
0.2
0.2
0.2 0.2
0.2
0.3 0.3
0.3 0.3 0.3
0.3
0.3
0.3 0.3
0.3
−3 −2 −1 A0 1 2 3
−3
−2
−1 0 1 2 3
MAP estimators: (A, B ) ≈ (± 1, ± 1)
相関を許せばスレッショル
ディングは起こらない!
0.1 0.1
0.1
0.1
0.1
0.1 0.1
0.1
0.2 0.2
0.2
0.2 0.2
0.2
0.2
0.2 0.2
0.2
0.3 0.3
0.3
0.3 0.3
0.3
0.3
0.3 0.3
0.3
−3 −2 −1 A0 1 2 3
−3
−2
−1 0 1 2 3
MAP estimators: (A, B ) ≈ (± 1, ± 1)
+
+
-
-
29
1 2 3 1
2 3
V
! U
F B M AP VB EF B EVB