• 検索結果がありません。

コントラスティブダイバージェンス法とその周辺(<連載解説>Deep Learning(深層学習)〔第7回〕)

N/A
N/A
Protected

Academic year: 2021

シェア "コントラスティブダイバージェンス法とその周辺(<連載解説>Deep Learning(深層学習)〔第7回〕)"

Copied!
15
0
0

読み込み中.... (全文を見る)

全文

(1)

1.は じ め に

これまでの深層学習の連続解説において,第 4 回では 画像認識 [岡谷 13],第 5 回では音声認識 [岡野原 13], 第 6 回では自然言語処理 [ダヌシカ 14] における応用が 解説されてきたが,これらの解説からわかるようにさま ざまな分野において深層学習が用いられ,その有用性が 認識されている.深層学習とは,単なる多層ニューラル ネットワーク(以下,多層 NN と略す)の学習であり, 第 1 回 [安田 13],第 2 回 [麻生 13] でも解説されたよう に,歴史的に見ると新奇なモデルというものではない. 現在の深層学習は,従来の多層 NN のモデルの構造に 新たにいくつかの制約が課されたり,ある種の凝った学 習* 1が用いられているものとみなすことができる. この解説記事では,その学習の工夫の一つである「事 前学習」に利用される,コントラスティブダイバージェ ンス法(Contrastive Divergence 法:以下,CD 法と略 す)について述べる.CD 法自体は,一般の Product of Experts(PoE)の学習法 [Hinton 02] として提案されて いるが,ここではまず深層学習に用いられる CD 法に特 化して述べ,PoE の学習法としての CD 法は 5 章で述べ る. 以降の 1 章では,教師なし学習の手法が,なぜ教師 あり学習で必要になるのかの背景について述べ,2 章で 教師なし学習に用いられる自己符号化器と,その自己符 号化器を構成するリストリクティッドボルツマンマシン (RBM)について述べ,RBM を包含したより広いモデ ルである Exponential Family Harmoniums(EFH)の 既存の学習法について述べる.3 章で EFH の CD 法に よる学習法とその解釈について述べ,CD 法以外の教師 なし学習による事前学習については 4 章で述べる.ギブ ズサンプリングなどの統計的学習に詳しくない読者も想 定した構成としているが,それらに詳しい読者で CD 法 にのみ興味のある読者は,3 章から読み始めていただい て問題ない. 1・1 自由度の高い統計モデルの学習を難しくする要因 まず,CD 法がどのような背景で生まれたのか,どの ような問題を解決するために必要となったかを説明す る.そして,その問題を解決するための既存手法と CD 法による新たな解決法の関連を説明することで CD 法の 位置付けを述べる. はじめに過学習の問題から説明する.多層 NN を含む 統計的モデルの学習においては一般に,統計モデルの表 現能力・自由度の高さと,その統計モデルのパラメータ 推定の難しさがトレードオフの関係にある.すなわち, 自由度の高い統計モデルを設計すると,適切なパラメー タを設定することが難しくなる.この主な原因は,手持 ちの観測データに過度に適応した学習をしてしまう過学 習である.統計的学習においても,通常の最適化問題と 同様に,尤度や正則化付き尤度などのコスト関数が定義 され,パラメータ学習はそのコスト関数のパラメータに 関する最適化とみなすことができる.しかし,一般の 最適化問題と統計的学習における最適化問題が異なるの は,統計的学習のコスト関数が観測データに依存して決 まることである.そのため,有限の観測データ数に対し て得られる経験的なコスト関数に対して最適なパラメー タが,観測データ数が無限大に近づく際に得られる漸近 的なコスト関数に対して最適とは限らない.つまり,手 元にある観測データに対してよく当てはまるように見え た統計モデルが,将来の観測データに対してはよく当て はまらない,といったことが起き得る.これが過学習と 呼ばれる問題である. このほか,局所解の問題がある.複雑な統計モデル のコスト関数の最適化は,しばしば非線形最適化となっ て解析解が得られない.そのため反復解法がとられる が,それによって局所解に陥る可能性が生じる.また, 「Deep Learning(深層学習)」〔第 7 回〕

コントラスティブダイバージェンス法とその周辺

Contrastive Divergence and Related Topics

前田 新一

京都大学大学院情報学研究科

Shin-ichi Maeda Graduate School of Informatics, Kyoto University.

[email protected], http://ishiilab.jp/member/ichi/

Keywords:

deep neural network, autoencoder, restricted boltzmann machine, pre-traning, contrastive divergence.

連載解説

*1 大量のデータによる学習(最適化)を可能とする計算機の発 達や計算技術も忘れてはならない存在である.これについては 第 3 回の解説 [岡野原 13] に詳しい.

(2)

多層 NN は異なるパラメータによって同一の統計モデ ルを表現可能な冗長性を有する.このような統計モデル は特異モデルと呼ばれるモデルの一種であり,プラトー (plateau)というコスト関数が平坦になる領域ができて しまうため,勾配法が停滞するという困難が生じる.こ れらの問題は,最適化する統計モデルに制約を加えたり, 学習方法を工夫したりしない限り,統計モデルのパラ メータが高い自由度や冗長性をもつほど顕著に現れる傾 向がある. 1・2 過学習や局所解・プラトーによる学習の停滞を 避けるための既存手法 この過学習や局所解の問題を解決するために,さま ざまな方策が提案されてきた.過学習に対する方策の 一つは,単純に自由度の低い統計モデルを利用するこ とである.音声認識や画像認識などの分野においては, メルケプストラムや SIFT(Scale-Invariant Feature Transform)といった特徴量が伝統的に使われるように, それぞれの分野で認識に関する重要な情報をもつ低次元 の特徴量が求められてきた.一度,低次元の特徴量を決 めてしまえば,その低次元の特徴量を入力とする統計モ デルの自由度を低くすることができ,過学習のリスクを 減らすことができる. 一方で,人手で低次元の特徴量を抽出する代わりに, 主成分分析などの教師なし学習が使われることもある. 教師なし学習では,高次元の観測データを低次元空間上 で表現することを目指す.図 1 左では,教師なし学習の モデル構造と観測データとして椅子の二次元画像が与え られていた場合の例を示している.二次元画像は,ピク セル数分の次元をもつ高次元データとなる.しかし,そ の椅子の画像が地面に垂直な軸上を回転させて得られる 画像でしかなかった場合,実質的には一次元の回転の自 由度しかもたない.教師なし学習では,そのような観測 データに内在する構造を抽出する.この教師なし学習の 手法によって観測データの冗長性を削減し,より低次元 の特徴量を抽出したうえで教師あり学習をするといった 手法がしばしば行われる. 一方,局所解への落込みを避けるアプローチとしては, コスト関数を凸関数として効率的な最適化を行うことも 提案されている.スパース最適化やカーネル法は,その 代表である.プラトーでの学習の遅滞を防ぐ学習法とし ては,統計モデルのなす多様体の自然な計量を考慮した 自然勾配法が提案され多層 NN の学習に適用されてい る [Amari 00].特異モデルである多層 NN においては, 単純な勾配法による最適化はプラトーの存在によってう まくいかないため,このような最適化の工夫が非常に有 効に働き,現在も活発に研究がなされている [Dean 12, Martens 10, Sutskever 13]. 1・3 事前学習という新たな解決法 過学習を避けたり,局所解を避けたりするために,入 力である観測データから低次元特徴を抽出する学習が行 われることを述べた.CD 法は、その低次元特徴の学習 を行う教師なし学習に利用される*2.ここでは,事前学 習の先駆的な研究である [Hinton 06b] にならって,自己 符号化器として多層 NN を教師なし学習させるための事 前学習について述べる*3.多層 NN による自己符号化器 の教師なし学習は,主成分分析では線形変換によって行 われた入力変数の冗長性の削減を,多層 NN による非線 形変換によって行うものと解釈することができる.教師 なし学習を教師あり学習に先立って行うこと自体は新し くないが,自己符号化器の学習を層ごとに分割して CD 法によって事前に学習する方法が新しく提案され,こ れが事前学習(pre-training)と呼ばれている [Hinton 06b].教師なし学習によって得られた多層 NN の利用の され方はさまざまである.図 1 右のように,上位層に教 師信号を模擬した出力を行う出力層を加えた多層 NN と 二次元画像 p(y|x)=p(y|h(L)(x)) h(L) h(1) x h(L) h(1) x y p(x) 図 1 多層 NN による特徴抽出を用いた教師なし学習(左)と教師あり学習(右). 一般に,教師なし学習は確率密度関数 p(x)の学習に,教師あり学習は条件付き確率密度関数 p( y|x)の学習に置き換えられる *2 ただし,CD 法は教師あり学習にも適用できる.

*3 事前学習は,その他にも Deep Belief Network [Hinton 06a] や Deep Boltzmann Machine [Salakhutdinov 09] という多層

(3)

して,教師あり学習によって再度,多層 NN 全体の学 習が行われることもあれば,教師なし学習で得られた多 層 NN のパラメータは固定して,その多層 NN によって 出力される低次元特徴のみが後段の教師あり学習の入力 として利用されることもある.例えば,学習された多層 NNの出力を SVM の入力として教師あり学習する手法 [Glorot 11, Lee 09]やガウシアンプロセスの共分散カー ネルに利用する手法 [Salakhutdinov 07] が存在する. ここで,公平のために事前学習が過学習や局所解 を避けるための最善の方法とは必ずしもいえないこ と を 述 べ て お く. 最 近 の 研 究 [Ciresan 10, Ciresan 12, Ciresan 13, Martens 10, Seide 11, Wan 13] を 見てわかるように,CD 法を含めた教師なし学習に よ る 事 前 学 習 に 頼 ら ず と も 教 師 あ り 学 習 の み で 高 い パ フ ォ ー マ ン ス を 発 揮 す る こ と が 可 能 で あ る こ と が 示 さ れ て い る. た だ し, そ の よ う な 場 合 に は, 1)制約された構造をもつモデル,2)最適化・学習則 に対する工夫,3)大量のデータによる学習*4,の大き く分けて 3 通りの方法のいずれか,もしくはそれらの組 合せが用いられる.具体的には,制約された構造をもつ モデルとは,画像認識であれば入力画像内の位置にあま り依存しない重みパラメータを用いた畳込みニューラル ネットワーク,音声認識であれば入力音声内の時間の遅 れにあまり依存しない重みパラメータを用いたリカレン トニューラルネットワーク,といった構造を指し,最適 化・学習則に対する工夫とは,コスト関数の二次微分を 考慮したり,Dropout や DropConnect と呼ばれる学習 させるパラメータに対して制限を加えたりする工夫を指 す.他方で,自由度の高い多層 NN の学習において,依 然として CD 法などの事前学習の有効性を示す研究が存 在する [Dahl 12, Erhan 10, Hinton 06b].

2.自己符号化器(autoencoder)の学習

本章では,入力の低次元特徴の抽出のため自己符号化 器の学習について述べる.CD 法は,直接,多層 NN で 構成される自己符号化器の全体を学習するのに用いるの ではなく,多層 NN で表される自己符号化器を二層ご とに分割し,それぞれの二層間のネットワークを学習す るのに用いられる.このとき,自己符号化器を表す多層 NNは決定論的な非線形関数を表現するのに対して,二 層間のネットワークの学習の際にはボルツマンマシンと いう確率モデルを表現するものとして扱う,という違い があることに注意する.本章では,まず決定論的な関数 として多層 NN を利用する自己符号化器について 2・1 節 で述べ,その二層間の学習について2・2∼2・4節で述べる. 2・1 自己符号化器とそのコスト関数の定義 自己符号化器は,符号化器と復号器を直接につないだ 砂時計型ネットワークとして構成される(図 2 参照).砂 時計型ネットワークは,入力次元より低次元の特徴に変 換するため,いったん,入力の情報を減らさざるを得ない 構造をもつ.この入力を低次元特徴へ変換するプロセス を符号化と呼び,その低次元特徴からもとの入力を復元 するプロセスが復号化と呼ばれる.元の入力変数の情報 をできるだけ復元するような学習によって入力変数が中 間層の変数にコンパクトに表現されることが期待される. ここで,記法を整理する.まず,図 2 左の自己符号化 器では,入力変数 x と出力変数 の関係が多層 NN に よって次のように決定論的に表現される.入力変数を n 次元ベクトル x,入力層から直接入力を受ける中間層の 最初の隠れ変数を m 次元ベクトル h(1)で表すと,h(1) sig(W(1)x+b(1))が成り立つ.ここで,sig(x)はシグ モイド関数 1 /(1+exp(−x))を表し,入力変数がベクト ル x の場合,sig(x)は x の各要素それぞれにシグモイ ド関数を作用させるものとする.W(1),b(1)はそれぞれ m×n 行列,m 次元ベクトルのパラメータであり,それ らをまとめてパラメータθ(1)で表す.同様に,隣接する 中間層同士の関係は h(l)=sig(W(l)h(l−1)+b(l))で書け る.中間層の隠れ変数の次元は,真ん中の h(L)で最も 低くなり,ここに入力 x の情報を圧縮表現した特徴が現 れるとされる.そのため,入力 x から始まって h(L) 出力するところまでを符号化器(encoder),h(L)=f(x) と,h(L)から始まって出力 を出力するところまでを復 号器(decoder), =g(h(L))と呼ぶ.ここで,しばしば, 多層 NN の自由度を下げるため符号化器と復号器のパラ メータは独立に求めるのではなく互いに対称な関係をも つように制約される.典型的には,{W(L+i)}T=W(L−i+1)

b(L+i)=b(L−i+1)(i=1, …, L)という制約が置かれる.

ここで行列 W(L+i)の右肩の添字の T は行列の転置を表 す.行列の転置が使われる理由については後述するが, =g(h(L) h(L)=f(x) h(2L−1) h(L) h(1) x x x 図 2 多層 NN による自己符号化器の構成 *4 しばしば,過学習を避けるために観測データに人工的なひず みやノイズを加えて擬似的に観測データ数を増やすといったこ とも行われる.

(4)

RBMとして学習したパラメータを利用する際に自然な 形式となるためである. 自己符号化器では,このような符号化器と復号器から ならネットワークを出力 が入力 x そのものに近くなる ように学習を行う. (1) ただし,q(x)は観測データを生成する真の分布を表し, 〈・〉q(x)は分布 q(x)による期待値を表す.通常,真の分 布 q(x)は不明であるので期待値はサンプル平均に置き 換えられ,確率勾配法による最適化が行われる.コスト 関数 C(x, )には,典型的には入力が連続値であれば 二乗誤差が,離散値であればクロスエントロピーがよく 用いられる.入力 x とその低次元表現からの再構成 が =g( f(x))のような決定論的な関係をもつ場合,相 互情報量は I[x; ]=〈log p(x| )〉q(x)+const と書ける ため,このコスト関数 C の選択は分布 p(x| )の選択 を意味するものと解釈できる*5[Vincent 10]. 2・2 層ごとの貪欲学習を用いた自己符号化器の学習 多層 NN を用いた入力の冗長性削減*6の手法は,第 2回の解説 [麻生 13] の 5・4 節にあるとおり,以前から 提案されている手法が存在するが,多層 NN の自由度の 高さゆえの過学習を防ぐことが難しかったり,プラトー による学習の遅滞が発生したりするため,実用的な問題 に使われているとは言いがたい状況にあった.それが, [Hinton 06b]の研究を端緒として,この自由度の高い統 計モデルである多層 NN において,図 4 左のように,始 めに層ごとの貪欲学習(greedy layer-wise training)を 行ってから多層 NN の学習を行うことで,過学習のリス クを減らし,学習性能を大幅に向上させることができる ことがわかった.これによって多層 NN の学習が実用的 なものとなり,多くの応用研究を生んだ.この層ごとの 貪欲学習を行うアルゴリズムに利用されるのが CD 法で ある. ここで,もう一つの重要な問題であるプラトーの問 題について言及しておく.層ごとの貪欲学習には,多層 NNのうちの隣接する二層のみからなる RBM が用いら れる.この RBM はもとの多層 NN に比べると表現能力 が小さいため過学習のリスクが抑えられるが,これと同 時にプラトーの問題が緩和される可能性がある.なぜな ら RBM を含む EFH は,隠れ変数に関する周辺化を行っ てもその実効次元(expected dimension)が保存される という意味で同定可能なモデルであることが代数学的解 析により推測 [Cueto 10] されているからである.ただし, 多層 NN の学習に戻れば,やはりプラトーによる学習の 遅滞が問題となる.最近の研究ではこれについても学習 則の工夫によって,学習を高速化できることが示されて いる [Martens 10, Sutskever 13, Wan 13].

§ 1 リストリクティッドボルツマンマシン   (Restricted Boltzmann Machine:RBM) 層ごとの貪欲学習では,多層 NN で構成される自己符 号化器の隣接層間を別々のリストリクティッドボルツマ ンマシン(Restricted Boltzmann Machine:RBM)と みなして下層の RBM から順に学習を行う.RBM とは, 可視変数(visible variable)v, からなる層と隠れ変数 (hidden variable)h, からなる層の二層から構成され, 同じ層内の変数同士に結合がない特殊なボルツマンマシ ンである(図 3 参照).CD 法は,この RBM の学習アル ゴリズムである.ここでは,説明を具体的にしてわかり やすくするため,可視変数,隠れ変数をそれぞれ v∈{0, 1}n, h∈{0, 1}mのような離散変数とする*7 RBMは,次の確率モデルで表現される. (2) ここでθ={W, b(1), b(2)}は最適化すべきパラメータである. パラメータ W はしばしば結合重みや,単に結合,重み と呼ばれ,行列で表される.ボルツマンマシンの構造を ネットワークの形で図示する際,W の第(i, j)要素で ある wijが恒等的にゼロでない変数 i, j 間にエッジを書 き,恒等的にゼロとする変数 i, j 間にはエッジを書かな い.式(2)の exp の内側は,簡単なベクトルや行列の 演算で容易に評価可能であるが,分布 p(v, h|θ)の評 価には正規化定数を計算する必要がある.正規化定数の 計算には v, h の組合せ,すなわち,2m+nの和の計算が 必要となるため m, n が大きくなると実質的な計算が不 可能となることに注意する.RBM は,同一層内の変数 間に結合をもたないため,条件付き確率分布が次のよう , , *5 入力情報の損失を許した圧縮を行う場合,どのような情報の 損失が識別性能に影響を及ぼすかはどのような教師信号を出力 として推定したいかに依存する.言い換えると,教師信号が与 えられていない状況ではどのような入力の情報が教師信号の情 報との相互情報量を保存するかは不明である.そのため,教師 信号の与えられない教師なし学習のフレームワークではどのコ スト関数が良いかを議論することは難しい. *6 冗長性は,入力ベクトルの要素間相関によってもたらされる 予測可能性の程度を意味し,画像や音声であれば時間的・空間

的な(あるいはスペクトル間の)強い相関を指す. *7 連続変数の場合の取扱いについては,文献 [Bengio 07, Teh 03, Welling 05]を参照のこと.

h x 図 3 RBMや EFH のグラフィカルモデルによる表現可視変数 と隠れ変数との間にのみエッジがあり,可視変数同士, 隠れ変数同士にはエッジが存在しない , v h h Wv b h b v

(5)

に独立となる重要な特徴を有する. (3) さらにそれぞれの要素の条件付き確率分布は, (4) で与えられる.ここで,vi, bi(2)は v, b(2)の第 i 要素で あり,hj, b(1)j は h, b(1)の第 j 要素である.vi∈ {0, 1}, hj∈ {0, 1}であるので,これら条件付き確率分布の期待 値のベクトル表記は =〈h〉p(h|v)=sig(Wv+b(1)), = 〈v〉p(v|h)= sig(WTh+b(2))となり,自己符号化器に用 いられた多層 NN の決定論的関数と対応している.つま り,RBM で定義される可視変数 v と隠れ変数 h の同時 分布から得られる可視変数 v の周辺分布に従って,v が 生成されると考えるのであれば, は可視変数 v が与え られたもとでの隠れ変数 h の推定値として解釈できる. 同様に隠れ変数 h が与えられたもとでの可視変数 v の推 定値は, で与えられる.

§ 2 Exponential Family Harmoniums(EFH) 任意の分布 p(v, h|θ)は,p(v, h|θ)∝ exp(−Φ(v, h|θ))となるエネルギー関数Φ(v, h|θ)によって特徴 づけることができる.一般に,式(3)のように条件付

き分布が独立になる分布は,以下のエネルギー関数Φ(v,

h|θ)をもつ [Hinton 06a, Welling 05].

(5) ここで,φij(vj, hi|wij),αi(hi|b(1)i ),β(vj j|b(2)j )は任 意の関数で,wij, b(1)i , b(2)j をそれぞれパラメータとして もつ.パラメータはまとめてθと表記する.このとき条 件付き分布は, と書け,条件付き独立であることが確かめられる.式(5) のエネルギー関数をもつモデルは,Exponential Family Harmoniums(EFH)と呼ばれ,RBM をその特殊な 場合に含む.以下の議論は,EFH 全般に対して成り立 つので,以下ではこのポテンシャル関数による表現を 用いる.なお,以後,ポテンシャル関数φij(vj, hi|wij), α(hi i|b(1)i ),β(vj j|b(2)i )を適宜,φij, αi, βjと略記する. さて,この EFH を可視変数 v の T 個の観測データ v1, …, vT*8をもとに推定することを考えよう.その コスト関数として Kullback-Leibler 距離(KL 距離), KL[q(v)|p(v|θ)]を考える.真の分布 q(v)とパラメー タθで表現されるモデル分布 p(v|θ)(ここでは EFH で表現される分布)の KL 距離は以下のように書ける. (6) パラメータθに依存するのは第 2 項のみであるが,第 2項の期待値をサンプル平均で置き換えた場合には対数 尤度と一致するため,KL 距離最小化はサンプル近似の もと対数尤度最大化と等価になる.モデル分布 p(v|θ) をなるべく真の分布 q(v)に近づけるため,KL 距離の パラメータθに関する最小化を勾配法によって行うこと を考えよう.一般の分布 p(v, h|θ)∝ exp(−Φ(v, h|θ)) に対して,θによる〈log p(v|θ)〉q(v)の微分は, (7) となる.EFH の場合の wijに関する微分は, (8) となる.式(8)の第 1 項は,真の分布 q(v)による期 待値をサンプル平均で置き換えることで近似可能であ る.このサンプル平均による近似が行われているという 代わりに,q(v)に経験分布を利用したといっても同じ ことであるので,以降は q(v)を経験分布と同一視する. 一方,第 2 項 は,分布 p(vj, hi|θ)の評価が実際上難しいため計算が 困難となる.この第 2 項を近似する手法に,平均場近似 [Opper 01, Welling 03]や後述のマルコフ連鎖モンテカ ルロ法がある.CD 法は,マルコフ連鎖モンテカルロ法 の一種であるギブズサンプリングによる期待値計算を簡 略化した計算手法と考えることができる.そこでまずギ ブズサンプリングについて説明する. *8 多層 NN による自己符号化器においては最下層以外は観測 データが得られないが,その際は直下の層の EFH において p(ht|vt)に従って生成されたサンプル,もしくは期待値 (t=t 1, …, T)を観測データとする. v h v h v h v h v h v h v h v v v v v v v v v v v v v hv v h v h v h v v

(6)

§ 3 ギブズサンプリング(Gibbs Sampling) マルコフ連鎖モンテカルロ法は,所望の分布からサン プルを取得するための手法である [bishop 06].しかし, マルコフ連鎖モンテカルロ法は,所望の分布からの独立 なサンプルを得る通常のモンテカルロサンプリングとは 異なり,独立なサンプルが得られるわけではない.マル コフ連鎖モンテカルロ法では,マルコフ連鎖と呼ばれる 前回のサンプル x′に依存した条件付き分布 p(x|x′)に よって新たなサンプル x を生成する.このマルコフ連鎖 が所望の分布を定常分布にもつように条件付き分布を構 築し,マルコフ連鎖を定常分布に収束させることで定常 分布からのサンプルが得られる.定常分布π(x)は,次 式を満たす分布として定義される. (9) 定常分布は,マルコフ連鎖が既約,すなわち,任意の 状態から始まって任意の状態へ将来,到達可能であり, かつ非周期的であるなら必ず存在し,それは唯一に定ま る.さらに,このときマルコフ連鎖は初期分布に依存せ ずに定常分布に収束する.以降,ここで考えるマルコ フ連鎖が既約かつ非周期的であると仮定して議論を進め る.マルコフ連鎖モンテカルロ法では,所望の分布を定 常分布とするようなマルコフ連鎖を構築する必要がある が,その構築に有用な条件に詳細つり合い条件(detailed balance condition)がある. (10) こ こ で p(x|x ′)と p(x ′|x )は, そ れ ぞ れ p(X=x| X=x′)と p(X=x′|X′=x)を略記したものであり,同 一の条件付き分布 p(X|X ′)の確率変数 X(あるいは X′に異なる実現値 x と x′を代入したものであることに注意 する.もし,上記のような分布 p(x)が存在したならば, p(x)は定常分布π(x)に一致する.証明は簡単で,式 (10)の両辺を x′に関して和を取る周辺化を行えば式(9) が直ちに導かれる.逆に,式(9)を満たすπ(x)によっ て p(x)=π(x)を決めたとしても,その p(x)は必ず しも式(10)の詳細つり合い条件を満たすとは限らな い.また,式(9),(10)における p(x),π(x)はそれ ぞれ正規化定数を省いた関数 (x)∝π(x),(x)∝ p(x) に置き換えることができる.つまり,正規化定数が未知 のままでも正の値をとる関数 (x)とマルコフ連鎖 p(x′ |x)に対して詳細つり合い条件が成り立つなら, (x) を正規化した分布が定常分布となることがいえる.これ は,式(9),(10)の両辺を 0 でない定数で割っても成 り立つことと,正規化定数を省いた関数 (x), (x)か ら一意に確率分布 p(x),π(x)が求まることから明らか であろう. マ ル コ フ 連 鎖 モ ン テ カ ル ロ 法 の 中 心 的 な 手 法 で あるメトロポリスヘイスティングス法(Metropolis-Hastingsalgorithm:MH 法)は,「採択」の概念を導入し, 採択された場合のサンプルのみに対して詳細つり合い条 件が成り立つようにマルコフ連鎖を構築する.サンプル を得たい所望の分布(必ずしも正規化されている必要は ない)を (x)とすると,現在のサンプル x′から次のサ ンプル x を得るマルコフ連鎖は,次のように実現できる. メトロポリスヘイスティングス法 1.現在のサンプル x′から提案分布 p(x|x′)に従っ てサンプル x* を得る. 2.採択率 A(x*, x′)で x = x* を採択し,確率 1− A(x*, x′)で棄却する. ここで,採択率 A(x, x′)は次式で定義される. (11) 提案分布 p(x|x′)にはサンプリングが可能であれば どのような分布を選ぶことも可能ではあるが,採択率や マルコフ連鎖の収束性は変わるため,適切な選択が求め られる.採択されたサンプルが詳細つり合い条件を満た すことは容易に確認できる. ギブズサンプリングは,所望の分布 p(x)が多変数の 同時分布であるときに用いるものであり,MH 法におけ る提案分布 p(x|x′)を所望の分布 p(x)の条件付き分 布とするものである.具体的には,以下のように現在の サンプル x′=[x′1, …, x′n]Tから次のサンプル x=[x1, …, xn]Tを生成する. ギブズサンプリング 1.要素 i(1 ≤ i ≤ n)をランダムに選択する. 2.選択された要素 xiを条件付き分布 p(xi|x1, …, xi−1, x′i+1…, x′n)からサンプルし, x の i 以外の 要素は x′と一致させる. 上記の条件付き分布 p(xi|x1, …, xi−1, x′i+1…, x′n)から サンプルするステップにおいては,採択率 A(x*, x′)が 必ず 1 となるため,採択のステップは省かれている.実 際上は,上記の要素を選択するステップ 1 は必ずしも確 率的な選択ではなく,単に要素番号の順に決定論的に選 ばれることが多い.これはマルコフ連鎖が非周期的であ るという条件を満たさないが,実用上は,問題を生じな い. § 4 EFH のギブズサンプリングによる学習 さて,EFH の学習に戻る.KL 距離の最小化を勾配法 で行うためには,式(8)の第 2 項 の評価が必要となることとを述べた.第 2 項 の評価には,EFH のモデル分布の周辺分布 p(vj, hi|θ) x x x x x x x x x x x x x x x x x x x x x x

(7)

による期待値計算を行う必要がある.ここで,モデル分 布 p(v, h)からのサンプル v′, h′が得られれば,その周 辺分布 p(vj, hi|θ)からのサンプルは多次元のサンプル v, h′から要素 v′j, hiを抽出することで直ちに得られる. そこで,先ほどのギブズサンプリングを用いてモデル分 布 p(v, h)からのサンプルを行い,そのサンプル平均で 期待値を近似することを考える.EFH においては,可 視変数間,隠れ変数間の結合がなく,式(3)の条件付 き独立性が成り立つため,可視変数 v と隠れ変数 h をそ れぞれ p(v|h),p(h|v)に従ってサンプルすることが 容易である.そのため,ギブズサンプリングは,変数 v と変数 h をそれぞれ交互に p(v|h),p(h|v)に従った サンプリングを繰り返すことで実現できる.モデル分布 p(v, h|θ)が,ギブズサンプリングを無限回,繰り返し た後に収束する定常分布であることを明示するために, p(∞)(v, h|θ)と表記すると,式(8)は, (12) と書ける.層内の変数間の結合をもたない EFH は,ギ ブズサンプリングが容易である.しかし,先に述べたよ うにマルコフ連鎖モンテカルロ法は,マルコフ連鎖が定 常分布に収束するまでサンプリングを繰り返さなければ ならない.これには,いつ定常分布に収束したと判断す るかの実用上の問題がある.しかも,この定常分布への 収束は,パラメータθを更新するたびに必要となるため, パラメータを収束させるまでに必要な計算時間が長くな りすぎる問題がある.

3.コントラスティブダイバージェンス法(CD 法)

3・1 EFH の CD 法による学習 エネルギー関数が式(5)で与えられる EFH の対数 尤度のパラメータθに関する勾配計算に EFH のモデル 分布による期待値計算が必要となり,その期待値はギブ ズサンプリングで近似できるものの,計算時間の点で問 題があることを述べた.そこで,これを簡略化した計算 で済ませるのが CD 法である.CD 法は,収束するまで (理論上は,無限回)繰り返す必要のあるギブズサンプ リングを k 回(k は小さな正の整数で,典型的には k=1) だけ行うという単純なものである.CDk法を k 回のギ ブズサンプリングで打ち切った学習法であるとすると, CDk法は,以下で与えられる. (13) ここで,p(k)(v, h|θ(k ≥ 0)は,初期分布を経験分 布 q(v)と条件付き分布 p(h|v, θ)の積,p(0)(v, h|θ =q(v)p(h|v, θ)としてギブズサンプリング によって更新される分布を指す.初期分布 p(0)(v, h|θ による期待値は観測データによるサンプル平均で計算さ れる.理論上は,無限回のギブズサンプリングが必要だっ たものが,たった 1 回で置き換えられれば計算がずいぶ ん,早くなることは容易に理解できるであろう.しかし, CD法は計算が早いだけでなく,性能もあまり低下しな いためトータルで見るとコストパフォーマンスが非常に 高い.なぜこれでもうまくいくのか,という疑問につい ていくつかの解析があるので次節でそれらについて紹介 する. 3・2 CD 法が最適化しているコスト関数 § 1 対数尤度の展開とコントラスティブダイバージェンス 対数尤度のパラメータ微分を近似するものという視点 から CD 法を理解する試みがなされている.Bengio と Delalleau [Bengio 09]は,モデル分布 p(v, h|θ)が, その条件付き分布 p(v|h, θ)と p(h|v, θ)を用いた級 数で展開できることを示した.具体的には,条件付き分 布 p(v|h, θ)と p(h|v, θ)から構成されるギブズサン プリングを考える.これらの条件付き分布からのギブズ サンプリングによって得られるサンプル系列をサンプ ルされた順番を区別して,v(0)→ h(0)→ v(1)→ h(1), …, → v(k+1)のように表す.ただし,v(0)は,観測データを 実現値とする可視変数 v とする.このとき,下記が成り 立つ. ただし,条件付き分布 p(v|h, θ),p(h|v, θ)がともに 計算可能かつサンプリングが容易なモデルは EFH のよ うな特殊なモデルに限られることに注意する.これを用 いると,対数尤度 log p(v(0)θ)は以下のように展開さ れる. (14) 両辺をパラメータ微分して,ギブズサンプリングのサン プル系列に関して期待値をとって整理すると, v v v h v v v h v h v h v h v h v h v v v h h h v h v v h h (14) (14) (14) (14) (14) (14) (14) (14) (14) (14) (14) (14) v v v v v v v v v v v v v v v v v h h h h h h h h h h h h h h h h h h v h v h v h v h v h v h v h v h v h v h v h v h v h v h v v h v v h v (14) v (14) h

(8)

(15) が得られる.ここで E[・|v(0)]は,初期状態が v(0)から 始まるギブズサンプリングで得られる系列に関する期待 値,すなわち,p(h(0)|v(0), θ)p(v(1)|h(0), θ)…p(v(k+1)|h(k), θ に関する期待値を意味する.Bengio と Delalleau は, EFHに対してこの級数展開の最後の項を無視してパラ メータ wijの更新則を導出すると,CDk法が得られるこ とを示した.すなわち, (16) となる.この級数展開において k が大きくなるにつれて, 最後の項や  内の各項が 0 に近づくため,k が大きいほ ど CDk法が KL 距離(尤度)の微分に基づく更新則の良 い近似であることがいえる.一般に,推定量と真値との 間の平均二乗誤差は,バイアス(偏り)とバリアンス(分 散)の和で表現される.上記の級数展開は,CD 法がど のようなバイアスをもたらすかを示す.一方のバリアン スについては,CD 法はギブズサンプリングを 1 回しか 行わないため,通常のギブズサンプリングに比べてバリ アンスを小さくできるメリットがある. § 2 コントラスティブダイバージェンス CDk 対数尤度のパラメータ微分を近似する手法として CD法を解釈するのではなく,そもそも異なるコスト 関数を最適化する手法として解釈する試みがなされて いる.CD 法を提案した Hinton は,これは近似的に以 下のコントラスティブダイバージェンス(contrastive divergence:CD)を最小化するものである,と述べて いる [Hinton 02]. (17) ここで,p(∞)(v|θ),p(k)(v|θ)はそれぞれ,EFH のモ デル分布 p(∞)(v|θ),初期分布を経験分布 q(v)として ギブズサンプリングを k 回,行った分布 p(k)(v, h|θ)の 可視変数 v に関する周辺分布である.コントラスティ ブダイバージェンス CDkの最小化は,経験分布 q(v) から始まるギブズサンプリングによって得られる分布 p(k)(v|θ)が q(v)から離れないように間接的に要請す る.既約で周期的なマルコフ連鎖が唯一の定常分布をも ち,初期状態によらずその定常分布に収束することを述 べたが,既約で周期的なマルコフ連鎖において p(0)(v|θ =p(k)(v|θ)であれば,p(0)(v|θ)=p(k)(v|θ)=p(∞)(v|θ を意味する.したがって,ギブズサンプリングによっ て初期分布の q(v)から全く離れない場合,すなわ ち,p(0)(v|θ)=p(k)(v|θ)= q(v)であれば,モデル分布 p(∞)(v|θ)は経験分布と一致,すなわち,p(∞)(v|θ)= q(v)となり,CDkはゼロとなる.また,分布はギブズ サンプリングを繰り返すたびに定常分布に近づいていく ので,k 回のギブズサンプリング後の分布 p(k)(v|θ)と 定常分布 p(∞)の KL 距離は初期分布 q(v)と定常分布 p(∞)の KL 距離より小さい.すなわち,CD kは常に非負 となる [Hinton 02].このようにコスト関数 CDkは,コ スト関数として合理的な性質を有する.しかしながら, CDkをパラメータ wijで微分したものは,式(13)と完 全に一致するわけではない.コスト関数を CDkとした ときの勾配法によるパラメータ wijの更新則は, となり,第 3 項,第 4 項を無視することで初めて式(13) の CD 法の学習則に一致する.ここで,第 3 項の H(p(v)) ≡ v p(v)log p(v)は分布 p(v)のエントロピーを表す. 第 3 項,第 4 項を無視する理論的な根拠は明示されてい ないものの,Hinton は,経験的に第 3 項は小さいこと がわかっているため無視してよいと述べている [Hinton 02]*9

§ 3 Detailed Balance Learning(DBL)アルゴリズム コントラスティブダイバージェンスとは別のコスト関 v v v h v v v v h v v h v v v h v h v h v v v v h v v v v v v v v v v h v h *9 論文 [Hinton 02] では,第 4 項が存在しないかのように扱われ ているが,その理由は定かではない.

(9)

数によっても,CD 法が解釈できることが提案されてい る.往々にして,学習の問題は,パラメータの推定問題 に帰着される.この際,必ずしも真の分布を近似するモ デル分布そのものやモデル分布からのサンプルを知る必 要はない.この項と次項で説明する手法は,まさしくそ のパラメータ推定に特化するものであり,この評価困難 な正規化定数を含むモデル分布や,その分布からのサン プルは求めない. マルコフ過程の定常分布を所望の分布に近づけるため のパラメータ学習を行うことを考える.この定常分布は パラメータによって特徴付けられるものの,直接の評価 が難しいとする.ここで,既約で非周期的なマルコフ連 鎖を定めると,マルコフ連鎖の定常分布が唯一に定まる ことを思い出すと,定常分布のパラメータを最適化する 代わりに,その定常分布を生成するマルコフ連鎖のパラ メータを最適化できる可能性があることに気が付く.そ のマルコフ連鎖のパラメータを最適化することで間接 的に,定常分布を所望の分布に近づけようというのが Detailed Balance Learning(DBL)アルゴリズムであ る [前田 09]. 真の分布(経験分布)q(v)を定常分布にもつような 詳細つり合い条件は, (18) で与えられる.これに隠れ変数 h を加えた,より厳しい 詳細つり合い条件を考えることもできる. (19) 式(19)は,両辺を h に関して周辺化すると式(18) と一致する.式(19)は,任意の h に対して成立する ことを要請するため,式(18)より厳しい条件を考えて いることがわかる.いずれにせよ,これらの詳細つり合 い条件の成立は,真の分布 q(v)が定常分布であること を保証する.そこで,マルコフ連鎖がこれらの詳細つり 合い条件を満たすことを奨励するコスト関数として以下 を考える. (20) ここで,p(v′, h|v, )=p(v′|h, θ)p(h|v, θ),p(v, h|v′, θ)=p(v|h, θ)p(h|v′, θ)である.式(20)のコスト関数 は,KL 距離の性質から任意のパラメータθ, に対して F(θ, )≥0 であり,F(θ, θ)=0 となるのは,q(v)に 対して詳細つり合い条件が成り立つときのみ,すなわち, 少なくとも q(v)=p(v|θ)が成り立つときのみとなる. 実は,逆もまた真となる.すなわち,パラメータθにお いて q(v)=p(v|θ)が成り立つならば,そのパラメー タθで特徴付けられるマルコフ連鎖は,式(19)の詳細 つり合い条件を満たす.これらの性質から,コスト関数 F(θ, θ)が小さくなるようパラメータθを学習すること に一定の合理性があることがわかる. しかしながら,F(θ, θ)には,未知の分布 q(v)が含 まれるため直接の最小化は難しい.そこで次のような最 小化アルゴリズムを考える.

Detailed Balance Learning アルゴリズム 1.t=1 として,θ0, θ1に初期値を設定する. 2.F(θt+1, θt)< F(θt−1, θt)を満たすθt+1を求める. 3.終了条件を満たしたならばアルゴリズムを終了 し,そうでないならば t を 1 増やし,ステップ 2に進む. 上記のステップ 2 は,F(θ, θt)のθに関する最小化を 必要とする.この最適化を確率勾配法によって行うため に,パラメータ微分をとると となる.EFH の場合で,パラメータ wijに関する更新則 を求めると, (21) のように,CD1法と同一のアルゴリズムが得られる. ただし,DBL アルゴリズムによるθの更新は,必ず しもF(θ, θ)を単調に減少させるとは限らない.F(θ, θ) の減少を保証するには, (22) という条件が必要となる.この条件の成立には,一般に は成り立たない KL 距離の対称性,すなわち,KL 距離 の差分 KL[qt|pt+1]−KL[qt|pt]が正であるとき,KL 距 離において分布を入れ替えた KL[pt+1|qt]−KL[pt|qt]も 正となる,という対称性が成り立つ必要がある. なお,CD 法のコスト関数 CD1(式(17))と DBL の コスト関数 F(式(20))には以下の関係が成り立つ. (23) KL距離やCD1は非負の値をとるので,式(23)はF(θ, θ) が CD1(θ)や KL[ p(1)(v|θ)|q(v)] の上限を与えること を示している. v v v v v v v v v v h v h v v v h hv v h v h v v v h v v v h v v v h v v v h v hv v v h v h v v v h v h v v v h v v

(10)

§ 4 Minimum Probability Flow(MPF)法

以上は,定常分布 p(∞)(v|θ)のパラメータの学習を

離散時間のマルコフ過程 p(v|h, θ),p(h|v, θ)のパラ メータの学習に置き換えた見方であったが,これとよ く似たアイディアの学習則が Sohl-Dickstein ら [Sohl-Dickstein 09, Sohl-[Sohl-Dickstein 11]によって Minimum Probability Flow(MPF)法として提案されている.こ れは,連続時間 t のマルコフ過程*10を考えるものである. 分布 r(t)(v)を時刻 t=0 で真の分布(実際上は,経験分 布)q(v)と一致し,時刻無限大で定常分布 r(∞)(v)に 収束する分布とする.離散状態変数 v のとり得る値をす べて列挙してできるベクトルを用いて,分布 r(t)(v)を ベクトル表記 r(t)しよう.このとき,r(t)のダイナミク スは, (24) のように表現される.ここで, tは rtの時間微分,Γ はその要素がΓii=−  j≠iΓjiを満たす確率フロー行列で ある.確率過程は,定常分布 r(∞)(v)が EFH のモデル 分布 p(∞)(v|θ)と一致するように,確率フロー行列Γ 定められる.これは,離散時間のマルコフ過程で考えた 詳細つり合い条件と同様の条件を課すことで達成でき る. (25) こ こ で,p( ∞ )i (θ) は r(t)(v) と 同 様 に, モ デ ル 分 布 p(∞)(v|θ)をベクトル表記して得られるベクトル p(∞)θ の i 番目の要素である.式(25)によって,分布 r(t) ダイナミクスを制御する確率フロー行列Γはパラメータ θによって特徴付けられる.ただし,Γは一意に決まる わけではなく,収束や計算が容易となるように適切に設 定*11される必要があることに注意する.式(25)の詳 細つり合い条件を満たすために,以下のコスト関数 G(θ) を定義する.  (26) ここで,分布 r(ε)(v)が,式(25)を満たす確率フロー 行列Γを介してパラメータθによって特徴付けられるこ とを明示するために,r(ε )(v|θ)と書いた.ε( > 0)は 微小量であり,分布 r(ε)(v|θ)が連続時間の確率過程を t= 0から微小時間ε 進めて得られる分布であることを示し ている.このコスト関数 G(θ)は,確率過程を微小時 間進めても初期分布である真の分布から変化しない,す なわち真の分布を定常分布にもつように確率過程のパラ メータを定めることを要請する.式(26)の右辺をεに ついてテイラー展開することで,評価可能なコスト関数 が得られる.ここでは詳細は省くが,コスト関数をパラ メータ微分し確率勾配法による最適化を考えると,形式 的には CD1アルゴリズムと類似した,しかし,異なる アルゴリズムが導出される. MPF法はコスト関数が存在し,そのコスト関数を観 測データ数に比例するオーダの計算量で評価できるた め,収束の判定や学習率の調整に利用することができ る.さらに,MPF 法のコスト関数 G(θ)は凸関数であ ることがいえるため,高速な学習が期待される.実際, この手法の適用によって,CD 法では尤度が最大化され ずに途中で収束してしまうような問題が解消されたり 大幅な学習速度の向上が確かめられたりしている [Sohl-Dickstein 09, Sohl-[Sohl-Dickstein 11].例えば,二次元格子 状のイジング模型の結合定数の学習においては,CD1法 や CD10法と比べて 2 桁以上早い学習が可能であること が示されており,手書き数字のデータベースで有名な MNISTデータの自己符号化器の学習による再構成では, より高い推定精度での再構成が可能であることが示され ている.この手法はそれほどポピュラーな存在ではなく あまり利用されていないが,今後の応用が楽しみな手法 である.

4.その他の事前学習法

CD法が多層 NN の学習の事前学習に有効であると提 唱されて以来,その有効性がさまざまなタスクで確かめ られてきた.それと同時に,CD 法をベースとしてそれ を改良した事前学習法や CD 法とは異なる新しい事前学 習法が提案されてきた.ここで,そのいくつかを紹介する. 4・1 CD 法をベースとした事前学習法

平均場 CD(Mean-Field Contrastive Divergence)法 [Welling 02]は,RBM に平均場近似を適用して CD 法 と同様の更新則を導くものである.一般に,平均場近似 は,期待値計算の難しくなる複数の変数の交互作用項を 変数間の交互作用のない(典型的には,変数間を独立と した)項で近似する*12.RBM に対する平均場 CD 法では, 計算困難な可視変数 v と隠れ変数 h の積の同時分布 p(v, h)に関する期待値を近似する.具体的な更新式は次式 で与えられる. (27) ここで,h(1)i ,v(2)j ,h(2)i はそれぞれ, *10 連続時間のマルコフ過程については,例えば [Van Kampen 07]の IV 章,V 章を参照のこと. *11 彼らはΓの適応的な更新則や,より高速に動作すると思われる 実装方法をノートの形で Web 上 http://redwood.berkeley. edu/jascha/pdfs/PMPF.pdfで公開しているので興味のある 読者は参照されたい. *12 機械学習においては,パラメータに関する事後分布の期待値 計算や事後分布そのものの近似計算に同種の近似計算が用いら れ,この近似法は変分ベイズ法と呼ばれる [Bishop 06]. r r v v h(1)i = sig nj=1wij vj q(vj)+ b(1)i v(2)j = sig mi=1wjih(1)i + b (2) j h(2)i = sig nj=1wijv(2)j + b (1) i

(11)

を満たすように選ばれる.RBM に平均場近似を適用し た際には,〈vjq(v)のみを求めれば,h(1)i ,v(2)j ,h(2)i は 決定論的に定まり,確率的なサンプリングに付随するば らつきが生じないので収束が速い.しかしながら,CD 法に比べて収束先のモデル分布の尤度が低くなる欠点を もつ.

パーシスタントCD(Persistent Contrastive Divergence: PCD)法 [Tieleman 08]*13は,CD 法の更新式(13)を ギブズサンプリングによる更新式(12)に近づけること を意図したものである.ギブズサンプリングによる更新 式(12)では,第 2 項の期待値計算のためにギブズサ ンプリングを定常分布に収束させる必要があったのを, CD法の更新式(13)では初期分布を経験分布として 1 回のギブズサンプリングによるサンプルで代用する.パ ラメータを更新するたびに CD 法では,初期分布を観測 データの経験分布に戻して改めてギブズサンプリングを 行うため定常分布には近づかない.一方で,パラメータ は勾配法によって少しずつしか更新されないので,定常 分布はパラメータの更新によってそれほど大きく変わら ないことが期待される.そこで,PCD 法ではパラメー タの更新後に,与えられた観測データの経験分布に初期 分布を戻すのではなく,その前のパラメータ更新に用い たサンプルを用いて,つまり初期分布を前回のパラメー タ更新時に利用したギブズサンプリングのサンプル上に 密度をもつ経験分布として,そこからギブズサンプリン グを始める.これによって,同じ 1 回のギブズサンプリ ングであっても定常分布により近い分布からのサンプル によって期待値計算を近似できることが期待される.実 際,計算量は CD1と同じであるが,学習性能は CD10法 と比べて同等か若干良い性能を示すため,好んで用いら れている. マルコフ連鎖の定常分布への収束のためには,実際に は状態空間がマルコフ連鎖によってくまなく探索される 必要がある.しかし,PCD 法のように特定のサンプル 集団のみをマルコフ連鎖で更新する場合,そのサンプル 集団が定常分布からのサンプルと異なることによるバイ アスがなかなか解消されない可能性がある.そこで,状 態空間内を偏りなく広い領域を探索させるために,しば しば複数の互いに異なる乱雑さ*14をもつマルコフ連鎖 が並列して利用される.これをパラレルテンパリング (Parallel tempering)とか交換モンテカルロ(exchange Monte Carlo)法などと呼ぶ.こういった手法を PCD と組み合わせて使われることが提案されている [Cho 10, Desjardins 10].これらの手法は,学習アルゴリズムの 設定に必要なパラメータを増やしてしまう欠点があるも のの,ある程度,適切に乱雑さなどのパラメータが設定 されれば CD1や CD10,PCD 法よりも優れた学習性能を 発揮する.パラメータの W のほかに,“fast weight”と 呼ばれるより高い学習係数をもつパラメータ W′を同時 に学習させ,その“fast weight”の W′と通常のパラメー タ W の和をパラメータとする条件付き分布を用いたギ ブズサンプリングによって更新式(12)の第 2 項を計算 するアイディア [Tieleman 09] も提案されているが,基 本的には上記のようなマルコフ連鎖のより速い収束効 果を狙ったものと考えることができる.それぞれの手法 が提案された論文 [Cho 10, Desjardins 10, Tieleman 08,

09]で数値実験によるこれらの手法間の比較が行われて いるので参照されたい. 4・2 層ごとの自己符号化器による事前学習法 事前学習は,教師なし学習による観測データ内の冗長 性削減による次元削減で,後の教師あり学習における多 層 NN の過学習を防ぐ効果が期待されると述べた.し かし,CD 法による事前学習での主な学習対象は RBM であって,RBM においては条件付き分布の期待値は多 層 NN と同じくシグモイド関数で表現されるもの,入力 変数と隠れ変数との間は確率的な関係で表現され,多層 NNを決定論的な関数として用いる教師あり学習のコス ト関数とは間接的な関係しかもたない. 教師あり学習とより直接的な関係をもつ学習を行う ために,教師なし学習の時点で入力変数と隠れ変数の間 の決定論的な関数関係を学習するものとして,層ごとの 自己符号化器の学習がある.これは,多数のパラメータ をもつ多層 NN を一度に学習することを避けて,隣接 する二層ごとに区切って,自己符号化器を構成して学習 するもので,積層自己符号化器(stacked autoencoder) と呼ばれる.図 4 中央に示すように,積層自己符号化 器 [Bengio 07] ではまず入力層が再現できるように,入 力層を圧縮表現する中間層の表現 h(1)が学習され,次に h(1)を圧縮表現するその上の中間層の表現 h(2)が学習 され,といったように下層から順に自己符号化の学習が 進む. この自己符号化器の学習は,2・1 節で述べたように再 構成誤差〈C(x, g(f(x)))〉q(x)の最小化として表される が,これは EFH の対数尤度の近似的な学習とみなすこ ともできる [Bengio 09].3・2 節 §1 において対数尤度は, 式(15)のように展開されることを述べたが,この展開 は最後の項を v(k+1)ではなく h(k)とすることができる. k=0 としてこの展開を利用すると,対数尤度のパラメー タ微分は *13 ちなみに PCD 法と全く同じアルゴリズムが [Tieleman 08] より前に提案されている [高畠 07, Younes 89].[Younes 89] は, 深層学習の文脈とは無関係に 15 年前に統計の分野で発表され ていたもので,アルゴリズムの収束の十分条件についても述べ られている.この論文は,最近になって機械学習のコミュニティ に認知されるようになった.[高畠 07] は,国内会議での発表で あったため海外に知られていない. *14 この乱雑さの程度を表すパラメータは,統計物理における焼 きなまし(アニーリング)法との対応から温度と呼ばれる.

(12)

(28) のように書ける.ここで CD 法の場合と同様に最後の項 を無視し,観測変数 v(0)に関する期待値をとると (29) が得られる.一方で,自己符号化器のパラメータ更新は (30) のように与えられる.ただし,(0) (0)=〈h(0) p(h(0)|v(0) である.上記の式(29)と式(30)はよく類似しており, 式(30)は,p(v(0)|h(0))における変数 h(0)の代わりに その v(0)が与えられたもとでの平均 (0)を代入したもの となっている.このように,変数にその平均的な値を代 入して変数間の交互作用を無視して近似計算する手法を 平均場近似と呼ぶが,式(30)も式(29)に平均場近似 を適用したものと解釈できる.以上の解釈から,CD 法 のほうが EFH の対数尤度の展開を 1 項多く展開してお り,平均場近似の適用もないことがわかる.したがって, EFHの対数尤度の勾配法による学習則としては CD 法 のほうが積層自己符号化器による学習則に比べて優れる v v h h v h v h ことが予想される.計算機実験では,実際,積層自己符 号化器は CD 法と同等か,若干 CD 法に劣るといった結 果が得られている [Bengio 07, Larochelle 07]. なお,同じ論文 [Bengio 07] において,教師あり学習 を層ごとに行うことも試されている.これは,隣接する 二層に出力層を加えた三層のパーセプトロン*15を下層 から順に構築し,学習するものである.いったん,下層 の三層のパーセプトロンの学習が終わると,教師信号を 出力する層を取り除いた直下の層を入力層とする,新た な三層パーセプトロンを構築し,学習を行う(図 4 右参 照).これは,三層パーセプトロンの中間層に出力に関 連する入力の特徴が表現されていると考えて,その特徴 の抽出を意図したものである.しかし,この学習法によ る性能はあまり良いものではなかった.これは,難しい 教師あり学習の問題を,よりやさしい教師あり学習の問 題に分解することが容易ではないことによるものと考え られた.教師あり学習では,出力を説明可能な特徴のみ が利用され,逆に出力を説明できない特徴は抽出される ことがない.したがって,たとえ,出力を説明できるよ うな特徴が潜在的に存在したとしても,その特徴を得る 変換を学習に用いる統計モデルで表現できなければ,特 徴は抽出されることなく無視されることになる.した がって,中間層のユニット数の少ない三層パーセプトロ ンの学習では,たとえ後続のネットワークによる非線形 変換で特徴抽出が可能であったとしても,その時点で学 p(x) p(Y=xt|X=xtp(Y=yt|X=xtp(Y|X) h(3) h(2) h(3) h(2) h(2) h(3) h(2) y h(1) x y h(2) h(1) y h(2) h(1) h(1) h(2) h(1) h(1) h(1) x x x 図 4 層ごとの貪欲学習 ; 隣接層間のネットワークを下層から順に学習する. いずれも下位のネットワークの学習を終えるとパラメータは固定され,学習の終えた下位ネットワークの中で最も上位に位置する 隠れ層の出力が次に学習するネットワークの入力として用いられる.学習には,教師なし学習の形式をとるもの(左)と教師あり 学習の形式をとるものとがある.教師あり学習の形式をとるネットワークは,さらに自己符号化器(中央),パーセプトロン(右) など,用いる教師信号で分類できる v h v h v v h v *15 パーセプトロンとは,教師あり学習をする多層ニューラル ネットワークのことを指す.

参照

関連したドキュメント

Experimental results showed that (1) us- ing DBN has far higher prediction precisions than using baseline methods and higher pre- diction precisions than using either MLP or SVM;

&amp; Surveys(Các cuộc điều tra)」で表示される項目か ら「Agriculture, Forestry &amp; Fishery(Nông Nghiệp, Lâm Nghiệp và

ACCURACY IMPROVEMENT OF DEEP ARTIFICIAL NEURAL NETWORK RIVER STAGE PREDICTION USING MULTIPOINT OBSERVATION DATA.. 一言正之 1

From the geometrical point of view, the GLA in which the learning rate is 2 can be expressed as the algorithm in which the connection weight vector is updated to the symmetric

In the on-line training, a small number of the train- ing data are given in successively, and the network adjusts the connection weights to minimize the output error for the

Different from the tradition LS algorithm, the SDLS introduced stochastic dynamics into the local search that permits temporary increase of error function, thus resulting in escape

The connection weights of the trained multilayer neural network are investigated in order to analyze feature extracted by the neural network in the learning process. Magnitude of

• また, C が二次錐や半正定値行列錐のときは,それぞれ二次錐 相補性問題 (Second-Order Cone Complementarity Problem) ,半正定値 相補性問題 (Semi-definite