コントラスティブダイバージェンス法とその周辺(<連載解説>Deep Learning(深層学習)〔第7回〕)

(1)

1．は　じ　め　に

これまでの深層学習の連続解説において，第 4 回では画像認識 [岡谷 13]，第 5 回では音声認識 [岡野原 13]，第 6 回では自然言語処理 [ダヌシカ 14] における応用が解説されてきたが，これらの解説からわかるようにさまざまな分野において深層学習が用いられ，その有用性が認識されている．深層学習とは，単なる多層ニューラルネットワーク（以下，多層 NN と略す）の学習であり，第 1 回 [安田 13]，第 2 回 [麻生 13] でも解説されたように，歴史的に見ると新奇なモデルというものではない．現在の深層学習は，従来の多層 NN のモデルの構造に新たにいくつかの制約が課されたり，ある種の凝った学習＊ 1_{が用いられているものとみなすことができる．} この解説記事では，その学習の工夫の一つである「事前学習」に利用される，コントラスティブダイバージェンス法（Contrastive Divergence 法：以下，CD 法と略す）について述べる．CD 法自体は，一般の Product of Experts（PoE）の学習法 [Hinton 02] として提案されているが，ここではまず深層学習に用いられる CD 法に特化して述べ，PoE の学習法としての CD 法は 5 章で述べる．以降の 1 章では，教師なし学習の手法が，なぜ教師あり学習で必要になるのかの背景について述べ，2 章で教師なし学習に用いられる自己符号化器と，その自己符号化器を構成するリストリクティッドボルツマンマシン（RBM）について述べ，RBM を包含したより広いモデルである Exponential Family Harmoniums（EFH）の既存の学習法について述べる．3 章で EFH の CD 法による学習法とその解釈について述べ，CD 法以外の教師なし学習による事前学習については 4 章で述べる．ギブズサンプリングなどの統計的学習に詳しくない読者も想定した構成としているが，それらに詳しい読者で CD 法にのみ興味のある読者は，3 章から読み始めていただいて問題ない． 1･1　自由度の高い統計モデルの学習を難しくする要因まず，CD 法がどのような背景で生まれたのか，どのような問題を解決するために必要となったかを説明する．そして，その問題を解決するための既存手法と CD 法による新たな解決法の関連を説明することで CD 法の位置付けを述べる．はじめに過学習の問題から説明する．多層 NN を含む統計的モデルの学習においては一般に，統計モデルの表現能力・自由度の高さと，その統計モデルのパラメータ推定の難しさがトレードオフの関係にある．すなわち，自由度の高い統計モデルを設計すると，適切なパラメータを設定することが難しくなる．この主な原因は，手持ちの観測データに過度に適応した学習をしてしまう過学習である．統計的学習においても，通常の最適化問題と同様に，尤度や正則化付き尤度などのコスト関数が定義され，パラメータ学習はそのコスト関数のパラメータに関する最適化とみなすことができる．しかし，一般の最適化問題と統計的学習における最適化問題が異なるのは，統計的学習のコスト関数が観測データに依存して決まることである．そのため，有限の観測データ数に対して得られる経験的なコスト関数に対して最適なパラメータが，観測データ数が無限大に近づく際に得られる漸近的なコスト関数に対して最適とは限らない．つまり，手元にある観測データに対してよく当てはまるように見えた統計モデルが，将来の観測データに対してはよく当てはまらない，といったことが起き得る．これが過学習と呼ばれる問題である．このほか，局所解の問題がある．複雑な統計モデルのコスト関数の最適化は，しばしば非線形最適化となって解析解が得られない．そのため反復解法がとられるが，それによって局所解に陥る可能性が生じる．また，「Deep Learning（深層学習）」〔第 7 回〕

コントラスティブダイバージェンス法とその周辺

Contrastive Divergence and Related Topics

前田　新一

京都大学大学院情報学研究科

Shin-ichi Maeda Graduate School of Informatics, Kyoto University.

[email protected], http://ishiilab.jp/member/ichi/

Keywords:

deep neural network, autoencoder, restricted boltzmann machine, pre-traning, contrastive divergence.

連載解説

＊1 大量のデータによる学習（最適化）を可能とする計算機の発達や計算技術も忘れてはならない存在である．これについては第 3 回の解説 [岡野原 13] に詳しい．

(2)

多層 NN は異なるパラメータによって同一の統計モデルを表現可能な冗長性を有する．このような統計モデルは特異モデルと呼ばれるモデルの一種であり，プラトー（plateau）というコスト関数が平坦になる領域ができてしまうため，勾配法が停滞するという困難が生じる．これらの問題は，最適化する統計モデルに制約を加えたり，学習方法を工夫したりしない限り，統計モデルのパラメータが高い自由度や冗長性をもつほど顕著に現れる傾向がある． 1･2 過学習や局所解・プラトーによる学習の停滞を避けるための既存手法この過学習や局所解の問題を解決するために，さまざまな方策が提案されてきた．過学習に対する方策の一つは，単純に自由度の低い統計モデルを利用することである．音声認識や画像認識などの分野においては，メルケプストラムや SIFT（Scale-Invariant Feature Transform）といった特徴量が伝統的に使われるように，それぞれの分野で認識に関する重要な情報をもつ低次元の特徴量が求められてきた．一度，低次元の特徴量を決めてしまえば，その低次元の特徴量を入力とする統計モデルの自由度を低くすることができ，過学習のリスクを減らすことができる．一方で，人手で低次元の特徴量を抽出する代わりに，主成分分析などの教師なし学習が使われることもある．教師なし学習では，高次元の観測データを低次元空間上で表現することを目指す．図 1 左では，教師なし学習のモデル構造と観測データとして椅子の二次元画像が与えられていた場合の例を示している．二次元画像は，ピクセル数分の次元をもつ高次元データとなる．しかし，その椅子の画像が地面に垂直な軸上を回転させて得られる画像でしかなかった場合，実質的には一次元の回転の自由度しかもたない．教師なし学習では，そのような観測データに内在する構造を抽出する．この教師なし学習の手法によって観測データの冗長性を削減し，より低次元の特徴量を抽出したうえで教師あり学習をするといった手法がしばしば行われる．一方，局所解への落込みを避けるアプローチとしては，コスト関数を凸関数として効率的な最適化を行うことも提案されている．スパース最適化やカーネル法は，その代表である．プラトーでの学習の遅滞を防ぐ学習法としては，統計モデルのなす多様体の自然な計量を考慮した自然勾配法が提案され多層 NN の学習に適用されている [Amari 00]．特異モデルである多層 NN においては，単純な勾配法による最適化はプラトーの存在によってうまくいかないため，このような最適化の工夫が非常に有効に働き，現在も活発に研究がなされている [Dean 12, Martens 10, Sutskever 13]． 1･3　事前学習という新たな解決法過学習を避けたり，局所解を避けたりするために，入力である観測データから低次元特徴を抽出する学習が行われることを述べた．CD 法は、その低次元特徴の学習を行う教師なし学習に利用される＊2_{．ここでは，事前学} 習の先駆的な研究である [Hinton 06b] にならって，自己符号化器として多層 NN を教師なし学習させるための事前学習について述べる＊3_{．多層 NN による自己符号化器} の教師なし学習は，主成分分析では線形変換によって行われた入力変数の冗長性の削減を，多層 NN による非線形変換によって行うものと解釈することができる．教師なし学習を教師あり学習に先立って行うこと自体は新しくないが，自己符号化器の学習を層ごとに分割して CD 法によって事前に学習する方法が新しく提案され，これが事前学習（pre-training）と呼ばれている [Hinton 06b]．教師なし学習によって得られた多層 NN の利用のされ方はさまざまである．図 1 右のように，上位層に教師信号を模擬した出力を行う出力層を加えた多層 NN と二次元画像 p（y｜x）＝p（y｜h（L）_（x）） h（L） h（1） x h（L） h（1） x y p（x） 図 1 多層 NN による特徴抽出を用いた教師なし学習（左）と教師あり学習（右）． 一般に，教師なし学習は確率密度関数 p（x）の学習に，教師あり学習は条件付き確率密度関数 p（ y｜x）の学習に置き換えられる ＊2 ただし，CD 法は教師あり学習にも適用できる．

＊3 事前学習は，その他にも Deep Belief Network [Hinton 06a] や Deep Boltzmann Machine [Salakhutdinov 09] という多層

(3)

して，教師あり学習によって再度，多層 NN 全体の学習が行われることもあれば，教師なし学習で得られた多層 NN のパラメータは固定して，その多層 NN によって出力される低次元特徴のみが後段の教師あり学習の入力として利用されることもある．例えば，学習された多層 NNの出力を SVM の入力として教師あり学習する手法 [Glorot 11, Lee 09]やガウシアンプロセスの共分散カーネルに利用する手法 [Salakhutdinov 07] が存在する．ここで，公平のために事前学習が過学習や局所解を避けるための最善の方法とは必ずしもいえないことを述べておく．最近の研究 [Ciresan 10, Ciresan 12, Ciresan 13, Martens 10, Seide 11, Wan 13] を見てわかるように，CD 法を含めた教師なし学習による事前学習に頼らずとも教師あり学習のみで高いパフォーマンスを発揮することが可能であることが示されている．ただし，そのような場合には， 1）制約された構造をもつモデル，2）最適化・学習則に対する工夫，3）大量のデータによる学習＊4_，の大きく分けて 3 通りの方法のいずれか，もしくはそれらの組合せが用いられる．具体的には，制約された構造をもつモデルとは，画像認識であれば入力画像内の位置にあまり依存しない重みパラメータを用いた畳込みニューラルネットワーク，音声認識であれば入力音声内の時間の遅れにあまり依存しない重みパラメータを用いたリカレントニューラルネットワーク，といった構造を指し，最適化・学習則に対する工夫とは，コスト関数の二次微分を考慮したり，Dropout や DropConnect と呼ばれる学習させるパラメータに対して制限を加えたりする工夫を指す．他方で，自由度の高い多層 NN の学習において，依然として CD 法などの事前学習の有効性を示す研究が存在する [Dahl 12, Erhan 10, Hinton 06b]．

2．自己符号化器（autoencoder）の学習

本章では，入力の低次元特徴の抽出のため自己符号化器の学習について述べる．CD 法は，直接，多層 NN で構成される自己符号化器の全体を学習するのに用いるのではなく，多層 NN で表される自己符号化器を二層ごとに分割し，それぞれの二層間のネットワークを学習するのに用いられる．このとき，自己符号化器を表す多層 NNは決定論的な非線形関数を表現するのに対して，二層間のネットワークの学習の際にはボルツマンマシンという確率モデルを表現するものとして扱う，という違いがあることに注意する．本章では，まず決定論的な関数として多層 NN を利用する自己符号化器について 2･1 節で述べ，その二層間の学習について2･2∼2･4節で述べる． 2･1　自己符号化器とそのコスト関数の定義自己符号化器は，符号化器と復号器を直接につないだ砂時計型ネットワークとして構成される（図 2 参照）．砂時計型ネットワークは，入力次元より低次元の特徴に変換するため，いったん，入力の情報を減らさざるを得ない構造をもつ．この入力を低次元特徴へ変換するプロセスを符号化と呼び，その低次元特徴からもとの入力を復元するプロセスが復号化と呼ばれる．元の入力変数の情報をできるだけ復元するような学習によって入力変数が中間層の変数にコンパクトに表現されることが期待される．ここで，記法を整理する．まず，図 2 左の自己符号化 器では，入力変数 x と出力変数の関係が多層 NN に よって次のように決定論的に表現される．入力変数を n 次元ベクトル x，入力層から直接入力を受ける中間層の 最初の隠れ変数を m 次元ベクトル h（1）_{で表すと，h}（1）_＝ sig（W（1）_x_＋b（1）_{）が成り立つ．ここで，sig（x）はシグ} モイド関数 1 /（1＋exp（−x））を表し，入力変数がベクト ル x の場合，sig（x）は x の各要素それぞれにシグモイ ド関数を作用させるものとする．W（1）_，b（1）_{はそれぞれ} m×n 行列，m 次元ベクトルのパラメータであり，それ らをまとめてパラメータθ（1）_{で表す．同様に，隣接する} 中間層同士の関係は h（l）_＝sig（W（l）_h（l−1）_＋b（l）_）で書け る．中間層の隠れ変数の次元は，真ん中の h（L）_で最も 低くなり，ここに入力 x の情報を圧縮表現した特徴が現 れるとされる．そのため，入力 x から始まって h（L）_を 出力するところまでを符号化器（encoder），h（L）_＝f（x） と，h（L）_{から始まって出力を出力するところまでを復} 号器（decoder），＝g（h（L）_{）と呼ぶ．ここで，しばしば，} 多層 NN の自由度を下げるため符号化器と復号器のパラメータは独立に求めるのではなく互いに対称な関係をも つように制約される．典型的には，{W（L＋i）_}T_＝W（L−i＋1）_，

b（L＋i）_＝b（L−i＋1）_{（i＝1, …, L）という制約が置かれる．}

ここで行列 W（L＋i）_{の右肩の添字の T は行列の転置を表} す．行列の転置が使われる理由については後述するが， ＝g（h（L）_） h（L）_＝f（x） h（2L−1） h（L） h（1） x x _x 図 2　多層 NN による自己符号化器の構成＊4 しばしば，過学習を避けるために観測データに人工的なひずみやノイズを加えて擬似的に観測データ数を増やすといったことも行われる．

(4)

RBMとして学習したパラメータを利用する際に自然な形式となるためである．自己符号化器では，このような符号化器と復号器から ならネットワークを出力が入力 x そのものに近くなる ように学習を行う．（1） ただし，q（x）は観測データを生成する真の分布を表し， 〈･〉q（x）は分布 q（x）による期待値を表す．通常，真の分 布 q（x）は不明であるので期待値はサンプル平均に置き 換えられ，確率勾配法による最適化が行われる．コスト 関数 C（x, ）には，典型的には入力が連続値であれば 二乗誤差が，離散値であればクロスエントロピーがよく 用いられる．入力 x とその低次元表現からの再構成が ＝g（ f（x））のような決定論的な関係をもつ場合，相 互情報量は I[x; ]＝〈log p（x｜）〉q（x）＋const と書ける ため，このコスト関数 C の選択は分布 p（x｜）の選択 を意味するものと解釈できる＊5_{[Vincent 10]．} 2･2 層ごとの貪欲学習を用いた自己符号化器の学習多層 NN を用いた入力の冗長性削減＊6_{の手法は，第} 2回の解説 [麻生 13] の 5･4 節にあるとおり，以前から提案されている手法が存在するが，多層 NN の自由度の高さゆえの過学習を防ぐことが難しかったり，プラトーによる学習の遅滞が発生したりするため，実用的な問題に使われているとは言いがたい状況にあった．それが， [Hinton 06b]の研究を端緒として，この自由度の高い統計モデルである多層 NN において，図 4 左のように，始めに層ごとの貪欲学習（greedy layer-wise training）を行ってから多層 NN の学習を行うことで，過学習のリスクを減らし，学習性能を大幅に向上させることができることがわかった．これによって多層 NN の学習が実用的なものとなり，多くの応用研究を生んだ．この層ごとの貪欲学習を行うアルゴリズムに利用されるのが CD 法である．ここで，もう一つの重要な問題であるプラトーの問題について言及しておく．層ごとの貪欲学習には，多層 NNのうちの隣接する二層のみからなる RBM が用いられる．この RBM はもとの多層 NN に比べると表現能力が小さいため過学習のリスクが抑えられるが，これと同時にプラトーの問題が緩和される可能性がある．なぜなら RBM を含む EFH は，隠れ変数に関する周辺化を行ってもその実効次元（expected dimension）が保存されるという意味で同定可能なモデルであることが代数学的解析により推測 [Cueto 10] されているからである．ただし，多層 NN の学習に戻れば，やはりプラトーによる学習の遅滞が問題となる．最近の研究ではこれについても学習則の工夫によって，学習を高速化できることが示されている [Martens 10, Sutskever 13, Wan 13]．

§ 1 リストリクティッドボルツマンマシン　　（Restricted Boltzmann Machine：RBM）層ごとの貪欲学習では，多層 NN で構成される自己符号化器の隣接層間を別々のリストリクティッドボルツマンマシン（Restricted Boltzmann Machine：RBM）とみなして下層の RBM から順に学習を行う．RBM とは， 可視変数（visible variable）v, からなる層と隠れ変数 （hidden variable）h, からなる層の二層から構成され， 同じ層内の変数同士に結合がない特殊なボルツマンマシンである（図 3 参照）．CD 法は，この RBM の学習アルゴリズムである．ここでは，説明を具体的にしてわかり やすくするため，可視変数，隠れ変数をそれぞれ v∈{0, 1}n_{, h∈{0, 1}}m_{のような離散変数とする}＊7_． RBMは，次の確率モデルで表現される．（2）ここでθ＝{W, b（1）_{, b}（2）_}_{は最適化すべきパラメータである．} パラメータ W はしばしば結合重みや，単に結合，重み と呼ばれ，行列で表される．ボルツマンマシンの構造を ネットワークの形で図示する際，W の第（i, j）要素で ある wijが恒等的にゼロでない変数 i, j 間にエッジを書 き，恒等的にゼロとする変数 i, j 間にはエッジを書かな い．式（2）の exp の内側は，簡単なベクトルや行列の 演算で容易に評価可能であるが，分布 p（v, h｜θ）の評価には正規化定数を計算する必要がある．正規化定数の 計算には v, h の組合せ，すなわち，2m＋n_{の和の計算が} 必要となるため m, n が大きくなると実質的な計算が不 可能となることに注意する．RBM は，同一層内の変数間に結合をもたないため，条件付き確率分布が次のよう , , ＊5 入力情報の損失を許した圧縮を行う場合，どのような情報の損失が識別性能に影響を及ぼすかはどのような教師信号を出力として推定したいかに依存する．言い換えると，教師信号が与えられていない状況ではどのような入力の情報が教師信号の情報との相互情報量を保存するかは不明である．そのため，教師信号の与えられない教師なし学習のフレームワークではどのコスト関数が良いかを議論することは難しい．＊6 冗長性は，入力ベクトルの要素間相関によってもたらされる予測可能性の程度を意味し，画像や音声であれば時間的・空間

的な（あるいはスペクトル間の）強い相関を指す．＊7 連続変数の場合の取扱いについては，文献 [Bengio 07, Teh 03, Welling 05]を参照のこと．

h x 図 3 RBMや EFH のグラフィカルモデルによる表現可視変数と隠れ変数との間にのみエッジがあり，可視変数同士，隠れ変数同士にはエッジが存在しない , v h h Wv b h b v

(5)

に独立となる重要な特徴を有する．（3）さらにそれぞれの要素の条件付き確率分布は，（4） で与えられる．ここで，vi, bi（2）は v, b（2）の第 i 要素で あり，hj, b（1）j は h, b（1）の第 j 要素である．vi∈ {0, 1}, hj∈ {0, 1}であるので，これら条件付き確率分布の期待 値のベクトル表記は＝〈h〉p（h｜v）＝sig（Wv＋b（1）），＝ 〈v〉p（v｜h）＝ sig（WTh＋b（2））となり，自己符号化器に用いられた多層 NN の決定論的関数と対応している．つま り，RBM で定義される可視変数 v と隠れ変数 h の同時 分布から得られる可視変数 v の周辺分布に従って，v が 生成されると考えるのであれば，は可視変数 v が与え られたもとでの隠れ変数 h の推定値として解釈できる． 同様に隠れ変数 h が与えられたもとでの可視変数 v の推 定値は，で与えられる．

§ 2　Exponential Family Harmoniums（EFH） 任意の分布 p（v, h｜θ）は，p（v, h｜θ）∝ exp（−Φ（v, h｜θ））となるエネルギー関数Φ（v, h｜θ）によって特徴づけることができる．一般に，式（3）のように条件付

き分布が独立になる分布は，以下のエネルギー関数Φ（v,

h｜θ）をもつ [Hinton 06a, Welling 05]．

（5）ここで，φij（vj, hi｜wij），αi（hi｜b（1）i ），β（vj j｜b（2）j ）は任 意の関数で，wij, b（1）i , b（2）j をそれぞれパラメータとしてもつ．パラメータはまとめてθと表記する．このとき条件付き分布は，と書け，条件付き独立であることが確かめられる．式（5）のエネルギー関数をもつモデルは，Exponential Family Harmoniums（EFH）と呼ばれ，RBM をその特殊な場合に含む．以下の議論は，EFH 全般に対して成り立つので，以下ではこのポテンシャル関数による表現を用いる．なお，以後，ポテンシャル関数φij（vj, hi｜wij）， α（hi i｜b（1）i ），β（vj j｜b（2）i ）を適宜，φij, αi, βjと略記する． さて，この EFH を可視変数 v の T 個の観測データ v1, …, vT＊8をもとに推定することを考えよう．そのコスト関数として Kullback-Leibler 距離（KL 距離）， KL[q（v）｜p（v｜θ）]を考える．真の分布 q（v）とパラメー タθで表現されるモデル分布 p（v｜θ）（ここでは EFH で表現される分布）の KL 距離は以下のように書ける．（6）パラメータθに依存するのは第 2 項のみであるが，第 2項の期待値をサンプル平均で置き換えた場合には対数尤度と一致するため，KL 距離最小化はサンプル近似の もと対数尤度最大化と等価になる．モデル分布 p（v｜θ） をなるべく真の分布 q（v）に近づけるため，KL 距離の パラメータθに関する最小化を勾配法によって行うこと を考えよう．一般の分布 p（v, h｜θ）∝ exp（−Φ（v, h｜θ））に対して，θによる〈log p（v｜θ）〉q（v）の微分は，（7） となる．EFH の場合の wijに関する微分は，（8） となる．式（8）の第 1 項は，真の分布 q（v）による期 待値をサンプル平均で置き換えることで近似可能である．このサンプル平均による近似が行われているという 代わりに，q（v）に経験分布を利用したといっても同じ ことであるので，以降は q（v）を経験分布と同一視する． 一方，第 2 項 は，分布 p（vj, hi｜θ）の評価が実際上難しいため計算が困難となる．この第 2 項を近似する手法に，平均場近似 [Opper 01, Welling 03]や後述のマルコフ連鎖モンテカルロ法がある．CD 法は，マルコフ連鎖モンテカルロ法の一種であるギブズサンプリングによる期待値計算を簡略化した計算手法と考えることができる．そこでまずギブズサンプリングについて説明する．＊8 多層 NN による自己符号化器においては最下層以外は観測データが得られないが，その際は直下の層の EFH において p（ht｜vt）に従って生成されたサンプル，もしくは期待値 （t＝t 1, …, T）を観測データとする． v h v h v h v h v h v h v h v v v v v _v v v v v v _v v hv v h v h v h v v

(6)

§ 3　ギブズサンプリング（Gibbs Sampling）マルコフ連鎖モンテカルロ法は，所望の分布からサンプルを取得するための手法である [bishop 06]．しかし，マルコフ連鎖モンテカルロ法は，所望の分布からの独立なサンプルを得る通常のモンテカルロサンプリングとは異なり，独立なサンプルが得られるわけではない．マルコフ連鎖モンテカルロ法では，マルコフ連鎖と呼ばれる 前回のサンプル x′に依存した条件付き分布 p（x｜x′）に よって新たなサンプル x を生成する．このマルコフ連鎖 が所望の分布を定常分布にもつように条件付き分布を構築し，マルコフ連鎖を定常分布に収束させることで定常分布からのサンプルが得られる．定常分布π（x）は，次 式を満たす分布として定義される．（9）定常分布は，マルコフ連鎖が既約，すなわち，任意の状態から始まって任意の状態へ将来，到達可能であり，かつ非周期的であるなら必ず存在し，それは唯一に定まる．さらに，このときマルコフ連鎖は初期分布に依存せずに定常分布に収束する．以降，ここで考えるマルコフ連鎖が既約かつ非周期的であると仮定して議論を進める．マルコフ連鎖モンテカルロ法では，所望の分布を定常分布とするようなマルコフ連鎖を構築する必要があるが，その構築に有用な条件に詳細つり合い条件（detailed balance condition）がある．（10） ここで p（x｜x ′）と p（x ′｜x ）は，それぞれ p（X＝x｜ X′＝x′）と p（X＝x′｜X′＝x）を略記したものであり，同 一の条件付き分布 p（X｜X ′）の確率変数 X（あるいは X′） に異なる実現値 x と x′を代入したものであることに注意 する．もし，上記のような分布 p（x）が存在したならば， p（x）は定常分布π（x）に一致する．証明は簡単で，式 （10）の両辺を x′に関して和を取る周辺化を行えば式（9） が直ちに導かれる．逆に，式（9）を満たすπ（x）によっ て p（x）＝π（x）を決めたとしても，その p（x）は必ず しも式（10）の詳細つり合い条件を満たすとは限らな い．また，式（9），（10）における p（x），π（x）はそれ ぞれ正規化定数を省いた関数（x）∝π（x），（x）∝ p（x） に置き換えることができる．つまり，正規化定数が未知 のままでも正の値をとる関数（x）とマルコフ連鎖 p（x′ ｜x）に対して詳細つり合い条件が成り立つなら，（x） を正規化した分布が定常分布となることがいえる．これは，式（9），（10）の両辺を 0 でない定数で割っても成 り立つことと，正規化定数を省いた関数（x），（x）か ら一意に確率分布 p（x），π（x）が求まることから明らか であろう．マルコフ連鎖モンテカルロ法の中心的な手法であるメトロポリスヘイスティングス法（Metropolis-Hastingsalgorithm：MH 法）は，「採択」の概念を導入し，採択された場合のサンプルのみに対して詳細つり合い条件が成り立つようにマルコフ連鎖を構築する．サンプルを得たい所望の分布（必ずしも正規化されている必要は ない）を（x）とすると，現在のサンプル x′から次のサ ンプル x を得るマルコフ連鎖は，次のように実現できる． メトロポリスヘイスティングス法 1．現在のサンプル x′から提案分布 p（x｜x′）に従っ てサンプル x* を得る． 2．採択率 A（x*, x′）で x ＝ x* を採択し，確率 1− A（x*, x′）で棄却する． ここで，採択率 A（x, x′）は次式で定義される．（11） 提案分布 p（x｜x′）にはサンプリングが可能であればどのような分布を選ぶことも可能ではあるが，採択率やマルコフ連鎖の収束性は変わるため，適切な選択が求められる．採択されたサンプルが詳細つり合い条件を満たすことは容易に確認できる． ギブズサンプリングは，所望の分布 p（x）が多変数の 同時分布であるときに用いるものであり，MH 法におけ る提案分布 p（x｜x′）を所望の分布 p（x）の条件付き分 布とするものである．具体的には，以下のように現在の サンプル x′＝[x′1, …, x′n]Tから次のサンプル x＝[x1, …, xn]Tを生成する．ギブズサンプリング 1．要素 i（1 ≤ i ≤ n）をランダムに選択する． 2．選択された要素 xiを条件付き分布 p（xi｜x1, …, xi−1, x′i＋1…, x′n）からサンプルし， x の i 以外の 要素は x′と一致させる． 上記の条件付き分布 p（xi｜x1, …, xi−1, x′i＋1…, x′n）から サンプルするステップにおいては，採択率 A（x*, x′）が必ず 1 となるため，採択のステップは省かれている．実際上は，上記の要素を選択するステップ 1 は必ずしも確率的な選択ではなく，単に要素番号の順に決定論的に選ばれることが多い．これはマルコフ連鎖が非周期的であるという条件を満たさないが，実用上は，問題を生じない． § 4　EFH のギブズサンプリングによる学習さて，EFH の学習に戻る．KL 距離の最小化を勾配法で行うためには，式（8）の第 2 項の評価が必要となることとを述べた．第 2 項 の評価には，EFH のモデル分布の周辺分布 p（vj, hi｜θ） x x x x x x x x x x x x x x x x x x x x x x

(7)

による期待値計算を行う必要がある．ここで，モデル分 布 p（v, h）からのサンプル v′, h′が得られれば，その周 辺分布 p（vj, hi｜θ）からのサンプルは多次元のサンプル v′, h′から要素 v′j, h′iを抽出することで直ちに得られる．そこで，先ほどのギブズサンプリングを用いてモデル分 布 p（v, h）からのサンプルを行い，そのサンプル平均で 期待値を近似することを考える．EFH においては，可視変数間，隠れ変数間の結合がなく，式（3）の条件付 き独立性が成り立つため，可視変数 v と隠れ変数 h をそ れぞれ p（v｜h），p（h｜v）に従ってサンプルすることが 容易である．そのため，ギブズサンプリングは，変数 v と変数 h をそれぞれ交互に p（v｜h），p（h｜v）に従った サンプリングを繰り返すことで実現できる．モデル分布 p（v, h｜θ）が，ギブズサンプリングを無限回，繰り返した後に収束する定常分布であることを明示するために， p（∞）_{（v, h｜}_θ_{）と表記すると，式（8）は，} （12）と書ける．層内の変数間の結合をもたない EFH は，ギブズサンプリングが容易である．しかし，先に述べたようにマルコフ連鎖モンテカルロ法は，マルコフ連鎖が定常分布に収束するまでサンプリングを繰り返さなければならない．これには，いつ定常分布に収束したと判断するかの実用上の問題がある．しかも，この定常分布への収束は，パラメータθを更新するたびに必要となるため，パラメータを収束させるまでに必要な計算時間が長くなりすぎる問題がある．

3．コントラスティブダイバージェンス法（CD 法）

3･1　EFH の CD 法による学習エネルギー関数が式（5）で与えられる EFH の対数尤度のパラメータθに関する勾配計算に EFH のモデル分布による期待値計算が必要となり，その期待値はギブズサンプリングで近似できるものの，計算時間の点で問題があることを述べた．そこで，これを簡略化した計算で済ませるのが CD 法である．CD 法は，収束するまで（理論上は，無限回）繰り返す必要のあるギブズサンプ リングを k 回（k は小さな正の整数で，典型的には k＝1） だけ行うという単純なものである．CDk法を k 回のギブズサンプリングで打ち切った学習法であるとすると， CDk法は，以下で与えられる．（13）ここで，p（k）_{（v, h｜}_θ_）_{（k ≥ 0）は，初期分布を経験分} 布 q（v）と条件付き分布 p（h｜v, θ）の積，p（0）_{（v, h｜}_θ_） ＝q（v）p（h｜v, θ）としてギブズサンプリング によって更新される分布を指す．初期分布 p（0）_{（v, h｜}_θ_）による期待値は観測データによるサンプル平均で計算される．理論上は，無限回のギブズサンプリングが必要だったものが，たった 1 回で置き換えられれば計算がずいぶん，早くなることは容易に理解できるであろう．しかし， CD法は計算が早いだけでなく，性能もあまり低下しないためトータルで見るとコストパフォーマンスが非常に高い．なぜこれでもうまくいくのか，という疑問についていくつかの解析があるので次節でそれらについて紹介する． 3･2　CD 法が最適化しているコスト関数 § 1　対数尤度の展開とコントラスティブダイバージェンス対数尤度のパラメータ微分を近似するものという視点から CD 法を理解する試みがなされている．Bengio と Delalleau [Bengio 09]は，モデル分布 p（v, h｜θ）が， その条件付き分布 p（v｜h, θ）と p（h｜v, θ）を用いた級数で展開できることを示した．具体的には，条件付き分 布 p（v｜h, θ）と p（h｜v, θ）から構成されるギブズサンプリングを考える．これらの条件付き分布からのギブズサンプリングによって得られるサンプル系列をサンプ ルされた順番を区別して，v（0）_{→ h}（0）_{→ v}（1）_{→ h}（1）_,_…, → v（k＋1）_{のように表す．ただし，v}（0）_{は，観測データを} 実現値とする可視変数 v とする．このとき，下記が成り 立つ． ただし，条件付き分布 p（v｜h, θ），p（h｜v, θ）がともに計算可能かつサンプリングが容易なモデルは EFH のような特殊なモデルに限られることに注意する．これを用 いると，対数尤度 log p（v（0）_｜_θ_{）は以下のように展開さ} れる．（14）両辺をパラメータ微分して，ギブズサンプリングのサンプル系列に関して期待値をとって整理すると， v v v h v v v h v h v h v h v h v h v v v h h h v h v v h h （14）（14）（14）（14）（14）（14）（14）（14）（14）（14）（14）（14） v v v v v v v v v v v v v v v v v h h h h h h h h h h h h h h h h h h v h v h v h v h v h v h v h v h v h v h v h v h v h v h v v h v v h v （14） v （14） h

(8)

（15） が得られる．ここで E[･｜v（0）_]_{は，初期状態が v}（0）_から始まるギブズサンプリングで得られる系列に関する期待値，すなわち，p（h（0）_｜v（0）_,_θ_）p（v（1）_｜h（0）_,_θ_）…p（v（k＋1）_｜h（k）_,_θ_）に関する期待値を意味する．Bengio と Delalleau は， EFHに対してこの級数展開の最後の項を無視してパラ メータ wijの更新則を導出すると，CDk法が得られることを示した．すなわち，（16） となる．この級数展開において k が大きくなるにつれて， 最後の項や内の各項が 0 に近づくため，k が大きいほ ど CDk法が KL 距離（尤度）の微分に基づく更新則の良い近似であることがいえる．一般に，推定量と真値との間の平均二乗誤差は，バイアス（偏り）とバリアンス（分散）の和で表現される．上記の級数展開は，CD 法がどのようなバイアスをもたらすかを示す．一方のバリアンスについては，CD 法はギブズサンプリングを 1 回しか行わないため，通常のギブズサンプリングに比べてバリアンスを小さくできるメリットがある． § 2　コントラスティブダイバージェンス CDk 対数尤度のパラメータ微分を近似する手法として CD法を解釈するのではなく，そもそも異なるコスト関数を最適化する手法として解釈する試みがなされている．CD 法を提案した Hinton は，これは近似的に以下のコントラスティブダイバージェンス（contrastive divergence：CD）を最小化するものである，と述べている [Hinton 02]．（17） ここで，p（∞）_（v｜_θ_），p（k）_（v｜_θ_{）はそれぞれ，EFH のモ} デル分布 p（∞）_（v｜_θ_{），初期分布を経験分布 q（v）として} ギブズサンプリングを k 回，行った分布 p（k）_{（v, h｜}_θ_）の 可視変数 v に関する周辺分布である．コントラスティ ブダイバージェンス CDkの最小化は，経験分布 q（v）から始まるギブズサンプリングによって得られる分布 p（k）_（v｜_θ_{）が q（v）から離れないように間接的に要請す} る．既約で周期的なマルコフ連鎖が唯一の定常分布をもち，初期状態によらずその定常分布に収束することを述 べたが，既約で周期的なマルコフ連鎖において p（0）_（v｜_θ_）＝p（k）_（v｜_θ_{）であれば，p}（0）_（v｜_θ_）＝p（k）_（v｜_θ_）＝p（∞）_（v｜_θ_）を意味する．したがって，ギブズサンプリングによっ て初期分布の q（v）から全く離れない場合，すなわ ち，p（0）_（v｜_θ_）＝p（k）_（v｜_θ_{）＝ q（v）であれば，モデル分布} p（∞）_（v｜_θ_{）は経験分布と一致，すなわち，p}（∞）_（v｜_θ_）＝ q（v）となり，CDkはゼロとなる．また，分布はギブズサンプリングを繰り返すたびに定常分布に近づいていくので，k 回のギブズサンプリング後の分布 p（k）_（v｜_θ_）と 定常分布 p（∞）_{の KL 距離は初期分布 q（v）と定常分布} p（∞）_{の KL 距離より小さい．すなわち，CD} kは常に非負となる [Hinton 02]．このようにコスト関数 CDkは，コスト関数として合理的な性質を有する．しかしながら， CDkをパラメータ wijで微分したものは，式（13）と完全に一致するわけではない．コスト関数を CDkとした ときの勾配法によるパラメータ wijの更新則は，となり，第 3 項，第 4 項を無視することで初めて式（13） の CD 法の学習則に一致する．ここで，第 3 項の H（p（v）） ≡ v p（v）log p（v）は分布 p（v）のエントロピーを表す． 第 3 項，第 4 項を無視する理論的な根拠は明示されていないものの，Hinton は，経験的に第 3 項は小さいことがわかっているため無視してよいと述べている [Hinton 02]＊9_．

§ 3　Detailed Balance Learning（DBL）アルゴリズムコントラスティブダイバージェンスとは別のコスト関 v v v h v v v v h v v h v v v h v h v h v v v v h v v v v v v v v v v h v h ＊9 論文 [Hinton 02] では，第 4 項が存在しないかのように扱われているが，その理由は定かではない．

(9)

数によっても，CD 法が解釈できることが提案されている．往々にして，学習の問題は，パラメータの推定問題に帰着される．この際，必ずしも真の分布を近似するモデル分布そのものやモデル分布からのサンプルを知る必要はない．この項と次項で説明する手法は，まさしくそのパラメータ推定に特化するものであり，この評価困難な正規化定数を含むモデル分布や，その分布からのサンプルは求めない．マルコフ過程の定常分布を所望の分布に近づけるためのパラメータ学習を行うことを考える．この定常分布はパラメータによって特徴付けられるものの，直接の評価が難しいとする．ここで，既約で非周期的なマルコフ連鎖を定めると，マルコフ連鎖の定常分布が唯一に定まることを思い出すと，定常分布のパラメータを最適化する代わりに，その定常分布を生成するマルコフ連鎖のパラメータを最適化できる可能性があることに気が付く．そのマルコフ連鎖のパラメータを最適化することで間接的に，定常分布を所望の分布に近づけようというのが Detailed Balance Learning（DBL）アルゴリズムである [前田 09]． 真の分布（経験分布）q（v）を定常分布にもつような 詳細つり合い条件は，（18） で与えられる．これに隠れ変数 h を加えた，より厳しい 詳細つり合い条件を考えることもできる．（19） 式（19）は，両辺を h に関して周辺化すると式（18） と一致する．式（19）は，任意の h に対して成立する ことを要請するため，式（18）より厳しい条件を考えていることがわかる．いずれにせよ，これらの詳細つり合 い条件の成立は，真の分布 q（v）が定常分布であること を保証する．そこで，マルコフ連鎖がこれらの詳細つり合い条件を満たすことを奨励するコスト関数として以下を考える．（20） ここで，p（v′, h｜v, ）＝p（v′｜h, θ）p（h｜v, θ），p（v, h｜v′, θ）＝p（v｜h, θ）p（h｜v′, θ）である．式（20）のコスト関数は，KL 距離の性質から任意のパラメータθ, に対して F（θ, ）≥0 であり，F（θ, θ）＝0 となるのは，q（v）に 対して詳細つり合い条件が成り立つときのみ，すなわち， 少なくとも q（v）＝p∞（v｜θ）が成り立つときのみとなる．実は，逆もまた真となる．すなわち，パラメータθにお いて q（v）＝p∞（v｜θ）が成り立つならば，そのパラメータθで特徴付けられるマルコフ連鎖は，式（19）の詳細つり合い条件を満たす．これらの性質から，コスト関数 F（θ, θ）が小さくなるようパラメータθを学習することに一定の合理性があることがわかる． しかしながら，F（θ, θ）には，未知の分布 q（v）が含 まれるため直接の最小化は難しい．そこで次のような最小化アルゴリズムを考える．

Detailed Balance Learning アルゴリズム 1．t＝1 として，θ0, θ1に初期値を設定する． 2．F（θt＋1, θt）＜ F（θt−1, θt）を満たすθt＋1を求める． 3．終了条件を満たしたならばアルゴリズムを終了 し，そうでないならば t を 1 増やし，ステップ 2に進む． 上記のステップ 2 は，F（θ, θt）のθに関する最小化を必要とする．この最適化を確率勾配法によって行うために，パラメータ微分をとると となる．EFH の場合で，パラメータ wijに関する更新則を求めると，（21）のように，CD1法と同一のアルゴリズムが得られる．ただし，DBL アルゴリズムによるθの更新は，必ず しもF（θ, θ）を単調に減少させるとは限らない．F（θ, θ）の減少を保証するには，（22）という条件が必要となる．この条件の成立には，一般には成り立たない KL 距離の対称性，すなわち，KL 距離 の差分 KL[qt｜pt＋1]−KL[qt｜pt]が正であるとき，KL 距 離において分布を入れ替えた KL[pt＋1｜qt]−KL[pt｜qt]も正となる，という対称性が成り立つ必要がある．なお，CD 法のコスト関数 CD1（式（17））と DBL の コスト関数 F（式（20））には以下の関係が成り立つ． （23） KL距離やCD1は非負の値をとるので，式（23）はF（θ, θ）が CD1（θ）や KL[ p（1）（v｜θ）｜q（v）] の上限を与えること を示している． v v v v v v v v v v h v h v v v h hv v h v h v v v h v v v h v v v h v v v h v hv v v h v h v v v h v h v v v h v v

(10)

§ 4　Minimum Probability Flow（MPF）法

以上は，定常分布 p（∞）_（v｜_θ_{）のパラメータの学習を}

離散時間のマルコフ過程 p（v｜h, θ），p（h｜v, θ）のパラメータの学習に置き換えた見方であったが，これとよく似たアイディアの学習則が Sohl-Dickstein ら [Sohl-Dickstein 09, Sohl-[Sohl-Dickstein 11]によって Minimum Probability Flow（MPF）法として提案されている．こ れは，連続時間 t のマルコフ過程＊10_{を考えるものである．} 分布 r（t）_{（v）を時刻 t＝0 で真の分布（実際上は，経験分} 布）q（v）と一致し，時刻無限大で定常分布 r（∞）_（v）に 収束する分布とする．離散状態変数 v のとり得る値をす べて列挙してできるベクトルを用いて，分布 r（t）_（v）を ベクトル表記 r（t）_{しよう．このとき，r}（t）_{のダイナミク} スは，（24）のように表現される．ここで， t_{は r}t_{の時間微分，}_Γ はその要素がΓii＝− j≠iΓjiを満たす確率フロー行列で ある．確率過程は，定常分布 r（∞）_{（v）が EFH のモデル} 分布 p（∞）_（v｜_θ_{）と一致するように，確率フロー行列}_Γ_が定められる．これは，離散時間のマルコフ過程で考えた詳細つり合い条件と同様の条件を課すことで達成できる．（25） ここで，p（ ∞ ）i （θ）は r（t）（v）と同様に，モデル分布 p（∞）_（v｜_θ_{）をベクトル表記して得られるベクトル p}（∞）_（_θ_） の i 番目の要素である．式（25）によって，分布 r（t）_のダイナミクスを制御する確率フロー行列Γはパラメータ θによって特徴付けられる．ただし，Γは一意に決まるわけではなく，収束や計算が容易となるように適切に設定＊11_{される必要があることに注意する．式（25）の詳} 細つり合い条件を満たすために，以下のコスト関数 G（θ）を定義する．（26） ここで，分布 r（ε）_{（v）が，式（25）を満たす確率フロー} 行列Γを介してパラメータθによって特徴付けられるこ とを明示するために，r（ε ）_（v｜_θ_{）と書いた．}_ε_{（＞ 0）は} 微小量であり，分布 r（ε）_（v｜_θ_{）が連続時間の確率過程を t＝} 0から微小時間ε 進めて得られる分布であることを示し ている．このコスト関数 G（θ）は，確率過程を微小時間進めても初期分布である真の分布から変化しない，すなわち真の分布を定常分布にもつように確率過程のパラメータを定めることを要請する．式（26）の右辺をεについてテイラー展開することで，評価可能なコスト関数が得られる．ここでは詳細は省くが，コスト関数をパラメータ微分し確率勾配法による最適化を考えると，形式的には CD1アルゴリズムと類似した，しかし，異なるアルゴリズムが導出される． MPF法はコスト関数が存在し，そのコスト関数を観測データ数に比例するオーダの計算量で評価できるため，収束の判定や学習率の調整に利用することができ る．さらに，MPF 法のコスト関数 G（θ）は凸関数であることがいえるため，高速な学習が期待される．実際，この手法の適用によって，CD 法では尤度が最大化されずに途中で収束してしまうような問題が解消されたり大幅な学習速度の向上が確かめられたりしている [Sohl-Dickstein 09, Sohl-[Sohl-Dickstein 11]．例えば，二次元格子状のイジング模型の結合定数の学習においては，CD1法や CD10法と比べて 2 桁以上早い学習が可能であることが示されており，手書き数字のデータベースで有名な MNISTデータの自己符号化器の学習による再構成では，より高い推定精度での再構成が可能であることが示されている．この手法はそれほどポピュラーな存在ではなくあまり利用されていないが，今後の応用が楽しみな手法である．

4．その他の事前学習法

CD法が多層 NN の学習の事前学習に有効であると提唱されて以来，その有効性がさまざまなタスクで確かめられてきた．それと同時に，CD 法をベースとしてそれを改良した事前学習法や CD 法とは異なる新しい事前学習法が提案されてきた．ここで，そのいくつかを紹介する． 4･1　CD 法をベースとした事前学習法

平均場 CD（Mean-Field Contrastive Divergence）法 [Welling 02]は，RBM に平均場近似を適用して CD 法と同様の更新則を導くものである．一般に，平均場近似は，期待値計算の難しくなる複数の変数の交互作用項を変数間の交互作用のない（典型的には，変数間を独立とした）項で近似する＊12_{．RBM に対する平均場 CD 法では，} 計算困難な可視変数 v と隠れ変数 h の積の同時分布 p（v, h）に関する期待値を近似する．具体的な更新式は次式で与えられる．（27） ここで，h（1）i ，v（2）j ，h（2）i はそれぞれ，＊10 連続時間のマルコフ過程については，例えば [Van Kampen 07]の IV 章，V 章を参照のこと．＊11 彼らはΓの適応的な更新則や，より高速に動作すると思われる実装方法をノートの形で Web 上 http://redwood.berkeley. edu/jascha/pdfs/PMPF.pdfで公開しているので興味のある読者は参照されたい．＊12 機械学習においては，パラメータに関する事後分布の期待値計算や事後分布そのものの近似計算に同種の近似計算が用いられ，この近似法は変分ベイズ法と呼ばれる [Bishop 06]． r r v v h(1)_i = sig n_j=1wij v_{j q(v}_j₎+ b(1)i v(2)_j = sig m_i=1wjih(1)i + b (2) j h(2)_i = sig n_j=1wijv(2)j + b (1) i

(11)

を満たすように選ばれる．RBM に平均場近似を適用し た際には，〈vj〉q（v）のみを求めれば，h（1）i ，v（2）j ，h（2）i は決定論的に定まり，確率的なサンプリングに付随するばらつきが生じないので収束が速い．しかしながら，CD 法に比べて収束先のモデル分布の尤度が低くなる欠点をもつ．

パーシスタントCD（Persistent Contrastive Divergence： PCD）法 [Tieleman 08]＊13_{は，CD 法の更新式（13）を} ギブズサンプリングによる更新式（12）に近づけることを意図したものである．ギブズサンプリングによる更新式（12）では，第 2 項の期待値計算のためにギブズサンプリングを定常分布に収束させる必要があったのを， CD法の更新式（13）では初期分布を経験分布として 1 回のギブズサンプリングによるサンプルで代用する．パラメータを更新するたびに CD 法では，初期分布を観測データの経験分布に戻して改めてギブズサンプリングを行うため定常分布には近づかない．一方で，パラメータは勾配法によって少しずつしか更新されないので，定常分布はパラメータの更新によってそれほど大きく変わらないことが期待される．そこで，PCD 法ではパラメータの更新後に，与えられた観測データの経験分布に初期分布を戻すのではなく，その前のパラメータ更新に用いたサンプルを用いて，つまり初期分布を前回のパラメータ更新時に利用したギブズサンプリングのサンプル上に密度をもつ経験分布として，そこからギブズサンプリングを始める．これによって，同じ 1 回のギブズサンプリングであっても定常分布により近い分布からのサンプルによって期待値計算を近似できることが期待される．実際，計算量は CD1と同じであるが，学習性能は CD10法と比べて同等か若干良い性能を示すため，好んで用いられている．マルコフ連鎖の定常分布への収束のためには，実際には状態空間がマルコフ連鎖によってくまなく探索される必要がある．しかし，PCD 法のように特定のサンプル集団のみをマルコフ連鎖で更新する場合，そのサンプル集団が定常分布からのサンプルと異なることによるバイアスがなかなか解消されない可能性がある．そこで，状態空間内を偏りなく広い領域を探索させるために，しばしば複数の互いに異なる乱雑さ＊14_{をもつマルコフ連鎖} が並列して利用される．これをパラレルテンパリング（Parallel tempering）とか交換モンテカルロ（exchange Monte Carlo）法などと呼ぶ．こういった手法を PCD と組み合わせて使われることが提案されている [Cho 10, Desjardins 10]．これらの手法は，学習アルゴリズムの設定に必要なパラメータを増やしてしまう欠点があるものの，ある程度，適切に乱雑さなどのパラメータが設定されれば CD1や CD10，PCD 法よりも優れた学習性能を 発揮する．パラメータの W のほかに，“fast weight”と 呼ばれるより高い学習係数をもつパラメータ W′を同時 に学習させ，その“fast weight”の W′と通常のパラメー タ W の和をパラメータとする条件付き分布を用いたギ ブズサンプリングによって更新式（12）の第 2 項を計算するアイディア [Tieleman 09] も提案されているが，基本的には上記のようなマルコフ連鎖のより速い収束効果を狙ったものと考えることができる．それぞれの手法が提案された論文 [Cho 10, Desjardins 10, Tieleman 08,

09]で数値実験によるこれらの手法間の比較が行われているので参照されたい． 4･2　層ごとの自己符号化器による事前学習法事前学習は，教師なし学習による観測データ内の冗長性削減による次元削減で，後の教師あり学習における多層 NN の過学習を防ぐ効果が期待されると述べた．しかし，CD 法による事前学習での主な学習対象は RBM であって，RBM においては条件付き分布の期待値は多層 NN と同じくシグモイド関数で表現されるもの，入力変数と隠れ変数との間は確率的な関係で表現され，多層 NNを決定論的な関数として用いる教師あり学習のコスト関数とは間接的な関係しかもたない．教師あり学習とより直接的な関係をもつ学習を行うために，教師なし学習の時点で入力変数と隠れ変数の間の決定論的な関数関係を学習するものとして，層ごとの自己符号化器の学習がある．これは，多数のパラメータをもつ多層 NN を一度に学習することを避けて，隣接する二層ごとに区切って，自己符号化器を構成して学習するもので，積層自己符号化器（stacked autoencoder）と呼ばれる．図 4 中央に示すように，積層自己符号化器 [Bengio 07] ではまず入力層が再現できるように，入 力層を圧縮表現する中間層の表現 h（1）_{が学習され，次に} h（1）_{を圧縮表現するその上の中間層の表現 h}（2）_が学習され，といったように下層から順に自己符号化の学習が進む．この自己符号化器の学習は，2･1 節で述べたように再 構成誤差〈C（x, g（f（x）））〉q（x）の最小化として表されるが，これは EFH の対数尤度の近似的な学習とみなすこともできる [Bengio 09]．3･2 節 §1 において対数尤度は，式（15）のように展開されることを述べたが，この展開 は最後の項を v（k＋1）_{ではなく h}（k）_{とすることができる．} k＝0 としてこの展開を利用すると，対数尤度のパラメータ微分は＊13 ちなみに PCD 法と全く同じアルゴリズムが [Tieleman 08] より前に提案されている [高畠 07, Younes 89]．[Younes 89] は，深層学習の文脈とは無関係に 15 年前に統計の分野で発表されていたもので，アルゴリズムの収束の十分条件についても述べられている．この論文は，最近になって機械学習のコミュニティに認知されるようになった．[高畠 07] は，国内会議での発表であったため海外に知られていない．＊14 この乱雑さの程度を表すパラメータは，統計物理における焼きなまし（アニーリング）法との対応から温度と呼ばれる．

(12)

（28）のように書ける．ここで CD 法の場合と同様に最後の項 を無視し，観測変数 v（0）_{に関する期待値をとると} （29）が得られる．一方で，自己符号化器のパラメータ更新は（30）のように与えられる．ただし，（0）_は（0）_＝〈h（0）_〉 p（h（0）_｜v（0）_）である．上記の式（29）と式（30）はよく類似しており， 式（30）は，p（v（0）_｜h（0）_{）における変数 h}（0）_{の代わりに} その v（0）_{が与えられたもとでの平均} （0）_{を代入したもの} となっている．このように，変数にその平均的な値を代入して変数間の交互作用を無視して近似計算する手法を平均場近似と呼ぶが，式（30）も式（29）に平均場近似を適用したものと解釈できる．以上の解釈から，CD 法のほうが EFH の対数尤度の展開を 1 項多く展開しており，平均場近似の適用もないことがわかる．したがって， EFHの対数尤度の勾配法による学習則としては CD 法のほうが積層自己符号化器による学習則に比べて優れる v v h h v h v h ことが予想される．計算機実験では，実際，積層自己符号化器は CD 法と同等か，若干 CD 法に劣るといった結果が得られている [Bengio 07, Larochelle 07]．なお，同じ論文 [Bengio 07] において，教師あり学習を層ごとに行うことも試されている．これは，隣接する二層に出力層を加えた三層のパーセプトロン＊15_を下層から順に構築し，学習するものである．いったん，下層の三層のパーセプトロンの学習が終わると，教師信号を出力する層を取り除いた直下の層を入力層とする，新たな三層パーセプトロンを構築し，学習を行う（図 4 右参照）．これは，三層パーセプトロンの中間層に出力に関連する入力の特徴が表現されていると考えて，その特徴の抽出を意図したものである．しかし，この学習法による性能はあまり良いものではなかった．これは，難しい教師あり学習の問題を，よりやさしい教師あり学習の問題に分解することが容易ではないことによるものと考えられた．教師あり学習では，出力を説明可能な特徴のみが利用され，逆に出力を説明できない特徴は抽出されることがない．したがって，たとえ，出力を説明できるような特徴が潜在的に存在したとしても，その特徴を得る変換を学習に用いる統計モデルで表現できなければ，特徴は抽出されることなく無視されることになる．したがって，中間層のユニット数の少ない三層パーセプトロンの学習では，たとえ後続のネットワークによる非線形変換で特徴抽出が可能であったとしても，その時点で学 p（x） p（Y＝xt｜X＝xt） p（Y＝yt｜X＝xt） p（Y｜X） h（3） h（2） h（3） h（2） h（2） h（3） h（2） y h（1） x y h（2） h（1） y h（2） h（1） h（1） h（2） h（1） h（1） h（1） x x x 図 4 層ごとの貪欲学習 ; 隣接層間のネットワークを下層から順に学習する．いずれも下位のネットワークの学習を終えるとパラメータは固定され，学習の終えた下位ネットワークの中で最も上位に位置する隠れ層の出力が次に学習するネットワークの入力として用いられる．学習には，教師なし学習の形式をとるもの（左）と教師あり学習の形式をとるものとがある．教師あり学習の形式をとるネットワークは，さらに自己符号化器（中央），パーセプトロン（右）など，用いる教師信号で分類できる v h v h v v h v ＊15 パーセプトロンとは，教師あり学習をする多層ニューラルネットワークのことを指す．

コントラスティブダイバージェンス法とその周辺(<連載解説>Deep Learning(深層学習)〔第7回〕)

1．は じ め に