1.は じ め に
畳込みニューラルネットワークによる深層学習と,物 理学において非常に多くの自由度をもつ系の本質的性質 を少数の特徴量で記述する「くりこみ群」は,その数学 的な構造が類似していることが多くの人に注目されてい る.その類似性を関係性に近づけることが本稿の目的で ある.論理的な関係性が明らかになれば,深層学習のメ カニズムとその改善をくりこみ群の手法から学ぶ,ある いは深層学習のメカニズムをくりこみ群の新展開につな げる,という両方向への展開の可能性がある. 制限ボルツマンマシンとくりこみ群の関係の解析 [Aoki 16, Mehta 14],統計系を深層学習させて相転移に 関する情報を見る解析 [Arai 18, Tanaka 17] などが行わ れている.しかし,現時点では深層学習とくりこみ群の 関係性については「類似」以上には理解しきれていない. そこで本稿では,抽象的な文章表現を工夫するよりも, 極めて具体的に両者に関する実践例について報告するこ とによって,発展の糸口を見つける一助としたい. 本稿は二つのセクションからなる.一つは物理学にお ける普遍的な方法論であるくりこみ群についての簡単な 整理である.もう一つは統計力学の配位集合(系のある 一つの状態を配位と呼び,統計力学では,各配位が決まっ た確率で出現するとして,物理量の期待値を計算し,そ れが実際に測定される物理量とする.このそれぞれの出 現確率が定義された集合を配位集合と呼ぶ)を深層学習 させると,最適化されたマシンはいったい何を学んだの かという問題に対する検討である. 対象はすべて古典イジング模型である.画像解析との 対応では二次元空間の模型が良いのだが,話を単純にす るために,本稿では一次元に並んだサイト上にイジング 変数(スピンと呼ぶ)が乗っている模型を考える.イジ ング変数はσiで表され,値として 1 か−1 のどちらかを とる.スピンでいえば,上向きか下向きかに対応する. 添字の i はサイト番号で整数である.このシステムの 統計力学を考える.すなわち,系のエネルギーを与える ハミルトニアン(ハミルトン関数)H が例えば以下のよ うに定義されている. H[{σ}] = J i σiσi+1 (1) 配位 {σ}(すべてのサイトでのσiの値が決まっている) に対して,H の値が確定する. ハミルトニアンを構成する各項は相互作用と呼ばれ, 変数σiの積に定数を掛けて和をとる形である.この例 では,隣り合ったスピンの間にのみ相互作用があるので, 最近接相互作用の模型と呼ばれる.ここで J < 0 とする と,隣り合ったスピン同士の積がプラス,つまり,上と 上あるいは下と下という同じ向きの場合が,逆向きの場 合よりもエネルギーが低いことになる. 統計力学の基本原理に従えば,各配位はそのエネル ギーで決まる相対的な確率深層学習は統計系の温度推定から
何を学ぶのか
What Does Deep Learning of Statistical System Learn?
青木 健一
金沢大学理工研究域数物科学系Ken-Ichi Aoki Institute for Theoretical Physics, Kanazawa University. [email protected]
藤田 達大
金沢大学大学院自然科学研究科Tatsuhiro Fujita Institute for Theoretical Physics, Kanazawa University. [email protected]
小林 玉青
米子工業高等専門学校Tamao Kobayashi National Institute of Technology, Yonago College. [email protected]
Keywords:
deep learning, statistical system, renormalization group, phase transition, domain wall. 「物理学と AI」P [{σ}; T ] = exp −H[{σ}]k BT (2) で出現する.ここで,T は系の温度,kBは温度をエネル ギーの次元に変換するボルツマン定数である.統計力学 では,この確率から各種の物理量(σiの関数)の期待値 を求める.最近接相互作用の例では,隣り合ったスピン の向きがそろったほうがエネルギーが低く,発生確率が 大きくなる. 以下の式を簡単にするために,式(1)と式(2)を組 み合わせて K −J/(kBT)> 0 を導入し,H の定義も変 えて P [{σ}; K] = exp(−KH), H = − i σiσi+1 (3) と記述する.今後はパラメータ K を温度と呼ぶ(実際に は温度の逆数なので,K の大きいほうが低温側に対応す る). システム全体のサイズ(サイトの総数)を N とすると, 配位は 2N種類ある.N が少しでも大きくなると,配位 の種類は天文学的どころではない数になる.したがって, いろいろな工夫や近似をしないと物理量の期待値は計算 できない.一つの有効な手法はモンテカルロシミュレー ションと呼ばれるもので,出現確率に従う配位の集合を 生成して期待値を計算し,全配位による期待値を近似す る.ただし,問題によっては計算機リソースがいくらあっ ても足りない状況に陥る. もう一つはくりこみ群と呼ばれる手法で,全配位によ る期待値を一気に計算するのではなく,少しずつ「端か ら」足していくことを考える.この少しずつ足す操作に よって,系を特徴付けるパラメータが少しずつ変化する と読み替え,微分方程式をつくる.微分方程式の次元を 制限することが近似になるが,微分方程式を最後まで解 くと全配位の和をとった結果が得られる.いわば,全配 位の和を定積分と見れば,それを端から区分求積する微 分方程式に置き換えて定積分を求めるのである. くりこみ群は,見た目,深層学習と極めて類似性が高 い.例えば,深層学習のためのネットワークを表すのに 図 1 を用いる.一番下段,レベル 0(L0)が入力層であり, それに演算をして一つ上の L1の変数が定義され(この 演算を畳込みという),それが繰り返される. 同じ図 1 はくりこみ群でも使われる.その場合には, L0は系を記述する基本変数であり,L1は基本変数から なんらかのマクロ化(疎視化:coarse graining)によっ て定義された「くりこまれた」変数であり,これを繰り 返す.下の段から上の段への変換がくりこみ変換と呼ば れ,それを繰り返したら何が起こるかの解析を通じて系 の特質を把握する手法をくりこみ群と呼ぶ. 先の「端から区分求積」という理解との対応は,下の 段から上の段に行くときに変数の個数が変化しているこ とにある.この例では変数の数が半分になっている.自 由度の半分をまず「積分」して,残りの半分の変数で系 を記述するのが上の段への変換である.その代わり,サ イト間の距離が 2 倍になっている.つまり,一段上に上 がるときに,系を観測する解像度を半分に減らして(悪 くして),2 個のサイトの情報を 1 個にまとめて認識し 直すのである.2 個を「平均」して見るといってよい. この認識し直しによって,一段上に並んだ変数はどうい う相互作用をしているのかを分析する. 同じタイプの図 1 で表現される,畳込み層を多数も つ深層学習とくりこみ群の間にはどんな論理的関係があ り,どんな橋がかけられるのか,それが私達の研究の課 題である.
2.くりこみ群で系を解く
最近接相互作用の模型をくりこみ群で解く方法を説明 する.ここではドメインウォール(DW)表示における くりこみ群を定式化する [Aoki 09]. まず最近接相互作用ハミルトニアン(3)を,DW 変 数 diσiσi+1を導入して書き換える. H =− i di (4) 変数 diは 1 か−1 をとるが,1 の場合には,両側のスピ ン(σiとσi+1)が同じ向きなので DW なし,−1 の場合 には,両側のスピンが逆向きなので DW あり,と読む. DW変数は上向きスピンのドメインと下向きスピンのド メインの間の壁という意味の変数で,スピンの乗ってい るサイトの間のリンク上に定義されている. DW変数 diで書かれたハミルトニアン(4)では,異 なる i の間の関係がない.つまり,あるリンク上に DW があるかないか(diが−1 か 1 か)は,他のリンクがど うなっているかに無関係(独立)である.あるリンクに DWがある確率を p,DW がない確率を q=1−p と書 く.確率の式(3)に従えば,p と q の相対比は exp(−K) 対 exp(K)であるから,規格化して p = exp(−K) exp(K) + exp(−K) (5) DWくりこみ群を図 2 に描いた.あるスピンの配位に 対してその DW 表示が DW0である.リンク上の実線が DWのある状態,点線が DW がない状態を表す.この L L L L0 1 2 3 図 1 深層学習とくりこみ群のネットワーク構造DW0を疎視化して,DW1を定義する.解像度を下げて 二つの DW 変数を一つに見る.このとき,DW0の隣り 合う二つの DW 変数から DW1のくりこまれた DW 変数 をどう決めるのが物理的に最も有効だろうか.ここでは, 以下のルールを採用する. 1 1 − 1 − 1
*
*
*
*
1 −1 1 −1 ⇒ ⇒ ⇒ ⇒ 1 −1 −1 1 (6) 左辺が DW0の隣り合う二つの DW 変数 di, di+1であり, 右辺が DW1の疎視化した DW 変数である.このルール は変数の単純な「掛け算」に対応している. このルールは DW がスピンフリップの有無を記述して いることに着目し,その情報を疎視化後も維持するもの である.例えばルール(6)の 4 行目は隣り合う DW が 両方とも存在するなら,フリップが 2 回続けて起こり, マクロにはフリップが起こらない,と解釈する.他の行 も同様に,マクロのスピンフリップが正しくなるように 定義している.フリップ 0 回と 2 回はマクロフリップは なし,フリップ 1 回はマクロフリップ 1 回に変換される. これでくりこみ変換が確定した.すると DW1の DW の存在と非存在の確率は,ルール(6)から p = 2pq , q = p2+ q2 (7) と計算される.ここで DW1で DW がある確率を p,な い確率を qと書いた.もちろん,p+q=1 を満たして いる.DW のある確率だけで記述すると p = 2p(1− p) (8) となり,これが DW1のくりこまれた DW の振舞いを DW0の振舞いの関数として表現するくりこみ変換であ る. このくりこみは繰り返すことができる.n 回くりこん だ後の DWnにおいて,DW がある確率 p(n)は, p(n+1)= 2p(n)(1− p(n)) (9) となって,漸化式(離散的な微分方程式)を満たす.初 期値は p(0)=p である. 大切な物理量としてスピンの間の相関距離ξを考え る.相関距離というのは,おおむねこのあたりの距離ま でのスピンが相関している(同じ向きを向く確率がある 程度大きい状態)という意味の距離である.相関距離 ξは系の温度 K すなわち DW 発生確率 p とサイト間距 離 a(だけ)の関数である.次元解析をすると,相関距 離ξは長さの次元をもっているが,p は確率なので無次 元であり,a は長さの次元をもっている.したがって, ξは長さの次元を a からもらい,残りは次元のない p だ けの関数 ˜ξとして表現される. ξ(p, a) = a ˜ξ(p) (10) さて,DW0から DW1へのくりこみ(疎視化)に伴って, 物理量である実相関距離は変わらないが,DW1のサイ ト数は半分になりサイト間距離は 2 倍になる.くりこみ で p は pになるので次の等式が成立する. ξ(p , 2a) = ξ(p, a) (11) これに式(10)を代入すれば ˜ ξ(p ) = ˜ξ(p)/2 (12) つまり,˜ξ関数はその引数を式(8)に従って p から p に変えると,半分になる.この性質は p が何でも成立す る. くりこみ変換(8)は 1− 2p = (1 − 2p)2 (13) と変形できるから,log(1−2p)という変数を考えると, くりこみ変換で 2 倍になることがわかる.したがって, 式(12)の解は ˜ξ∝ 1/ log(1 − 2p) = 1/ log tanh K (14) とわかる.ここで説明したくりこみ群の議論だけではこ の比例係数は求められないが,それは本質的問題ではな い. このようにくりこみ群による系の把握によって,マク ロな性質についての本質的な部分,例えば,スピンの相 関距離の p(あるいは温度 K)依存性(14)を抜き出す ことができる.この結果から,どんなに温度を下げても (K を大きくしても),ξは有限距離にとどまるので,そ の距離を越えた遠くのスピンは相関しなくなり,スピン がそろって磁石になるような自発磁化は発生しない,と いう相構造までが結論される. この例では,一つのパラメータ p の変化だけを追う形 式になったが,通常は,多数の相互作用が存在し,その 中の一つの線形結合だけがマクロを支配する,という構 造が現れる.少なくとも抽象的な議論のレベルでは,ミ クロの構造や揺らぎを捨象し,マクロで重要な要素を残 して系の特徴量を見つけ,マクロで決定的な性質(自発 磁化の有無など)を確定させる,というこのくりこみ群 の手法は,画像解析において,細かいピクセルレベルの 情報から特徴量を抜き出して,そのパターンからマクロ な対象物の正体を把握するプロセスに非常に似ていると DW DW DW 0 1 2 Spin 図 2 ドメインウォールくりこみ群
いえる.それは確かではあるが,では具体的にこの両者 の論理的関係はどこにあるのか,を考察するために,次 に深層学習による統計系の把握について検討する.
3.統計系の深層学習による温度推定
深層学習機械に統計系の典型的な配位を学習させるこ とによって,系のもっている相構造や相転移点を機械が 自動的に見つける可能性が議論されている.その論理的 な仕組みについて,簡単な模型を題材に考察する. ここでは一次元の長距離イジング模型を考える.その ハミルトニアンは H =− n=1 i n−kσiσi+n (15) ここで,n は二つのスピン間の距離,k は長距離での相 互作用の減衰指数である.厳密には無限距離までの相互 作用がないと相転移は起きないが,それは計算不可能な ので,ここでは k=1.8 として有限レンジ(距離 8)ま での相互作用がある場合を扱う.系のサイズ N は 1024 として周期境界条件を課す. まず温度 K として,0.2 ∼ 0.5 の範囲で 0.02(=ΔK) 刻みで 16 クラス用意する.各温度でモンテカルロシミュ レーションを行って,配位集合(ここでは 32 000 個の 配位)を用意する.この 32 000×16=512 000 個の配 位を深層学習の入力データ(教師ありデータ)として用 いて,各配位から温度を出力するように学習する. 深層学習マシンの構成は,入力として 1024 個のスピ ン(イジング変数,1)の配位を与え,畳込みを何段 か行い,最後に空間方向の和をとってから,温度出力 16個への結合をつくり,最大値を出力温度クラスとする. 空間方向の和をとる理由は,手書き数字認識などとは異 なり,この系は本質的に空間方向の平行移動不変性があ るので,最適化パラメータも平行移動不変性をもつべき だからである. ここで示す数値例では,各畳込みでのフィルタサイズ は 2,ストライドは 2,チャネルは 2 であり,畳込み層は 6 段である.学習後,全く新しい別の入力データを用いて, 温度の正答率を評価した.その値は 42.2%であった.こ の結果は低いのだろうか,それとも高いのだろうか.こ の結果を評価するためには,そもそも,理論的な正答率 上限はいくらなのかを評価しなければならない. どんな温度であっても,すべての配位(21024種類)が 出現可能である.ただし,その大半は無視できる確率に なるので,各温度ごとにたった 32 000 個のアンサンブ ルに入れるような典型的な配位は限られている.した がって,温度ごとにその典型的な配位の様相がどの程度 異なるのかによって,正答率上限値が決まる. 最適の機械をつくったとしたら温度をどこまで正答で きるのかという問題を考えよう.温度 Kj,j=0,…,15 (16 クラス)ごとに,ある配位 {σ}が出現する確率は P ({σ}; Kj) = exp(−KjH[σ])/Z(Kj) (16) である.ここで,Z は分配関数と呼ばれるもので確率を 規格化する因子であり,すべての配位の和で定義される. Z(Kj) = {σ} exp(−KjH[σ]) (17) 通常,分配関数は簡単には計算できない. 後のために,自由エネルギー W(K)を定義する. W (K) =− log Z(K) (18) この自由エネルギーの微分は, dW dK = H exp(−KH) Z(K) = H (K) (19) となって,温度 K におけるエネルギーの期待値である. さらに微分すると,エネルギーの揺らぎの 2 乗に比例す る. d2W dK2 =−( H 2 H 2) = (H H )2 ≦0 (20) これは正にはなり得ないから,自由エネルギー W(K) は(上に)凸関数である. ある配位に対してその温度クラスを推定する.正答率 を最大化するためには最尤推定を行えばよい.すなわち, 式(16)の確率を最大化するような温度クラス Kjを選 ぶのが最尤推定である.各配位に対してそれぞれ最尤推 定を行えば,正答率の理論的上限値を与える. ある温度における配位の発生確率(16)は,その配位 でのハミルトニアンの値(エネルギー)のみで決まる. 図 3 は,横軸にエネルギーの値をとり,16 個の温度ク ラスごとの配位の発生確率を描いている.左から右へ K=0.2 から K=0.5 まで 16 クラスの図である(正規分 布近似). この一部分を拡大したのが図 4 である.最尤推定は, 各配位ごとに最大の確率を与える温度を選ぶことになる ので,図 4 の上部境界線に対応する温度を選ぶことにな 図 3 温度ごとのエネルギー確率密度関数る.すなわち,点 A から点 B までのエネルギー領域に 属する配位においては,温度 K1が最尤推定である.点 Bに対応するエネルギー EBは式(16)を両側の温度で 等値して対数をとると EB=−(log Z(K2)− log Z(K1))/∆K (21) と求まる.これは自由エネルギー W(K)=−log Z(K)の 2点(K1,K2)を結ぶ直線の傾きであり,その凸性(20) から,両端での接線の傾きにはさまれた値となる. H (K1)≧EB≧ H (K2) (22) 温度クラス 16 個の事前確率は等しいと設定すると(そ のような学習データを与える),最尤推定における温度 出力の正答率は,図 3 の上部境界線下側の面積を全体の 面積(各密度関数の下側の面積の合計=16)で割ったも ので与えられる. エネルギーを変数とする確率密度関数 P[E, Kj]dEは, エネルギーを決めたときの配位の数(エントロピーの情 報)がわからないので,計算できない.しかし最長の相 互作用距離を制限した長距離イジング模型では,Block Decimation Renormalization Group(BDRG)という くりこみ群の方法によって W[K] を直接計算することが できる [Aoki 08].これを微分して確率密度関数の期待 値と分散が得られるので,正規分布で近似する. 他の物理量を(同時に)使うことに意味はあるだろう か.与えられる配位はスピンの並びだから,例えば,機 械は,いや人間も,全スピン S=iσiという物理量に「眼」 を奪われやすいだろう.紙幅の関係で,結論だけを述べ れば,残念ながら,エネルギー以外の物理量を正しく測 定して入力情報に加えたとしても,温度推定の正答率を 上げることはできないことが厳密に証明できる. さて,距離 8 までの相互作用を入れた長距離イジング 模型において上記の方法で計算した温度推定正答率の理 論的上限は 43.6%である.すると,深層学習マシンの与 えている結果 42.2%は十分に理論的上限に近いことにな る.この事実は何を意味するのだろうか. 深層学習マシンには,配位とそれを生成した温度クラ スの情報しか与えていない.すなわち,上記の理論的上 限を計算するときに使った主役のハミルトニアンという 最重要な概念(配位の関数)は与えていない.理論的上 限の正答率に迫るためには,図 4 にあるように,配位の エネルギーの関数として一意的にある温度クラスを選ぶ ことが必要である.それがぶれて,別の温度クラスを選 ぶとその分だけ正答率が下がる.すると,理論的上限に 近い正答率を得た深層学習マシンは,温度推定の最適化 をはかる過程で,配位から計算されるハミルトニアン(関 数)を内部に構成し得たといえるのではないだろうか. このことを確認するために,学習後のマシンがどのよ うに温度クラスを出力しているかを図 5 に示す.横軸は 配位のエネルギー,縦軸は 16 段階の温度クラスである. もし理論的上限を得る出力ならば,それは図 5 の線にあ るような階段関数になる.実際には,けっして一意的で はなく,上下にぶれた結果を与えている. 図 5では頻度が見えないので,エネルギーを bin(0.0032 刻み)に分けて,出力温度クラスの平均値を計算したの が図 6 である.まず,エネルギーの関数として,単調増 加出力をしていることがわかる.また,各階段の中央で は,フラットになる傾向が見える.出力温度クラスごと に,理論的上限に対応する階段関数値を与えている割合 を計算すると,図 7 となる.両側が高くなるのは,間 違える方向が一つしかないからである.まだまだ最適化 K K E P A E A B B E 図 4 最尤推定温度の決定 図 5 配位のエネルギーと出力温度クラス 図 6 配位のエネルギーと出力温度クラス平均
あるいは統計が足らないが,全体で平均すると,この割 合は 81%となる.これは,配位からエネルギーを計算 するハミルトニアンを正しく認識できた割合(この精 度レベルで)と考えられるので,ハミルトニアン認識率 (Hamiltonian Recognition Rate:HRR)と呼ぶ.
もう一つ別の確認をしよう.図 3 は,生成温度ごと の入力配位のエネルギー分布であった.他方,図 8 は 出力温度クラスごとに,その出力をした配位の数をエネ ルギーの関数として示した.ともに左から右に K=0.2 から K = 0.5 まで 0.02 刻みのクラスが順に並んでいる. 理論的上限マシンならば,柱が 16 本立っているような 姿になるはずである.柱の境界に混合は残っているが, 図 3 と比較してよく分離されていること,つまり,学習 後のマシンが精度は多少悪くとも正しいハミルトニアン 関数を内部にもったことを示している.この正しさの度 合いがハミルトニアン認識率 81%である. 温度推定の正答率そのものは 100%にはほど遠い結果 (42.2%)であるが,それ自身には何の問題もない.重 要なのは,理論的上限への近さである.理論的上限に近 いマシンが,ある温度で生成した配位を入力したときに 出力する温度クラスの分布は,入力温度で生成した配位 のエネルギー分布を表しているのである.つまり,温度 推定という学習で最適化したマシンは,系のハミルトニ アンを内部に生成し,エネルギー分解を行う,いわばス ペクトルメータ(スペクトル分析器,光を色に分解する プリズムのような道具)となる.温度 K 推定を行うマシ ンを最適化することによって,その「共役」な物理量で あるエネルギー E についての分解能力が身につくのであ る. 図 9 は K = 0.30 と K = 0.42 の二つの入力温度の配位 を最適化されたマシンに入力し,その出力温度クラスを 示す.それぞれ山が一番高いところが,入力温度に対応 する出力温度クラスである.これは,「温度推定をこれ だけ間違えました」と読むべきグラフではない.ある温 度のときに,その配位が示すエネルギースペクトルを示 しているのである. さて,このように最適化されたマシンは,同時にその 構造(最適化された各種パラメータ,特に最終段の全結 合層と呼ばれる部分)に相転移点に対応した特別な温度 (Kc)の存在を書き込むという議論や実験がある.この 仕組みについて考えてみよう. 上で示したように,最適化されたマシンは,入力され た配位集合をエネルギースペクトルに分解する.ある特 定の温度 Kcで相転移が起こる場合,その温度でエネル ギースペクトルに何らかの「特異性」が現れるならば, それは必然的にマシンのパラメータに刻み込まれるはず である.それは比熱の特異性にほかならない. 一般に温度が相転移点に近づくと,比熱 C [K ](温度 図 7 出力温度クラスごとのハミルトニアン認識率 図 8 出力温度クラスごとの配位のエネルギー分布 図 9 入力配位集合のエネルギースペクトル分解 0.5 1 1.5 2 2.5 3 3.5 0.2 0.25 0.3 0.35 0.4 0.45 0.5 n= 8 n= 4 n= 2 n= 1 Specific Heat C K 図 10 比熱の最長相互作用距離と温度への依存性
を単位分上げるために必要な熱量) C[K] =−d HdK(K)=−d 2W (K) dK2 (23) は急激に増加する.比熱は,自由エネルギーの凸性(20) のところで議論したエネルギーの揺らぎだから,相転移 点に近づくとエネルギーは大きく揺らぐのである. 温度を等間隔ΔKで離散的にクラスに分けて描いたエ ネルギーの確率密度関数(図 3)を思い出そう.ここで 隣り合ったグラフ間の「距離」D は D(K) =−d HdK(K)∆K = C(K)∆K (24) である.他方,確率密度関数の広がり(標準偏差)は揺ら ぎの平方根 C(K)にほかならない.このクラスでの「正 答率」はこの二つの比 D(K) C(K)= C(K)∆K (25) の増加関数である.比熱 C(K)が特異的に大きくなる温 度があれば,そこでの正答率が増加し,その性質が最適 化されたマシンの構造に刻み込まれる.入力は温度で指 定され,学習によってエネルギー分解能力を得るわけだ が,これは温度とエネルギーの対応関係の把握ともいえ る.この関係には固有のスケール比があり,そのスケー ル比(比熱)が相転移点近傍で異常に大きくなるのであ る. 最長相互作用距離を固定した長距離イジング模型の場 合には,厳密には相転移は起こらず自発磁化も発生しな い.しかし,最長相互作用距離を延ばしていくと,比熱 の特異性の前兆が現れる.図 10 に比熱の温度依存性を 示す.最近接相互作用だけの場合(n=1)には比熱は 単調減少関数であるが,距離 2 の相互作用から比熱の最 大値が現れ,最長距離 8 でははっきりと見える.その 位置は,他の方法で推定されているこの模型の相転移点 Kc≅ 0.4の近くにある.したがって,最適化された結合 パラメータのこの温度クラスあたりに特異性が現れるこ とが期待できる. この状況は,図 3 の理論曲線においても見て取れる. 比熱つまりエネルギーの揺らぎが大きいほど,確率密度 関数の頂点は低くなる.また,エネルギースペクトルメー タという解釈で見る図 9 では,K=0.42 のほうが揺らぎ が小さくなっていることが観測できる.これは逆に思え るが,このスペクトルメータはあくまで出力温度クラス 分布で測定するので,温度とエネルギーのスケール比の 変化も考慮すると,相転移温度近傍で幅が狭くなるので ある.だからこそ,正答率が向上する. この特異性が学習したマシンのどの部分にどのように 刻み込まれるのかを考察するためにマシンの最終段を具 体的に構成する.フィルタサイズ 2 の畳込みを例えば 6 層繰り返すと,1024 のサイトは 16 サイトにまでくりこ まれている.これを 16 個の温度クラス出力に全結合層 でつなぐ.系の並進対称性から,全結合のパラメータは 並進対称とする.すると,16 サイトの平均値をまず求 めて x とし,この値と 16 個の出力を結合することになる. なお,以下ではチャネル数は 1 とする. 機械は学習によってハミルトニアンをよく認識し,こ の x に反映させているはずである.一般的には x=C1E +C0 という形で最適化されると期待される(この範囲に, 完全最適解があるからである).この線形変換はエネル ギー E の単位と原点の変更に過ぎないので,物理的な結 論は変わらない.そこで表式を簡単にするために,以下 では x=−E とする. この x から最終出力 yjを,ウェイト wjとバイアス bj を用いて全結合出力する. yj= wjx + bj=−wjE + bj, j = 0,· · · , 15 (26) この yjを通常の softmax 関数によって規格化し,
qj(E) = softmaxj(y) = exp(yj)/ i exp(yi)(27) q(E)を E を測定した後の,温度 Kj jに対する出力推定 確率とみなす. これを,深層学習する配位集合全体における正しい事 後確率 p(E)(エネルギー E を決めたときの温度 Kj jの 事後確率,つまり P[E, Kj](16)を E を固定して j につ いて規格化したもの)と比較し,その交差エントロピー − k j pj(Ek) log qj(Ek) (28) を最小化するようにマシンパラメータ(wj, bj)を決定す る.ここで,Σkは対象の配位集合の中の配位すべてに ついての和を意味する. ここで考えているモデルでは,交差エントロピーを最 小値とする完全最適解を構成できる.すなわち,自由エ ネルギー W を用いて,すべての E に対して exp(−wjE + bj) = exp(−KjE + W (Kj)) (29) が成立すれば,すべての E で q(E)= pj (E)が成立する. j 一般的には上式の両辺が E のみによる係数で比例し,交 差エントロピーは最小となることが必要十分条件である が,簡単のために等号で扱う.そうしても,以下の結論 の本質的部分は変わらない. 条件(29)を満たす解は wj= Kj, bj= W (Kj) (30) つまり,最終段のマシンパラメータのウェイト wjは温 度 Kjの情報となり,バイアス bjは温度 Kjでの自由エネ ルギー W(Kj)となる.これは著しい結果である.この 二つの情報を合わせれば,温度の関数としての自由エネ ルギーが最適化されたマシンのパラメータから得られる (マシンは温度クラス j という概念しか伝えられていな いので,温度そのものの大きさは事前には知らない). この二つの情報から自由エネルギーの温度による微分
が計算できるので,エネルギー期待値も比熱も計算でき る.温度は離散的なので微分を差分に置き換えて,エネ ルギー期待値は H j= dW dK = bj+1− bj wj+1− wj (31) 比熱は, C[Kj] =− d2W dK2 =− bj+1− 2bj+ bj−1 (∆K)2 (32) と計算できる(表式を簡単にするために,温度はΔKの 等間隔とした).すなわち,比熱の温度依存性は最適化 されたマシンパラメータに刻まれたわけであり,その 特異性から相転移温度が測定できる.これまでの解析 [Arai 18, Tanaka 17]は,ウェイト wjに相転移情報が刻 まれるという主張であるが,交差エントロピーを最小化 したマシンでは,wjは入力温度の情報しかもたず秩序パ ラメータの役割は果たせないと考えられる. 相転移には比熱の特異性だけではなく,例えば,磁化 率にも特異性が現れる.一般に磁化率の特異性のほうが 比熱の特異性よりも強い.つまり,相転移点に近づくと, スピンの揺らぎが急に大きくなるのである.この特異性 を直接マシンに刻み込むためには,外部磁場をかけた配 位集合を学習させればよい. 深層学習が統計系の温度推定を通して学ぶものは,ハ ミルトニアン(配位からエネルギーを与える関数)であ る.そして,softmax 関数による出力と配位集合の間の 交差エントロピーの最小化という最適化によって,温度 の関数としての自由エネルギーがマシンパラメータに 刻まれ,相転移に関する情報を測定可能であることがわ かった.この結論は一般的なもので,モデルの詳細や系 の次元にはよらない.
4.ま と め
紙幅も尽きてきたので,簡単にまとめよう.一つ目の セクションのくりこみ群,二つ目の統計系の深層学習を 論理的につなぎたい,というのが本当の課題であった. しかし現時点では,まだ橋がかかってはいない. くりこみ群において大事なことは,くりこみ変換は「マ シン」パラメータの設定そのものであり,最終的な結果 による最適化は考察するにしても,何らかのポリシーで 一意的に決めておく必要がある.特に,多段の畳込みを 繰り返すのがくりこみ群の真髄であり,それぞれの畳込 みが「同じ」操作を繰り返すことに重要な意味がある. だからこそ「くりこみ群」と呼ばれる.繰返しのおかげ で,くりこみ変換の固定点の発見,固定点近傍での変換 の線形近似,線形近似の固有値分解,固有値による相互 作用の分類,マクロで重要な相互作用(特徴量)の自動 的選び出し,と展開できる.系の温度は,くりこみ変換 の対象であって,相互作用の一つの,そして最も重要な 要素(軸)に対応する.段数を進むにつれて相互作用が どのように変化するのかが物理の本質であり,その中で 「温度」に対応する相互作用が「自動的」に重要になり, 相転移現象の発現や各種物理量の解析につながる. 他方,統計系の深層学習では,温度がいろいろと異な る系の配位をすべて「同時」に入力として使う.畳込み 構造の各段はそれぞれが独立したパラメータとして最適 化される.「温度」だけが入力配位を決定するパラメー タなので,温度推定を最適化する.最適化の後のマシン は,配位の出現確率を決定するうえで温度と「共役」な 物理量であるエネルギーのスペクトル分解能力をもつ. このように中心概念である「温度」あるいは「最も重 要な相互作用」の「位置」が,くりこみ群と統計系の深 層学習で全く異なっている.これを整合的に理解するに はまだ距離がある.ここでは紹介できなかったが,制限 ボルツマンマシンによる統計系の表現がちょうどその中 間に位置していると思われる [Aoki 16, Mehta 14].温度 を固定した配位を用いて制限ボルツマンマシンを最適化 し,多段で繰り返せば,くりこみ群的な系の分析を,別 のタイプの最適化条件を課して構成することになる. 「類似」を「関係」に昇格させようと追及してきたが,「似 て非なる」要素も見えてきた.いずれにしても,そう簡 単に橋はかからないが,むしろそのほうがよいのではな いか.緊張関係が続くほうがよいのではないか.それで こそ,少しでも橋がかかれば,くりこみ群にとっても, 深層学習にとっても,全く予期しない視点からの展開を 惹起するに違いない. 謝 辞 藤井康弘,小内伸之介,堀 祐輔,熊本真一郎の各氏 との非常に有意義で刺激的な相互作用に,そして,深層 学習の基本をご教示いただいた安田宗樹氏に深く感謝す る.◇ 参 考 文 献 ◇
[Aoki 08] Aoki, K-I., Kobayashi, T. and Tomita, H.: Finite-range scaling method to analyze systems with infinite-Finite-range interactions, Prog. Theor. Phys., Vol. 119, p. 509(2008) [Aoki 09] Aoki,K-I., Kobayashi,T. Tomita, H.: Domain wall
renormalization group analysis of 2-dimensional ising model,
Int. J. Mod. Phys. B, Vol. 23, p. 3739(2009)
[Aoki 16] Aoki, K-I., Kobayashi, T., Restricted Boltzmann machines for the long range ising models, Mod. Phys. Lett. B, Vol. 30, p. 1650401(2016)
[Arai 18] Arai, S., Ohzeki, M. and Tanaka, K.: Deep neural network detects quantum phase transition, J. Phys. Soc. Jpn., Vol. 87, p. 033001(2018)
[Mehta 14] Mehta, P. and Schwab, D. J.: An exact mapping between the variational renormalization group and deep learning, arXiv:1410.3831 [stat.ML](2014)
[Tanaka 17] Tanaka, A. and Tomiya, A.: Detection of phase transition via convolutional neural network, J. Phys. Soc. Jpn., Vol. 86, p. 063001(2017)
2018年 5 月 16 日 受理