深層学習は統計系の温度推定から何を学ぶのか

(1)

1．は　じ　め　に

畳込みニューラルネットワークによる深層学習と，物理学において非常に多くの自由度をもつ系の本質的性質を少数の特徴量で記述する「くりこみ群」は，その数学的な構造が類似していることが多くの人に注目されている．その類似性を関係性に近づけることが本稿の目的である．論理的な関係性が明らかになれば，深層学習のメカニズムとその改善をくりこみ群の手法から学ぶ，あるいは深層学習のメカニズムをくりこみ群の新展開につなげる，という両方向への展開の可能性がある．制限ボルツマンマシンとくりこみ群の関係の解析 [Aoki 16, Mehta 14]，統計系を深層学習させて相転移に関する情報を見る解析 [Arai 18, Tanaka 17] などが行われている．しかし，現時点では深層学習とくりこみ群の関係性については「類似」以上には理解しきれていない．そこで本稿では，抽象的な文章表現を工夫するよりも，極めて具体的に両者に関する実践例について報告することによって，発展の糸口を見つける一助としたい．本稿は二つのセクションからなる．一つは物理学における普遍的な方法論であるくりこみ群についての簡単な整理である．もう一つは統計力学の配位集合（系のある一つの状態を配位と呼び，統計力学では，各配位が決まった確率で出現するとして，物理量の期待値を計算し，それが実際に測定される物理量とする．このそれぞれの出現確率が定義された集合を配位集合と呼ぶ）を深層学習させると，最適化されたマシンはいったい何を学んだのかという問題に対する検討である．対象はすべて古典イジング模型である．画像解析との対応では二次元空間の模型が良いのだが，話を単純にするために，本稿では一次元に並んだサイト上にイジング変数（スピンと呼ぶ）が乗っている模型を考える．イジング変数はσiで表され，値として 1 か−1 のどちらかをとる．スピンでいえば，上向きか下向きかに対応する． 添字の i はサイト番号で整数である．このシステムの 統計力学を考える．すなわち，系のエネルギーを与える ハミルトニアン（ハミルトン関数）H が例えば以下のよ うに定義されている． H[{σ}] = J i σiσi+1 （1）配位 {σ}（すべてのサイトでのσiの値が決まっている） に対して，H の値が確定する． ハミルトニアンを構成する各項は相互作用と呼ばれ，変数σiの積に定数を掛けて和をとる形である．この例では，隣り合ったスピンの間にのみ相互作用があるので， 最近接相互作用の模型と呼ばれる．ここで J ＜ 0 とする と，隣り合ったスピン同士の積がプラス，つまり，上と上あるいは下と下という同じ向きの場合が，逆向きの場合よりもエネルギーが低いことになる．統計力学の基本原理に従えば，各配位はそのエネルギーで決まる相対的な確率

深層学習は統計系の温度推定から

何を学ぶのか

What Does Deep Learning of Statistical System Learn?

青木　健一

金沢大学理工研究域数物科学系

Ken-Ichi Aoki Institute for Theoretical Physics, Kanazawa University. [email protected]

藤田　達大

金沢大学大学院自然科学研究科

Tatsuhiro Fujita Institute for Theoretical Physics, Kanazawa University. [email protected]

小林　玉青

米子工業高等専門学校

Tamao Kobayashi National Institute of Technology, Yonago College. [email protected]

Keywords:

deep learning, statistical system, renormalization group, phase transition, domain wall. 「物理学と AI」

(2)

P [{σ}; T ] = exp −H[{σ}]_k BT （2） で出現する．ここで，T は系の温度，kBは温度をエネルギーの次元に変換するボルツマン定数である．統計力学では，この確率から各種の物理量（σiの関数）の期待値を求める．最近接相互作用の例では，隣り合ったスピンの向きがそろったほうがエネルギーが低く，発生確率が大きくなる．以下の式を簡単にするために，式（1）と式（2）を組 み合わせて K −J/（kBT）＞ 0 を導入し，H の定義も変えて P [{σ}; K] = exp(−KH), H = − i σiσi+1 （3） と記述する．今後はパラメータ K を温度と呼ぶ（実際に は温度の逆数なので，K の大きいほうが低温側に対応す る）． システム全体のサイズ（サイトの総数）を N とすると， 配位は 2N_{種類ある．N が少しでも大きくなると，配位} の種類は天文学的どころではない数になる．したがって，いろいろな工夫や近似をしないと物理量の期待値は計算できない．一つの有効な手法はモンテカルロシミュレーションと呼ばれるもので，出現確率に従う配位の集合を生成して期待値を計算し，全配位による期待値を近似する．ただし，問題によっては計算機リソースがいくらあっても足りない状況に陥る．もう一つはくりこみ群と呼ばれる手法で，全配位による期待値を一気に計算するのではなく，少しずつ「端から」足していくことを考える．この少しずつ足す操作によって，系を特徴付けるパラメータが少しずつ変化すると読み替え，微分方程式をつくる．微分方程式の次元を制限することが近似になるが，微分方程式を最後まで解くと全配位の和をとった結果が得られる．いわば，全配位の和を定積分と見れば，それを端から区分求積する微分方程式に置き換えて定積分を求めるのである．くりこみ群は，見た目，深層学習と極めて類似性が高い．例えば，深層学習のためのネットワークを表すのに図 1 を用いる．一番下段，レベル 0（L0）が入力層であり，それに演算をして一つ上の L1の変数が定義され（この演算を畳込みという），それが繰り返される．同じ図 1 はくりこみ群でも使われる．その場合には， L0は系を記述する基本変数であり，L1は基本変数からなんらかのマクロ化（疎視化：coarse graining）によって定義された「くりこまれた」変数であり，これを繰り返す．下の段から上の段への変換がくりこみ変換と呼ばれ，それを繰り返したら何が起こるかの解析を通じて系の特質を把握する手法をくりこみ群と呼ぶ．先の「端から区分求積」という理解との対応は，下の段から上の段に行くときに変数の個数が変化していることにある．この例では変数の数が半分になっている．自由度の半分をまず「積分」して，残りの半分の変数で系を記述するのが上の段への変換である．その代わり，サイト間の距離が 2 倍になっている．つまり，一段上に上がるときに，系を観測する解像度を半分に減らして（悪くして），2 個のサイトの情報を 1 個にまとめて認識し直すのである．2 個を「平均」して見るといってよい．この認識し直しによって，一段上に並んだ変数はどういう相互作用をしているのかを分析する．同じタイプの図 1 で表現される，畳込み層を多数もつ深層学習とくりこみ群の間にはどんな論理的関係があり，どんな橋がかけられるのか，それが私達の研究の課題である．

2．くりこみ群で系を解く

最近接相互作用の模型をくりこみ群で解く方法を説明する．ここではドメインウォール（DW）表示におけるくりこみ群を定式化する [Aoki 09]．まず最近接相互作用ハミルトニアン（3）を，DW 変 数 diσiσi＋1を導入して書き換える． H =− i di （4） 変数 diは 1 か−1 をとるが，1 の場合には，両側のスピン（σiとσi＋1）が同じ向きなので DW なし，−1 の場合には，両側のスピンが逆向きなので DW あり，と読む． DW変数は上向きスピンのドメインと下向きスピンのドメインの間の壁という意味の変数で，スピンの乗っているサイトの間のリンク上に定義されている． DW変数 diで書かれたハミルトニアン（4）では，異 なる i の間の関係がない．つまり，あるリンク上に DW があるかないか（diが−1 か 1 か）は，他のリンクがどうなっているかに無関係（独立）である．あるリンクに DWがある確率を p，DW がない確率を q＝1−p と書 く．確率の式（3）に従えば，p と q の相対比は exp（−K） 対 exp（K）であるから，規格化して p = exp(−K) exp(K) + exp(−K) （5） DWくりこみ群を図 2 に描いた．あるスピンの配位に対してその DW 表示が DW0である．リンク上の実線が DWのある状態，点線が DW がない状態を表す．この L L L L0 1 2 3 図 1　深層学習とくりこみ群のネットワーク構造

(3)

DW0を疎視化して，DW1を定義する．解像度を下げて二つの DW 変数を一つに見る．このとき，DW0の隣り合う二つの DW 変数から DW1のくりこまれた DW 変数をどう決めるのが物理的に最も有効だろうか．ここでは，以下のルールを採用する． 1 1 − 1 − 1

*

1 −1 1 −1 ⇒ ⇒ ⇒ ⇒ 1 −1 −1 1 （6）左辺が DW0の隣り合う二つの DW 変数 di, di＋1であり，右辺が DW1の疎視化した DW 変数である．このルールは変数の単純な「掛け算」に対応している．このルールは DW がスピンフリップの有無を記述していることに着目し，その情報を疎視化後も維持するものである．例えばルール（6）の 4 行目は隣り合う DW が両方とも存在するなら，フリップが 2 回続けて起こり，マクロにはフリップが起こらない，と解釈する．他の行も同様に，マクロのスピンフリップが正しくなるように定義している．フリップ 0 回と 2 回はマクロフリップはなし，フリップ 1 回はマクロフリップ 1 回に変換される．これでくりこみ変換が確定した．すると DW1の DW の存在と非存在の確率は，ルール（6）から p = 2pq , q = p2_{+ q}2 _（7）と計算される．ここで DW1で DW がある確率を p，な い確率を q_{と書いた．もちろん，p}_＋q_{＝1 を満たして} いる．DW のある確率だけで記述すると p = 2p(1− p) （8）となり，これが DW1のくりこまれた DW の振舞いを DW0の振舞いの関数として表現するくりこみ変換である． このくりこみは繰り返すことができる．n 回くりこん だ後の DWnにおいて，DW がある確率 p（n）は， p(n+1)_{= 2p}(n)₍₁_{− p}(n)₎ _（9）となって，漸化式（離散的な微分方程式）を満たす．初 期値は p（0）_{＝p である．} 大切な物理量としてスピンの間の相関距離ξを考える．相関距離というのは，おおむねこのあたりの距離までのスピンが相関している（同じ向きを向く確率がある程度大きい状態）という意味の距離である．相関距離 ξは系の温度 K すなわち DW 発生確率 p とサイト間距 離 a（だけ）の関数である．次元解析をすると，相関距 離ξは長さの次元をもっているが，p は確率なので無次 元であり，a は長さの次元をもっている．したがって， ξは長さの次元を a からもらい，残りは次元のない p だ けの関数 ˜ξとして表現される． ξ(p, a) = a ˜ξ(p) _（10）さて，DW0から DW1へのくりこみ（疎視化）に伴って，物理量である実相関距離は変わらないが，DW1のサイト数は半分になりサイト間距離は 2 倍になる．くりこみ で p は p_{になるので次の等式が成立する．} ξ(p , 2a) = ξ(p, a) _（11）これに式（10）を代入すれば ˜ ξ(p ) = ˜ξ(p)/2 （12）つまり，˜ξ関数はその引数を式（8）に従って p から p に変えると，半分になる．この性質は p が何でも成立す る．くりこみ変換（8）は 1− 2p = (1 − 2p)2 （13） と変形できるから，log（1−2p）という変数を考えると， くりこみ変換で 2 倍になることがわかる．したがって，式（12）の解は ˜

ξ_{∝ 1/ log(1 − 2p) = 1/ log tanh K} （14）とわかる．ここで説明したくりこみ群の議論だけではこの比例係数は求められないが，それは本質的問題ではない．このようにくりこみ群による系の把握によって，マクロな性質についての本質的な部分，例えば，スピンの相 関距離の p（あるいは温度 K）依存性（14）を抜き出す ことができる．この結果から，どんなに温度を下げても （K を大きくしても），ξは有限距離にとどまるので，その距離を越えた遠くのスピンは相関しなくなり，スピンがそろって磁石になるような自発磁化は発生しない，という相構造までが結論される． この例では，一つのパラメータ p の変化だけを追う形 式になったが，通常は，多数の相互作用が存在し，その中の一つの線形結合だけがマクロを支配する，という構造が現れる．少なくとも抽象的な議論のレベルでは，ミクロの構造や揺らぎを捨象し，マクロで重要な要素を残して系の特徴量を見つけ，マクロで決定的な性質（自発磁化の有無など）を確定させる，というこのくりこみ群の手法は，画像解析において，細かいピクセルレベルの情報から特徴量を抜き出して，そのパターンからマクロな対象物の正体を把握するプロセスに非常に似ていると DW DW DW 0 1 2 Spin 図 2　ドメインウォールくりこみ群

(4)

いえる．それは確かではあるが，では具体的にこの両者の論理的関係はどこにあるのか，を考察するために，次に深層学習による統計系の把握について検討する．

3．統計系の深層学習による温度推定

深層学習機械に統計系の典型的な配位を学習させることによって，系のもっている相構造や相転移点を機械が自動的に見つける可能性が議論されている．その論理的な仕組みについて，簡単な模型を題材に考察する．ここでは一次元の長距離イジング模型を考える．そのハミルトニアンは H =− n=1 i n−kσiσi+n （15） ここで，n は二つのスピン間の距離，k は長距離での相 互作用の減衰指数である．厳密には無限距離までの相互作用がないと相転移は起きないが，それは計算不可能な ので，ここでは k＝1.8 として有限レンジ（距離 8）ま での相互作用がある場合を扱う．系のサイズ N は 1024 として周期境界条件を課す． まず温度 K として，0.2 ∼ 0.5 の範囲で 0.02（＝ΔK）刻みで 16 クラス用意する．各温度でモンテカルロシミュレーションを行って，配位集合（ここでは 32 000 個の配位）を用意する．この 32 000×16＝512 000 個の配位を深層学習の入力データ（教師ありデータ）として用いて，各配位から温度を出力するように学習する．深層学習マシンの構成は，入力として 1024 個のスピン（イジング変数，1）の配位を与え，畳込みを何段か行い，最後に空間方向の和をとってから，温度出力 16個への結合をつくり，最大値を出力温度クラスとする．空間方向の和をとる理由は，手書き数字認識などとは異なり，この系は本質的に空間方向の平行移動不変性があるので，最適化パラメータも平行移動不変性をもつべきだからである．ここで示す数値例では，各畳込みでのフィルタサイズは 2，ストライドは 2，チャネルは 2 であり，畳込み層は 6 段である．学習後，全く新しい別の入力データを用いて，温度の正答率を評価した．その値は 42.2％であった．この結果は低いのだろうか，それとも高いのだろうか．この結果を評価するためには，そもそも，理論的な正答率上限はいくらなのかを評価しなければならない．どんな温度であっても，すべての配位（21024_種類）が出現可能である．ただし，その大半は無視できる確率になるので，各温度ごとにたった 32 000 個のアンサンブルに入れるような典型的な配位は限られている．したがって，温度ごとにその典型的な配位の様相がどの程度異なるのかによって，正答率上限値が決まる．最適の機械をつくったとしたら温度をどこまで正答で きるのかという問題を考えよう．温度 Kj，j＝0，…，15 （16 クラス）ごとに，ある配位 {σ}が出現する確率は P ({σ}; Kj) = exp(−KjH[σ])/Z(Kj) （16） である．ここで，Z は分配関数と呼ばれるもので確率を 規格化する因子であり，すべての配位の和で定義される． Z(Kj) = {σ} exp(−KjH[σ]) （17）通常，分配関数は簡単には計算できない． 後のために，自由エネルギー W（K）を定義する． W (K) =− log Z(K) （18）この自由エネルギーの微分は， dW dK = H exp(−KH) Z(K) = H (K) （19） となって，温度 K におけるエネルギーの期待値である． さらに微分すると，エネルギーの揺らぎの 2 乗に比例する． d2_W dK2 =−( H 2 _H 2_{) =} _(H _{H )}2 _≦₀ （20） これは正にはなり得ないから，自由エネルギー W（K） は（上に）凸関数である．ある配位に対してその温度クラスを推定する．正答率を最大化するためには最尤推定を行えばよい．すなわち， 式（16）の確率を最大化するような温度クラス Kjを選ぶのが最尤推定である．各配位に対してそれぞれ最尤推定を行えば，正答率の理論的上限値を与える．ある温度における配位の発生確率（16）は，その配位でのハミルトニアンの値（エネルギー）のみで決まる．図 3 は，横軸にエネルギーの値をとり，16 個の温度クラスごとの配位の発生確率を描いている．左から右へ K＝0.2 から K＝0.5 まで 16 クラスの図である（正規分 布近似）．この一部分を拡大したのが図 4 である．最尤推定は，各配位ごとに最大の確率を与える温度を選ぶことになるので，図 4 の上部境界線に対応する温度を選ぶことにな図 3　温度ごとのエネルギー確率密度関数

(5)

る．すなわち，点 A から点 B までのエネルギー領域に 属する配位においては，温度 K1が最尤推定である．点 Bに対応するエネルギー EBは式（16）を両側の温度で等値して対数をとると EB=−(log Z(K2)− log Z(K1))/∆K （21） と求まる．これは自由エネルギー W（K）＝−log Z（K）の 2点（K1，K2）を結ぶ直線の傾きであり，その凸性（20）から，両端での接線の傾きにはさまれた値となる． H (K1)≧EB≧ H (K2) （22）温度クラス 16 個の事前確率は等しいと設定すると（そのような学習データを与える），最尤推定における温度出力の正答率は，図 3 の上部境界線下側の面積を全体の面積（各密度関数の下側の面積の合計＝16）で割ったもので与えられる． エネルギーを変数とする確率密度関数 P[E, Kj]dEは，エネルギーを決めたときの配位の数（エントロピーの情報）がわからないので，計算できない．しかし最長の相互作用距離を制限した長距離イジング模型では，Block Decimation Renormalization Group（BDRG）という くりこみ群の方法によって W[K] を直接計算することが できる [Aoki 08]．これを微分して確率密度関数の期待値と分散が得られるので，正規分布で近似する．他の物理量を（同時に）使うことに意味はあるだろうか．与えられる配位はスピンの並びだから，例えば，機 械は，いや人間も，全スピン S＝iσiという物理量に「眼」を奪われやすいだろう．紙幅の関係で，結論だけを述べれば，残念ながら，エネルギー以外の物理量を正しく測定して入力情報に加えたとしても，温度推定の正答率を上げることはできないことが厳密に証明できる．さて，距離 8 までの相互作用を入れた長距離イジング模型において上記の方法で計算した温度推定正答率の理論的上限は 43.6％である．すると，深層学習マシンの与えている結果 42.2％は十分に理論的上限に近いことになる．この事実は何を意味するのだろうか．深層学習マシンには，配位とそれを生成した温度クラスの情報しか与えていない．すなわち，上記の理論的上限を計算するときに使った主役のハミルトニアンという最重要な概念（配位の関数）は与えていない．理論的上限の正答率に迫るためには，図 4 にあるように，配位のエネルギーの関数として一意的にある温度クラスを選ぶことが必要である．それがぶれて，別の温度クラスを選ぶとその分だけ正答率が下がる．すると，理論的上限に近い正答率を得た深層学習マシンは，温度推定の最適化をはかる過程で，配位から計算されるハミルトニアン（関数）を内部に構成し得たといえるのではないだろうか．このことを確認するために，学習後のマシンがどのように温度クラスを出力しているかを図 5 に示す．横軸は配位のエネルギー，縦軸は 16 段階の温度クラスである．もし理論的上限を得る出力ならば，それは図 5 の線にあるような階段関数になる．実際には，けっして一意的ではなく，上下にぶれた結果を与えている．図 5では頻度が見えないので，エネルギーを bin（0.0032 刻み）に分けて，出力温度クラスの平均値を計算したのが図 6 である．まず，エネルギーの関数として，単調増加出力をしていることがわかる．また，各階段の中央では，フラットになる傾向が見える．出力温度クラスごとに，理論的上限に対応する階段関数値を与えている割合を計算すると，図 7 となる．両側が高くなるのは，間違える方向が一つしかないからである．まだまだ最適化 K K   E P A E A B B E 図 4　最尤推定温度の決定図 5　配位のエネルギーと出力温度クラス図 6　配位のエネルギーと出力温度クラス平均

(6)

あるいは統計が足らないが，全体で平均すると，この割合は 81％となる．これは，配位からエネルギーを計算するハミルトニアンを正しく認識できた割合（この精度レベルで）と考えられるので，ハミルトニアン認識率（Hamiltonian Recognition Rate：HRR）と呼ぶ．

もう一つ別の確認をしよう．図 3 は，生成温度ごとの入力配位のエネルギー分布であった．他方，図 8 は出力温度クラスごとに，その出力をした配位の数をエネ ルギーの関数として示した．ともに左から右に K＝0.2 から K ＝ 0.5 まで 0.02 刻みのクラスが順に並んでいる． 理論的上限マシンならば，柱が 16 本立っているような姿になるはずである．柱の境界に混合は残っているが，図 3 と比較してよく分離されていること，つまり，学習後のマシンが精度は多少悪くとも正しいハミルトニアン関数を内部にもったことを示している．この正しさの度合いがハミルトニアン認識率 81％である．温度推定の正答率そのものは 100％にはほど遠い結果（42.2％）であるが，それ自身には何の問題もない．重要なのは，理論的上限への近さである．理論的上限に近いマシンが，ある温度で生成した配位を入力したときに出力する温度クラスの分布は，入力温度で生成した配位のエネルギー分布を表しているのである．つまり，温度推定という学習で最適化したマシンは，系のハミルトニアンを内部に生成し，エネルギー分解を行う，いわばスペクトルメータ（スペクトル分析器，光を色に分解する プリズムのような道具）となる．温度 K 推定を行うマシ ンを最適化することによって，その「共役」な物理量で あるエネルギー E についての分解能力が身につくのであ る． 図 9 は K ＝ 0.30 と K ＝ 0.42 の二つの入力温度の配位 を最適化されたマシンに入力し，その出力温度クラスを示す．それぞれ山が一番高いところが，入力温度に対応する出力温度クラスである．これは，「温度推定をこれだけ間違えました」と読むべきグラフではない．ある温度のときに，その配位が示すエネルギースペクトルを示しているのである．さて，このように最適化されたマシンは，同時にその構造（最適化された各種パラメータ，特に最終段の全結合層と呼ばれる部分）に相転移点に対応した特別な温度 （Kc）の存在を書き込むという議論や実験がある．この仕組みについて考えてみよう．上で示したように，最適化されたマシンは，入力された配位集合をエネルギースペクトルに分解する．ある特 定の温度 Kcで相転移が起こる場合，その温度でエネルギースペクトルに何らかの「特異性」が現れるならば，それは必然的にマシンのパラメータに刻み込まれるはずである．それは比熱の特異性にほかならない． 一般に温度が相転移点に近づくと，比熱 C [K ]（温度 図 7　出力温度クラスごとのハミルトニアン認識率図 8　出力温度クラスごとの配位のエネルギー分布図 9　入力配位集合のエネルギースペクトル分解 0.5 1 1.5 2 2.5 3 3.5 0.2 0.25 0.3 0.35 0.4 0.45 0.5 n= 8 n= 4 n= 2 n= 1 Speciﬁc Heat C K 図 10　比熱の最長相互作用距離と温度への依存性

(7)

を単位分上げるために必要な熱量） C[K] =−d H_dK(K)=−d 2_{W (K)} dK2 （23）は急激に増加する．比熱は，自由エネルギーの凸性（20）のところで議論したエネルギーの揺らぎだから，相転移点に近づくとエネルギーは大きく揺らぐのである．温度を等間隔ΔKで離散的にクラスに分けて描いたエネルギーの確率密度関数（図 3）を思い出そう．ここで 隣り合ったグラフ間の「距離」D は D(K) =−d H_dK(K)∆K = C(K)∆K （24）である．他方，確率密度関数の広がり（標準偏差）は揺ら ぎの平方根 C（K）にほかならない．このクラスでの「正答率」はこの二つの比 D(K) C(K)= C(K)∆K （25） の増加関数である．比熱 C（K）が特異的に大きくなる温 度があれば，そこでの正答率が増加し，その性質が最適化されたマシンの構造に刻み込まれる．入力は温度で指定され，学習によってエネルギー分解能力を得るわけだが，これは温度とエネルギーの対応関係の把握ともいえる．この関係には固有のスケール比があり，そのスケール比（比熱）が相転移点近傍で異常に大きくなるのである．最長相互作用距離を固定した長距離イジング模型の場合には，厳密には相転移は起こらず自発磁化も発生しない．しかし，最長相互作用距離を延ばしていくと，比熱の特異性の前兆が現れる．図 10 に比熱の温度依存性を 示す．最近接相互作用だけの場合（n＝1）には比熱は 単調減少関数であるが，距離 2 の相互作用から比熱の最大値が現れ，最長距離 8 でははっきりと見える．その位置は，他の方法で推定されているこの模型の相転移点 Kc≅ 0.4の近くにある．したがって，最適化された結合パラメータのこの温度クラスあたりに特異性が現れることが期待できる．この状況は，図 3 の理論曲線においても見て取れる．比熱つまりエネルギーの揺らぎが大きいほど，確率密度関数の頂点は低くなる．また，エネルギースペクトルメー タという解釈で見る図 9 では，K＝0.42 のほうが揺らぎ が小さくなっていることが観測できる．これは逆に思えるが，このスペクトルメータはあくまで出力温度クラス分布で測定するので，温度とエネルギーのスケール比の変化も考慮すると，相転移温度近傍で幅が狭くなるのである．だからこそ，正答率が向上する．この特異性が学習したマシンのどの部分にどのように刻み込まれるのかを考察するためにマシンの最終段を具体的に構成する．フィルタサイズ 2 の畳込みを例えば 6 層繰り返すと，1024 のサイトは 16 サイトにまでくりこまれている．これを 16 個の温度クラス出力に全結合層でつなぐ．系の並進対称性から，全結合のパラメータは並進対称とする．すると，16 サイトの平均値をまず求 めて x とし，この値と 16 個の出力を結合することになる． なお，以下ではチャネル数は 1 とする．機械は学習によってハミルトニアンをよく認識し，こ の x に反映させているはずである．一般的には x＝C1E ＋C0 という形で最適化されると期待される（この範囲に，完全最適解があるからである）．この線形変換はエネル ギー E の単位と原点の変更に過ぎないので，物理的な結 論は変わらない．そこで表式を簡単にするために，以下 では x＝−E とする． この x から最終出力 yjを，ウェイト wjとバイアス bj を用いて全結合出力する． yj= wjx + bj=−wjE + bj, j = 0,· · · , 15 （26） この yjを通常の softmax 関数によって規格化し，

qj(E) = softmaxj(y) = exp(yj)/ i exp(yi)（27） q（E）を E を測定した後の，温度 Kj jに対する出力推定確率とみなす．これを，深層学習する配位集合全体における正しい事 後確率 p（E）（エネルギー E を決めたときの温度 Kj jの 事後確率，つまり P[E, Kj]（16）を E を固定して j について規格化したもの）と比較し，その交差エントロピー − k j pj(Ek) log qj(Ek) （28） を最小化するようにマシンパラメータ（wj, bj）を決定する．ここで，Σkは対象の配位集合の中の配位すべてについての和を意味する．ここで考えているモデルでは，交差エントロピーを最小値とする完全最適解を構成できる．すなわち，自由エ ネルギー W を用いて，すべての E に対して exp(−wjE + bj) = exp(−KjE + W (Kj)) （29） が成立すれば，すべての E で q（E）＝ pj （E）が成立する． j 一般的には上式の両辺が E のみによる係数で比例し，交 差エントロピーは最小となることが必要十分条件であるが，簡単のために等号で扱う．そうしても，以下の結論の本質的部分は変わらない．条件（29）を満たす解は wj= Kj, bj= W (Kj) （30） つまり，最終段のマシンパラメータのウェイト wjは温 度 Kjの情報となり，バイアス bjは温度 Kjでの自由エネ ルギー W（Kj）となる．これは著しい結果である．この二つの情報を合わせれば，温度の関数としての自由エネルギーが最適化されたマシンのパラメータから得られる （マシンは温度クラス j という概念しか伝えられていな いので，温度そのものの大きさは事前には知らない）．この二つの情報から自由エネルギーの温度による微分

(8)

が計算できるので，エネルギー期待値も比熱も計算できる．温度は離散的なので微分を差分に置き換えて，エネルギー期待値は H j= dW dK = bj+1− bj wj+1− wj （31）比熱は， C[Kj] =− d2_W dK2 =− bj+1− 2bj+ bj−1 (∆K)2 （32）と計算できる（表式を簡単にするために，温度はΔKの等間隔とした）．すなわち，比熱の温度依存性は最適化されたマシンパラメータに刻まれたわけであり，その特異性から相転移温度が測定できる．これまでの解析 [Arai 18, Tanaka 17]は，ウェイト wjに相転移情報が刻まれるという主張であるが，交差エントロピーを最小化 したマシンでは，wjは入力温度の情報しかもたず秩序パラメータの役割は果たせないと考えられる．相転移には比熱の特異性だけではなく，例えば，磁化率にも特異性が現れる．一般に磁化率の特異性のほうが比熱の特異性よりも強い．つまり，相転移点に近づくと，スピンの揺らぎが急に大きくなるのである．この特異性を直接マシンに刻み込むためには，外部磁場をかけた配位集合を学習させればよい．深層学習が統計系の温度推定を通して学ぶものは，ハミルトニアン（配位からエネルギーを与える関数）である．そして，softmax 関数による出力と配位集合の間の交差エントロピーの最小化という最適化によって，温度の関数としての自由エネルギーがマシンパラメータに刻まれ，相転移に関する情報を測定可能であることがわかった．この結論は一般的なもので，モデルの詳細や系の次元にはよらない．

4．ま　　と　　め

紙幅も尽きてきたので，簡単にまとめよう．一つ目のセクションのくりこみ群，二つ目の統計系の深層学習を論理的につなぎたい，というのが本当の課題であった．しかし現時点では，まだ橋がかかってはいない．くりこみ群において大事なことは，くりこみ変換は「マシン」パラメータの設定そのものであり，最終的な結果による最適化は考察するにしても，何らかのポリシーで一意的に決めておく必要がある．特に，多段の畳込みを繰り返すのがくりこみ群の真髄であり，それぞれの畳込みが「同じ」操作を繰り返すことに重要な意味がある．だからこそ「くりこみ群」と呼ばれる．繰返しのおかげで，くりこみ変換の固定点の発見，固定点近傍での変換の線形近似，線形近似の固有値分解，固有値による相互作用の分類，マクロで重要な相互作用（特徴量）の自動的選び出し，と展開できる．系の温度は，くりこみ変換の対象であって，相互作用の一つの，そして最も重要な要素（軸）に対応する．段数を進むにつれて相互作用がどのように変化するのかが物理の本質であり，その中で「温度」に対応する相互作用が「自動的」に重要になり，相転移現象の発現や各種物理量の解析につながる．他方，統計系の深層学習では，温度がいろいろと異なる系の配位をすべて「同時」に入力として使う．畳込み構造の各段はそれぞれが独立したパラメータとして最適化される．「温度」だけが入力配位を決定するパラメータなので，温度推定を最適化する．最適化の後のマシンは，配位の出現確率を決定するうえで温度と「共役」な物理量であるエネルギーのスペクトル分解能力をもつ．このように中心概念である「温度」あるいは「最も重要な相互作用」の「位置」が，くりこみ群と統計系の深層学習で全く異なっている．これを整合的に理解するにはまだ距離がある．ここでは紹介できなかったが，制限ボルツマンマシンによる統計系の表現がちょうどその中間に位置していると思われる [Aoki 16, Mehta 14]．温度を固定した配位を用いて制限ボルツマンマシンを最適化し，多段で繰り返せば，くりこみ群的な系の分析を，別のタイプの最適化条件を課して構成することになる．「類似」を「関係」に昇格させようと追及してきたが，「似て非なる」要素も見えてきた．いずれにしても，そう簡単に橋はかからないが，むしろそのほうがよいのではないか．緊張関係が続くほうがよいのではないか．それでこそ，少しでも橋がかかれば，くりこみ群にとっても，深層学習にとっても，全く予期しない視点からの展開を惹起するに違いない．謝　辞藤井康弘，小内伸之介，堀祐輔，熊本真一郎の各氏との非常に有意義で刺激的な相互作用に，そして，深層学習の基本をご教示いただいた安田宗樹氏に深く感謝する．

◇　参　考　文　献　◇

[Aoki 08] Aoki, K-I., Kobayashi, T. and Tomita, H.: Finite-range scaling method to analyze systems with inﬁnite-Finite-range interactions, Prog. Theor. Phys., Vol. 119, p. 509（2008） [Aoki 09] Aoki,K-I., Kobayashi,T. Tomita, H.: Domain wall

renormalization group analysis of 2-dimensional ising model,

Int. J. Mod. Phys. B, Vol. 23, p. 3739（2009）

[Aoki 16] Aoki, K-I., Kobayashi, T., Restricted Boltzmann machines for the long range ising models, Mod. Phys. Lett. B, Vol. 30, p. 1650401（2016）

[Arai 18] Arai, S., Ohzeki, M. and Tanaka, K.: Deep neural network detects quantum phase transition, J. Phys. Soc. Jpn., Vol. 87, p. 033001（2018）

[Mehta 14] Mehta, P. and Schwab, D. J.: An exact mapping between the variational renormalization group and deep learning, arXiv:1410.3831 [stat.ML]（2014）

[Tanaka 17] Tanaka, A. and Tomiya, A.: Detection of phase transition via convolutional neural network, J. Phys. Soc. Jpn., Vol. 86, p. 063001（2017）

(9)

2018年 5 月 16 日受理

著　者　紹　介

青木　健一 1982年京都大学大学院理学研究科物理学第二専攻博士後期課程単位取得退学．同年，京都大学基礎物理学研究所助手．1983 年理学博士（京都大学）．1992 年金沢大学理学部助教授．2001 年同教授．2008 年同理工研究域数物科学系教授，現在に至る．日本物理学会会員．藤田　達大 2016年近畿大学大学院総合理工学研究科理学専攻博士前期課程修了．現在，金沢大学大学院自然科学研究科数物科学専攻博士後期課程在学中．日本物理学会会員．小林　玉青 2008年金沢大学大学院自然科学研究科数物科学専攻博士後期課程修了，博士（理学）．2012 年米子工業高等専門学校講師．2017 年同准教授．日本物理学会会員．

深層学習は統計系の温度推定から何を学ぶのか

1．は じ め に