もうちょっとだよなー，ディープラーニング

(1)

あ　ら　ま　し編集者からの要望はちょっとふざけた題目である．これを好き勝手に書けということと解して，深層学習を巡っての著者の感想を，未発表の研究・考察を加えて披露したい．さらに，脳科学と関連させながら，人工知能の行くべき道を考えたい．

1．は　じ　め　に

深層学習の衝撃は，著者にとっては 2006 年の Hinton らの論文 [Hinton 06] に始まる．その後あれよあれよという間に，多くのパターン認識のコンテストで大勝利して，深層学習が一世を風靡した．人工知能時代の到来，さらに大きくは産業構造の変革をもたらし，社会と文明を変えるかもしれないとまでいわれる．個人的には，アルファ碁がもたらした衝撃が大きい．究極の知能ゲームといわれる囲碁で，人工知能が人類を大きく引き離した．しかも，深層学習を用いさえすれば，DeepZen などの他の囲碁プログラムも容易に強くなる．でも，ディープネットワークは昔のパーセプトロンとほとんど同じである．創始者の Rosenblatt 自身も，深層構造そして再帰結合のパーセプトロンを考えていた [Rosenblatt 61]．ただ，当時の計算能力では実現できなかっただけである．基本となる多層回路網の学習法としては，著者が 1967 年に提唱した確率勾配降下法が相変わらず使われている [Amari 67]．このほか，福島邦彦が提唱した畳込み構造も画像処理では極めて有力である [Fukushima 80]．もちろん，制約ボルツマン機械，ドロップアウト，ReLU など，いろいろな新しい工夫があるにはある．計算能力が上がり，訓練データの数が無尽蔵になったことも事実である．とはいえ，本質的な飛躍をもたらしたものは何であるのか，ここが明らかでない．有力な神話は，情報表現の革命という見方である．層を重ねるにつれ，入力情報に含まれるより高次の構造を開示する表現が得られる．この表現を学習により自動的に獲得することが，素晴らしい能力の秘密であり，本質的な革命であるという．なるほど肯ける説明ではある．でも，なぜこのようなことが起こるのか，納得のいく説明はない．「Google のネコ」という話があるが，あんな茶番劇で満足してはいけない．階層が進むと現れる「標準ネコ」のようなものがどうしてネコの高次の特徴なのか，とんでもない．あれはむしろ無用に多数の素子を使うことで偶然に現れる，むだの一例ではないのか．結果がうまくいったのだからよいではないか，理屈で説明する必要はないという考えもあろうが，理論家は納得しない．良いものは基本的な原理を捉えているはずであり，説明がついてこそ安心して使えるし，その後の発展もある．実は，多くの理論家が歯噛がみをしながら，しかし勇躍としてこの問題に取り組んでいる．老いぼれとはいえ，著者もその一人である．本稿では，未発表のアイディアも含めて，著者の考えを若い諸兄に披露してみたい．少しでも参考になり，これをさらに発展させてもらえたら望外の喜びである．さらに，脳科学と人工知能をつなぐこれからの方向を展望することで，締めくくりたい．

2．脳と人工知能─共通の基本原理

脳は素晴らしい情報処理装置である．人の脳は知的な機能を宿し，高次の精神機能を実現するまでに至った．ニューロンからなる装置がこのような機能が備えるのは，情報処理に関わる高度の原理を獲得できたからにほかならない．ニューロンのような素子を用い，並列のダイナミクスで情報を処理し，しかも学習機能を備えているシステムには素晴らしい可能性がある．それを保証するのが情報の原理である．原理は一つではなくて，機能に応じ，またミクロからマクロまで多数ある．人は進化の過程でこれらの原理を獲得し，脳内に装着していった．もちろん，進化はランダム探索である．遺伝子のたまたまの変動で，生存に都合の良い方向に変異が起これば，これが定着する．生存に有利な原理を獲得したものが生き残る．ただ，これには大きな制約があった．一つは使える材料の制約で，生命体はアミノ酸，タンパク質，細胞といった生理的な材料を使うしか道がな

もうちょっとだよなー，ディープラーニング

A Little More Is Yearned For Deep Learning

甘利　俊一

理化学研究所脳科学総合研究センター

Shun-ichi Amari RIKEN Brain Science Center. [email protected]

Keywords:

mathematical neuroscience, natural gradient, statistical neurodynamics, consciousness. 「脳科学と AI のフロンティア」

(2)

かった．もう一つは歴史的な制約である．良い仕組みを一つ獲得した後，さらに良くするのに，前の仕組みをご破算にして素晴らしいものを装備するわけにはいかない．前のものを残しつつ，その上につくるしかない．こうして，古い残骸を残しつつ改良と飛躍を積み重ね，現在の脳が出来上がった．だから，脳には一貫した設計思想がない．原理を獲得したとはいうものの，試行錯誤のすえ古い残骸を残しつつ，それでも素晴らしいものが実現した．著者は脳が獲得した情報の基本原理に興味があって，それを実現する過程でのごたごたにはあまり興味がない．これは，著者が情報科学の立場で脳を見ているからである．正当な脳科学者の立場はこれとは違う．彼らは，歴史的な制約も含めて，あるがままの脳に興味をもつ．生物学としては，情報原理などは二の次で，脳のあるがままの仕組みが，その歴史性も含めて興味があるからである．だが，実際のごたごたの脳を詳しく調べていって，そこから情報の基本原理を理解するのは並大抵のことではない．著者の提唱する数理脳科学は，大げさにいえば，現実の脳の詳細はいっさい無視して，いきなり原理に迫る．そのためには，なるべく簡単な神経回路のモデルを準備して，その特性を数理的に解析することにより，そこに実現可能な情報の基本原理を理解する．これがわかれば，現実の脳で，これらの原理がいかなる形で装着されているかを調べるという脳研究の大きな指針が得られる．数理脳科学は，現実の脳ではなくて，架空の脳を捉えようとしている天空の学問であるという悪口がある．それはそのとおりである．この批判には，情報の原理が大切なのだと開き直るしかない．人間の知的機能を機械で実現する人工知能の手本は脳である．ただそれは歴史的な制約を負ったごたごたの脳そのものではなくてよい．脳が進化の過程で獲得した情報の原理そのものを探求すればよい．これを現代技術の力で実現すればよいのであって，材料の制約と歴史的な制約に縛られた現実の脳をそのまま模倣することではない．人工知能，例えば深層学習は，情報原理を解明したうえで設計したわけではない．いろいろな工夫と努力の結果，深層構造を用いることでうまくいった．でも，何百段にも及ぶ階層にしても，苦し紛れに導入してうまくいったから使っているだけである．うまくいくからには，情報の基本原理の一端を捉えたに違いない．だから脳の場合と同じで，どんな仕組みがこの原理を実現しているのか，ここから遡って情報の原理を追及できれば，さらに高度な人工知能の実現につながる．脳のごたごたを見て，また深層学習の仕掛けの複雑さを見て，現実の優れた知能システムにはわかりやすく説明のできる原理などはない，ただただ複雑なシステムがあるだけだという，悲観論もあり得る．しかし，脳は進化の過程で合理的なものを捉えたからこそ素晴らしくなったのであり，合理的なものは原理として解明できるという楽観論を著者はもっている．科学の世界では，量子力学，相対性理論，遺伝など，およそ複雑で説明に困り果てた現象が，見事に合理的に認識できた．情報とて同じであって悪いわけがない．人工知能の歴史をひもとけば，記号と論理を標榜するいわゆる正統派人工知能と，脳の神経回路網を模してシステムをつくり上げるニューラルネットワーク派の対立があり，歴史はこの二つを軸に展開してきた．正統派は言語と論理推論を重視し，これこそが人の知能の基礎であるとする．ニューラルネット派は，並列計算の力学と学習機能こそが重要であると主張する．どちらにも一理ある．人はどうであろう．我々はニューラルネットを用いて並列の計算を行い，素早い決定を行う．これからの状況を予測（プレディクション）する．しかもこれは意識に上ることなく実行される素早い過程である．しかし，一方で自分の決定を意識に上らせ，他の多くの情報と照らし合わせて吟味し，いま行った決定に介入できる．これがポストディクション（後付け）である．この過程では言語による思考と論理が大きな役割を果たす．これこそが人のもつ高度の知的機能である．深層学習では，正統派が馬鹿にしていたニューラルネット派が勝利を収め，世を驚かせた．いまや，ニューラルネットで言語などの記号処理や時系列にも挑もうとしている．もちろん，人間は意識過程もニューラルネットで実行するから，これは驚くことではない．しかし，単純なパターン認識のような機能から，意識に上る言語や論理を扱う高度な知的機能を獲得するまでには，一段と高い飛躍が必要であった．これを考えれば，ニューラルネット一辺倒ではなくて，さらにポストディクション（意識）をもつ高度で深い人工知能を築くことが求められる．これもニューラルネットで実現してよいが，もう一段昇華した意識の機能下での機能のようなものを同時並行で付け加えることが必要になろう．著者も，意識の基礎である情報統合を情報幾何を用いて研究している [Oizumi 16]．

3．深層構造と学習─情報表現の獲得

深層構造は本当に高次の情報表現を獲得するのか，現在までのいろいろな試みを取り上げてみたい． 3･1 多層パーセプトロンの確率勾配降下学習多層パーセプトロンは，素子数を大きくとれば任意の入出力関係を実現できるという意味で万能である．これは，中間層が 1 層の回路でもいえることで，多層ならば何が良いかはここからは直ちにはいえない．万能な機械で学習によって正しい応答が得られれば，これは申し分ない．これを可能にするのが，入出力の例題を多数与え

(3)

て，損失関数を最小するようにネットのパラメータ（結合の重みなど）を調整する方法である．式で書けば，多 層の回路の入出力は，入力をベクトル x，出力を y（簡 単のためスカラとする）として y＝f（WL（ f（WL－1…… f（W1x）…）（1） のように書ける．皆さんよくご存じの式であり，W 達は 各層の結合の重み行列（バイアス項もここに含める）で ある．可変なパラメータWをすべてまとめてベクトルξ＝（ξ1, ξ2, …ξN）としよう．入力が x のときに，これをパラ メータξの回路で処理すれば，その答え y は教師の与え る正解とは違うかもしれない．このときの誤差の 2 乗を 損失関数として， l（x, y; ξ）と書くと，その勾配（ξによる偏微分）l を用いて，パラメータξの値を Δξ＝－η（x, y; l ξ）（2）によって変更するのが，確率勾配降下学習である．入出 力の対（x, y）は時々刻々とランダムに選ばれて与えら れるとすれば（オンライン学習），上式は確率差分方程式になる．パラメータを含む損失関数を最小化するのに，パラメータを勾配の反対方向に少しずつ動かせばよいという話は，1960 年代には非線形最適化や制御理論では知られていたらしい．また，データを逐次的に使って確率的に動かすアイディアは，確率近似法として Robbins と Monroが 1950 年代初めに提唱したものに起源をもつ．著者が 1967 年に提案したのは，多層パーセプトロンの中間層のオンライン学習法であった．当時のパーセプトロンは，0，1 の出力をもつしきい値素子を用いていたため，このままでは損失関数の微分ができず，最終層以外の中間層の学習法は知られていなかった．そこでアナログ値を取るアナログニューロンを用いたところが味噌で，中間層の学習法を提案したのである．また，著者は当時は無知で確率近似法を知らなかったため，学習の収束の条件として，学習係数ηを 1/t のオーダで変えてい けばうまく収束することを新発見と考えて，浅はかにも有頂天になったのを覚えている． 1960年代，ロシアでは Tsypkin が確率近似法を用いてこのような学習理論を大々的に展開していた．著者の理論もロシアに紹介され評判になったと，Vapnik から聞いた．何しろ当時このような学習理論を研究していたのは，ロシアと日本だけだったという話が伝わっている．時代が下って，第二次ニューロブームの最中の 1986 年に，誤差逆伝搬法がRumelhartらによって提唱されて，ブームの花形になった．多層回路網で損失関数の勾配（偏微分）を計算すると，関数の関数の関数と，入れ子になったものをパラメータで微分する．このとき，微分の微分の微分が積になって表れ，それは誤差が出力ニューロンから始めて逆方向に伝搬していくように見える．しかも，このように逐次的に計算すれば，計算量が少なくて済む．これは素晴らしい発見で，人々を魅了した．確率降下法では，誤差逆伝搬という解釈と計算の仕方は彼らの誇ってよい功績である．ただ，アナログニューロンの使用と確率勾配降下法は，彼らが最初ではない．確率勾配降下法を多層の神経回路の学習に使う理論は 1967 年の著者の論文にあり，世界で最初の多層回路のシミュレーション例は 1968 年発行の共立出版の「情報理論Ⅱ」に載っている．この辺の話は，「脳・心・人工知能」[甘利 16] に書いておいた．世の中では，関数の勾配は変化最大の方向を表すから，勾配を用いた方法は最急降下法といわれることもある．これはもちろん誤りである．どの方向が最急かは，いろいろな方向を比べて，同じ長さだけパラメータを動かしたときに，どの方向が最も大きく関数値を変化させるかを見なければならない．それには，各方向ごとに長さを計る物差しが必要である．パラメータの空間がユークリッド空間であれば，長さはどの方向でも同じである．このときに，勾配は最急降下方向を示す．しかし，多層パーセプトロンでは，確率的な入出力を想定するため空間はリーマン空間になり，長さを計る物差しはリーマン 計量行列 G で与えられる．これは Fisher 情報行列とし て知られるものになる．このとき，最急降下方向は˜ l＝ G－1 lである．だから，最急降下学習法は Δξ＝－η˜ l （3）のように書ける．これを自然勾配法と名付けた [Amari 98]．自然で当たり前の話だからである．自然勾配学習は学習の収束が速い．そのほか，数々の良い性質をもっている．しかし，パラメータの数が多い ときには G の逆行列を計算する手間が大変である．この ため，自然勾配学習の簡略計算法がいろいろと研究されている．フランスの数学者 Olliver はこれを徹底的に研究し，素子ごとに分離した unitwise natural gradient（これはもともとは日本の栗田多喜夫が提唱した，[Kurita 93]）は計算の手間もあまりかからず，しかも大変良い性能を与えることを大規模なシミュレーションで明らかにした [Ollivier 15a]．特に，再帰結合をもつ回路のダイナミクスに適用し，LSTM を用いた方法よりもずっと簡便で性能が良いことを報告している [Ollivier 15b]．本節の最後に，深層学習の研究者があまり知らない多層回路の特異構造について報告しておきたい．第二次ニューロブームの頃，小規模な回路でシミュレーションを行ったときに，学習がプラトーと呼ぶ平坦部分に引っかかり，大変遅くなることで人々を悩ませた．これは，ある種の対称性に起因している．すなわち，素子の番号の入替えに対する不変性からくる．ところが，現代の大規模シミュレーションではプラトーの話はあまり聞かれず，それほど深刻ではないらしい．この原因を究明する必要がある．プラトーと呼ぶ学習の遅滞は，素子の対称性に起因すると述べた．もっとわかりやすく言うと，二つパラメータξとξ_{が違っていても，それが表す関数は同じである} ことがある．具体的に述べれば

(4)

y＝νf（W･X） （4） という関数を考えれば，パラメータは（v，w）であるが， v＝0 であれば，w が何であってもその表す関数は同じで， この場合 0 である．パラメータ空間 M＝{（v, w）} で，v＝ 0となる w 軸上の点はすべて，同一の関数を与える．同 一のもの（同値のもの）を一つにまとめてしまえば，w 軸は一点に縮む（図 1）．これが特異点であり，パラメー タ空間では w 軸の全体が特異領域になる． もう少し複雑な，入力が n，中間層が 2 素子，出力素 子が 1 素子の，極めて単純な（n－ 2－1）型の回路を考 えよう（図 2）．これは大規模の深層回路のどこにでも含まれる部分回路である．その入出力関係は y＝ν1f（W1･X）＋ν2f（W2･X）（5） となる．パラメータ空間は（M＝{w1, w2, ν1, ν2}）である． ここで w1＝w2を満たす領域を考えると，この領域上ではν1＋ν2が一定である限り，個々のνiの値に関係せず， 関数 f は同じものになる．だから，パラメータの空間で ν1ν2｜w1－w2｜＝ 0 （6）を満たす領域が特異領域になり，この領域上では出力関数はどれも同じものである．同じものを一つに縮めて，パラメータ空間で同値のものをひとまとめにした（同値類で割ったという）空間は，特異点を多数連続に含む，おもしろいトポロジーをもっている．また，パラメータ空間上では特異領域が至る所連続に散りばめられている．この構造を調べるのは面白いのだがそれはさておいて，特異領域内でパラメータを動かしても関数の値は変わらない．つまり勾配が 0 になってしまう．だから学習が進まない．これがプラトーと呼ぶ現象である．これをパラメータの空間で考えれば，特異領域において，その一部が吸引領域になり，他の部分が反発領域になることが起こる．すると，学習はこの特異領域上で動きの方向を失い，確率的な変動で，吸引領域から反発領域まで移動する．ここでやっと特異領域を抜け出せる（図 3）．これは Milnor アトラクタと呼ぶ特殊な力学系になり，ここで学習が遅滞する．ところが，パラメータの変化の大きさを計る Fisher 情報行列は，特異領域内での同値性を反映して，この方向での長さを 0 と評価する．言い換 えれば行列 G は特異行列になり， G－1_{は無限大に発散す} る．ところがうまくしたもので，自然勾配法の G－1 l は， 無限大掛ける 0 であるがうまく収束して，特異領域やプラトーなどどこ吹く風で，あたかも何もないかのように学習が進む．そう口では言っても，これはきちんと解析しなければいけない．特異領域近傍での学習のダイナミクスの解析は結構大変で，これまでにいくつかの論文を書いた．しかし不満が残ったので，80 歳を超えた今，最後（？）の仕事をしたいと思って頑張った．これはできて胸が晴れたのだが，残念なことに面白い現象を発見してしまっ た．これまで（n－2－1）型を解析してきた．出力素子 を m に増やして，（n－2－m）型にする．このとき，出 力素子同士が学習で相互作用をして，Milnor アトラクタを消してしまう．特異領域はそのまま残るが，それはもはや Milnor アトラクタをつくらず，学習は遅滞しない．もちろん，特異領域は残るから，ここがサドルなどをつくって，学習は停滞するかもしれない．自然勾配法はこのときも有効である．著者は，特異領域こそが学習遅滞の主犯であるから，その要素となる小規模な回路の解析を通じて，深層学習の遅滞の主要因である Milnor アトラクタに迫るつもりであった．その目論見がくずれてしまった．でもこれは，面白い発見ではある．残念であるが，大規模回路網では Milnor型アトラクタは消滅するという趣旨の論文を書く羽目になった [Amari 17]．まだ査読中であるが，本稿が発行される頃には掲載されているだろう． 3･2 自己組織化学習多層パーセプトロンに，自己組織学習を予備として行わせるというのが Hinton の優れたアイディアであパラメータ空間 関数 f（x, ξ）の空間 ν w 図 1　特異領域反発領域吸引領域特異領域図 3　特異領域と Milnor アトラクタ ν1 W1 W2 y x ν1 図 2　n－2－1 型パーセプトロン

(5)

り，Bengio らのオートエンコーダでもこれを行える． Hintonらの場合は，制約ボルツマン機械を用いるもので，彼の長年にわたる執念を感じさせる素晴らしいものである．もっとも最近では予備学習なしでも，腕力で確率降下学習を進めればそれでうまくいくという，味も素っ気もない話も伝わってくるが，情報表現の形成という意味では，自己組織化学習は興味がある．まずは初心に戻って，1 個のニューロンの自己組織化学習から始めよう．1 個のニューロンを取り上げると， その動作は y＝f（w･x－b）である．これが外界から信 号 x を受け取って，Hebb 方式で学習するとしよう．外 界の信号は構造をもっているとし，それが確率分布 p（x） で表せるとする．話を簡単にするために，入力信号 x は， 半径 1 の球 x･x＝1 の内部に束縛されているものとし， バイアス項も導入する．このとき，Hebb 学習の方程式として w˙＝η（－w＋cx）f（w･x－b） （6）が得られる．これを，入力の確率分布の下で平均化し，解析すればよい．このとき Lyapunov 関数 1 2 H（w, b）＝c（w･w－b）＋_{－｜w｜}2 _（7）が得られる．結論をいえば，この学習によって，各ニュー ロンは確率分布 p（x）のクラスタのピークに吸い寄せら れ，受容野の中心が確率分布によるその重心に一致するところが平衡状態になる．つまり，個々のニューロンは，入力の各クラスタの重心を捉えて，それを表現するものをつくる．このときの受容野のサイズを解析でき，これはバイアス項によって制御される．このあたりの話は著者の未発表の解析である． 1個のニューロンをばらばらに考えたのでは，このようなことしかできない．しかし多層にしてニューロン間に相互作用を入れれば，もっといろいろなことができる． 2層のボルツマン機械を考えよう．こんな単純な場合でも，この機械は入力分布の（非線形化した）PCA を行えること，さらにアナログニューロンであるガウス型のボルツマン機械では独立成分分析（ICA）が行えることを，唐木田達は示した [Karakida 16]．多層にすればもっといろいろと気の利いたことができそうである．しかし，それには例えば自然画像入力の分布がどんなものであるかを知り，そこから高次の構造を示す特徴がどのように抽出されるかを知らなければならない．例えば，入力の分布が大クラスタに始まり，その中に細分した子クラスタがあり，さらに孫クラスタがあるといったような単純なものであれば，階層ネットワークはこれを自己組織化では捉えることができるであろう．しかし，自然画像の分布はそんな単純なものではない．別の考えとして，自然画像の一つのカテゴリーは，比較的次元の低い部分空間の集まりとしてクラスタをなしているという仮説も有力である．しかしこの取扱いも難しい．最近の傑作は GAN というアイディアで，これは研究者を驚かせた．これはランダム入力をもとに自然画像（らしきもの）を生成する多層回路と，できた画像が本当の自然画像かそれとも人工的なものかを識別する批判者の役割を果たす多層ネットワークからなり，両者が競合する．すなわち，人工的に生成された画像の自然画像らしさを評価関数として，生成者はこれを上げるように，批判者はこれを下げるようにパラメータを学習する．つまり，ミニマックスゲームを行う状況である．これで自然画像に極めて類似したものが生成できるようになるという驚くべき結果である．ただ，学習はいささか不安定で，分布間の距離として情報幾何を用いた fGAN や WGAN などが提唱されている．こうしたモデルから，自然画像分布の構造，さらにはその高次特徴なるものが明らかにされるかもしれない．これからが勝負である． 3･3 多層回路網の統計神経力学多層にすると，中間層が一層でニューロン数が多い幅広回路と比べて何が本質的に違ってくるのか，ここに理論家の興味が集中している．例えば，多層でニューロン数が巨大になると，損失関数の特異点は，そのほとんどがサドルであって，極小点にはならないという観測が，ランダム行列の理論を援用して現れた．しかも，損失関数のヘッセ行列は，その固有値が 0 の近くに集積するという．これは，極小点に引っかかって学習が止まるという悪状況はあまり起こらないこと，でもサドルの弊害は顕著であることを示唆する．さらに強力に，スピングラスの理論を援用して，極小点は多数あるものの，その値はどれもほぼ最小値に近いという話が現れた．これはシミュレーションでも確かめられていて，大変な朗報である．極小点に引っかかって，良い性能が出ないという難点が巨大多層の回路網では回避できるという話だからである．本節では，統計神経力学を援用し，層数の大きなネットワークにおける情報変換ではどのような事態が生じているかを見よう．これは Poole らの優れた論文に触発されて，新たに考察した未発表のものである [Poole 16]．彼らの論文では引用していないが，ここでは著者が昔に開発した統計神経力学，特にその距離法則を再発見して用いている [Amari 74]． 話を簡単にするために，n 次元の入力信号 x を m 個 の素子をもつ層状の回路に入力し，これを m 次元のベ クトル y に変換したとしよう．式は簡単で y＝f（Wx） （8） である．次元 m が n より大きい場合（等しい場合も含 めてよい）と，小さい場合では話が大きく違ってくる． mのほうが大きい場合は，n 次元の入力空間 X が，m 次元の空間 Y に挿入されるが，変換は非線形であるから， この像は m 次元空間 Y の中の曲がった n 次元部分空間 になる（図 4）．一方，m が n より小さい場合は，X を

(6)

圧縮して次元の低い Y に押し込むので，X の多数の点が Yの同一の点に写る．情報圧縮である． 変換は結合行列 W に依存していて，一般論を展開す るのは難しい．そこで，W の要素 wiaは，どれも独立で 平均 0 分散 1 のガウス分布に従うとし，Wx の成分を ui＝

∑

wiaxa （9）のように書く．このような回路は乱数を用いて無数につくれるが，そのほとんどすべての回路に共通する性質を調べるのが神経統計力学である．学習する回路は，結合の重みの初期値をランダムに設定しても，学習によって目的にかなうように変わっていくからもはやランダムとはいえない．しかし，広い目で見れば，ランダム回路と同じような性質をもつことは十分に考えられる． まず， uiの分布を調べると，これは各要素ごとに独立で，平均 0，分散が 1 n xi2 σ2＝A＝

∑

（10） であるようなガウス分布になる．A 入力信号の発火率の 2乗の平均で，x の活動度と呼ばれる．統計神経力学の第一歩は，層状回路を通すことによって，活動度がどう 変わるか，y の活動度を A_{としたときの変換の公式} A_{＝ F（A）} _（11） を導き出す．読者は F を容易に求めることができるだろ う．層を重ねていけば，この式が繰り返され，活動度 A は Aˉ ＝ F（Aˉ）を満たす平衡状態 Aˉ に収束する．多層回 路網のダイナミクスの第一歩である．これだけでは，活動度というマクロの量の変化を追うだけで興味がない．統計神経力学はミクロな構造をも明 らかにできる．いま，二つの入力 x1, x2 がどのくらい離れているかを示す距離 1 n

∑

｜x1a－x2a｜2 D（x₁, x2）＝（12） を考える．次の層にいけば，x1, x2がそれぞれ y1, y2に写 るから，写像先での両者の距離は D から 1 m

∑

｜y1i－y2i｜2 D_＝ _（13）に変わる．すると，この変換を示す法則 D_＝K（D） _（14）が得られる．これは，著者が 1974 年の論文で発表した成果で，後に（著者のことを引用することなく）再発見 されて使われるようになる．この法則を用いれば，X か ら Y への写像のより細かい性質がわかる． ここでは，X での距離がどう変わるかを空間の計量と いう見方で調べる．微小線素の長さ dx の 2 乗は，リー マン計量行列 G を用いて二次形式 ds2＝ g

∑

abdxadxb （15） で表される．空間がユークリッドであれば，G は単位行 列である．空間 X が空間 Y に写されると線素は dy にな るが，その成分は dyi＝ f

∑

（Wx）W iadxa （16） になる．空間 Y はユークリッド的であるとすれば，その 長さの 2 乗は （dy）i2

∑

ds2_＝ _（17） この長さを元の X の線素で表せば，これは新しい二次形 式 G_を用いて g_abdx_adx_b

∑

ds2_＝ _（18）となり，計算によって，ここから計量の変換法則 G_{＝ L（G）} _（19） が得られる．これは X では G であった計量が，高次元 へ挿入した Y での長さをもとにすれば G_{に変わるとい} う法則である．本稿では詳しい解析は省く（これは未発表）が f L（G）＝（A）Gχ （A）＝ χ 1

∫

2π v2 2 （ A v）exp －     （20）である．χは活動度 A に依存したスカラ量である．この ような形の計量の変換を共形変換という．これは，空間の微小部分（接空間）を拡大縮小し，さらに回転するが， 2線間の角度は変えない．さらに， χが 1 より大きい場合，計量はどんどん大き くなっていく．微小線素 dx の長さは， χ倍に増える．これは，層を積み重ねてどんどん変換していけば，線の長さは指数的に増大し，無限に長くなることを意味する． こんなことができるのは，m が n より大きいからである． つまり，X を曲げて高次元に挿入すれば，広い空間をい くらでも有効に使える．層が進むにつれて次元が上がっていけば，いくらでも長さを伸ばせる． このことは，曲面の曲率を計算するとよくわかる．X での a 軸方向の単位接線ベクトルが，b 軸方向に少し動 くとどのくらい曲がってくるか，これを計るのが（Euler-Schouten）挿入曲率である．これも統計神経力学で計算できる．もう詳しいことは述べないが，曲率も層が進むにつれて指数的に拡大していく．長さが増えるのである から，空間は｜yi｜ 1 の超立方体に限られている以上，曲率が増える以外に長さの膨張に見合うことはできない． X Y 図 4　空間 X の高次元への写像

(7)

一方，m が n より小さい場合は，これとは全く違う． 行列 W は，核方向つまり N＝{ n｜Wn＝0} （21） を満たす方向の x を消去してしまう．このため，多数の xが同一の y に写り，空間が折り畳まれた多重写像にな る．もし，n 方向が情報を担っていないのならば，この 縮約はむだを省き，必要なものだけを取り出す優れた仕組みを与える．ただ，線形縮約という制約は付く．こうして見ると，ランダムに見える多層構造回路は，次元を上げることで高次元部分を使って微小距離を拡大する表現を繰り返すとともに，次元を下げることによってむだな表現を省き情報を縮約するという役目を果たしている．これは，中間層が 1 層の回路にはできない技である．だが，その本質的な構造，さらに学習で何ができているのかはもっと深い理論が必要である．著者は，2 点 x, x_{の距離 D（ x, x}_{）は層が進むにつれてどう変化し} ていくか，そのダイナミクスとそれが起こすフラクチュエーションを手掛かりに，何か新しい展望が開けそうな予感がして，これを追求してみたい．これに関連して，本章の最後に情報ボトルネックの議論を紹介しておきたい．これは Tishby が提案した理 論構想で，情報 x を中間層を経て y に移すときの，中 間層での表現 t についての話である．層を経るごとに次 元が減り，情報が縮約する状況を想定している．表現 t は，出力 y を出すに必要な情報を最大に含み，かつ x の （むだな）情報をできるだけ省くのが良い．情報理論言 葉でいえば，相互情報量 I [T：Y] を最大化するとともに I [X：T] を最小化するのがよい．これが情報ボトルネッ クである．彼らがシミュレーションで示したことは，誤差逆伝搬法で学習したときに，学習の初めのフェーズでは， I[T:Y]が増大し出力を正しく出すように学習が進むが， 次のフェーズに入ると今度は I [X：T] を減らす情報縮約 の方向に学習が進むというものであった [Schwartz-Ziv 17]．誤差逆伝搬法自体には情報縮約の考えは入っていない．それにもかかわらず，情報縮約が現れることは，極めて示唆に富んでいる．ここから多層回路網の情報表現に関する新しい理論が生まれるかもしれない．著者はこれにも期待している．

4．これからの人工知能

人工知能はいまや社会的な存在であり，これを抜きにして未来社会を考えるわけにはいかない．しかし現状では，人工知能のできることは極めて限られている．深層学習が素晴らしく，驚くほどの能力を示したのは事実である．しかし，それに目がくらんで，これを過大評価する必要はない．今の深層学習がそのまま人の知的な機能を実現するわけではない．深層学習は学習によるパターン処理能力を獲得した．画像などの静的なパターンに限らず，動的なパターン，音声，言語などのパターンの処理もできる．また，囲碁の強化学習に示すように，現状の評価から目的に沿った戦略を設計することができる．これらは人間の重要な知的機能であるが，どちらかといえば他の動物でも多かれ少なかれもっている機能である．つまり，ニューラルネットによる素早い情報処理に比較的向いている．それを超える人間の機能とは，意識を顕在化させ多くの情報を統合し，言語系を用いて論理的に推論する，比較的遅い情報処理である．ここでは，統合した世界像が自己の内部に形成される．人間においてこの機能が拡大し，文明社会を築くに至った．人工知能がこうした高度の機能を獲得するには，もっともっと脳に学ぶ必要がある．ただし，ごたごたの脳，歴史的素材的な制約を負った脳ではない．脳の存在を保証する情報の基本原理，脳がその一端を捉えて実現した原理そのものでなければならない．これを知るためには，やはり現実の脳を直視し，ここから学ぶことは多いと思う．何億年にも及ぶ生命の歴史は，重要なヒントを内蔵している．人の脳はニューラルネットのダイナミクスで動いているから，こうした機能もニューラルネットで実現できることは疑いない．しかし，人に至って実現したこの機能は，単純なネットワークと分けて考えてみてもよい．人にあっても他の動物と同じで，多くの場合無意識に，巧妙で素早い情報処理を実現している．この過程に割って入るのがポストディクションであって，ここで言語や論理が使われる．こうした過程を深層学習といったん切り離し，そのうえで両者の統合を図ることが必要であろう．今後の人工知能にとって，脳科学は欠くことのできない重要なヒントを提供するに違いない．脳科学と人工知能では，目的も違えば手段も違う．それを知ったうえで，情報の基本原理を巡って，両者が協力できると考える．もう一つ，脳がもつ独特のシステムは記憶である．コンピュータの記憶装置は，あるがままのデータを正確に蓄え，これを読み出す．脳の記憶は海馬という部位にとりあえず蓄え，これまでの記憶の体系と矛盾しない形で整理してそれぞれの処理の場所に移行する．このとき，記憶はあるがままの事項を蓄えるわけではない．情報は要素に分解され，さらにそれらが関連付けられて，他の記憶と重ね合わさった形で保持されている．我々が何かを想起するとき，蓄えられている情報をそのままの形で引き出すのではない．想起とは，ヒントを手掛かりにこうした材料から，情報を新たに生成することである．このため，時にありもしないことを思い出す勘違いもあるが，これはこれでそれなりに整合的である．情報は多重に重ね合わされて，相互の関連を軸として記憶されている．連想記憶である．我々の思考はこうした記憶の特性に支えられ，時に飛躍し，思いがけない発見をもたらす．創造性の根源といってもよい．また，人にとって不要な情報の忘却も必要であり，これがうまく

(8)

機能している．人工知能の記憶システムが，こんな曖昧なものでは困るだろう．しかし，コンピュータ上の確固とした記憶と脳のような記憶をもとにする飛躍的な思考とが助け合えば，素晴らしい記憶系・思考系が形成されるかもしれない．こうした試みが深層学習を超えるものとして待っている．

5．おわりに─人工知能による世界の救済

もしくは破滅

話を飛躍させよう．人工知能は，人間の能力を存分に発揮できる素晴らしい社会へと我々を導くのか，それとも人間を破滅の淵に追い込むのかという，巷にあふれた未来社会のストーリーである．もちろんこれは人間次第である．これよりもやさしい問いは，感情と意識をもった人工知能システム・ロボットがつくれるかであろう．人間は進化の結果，社会生活に適応する仕組みを内在している．しかし，個々の人間は不条理であり，合理的な行動をするとは限らない．自己犠牲はその最たるものである．個人はそれで滅びるかもしれない．しかしそれを補う高次の使命感，満足感，達成感があるだろう．これこそが，人を人たらしめる．我々は無用な葛藤をする．情熱にかられたり，悲壮感に浸ることもあるが，これもむだかもしれない．さらに言えば恋に陥り我を忘れるなど，むだの最たるものかもしれない．もっとも子孫を残すためには，こうした仕組みが有用だったのだろう．ロボットが種として栄えていくためならともかく，個として能力を上げるには，こうした人間の「不合理」は無用である．学習によるにせよ，設計にせよ，もっとずっと合理的な行動をとるようになろう．意識は人が世界観をもち，その中で現在の自分のこれからしようとしている行動を知り，評価する方策として生まれた．しかもこれは感情とも密接に結び付いている．不合理と裏腹の関係にある．ロボットに意識をもたせることは可能であろう．しかし，ロボットは人間のもつ不条理，不合理とは無縁にできるから，人間のような悩みはない．人はただ一度の人生を送る．誕生し，成長し，老いて死んでいく．ロボットは，部品を入れ替えれば永遠に生きられる．だから，我々のもつ「喜びも悲しみもしっかりと乗り越えてきたただ一度の我が人生」という感慨が生まれようがない．もっとも，人と共生するロボットは，人のもつこうした特性をよく理解し，人に合わせた行動をとるだろう．それは人の心の動きを予見し，それに合わせて行動する．人から見れば，ロボットがあたかも心をもつように見えて，これに共感できる．ただ，これでロボットが心をもったといえるかどうかは，定義の問題である．初めの文明の問題に戻ろう．種としての人類は愚かで不条理である．その人類が文明を築いてきたが，それはぜい弱なものである．人を動かす動機に「欲」がある．良い生活をしたいという欲は当然であるが，知識欲，支配欲，名誉欲などがある．この欲が社会を発展させ，文明を築いたといってよい．しかし，人間は欲望を合理的に制御できていない．だから，金銭欲，支配欲によって，社会の格差がとてつもなく拡大する．これが行き詰まれば，排外主義で人々の目をそらして，権力を独占しようとする．日本はもちろん，世界各国の政治状況は，憂うべき状況にある．人工知能はこんな状況の中で，情報技術の進歩の結果として誕生しようとしている．これをうまく使いこなして素晴らしい社会を築くのか，それとも格差が広がり文明の矛盾がもっと拡大してしまうのか，これは我々にかかっている．金銭だけに目をやって，技術が進歩し生産性が上がれば，ベーシックインカムを支給して全員が何もしないで幸福に生きていけるようにすればよいという議論がある．これは重要な論点であるが，事とはそう簡単ではない．一つ間違えば，これは人類の家畜化への道を開く．人類はこのようなお仕着せに必ず反逆する．文明はぜい弱である．過去に多くの文明が起こり，滅亡してきた．今の文明は滅亡の危機に瀕しているといえるかもしれない．これを克服するのが人類の英知である．人工知能は果たしてこの助けになるだろうか．

◇　参　考　文　献　◇

[Amari 67] Amari, S.: Theories of adaptive pattern classifiers, IEEE Trans., EC-16, pp. 299-307（1967）

[Amari, 74] Amari, S.: A method of statistical neurodynamics, Kybernetik, Vol. 14, pp. 201-205（1974）

[Amari 98] Amari, S.: Natural gradient works efficiently in learning, Neural Computation, Vol. 10, pp. 251-276（1998） [甘利 16] 甘利俊一，脳・心・人工知能，講談社ブルーバックス（2016） [Amari 17] Amari, S., Ozeki, T., Karakida, R., Yoshida, Y. and Okada, M.: Dynamics of learning in MLP: Natural gradient and singularity revisited, Neural Computation, to be published

[Fukushima 80] Fukushima, K.: Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift n position, Biological Cybernetics, Vol. 36, pp. 93-102（1980）

[Hinton 06] Hinton, G. E., Osindero, S and Teh, A.: A fast learning algorithm for deep belief nets, Neural Computation, Vol. 18, pp. 1527-1554（2006）

[Karakida 16] Karakida, R., Okada, M. and Amari, S.: Dynamical analysis of contrastive divergence learning: Restricted Boltzmann machine with Gaussian visible units, Neural Networks, Vol. 79, pp. 78-87（2016）

[Kurita 93] Kurita, K.: Iterative weighted least squares algorithms for neural networks classifiers, New Generation Computing, Vol. 12, pp. 375-394（1994）

[Oizumi 16] Oizumi, M., Tsuchiya, N. and Amari, S.: Unified framework for information integration based on information geometry, Proc. National Academy of Sciences, Vol. 113, pp. 14817-14822（2016）

[Ollivier 15a] Ollivier, Y.: Riemannian metrics for neural networks I: Feedforward networks, Information and Inference, Vol. 4, pp. 108-153（2015）

(9)

networks II: Recurrent networks and learning symbolic data sequences, Information and Inference, 4, pp. 154-193（2015） [Poole 16] Poole, B., Subhaneil, L. Raghu, M., Sohl-Dickstein,

J. and Ganguli, S.: Exponential expressivity in deep neural networks through transient chaos, NIPS 2016, arXiv;1606.05340v2（2016）

[Rosenblatt 61] Rosenblatt, F.: Principles of Neurodynamics, Spartan（1961）

[Schwartz-Ziv 17] Schwartz-Ziv, R. and Tishby, N.: Opening tne black box of deep neural networks via information, arXiv: 1703.00810v3（2017） 2017年 9 月 25 日　受理

著　者　紹　介

甘利　俊一 1963年東京大学大学院数物系研究科を修了．九州大学助教授，東京大学計数工学科助教授，教授を経て，同名誉教授．その後，理化学研究所脳科学総合研究センター長を経て，現在同特別顧問．電子情報通信学会，国際神経回路網学会などの会長を歴任．日本学士院賞，文化功労者，IEEE Piore 賞などを受賞．

もうちょっとだよなー，ディープラーニング

1．は じ め に

2．脳と人工知能─共通の基本原理