あ ら ま し 編集者からの要望はちょっとふざけた題目である.こ れを好き勝手に書けということと解して,深層学習を 巡っての著者の感想を,未発表の研究・考察を加えて披 露したい.さらに,脳科学と関連させながら,人工知能 の行くべき道を考えたい.
1.は じ め に
深層学習の衝撃は,著者にとっては 2006 年の Hinton らの論文 [Hinton 06] に始まる.その後あれよあれよと いう間に,多くのパターン認識のコンテストで大勝利し て,深層学習が一世を風靡した.人工知能時代の到来, さらに大きくは産業構造の変革をもたらし,社会と文明 を変えるかもしれないとまでいわれる.個人的には,ア ルファ碁がもたらした衝撃が大きい.究極の知能ゲーム といわれる囲碁で,人工知能が人類を大きく引き離した. しかも,深層学習を用いさえすれば,DeepZen などの 他の囲碁プログラムも容易に強くなる. でも,ディープネットワークは昔のパーセプトロンと ほとんど同じである.創始者の Rosenblatt 自身も,深 層構造そして再帰結合のパーセプトロンを考えていた [Rosenblatt 61].ただ,当時の計算能力では実現できな かっただけである.基本となる多層回路網の学習法とし ては,著者が 1967 年に提唱した確率勾配降下法が相変 わらず使われている [Amari 67].このほか,福島邦彦 が提唱した畳込み構造も画像処理では極めて有力である [Fukushima 80].もちろん,制約ボルツマン機械,ドロッ プアウト,ReLU など,いろいろな新しい工夫があるに はある.計算能力が上がり,訓練データの数が無尽蔵に なったことも事実である.とはいえ,本質的な飛躍をも たらしたものは何であるのか,ここが明らかでない. 有力な神話は,情報表現の革命という見方である.層 を重ねるにつれ,入力情報に含まれるより高次の構造を 開示する表現が得られる.この表現を学習により自動的 に獲得することが,素晴らしい能力の秘密であり,本質 的な革命であるという.なるほど肯ける説明ではある. でも,なぜこのようなことが起こるのか,納得のいく説 明はない.「Google のネコ」という話があるが,あんな 茶番劇で満足してはいけない.階層が進むと現れる「標 準ネコ」のようなものがどうしてネコの高次の特徴なの か,とんでもない.あれはむしろ無用に多数の素子を使 うことで偶然に現れる,むだの一例ではないのか. 結果がうまくいったのだからよいではないか,理屈で 説明する必要はないという考えもあろうが,理論家は納 得しない.良いものは基本的な原理を捉えているはずで あり,説明がついてこそ安心して使えるし,その後の発 展もある.実は,多くの理論家が歯噛がみをしながら,し かし勇躍としてこの問題に取り組んでいる.老いぼれと はいえ,著者もその一人である. 本稿では,未発表のアイディアも含めて,著者の考え を若い諸兄に披露してみたい.少しでも参考になり,こ れをさらに発展させてもらえたら望外の喜びである.さ らに,脳科学と人工知能をつなぐこれからの方向を展望 することで,締めくくりたい.2.脳と人工知能─共通の基本原理
脳は素晴らしい情報処理装置である.人の脳は知的な 機能を宿し,高次の精神機能を実現するまでに至った. ニューロンからなる装置がこのような機能が備えるの は,情報処理に関わる高度の原理を獲得できたからにほ かならない.ニューロンのような素子を用い,並列のダ イナミクスで情報を処理し,しかも学習機能を備えてい るシステムには素晴らしい可能性がある.それを保証す るのが情報の原理である.原理は一つではなくて,機能 に応じ,またミクロからマクロまで多数ある. 人は進化の過程でこれらの原理を獲得し,脳内に装着 していった.もちろん,進化はランダム探索である.遺 伝子のたまたまの変動で,生存に都合の良い方向に変異 が起これば,これが定着する.生存に有利な原理を獲得 したものが生き残る.ただ,これには大きな制約があっ た.一つは使える材料の制約で,生命体はアミノ酸,タ ンパク質,細胞といった生理的な材料を使うしか道がなもうちょっとだよなー,ディープラーニング
A Little More Is Yearned For Deep Learning
甘利 俊一
理化学研究所脳科学総合研究センターShun-ichi Amari RIKEN Brain Science Center. [email protected]
Keywords:
mathematical neuroscience, natural gradient, statistical neurodynamics, consciousness. 「脳科学と AI のフロンティア」かった. もう一つは歴史的な制約である.良い仕組みを一つ獲 得した後,さらに良くするのに,前の仕組みをご破算に して素晴らしいものを装備するわけにはいかない.前の ものを残しつつ,その上につくるしかない.こうして, 古い残骸を残しつつ改良と飛躍を積み重ね,現在の脳が 出来上がった.だから,脳には一貫した設計思想がない. 原理を獲得したとはいうものの,試行錯誤のすえ古い残 骸を残しつつ,それでも素晴らしいものが実現した. 著者は脳が獲得した情報の基本原理に興味があって, それを実現する過程でのごたごたにはあまり興味がな い.これは,著者が情報科学の立場で脳を見ているから である.正当な脳科学者の立場はこれとは違う.彼らは, 歴史的な制約も含めて,あるがままの脳に興味をもつ. 生物学としては,情報原理などは二の次で,脳のあるが ままの仕組みが,その歴史性も含めて興味があるからで ある.だが,実際のごたごたの脳を詳しく調べていって, そこから情報の基本原理を理解するのは並大抵のことで はない. 著者の提唱する数理脳科学は,大げさにいえば,現実 の脳の詳細はいっさい無視して,いきなり原理に迫る. そのためには,なるべく簡単な神経回路のモデルを準備 して,その特性を数理的に解析することにより,そこに 実現可能な情報の基本原理を理解する.これがわかれば, 現実の脳で,これらの原理がいかなる形で装着されてい るかを調べるという脳研究の大きな指針が得られる.数 理脳科学は,現実の脳ではなくて,架空の脳を捉えよう としている天空の学問であるという悪口がある.それは そのとおりである.この批判には,情報の原理が大切な のだと開き直るしかない. 人間の知的機能を機械で実現する人工知能の手本は脳 である.ただそれは歴史的な制約を負ったごたごたの脳 そのものではなくてよい.脳が進化の過程で獲得した情 報の原理そのものを探求すればよい.これを現代技術の 力で実現すればよいのであって,材料の制約と歴史的な 制約に縛られた現実の脳をそのまま模倣することではな い. 人工知能,例えば深層学習は,情報原理を解明した うえで設計したわけではない.いろいろな工夫と努力の 結果,深層構造を用いることでうまくいった.でも,何 百段にも及ぶ階層にしても,苦し紛れに導入してうまく いったから使っているだけである.うまくいくからには, 情報の基本原理の一端を捉えたに違いない.だから脳の 場合と同じで,どんな仕組みがこの原理を実現している のか,ここから遡って情報の原理を追及できれば,さら に高度な人工知能の実現につながる. 脳のごたごたを見て,また深層学習の仕掛けの複雑 さを見て,現実の優れた知能システムにはわかりやすく 説明のできる原理などはない,ただただ複雑なシステム があるだけだという,悲観論もあり得る.しかし,脳は 進化の過程で合理的なものを捉えたからこそ素晴らしく なったのであり,合理的なものは原理として解明できる という楽観論を著者はもっている.科学の世界では,量 子力学,相対性理論,遺伝など,およそ複雑で説明に困 り果てた現象が,見事に合理的に認識できた.情報とて 同じであって悪いわけがない. 人工知能の歴史をひもとけば,記号と論理を標榜する いわゆる正統派人工知能と,脳の神経回路網を模してシ ステムをつくり上げるニューラルネットワーク派の対立 があり,歴史はこの二つを軸に展開してきた. 正統派は言語と論理推論を重視し,これこそが人の知 能の基礎であるとする.ニューラルネット派は,並列計 算の力学と学習機能こそが重要であると主張する.どち らにも一理ある.人はどうであろう.我々はニューラル ネットを用いて並列の計算を行い,素早い決定を行う. これからの状況を予測(プレディクション)する.しか もこれは意識に上ることなく実行される素早い過程であ る.しかし,一方で自分の決定を意識に上らせ,他の多 くの情報と照らし合わせて吟味し,いま行った決定に介 入できる.これがポストディクション(後付け)である. この過程では言語による思考と論理が大きな役割を果た す.これこそが人のもつ高度の知的機能である. 深層学習では,正統派が馬鹿にしていたニューラル ネット派が勝利を収め,世を驚かせた.いまや,ニュー ラルネットで言語などの記号処理や時系列にも挑もうと している.もちろん,人間は意識過程もニューラルネッ トで実行するから,これは驚くことではない.しかし, 単純なパターン認識のような機能から,意識に上る言語 や論理を扱う高度な知的機能を獲得するまでには,一段 と高い飛躍が必要であった.これを考えれば,ニューラ ルネット一辺倒ではなくて,さらにポストディクショ ン(意識)をもつ高度で深い人工知能を築くことが求め られる.これもニューラルネットで実現してよいが,も う一段昇華した意識の機能下での機能のようなものを同 時並行で付け加えることが必要になろう.著者も,意識 の基礎である情報統合を情報幾何を用いて研究している [Oizumi 16].
3.深層構造と学習─情報表現の獲得
深層構造は本当に高次の情報表現を獲得するのか,現 在までのいろいろな試みを取り上げてみたい. 3・1 多層パーセプトロンの確率勾配降下学習 多層パーセプトロンは,素子数を大きくとれば任意の 入出力関係を実現できるという意味で万能である.これ は,中間層が 1 層の回路でもいえることで,多層ならば 何が良いかはここからは直ちにはいえない.万能な機械 で学習によって正しい応答が得られれば,これは申し分 ない.これを可能にするのが,入出力の例題を多数与えて,損失関数を最小するようにネットのパラメータ(結 合の重みなど)を調整する方法である.式で書けば,多 層の回路の入出力は,入力をベクトル x,出力を y(簡 単のためスカラとする)として y=f(WL( f(WL-1…… f(W1x)…) (1) のように書ける.皆さんよくご存じの式であり,W 達は 各層の結合の重み行列(バイアス項もここに含める)で ある.可変なパラメータWをすべてまとめてベクトルξ= (ξ1, ξ2, …ξN) としよう.入力が x のときに,これをパラ メータξの回路で処理すれば,その答え y は教師の与え る正解とは違うかもしれない.このときの誤差の 2 乗を 損失関数として, l(x, y; ξ)と書くと,その勾配(ξによ る偏微分)l を用いて,パラメータξの値を Δξ=-η(x, y; l ξ) (2) によって変更するのが,確率勾配降下学習である.入出 力の対(x, y)は時々刻々とランダムに選ばれて与えら れるとすれば(オンライン学習),上式は確率差分方程 式になる. パラメータを含む損失関数を最小化するのに,パラ メータを勾配の反対方向に少しずつ動かせばよいという 話は,1960 年代には非線形最適化や制御理論では知ら れていたらしい.また,データを逐次的に使って確率的 に動かすアイディアは,確率近似法として Robbins と Monroが 1950 年代初めに提唱したものに起源をもつ. 著者が 1967 年に提案したのは,多層パーセプトロンの 中間層のオンライン学習法であった.当時のパーセプト ロンは,0,1 の出力をもつしきい値素子を用いていた ため,このままでは損失関数の微分ができず,最終層以 外の中間層の学習法は知られていなかった.そこでアナ ログ値を取るアナログニューロンを用いたところが味噌 で,中間層の学習法を提案したのである.また,著者は 当時は無知で確率近似法を知らなかったため,学習の収 束の条件として,学習係数ηを 1/t のオーダで変えてい けばうまく収束することを新発見と考えて,浅はかにも 有頂天になったのを覚えている. 1960年代,ロシアでは Tsypkin が確率近似法を用い てこのような学習理論を大々的に展開していた.著者の 理論もロシアに紹介され評判になったと,Vapnik から 聞いた.何しろ当時このような学習理論を研究していた のは,ロシアと日本だけだったという話が伝わっている. 時代が下って,第二次ニューロブームの最中の 1986 年に,誤差逆伝搬法がRumelhartらによって提唱されて, ブームの花形になった.多層回路網で損失関数の勾配(偏 微分)を計算すると,関数の関数の関数と,入れ子になっ たものをパラメータで微分する.このとき,微分の微分 の微分が積になって表れ,それは誤差が出力ニューロン から始めて逆方向に伝搬していくように見える.しかも, このように逐次的に計算すれば,計算量が少なくて済む. これは素晴らしい発見で,人々を魅了した.確率降下法 では,誤差逆伝搬という解釈と計算の仕方は彼らの誇っ てよい功績である. ただ,アナログニューロンの使用と確率勾配降下法は, 彼らが最初ではない.確率勾配降下法を多層の神経回路 の学習に使う理論は 1967 年の著者の論文にあり,世界 で最初の多層回路のシミュレーション例は 1968 年発行 の共立出版の「情報理論Ⅱ」に載っている.この辺の話は, 「脳・心・人工知能」[甘利 16] に書いておいた. 世の中では,関数の勾配は変化最大の方向を表すか ら,勾配を用いた方法は最急降下法といわれることもあ る.これはもちろん誤りである.どの方向が最急かは, いろいろな方向を比べて,同じ長さだけパラメータを動 かしたときに,どの方向が最も大きく関数値を変化させ るかを見なければならない.それには,各方向ごとに長 さを計る物差しが必要である.パラメータの空間がユー クリッド空間であれば,長さはどの方向でも同じである. このときに,勾配は最急降下方向を示す.しかし,多層 パーセプトロンでは,確率的な入出力を想定するため空 間はリーマン空間になり,長さを計る物差しはリーマン 計量行列 G で与えられる.これは Fisher 情報行列とし て知られるものになる.このとき,最急降下方向は˜ l= G-1 lである.だから,最急降下学習法は Δξ=-η˜ l (3) のように書ける.これを自然勾配法と名付けた [Amari 98].自然で当たり前の話だからである. 自然勾配学習は学習の収束が速い.そのほか,数々の 良い性質をもっている.しかし,パラメータの数が多い ときには G の逆行列を計算する手間が大変である.この ため,自然勾配学習の簡略計算法がいろいろと研究され ている.フランスの数学者 Olliver はこれを徹底的に研 究し,素子ごとに分離した unitwise natural gradient(こ れはもともとは日本の栗田多喜夫が提唱した,[Kurita 93])は計算の手間もあまりかからず,しかも大変良い 性能を与えることを大規模なシミュレーションで明らか にした [Ollivier 15a].特に,再帰結合をもつ回路のダ イナミクスに適用し,LSTM を用いた方法よりもずっと 簡便で性能が良いことを報告している [Ollivier 15b]. 本節の最後に,深層学習の研究者があまり知らない 多層回路の特異構造について報告しておきたい.第二次 ニューロブームの頃,小規模な回路でシミュレーション を行ったときに,学習がプラトーと呼ぶ平坦部分に引っ かかり,大変遅くなることで人々を悩ませた.これは, ある種の対称性に起因している.すなわち,素子の番号 の入替えに対する不変性からくる.ところが,現代の大 規模シミュレーションではプラトーの話はあまり聞かれ ず,それほど深刻ではないらしい.この原因を究明する 必要がある. プラトーと呼ぶ学習の遅滞は,素子の対称性に起因す ると述べた.もっとわかりやすく言うと,二つパラメー タξとξが違っていても,それが表す関数は同じである ことがある.具体的に述べれば
y=νf(W・X) (4) という関数を考えれば,パラメータは(v,w)であるが, v=0 であれば,w が何であってもその表す関数は同じで, この場合 0 である.パラメータ空間 M={(v, w)} で,v= 0となる w 軸上の点はすべて,同一の関数を与える.同 一のもの(同値のもの)を一つにまとめてしまえば,w 軸は一点に縮む(図 1).これが特異点であり,パラメー タ空間では w 軸の全体が特異領域になる. もう少し複雑な,入力が n,中間層が 2 素子,出力素 子が 1 素子の,極めて単純な(n- 2-1)型の回路を考 えよう(図 2).これは大規模の深層回路のどこにでも 含まれる部分回路である.その入出力関係は y=ν1f(W1・X)+ν2f(W2・X) (5) となる.パラメータ空間は(M={w1, w2, ν1, ν2})である. ここで w1=w2を満たす領域を考えると,この領域上で はν1+ν2が一定である限り,個々のνiの値に関係せず, 関数 f は同じものになる.だから,パラメータの空間で ν1ν2|w1-w2|= 0 (6) を満たす領域が特異領域になり,この領域上では出力関 数はどれも同じものである.同じものを一つに縮めて, パラメータ空間で同値のものをひとまとめにした(同値 類で割ったという)空間は,特異点を多数連続に含む, おもしろいトポロジーをもっている.また,パラメータ 空間上では特異領域が至る所連続に散りばめられてい る. この構造を調べるのは面白いのだがそれはさておい て,特異領域内でパラメータを動かしても関数の値は変 わらない.つまり勾配が 0 になってしまう.だから学習 が進まない.これがプラトーと呼ぶ現象である.これを パラメータの空間で考えれば,特異領域において,その 一部が吸引領域になり,他の部分が反発領域になること が起こる.すると,学習はこの特異領域上で動きの方向 を失い,確率的な変動で,吸引領域から反発領域まで移 動する.ここでやっと特異領域を抜け出せる(図 3).こ れは Milnor アトラクタと呼ぶ特殊な力学系になり,こ こで学習が遅滞する.ところが,パラメータの変化の大 きさを計る Fisher 情報行列は,特異領域内での同値性 を反映して,この方向での長さを 0 と評価する.言い換 えれば行列 G は特異行列になり, G-1は無限大に発散す る.ところがうまくしたもので,自然勾配法の G-1 l は, 無限大掛ける 0 であるがうまく収束して,特異領域やプ ラトーなどどこ吹く風で,あたかも何もないかのように 学習が進む. そう口では言っても,これはきちんと解析しなければ いけない.特異領域近傍での学習のダイナミクスの解析 は結構大変で,これまでにいくつかの論文を書いた.し かし不満が残ったので,80 歳を超えた今,最後(?) の仕事をしたいと思って頑張った.これはできて胸が晴 れたのだが,残念なことに面白い現象を発見してしまっ た.これまで(n-2-1)型を解析してきた.出力素子 を m に増やして,(n-2-m)型にする.このとき,出 力素子同士が学習で相互作用をして,Milnor アトラク タを消してしまう.特異領域はそのまま残るが,それは もはや Milnor アトラクタをつくらず,学習は遅滞しな い.もちろん,特異領域は残るから,ここがサドルなど をつくって,学習は停滞するかもしれない.自然勾配法 はこのときも有効である. 著者は,特異領域こそが学習遅滞の主犯であるから, その要素となる小規模な回路の解析を通じて,深層学習 の遅滞の主要因である Milnor アトラクタに迫るつもり であった.その目論見がくずれてしまった.でもこれは, 面白い発見ではある.残念であるが,大規模回路網では Milnor型アトラクタは消滅するという趣旨の論文を書 く羽目になった [Amari 17].まだ査読中であるが,本稿 が発行される頃には掲載されているだろう. 3・2 自己組織化学習 多層パーセプトロンに,自己組織学習を予備として 行わせるというのが Hinton の優れたアイディアであ パラメータ空間 関数 f(x, ξ)の空間 ν w 図 1 特異領域 反発領域 吸引領域 特異領域 図 3 特異領域と Milnor アトラクタ ν1 W1 W2 y x ν1 図 2 n-2-1 型パーセプトロン
り,Bengio らのオートエンコーダでもこれを行える. Hintonらの場合は,制約ボルツマン機械を用いるもの で,彼の長年にわたる執念を感じさせる素晴らしいもの である.もっとも最近では予備学習なしでも,腕力で確 率降下学習を進めればそれでうまくいくという,味も 素っ気もない話も伝わってくるが,情報表現の形成とい う意味では,自己組織化学習は興味がある. まずは初心に戻って,1 個のニューロンの自己組織化 学習から始めよう.1 個のニューロンを取り上げると, その動作は y=f(w・x-b)である.これが外界から信 号 x を受け取って,Hebb 方式で学習するとしよう.外 界の信号は構造をもっているとし,それが確率分布 p(x) で表せるとする.話を簡単にするために,入力信号 x は, 半径 1 の球 x・x=1 の内部に束縛されているものとし, バイアス項も導入する.このとき,Hebb 学習の方程式 として w˙=η(-w+cx)f(w・x-b) (6) が得られる.これを,入力の確率分布の下で平均化し, 解析すればよい.このとき Lyapunov 関数 1 2 H(w, b)=c(w・w-b)+- |w|2 (7) が得られる.結論をいえば,この学習によって,各ニュー ロンは確率分布 p(x)のクラスタのピークに吸い寄せら れ,受容野の中心が確率分布によるその重心に一致する ところが平衡状態になる.つまり,個々のニューロンは, 入力の各クラスタの重心を捉えて,それを表現するもの をつくる.このときの受容野のサイズを解析でき,これ はバイアス項によって制御される.このあたりの話は著 者の未発表の解析である. 1個のニューロンをばらばらに考えたのでは,このよ うなことしかできない.しかし多層にしてニューロン間 に相互作用を入れれば,もっといろいろなことができる. 2層のボルツマン機械を考えよう.こんな単純な場合で も,この機械は入力分布の(非線形化した)PCA を行 えること,さらにアナログニューロンであるガウス型の ボルツマン機械では独立成分分析(ICA)が行えること を,唐木田達は示した [Karakida 16]. 多層にすればもっといろいろと気の利いたことができ そうである. しかし,それには例えば自然画像入力の分布がどんな ものであるかを知り,そこから高次の構造を示す特徴が どのように抽出されるかを知らなければならない.例え ば,入力の分布が大クラスタに始まり,その中に細分し た子クラスタがあり,さらに孫クラスタがあるといった ような単純なものであれば,階層ネットワークはこれを 自己組織化では捉えることができるであろう.しかし, 自然画像の分布はそんな単純なものではない. 別の考えとして,自然画像の一つのカテゴリーは,比 較的次元の低い部分空間の集まりとしてクラスタをなし ているという仮説も有力である.しかしこの取扱いも難 しい.最近の傑作は GAN というアイディアで,これは 研究者を驚かせた.これはランダム入力をもとに自然画 像(らしきもの)を生成する多層回路と,できた画像が 本当の自然画像かそれとも人工的なものかを識別する批 判者の役割を果たす多層ネットワークからなり,両者が 競合する.すなわち,人工的に生成された画像の自然画 像らしさを評価関数として,生成者はこれを上げるよう に,批判者はこれを下げるようにパラメータを学習す る.つまり,ミニマックスゲームを行う状況である.こ れで自然画像に極めて類似したものが生成できるように なるという驚くべき結果である.ただ,学習はいささか 不安定で,分布間の距離として情報幾何を用いた fGAN や WGAN などが提唱されている.こうしたモデルから, 自然画像分布の構造,さらにはその高次特徴なるものが 明らかにされるかもしれない.これからが勝負である. 3・3 多層回路網の統計神経力学 多層にすると,中間層が一層でニューロン数が多い幅 広回路と比べて何が本質的に違ってくるのか,ここに理 論家の興味が集中している.例えば,多層でニューロン 数が巨大になると,損失関数の特異点は,そのほとんど がサドルであって,極小点にはならないという観測が, ランダム行列の理論を援用して現れた.しかも,損失関 数のヘッセ行列は,その固有値が 0 の近くに集積すると いう.これは,極小点に引っかかって学習が止まるとい う悪状況はあまり起こらないこと,でもサドルの弊害は 顕著であることを示唆する. さらに強力に,スピングラスの理論を援用して,極小 点は多数あるものの,その値はどれもほぼ最小値に近い という話が現れた.これはシミュレーションでも確かめ られていて,大変な朗報である.極小点に引っかかって, 良い性能が出ないという難点が巨大多層の回路網では回 避できるという話だからである. 本節では,統計神経力学を援用し,層数の大きなネッ トワークにおける情報変換ではどのような事態が生じて いるかを見よう.これは Poole らの優れた論文に触発さ れて,新たに考察した未発表のものである [Poole 16]. 彼らの論文では引用していないが,ここでは著者が昔に 開発した統計神経力学,特にその距離法則を再発見して 用いている [Amari 74]. 話を簡単にするために,n 次元の入力信号 x を m 個 の素子をもつ層状の回路に入力し,これを m 次元のベ クトル y に変換したとしよう.式は簡単で y=f(Wx) (8) である.次元 m が n より大きい場合(等しい場合も含 めてよい)と,小さい場合では話が大きく違ってくる. mのほうが大きい場合は,n 次元の入力空間 X が,m 次元の空間 Y に挿入されるが,変換は非線形であるから, この像は m 次元空間 Y の中の曲がった n 次元部分空間 になる(図 4).一方,m が n より小さい場合は,X を
圧縮して次元の低い Y に押し込むので,X の多数の点が Yの同一の点に写る.情報圧縮である. 変換は結合行列 W に依存していて,一般論を展開す るのは難しい.そこで,W の要素 wiaは,どれも独立で 平均 0 分散 1 のガウス分布に従うとし,Wx の成分を ui=
∑
wiaxa (9) のように書く.このような回路は乱数を用いて無数につ くれるが,そのほとんどすべての回路に共通する性質を 調べるのが神経統計力学である.学習する回路は,結合 の重みの初期値をランダムに設定しても,学習によって 目的にかなうように変わっていくからもはやランダムと はいえない.しかし,広い目で見れば,ランダム回路と 同じような性質をもつことは十分に考えられる. まず, uiの分布を調べると,これは各要素ごとに独立 で,平均 0,分散が 1 n xi2 σ2=A=∑
(10) であるようなガウス分布になる.A 入力信号の発火率の 2乗の平均で,x の活動度と呼ばれる.統計神経力学の 第一歩は,層状回路を通すことによって,活動度がどう 変わるか,y の活動度を Aとしたときの変換の公式 A= F(A) (11) を導き出す.読者は F を容易に求めることができるだろ う.層を重ねていけば,この式が繰り返され,活動度 A は Aˉ = F(Aˉ)を満たす平衡状態 Aˉ に収束する.多層回 路網のダイナミクスの第一歩である. これだけでは,活動度というマクロの量の変化を追う だけで興味がない.統計神経力学はミクロな構造をも明 らかにできる.いま,二つの入力 x1, x2 がどのくらい離 れているかを示す距離 1 n∑
|x1a-x2a|2 D(x1, x2)= (12) を考える.次の層にいけば,x1, x2がそれぞれ y1, y2に写 るから,写像先での両者の距離は D から 1 m∑
|y1i-y2i|2 D= (13) に変わる.すると,この変換を示す法則 D=K(D) (14) が得られる.これは,著者が 1974 年の論文で発表した 成果で,後に(著者のことを引用することなく)再発見 されて使われるようになる.この法則を用いれば,X か ら Y への写像のより細かい性質がわかる. ここでは,X での距離がどう変わるかを空間の計量と いう見方で調べる.微小線素の長さ dx の 2 乗は,リー マン計量行列 G を用いて二次形式 ds2= g∑
abdxadxb (15) で表される.空間がユークリッドであれば,G は単位行 列である.空間 X が空間 Y に写されると線素は dy にな るが,その成分は dyi= f∑
(Wx)W iadxa (16) になる.空間 Y はユークリッド的であるとすれば,その 長さの 2 乗は (dy)i2∑
ds2= (17) この長さを元の X の線素で表せば,これは新しい二次形 式 Gを用いて gabdxadxb∑
ds2= (18) となり,計算によって,ここから計量の変換法則 G= L(G) (19) が得られる.これは X では G であった計量が,高次元 へ挿入した Y での長さをもとにすれば Gに変わるとい う法則である.本稿では詳しい解析は省く(これは未発 表)が f L(G)= (A)Gχ (A)= χ 1∫
2π v2 2 ( A v)exp - (20) である.χは活動度 A に依存したスカラ量である.この ような形の計量の変換を共形変換という.これは,空間 の微小部分(接空間)を拡大縮小し,さらに回転するが, 2線間の角度は変えない. さらに, χが 1 より大きい場合,計量はどんどん大き くなっていく.微小線素 dx の長さは, χ倍に増える.こ れは,層を積み重ねてどんどん変換していけば,線の長 さは指数的に増大し,無限に長くなることを意味する. こんなことができるのは,m が n より大きいからである. つまり,X を曲げて高次元に挿入すれば,広い空間をい くらでも有効に使える.層が進むにつれて次元が上がっ ていけば,いくらでも長さを伸ばせる. このことは,曲面の曲率を計算するとよくわかる.X での a 軸方向の単位接線ベクトルが,b 軸方向に少し動 くとどのくらい曲がってくるか,これを計るのが(Euler-Schouten)挿入曲率である.これも統計神経力学で計算 できる.もう詳しいことは述べないが,曲率も層が進む につれて指数的に拡大していく.長さが増えるのである から,空間は|yi| 1 の超立方体に限られている以上, 曲率が増える以外に長さの膨張に見合うことはできな い. X Y 図 4 空間 X の高次元への写像一方,m が n より小さい場合は,これとは全く違う. 行列 W は,核方向つまり N={ n|Wn=0} (21) を満たす方向の x を消去してしまう.このため,多数の xが同一の y に写り,空間が折り畳まれた多重写像にな る.もし,n 方向が情報を担っていないのならば,この 縮約はむだを省き,必要なものだけを取り出す優れた仕 組みを与える.ただ,線形縮約という制約は付く. こうして見ると,ランダムに見える多層構造回路は, 次元を上げることで高次元部分を使って微小距離を拡大 する表現を繰り返すとともに,次元を下げることによっ てむだな表現を省き情報を縮約するという役目を果たし ている.これは,中間層が 1 層の回路にはできない技で ある.だが,その本質的な構造,さらに学習で何ができ ているのかはもっと深い理論が必要である.著者は,2 点 x, xの距離 D( x, x)は層が進むにつれてどう変化し ていくか,そのダイナミクスとそれが起こすフラクチュ エーションを手掛かりに,何か新しい展望が開けそうな 予感がして,これを追求してみたい. これに関連して,本章の最後に情報ボトルネックの 議論を紹介しておきたい.これは Tishby が提案した理 論構想で,情報 x を中間層を経て y に移すときの,中 間層での表現 t についての話である.層を経るごとに次 元が減り,情報が縮約する状況を想定している.表現 t は,出力 y を出すに必要な情報を最大に含み,かつ x の (むだな)情報をできるだけ省くのが良い.情報理論言 葉でいえば,相互情報量 I [T:Y] を最大化するとともに I [X:T] を最小化するのがよい.これが情報ボトルネッ クである. 彼らがシミュレーションで示したことは,誤差逆伝 搬法で学習したときに,学習の初めのフェーズでは, I[T:Y]が増大し出力を正しく出すように学習が進むが, 次のフェーズに入ると今度は I [X:T] を減らす情報縮約 の方向に学習が進むというものであった [Schwartz-Ziv 17].誤差逆伝搬法自体には情報縮約の考えは入ってい ない.それにもかかわらず,情報縮約が現れることは, 極めて示唆に富んでいる.ここから多層回路網の情報表 現に関する新しい理論が生まれるかもしれない.著者は これにも期待している.
4.これからの人工知能
人工知能はいまや社会的な存在であり,これを抜きに して未来社会を考えるわけにはいかない.しかし現状で は,人工知能のできることは極めて限られている.深層 学習が素晴らしく,驚くほどの能力を示したのは事実で ある.しかし,それに目がくらんで,これを過大評価す る必要はない.今の深層学習がそのまま人の知的な機能 を実現するわけではない. 深層学習は学習によるパターン処理能力を獲得した. 画像などの静的なパターンに限らず,動的なパターン, 音声,言語などのパターンの処理もできる.また,囲碁 の強化学習に示すように,現状の評価から目的に沿った 戦略を設計することができる.これらは人間の重要な知 的機能であるが,どちらかといえば他の動物でも多かれ 少なかれもっている機能である.つまり,ニューラルネッ トによる素早い情報処理に比較的向いている. それを超える人間の機能とは,意識を顕在化させ多く の情報を統合し,言語系を用いて論理的に推論する,比 較的遅い情報処理である.ここでは,統合した世界像が 自己の内部に形成される.人間においてこの機能が拡大 し,文明社会を築くに至った.人工知能がこうした高度 の機能を獲得するには,もっともっと脳に学ぶ必要があ る.ただし,ごたごたの脳,歴史的素材的な制約を負っ た脳ではない.脳の存在を保証する情報の基本原理,脳 がその一端を捉えて実現した原理そのものでなければな らない.これを知るためには,やはり現実の脳を直視し, ここから学ぶことは多いと思う.何億年にも及ぶ生命の 歴史は,重要なヒントを内蔵している. 人の脳はニューラルネットのダイナミクスで動いてい るから,こうした機能もニューラルネットで実現できる ことは疑いない.しかし,人に至って実現したこの機能 は,単純なネットワークと分けて考えてみてもよい.人 にあっても他の動物と同じで,多くの場合無意識に,巧 妙で素早い情報処理を実現している.この過程に割って 入るのがポストディクションであって,ここで言語や論 理が使われる.こうした過程を深層学習といったん切り 離し,そのうえで両者の統合を図ることが必要であろう. 今後の人工知能にとって,脳科学は欠くことのできな い重要なヒントを提供するに違いない.脳科学と人工知 能では,目的も違えば手段も違う.それを知ったうえで, 情報の基本原理を巡って,両者が協力できると考える. もう一つ,脳がもつ独特のシステムは記憶である.コ ンピュータの記憶装置は,あるがままのデータを正確に 蓄え,これを読み出す.脳の記憶は海馬という部位にと りあえず蓄え,これまでの記憶の体系と矛盾しない形で 整理してそれぞれの処理の場所に移行する.このとき, 記憶はあるがままの事項を蓄えるわけではない.情報は 要素に分解され,さらにそれらが関連付けられて,他の 記憶と重ね合わさった形で保持されている.我々が何か を想起するとき,蓄えられている情報をそのままの形で 引き出すのではない.想起とは,ヒントを手掛かりにこ うした材料から,情報を新たに生成することである.こ のため,時にありもしないことを思い出す勘違いもある が,これはこれでそれなりに整合的である. 情報は多重に重ね合わされて,相互の関連を軸として 記憶されている.連想記憶である.我々の思考はこうし た記憶の特性に支えられ,時に飛躍し,思いがけない発 見をもたらす.創造性の根源といってもよい.また,人 にとって不要な情報の忘却も必要であり,これがうまく機能している. 人工知能の記憶システムが,こんな曖昧なものでは困 るだろう.しかし,コンピュータ上の確固とした記憶と 脳のような記憶をもとにする飛躍的な思考とが助け合え ば,素晴らしい記憶系・思考系が形成されるかもしれな い.こうした試みが深層学習を超えるものとして待って いる.
5.おわりに─人工知能による世界の救済
もしくは破滅
話を飛躍させよう.人工知能は,人間の能力を存分に 発揮できる素晴らしい社会へと我々を導くのか,それと も人間を破滅の淵に追い込むのかという,巷にあふれた 未来社会のストーリーである.もちろんこれは人間次第 である.これよりもやさしい問いは,感情と意識をもっ た人工知能システム・ロボットがつくれるかであろう. 人間は進化の結果,社会生活に適応する仕組みを内在 している.しかし,個々の人間は不条理であり,合理的 な行動をするとは限らない.自己犠牲はその最たるもの である.個人はそれで滅びるかもしれない.しかしそれ を補う高次の使命感,満足感,達成感があるだろう.こ れこそが,人を人たらしめる.我々は無用な葛藤をする. 情熱にかられたり,悲壮感に浸ることもあるが,これも むだかもしれない.さらに言えば恋に陥り我を忘れるな ど,むだの最たるものかもしれない.もっとも子孫を残 すためには,こうした仕組みが有用だったのだろう. ロボットが種として栄えていくためならともかく,個 として能力を上げるには,こうした人間の「不合理」は 無用である.学習によるにせよ,設計にせよ,もっとずっ と合理的な行動をとるようになろう.意識は人が世界観 をもち,その中で現在の自分のこれからしようとしてい る行動を知り,評価する方策として生まれた.しかもこ れは感情とも密接に結び付いている.不合理と裏腹の関 係にある. ロボットに意識をもたせることは可能であろう.しか し,ロボットは人間のもつ不条理,不合理とは無縁にで きるから,人間のような悩みはない.人はただ一度の人 生を送る.誕生し,成長し,老いて死んでいく.ロボッ トは,部品を入れ替えれば永遠に生きられる.だから, 我々のもつ「喜びも悲しみもしっかりと乗り越えてきた ただ一度の我が人生」という感慨が生まれようがない. もっとも,人と共生するロボットは,人のもつこうし た特性をよく理解し,人に合わせた行動をとるだろう. それは人の心の動きを予見し,それに合わせて行動する. 人から見れば,ロボットがあたかも心をもつように見え て,これに共感できる.ただ,これでロボットが心をもっ たといえるかどうかは,定義の問題である. 初めの文明の問題に戻ろう.種としての人類は愚かで 不条理である.その人類が文明を築いてきたが,それは ぜい弱なものである.人を動かす動機に「欲」がある. 良い生活をしたいという欲は当然であるが,知識欲,支 配欲,名誉欲などがある.この欲が社会を発展させ,文 明を築いたといってよい. しかし,人間は欲望を合理的に制御できていない.だ から,金銭欲,支配欲によって,社会の格差がとてつも なく拡大する.これが行き詰まれば,排外主義で人々の 目をそらして,権力を独占しようとする.日本はもちろ ん,世界各国の政治状況は,憂うべき状況にある. 人工知能はこんな状況の中で,情報技術の進歩の結果 として誕生しようとしている.これをうまく使いこなし て素晴らしい社会を築くのか,それとも格差が広がり文 明の矛盾がもっと拡大してしまうのか,これは我々にか かっている.金銭だけに目をやって,技術が進歩し生産 性が上がれば,ベーシックインカムを支給して全員が何 もしないで幸福に生きていけるようにすればよいという 議論がある.これは重要な論点であるが,事とはそう簡 単ではない.一つ間違えば,これは人類の家畜化への道 を開く.人類はこのようなお仕着せに必ず反逆する. 文明はぜい弱である.過去に多くの文明が起こり,滅 亡してきた.今の文明は滅亡の危機に瀕しているといえ るかもしれない.これを克服するのが人類の英知である. 人工知能は果たしてこの助けになるだろうか.◇ 参 考 文 献 ◇
[Amari 67] Amari, S.: Theories of adaptive pattern classifiers, IEEE Trans., EC-16, pp. 299-307(1967)
[Amari, 74] Amari, S.: A method of statistical neurodynamics, Kybernetik, Vol. 14, pp. 201-205(1974)
[Amari 98] Amari, S.: Natural gradient works efficiently in learning, Neural Computation, Vol. 10, pp. 251-276(1998) [甘利 16] 甘利俊一,脳・心・人工知能,講談社ブルーバックス(2016) [Amari 17] Amari, S., Ozeki, T., Karakida, R., Yoshida, Y. and Okada, M.: Dynamics of learning in MLP: Natural gradient and singularity revisited, Neural Computation, to be published
[Fukushima 80] Fukushima, K.: Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift n position, Biological Cybernetics, Vol. 36, pp. 93-102(1980)
[Hinton 06] Hinton, G. E., Osindero, S and Teh, A.: A fast learning algorithm for deep belief nets, Neural Computation, Vol. 18, pp. 1527-1554(2006)
[Karakida 16] Karakida, R., Okada, M. and Amari, S.: Dynamical analysis of contrastive divergence learning: Restricted Boltzmann machine with Gaussian visible units, Neural Networks, Vol. 79, pp. 78-87(2016)
[Kurita 93] Kurita, K.: Iterative weighted least squares algorithms for neural networks classifiers, New Generation Computing, Vol. 12, pp. 375-394(1994)
[Oizumi 16] Oizumi, M., Tsuchiya, N. and Amari, S.: Unified framework for information integration based on information geometry, Proc. National Academy of Sciences, Vol. 113, pp. 14817-14822(2016)
[Ollivier 15a] Ollivier, Y.: Riemannian metrics for neural networks I: Feedforward networks, Information and Inference, Vol. 4, pp. 108-153(2015)
networks II: Recurrent networks and learning symbolic data sequences, Information and Inference, 4, pp. 154-193(2015) [Poole 16] Poole, B., Subhaneil, L. Raghu, M., Sohl-Dickstein,
J. and Ganguli, S.: Exponential expressivity in deep neural networks through transient chaos, NIPS 2016, arXiv;1606.05340v2(2016)
[Rosenblatt 61] Rosenblatt, F.: Principles of Neurodynamics, Spartan(1961)
[Schwartz-Ziv 17] Schwartz-Ziv, R. and Tishby, N.: Opening tne black box of deep neural networks via information, arXiv: 1703.00810v3(2017) 2017年 9 月 25 日 受理