• 検索結果がありません。

非線形物理学から見たニューラルネットワークの学習

N/A
N/A
Protected

Academic year: 2021

シェア "非線形物理学から見たニューラルネットワークの学習"

Copied!
9
0
0

読み込み中.... (全文を見る)

全文

(1)

1.は じ め に

将棋や囲碁で人工知能がプロの人間に勝利したニュー スを聞くと,従来は不可能と思われていた人の高度な知 的活動に人工知能が使われる未来を想像せずにはいられ ない.そのような状況から,「物理学と人工知能」とい う組合せを聞くと,普通は人工知能を使って物理学の研 究をする内容を想像するのではないかと思う*1.例えば, 膨大な観測データから未知の普遍的物理法則を発見する ことなどである.一方,人工知能の研究に物理学の知見 が何らかの示唆を与える可能性を想像する人も少しはい るだろう.本記事では,後者の視点で,将来人工知能の 理論に役に立つかもしれない非線形物理学と関連する知 見を紹介したい.特に今日の人工知能ブームを牽引する 深層学習は,ニューラルネットワークという脳を参考に つくられた数理モデルを基礎としている.ニューラル ネットワークと物理学の関係は割と親密であり,最初に 少し過去の研究の話をしよう.その後,神経科学の最近 の知見や,それと関連しそうな数理モデルの話へつなげ たい. ただ,最初に断っておきたいことは,俯瞰した視点で 物理学全般と人工知能の関係を述べる能力は我々にはな い.物理学の中でも非線形物理の視点に基づいて,神経 科学の実験的知見も織り交ぜつつ,やや偏った私的バイ アスのある記事になる点はご了承願いたい.具体的には, 大自由度の非線形力学系としてニューラルネットワーク を捉え,その知見を神経科学の実験の解釈にも生かす試 みである*2

2.ニューラルネットワークの数理

脳の情報処理を主として担っているのは神経細胞 (ニューロン)のネットワークであり,シナプス結合を 介して電気的信号をやり取りすることで高度な情報処理 を実現していると考えられている.そこからヒントを 得て,ニューロンのダイナミクスを単純化した素子を, ネットワーク状に結合して情報処理するモデルが提案さ れた.深層学習で用いられるニューラルネットワークも, 本質的には同じものである.ここでニューロン i の状態 を実数 yi(典型的な場合として発火・非発火に対応させ た±1 の 2 値に制限する場合もある)で表すと,その値 は以下の式で決定される. yi= f(ui),ui= wij xj j これは,ニューロン xjを入力層,ニューロン yiを出力 層とする 2 層のフィードフォワードネットワーク(パー セプトロン)と呼ばれるものである [Rosenblatt 58].こ こで,wijはニューロン i へ入力しているニューロン j の 状態 xjに対する結合の重みである.これをさらに,多層

非線形物理学から見た

ニューラルネットワークの学習

Learning Mechanism of Neural Networks from the Perspective of

Nonlinear Dynamics

伊藤 浩之

京都産業大学情報理工学部

Hiroyuki Ito Faculty of Information Science and Engineering, Kyoto Sangyo University.

[email protected], https://www.kyoto-su.ac.jp/faculty/professors/cse/ito-hiroyuki.html

青柳 富誌生

京都大学大学院情報学研究科

Toshio Aoyagi Graduate School of Informatics, Kyoto University.

[email protected], http://www-np.acs.i.kyoto-u.ac.jp

Keywords:

dynamical system, nonlinear dynamics, attractor, reservoir computing, intrinsic manifold. 「物理学と AI」 *1 SF 好きの方は,人工知能が物理学の研究を自律的に行う未来 を想像するかもしれない.スタートレックのデータ少佐の晩年 のように. *2 その際,特に神経科学の知見の解釈に関しては,大胆な私的 推測も述べることになるが,学問的事実と推測は区別して記述 したつもりである.

(2)

にしたマルチレイヤニューラルネットワーク(多層パー セプトロン)は深層学習で用いられている基本構造の一 つであり,以下の式で表される [Amari 67, Rumelhart 86].l 層のニューロン i の状態を xilと表すと

xil=f wijl-1 xjl-1 j のように l 層の出力は l−1 層のニューロンの状態から 決定される(図 1:左上).L 層のネットワークの場合, xi0は入力層に,xiLは出力層に対応する.多層にするメ リットとしては,ややおおざっぱな言い方をすれば,層 内のニューロン数より層自体の数を増やすほうが指数 関数的に複雑な入出力関係を学習可能である点にある [Montufar 14].言い換えると,適切な結合 wijlを学習に より獲得すれば,かなり複雑なことも実現できる可能性 がある.現実にはその学習が難しいわけであるが,深層 学習ではさまざまな工夫が功を奏して華々しい成果を上 げていると考えられる. しかし,層構造であるマルチレイヤニューラルネット ワークは,極論すれば,入力を決めると出力が決まる関 数であり,音声などの時系列処理などは難しい.例えば, 過去の履歴を参照しながら情報処理をする必要がある場 合,どこまでの履歴を情報として使うかは,そのときど きの状況に依存し,単純に時間長を固定した信号を空間 にマップして多層ニューラルネットワークで処理すれば よいというわけではない.これは,過去の情報が然るべ きタイミングで活用可能な記憶のメカニズムが必要であ ることを意味する.層状構造のネットワークは一度使っ た情報は次の層へ伝わるだけで,後で参照することはで きない.過去を必要に応じて参照可能な柔軟な記憶の機 能を備えるには,必然的に自分自身に信号を戻すフィー ドバックが必要であり,リカレントニューラネットワー クを考えることになる. 2・1 リカレント結合とアトラクタの出現 ここではまず最もシンプルなリカレントニューラル ネットワーク,すなわち,全ニューロンが相互に結合し ている以下の式に従うモデルを考えよう*3

x(ti +1)=f

wij x(t)j j (1) 図 1 左下に示すように,多層構造と異なる点は,同 じ結合 wijによりニューロンの状態 x(t)が上式に従i い,繰り返し新たな状態 x(t+1)に更新される点であi る.この t を時間と見れば,次の時刻の状態 x(t+1)が, i 現在の時刻の状態 x(t)により決定される力学系の一種i と考えられる*4.初期の状態を与えれば,その後のネッ トワークの状態は自律的に時間発展する系である.マル チレイヤニューラルネットワークでは最終層の出力が結 果であるが,リカレントニューラルネットワークでは何 を出力結果と考えるべきであろうか? 話を単純にするため,初期時刻 t = 0 に適当な状態 x(t=0)を与え,その後に式(1)に従って時間発展さi せた場合を考えよう.層構造と異なる点は,繰り返し同 じ結合 wijにより状態が更新されることにある.その結 果,結合の性質がダイナミクスの結果に非線形効果とし て強く表れる.N 個のニューロンの状態 x(t)を N 次元i 空間内 X=(x1, x2, …, xN)の座標で表現しよう(状態空 間).リカレントニューラルネットワークの状態の変化 は状態空間 X 内を経めぐる軌道として表現できる.例え ば,結合を対称 wij= wjiと仮定すると,初期状態に応 じて行き先が異なる定常状態に収束させることが実現で *3 深層学習では学習がうまくいくように LSTM や GRU などの 構造化されたリカレント結合を考えている. *4 時間を連続にとれば dx(t)/dt が xi (t)により決まる微分方程i 式で表される力学系となる. ֪ҔȌǺÓȮ СݳLJ໹Џ ֳƶ֪Ҕीઙ

0

ऻඦƶ໙ǔ ऻඦƶ໙ǔ ǦǥǴǝȃȤǪǺ ஝ǝȃȤǪǺ ȤǟȮǝȃȤǪǺ

0

0

ǝȃȤǪǺƶࢽ۔ ȥǦȧȮȃȆȠÓȤȦ ȈǾȃȪÓǪ șȦǼȧǟȟ ȆȠÓȤȦȈǾȃȪÓǪ a b領域B 領域A ༫੶૮ƶੀ֬ 図 1 左:多層パーセプトロンとリカレントネットワークの情報の流れ.右上:状態空間で見た 点アトラクタと連想記憶モデルの関係.右下:さまざまなアトラクタ

(3)

きる.これは,情報処理の観点で見ると,領域 A にある 多様な状態をある 1 点 a に,領域 B にある別の多様な 状態を別の 1 点 b に対応付ける,一種の判断・識別を行っ ているともみなせる(図 1 右中)*5.十分時間が経過し た後のこの収束先の定常状態のことを,状態空間の 1 点 であることから点アトラクタと呼ぶ.リカレント結合に より,多様な状態を 1 点に対応付けるアトラクタと,初 期条件に応じて収束先が異なる非線形的な多重安定性が 出現したといえる. 2・2 連想記憶モデルと点アトラクタ Hopfieldがスピン系との対応で提唱した連想記憶モデ ルでは,初期に適当な入力パターン x(t=0)を与え,i その初期条件からネットワークを時間発展させて十分時 間が経ったときの x(t)の状態を出力と考えた [Amari i 72, Hopfield 82].結合 wijは,一種の相関学習である Hebbの学習則 wij= μ=1 P ξiμξjμ 1 N に従い構成する [Hebb 49].ここでξμiは,学習すべき P 個のパターンの中でμ番目のパターンにおいてニューロ ン i のとるべき状態(例えば ξiμ=±1)である.結合は 対称 wij= wjiであり,ここから時間的に定常な状態へ 収束することが保証される.初期状態として,あらかじ め学習させておいたパターンに近い状態を与える.する とネットワークの状態が式(1)に従って更新され,最 終的に学習したパターンに近いものに収束する.このモ デルでは,初期に与えたパターンから,あらかじめ学 習したいくつかの典型的パターンの一つに収束する過程 を,刺激から連想して記憶を想起する過程とみなす. この系には式(1)の更新ダイナミクスにより必ず減 少する(正確には非増加)マクロな量(磁石のシンプル なモデルであるスピン系のエネルギーに対応する) E(t)= wijx(t)xi (t)j i 1 2 が存在する.パターンの空間を横軸に,縦軸に E(t)を 表示して,想起過程のダイナミクスを概念的に表すと図 1 右上のようになる.Hebb 学習則により,与えられたパ ターンとほぼ同じ学習パターンが極小値に,想起可能な 初期刺激のパターンの範囲が谷の大きさに対応する.一 方で,記憶パターン数 P が増えるにつれて,学習すべ きパターンに関係がない極小値も出現する(偽の記憶状 態).P がさらに増加すると,この偽の記憶状態の極小 値が支配的となり,やがて学習パターンが不安定化する (スピングラス状態).この場合は,学習したパターンと 全く無関係な状態に系が収束する.このモデルは統計力 学を応用することで記憶容量の導出などのさまざまな 理論解析の結果が得られ,多数の物理学者がニューラル ネットワークの研究に参入するきっかけとなった. 非線形力学系の視点で見ると,式(1)によるダイナミ クスは離散時間の散逸力学系の一種であり,E(t)はリャ プノフ関数と呼ばれる.この関数が存在することで,十 分時間が経過したときの系の振舞いは,時間的に定常な あるパターンに収束することが保証される.E(t)を地 面の高低とみなせば,ちょうど水が局所的に低い場所へ 流れ落ちるイメージである.連想記憶モデルは,非線形 力学系における点アトラクタに記憶パターンを対応させ た情報処理のモデルといえる. 2・3 さまざまなアトラクタと情報処理 しかしながら,現実の応用や神経科学の実験事実を 考えれば,時間的に定常な状態に収束するだけでは拡張 性に乏しい.例えば,サッケードなどで視線の移動量を 一時的に記憶するため,連続的な量を符号化することを 考えよう.点アトラクタを多数用意して近似する方法は すぐに思いつくが,いかにも頭の悪い方法である.そこ で,収束先のアトラクタを点アトラクタから拡張する試 みも考えられている [Brody 03].代表的な例としては, ラインアトラクタ*6やカオスアトラクタなどである.ラ インアトラクタとは初期条件に応じてライン上の一点に 系が収束し,その値を出力とするもので,連続値の情報 を状況に応じて得ることが可能となる [Seung 00].一方 で,ノイズや系の不均一性に対して,どのように安定的 にラインアトラクタを構成するべきかは難しく,ヒステ リシスのある素子を活用するなど,さまざまな工夫があ る [Koulakov 02].カオスアトラクタは,嗅覚の情報処 理に関係しているとの実験結果や,そのフラクタル構造 などにエピソード記憶をコードするのに適しているとの 報告もある [Skarda 87, Yamaguti 11]. これらの研究では,さまざまな情報を柔軟に処理する ため,収束先のアトラクタを工夫して対応しようという 方策を用いている.一方,アトラクタへの収束に至る過 程や,刺激入力がない自律的ダイナミクスについては, あまり考察されていない.最近になって神経科学の実験 データの解析に力学系的視点が取り入れられるようにな り,次章で示すような興味深い発見が報告されている.

3.神経科学からの知見

3・1 神経ネットワークの幾何学的構造への関心 深層学習によりリバイバルしているニューラルネッ トワークの研究においては,高次元の自由度をもつ入力 データの集団に対して,比較的少数の出力層細胞の活動 で表現されるラベルとの対応関係を統計的に再現するた *5 時間や状態は離散的であるが,本質は変わらないので見やす さのため連続の場合のアトラクタを表示している. *6 角度などに対しては一周して戻るのでリングアトラクタ,さらに一般的化した連続アトラクタなどもある.

(4)

めには,どのような情報圧縮を行うネットワーク構造を 構築すべきかが議論される.ニューラルネットワークの 本質は甘利が黎明期に定式化しているように [甘利 68], 入力データの自由度が張るパターン信号空間から,特徴 空間への射影を経由して,最終的に識別空間に至る写像 の幾何学的特徴付けである.ブラックボックス化してい る深層学習の内部構造に関して,写像の幾何学的構造の 解明がどの程度可能であるのかの探求は今後の重要な研 究課題であると考える. 一方,神経科学の分野でも脳神経ネットワークでの 学習における幾何学的構造に近年関心が集まっている. 1980年代初頭までの神経生理学実験では,技術的制約か ら同時に記録できる細胞数が 1 ∼ 2 個と限られていたた めに,外部刺激に対する脳の反応は個々の細胞の活動度 (発火率)の変化を中心として研究が行われていた.80 年代後半以降の測定技術の発展(多細胞活動同時記録法, 各種光学的イメージング技術など)は数十∼ 100 個程度 の細胞活動の同時記録を可能とし,外部刺激に対する反 応や運動出力という情報処理を複数細胞が構成するネッ トワークの活動として解析することが可能となった.複 数細胞の活動データは集団符号化(ポピュレーション コーディング)や同期・相関発火による細胞集団のダイ ナミックな再組織化によるバインディング問題の解決策 などの新たな情報符号化モデルの実験的検証を可能とし た [Aertsen 02, 伊藤 97, 伊藤 00, 櫻井 08].ここでは神 経ネットワークにおける細胞活動間の相関構造によって 幾何学的拘束が生じる事情を力学系の視点から説明し, Brain-Machine Interfaceでの学習に関する最近の研究 を紹介する.これらの現象は脳の神経ネットワークの活 動が単なるフィードフォワードではなく,よりダイナ ミックで力学的な描像が必要であることを示唆している. 3・2 試行間変動性と自発発火活動 神経生理実験において古くから知られながら,現在に 至ってもその機能的意味が十分に解明されていない現象 に,刺激誘発活動の試行間変動性と自発発火活動が存在 する.古典的な脳の情報処理の描像では,外部からの刺 激入力がなく,身体運動を行っていない安静状態では, 脳では何の情報処理も行われておらず,皮質の自発的な 活動は単なる無意味なノイズに過ぎないと考えられてい た.一方,刺激入力や身体運動が行われると皮質細胞は 情報処理に特異的でかつ信頼性のある活動を生じるた め,細胞活動を詳細に調べることにより,どのような情 報処理に関与しているのかを明確に同定することが可能 であるというパラダイムのもとに研究が行われてきた. 現在の神経科学では,これらの描像は複数の点で正しく ないことが認識されている.神経ネットワークにおける 細胞活動間の相関構造による幾何学的拘束と学習の議論 の前提として,まず試行間変動性と自発発火活動という 二つの現象を説明する. § 1 試行間変動性と発火数相関 まず,第一に刺激入力や身体運動に関与する個々の皮 質細胞の活動は十分な信頼性を有していない.例えば, よく知られているように視覚皮質の各細胞はその受容野 内に提示される線刺激の傾きに対して固有の方位選択性 の活動を示すが,同じ線刺激を提示する試行を複数回 繰り返しても発火数は大きくばらつくことが知られてい る.これは試行間変動性(trial-to-trial variabilities)と 呼ばれる.信号伝達で生じる一定の大きさの確率的な揺 らぎであれば,平均発火率自体が大きくなれば SN 比の 上昇が期待できるが,実験データでは試行間にわたる発 火数の分散は平均発火率に比例して増大することから, 活動を生じさせる機構と変動性の機構が同一であると考 えられている.つまり,神経ネットワークのダイナミク スという力学系固有の現象である可能性がある.この変 動性のために,データ解析では同じ刺激提示下の複数試 行にわたる平均発火率(時間平均)を用いて方位選択性 などの細胞の機能を議論している.しかし,我々の実際 の対象認識では 1 試行の刺激提示で十分であるため,信 頼性を回復する何らかの神経メカニズムが存在するはず である.この解決策として集団符号化(ポピュレーショ ンコーディング)が提案されている.これは,同一また は十分な冗長性をもって方位選択性特性を符号化する複 数の細胞が存在し,これらが統計的に独立な変動性を示 せば,1 試行の反応の細胞集団にわたる平均(アンサン ブル平均)は細胞数の平方根の逆数で標準偏差が減少す ることで信頼性が向上し(大数の法則),一つの細胞で の活動の試行平均と一致するという論理である(ニュー ロンエルゴード仮説とも呼ばれる).しかし,神経生理 実験で近接した複数の皮質細胞の活動を記録して,発火 数の細胞間相関を計算すると,独立ではなく,小さい ながらも有限の相関係数(正も負も存在する)を示すこ とがよく知られている.この相関は発火数相関(spike count correlation)と一般的に呼ばれるが,ノイズ相関 (noise correlation)という誤解を招く名称でも呼ばれる ことがある.有限の発火数相関の存在のために,集団符 号化による信頼性の向上は必ずしも単純ではないことが 認識されている [三浦 11].試行間変動性の機能的意味 に関しては現在でも統一した見解に至っておらず,活発 に研究が行われている.試行間変動性および弱い発火数 相関は情報処理にとって無益または有害な副産物である のか,それとも有効な方策であるのかすら確定していな いのが現状である.近年の研究の関心は,細胞間の発火 数相関によるネットワークの幾何学的拘束(内因性多様 体)およびその構造が Brain-Machine Interface での適 応的学習に与える影響である.この特性は深層学習にお けるネットワーク構造と学習の関係に大きく関連すると 思われるため,本概説のメインテーマとして,後に議論 を行う.

(5)

§ 2 自発発火活動と内因性多様体 D. Hebbは 1949 年に発表した著作 Organization of Behavior [Hebb 49]において今日の神経生理学での重 要な研究対象となっているテーマの多くを導入してい る.セルアセンブリ [伊藤 15] や Hebb シナプスが良く 知られているが,現在でも機能的意味が解明されていな いもう一つの現象である自発発火活動の重要性も明確 に指摘している.Hebb は末梢の感覚器からの情報が中 枢に一方的に伝搬するという当時の支配的な描像に疑 問を抱き,神経系に存在する自発発火活動を“existent excitation”と表現し,「脳は常にアクティブであり,感 覚入力で誘発される活動は自発活動に影響されるはずで ある」と議論している.その後の Hubel と Wiesel らの 機能的に特殊化した細胞の発見がもたらした研究の支配 的な流れの中で,長期にわたって自発活動に対する関心 は薄れていた.しかし,80 年代後半からの Arieli らの イスラエルグループによる光感受性色素による視覚皮質 の時空間活動パターンの光学的イメージングの実験報告 により自発発火活動に対する認識は一変した.格子(グ レーティング)刺激提示下では,格子の方位を最適刺激 とする方位選択性コラム(共通な特性を示す細胞の空間 的集まり)の活動がイメージングされるが,無刺激条件 下での自発活動の空間パターンは,刺激下での方位選択 性コラムの活動と類似した空間パターンに停留する傾向 があり,異なる方位選択性コラムの空間パターンを時間 的に遍歴しているという現象が報告された [Kenet 03]. この実験報告は,自発発火活動や皮質活動での内因性 (intrinsic)な相関構造に着目する今日の研究テーマの 根源となっている. さらに,Luczak らは麻酔下および覚醒下でのラット の聴覚皮質から記録された複数細胞のスパイク発火活動 データの解析から同様な結果を報告した [Luczak 09]. 細胞集団符号化の解析においては,各細胞の発火数を座 標軸とすることで,記録する細胞数の次元の位相空間内 の一点として一試行での細胞集団の活動を表示する.従 来の理解では,自発発火活動は構造がない雑音のような 存在であると考えられていたので,細胞集団活動は位相 空間内において,発火数の生理学的上限の範囲内にお いては一様に分布すると予想される(図 2A).しかし, Luczakらがラットの聴覚皮質から記録した自発発火活 動は細胞間の発火数相関のために,位相空間内の限定さ れた領域に拘束されていた(図 2B). 後で説明する Sadtler らにならって,この限定された 領域を内因性多様体(intrinsic manifold)と呼ぶことに する*7.さらに Luczak らは,音刺激に対する細胞集団 活動は自発発火活動が拘束される内因性多様体から逸脱 するのではなく,内因性多様体の部分集合となっている ことを報告している.異なる音刺激に対する細胞集団活 動は試行間変動性から広がりをもった異なるクラスタを 形成するが,すべてのクラスタは内因性多様体の部分集 合となっている(図 2B).これは,自発発火活動であれ, 刺激誘発活動であれ,神経ネットワークで実現され得る 活動パターンは内因性多様体上に限定されているという 描像である. この拘束は当然ながら神経ネットワークを構成する細 胞間の解剖学的結合から生じている.しかし,ここで注 意すべき点は,細胞間の発火数相関は解剖学的結合によ り 1 対 1 に決定されるものではなく,複数細胞の活動 状態に依存する力学的変数であるということである.実 際に麻酔下ネコの視覚皮質から同時記録された細胞間の 発火数相関は提示する刺激の方位により変動する(相関 の符号すら反転する)場合があることが報告されている [Maruyama 13].皮質細胞は,複数の細胞から弱い入力 を受けている分散処理系であることが知られており,一 つのシナプス前細胞からの興奮性入力だけではいくら高 頻度入力でもしきい値を超えて発火することはできな い*8.発火のためには複数の細胞から,数ミリ秒程度の 短時間に同期した入力が必要となり(同期検出器),こ の特性のために細胞間の発火数相関は 2 体問題ではな く,多体問題となる*9.解析における困難は,多体問題 に影響を与えている細胞活動の多くを実験では記録でき ていないために,これらの細胞活動状態は隠れた変数と して扱わざるを得ないということである.Aertsen らは 解剖学的な結合(anatomical connection)と区別するた めに,スパイク活動の相関に基づく関係性を機能的結合 (effective connectivity または functional connectivity)

と定義した [Aertsen 02].つまり,内因性多様体自体も, 図 2 位相空間内での細胞集団活動(概念図) A. 同時記録された 2 個の細胞の発火数の分布. 各点は一つの試行での状態を示す.B. 実際の細 胞記録では,細胞間の発火数相関のために自発 発火の状態は相空間内で限定されている(内因 性多様体).異なる刺激 A,B に対する活動を〇 と★で示している(adapted from [Luczak 09])

*7 多様体という数学的な名称が付けられているが,高次元空間 で変数間に課された拘束条件から有限な領域に閉じ込められる という程度の意味であり,その実体の数学的定式化は今後の課 題である. *8 解剖学的結合強度の分布が log ノーマルであるという報告も あり,一部の強い結合に発火は支配されるという説もある. *9 人工ニューラルネットワークにおいても同様な多体性は生じ ている.しかし,各層の状態をフィードフォワードで同期して アップデートしていくため,処理ステップとしての離散時間は 存在するが,ここで議論する力学的な連続時間は存在しない.

(6)

神経ネットワークでの複数細胞の活動相互作用を通じて 生じる力学的な状態であると考えられる. 3・3 内因性多様体と適応学習 神経ネットワークのダイナミクスで実現可能な状態が 内因性多様体上に限定されていることは細胞集団活動の 適応的変化・学習にも影響を与えることが予想される. Sadtlerら [Sadtler 14] は,覚醒サルの運動皮質から記 録される細胞集団を用いた Brain-Machine Interface (BMI)において,この影響を確認した.BMI はこの 20 年ほどで大きく発展を遂げた神経科学と工学との融合分 野である [Lebedev 17, Rao 13].基本的な方法論は,脳 内で同時記録された細胞集団活動から情報をコンピュー タが復号化し,筋肉などの身体機能を介さずに,直接に 外界のデバイスを制御することである.最も研究が進ん でいるのは,運動皮質の数十∼ 100 個程度の細胞の集 団活動によるモニタ上のカーソル(念力カーソル)やロ ボットアームの制御である.Sadtler らは運動皮質から 記録される細胞集団における細胞間の発火数相関から内 因性多様体を同定した.BMI では内因性多様体上に部 分空間(BMI 制御空間)を設定し,この空間内の細胞 活動状態とモニタ上のカーソルの運動を対応付けた.図 3Aの概念図では,三つの細胞の活動の内因性多様体を 平面で表し,その上に一次元部分空間を設定し,この線 上の位置とカーソルの運動との間に単調な関係を設定し たモデルを課した.この線上の状態は,細胞間の特定な 発火数相関の拘束下で各細胞の発火率を変化させること に対応する.例えば,A,B,C の三つの細胞間に A と Bは正,A と C は負の発火数相関が存在する場合には, Aの発火数の増加は B と C の発火数の増加と減少を伴 う.BMI 課題では,サルは細胞集団活動を用いてカー ソルをモニタ上のターゲットまで移動させることで報酬 がもらえる.ある程度の過渡的な状態の後に,サルは課 されたモデルに適応して細胞集団活動を制御し,適切に カーソルを制御できるようになる(ブレインコントロー ルモード). BMI研究での細胞集団活動の適応的変化における根 本的な問題は,サルは脳に存在する膨大な数の細胞の うちのどれが BMI で課されたモデルに関係しているの か,およびこれらの細胞の活動がカーソルの運動とどの ように関係付けられているのかを試行錯誤で見つけださ なくてはいけないということである.ミクロな細胞集 団の活動の変化と外部のカーソルの運動との因果関係の フィードバックを手掛かりとしていることは明らかであ るが,膨大な自由度での最適状態探索問題となるため, 多くの学習時間を要することが予想される(次元の呪い [Watanabe 17])*10.しかし,多くの BMI 実験の報告で は短時間でカーソルを制御できるようになることが報告 されている(1 時間∼数時間程度).これは,細胞集団 の活動が発火数相関による拘束により内因性多様体上に 限定されることで,最適状態探索問題が比較的少数自由 度に落ちていることが反映しているのではないかと考え られている. Sadtlerらの実験では,サルの脳活動が課せられて いる BMI モデルに適応した後にモデルを変更すること で,新たなモデルへの再適応のダイナミクスを観察し ている.モデルの変更には内因性多様体上の異なる部分 空間内の細胞集団活動を設定する多様体内変更(within-manifold perturbation)と内因性多様体から逸脱した 制御空間を設定する多様体外変更(outside-manifold perturbation)の 2 ケースが存在する(図 3B).彼らの 報告では,多様体内変更の場合は既存のネットワークの 結合構造で実現可能な細胞集団の相関活動への変更であ るため,短時間で再適応し,正答率も上昇する.一方, 多様体外変更の場合は,再適応のためにはネットワーク の解剖学的結合の変化による内因性多様体自体の変形を 行って,課された細胞集団の発火数相関を実現する必要 がある.このため,短時間での適応的変化は不可能であ り,正答率は低下したままであった. この概説では紹介しなかったが,fMRI などを用いた ヒトの脳機能イメージングでも,領域間の関係性におい て文脈依存的な相関結合(力学変数)としての effective connectivityや functional connectivity が議論されてお り,神経生理学と同様な視点での研究が活性化している [Friston 11].また,環境に対して積極的な情報処理を 行っていない安静状態でも特徴的な脳活動のダイナミク スが存在することは,脳機能イメージングでも報告され ている.Effective connectivity をもつ複数の領野間がダ イナミックなネットワークを構成し,複数の異なるネッ トワーク(resting state ネットワーク,default mode ネッ

図 3 内因性多様体と BMI 制御空間への適応(概念図) A. 同時記録された 3 個の細胞の発火数の分布.各点は一つ の試行での状態を示す.細胞間の発火数相関のために細胞 活動は相空間内で内因性多様体上に限定されている.図の 例では,BMI 制御空間として一次元軸を取り,この軸上の 位置に応じてカーソル運動を制御する.B. 設定した BMI 制 御空間に適応した後に,制御空間の変更を行い,細胞活動 の再適応を生じさせる.制御空間の変更には内因性多様体 上の異なる部分空間を設定する場合(多様体内変更)と内 因性多様体上から逸脱して制御空間を設定する場合(多様 体外変更)が存在する(adapted from [Sadtler 14])

*10 ミクロな要素の状態とマクロな出力との関係の適応学習と考 えれば,入力から出力までが多階層でつながる強化深層学習と 類似しているとも考えられる.

(7)

トワークなど)の存在が報告されている.

4.計算資源としての非線形力学系

ここで,再びニューラルネットワークの数理モデルの 話に戻ろう.前章の神経科学の知見では,特別なタスク を遂行していないときの神経活動(自発発火活動)につ いて,学習の能力や機能と関係していることを示唆する 実験結果を紹介した.ところで,工学的なニューラルネッ トワークにおいて特別なタスクをしていないときの自発 活動を考える意味はあるのであろうか? そもそも,神 経活動はエネルギーをかなり消費するので,不必要な活 動は進化論的に淘汰されて然るべきである.しかし,前 章で見たように現実には自発発火活動は存在し,雑音の ようなランダムで無意味な活動ではないとの実験的示唆 がある.最近では,内因性多様体やデフォルトモードネッ トワークの研究が盛んに行われている*11.このような自 発活動は,最適なシステムという工学的観点からは一見 むだに思える.それを覆す可能性があるという意味で興 味深いモデルであるレザバー計算機を最後に紹介したい. 4・1 レザバー計算機 知性の基盤である脳・神経系の情報処理には,学習に 時間がかかるが高度な判断や識別を行うもの*12と,ス キップなどの運動学習や環境適応など素早く学習が可能 なものがある.後者の素早い学習のモデルとして,リカ レントニューラルネットワークの一種であるレザバー計 算機(Reservoir computing)が注目されており,脳の運 動制御信号生成のモデルなどに用いられている [Laje 13, Sussillo 09].その源流は,echo state network [Jaeger 04] や liquid-state machine [Maass 02] であるが,二つの モデルの本質は同じであり,最近ではレザバー計算機 (Reservoir computing)と総称されている [Lukoševicˇius

12].図 4(a)に示すように,そのアイディアの骨子は 以下に集約される. 1.レザバーと呼ばれるランダム結合したリカレント ニューラルネットワーク(大自由度の結合力学系で もよい)を用意する. 2.レザバーの全ニューロンの状態の線形和を出力と する. 3.目的の時系列を再現するように出力とレザバー間 の線形結合のみを学習する. 図 4(a)のように,周囲の環境の状態依存の入力や 出力依存のフィードバックを加えることで,複数の時系 列をより柔軟に学習することも可能になるが,必須では ない.第 1 のポイントは,系に何も入力がなくタスクを 遂行していないときでも,系は自律的に状態を更新して 常に変化している点である.第 2 のポイントはレザバー 内の結合は固定であり,タスクに依存した学習による更 新は行わない点である.学習は出力に関係する線形和の 結合のみ行う.また,出力はタスクに応じて複数あって もよい.レザバーが十分に大自由度で,各力学系の要素 の状態が多様なダイナミクスを示す場合,任意の有限の 時系列を線形和で精度良く再現でき,結合の学習も線形 計算で素早く完了するのが利点である.この話は神経系 に限らず,多様なダイナミクスを示す大自由度力学系で あれば現実の物理システムをレザバーとして活用でき る.もちろん,これらが実現するためには,レザバーに は望ましい性質がなくてはならない.その性質の条件は 以下の 2 点である. 1.時空間的に十分多様なダイナミクスを示す(多様性: カオスなど). 2.ほぼ同じ状況下で再現性が高い(安定性). この 2 点は矛盾する要請である.再現性だけ考えれ ば,周期解などの安定解が複数存在するレザバーが,ノ イズなどにロバストな再現性があるので望ましい.ただ し,生成可能な時系列の多様性は期待できない.一方で 複雑な時系列などを再現する場合は,多様な信号が生成 できるカオスが望ましい.ただ,カオスの性質上,微 少な差が指数関数的に増大して,ノイズなどにロバス トでない点が問題である.従来の研究では,カオスの 縁(edge of chaos)の状態が最も計算能力が高いとされ ている [Bertschinger 04].これを実現するのは難しそう に思うかもしれないが,レザバー内の結合を分散をコン トロールしたガウス分布でランダムにサンプルすること で,カオスの縁に系を設定できることが理論的に知られ ている [Sompolinsky 88].また,類似の指導原理として レザバー内の結合行列のスペクトル半径が 1 程度という 条件(echo state property)も広く用いられる*13.実際,

状況依存の入力 多様な時系列を素早く学習 計算能力 カオス 通常のアトラクタ Edge of chaos (a) (c) (b) フィードバック レザバーとして望ましい性質 レザバー:ネットワーク結合力学系 図 4 (a)レザバー計算機の原理.学習は出力への結合のみ行う, (b)最適なレザバーの条件,(c)情報量最大化の結果出現し たレザバーの結合構造.上位 2.6%の強い結合を表示している *11 特に何もしていないぼーっとしている時間が,実は創造的活 動には重要かもしれない,という我々の内なる声も,自発発火 活動の研究を後押ししているかもしれない. *12 この実現を目指した深層学習では,学習に熟練した技術と多 大な時間が必要である(手軽なパッケージ化したソフトの裏で). *13 おおざっぱには,時間が経過しても状態が発散せず,一方です ぐに信号が減衰せず過去の履歴が残る臨界状態を意図している.

(8)

このような条件のもとで,さまざまな事例でレザバー計 算機がうまく機能することが多数報告されている.なお, レザバー計算機はなぜ学習がうまくいくのか? 既存の 手法と比較した理論的研究として,信号を高次元の時空 間パターンに変換して線形分離を可能にするカーネル法 との類似性を指摘した研究もある [Hermans 12]. 4・2 力学系のレザバーとしての最適性 カオスの縁という状態を実現するネットワーク構造は 唯一ではなく,多数の状態があるだろう.その中のネッ トワーク構造中には,レザバーとしての優劣もあるであ ろう.レザバー内のリカレント結合は,特定のタスクに 特化した学習を必要としないことが利点ではある.しか し,もう少し欲張って結合構造を絞ることでさらに性能 を上げることはできないだろうか? その一つの可能性として,最後に我々の最近の研究を 紹介したい.ニューラルネットワークの活動の前後の状 態間の相互情報量が最大となるような結合構造は,神経 科学の実験データを統一的に説明可能であることが示唆 されている(Recurrent Infomax)[Tanaka 09].過去 の情報を記憶していないと解けない課題は,過去の入力 をできるだけ長時間蓄えられる能力が性能向上に直結す る.そこで,Recurrent Infomax の原理で生成したニュー ラルネットワークをレザバーに用いて,その性能向上を 図る方策が考えられる* 14.結果として,過去の情報を 必要とする課題に関して性能の向上が見られたが,記憶 より非線形性が必要である課題では,それほど向上は見 られなかった [Iwade 18].レザバー内の結合を最適化す る手法はすでに教師信号の有無なども含めさまざまな試 みが行われている [Lukoševicˇius 12].しかし,特に内部 結合を教師あり学習する場合は,レザバー本来の利点が 失われるジレンマもある.今後は,その点も勘案しつつ 他のレザバー設計の指導原理を探る力学系の研究が重要 に思える.

5.お わ り に

近年の神経科学では脳が固有(endogenous,intrinsic) にもっている力学的な制約による構造を前提として,感 覚刺激入力への反応や運動出力に関する脳活動を再検討 する動きが生じている.脳の固有のダイナミクスと外界 からの入力との相互作用を通じて認知が立ち上がるとい う「認知のインタラクション仮説」の実験的検証へと向 かうように思われる.個人的な見解としては,「無は無 限」とする禅の思想や「刺激のゲシュタルトは有機体そ のものによって,つまり有機体が自らを外の作用に差し 出す固有の仕方によって,創造されるのである」と主張 したメルロ=ポンティの哲学 [メルロ=ポンティ 42] に 通じるものを感じる.また,脳がネットワークのダイナ ミクスを固有の自己拘束で構造化することで,学習にお ける不良設定問題を解決しているとすれば,いわゆるベ イズ統計における事前分布に相当するものを,非線形力 学系の内部ダイナミクスを起点として構築しているよう にも思われる.このような視点を数理モデルの一般論に もち込むことは容易ではないが,次のような考え方はど うだろうか? まず,外部環境からの入力はある法則に 従った力学系から生成されており,処理するニューラル ネットワークも結合構造などに規定された制約条件のあ る力学系とみなしてよいだろう.通常であれば相互の制 約条件は学習に良い効果をもたらすとは考え難いが,環 境とニューラルネットワークの各力学系が,相互にうま く制約し合うことで,逆に結果として高次元の学習を容 易にしている可能性はないのか? この発想が正しいか どうかは今後の課題であるが,ここで述べた内容が読者 の刺激になり,新たな研究や発展につながれば幸いであ る*15 謝 辞 レザバー計算機に関して共同研究者の中嶋浩平氏の 情報提供に感謝します.本研究の一部は文部科学省およ び JSPS 科 研 費(16K01966,16KT0019,15H05877, 15H05878)の助成を受けたものです.

◇ 参 考 文 献 ◇

[Aertsen 02] Aertsen, Ad., 伊藤浩之:皮質ダイナミクスと神経計 算機構─実験・解析・モデル─,脳の情報表現,pp. 186-209, 朝倉書店(2002)

[Amari 67] Amari, S.:Theories of adaptive pattern classifiers,

IEEE Trans. on Electronic Compaters, Vo. EC-16, pp. 299-307

(1967)

[甘利 68] 甘利俊一:情報理論 II ─情報の幾何学的理論─,共立出 版(1968)

[Amari 72] Amari, S.: Learning Patterns and pattern sequences by self-organizing nets of threshold elements, IEEE Trans. on

Computers, Vol. C-21, No. 11, pp. 1197-1206(1972)

[Bertschinger 04] Bertschinger, N. and Natschläger, T.: Real-time computation at the edge of chaos in recurrent neural networks, Neural Computation, Vol. 16, No. 7, pp. 1413-1436 (2004)

[Brody 03] Brody, C. D., Romo, R. and Kepecs, A.:Basic mechanisms for graded persistent activity: discrete attractors, continuous attractors, and dynamic representations, Current

Opinion in Neurobiology, Vol. 13, No.2, pp. 204-211(2003) [Friston 11] Friston, K. J.: Functional and effective connectivity:

A review, Brain Connectivity, Vol. 1, pp. 13-36(2011) [Hebb 49] Hebb, D. O.: The Organization of Behavior, New York

John Wiley Inc.(1949)

[Hermans 12] Hermans, M. and Schrauwen, B.: Recurrent kernel machines, computing with infinite echo state networks, Neural

Computation, Vol. 24, No. 1, pp. 104-133(2012)

[Hopfield 82] Hopfield, J. J.: Neural networks and physical

*15 本解説の 1,2,4 章は青柳が,3 章は伊藤が主として担当した. 互いの内容を配慮して全体を再構成し,5 章に二人の内容をま とめている.

(9)

[Rumelhart 86] Rumelhart, D. E., Hinton, G. E. and Williams, R. J.: Learning representations by back-propagating errors,

Nature, Vol. 323, No. 6088, pp. 533-536(1986)

[櫻井 08] 櫻井芳雄:脳の情報表現を見る,京都大学出版会(2008) [Seung 00] Seung, H. S., Lee, D. D., Reis, B. Y. and Tank, D. W.: Stability of the memory of eye position in a recruitment network of conductance-based model neurons, Neuron, Vol. 26, pp. 259-271(2000)

[Skarda 87] Skarda, C. A. and Freeman W. J. : How brains make chaos in order to make sense of the world, Behavioral and

Brain Sciences, Vol. 10, pp. 161-195(1987)

[Sompolinsky 88] Sompolinsky, H., Crisanti, A. and Sommers, H.: Chaos in random neural networks, Phys. Rev. Lett., Vol. 61, No. 3, pp. 259-262(1988)

[Sussillo 09] Sussillo, D. and Abbott, L. F.: Generating coherent patterns of activity from chaotic neural networks, Neuron, Vol. 63, No. 4, pp. 544-557(2009)

[Tanaka 09] Tanaka, T., Kaneko, T. and Aoyagi, T.: Recurrent infomax generates cell assemblies, neuronal avalanches, and simple cell-like selectivity, Neural Computation, Vol. 21, No. 4, pp. 1038-1067(2009)

[Watanabe 17] Watanabe, T., Sasaki, Y., Shibata, K. and Kawato, M.: Advances in fMRI real-time neurofeedback, Trends in

Cognitive Sciences, Vol. 21, pp. 997-1010(2017)

[Yamaguti 11] Yamaguti, Y., Kuroda, S., Fukushima, Y., Tsukada, M. and Tsuda, I.: A mathematical model for cantor coding in the hippocampus, Neural Networks, Vol. 24, No. 1, pp. 43-53 (2011)

2018年 5 月 15 日 受理 systems with emergent collective computational abilities, Proc.

National Academy of Sciences, Vol. 79, No. 8, pp. 2554-2558

(1982) [伊藤 97] 伊藤浩之:脳におけるダイナミカルな情報コード─脳科 学とモデル─,神経研究の進歩,Vol. 41, No. 6, pp. 834-841,医 学書院(1997) [伊藤 00] 伊藤浩之:多細胞同時記録データの統計解析法,日本神 経回路学会誌,Vol. 7, No. 1, pp. 8-19(2000) [伊藤 15] 伊藤浩之:セルアセンブリ,脳科学辞典,DOI: 10.14931/ bsd.3845(2015)

[Iwade 18] Iwade, H., Nakajima, K., Tanaka, T. and Aoyagi, T.: Use of recurrent infomax to improve the memory capability of input-driven recurrent neural networks, arXiv:1803.05383 (2018)

[Jaeger 04] Jaeger, H.: Harnessing nonlinearity: Predicting chaotic systems and saving energy in wireless communication,

Science, Vol. 304, No. 5667, pp. 78-80(2004)

[Kenet 03] Kenet, T., Bibitchkov, D., Tsodyks, M., Grinvald, A. and Arieli, A.: Spontaneously emerging cortical representations of visual attributes, Nature, Vol. 425, pp. 954-956(2003)

[Koulakov 02] Koulakov, A. A., Raghavachari, S., Kepecs, A. and Lisman, J. E. : Model for a robust neural integrator, Nature

Neuroscience, Vol. 5, No. 8, pp. 775-782(2002)

[Laje 13] Laje, R. and Buonomano, D. V.: Robust timing and motor patterns by taming chaos in recurrent neural networks,

Nature Neuroscience, Vol. 16, No. 7, pp. 925-933(2013) [Lebedev 17] Lebedev, M. A. and Nicolelis, M. A. L.:

Brain-machine interfaces: from basic science to neuroprostheses and Neurorehabilitation, Physiological Review, Vol. 97, pp. 767-837 (2017)

[Luczak 09] Luczak, A., Bartho, P. and Harris, K. D.: Spontaneous events outline the realm of possible sensory responses in neocortical populations, Neuron, Vol. 62, pp. 413-425(2009) [Lukoševicˇius 12] Lukoševicˇius, M., Jaeger, H. and Schrauwen,

B.: Reservoir computing trends, KI-Künstliche Intelligenz, Vol. 26, No. 4, pp. 365-371(2012)

[Maass 02] Maass, W., Natschläger, T. and Markram, H.: Real-time computing without stable states: A new framework for neural computation based on perturbations, Neural

Computation, Vol. 14, No. 11, pp. 2531-2560(2002)

[Maruyama 13] Maruyama, Y. and Ito, H.: Diversity, heterogeneity and orientation dependent variation of spike count correlation in the cat visual cortex, European J.

Neuroscience, Vol. 38, pp. 3611-3627(2013) [メルロ=ポンティ 42] メルロ=ポンティ 著,滝浦静雄,木田元 訳: 行動の構造,p. 33,みすず書房(1964) [三浦 11] 三浦佳二:ポピュレーションコーディングにおけるノイ ズ相関の影響,日本神経回路学会誌,Vol. 18, No. 2, pp.67-72 (2011)

[Montufar 14] Montufar, G. F., Pascanu, R., Cho, K. and Bengio, Y.: On the number of linear regions of deep neural networks,

Proc. 27th Int. Conf. on Neural Information Processing Systems

(NIPS’14),Vol. 2, pp. 2924-2932(2014)

[Rao 13] Rao, R. P. N.: Brain-Computer Interfacing: An

Introduction, Cambridge University Press(2013)

[Rosenblatt 58] Rosenblatt, F.: The Perceptron: A probabilistic model for information storage and organization in the brain,

Psychological Review, Vol. 65, No. 6, pp. 386-408(1958)

著 者 紹 介

伊藤 浩之 京都産業大学情報理工学部教授.1988 年東京大学大 学院理学系研究科物理学専攻博士後期課程修了(理 学博士).京都大学基礎物理学研究所,理学部物理 第一学科(学術振興会特別研究員),米国ロスアラ モス国立研究所 Center for Nonlinear Studies(客 員研究員),カナダ McGill 大学生理学部 Center for Nonlinear Dynamics in Biology and Medicine(ポ スドク研究員),京都産業大学工学部情報通信工学科講師,同助教授,同 教授を経て 2008 年より現職.専門は神経科学,非線形科学,特に視覚皮 質からの多細胞記録生理実験と Brain-Machine Interface.日本神経科学 学会,日本神経回路学会,Society for Neuroscience 各会員.

青柳 富誌生(正会員) 京都大学大学院情報学研究科(先端数理科学専攻) 教授.1993 年京都大学大学院理学研究科博士後期課 程修了.博士(理学).同年,京都大学工学部数理 工学科助手,同大学院情報学研究科複雑系科学専攻 講師,准教授を経て 2014 年より現職.専門は非線 形物理学,理論神経科学,特にリズム現象の解析と ネットワーク上の結合力学系の研究を行う.日本物 理学会,日本神経科学学会,日本数理生物学会,日本神経回路学会各会員.

図 3  内因性多様体と BMI 制御空間への適応(概念図)  A.  同時記録された 3 個の細胞の発火数の分布.各点は一つ の試行での状態を示す.細胞間の発火数相関のために細胞 活動は相空間内で内因性多様体上に限定されている.図の 例では,BMI 制御空間として一次元軸を取り,この軸上の 位置に応じてカーソル運動を制御する.B

参照

関連したドキュメント

Keywords: continuous time random walk, Brownian motion, collision time, skew Young tableaux, tandem queue.. AMS 2000 Subject Classification: Primary:

Next, new classes of rational functions: parabolic Collet–Eckmann and topological parabolic Collet–Eckmann are introduced and mean porosity of Julia sets for functions in these

2 To introduce the natural and adapted bases in tangent and cotangent spaces of the subspaces H 1 and H 2 of H it is convenient to use the matrix representation of

Li, “Simplified exponential stability analysis for recurrent neural networks with discrete and distributed time-varying delays,” Applied Mathematics and Computation, vol..

This paper presents an investigation into the mechanics of this specific problem and develops an analytical approach that accounts for the effects of geometrical and material data on

While conducting an experiment regarding fetal move- ments as a result of Pulsed Wave Doppler (PWD) ultrasound, [8] we encountered the severe artifacts in the acquired image2.

Amount of Remuneration, etc. The Company does not pay to Directors who concurrently serve as Executive Officer the remuneration paid to Directors. Therefore, “Number of Persons”

一般法理学の分野ほどイングランドの学問的貢献がわずか