推移的推論の脳メカニズム ─汎用人工知能の計算理論構築を目指して─

(1)

1．は　じ　め　に

David Marrは，生物の脳を含む情報処理装置を理解するためには，三つの水準があると述べている [Marr 82]．① 計算理論，② アルゴリズム，③ ハードウェアによる実現の三つである．我々システム神経科学の研究者の多くは，脳の機能を明らかにするために研究を行っており，Marr の言う① と ② のレベルで脳を理解することを主な目的としている．脳に学ぶ人工知能（Artificial Intelligence：AI）とは，脳機能の計算理論的記述をもとに，そのアルゴリズムを推定し，ニューロンのネットワークではなく，コンピュータ上でそれを実現する，ということになる．神経科学においても，工学的視点からの問題解決に必要な計算理論・アルゴリズムの提案は，脳機能の計算理論・アルゴリズムを考えるうえでの大きなヒントになった．その典型が，[Sutton 81, Sutton 98] による強化学習理論のドーパミン─大脳基底核回路の価値学習機能への適用であろう [Schultz 97]．中脳ドーパミン細胞がつくり出す報酬予測誤差情報が，大脳基底核，特に線条体に送られて価値情報がつくり出されるとする仮説は，多くの検証実験で確認され，さらなる仮説・モデルを導くことで，2000 年代の意思決定研究の興隆につながる．それに比べて，近年の深層学習（Deep Learning： DL）による新たな可能性の発見に基づく AI ブームは，問題解決に詳細な計算理論・アルゴリズムは使わず，ビッグデータ解析によりその正答率を上げるという方法をとっている．一方，神経科学，特に意思決定神経科学の世界では，新しい遺伝子・分子技術の出現で，Marr の 3 番目の水準（ハードウェアによる実現），すなわち，脳という制約のもと，ニューロン回路がどのように機能を実現しているかに関心が移ってきているように思われる．これが，神経科学と AI の融合研究の低迷につながることは，いうまでもない [Hassabis 17]．このまま神経科学と AI は，それぞれ独自の道を歩むことになるのだろうか？

2．高次般化機能の計算理論の必要性

ヒトの脳機能をまねようがまねまいが，学習における般化機能は AI の汎用性のキーであり，現在の DL が不得意とするところである．推論や想像といった，類似性だけに依存しない般化機能は，AI がヒトの脳に劣る部分でもある．神経科学分野においても，推論や想像といった高次の般化機能がどのように脳で実現されているか，ほとんど解明されていない状態である．しかし，少しずつではあるが，高次般化機能の計算理論的解明を目指す試みも行われるようになってきた．本稿では，我々が行ってきたカテゴリー推論の実験的研究について紹介し，今後の脳研究と人工知能研究の融合について考えてみたい．

3．条　件　付　け

動物における学習の基本形は，大きく古典的（パブロフ型）条件付けと道具的（オペラント型）条件付けに分けることができる．古典的条件付けとは，条件刺激（conditioned stimulus：CS）と無条件刺激（unconditioned stimulus：UCS）が対呈示されることで，

推移的推論の脳メカニズム

─汎用人工知能の計算理論構築を目指して─

Neural Mechanisms of Transitive Inference

　─ Aiming to Construct Computational Theory for General Purpose

　　 Information Processor ─

田中　慎吾

玉川大学脳科学研究所

Shingo Tanaka Brain Science Institute, Tamagawa University. [email protected]

坂上　雅道

（同上）

Masamichi Sakagami _{[email protected]}

Keywords:

lateral prefrontal cortex, striatum, reward inference, model-free learning, model-based learning. 「脳科学と AI のフロンティア」

(2)

846 人工知能 32 巻 6 号（2017 年 11 月） CSと UCS が連合し，本来 UCS が引き起こす無条件反応（unconditioned response：UCR）を CS が引き起こすようになるような学習（条件反応：CR（conditioned response）＝ UCR）を指す．一方，道具的条件付けとは，何かの行動を行った結果，動物にとって良いことが起こるとその行動を繰り返す傾向が高まり（正の強化），逆に悪いことが起こるとその行動の生起頻度が下がる（負の強化）といった学習である．さらに，学習された刺激 1と刺激 2 の関係と，刺激 2 と刺激 3 の関係が，脳の中で結び付くことによって，直接経験していない刺激 1 と刺激 3 の関係が出来上がる．このように条件付けの関係性の次元が上がっていくことを高次条件付けという．

4．モデルフリーとモデルベース

Dawらは，条件付けのように，刺激や反応に伴い報酬や罰が起こると，その程度と確率に応じて刺激と反応の関係性についての学習が生じるような学習過程を「モデルフリープロセス（model-free process）」と呼び，これには大脳基底核が重要な役割を果たしているとした [Daw 05]．モデルフリープロセスにおける学習には，中脳ドーパミン細胞の報酬予測誤差情報（実際に得た報酬量と予測された報酬量の誤差）が決定的な役割を果たしており，この情報が大脳基底核に運ばれ，古典的条件付けや道具的条件付けを形成する [Samejima 05, Schultz 97]．それに対して，刺激や反応の生起とその結果として起こる報酬や罰の間に内的な表象を介在させる学習過程を「モデルベースプロセス（model-based process）」と呼んだ．内的表象とは，刺激や反応の間の状態遷移を学習したものであり，この学習には，報酬や罰による強化は必ずしも必要ではない．Daw らは，モデルベースプロセスの核は状態遷移学習にあり，これには大脳新皮質，特に前頭前野が重要な役割を果たすと考えた．モデルフリープロセスとモデルベースプロセスの違いを調べるため，Daw らは，2 段階マルコフ判断課題（two-stage Markov decision task）と呼ばれる課題を開発し，それを用いてヒトの行動と脳活動を調べた [Daw 11]（図 1）．2 段階マルコフ判断課題では，第 1 段階（上段）で左の図形を選ぶと，70％の確率で第 2 段階（下段）における左の選択肢ペアに進み，30％の確率で右の選択肢ペアに進む．第 2 段階での選択では，図形ごとに報酬確率が割り当てられているので，選択した図形の報酬確率によって報酬の有無が決定される（図 1 A）．この報酬確率は試行ごとに変動するため，被験者は報酬経験を通じて，その報酬確率を学習する必要がある．図 1 B は，ある試行における報酬の有無によって，その次の試行の第 1 段階の選択で，前の試行と同じ選択肢を選ぶ確率を予想したものである．モデルフリー戦略を取る場合（左のパネル），ある試行で報酬を得ることができたならば，第 2 段階が 70％の確率側に行こうと 30％の確率側に行こうと，次の試行では，前の試行の第 1 段階で選択した刺激と同じ刺激を選ぶと考えられる．逆に，報酬がなかったならば，次の第 1 段階の選択は，前の試行で選んだ刺激とは異なる刺激を選ぶと考えられる．一方，モデルベース戦略を取った場合（右のパネル）には，ある試行で報酬を得ることができても，確率的に移行した第 2 段階が 70％の確率側である場合に比べ，30％側であった場合は，次の試行の第 1 段階では選択する刺激を変える確率が上がる，つまり同じ第 2 段階へより移行しやすい刺激を選ぶ傾向がある，と考えられる．ある試行で報酬がなければ，そのとき移行した第 2 段階が 30％側であった場合には，70％側であった場合に比べ，次の第 1 段階で選択を変える確率は減る，つまり同じ第 2 段階へより移行しにくい刺激を選ぶ傾向がある，と考えられる． 2段階マルコフ判断課題の遂行中，被験者がモデルフリー戦略をとる場合には，課題探索により報酬予測誤差情報が検出され，モデルベース戦略をとる場合には，状態予測誤差情報（第 1 段階から第 2 段階への移行確率の学習のための誤差情報）が検出されると予想される．実際，モデルフリー戦略をとっている場合には，大脳基底核の線条体（striatum）が強く活動し，モデルベース戦略をとっている場合には，大脳新皮質，特に前頭前野が強く活動していた [Daw 11, Glascher 10]．このこと図 1 2 段階マルコフ判断課題． A. 2段階マルコフ判断課題の概略．B. モデルフリー戦略とモデルベース戦略を用いた場合の，被験者の選択行動の予測

(3)

から，モデルベース戦略の核となる環境情報の状態遷移学習に前頭前野は重要な働きをしていることが示唆された．前頭前野損傷患者は，ウイスコンシンカードソーティング課題やストループ課題など文脈的判断が要求される課題での成績が低下すること [Lhermitte 86, Luria 80, Milner 64, Owen 96, Perret 74]，また，ヒト以外の霊長類での前頭前野ニューロン活動記録実験によって，文脈やルール，高次条件付けを反映するニューロンが多数見いだされていること [Amemori 06, Han 09, Hoshi 00, Sakagami 94, Vallentin 12, Wallis 01, White 99]を考えると，前頭前野が状態遷移学習に関係していることは想像に難くない．

5．間接的報酬予測課題

前頭前野の状態遷移予測機能を確認するために，我々は直接的な報酬経験を経ることなく，報酬を予測させる課題を開発した [Pan 08, Pan 14]．この課題では，被験体であるニホンザルは，まず連続対連合課題（sequential paired association task）によって，六つの視覚刺激の関係性について学習した（A1 → B1 → C1 もしくは A2→ B2 → C2）（図 2 A）．その後，C1 と C2 を使ってグループとジュース報酬の関係を教え（例えば，C1 →大

報酬，C2 →小報酬）（reward instruction trial：RIT），続く連続対連合試行（sequential paired association trial：SPAT）で，A1，A2 と報酬との関係を推測させた（図 2 B）．ある課題試行ブロックにおいて RIT と SPAT における刺激と報酬の関係は共通であるため，C1 が大報酬と関連付けられた場合，SPAT においては，A1 が提示された段階で，大報酬を予測することが可能となる．実際に，ニホンザルは RIT 課題における報酬情報を保持し，SPAT 課題において利用することで，SPAT 課題の第 1 試行から報酬を予測することが可能であった．このことは，サルが SPAT における刺激の状態遷移を学習しており，それを RIT で獲得した報酬情報と結び付けることができることを示している．さらに，我々はこの課題を行っているニホンザルの前頭前野外側部（lateral prefrontal cortex：LPFC）と大脳基底核線条体から単一ニューロン活動の記録を行った．LPFC と線条体のニューロンは，SPAT 課題の第 1 試行目から，報酬の大小を区別するような活動を示した（図 2 C）．このことは，サルの行動同様，LPFC ニューロンと線条体のニューロンは RIT 課題における報酬情報を保持し，SPAT 課題において報酬予測ができることを示している．しかし，線条体のニューロンも，LPFC ニューロン同様 SPAT の第 1 試行から正しく報酬予測を図 2 間接的報酬予測課題における，前頭前野外側部ニューロンと線条体ニューロンの活動． A. 2グループの視覚刺激．B. 間接的報酬予測課題の概略．C. 前頭前野外側部と線条体における，第 1 刺激に対する報酬弁別的ニューロン活動

(4)

848 人工知能 32 巻 6 号（2017 年 11 月）行っており，状態遷移情報がコードされているかどうかだけでは，前頭前野と線条体の機能的違いは説明できない．そこで次に，直接経験がない状態においても，状態遷移情報を利用し，推移的推論機能（A ならば B，かつ，B ならば C，ならば，A ならば C）を実現し得るのか，という点について検討した．先ほどの 6 種類の視覚刺激に加え，新たに新奇刺激（例えば N1 と N2）を導入し，B1 と B2 を利用した対連合課題によって，新奇刺激がどちらのグループに属するか，ということを学習させた（図 3 A）．次に RIT 課題によって，二つのグループに対する報酬情報を与えた後，SPAT 課題において，新奇刺激に対しての報酬予測が可能かどうか調べた（図 3 B）．その結果， SPAT課題において，初めて新奇刺激が導入された試行においてさえ，ニホンザルは，その刺激と関連付けられた報酬の大小を予測することが可能であることがわかった．このことは，ニホンザルは直接の経験がなくても刺激と報酬の関係を推論することが可能であることを示している．同様に，LPFC のニューロンも，新奇刺激導入後，初めての試行から報酬の大小を区別するような活動を示した（図 3 C 左）．一方，線条体のニューロンは，新奇刺激導入後，最初の試行においては報酬の大小を予測することができなかった（図 3 C 右）．しかし，試行を繰り返すことで，報酬予測が徐々に可能になっていった．以上の結果は LPFC のニューロンが状態推移情報を利用した報酬予測に加え，推移的推論を利用した報酬予測も行えることを示している．それでは，なぜそのような推論が可能なのであろうか．特定の視覚刺激と報酬との組合せをコードしているニューロン同士が情報をやり取りし，推移的推論を行うのであろうか．SPAT 課題において，我々は視覚刺激を ABC の順番で提示していたが，これを BCA や CAB のような順番に変更して同様の実験を行った．もし LPFC ニューロンが特定の視覚刺激と報酬との組合せをコードしているのであれば，視覚刺激の図 3 新奇視覚刺激を導入した，間接的報酬予測課題． A. 新奇視覚刺激の例．B. 新奇視覚刺激を用いた，間接的報酬予測課題の概略． C. 前頭前野外側部と線条体における，第 1 刺激に対する報酬弁別的ニューロン活動

(5)

呈示順序が変化すると，つまり B や C の刺激が一番初めに提示されると，視覚刺激の弁別はできなくなると予測された．しかしながら，この実験の結果，LPFC ニューロンは，特定の視覚刺激ではなく，特定のグループと報酬との組合せをコードしていることが明らかとなった（図 4）．一方で，線条体のニューロンは LPFC ニューロンのように，特定のグループと報酬との組合せに応じて，活動を変化させることはなく，特定の視覚刺激と報酬との組合せをコードしていることがわかった．

6．カテゴリー化と報酬予測

この結果から推測されることは，LPFC ニューロンが情報を抽象化する能力をもつということである．LFPC ニューロンは視覚刺激をカテゴリーに分け，そのカテゴリーに報酬情報を付加することで，直接経験のない条件でも，視覚刺激に関連付けられる報酬を推測することが可能であった．このような，情報の抽象化とそれを利用した学習がヒトを含む動物の思考や推論の基礎になるのではないだろうか．

7．お　わ　り　に

他方，人工知能技術でも，このような情報の抽象化は可能なのであろうか．一連の研究で用いた視覚刺激はグループごとに特徴があるわけではなく，対連合課題によって学習するものである．そのため，対連合課題を用いた視覚刺激のカテゴリー化を実現するためには，これまでに実績のある画像認識や物体認識とは異なる手法をとる必要はあるだろう．しかし，もし CNN や DL を用いることで，視覚刺激のカテゴリー化が可能であるならば，それと機械学習を組み合わせることで，人工知能による推移的推論が可能となるだろう．また，たとえ同じ感覚刺激を用いたとしても，環境や状況により，抽象化されるべき情報は異なってくる．状況や環境に応じて，情報の抽象化が可能になれば，推移的推論に限らず，多くの認知機能を再現可能な，いわゆる汎用人工知能の開発につながるのではないだろうか．このように，神経科学研究からも，これまで手を付けられなかった思考や推論，想像の計算理論的記述を可能とするデータが発表されるようになってきた [Donoso 14, Funamizu 16, Johanson 07, Pfeiffer 13]．脳科学と

AIの融合研究を促進するのは，何よりも Marr の言う計

算理論，アルゴリズムの解明である．このような視点に立った高次認知機能研究の進歩は，ビッグデータに依存した現在の AI を超える汎用 AI の開発に不可欠である．

◇　参　考　文　献　◇

[Amemori 06] Amemori, K. and Sawaguchi, T.: Rule-dependent shifting of sensorimotor representation in the primate prefrontal cortex, Eur. J. Neurosci., Vol. 23, pp. 1895-1909 （2006）

図 4 前頭前野外側部における，カテゴリー化ニューロンの神経活動．

A. 刺激呈示順を変更した，間接的報酬予測課題における前頭前野外側部ニューロンの活動例．B. 刺激呈示順を変更した，間接的報酬予測課題における前頭前野外側部ニューロン集団の平均的活動

(6)

850 人工知能 32 巻 6 号（2017 年 11 月）

[Daw 05] Daw, N. D., Niv, Y. and Dayan, P.: Uncertainty-based competition between prefrontal and dorsolateral striatal systems for behavioral control, Nat. Neurosci., Vol. 8, pp. 1704-1711（2005）

[Daw 11] Daw, N. D., Gershman, S. J., Seymour, B., Dayan, P. and Dolan, R. J.: Model-based inﬂuences on humans’ choices and striatal prediction errors, Neuron, Vol. 69, pp. 1204-1215 （2011）

[Donoso 14] Donoso, M., Collins, A. G. and Koechlin, E.: Human cognition, Foundations of human reasoning in the prefrontal cortex, Science, Vol. 344, pp. 1481-1486（2014）

[Funamizu 16] Funamizu, A., Kuhn, B. and Doya, K.: Neural substrate of dynamic Bayesian inference in the cerebral cortex, Nat. Neurosci., Vol. 19, pp. 1682-1689（2016）

[Glascher 10] Glascher, J., Daw, N., Dayan, P. and O’Doherty, J. P.: States versus rewards: Dissociable neural prediction error signals underlying model-based and model-free reinforcement learning, Neuron, Vol. 66, pp. 585-595（2010）

[Han 09] Han, S., Huettel, S. A. and Dobbins, I. G.: Rule-dependent prefrontal cortex activity across episodic and perceptual decisions: An fMRI investigation of the criterial classiﬁcation account, J. Cogn. Neurosci., Vol. 21, pp. 922-937 （2009）

[Hassabis 17] Hassabis, D., Kumaran, D., Summerﬁeld, C. and Botvinick, M.: Neuroscience-inspired artificial intelligence,

Neuron, Vol. 95, pp. 245-258（2017）

[Hoshi 00] Hoshi, E., Shima, K. and Tanji, J.: Neuronal activity in the primate prefrontal cortex in the process of motor selection based on two behavioral rules, J. Neurophysiol., Vol. 83, pp. 2355-2373（2000）

[Johanson 07] Johnson, A. and Redish, A. D.: Neural ensembles in CA3 transiently encode paths forward of the animal at a decision point, J. Neurosci., Vol. 27, pp. 12176-12189（2007） [Lhermitte 86] Lhermitte, F., Pillon, B. and Serdaru, M.:

Human autonomy and the frontal lobes, Part I: Imitation and utilization behavior: A neuropsychological study of 75 patients,

Ann. Neurol., Vol. 19, pp. 326-334（1986）

[Luria 80] Luria, A. R.: Higher Cortical Functions in Man（2nd ed.）, Basic Books, New York（1980）

[Mar 82] Marr, D.: Vision: A Computational Investigation into the

Human Representation and Processing of Visual Information,

MIT Press, Cambridge（1982）

[Milner 64] Milner, B.: Some effects of frontal lobectomy in man, Warren, J. M. and Akert, K.（eds.）, The Frontal Granular

Cortex and Behavior, pp. 313-334, McGraw-Hill, New York

（1964）

[Owen 96] Owen, A. M., Evans, A. C. and Petrides, M.: Evidence for a two-stage model of spatial working memory processing within the lateral frontal cortex: a positron emission tomography study, Cereb. Cortex, Vol. 6, pp. 31-38（1996） [Pan 08] Pan, X., Sawa, K., Tsuda, I., Tsukada, M. and Sakagami,

M.: Reward prediction based on stimulus categorization in primate lateral prefrontal cortex, Nat. Neurosci., Vol. 11, pp. 703-712（2008）

[Pan 14] Pan, X., Fan, H., Sawa, K., Tsuda, I. and Tsukada, M., et al.: Reward inference by primate prefrontal and striatal neurons, J. Neurosci., Vol. 34, pp. 1380-1396（2014）

[Perret 74] Perret, E.: The left frontal lobe of man and the suppression of habitual responses in verbal categorical behaviour, Neuropsychol., Vol. 12, pp. 323-330（1974） [Pfeiffer 13] Pfeiffer, B. E. and Foster, D. J.: Hippocampal

place-cell sequences depict future paths to remembered goals,

Nature, Vol. 497, pp. 74-79（2013）

[Samejima 05] Samejima, K., Ueda, Y., Doya, K. and Kimura, M.: Representation of action-specific reward values in the striatum, Science, Vol. 310, pp. 1337-1340（2005）

[Sakagami 94] Sakagami, M. and Niki, H.: Encoding of behavioral signiﬁcance of visual stimuli by primate prefrontal neurons: relation to relevant task conditions, Exp. Brain Res., Vol. 97, pp. 423-436（1994）

[Schultz 97] Schultz, W., Dayan, P. and Montague, P. R.: A neural substrate of prediction and reward, Science, Vol. 275, No. 5306, pp. 1593-1599（1997）

[Sutton 81] Sutton, R. S. and Barto, A. G.: Toward a modern theory of adaptive networks: Expectation and prediction,

Psychol. Rev., Vol. 88, pp. 135-170（1981）

[Sutton 98] Sutton, R. S. and Barto, A. G.: Reinforcement

Learning: An Introduction, A Bradford Book, Cambridge

（1998）

[Vallentin 12] Vallentin, D., Bongard, S. and Nieder, A.: Numerical rule coding in the prefrontal, premotor, and posterior parietal cortices of macaques, J. Neurosci., Vol. 32, pp. 6621-6630（2012）

[Wallis 01] Wallis, J. D., Anderson, K. C. and Miller, E. K.: Single neurons in prefrontal cortex encode abstract rules, Nature, Vol. 411, pp. 953-956（2001）

[White 99] White, I. M. and Wise, S. P.: Rule-dependent neuronal activity in the prefrontal cortex, Exp. Brain Res., Vol. 126, pp. 315-335（1999） 2017年 9 月 27 日受理

著　者　紹　介

坂上　雅道玉川大学脳科学研究所教授，応用脳科学究センター主任．田中　慎吾玉川大学脳科学研究所特任助教．

推移的推論の脳メカニズム ─汎用人工知能の計算理論構築を目指して─

1．は じ め に

2．高次般化機能の計算理論の必要性

3．条 件 付 け

推移的推論の脳メカニズム

─汎用人工知能の計算理論構築を目指して─

Neural Mechanisms of Transitive Inference

─ Aiming to Construct Computational Theory for General Purpose

Information Processor ─

田中 慎吾

坂上 雅道

Keywords:

4．モデルフリーとモデルベース

5．間接的報酬予測課題

6．カテゴリー化と報酬予測

7．お わ り に

◇ 参 考 文 献 ◇

著 者 紹 介

1．は　じ　め　に

3．条　件　付　け

　─ Aiming to Construct Computational Theory for General Purpose

　　 Information Processor ─

田中　慎吾

坂上　雅道

7．お　わ　り　に

◇　参　考　文　献　◇

著　者　紹　介