快と不快を用いた報酬の形成と汎用性の可能性

(1)

快と不快を用いた報酬の形成と汎用性の可能性

The reward made with pleasant and unpleasant will reach general purpose

加藤雄貴

Kato Yuki

Abstract: In recent years, the development of AI field is remarkable. In particular, it is remembrance that Alpha

Go beat the world champion of Go. In 2019, the practical use of AI in the business area is advanced and what AI can solve or not will be clearly with people who are not specialists. Metastasis learning is one of the unresolved issues and this issue leads to the acquisition of versatility. Due to Metastasis learning, introduction of pleasant and unpleasant to AI is effective. In this paper, pleasant has nature of “dissolution of unpleasant”, and therefore pleasant is based on unpleasant. It brings distinction to reward by unpleasant and ability to distinguish brings AI to unique purpose for each task.

概要

エージェントに快と不快の情報を導入することで、強化学習分野における汎用性の獲得を目指している。現在の強化学習では報酬は一般的にエンジニアが定義する情報であり、エージェントは設定された報酬に対して獲得に繋がった行動を価値として算出し、次回の試行時の行動選択に役立てる。しかし強化学習は特化型人工知能と呼ばれるように転移学習が困難という性質がある。本モデルでは、報酬としての快という情報を不快の解消として位置付けることで報酬情報を不快を発生させた事象と紐付け、エージェントに自律的に何が報酬（不快を解消させるのか）なのかという情報を獲得させるとともに、報酬情報を区別する能力を獲得させることで複数のタスクを同一のエージェントによって学習可能な状態にすることを目標としている。

１．はじめに

近年AI 分野はその発展が著しく、Google の Alpha Go が囲碁の世界チャンピオンを破るといった快挙を成し遂げている。さらに、2018 年は研究領域から一般への応用が本格的に始まった年であり、2019 年は適用可能な領域を探し果実を得る、AI における収穫の秋となるだろう。AI が適用可能な領域が明らかになる一方で、汎用性の獲得などの既存のAI では困難な事項についても理解が進んでおり、ハイプサイクルにおける啓蒙期に到達しつつあると考えられる。第三次 AI ブームは機械学習の中でも教師あり学習・教師なし学習・強化学習の三本柱が牽引しているが、これらはいずれも「統計的推論」によって支えられている技術だと言える。大量のデータから統計的に有意な情報を抽出することに長けた一連の技術群はさまざまな分野で成果を残したが、統計を利用するために一度限りのユニークな情報に対しての学習には課題が残っている。汎用性に関しては統計的推論に問題があるわけではなく、汎用性に向けたアプローチの模索自体が困難な状況となっている。今回提案する脳の大脳辺縁系を参考とした「辺縁系モデル」は第三次AI ブームを牽引する技術では解決することが困難であった汎用性と時系列情報の取り扱いに焦点を当てたものである。

２．辺縁系モデル

提案モデルである「辺縁系モデル」はその名の通り大脳辺縁系を参考としており、強化学習分野での適用を想定している。従来の強化学習と異なる点は報酬として扱われる情報をエージェント自らが定義する点である。報酬を定義する仕組みを獲得させるために、本モデルでは「快と不快」という概念を導入することでそれまではエンジニアが定義していた報酬としての情報をエージェント自らが定義し、タスクによって報酬を区別することを可能とさせることで汎用性の実現を目指している。

２ .１．快と不快の関係性

快と不快がなぜ汎用性に繋がるのか。それは快と不快という情報の定義にその理由がある。一般的に

(2)

快という情報には報酬としてのプラスのイメージ、不快という情報には罰というマイナスのイメージがあるが、快と不快はそれぞれ独立した情報ではなくドーパミンの放出量の変動によって表現される情報ではないかと考えている。これは自身の仮説に過ぎないが、平常時には基準値となる一定量のドーパミンが放出されているのに対して、侵害などの悪い出来事が起こるとドーパミンの放出量が抑制され、その要因が取り除かれるとドーパミン放出量が基準値まで回復するものと考えており、ドーパミン放出量が抑制され基準値に対して負に推移している状態を不快、減退した放出量が基準値まで回復するような正に対して推移している状態を快として扱っている。図１このようにドーパミン放出量の変動によって快と不快が表現されていると仮定すると、快には「不快の解消」という不快を前提とする性質が伴うことになる。そして、不快もまたドーパミンを減退させる原因となった事象によって定義されることになる。快や不快はドーパミン放出量の増減という汎用的な情報によって表現されるが、変動自体はそれを発生させるに至った個別具体的な情報と紐付けられることによってユニークな情報となり、エージェントはそのモデル内部に複数の快と不快のセットを保持し、タスク毎に適切なセットを区別し報酬を設定することが可能となるのではないだろうか。例えば、渇きと空腹という2 つのステータスが存在するときに、渇きによって不快が発生しているときに食料を摂取しても渇きが改善されるわけではないので不快が継続するように、それぞれの不快を引き起こす要因によって快が定義されるのではないかと考えている。図２

２ .２．快と不快をどのように表現するか

ドーパミン放出量による快と不快の表現は内部の状態を評価するモデルとして動作するとともに、その推移に着目することで報酬である快を不快の解消という形で表現することが可能となる。基本的に生物はドーパミン放出量の減退している環境を忌避し、ドーパミン放出量が増加する環境に誘引されると考えられるが、ドーパミン放出量によって表現される快と不快の導入を進めるにはどのようにすれば良いのだろうか。 ○ドーパミン放出量＝基準値－減退要因 ※減退要因の値はセロトニン出力によって修飾されるが、今回は省略する筆者に数学の素養がないために心苦しいが、ざっくりと表現するとこのような式になるだろう。そしてドーパミンの減退要因としては「侵害」「学習」「欲求」の三種類に細分化することが可能だと考えられる。これらは脳においても異なる神経回路によって機能しドーパミン放出量を減退させている。２.２.１．侵害によるドーパミン抑制侵害は外部要因によってダメージなどの損害を受けた場合であり、侵害に伴いドーパミン放出量が抑制される。生物ではその程度にもよるが疼痛制御ニューロンによって痛覚が抑制され、それに伴いドー

(3)

パミン放出量も回復していくと考えられる。疼痛制御の機能の導入を考えると複雑となってしまうので、侵害によるドーパミン減退は時間経過で少しずつ回復する仕様で良いのではないだろうか。なお、急激に回復させてしまうとエージェントが回復という快を得るために自傷行為に走る可能性があるので注意したい（ゆっくり戻るのは、安静にしておくのが外傷等の回復という不快の解消に繋がるという自然さにも近しいのではないだろうか）２.２.２．学習によるドーパミン抑制学習はエージェントが一度経験した不快を発生させた情報を想起し同じ被害に合わないために取られる行動であり、こちらにもドーパミンが関わる。魚類から哺乳類まで保存されている「外側手綱核」という部位の活動によるもので、ゼブラフィッシュを用いた実験では特定の明かりの点いた後に電気ショックを経験した個体は、同じ明かりを確認すると電気ショックを予期し回避しようと行動するようになる。能動的回避と呼ばれるこの行動を可能とさせているのが外側手綱核であり、この部位は活動によってドーパミン（とセロトニン）を抑制する機能がある。ドーパミンの減退は不快の発生であり価値としてはマイナスに相当するため、生物はドーパミンが抑制されている環境を忌避し、離脱を試みるのではないかと考えられる。外側手綱核の機能は、発生が予期される侵害に対してその不快の先取りを担う機能であり、侵害を回避出来たのであれば外側手綱核の活動が抑えられ、減退していたドーパミン放出量が回復するために、その行動を不快の解消である快として扱うことを可能としているのではないだろうか。なお、外側手綱核は学習の初期段階でのみ活動の亢進が確認されており、学習が終わるとその活動は学習前の水準に戻ることが明らかになっている。２.２.３．欲求によるドーパミン抑制欲求は内部要因によってエージェントの活動継続が困難な場合、もしくは学習によって不快と快のセットが形成済みの場合に発生する。他と同様にドーパミン放出量を抑制するが、欲求の解消に繋がる事象に対してはドーパミンが放出されることで、欲求の解消以外の価値が下がり、解決に向けた行動の価値が相対的に向上する。この部分を担っている神経回路は勉強不足により不明瞭（おそらくノルアドレナリンが分界条床核を経由してドーパミン神経を抑制しているが、その前段階が不明瞭。コルチゾール？）だが、この段階ではエージェントは不快の解消を目指して行動を選択していると考えられる。

２.３．時系列情報の取り扱い

ドーパミン放出量によって表現される不快を快と結び付け、快に対して不快の解消という性質を付与するためには時系列の情報を取り扱う仕組みが不可欠となる。不快の発生からその解消までをひとつの時間的な固まりとして扱う必要があるためである。瞬間毎の出力のみで判断するのであれば、快は単純に報酬としてのプラスの情報となり、不快の情報が紐付かなくなってしまう。その場合、不快を発生させる様々な事象に対して適切な「不快の解消」が困難となる。時系列を取り扱うアルゴリズムは再帰的ニューラルネットワークであるRNN や LSTM が知られているが、これらは任意の時系列を自在に切り取ることは出来ない。不快の発生から解消までの推移は多様であり、パラメータによる一様な処理では関係のない事象まで巻き込むことや、逆に不快の発生から解消までを一度に扱えない可能性がある。そこで脳において記憶形成の座として知られる海馬と、記憶に関わる神経回路であるパペッツ回路を参考とすることで、脳はどのように時系列を扱っているのかを検討した。しかし、海馬はエピソード記憶の記銘において必要不可欠な領野であることは判明しているものの、それがどのように動作しているのかは明らかになっていない。そのため、本論では筆者の試論レベルの話ではあるが、パペッツ回路と海馬によって機能する記憶形成の仕組みである時系列仮説を紹介し、その上で AI への実装を検討したい。２.３.１．時系列仮説海馬はエピソード記憶の記銘において中核となる組織だが、時系列仮説においては同様に記憶において重要な役割を担うとされているパペッツ回路に注目している。パペッツ回路が時系列の生成を担う神経回路であり、海馬における情報の処理の前段階において「エピソード」を生成することで、その情報が海馬によって記憶として大脳皮質へ焼き付けられていると考えられるからだ。用語の説明となるが、本論では「時系列」と「チャンク」という用語を用いる。ここでの時系列とは時間の流れに伴う情報であり、情報は時間の経過に伴い数珠のように連なり途切れることなく出力されていく。対してチャンクとは、生成された時系列の

(4)

うち意味のある情報として切り取られた情報となる。数珠の流れに対して、始まりと終わりを切り取ることで生成される時系列情報の固まりがチャンク（数珠繋ぎ）に相当する。時系列およびチャンクを生成するのがパペッツ回路の機能となると想定され、この機能はブロックチェーンの仕組みを活用できるのではないかと考えている。パペッツ回路の中核となるのが乳頭体と呼ばれる小さな領野であり、時系列の生成におけるタイムスタンプの発行を担っている。乳頭体は継続的に活動し2 つの経路に向けて出力を行うが、それぞれがブロックとチェーンの生成に対応している。図3 ブロックルートでは、乳頭体からの出力は海馬の歯状回と呼ばれる部位に入力される。歯状回は別の経路から環境情報を受け取るが、これらの情報が組み合わさることで、歯状回にはタイムスタンプとその時の環境の情報が紐付けられて保存されることになる。対してチェーンルートでは、乳頭体からの出力は帯状回を経由し嗅内皮質と呼ばれる海馬との入出力を行う部位から海馬に向けて情報が入力される。タイムスタンプは連続して発行され続けるため、静止画が連続してアニメーションとなるように情報の流れは時系列の性質を持つが、そのままでは垂れ流しの情報であり、意味のある情報を区切りチャンクを生成する仕組みが必要となる。嗅内皮質にはアイランドセルと呼ばれる時間的に離れた出来事を適切に区切るために動作する細胞が存在する。アイランドセル自体の制御の仕組みは判明していないが、ドーパミン放出量の推移を活用することで不快の発生からその解消までを区切り、チャンクを生成することが出来るのではないだろうか。図4 チャンクは形成される際にラベルとなる情報が追加される。ラベルを活用することでチャンクを構成する情報の一部が入力されると、ラベルをハブにしてチャンク全体が呼び出される（実際に記憶の想起は海馬支脚がハブとなっている）。そして、ドーパミン放出量を減退させることで行動を促す「学習」や「欲求」は呼び出されたチャン

(5)

クによって機能していると考えられる。２.３.２．認知地図仮説との関連海馬では生物が特定の場所にいるときに選択的に活動を示す細胞があることが研究から明らかになっており、それらは場所細胞として知られている。さらに別の研究では出来事の順序を示すイベント細胞が見つかっており、これらの細胞は脳波であるθ波に沿って発火のタイミングを変える位相歳差という現象が観測されているが、こういった不思議な動作は時系列仮説によって説明できるかもしれない。これらの海馬に存在する細胞は、場所や出来事に直接結びついて活動しているのではなく、場所や出来事といった環境の情報を内包する歯状回のチャンクの情報を引き継ぐことで形成されている可能性がある。海馬腹側と背側で場所受容野の広さに違いがあることも、1 つの細胞が担うチャンク内のタイムスタンプ量の差にあるのかもしれない。

３．まとめ

以上が駆け足となってしまったが、提案する「辺縁系モデル」の概論である。大まかにいえば強化学習における報酬の生成を目的としたアルゴリズムであり、これまで一意的に「報酬」として扱われていた情報を区別するための仕組みであるといえる。その実装のために時系列情報の取り扱いという困難な機能の実装が伴うが、快と不快を表現するドーパミン量の変動がチャンクの生成に重要な役割を持つために、両者は同時実装を目指す必要がある。また、本モデルは不快の発生を行動の動機とする性質を持つために、不快を解消することが出来ればその時点で学習は終了してしまう。そのため、強化学習のようなハイスコアの追求は困難となるだろう。記憶に用いる環境情報として扱う情報はSLAM の情報を併用することが可能であれば「どこ」情報を基に効率的な学習が可能となるかもしれない。実のところ、快と不快の導入は強化学習を目的とした考えではなく、自然言語処理における意味（シニフィエ）の獲得に向けたものだった。快と不快は意味の中核となる情報だと考えており、その実装が出来れば「何」に相当する情報が扱えるようになるのではないかと期待している。強化学習と深層学習の橋渡しも出来るのではないだろうか。（SLAM で快不快の対象の位置を掴み、その対象の学習データを収集するようなエージェント）

参考文献

[１] 危険に対して冷静かつ適切に対処できるようになるための神経回路を発見 http://www.riken.jp/pr/press/2014/20141121_2/ [２] 時間的に離れた 2 つの出来事の連結を調節するアイランドセルの発見 http://www.riken.jp/pr/press/2014/20140226_1/ [３] 記憶を思い出すための神経回路を発見 http://www.riken.jp/pr/press/2017/20170818_2/ [４] 出来事の順序を記憶する仕組みの発見 http://www.riken.jp/pr/press/2017/20170609_1/ [５] 脳科学辞典 https://bsd.neuroinf.jp/wiki/脳科学辞典:索引 [６] Pain Reliefー痛みと鎮痛の基礎知識 http://www.shiga-med.ac.jp/~koyama/analgesia/index.html [７] 海馬の基礎知識（池谷裕二） http://gaya.jp/research/hippocampus.htm

快と不快を用いた報酬の形成と汎用性の可能性