• 検索結果がありません。

快と不快を用いた報酬の形成と汎用性の可能性

N/A
N/A
Protected

Academic year: 2021

シェア "快と不快を用いた報酬の形成と汎用性の可能性"

Copied!
5
0
0

読み込み中.... (全文を見る)

全文

(1)

快と不快を用いた報酬の形成と汎用性の可能性

The reward made with pleasant and unpleasant will reach general purpose

加藤 雄貴

Kato Yuki

Abstract: In recent years, the development of AI field is remarkable. In particular, it is remembrance that Alpha

Go beat the world champion of Go. In 2019, the practical use of AI in the business area is advanced and what AI can solve or not will be clearly with people who are not specialists. Metastasis learning is one of the unresolved issues and this issue leads to the acquisition of versatility. Due to Metastasis learning, introduction of pleasant and unpleasant to AI is effective. In this paper, pleasant has nature of “dissolution of unpleasant”, and therefore pleasant is based on unpleasant. It brings distinction to reward by unpleasant and ability to distinguish brings AI to unique purpose for each task.

概要

エージェントに快と不快の情報を導入することで、 強化学習分野における汎用性の獲得を目指している。 現在の強化学習では報酬は一般的にエンジニアが 定義する情報であり、エージェントは設定された報 酬に対して獲得に繋がった行動を価値として算出し、 次回の試行時の行動選択に役立てる。しかし強化学 習は特化型人工知能と呼ばれるように転移学習が困 難という性質がある。 本モデルでは、報酬としての快という情報を不快 の解消として位置付けることで報酬情報を不快を発 生させた事象と紐付け、エージェントに自律的に何 が報酬(不快を解消させるのか)なのかという情報 を獲得させるとともに、報酬情報を区別する能力を 獲得させることで複数のタスクを同一のエージェン トによって学習可能な状態にすることを目標として いる。

1.はじめに

近年AI 分野はその発展が著しく、Google の Alpha Go が囲碁の世界チャンピオンを破るといった快挙 を成し遂げている。さらに、2018 年は研究領域から 一般への応用が本格的に始まった年であり、2019 年 は適用可能な領域を探し果実を得る、AI における収 穫の秋となるだろう。AI が適用可能な領域が明らか になる一方で、汎用性の獲得などの既存のAI では困 難な事項についても理解が進んでおり、ハイプサイ クルにおける啓蒙期に到達しつつあると考えられる。 第三次 AI ブームは機械学習の中でも教師あり学 習・教師なし学習・強化学習の三本柱が牽引してい るが、これらはいずれも「統計的推論」によって支 えられている技術だと言える。大量のデータから統 計的に有意な情報を抽出することに長けた一連の技 術群はさまざまな分野で成果を残したが、統計を利 用するために一度限りのユニークな情報に対しての 学習には課題が残っている。汎用性に関しては統計 的推論に問題があるわけではなく、汎用性に向けた アプローチの模索自体が困難な状況となっている。 今回提案する脳の大脳辺縁系を参考とした「辺縁 系モデル」は第三次AI ブームを牽引する技術では解 決することが困難であった汎用性と時系列情報の取 り扱いに焦点を当てたものである。

2.辺縁系モデル

提案モデルである「辺縁系モデル」はその名の通 り大脳辺縁系を参考としており、強化学習分野での 適用を想定している。従来の強化学習と異なる点は 報酬として扱われる情報をエージェント自らが定義 する点である。 報酬を定義する仕組みを獲得させるために、本モ デルでは「快と不快」という概念を導入することで それまではエンジニアが定義していた報酬としての 情報をエージェント自らが定義し、タスクによって 報酬を区別することを可能とさせることで汎用性の 実現を目指している。

.1.快と不快の関係性

快と不快がなぜ汎用性に繋がるのか。それは快と 不快という情報の定義にその理由がある。一般的に

(2)

快という情報には報酬としてのプラスのイメージ、 不快という情報には罰というマイナスのイメージが あるが、快と不快はそれぞれ独立した情報ではなく ドーパミンの放出量の変動によって表現される情報 ではないかと考えている。 これは自身の仮説に過ぎないが、平常時には基準 値となる一定量のドーパミンが放出されているのに 対して、侵害などの悪い出来事が起こるとドーパミ ンの放出量が抑制され、その要因が取り除かれると ドーパミン放出量が基準値まで回復するものと考え ており、ドーパミン放出量が抑制され基準値に対し て負に推移している状態を不快、減退した放出量が 基準値まで回復するような正に対して推移している 状態を快として扱っている。 図1 このようにドーパミン放出量の変動によって快と 不快が表現されていると仮定すると、快には「不快 の解消」という不快を前提とする性質が伴うことに なる。そして、不快もまたドーパミンを減退させる 原因となった事象によって定義されることになる。 快や不快はドーパミン放出量の増減という汎用的 な情報によって表現されるが、変動自体はそれを発 生させるに至った個別具体的な情報と紐付けられる ことによってユニークな情報となり、エージェント はそのモデル内部に複数の快と不快のセットを保持 し、タスク毎に適切なセットを区別し報酬を設定す ることが可能となるのではないだろうか。 例えば、渇きと空腹という2 つのステータスが存 在するときに、渇きによって不快が発生していると きに食料を摂取しても渇きが改善されるわけではな いので不快が継続するように、それぞれの不快を引 き起こす要因によって快が定義されるのではないか と考えている。 図2

.2.快と不快をどのように表現するか

ドーパミン放出量による快と不快の表現は内部の 状態を評価するモデルとして動作するとともに、そ の推移に着目することで報酬である快を不快の解消 という形で表現することが可能となる。基本的に生 物はドーパミン放出量の減退している環境を忌避し、 ドーパミン放出量が増加する環境に誘引されると考 えられるが、ドーパミン放出量によって表現される 快と不快の導入を進めるにはどのようにすれば良い のだろうか。 ○ドーパミン放出量=基準値-減退要因 ※減退要因の値はセロトニン出力によって修飾さ れるが、今回は省略する 筆者に数学の素養がないために心苦しいが、ざっ くりと表現するとこのような式になるだろう。そし てドーパミンの減退要因としては「侵害」「学習」「欲 求」の三種類に細分化することが可能だと考えられ る。これらは脳においても異なる神経回路によって 機能しドーパミン放出量を減退させている。 2.2.1.侵害によるドーパミン抑制 侵害は外部要因によってダメージなどの損害を受 けた場合であり、侵害に伴いドーパミン放出量が抑 制される。生物ではその程度にもよるが疼痛制御ニ ューロンによって痛覚が抑制され、それに伴いドー

(3)

パミン放出量も回復していくと考えられる。疼痛制 御の機能の導入を考えると複雑となってしまうので、 侵害によるドーパミン減退は時間経過で少しずつ回 復する仕様で良いのではないだろうか。なお、急激 に回復させてしまうとエージェントが回復という快 を得るために自傷行為に走る可能性があるので注意 したい(ゆっくり戻るのは、安静にしておくのが外 傷等の回復という不快の解消に繋がるという自然さ にも近しいのではないだろうか) 2.2.2.学習によるドーパミン抑制 学習はエージェントが一度経験した不快を発生さ せた情報を想起し同じ被害に合わないために取られ る行動であり、こちらにもドーパミンが関わる。魚 類から哺乳類まで保存されている「外側手綱核」と いう部位の活動によるもので、ゼブラフィッシュを 用いた実験では特定の明かりの点いた後に電気ショ ックを経験した個体は、同じ明かりを確認すると電 気ショックを予期し回避しようと行動するようにな る。 能動的回避と呼ばれるこの行動を可能とさせてい るのが外側手綱核であり、この部位は活動によって ドーパミン(とセロトニン)を抑制する機能がある。 ドーパミンの減退は不快の発生であり価値としては マイナスに相当するため、生物はドーパミンが抑制 されている環境を忌避し、離脱を試みるのではない かと考えられる。 外側手綱核の機能は、発生が予期される侵害に対 してその不快の先取りを担う機能であり、侵害を回 避出来たのであれば外側手綱核の活動が抑えられ、 減退していたドーパミン放出量が回復するために、 その行動を不快の解消である快として扱うことを可 能としているのではないだろうか。なお、外側手綱 核は学習の初期段階でのみ活動の亢進が確認されて おり、学習が終わるとその活動は学習前の水準に戻 ることが明らかになっている。 2.2.3.欲求によるドーパミン抑制 欲求は内部要因によってエージェントの活動継続 が困難な場合、もしくは学習によって不快と快のセ ットが形成済みの場合に発生する。他と同様にドー パミン放出量を抑制するが、欲求の解消に繋がる事 象に対してはドーパミンが放出されることで、欲求 の解消以外の価値が下がり、解決に向けた行動の価 値が相対的に向上する。この部分を担っている神経 回路は勉強不足により不明瞭(おそらくノルアドレ ナリンが分界条床核を経由してドーパミン神経を抑 制しているが、その前段階が不明瞭。コルチゾール?) だが、この段階ではエージェントは不快の解消を目 指して行動を選択していると考えられる。

2.3.時系列情報の取り扱い

ドーパミン放出量によって表現される不快を快と 結び付け、快に対して不快の解消という性質を付与 するためには時系列の情報を取り扱う仕組みが不可 欠となる。不快の発生からその解消までをひとつの 時間的な固まりとして扱う必要があるためである。 瞬間毎の出力のみで判断するのであれば、快は単純 に報酬としてのプラスの情報となり、不快の情報が 紐付かなくなってしまう。その場合、不快を発生さ せる様々な事象に対して適切な「不快の解消」が困 難となる。 時系列を取り扱うアルゴリズムは再帰的ニューラ ルネットワークであるRNN や LSTM が知られてい るが、これらは任意の時系列を自在に切り取ること は出来ない。不快の発生から解消までの推移は多様 であり、パラメータによる一様な処理では関係のな い事象まで巻き込むことや、逆に不快の発生から解 消までを一度に扱えない可能性がある。 そこで脳において記憶形成の座として知られる海 馬と、記憶に関わる神経回路であるパペッツ回路を 参考とすることで、脳はどのように時系列を扱って いるのかを検討した。しかし、海馬はエピソード記 憶の記銘において必要不可欠な領野であることは判 明しているものの、それがどのように動作している のかは明らかになっていない。そのため、本論では 筆者の試論レベルの話ではあるが、パペッツ回路と 海馬によって機能する記憶形成の仕組みである時系 列仮説を紹介し、その上で AI への実装を検討した い。 2.3.1.時系列仮説 海馬はエピソード記憶の記銘において中核となる 組織だが、時系列仮説においては同様に記憶におい て重要な役割を担うとされているパペッツ回路に注 目している。パペッツ回路が時系列の生成を担う神 経回路であり、海馬における情報の処理の前段階に おいて「エピソード」を生成することで、その情報 が海馬によって記憶として大脳皮質へ焼き付けられ ていると考えられるからだ。 用語の説明となるが、本論では「時系列」と「チ ャンク」という用語を用いる。ここでの時系列とは 時間の流れに伴う情報であり、情報は時間の経過に 伴い数珠のように連なり途切れることなく出力され ていく。対してチャンクとは、生成された時系列の

(4)

うち意味のある情報として切り取られた情報となる。 数珠の流れに対して、始まりと終わりを切り取るこ とで生成される時系列情報の固まりがチャンク(数 珠繋ぎ)に相当する。 時系列およびチャンクを生成するのがパペッツ回 路の機能となると想定され、この機能はブロックチ ェーンの仕組みを活用できるのではないかと考えて いる。パペッツ回路の中核となるのが乳頭体と呼ば れる小さな領野であり、時系列の生成におけるタイ ムスタンプの発行を担っている。乳頭体は継続的に 活動し2 つの経路に向けて出力を行うが、それぞれ がブロックとチェーンの生成に対応している。 図3 ブロックルートでは、乳頭体からの出力は海馬の 歯状回と呼ばれる部位に入力される。歯状回は別の 経路から環境情報を受け取るが、これらの情報が組 み合わさることで、歯状回にはタイムスタンプとそ の時の環境の情報が紐付けられて保存されることに なる。 対してチェーンルートでは、乳頭体からの出力は 帯状回を経由し嗅内皮質と呼ばれる海馬との入出力 を行う部位から海馬に向けて情報が入力される。タ イムスタンプは連続して発行され続けるため、静止 画が連続してアニメーションとなるように情報の流 れは時系列の性質を持つが、そのままでは垂れ流し の情報であり、意味のある情報を区切りチャンクを 生成する仕組みが必要となる。嗅内皮質にはアイラ ンドセルと呼ばれる時間的に離れた出来事を適切に 区切るために動作する細胞が存在する。アイランド セル自体の制御の仕組みは判明していないが、ドー パミン放出量の推移を活用することで不快の発生か らその解消までを区切り、チャンクを生成すること が出来るのではないだろうか。 図4 チャンクは形成される際にラベルとなる情報が追 加される。ラベルを活用することでチャンクを構成 する情報の一部が入力されると、ラベルをハブにし てチャンク全体が呼び出される(実際に記憶の想起 は海馬支脚がハブとなっている)。 そして、ドーパミン放出量を減退させることで行 動を促す「学習」や「欲求」は呼び出されたチャン

(5)

クによって機能していると考えられる。 2.3.2.認知地図仮説との関連 海馬では生物が特定の場所にいるときに選択的に 活動を示す細胞があることが研究から明らかになっ ており、それらは場所細胞として知られている。さ らに別の研究では出来事の順序を示すイベント細胞 が見つかっており、これらの細胞は脳波であるθ波 に沿って発火のタイミングを変える位相歳差という 現象が観測されているが、こういった不思議な動作 は時系列仮説によって説明できるかもしれない。 これらの海馬に存在する細胞は、場所や出来事に 直接結びついて活動しているのではなく、場所や出 来事といった環境の情報を内包する歯状回のチャン クの情報を引き継ぐことで形成されている可能性が ある。海馬腹側と背側で場所受容野の広さに違いが あることも、1 つの細胞が担うチャンク内のタイム スタンプ量の差にあるのかもしれない。

3.まとめ

以上が駆け足となってしまったが、提案する「辺 縁系モデル」の概論である。大まかにいえば強化学 習における報酬の生成を目的としたアルゴリズムで あり、これまで一意的に「報酬」として扱われてい た情報を区別するための仕組みであるといえる。そ の実装のために時系列情報の取り扱いという困難な 機能の実装が伴うが、快と不快を表現するドーパミ ン量の変動がチャンクの生成に重要な役割を持つた めに、両者は同時実装を目指す必要がある。 また、本モデルは不快の発生を行動の動機とする 性質を持つために、不快を解消することが出来れば その時点で学習は終了してしまう。そのため、強化 学習のようなハイスコアの追求は困難となるだろう。 記憶に用いる環境情報として扱う情報はSLAM の 情報を併用することが可能であれば「どこ」情報を 基に効率的な学習が可能となるかもしれない。 実のところ、快と不快の導入は強化学習を目的と した考えではなく、自然言語処理における意味(シ ニフィエ)の獲得に向けたものだった。快と不快は 意味の中核となる情報だと考えており、その実装が 出来れば「何」に相当する情報が扱えるようになる のではないかと期待している。強化学習と深層学習 の橋渡しも出来るのではないだろうか。(SLAM で快 不快の対象の位置を掴み、その対象の学習データを 収集するようなエージェント)

参考文献

[1] 危険に対して冷静かつ適切に対処できるようになる ための神経回路を発見 http://www.riken.jp/pr/press/2014/20141121_2/ [2] 時間的に離れた 2 つの出来事の連結を調節するアイ ランドセルの発見 http://www.riken.jp/pr/press/2014/20140226_1/ [3] 記憶を思い出すための神経回路を発見 http://www.riken.jp/pr/press/2017/20170818_2/ [4] 出来事の順序を記憶する仕組みの発見 http://www.riken.jp/pr/press/2017/20170609_1/ [5] 脳科学辞典 https://bsd.neuroinf.jp/wiki/脳科学辞典:索引 [6] Pain Reliefー痛みと鎮痛の基礎知識 http://www.shiga-med.ac.jp/~koyama/analgesia/index.html [7] 海馬の基礎知識(池谷裕二) http://gaya.jp/research/hippocampus.htm

参照

関連したドキュメント

このように、このWの姿を捉えることを通して、「子どもが生き、自ら願いを形成し実現しよう

ヒュームがこのような表現をとるのは当然の ことながら、「人間は理性によって感情を支配

点から見たときに、 債務者に、 複数債権者の有する債権額を考慮することなく弁済することを可能にしているものとしては、

う東京電力自らPDCAを回して業 務を継続的に改善することは望まし

(自分で感じられ得る[もの])という用例は注目に値する(脚注 24 ).接頭辞の sam は「正しい」と

 「フロン排出抑制法の 改正で、フロンが使え なくなるので、フロン から別のガスに入れ替 えたほうがいい」と偽

   遠くに住んでいる、家に入られることに抵抗感があるなどの 療養中の子どもへの直接支援の難しさを、 IT という手段を使えば

優越的地位の濫用は︑契約の不完備性に関する問題であり︑契約の不完備性が情報の不完全性によると考えれば︑