連想による価値評価が駆動する実時間タスクスイッチング

(1)

連想による価値評価が駆動する実時間タスクスイッチング

Realtime Task-Switching Driven by Value Evaluation with Associative Memory

大森隆司

1

_{栢沼晋太郎}

2

_宮田真宏

3

Takashi Omori

1

_{, Shintaro Kayanuma}

2

_{, and Masahiro Miyata}

3 1

_{玉川大学工学部}

1

_{School of Engineering, Tamagawa University}

2

_{玉川大学大学院工学研究科}

2

_{Graduate School of Engineering, Tamagawa University}

3

_{玉川大学脳科学研究所}

2

_{Brain Science Institute, Tamagawa University}

Abstract:

The ability to change behavior depending situation of a dynamic environment is an essential ability of animals for survival. However, conventional behavior learning algorithms can learn just in a static environment. So, in this paper, we propose a cognitive architecture that switches its conducting task in real time depending on its environmental situation. The architecture is realized by the combination of a value-based task selection and a parallel environmental situation prediction with an associative memory.

1. はじめに

ヒトの知能の目立つ特徴は，例えばげっ歯類などの他の動物と比較して，論理的な思考，社会的な能力などがあげられる．これらはヒト独特の高次な機能と言われており，人工知能としての実現に向けて多くの研究が進められている．一方でげっ歯類が持つ能力も重要である．例えば敵が存在する実世界で身を守り，食料を探しつつ仲間を見つけ，いざとなれば敵から子どもを守る．このような動物としての基本的な能力は，現在の人工知能は未だ実現できていない．げっ歯類のもつこれらの能力の一つ一つを見ると，現在の人工知能の技術を使えば実現できるようにも見える．しかしそれらを実世界で運用し，予想外の環境の変化に対応する柔軟性は現在の人工知能は得意ではない．その鍵となるのはタスクスイッチングの能力であると我々は考える．例えばエージェント（ネズミをイメージ）が生き延びていくには，身体があるためおなかもすくし喉も渇く．そのような欲求が変化すると，環境のできごとに対する評価も変化する．空腹のときには水の価値は低く餌となる対象の価値は高いが，喉が渇いたときは水と餌の価値は逆転する．このように同じ世界でも事象の価値は身体の状況によって変化する．さらに，餌を探しているときに天敵にあったとする．それほど空腹でないときには天敵の回避は優先順位が極めて高い一方で，とても空腹の場合には危険を冒してでも餌に向かうという意味で天敵と餌が競合するほどに価値が変化する．すなわち，我々が住んでいる世界は自身の身体や周囲の環境が動的に変化し，エージェントはその中でいま行うべき行動としての餌や水の探索，敵の回避，仲間の探索などの複数のタスクを選択しなければならない．すなわち，生物のような知能システムが住むこの世界はタスクスイッチングを必要とする動的な世界である．ところが，現在の行動学習の主流である強化学習は，個々のタスクにおける知覚－行動の組み合わせを多くの試行錯誤の結果として獲得する[1]．そのとき，個々のタスクに対応した行動獲得はそれほど難しくなくても，複数のタスクの要請が組み合わさると試行錯誤の回数は爆発的に増大し，さらに環境条件が時間と共に変化する動的環境での学習は本質的に困難である．そこで必要となるのがタスクスイッチングである．本稿で考えるタスクスイッチングとは，動的な環境においてその各瞬間に環境を認識して，現在の欲求や要請のうち最も重要なものを実時間で選択し，それを解決するタスク処理を選択・実行する機能である．空腹になれば餌を探すタスクを選択して行動人工知能学会研究会資料 SIG-AGI-017-02

(2)

するが，その過程で天敵に出会えば即座にそれを回避するタスクに切り替えて実行する．そして天敵が去れば再び採餌タスクに切り替え，その場から餌の獲得のための行動を開始する．その際，餌を探す，天敵を避けるといった個々のタスクに対応した行動は事前に獲得されたものであるが，それらの組み合わせは学習されていない．学習されているのは，個々の瞬間の場面での各タスクの重要性，すなわちそのタスクが実現する価値である．ここで，強化学習では一般にタスクを学習するときに報酬を与える．結果，エージェントはその瞬間の状態に対する期待報酬と行動をセットで学習するが，本稿ではそのタスクの実行によって獲得される報酬をそのタスクの価値と呼ぶ．ゴールに近い状態の価値は高く，ゴールに遠い状態の価値は低い，という表現になる．以上，我々が住む動的な世界において，エージェントが環境の変化に柔軟に対応して行動を切り替えていくための情報処理として，タスクの価値に基づくタスクスイッチングの必要性について述べた．以下，本稿ではタスクスイッチングを可能とするために知能システムが持つべき認知アーキテクチャについて検討・提案し，その動作を計算機シミュレーションにより検証する．

2. 実世界：マルチタスク環境

2-1. 想定する実世界環境

図１のような世界を想像してみよう．この世界には，ネズミのようなエージェントの他に，食べ物，仲間の動物，木の陰に隠れる敵などの特徴的な事物があり，さらに仲間や敵は移動したりいなかったりする．この世界には常時，複数のタスクが発生する可能性がある．例えば餌を探す，水場に行く，巣に戻る，仲間を探す，天敵を探す・隠れる・逃げる，場合によっては敵と戦うという可能性もある．一方で，エージェントはそれ自体が身体を持つことが想定されており，空腹になる，喉が渇いてくる，疲れて休みたくなる，眠くなる，仲間が恋しくなる，など多岐にわたる欲求が時間の経過とともに発生する．これらの欲求はタスクの実行の結果として満たされて解消し，一定時間経つとまた現れてくる．また，これらの要因の多くは独立して発生し，また欲求の強さは時間と共に変化するので，その組み合わせと相まって動的な欲求状態になる．そのため，従来の報酬を先に決めて行動学習を行うタイプの強化学習では対応できず，先述の環境自体が動的であることと相まって，極めて難しい行動決定問題となる．しかし，例えばトカゲやネズミなども普通にこれをこなしている．それを可能とする知能システムにはどのような機能が要求されるであろう？

2-2. 可能な複数のタスク価値の実時間評価

想定する仮想世界では，ある瞬間に実行可能なタスク，すなわち将来の報酬獲得につながる行動戦略は複数ある．個々のタスクは異なる方法で異なる報酬を受け取るもので，その瞬間の感覚入力に対して強化学習の期待報酬に相当する価値が存在するはずである．本研究で想定するエージェントは，自分のいる場面の感覚入力を受けて，その場で可能なタスク群を認識してそのそれぞれの価値を計算する．そして，その中でもっとも価値の大きい（あるいは負の価値が最も小さい）タスクを選択して実行すると考える．仮に仮想世界の状況やエージェントの欲求が短時間で変わるものであれば，その場でのタスク群の認識と価値の計算もまたそれに対応した短いサイクルすなわち知覚の各瞬間に行う必要がある．また，各瞬間の感覚入力がこれまで獲得したタスク群の感覚入力にそのまま適合するとは限らない．むしろ，ある瞬間の感覚入力に対して行動を数サイクル行った後に，ある強化学習タスクで獲得した価値に結び付く場面に到達することの方が多いように思われる．我々も，現在状態には価値がないとしても，そこから到達可能でかつ価値が期待できる状態を予測して，その状態に到達するよう行動を選んでいることが多い．これは，現在の場面からの価値獲得の可能性の範囲を大きく拡大する．このような現在状態からの予測を上記のような短いサイクルで実施するには，従来型の Tree 探索のような予測では時間がかかり，現実的ではない．むしろ，イメージ想起のような直観的な予測過程が必要と考えられる．そのような目的に適しているのが，宮田が提案した連想記憶に基づく価値探索型の行動決定モデルである[2]．このモデルはアソシアトロン型の連想記憶図1 複数のタスクがある仮想世界

(3)

で外界の状態遷移を相互想起と自己想起の連想行列で記憶し，一回の行列計算で1 サイクルの予測を行い，さらには分岐のある状態遷移では複数の状態の混合ベクトルを想起して，さらにその想起された状態の価値を身体の欲求も含めて認識することができる（図2）[3][4]．また，このモデルでは動作モードを自己想起型に変えると，現在の想起状態に含まれる複数の状態ベクトルのうち最も価値が高い状態を選んで選択的に想起する機能が実現できる．これを利用すると，現在の感覚入力から数ステップ程度の状態遷移の予測が極めて短時間で計算でき，結果として上述した数サイクルの範囲での状態予測と価値評価が実現できる．さらには，現在状態から到達可能な状態群のうち最も価値の高い状態を想起でき，そこに到達するためのタスクの選択が可能となる[5]．

2-3. 個別タスクの学習：成功体験

前節で述べた連想記憶を用いた予測により，現在状態に含まれる複数の価値の評価，あるいは現在状態から予測される複数の状態の全体に含まれる複数の価値の評価が短時間で可能となった．ここで言う価値とは，個々の報酬状態に向かう強化学習タスクにおける現在状態の期待報酬に，身体の欲求などの現時点での強度が掛けられた値である．個々のタスクのための行動学習が十分に進んでいるなら，現在の知覚／予測状態に対する複数のタスクの価値が並列的に想起され，それらの間の競合過程を経て一つのタスクが選択されることになる（図3）[2]．このようなタスクの競合を可能にするには，個々のタスクが十分に学習されていることが前提となる．個々のタスクに対する現在状態の価値は過去の経験により獲得されるものであり，例えば強化学習やエピソード記憶などで事前に個別に獲得させている必要がある[1]．この学習は，個別のタスクについてのものであるので，比較的容易に獲得できるものと想定する．次章では，これらの機能を実現するのに必要なメカニズムについて述べていく．

3. タスクスイッチングの価値計算

3-1. 連想記憶による予測と価値評価

本研究では, 予測の過程は連想記憶の相互想起を用いて，現在の状態から次に起こりうる状態を想起する．本モデルでは環境中の個々の状態を±1 の二値ランダムベクトルで表現する．状態ベクトル相互の直交性を確保するためベクトル長は十分長くする（式(1)：後述のシミュレーションでは 𝑁 1000 とした）．式(1)の 𝑝 は状態ベクトルの番号，𝑄 は状態ベクトル数である． 𝑥 𝑥 ∈ 1, 1 : 𝑖 1 ⋯ 𝑁, 𝑝 1 ⋯ 𝑄 ⋯ 1 式(1)で生成される状態ベクトル群は，相互に疑似直行するという式(2)の条件を設ける．式(2)の𝑞も状態ベクトル番号である． 1 𝑁𝑥 𝑥 1 ∶ 𝑝 𝑞 ≒ 0 ∶ 𝑝 𝑞 ⋯ 2 この式(2)の条件の下で，連想関係がある状態ベクトル群𝑥 から𝑥 への相互想起ネットワークを式(3) で生成し，相互連想行列𝑊 とする．図2 連想記憶による価値探索型行動決定モデル図3 現在状態からの予測に対応した複数のタスク価値の競合的評価による行動決定

(4)

𝑊 𝑥 1 𝑁𝑥 ⋯ 3 また，状態ベクトルの部分的な特徴から自己の状態ベクトルを想起させる自己想起ネットワークを式 (4)で生成し，自己連想行列𝑊 とする． 𝑊 𝑥 1 𝑁𝑥 ⋯ 4 さらに，式(1)の状態ベクトル群のそれぞれに価値を持たせるため，状態ベクトル𝑥 に対応させる価値を 𝑉𝑎𝑙 とする（式(5)）． 𝑉𝑎𝑙 𝑉𝑎𝑙 ∈ 𝑝 1 … 𝑄, 𝑚 1 ⋯ 𝑀 ⋯ 5 式(5)の𝑚は状態ベクトルの価値の種類であり，𝑀は価値の種類数である．本来は𝑀 は世の中の価値の数だけあるはずだが，後述するシミュレーションでは簡単のため，価値の種類を身体維持と安全の2 種類（2 種類の価値マップ）に限定し，𝑀 2とした．

3-2. 実時間の状態予測

本モデルの予測過程では，現在の状態ベクトル 𝑥 から次の状態ベクトル𝑥 への想起は，相互連想行列𝑊 と現在の状態ベクトル𝑥 の積により一撃の計算で並列に求める（式(6)）．ある状態𝑥 から予測される状態ベクトル𝑥 は式(3)で相互連想行列に埋め込まれる． 𝑥 𝑊 𝑥 𝑥 1 𝑁𝑥 𝑥 𝑥 ⋯ 6 観測の過程は，式(6)で予測された状態𝑥 に含まれる状態𝑥 を観測し，観測情報𝑥 を得る．通常は，学習結果に従って予測した状態ベクトル𝑥 と等しい観測情報𝑥 が得られる．式(6)の計算は単純な行列計算であり，また入力と出力の二層の神経回路で実現できることから，その計算は極めて高速である．2-2 節で述べたように，この計算を反復することで複数の状態の混合ベクトルを予測することも可能であり，その計算もまた高速であって実時間での行動探索を可能にしている．

3-3. 予測と観察のズレからの注意と認識

本研究で想定した世界環境では，時として想定外の事象が発生する．例えば後述のシミュレーションでは，エージェントが予測した状態ベクトル，すなわち次の時刻に移動していく位置に敵が存在することがある．そのときには，観測情報𝑥 は敵の情報を含んでいて，式(7)のように予測した状態ベクトル𝑥 とは異なる敵の状態ベクトル成分𝑥 が含まれた𝑥 となる． 𝑥 𝑥 , 𝑥 ∈ 𝑖 1 … 𝑘, 𝑗 𝑘 … 𝑁 ⋯ 7 この観測情報𝑥 と予測された状態に含まれる状態ベクトル𝑥 との間でズレがあるか否かは両者の相関値を算出し，ズレの存在を閾値を基に検知する（式 (8)）．本稿のシミュレーションでは𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 0.6 としている． 1 𝑁𝑥 𝑥 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 ⋯ 8 この式(8)で相関値が𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑以下の場合，その状態にズレがある，すなわち予想していない観測情報があったと認識される．価値評価の過程では，このズレに対して注意を向け，観測情報𝑥 と自己連想行列𝑊 から，ズレが生じた原因を状態ベクトル𝑥 から想起する（式(9））．このとき，式(2)で設けた条件により同一の状態ベクトルでの積は1 になり，それ以外との積はほぼ 0 になることを用いる． 𝑥 𝑊 𝑥 𝑥 1 𝑁𝑥 𝑥 ⋯ 9

3-4. タスク群の価値評価と競合

予測過程で得た予測状態ベクトル𝑥 と，価値評価過程の式(9)で得た状態ベクトル𝑥 に含まれる状態ベクトル𝑥 の価値を評価するため，状態ベクトル 𝑥 と式(5)で生成した価値𝑉𝑎𝑙 の積を算出することで，状態ベクトルに対応した価値を見出す（式(10)）．また式(9)でズレ（敵成分）を見出したときも同様に状態ベクトル𝑥 と価値𝑉𝑎𝑙 の積から状態ベクトルに対応した価値を見出す（式(11)）． 𝑉𝐼 𝑉𝑎𝑙 𝑥 ⋯ 10 𝑉𝐼 𝑉𝑎𝑙 𝑥 ⋯ 11 敵成分が含まれず予想通りの観察情報が得られた場合には，その予想状態に対応した価値が式(10)で求まる．あるいは，予想された状態ベクトルが複数の状態群の混合ベクトルである場合には，状態群を表すベクトルが直行していることから，それらの個々に対応した複数の価値𝑉𝐼が予測状態ベクトルに含まれる個々の状態ベクトルの強さに応じて求まる．もしそこに敵成分が含まれるなら，その敵成分に対応した価値𝑉𝐼 も同様に計算的に求まる．この見出された状態価値𝑉𝐼と𝑉𝐼 を用いて，状態の価値が最大となる（あるいは負の価値が最小となる）状態を選択する（式(12)）．これによりズレが生じた状態の価値を評価でき，状態価値を用いて柔軟な行動決定を行う． 𝑅𝐼 argmax |𝑉𝐼|，|𝑉𝐼 | ⋯ 12

(5)

3-5. 制御システムの機能

ここまでに述べてきた機能が協調的に動作すると，以下の一連の動作が継続的に実施される． a. 環境状態の実時間予測 b. 環境の観察と想定外の事象の検出 c. 予測の中に含まれる複数のタスク価値の評価 d. タスク価値の競合 e. 競合に勝ったタスクの行動生成器の選択 f. 行動の実施これらの動作の一つ一つの実現は比較的容易と考えられるが，個々の機能を適切なタイミングで適切な入力に対して働かせるには，システムとしての制御が必要である．また，今回とは想定の異なる状況であったとしても，環境の認識や予測，動作の生成などの機能は多くの状況で不可欠に使われるものであり，その処理モジュールの再利用は必須であろう．そのとき，これらの機能を選択的かつ組織的に制御するシステムが必要である．このように考えると，本モデルには個々の要素機能とは別に，システム動作を制御する中央制御システム(Central Executive System: CES)が必要であるように思われる．CES はブロードベント以来長く機能的な存在が示唆されながら，その神経科学的な存在は未だ明らかになっていないモジュールである[6]．本稿で考える多重タスク環境での汎用知能の実現においては，必ず検討を要するものであろう．

4. シミュレーションによる評価

4-1. 仮想世界とエージェントのタスク

ここまで述べてきた価値に駆動されるタスクスイッチモデルを検証するために，計算機シミュレーションによる検証を行った．この検証では，7 つの状態の間の状態遷移で表現される2 層の探索木の構造を持つ環境とした（図 4 左）．この環境の状態𝑅 と状態𝑅 には報酬を設定し，状態𝑅 は状態𝑅 よりも報酬量を多くした．行動エージェントは，事前にこの環境をズレが生じない想定で学習しており，それぞれの状態における期待報酬（価値）が強化学習などの手段により個々の状態に伝播されているとする．さらにこの環境に，予測した状態と実際の観察状態との間でズレを生じさせるため，探索木の状態𝑆 に負の価値である敵が現れる場面を想定した（図 4 右）．これにより，ズレがない場合は，経験通りに状態𝑆 からは状態𝑆 の観測情報が得られる一方で，ズレがある場合は，状態𝑆 からは状態𝑆 の情報と敵を表す情報が組み合わされた状態𝑆 ′が観測情報として得られる．行動エージェントは，学習で得た経験からズレがない場合の状態を予測するため，敵の有無によりズレを検出できる．このような環境で行動エージェントは，探索木の状態𝑆 から探索を開始し，その場の状態に合わせ，状態𝑆 または状態𝑆 のどちらに進むかを価値に基づいて判断してタスクをスイッチできることを示す．

4-2. 検証 1:価値評価による行動変化

4-2-1. 敵がいなかった場合図5（左）に, 状態𝑆 に負の価値をもつ敵がいない場合の処理過程ごとの連想強度の変化を示した．行動エージェントは，スタート地点の状態𝑆 から次の状態を予測すると, 状態𝑆 と直交する状態𝑆 と状態 𝑆 のみが連想強度が 1 に近くなり, 状態𝑆 と状態𝑆 を予測する．この予測された状態𝑆 と状態𝑆 をエージェントが観測し，予測した状態と観測した状態を式(8)で比較する．この処理結果を図 5（左）の「観測」の部位で示す．相関値がどちらの状態も1 に近いことから，どちらの状態も予測と観測状態のズレが少ないことが分かる．そこで予測した状態の価値を含めて連想強度を計算すると図5（左）の「価値評価」で示した値になる．これにより，状態𝑆 から意思決定する際に見出された価値によって連想強度が高くなった状態𝑆 を選択する．図 5．（左）敵配置なし場合の連想強度の変化（右）敵配置あり場合の連想強度の変化図 4．検証 1 で⽤いた探索⽊のイメージ

(6)

4-2-2. 敵が状態𝑆 にいた場合図5（右）に状態𝑆 に負の報酬をもつ敵がいた場合の処理過程ごとの連想強度の変化を示した．敵がいた場合，行動エージェントがスタート地点の状態𝑆 から次の状態を予測すると，状態𝑆 と直交する状態 𝑆 と状態𝑆 の連想強度が 1 に近くなり，状態𝑆 と状態𝑆 が予測された．次に予測した状態と観測した状態を相関値で比較する（図5（右））．この観測時に状態𝑆 からは，状態𝑆 の一部が敵の情報となった情報 𝑥 が得られる．そのため，状態𝑆 の相関値は 1 に近いままであるが状態𝑆 の相関値は 0.2 と低くなる．この状態𝑆 の相関値は設定した閾値よりも低いため，予測状態と観測状態がズレていることが検出される．このズレの部分に注意を向けて，式(7)で設置した敵の状態ベクトル𝑥 から始まる式(9)の自己想起を行うことで𝑥 の全体が想起され，予想から外れた原因が敵の出現であると検知した．この計算過程により，図5（右）の「価値評価」では，敵に対応した大きな負の価値が得られると判断された．これにより，正の報酬獲得を追求する価値マップと敵からの回避を追求する価値マップのそれぞれから，現在の状態で見出される状態価値が算出され，比較・評価される．そして，敵がいない場合には期待報酬として得られるはずの正の価値を追求する価値－行動マップからの行動を実行するはずのものが，敵を検知したことによって大きな負の価値である敵から逃避する価値－行動マップからの行動を実行するように切り替えられた．この処理結果を図4（右）の敵がいる場合の価値評価で示すと，この過程で得られる価値は，状態𝑆 よりも状態𝑆 の方が高くなり，エージェントは状態𝑆 への行動を選択すると説明できる．以上，観測状態と予測した状態とのズレを検出し，そのズレに対して注意を向け価値評価を行うことでエージェントの行動の変化を確認できた．

4-3 検証 2:タスク切り替えの確認

検証 1 で，予測とのズレからの価値評価による行動変化を確認した．それを受けて検証2 では，この行動変化がタスクの切り替えになっているか，また動的な環境であっても行えるか，迷路課題を用いたシミュレーションで確認した（図6）．この課題ではエージェントが行えるタスクは2 種類である．第 1 は，正の報酬である青のマス（食料をイメージ）に向かって移動するタスクである．第2 は，負の報酬である敵を回避するタスクである．敵は図6 の矢印の向きに沿って巡回移動する．エージェントは，図 6 の A 地点から行動を開始し，敵を回避しながら，報酬のあるゴール（青いマス）に向かうように行動する．各瞬間のエージェントの行動は，上下左右に 1 ステップずつの 4 種類である．環境は，敵が継続して行動することで，エージェントにとっては状態が変化する動的な環境となっている．そのため，一般的な強化学習では敵の位置に合わせた行動学習をしなければならず，かなり難しい課題となる．しかし一方で，人間の直観的な感覚では，敵が近くいれば回避して，いなければゴールに向かうという，二つのタスクを敵の位置に合わせて切り替えることで実現できるように思える．シミュレーション時のエージェントと敵の行動処理の順序を図7 に示す．このシミュレーションでは，入力情報と観測情報のタイミングは次のようになる． [1] エージェントが予測に使う入力情報は，エージェントが1step 前に行動した後に得た情報（敵が行動する前）である． [2] エージェントは，この情報を基に次の状態を予図 6．検証 2 の迷路環境図 7．シミュレーション中のエージェントと敵の⾏動処理順序図 8．（左）敵が移動しない場合の⾏動軌跡. （右）敵が移動する場合の⾏動軌跡

(7)

測する． [3] 観測は，1step 前に敵が行動した後に行い，エージェントが予測した状態とのズレは，敵が行動することによって生じる．また，この検証でのエージェントは，視野を持つ．エージェントは，自身の向いている方向から，自身の位置を含む前方に2 マスとその左右に 1 マスずつの計8 マスの状態が組む合わさった観測情報（入力情報）を得る．そのため，観測情報は式(1)を用いて生成した状態ベクトルの組み合わせとした式(13)のように表現する．式(13)の 𝑜, 𝑞, 𝑝 はそれぞれ 2 マス前方，1 マス前方，自身の位置を表す．式(3)と(4)のように相互連想行列𝑊 と自己連想行列𝑊 を生成する際には，式(13)で生成した状態を表す状態ベクトル群を用いる． 𝑥 𝑥 , 𝑥 , 𝑥 , 𝑥 , 𝑥 , 𝑥 , 𝑥 , 𝑥 ⋯ 13 一方で，エージェントの視野範囲に敵が存在する時には敵が存在する場所に対応する状態ベクトルが敵を表現する状態ベクトル𝑥 となり，敵の情報を含んだ観測情報が得られるとした（式(14)：o+1 の位置に敵がいるとした）． 𝑥 𝑥 , 𝑥 , 𝒙𝑬_{, 𝑥} _{, 𝑥 , 𝑥} _{, 𝑥} _{, 𝑥} ⋯ 14 ここで，エージェントの方向を含めた現在状態に対応する価値は，式(13)で示される状態ベクトル𝑥 に含まれている状態ベクトル群の価値の総和となる．そして，この向きと位置を間接的に表す状態に対応する価値をもとに，エージェントは式(12)にもとづき価値が大きい行動を選択する．この予測からのズレが生じる状態位置が動的に変化する環境で，エージェントがズレを検出し，状態の価値評価により行動を変化させることができるか，すわなち状態に応じてタスクが切り替わっているかを確認した． 4-3-1. 敵が移動しない場合予測からのズレが生じない場合のエージェントの行動を確認するため，敵が移動せずエージェントの知覚範囲に敵が入ってこない条件での行動軌跡を図 8（左）に示す．エージェントは，スタート地点からゴールに向かうタスクを実行し，最短距離での移動ができている．これは検証1 と同じように，スタート位置からエージェントの行動選択肢（上下左右）のそれぞれの期待報酬を求め，その値がより大きい行動選択による． 4-3-2. 敵が移動する場合敵が移動してエージェントの視野に入ってくる場合のエージェントの行動軌跡を図8（右）に示す．エージェントは，スタート地点からゴールに向かう行動選択をするが，途中で最短ではない図6（右）の迷路の一番下まで移動している．このとき，敵はエージェントの近くに移動してきて視野内に入り，エージェントは過去の経験から予測した状態と観察情報とのズレを検出し，ズレの原因は敵であると検知している．これにより，それまでは働いていなかった敵に対する価値評価の機能が起動され，その観察状態から見い出される価値として，ゴールに対応する状態価値と，大きな負の価値をもつ敵に対応する状態価値が得られた．この2 種類の状態価値が比較・評価され，エージェントの行動が，「ゴールに向かう行動」から「敵を回避しつつゴールに向かう行動」に変化したと考えられる．そして，敵がエージェントから離れていき，エージェントの視野中で敵を検出できなくなり，敵に関連する状態価値が見出されなくなった時点で，エージェントの行動は，「敵を回避しつつゴールに向かう行動」から，「ゴールに向かう行動」に変化した．そのため，図8（右）のエージェントの行動軌跡で，迷路の一番下からゴールに向かって行動している．このことから，エージェントは，現在の状態の価値を評価することでタスクを選択が可能という示唆を得た．

5. 考察とまとめ

今回, 動的な環境での行動決定課題に連想記憶モデルと強化学習でアプローチするために，連想記憶モデルに観測状態と予測した状態とのズレを検知する機構を付加した．この機構は，現在の状態と過去の経験を基に予測された状態を比較し，ズレが生じている箇所に注意を向けて価値探索を行う．この探索によって見出された価値を踏まえて価値評価を行うことで，柔軟な行動選択が実現できることを検証 1 で示した．次に検証 2 では，この検証 1 の結果を迷路課題に用いて，連続的な行動を確認することで，価値評価によって動的な環境においてもタスクの変化が生じることを確認した．検証 2 では，現実世界の特性を想定して行動エージェントに視野の概念を取り入れた．さらに，敵がステップ毎に行動するため，敵によってズレが生じる箇所が変化する．このときでも，観測した状態と予測した状態からズレを検出し，ズレの価値探索をする．この価値探索から見出された価値も合わせて評価することで，状況に対応した行動が実現できることを確認した．つまり，状態から見出される価値を評価することで行動エージェントが行うタスクがスイッチできた．そのようなステップ毎の評価の課題となるのが実時間での環境予測と価値評価であるが，その問題は宮田の提案した連想記憶による推論モデルを適用できることで解決した．今後の課題として，本稿の検証 2 の価値評価によって行動やタスク選択が変化したことを可視化することが挙げられる．さらに，本稿で扱った検証では，敵を検知した時に敵から回避する行動をしていたが，もし敵がエージェントから遠ざかる行動をとる場合，エージェントは敵を回避する行動選択をする必要が

(8)

ないと考える．そこで，検証 2 のような環境でエージェントが，敵の行動前と行動後の位置を観測することにより，敵の行動予測を行うこともできるであろう．そのような将来における価値も意思決定に用いることで，より現実的な世界環境を想定した行動決定モデルを実現できると考える．また，今回のシミュレーションではエージェントの内発的欲求の時間的な変化は考慮しなかった．欲求の変化は多様な価値の値を変化させるため，行動決定に影響を与えることは自明である．これらの実装により，例えば動的な実世界で現実に行動・生存しているネズミのように，より柔軟なタスク選択を行うエージェントの実現が可能となると期待する．

参考文献

[１] 谷口忠大 : イラストで学ぶ人工知能概論, 講談社 (2014). [２] 宮田，大森：価値に駆動された連想記憶に基づく人の推論過程の統合モデルの提案，知能と情報（日本知能情報ファジィ学会誌），Vol.31,No.3,pp.712-721(2019) [３] K. Nakano, Associatron-A Model of Associative Memory,

IEEE, vol. SMC-2, pp. 380-388, 1972 [４] 中野馨：アソシアトロン-連想記憶のモデルと知的情報処理-，昭晃堂(1979)． [５] 大森，宮田：ヒト脳にシンボル的な思考を生み出す脳アーキテクチャについて，人工知能学会研究資料 SIG-AGI-014-07(招待講演)，人工知能学会，2020 [６] Baddeley, A.D. and Hitch, G.J. (1974) Working memory.

In The Psychology of Learning and Motivation (Bower, G.A., ed.), pp. 47–89, Academic Press