• 検索結果がありません。

連想による価値評価が駆動する実時間タスクスイッチング

N/A
N/A
Protected

Academic year: 2021

シェア "連想による価値評価が駆動する実時間タスクスイッチング"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

連想による価値評価が駆動する実時間タスクスイッチング

Realtime Task-Switching Driven by Value Evaluation with Associative Memory

大森隆司

1

栢沼晋太郎

2

宮田真宏

3

Takashi Omori

1

, Shintaro Kayanuma

2

, and Masahiro Miyata

3 1

玉川大学工学部

1

School of Engineering, Tamagawa University

2

玉川大学大学院工学研究科

2

Graduate School of Engineering, Tamagawa University

3

玉川大学脳科学研究所

2

Brain Science Institute, Tamagawa University

Abstract:

The ability to change behavior depending situation of a dynamic environment is an essential ability of animals for survival. However, conventional behavior learning algorithms can learn just in a static environment. So, in this paper, we propose a cognitive architecture that switches its conducting task in real time depending on its environmental situation. The architecture is realized by the combination of a value-based task selection and a parallel environmental situation prediction with an associative memory.

1. はじめに

ヒトの知能の目立つ特徴は,例えばげっ歯類など の他の動物と比較して,論理的な思考,社会的な能 力などがあげられる.これらはヒト独特の高次な機 能と言われており,人工知能としての実現に向けて 多くの研究が進められている. 一方でげっ歯類が持つ能力も重要である.例えば 敵が存在する実世界で身を守り,食料を探しつつ仲 間を見つけ,いざとなれば敵から子どもを守る.こ のような動物としての基本的な能力は,現在の人工 知能は未だ実現できていない.げっ歯類のもつこれ らの能力の一つ一つを見ると,現在の人工知能の技 術を使えば実現できるようにも見える.しかしそれ らを実世界で運用し,予想外の環境の変化に対応す る柔軟性は現在の人工知能は得意ではない. その鍵となるのはタスクスイッチングの能力であ ると我々は考える.例えばエージェント(ネズミを イメージ)が生き延びていくには,身体があるため おなかもすくし喉も渇く.そのような欲求が変化す ると,環境のできごとに対する評価も変化する.空 腹のときには水の価値は低く餌となる対象の価値は 高いが,喉が渇いたときは水と餌の価値は逆転する. このように同じ世界でも事象の価値は身体の状況に よって変化する.さらに,餌を探しているときに天 敵にあったとする.それほど空腹でないときには天 敵の回避は優先順位が極めて高い一方で,とても空 腹の場合には危険を冒してでも餌に向かうという意 味で天敵と餌が競合するほどに価値が変化する. すなわち,我々が住んでいる世界は自身の身体や 周囲の環境が動的に変化し,エージェントはその中 でいま行うべき行動としての餌や水の探索,敵の回 避,仲間の探索などの複数のタスクを選択しなけれ ばならない.すなわち,生物のような知能システム が住むこの世界はタスクスイッチングを必要とする 動的な世界である. ところが,現在の行動学習の主流である強化学習 は,個々のタスクにおける知覚-行動の組み合わせ を多くの試行錯誤の結果として獲得する[1].そのと き,個々のタスクに対応した行動獲得はそれほど難 しくなくても,複数のタスクの要請が組み合わさる と試行錯誤の回数は爆発的に増大し,さらに環境条 件が時間と共に変化する動的環境での学習は本質的 に困難である.そこで必要となるのがタスクスイッ チングである. 本稿で考えるタスクスイッチングとは,動的な環 境においてその各瞬間に環境を認識して,現在の欲 求や要請のうち最も重要なものを実時間で選択し, それを解決するタスク処理を選択・実行する機能で ある.空腹になれば餌を探すタスクを選択して行動 人工知能学会研究会資料 SIG-AGI-017-02

(2)

するが,その過程で天敵に出会えば即座にそれを回 避するタスクに切り替えて実行する.そして天敵が 去れば再び採餌タスクに切り替え,その場から餌の 獲得のための行動を開始する.その際,餌を探す, 天敵を避けるといった個々のタスクに対応した行動 は事前に獲得されたものであるが,それらの組み合 わせは学習されていない.学習されているのは,個々 の瞬間の場面での各タスクの重要性,すなわちその タスクが実現する価値である. ここで,強化学習では一般にタスクを学習すると きに報酬を与える.結果,エージェントはその瞬間 の状態に対する期待報酬と行動をセットで学習する が,本稿ではそのタスクの実行によって獲得される 報酬をそのタスクの価値と呼ぶ.ゴールに近い状態 の価値は高く,ゴールに遠い状態の価値は低い,と いう表現になる. 以上,我々が住む動的な世界において,エージェ ントが環境の変化に柔軟に対応して行動を切り替え ていくための情報処理として,タスクの価値に基づ くタスクスイッチングの必要性について述べた.以 下,本稿ではタスクスイッチングを可能とするため に知能システムが持つべき認知アーキテクチャにつ いて検討・提案し,その動作を計算機シミュレーシ ョンにより検証する.

2. 実世界:マルチタスク環境

2-1. 想定する実世界環境

図1のような世界を想像してみよう.この世界に は,ネズミのようなエージェントの他に,食べ物, 仲間の動物,木の陰に隠れる敵などの特徴的な事物 があり,さらに仲間や敵は移動したりいなかったり する.この世界には常時,複数のタスクが発生する 可能性がある.例えば餌を探す,水場に行く,巣に 戻る,仲間を探す,天敵を探す・隠れる・逃げる, 場合によっては敵と戦うという可能性もある. 一方で,エージェントはそれ自体が身体を持つこ とが想定されており,空腹になる,喉が渇いてくる, 疲れて休みたくなる,眠くなる,仲間が恋しくなる, など多岐にわたる欲求が時間の経過とともに発生す る.これらの欲求はタスクの実行の結果として満た されて解消し,一定時間経つとまた現れてくる.ま た,これらの要因の多くは独立して発生し,また欲 求の強さは時間と共に変化するので,その組み合わ せと相まって動的な欲求状態になる.そのため,従 来の報酬を先に決めて行動学習を行うタイプの強化 学習では対応できず,先述の環境自体が動的である ことと相まって,極めて難しい行動決定問題となる. しかし,例えばトカゲやネズミなども普通にこれを こなしている.それを可能とする知能システムには どのような機能が要求されるであろう?

2-2. 可能な複数のタスク価値の実時間評価

想定する仮想世界では,ある瞬間に実行可能なタ スク,すなわち将来の報酬獲得につながる行動戦略 は複数ある.個々のタスクは異なる方法で異なる報 酬を受け取るもので,その瞬間の感覚入力に対して 強化学習の期待報酬に相当する価値が存在するはず である.本研究で想定するエージェントは,自分の いる場面の感覚入力を受けて,その場で可能なタス ク群を認識してそのそれぞれの価値を計算する.そ して,その中でもっとも価値の大きい(あるいは負 の価値が最も小さい)タスクを選択して実行すると 考える. 仮に仮想世界の状況やエージェントの欲求が短時 間で変わるものであれば,その場でのタスク群の認 識と価値の計算もまたそれに対応した短いサイクル すなわち知覚の各瞬間に行う必要がある.また,各 瞬間の感覚入力がこれまで獲得したタスク群の感覚 入力にそのまま適合するとは限らない.むしろ,あ る瞬間の感覚入力に対して行動を数サイクル行った 後に,ある強化学習タスクで獲得した価値に結び付 く場面に到達することの方が多いように思われる. 我々も,現在状態には価値がないとしても,そこか ら到達可能でかつ価値が期待できる状態を予測して, その状態に到達するよう行動を選んでいることが多 い.これは,現在の場面からの価値獲得の可能性の 範囲を大きく拡大する.このような現在状態からの 予測を上記のような短いサイクルで実施するには, 従来型の Tree 探索のような予測では時間がかかり, 現実的ではない.むしろ,イメージ想起のような直 観的な予測過程が必要と考えられる. そのような目的に適しているのが,宮田が提案し た連想記憶に基づく価値探索型の行動決定モデルで ある[2].このモデルはアソシアトロン型の連想記憶 図1 複数のタスクがある仮想世界

(3)

で外界の状態遷移を相互想起と自己想起の連想行列 で記憶し,一回の行列計算で1 サイクルの予測を行 い,さらには分岐のある状態遷移では複数の状態の 混合ベクトルを想起して,さらにその想起された状 態の価値を身体の欲求も含めて認識することができ る(図2)[3][4]. また,このモデルでは動作モードを自己想起型に 変えると,現在の想起状態に含まれる複数の状態ベ クトルのうち最も価値が高い状態を選んで選択的に 想起する機能が実現できる.これを利用すると,現 在の感覚入力から数ステップ程度の状態遷移の予測 が極めて短時間で計算でき,結果として上述した数 サイクルの範囲での状態予測と価値評価が実現でき る.さらには,現在状態から到達可能な状態群のう ち最も価値の高い状態を想起でき,そこに到達する ためのタスクの選択が可能となる[5].

2-3. 個別タスクの学習:成功体験

前節で述べた連想記憶を用いた予測により,現在 状態に含まれる複数の価値の評価,あるいは現在状 態から予測される複数の状態の全体に含まれる複数 の価値の評価が短時間で可能となった.ここで言う 価値とは,個々の報酬状態に向かう強化学習タスク における現在状態の期待報酬に,身体の欲求などの 現時点での強度が掛けられた値である.個々のタス クのための行動学習が十分に進んでいるなら,現在 の知覚/予測状態に対する複数のタスクの価値が並 列的に想起され,それらの間の競合過程を経て一つ のタスクが選択されることになる(図3)[2]. このようなタスクの競合を可能にするには,個々 のタスクが十分に学習されていることが前提となる. 個々のタスクに対する現在状態の価値は過去の経験 により獲得されるものであり,例えば強化学習やエ ピソード記憶などで事前に個別に獲得させている必 要がある[1].この学習は,個別のタスクについての ものであるので,比較的容易に獲得できるものと想 定する.次章では,これらの機能を実現するのに必 要なメカニズムについて述べていく.

3. タスクスイッチングの価値計算

3-1. 連想記憶による予測と価値評価

本研究では, 予測の過程は連想記憶の相互想起を 用いて,現在の状態から次に起こりうる状態を想起 する.本モデルでは環境中の個々の状態を±1 の二 値ランダムベクトルで表現する.状態ベクトル相互 の直交性を確保するためベクトル長は十分長くする (式(1):後述のシミュレーションでは 𝑁 1000 とした).式(1)の 𝑝 は状態ベクトルの番号,𝑄 は状 態ベクトル数である. 𝑥 𝑥 ∈ 1, 1 : 𝑖 1 ⋯ 𝑁, 𝑝 1 ⋯ 𝑄 ⋯ 1 式(1)で生成される状態ベクトル群は,相互に疑似直 行するという式(2)の条件を設ける.式(2)の𝑞も状態 ベクトル番号である. 1 𝑁𝑥 𝑥 1 ∶ 𝑝 𝑞 ≒ 0 ∶ 𝑝 𝑞 ⋯ 2 この式(2)の条件の下で,連想関係がある状態ベク トル群𝑥 から𝑥 への相互想起ネットワークを式(3) で生成し,相互連想行列𝑊 とする. 図2 連想記憶による価値探索型行動決定モデル 図3 現在状態からの予測に対応した複数の タスク価値の競合的評価による行動決定

(4)

𝑊 𝑥 1 𝑁𝑥 ⋯ 3 また,状態ベクトルの部分的な特徴から自己の状態 ベクトルを想起させる自己想起ネットワークを式 (4)で生成し,自己連想行列𝑊 とする. 𝑊 𝑥 1 𝑁𝑥 ⋯ 4 さらに,式(1)の状態ベクトル群のそれぞれに価値を 持たせるため,状態ベクトル𝑥 に対応させる価値を 𝑉𝑎𝑙 とする(式(5)). 𝑉𝑎𝑙 𝑉𝑎𝑙 ∈ 𝑝 1 … 𝑄, 𝑚 1 ⋯ 𝑀 ⋯ 5 式(5)の𝑚は状態ベクトルの価値の種類であり,𝑀は 価値の種類数である.本来は𝑀 は世の中の価値の数 だけあるはずだが,後述するシミュレーションでは 簡単のため,価値の種類を身体維持と安全の2 種類 (2 種類の価値マップ)に限定し,𝑀 2とした.

3-2. 実時間の状態予測

本モデルの予測過程では,現在の状態ベクトル 𝑥 から次の状態ベクトル𝑥 への想起は,相互連 想行列𝑊 と現在の状態ベクトル𝑥 の積により一 撃の計算で並列に求める(式(6)). ある状態𝑥 から 予測される状態ベクトル𝑥 は式(3)で相互連想行列 に埋め込まれる. 𝑥 𝑊 𝑥 𝑥 1 𝑁𝑥 𝑥 𝑥 ⋯ 6 観測の過程は,式(6)で予測された状態𝑥 に含ま れる状態𝑥 を観測し,観測情報𝑥 を得る.通常は, 学習結果に従って予測した状態ベクトル𝑥 と等しい 観測情報𝑥 が得られる. 式(6)の計算は単純な行列計算であり,また入力と 出力の二層の神経回路で実現できることから,その 計算は極めて高速である.2-2 節で述べたように,こ の計算を反復することで複数の状態の混合ベクトル を予測することも可能であり,その計算もまた高速 であって実時間での行動探索を可能にしている.

3-3. 予測と観察のズレからの注意と認識

本研究で想定した世界環境では,時として想定外 の事象が発生する.例えば後述のシミュレーション では,エージェントが予測した状態ベクトル,すな わち次の時刻に移動していく位置に敵が存在するこ とがある.そのときには,観測情報𝑥 は敵の情報を 含んでいて,式(7)のように予測した状態ベクトル𝑥 とは異なる敵の状態ベクトル成分𝑥 が含まれた𝑥 となる. 𝑥 𝑥 , 𝑥 ∈ 𝑖 1 … 𝑘, 𝑗 𝑘 … 𝑁 ⋯ 7 この観測情報𝑥 と予測された状態に含まれる状 態ベクトル𝑥 との間でズレがあるか否かは両者の相 関値を算出し,ズレの存在を閾値を基に検知する(式 (8)).本稿のシミュレーションでは𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 0.6 としている. 1 𝑁𝑥 𝑥 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 ⋯ 8 この式(8)で相関値が𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑以下の場合,その 状態にズレがある,すなわち予想していない観測情 報があったと認識される. 価値評価の過程では,このズレに対して注意を向 け,観測情報𝑥 と自己連想行列𝑊 から,ズレが生 じた原因を状態ベクトル𝑥 から想起する(式(9)). このとき,式(2)で設けた条件により同一の状態ベク トルでの積は1 になり,それ以外との積はほぼ 0 に なることを用いる. 𝑥 𝑊 𝑥 𝑥 1 𝑁𝑥 𝑥 ⋯ 9

3-4. タスク群の価値評価と競合

予測過程で得た予測状態ベクトル𝑥 と,価値評価 過程の式(9)で得た状態ベクトル𝑥 に含まれる状 態ベクトル𝑥 の価値を評価するため,状態ベクトル 𝑥 と式(5)で生成した価値𝑉𝑎𝑙 の積を算出すること で,状態ベクトルに対応した価値を見出す(式(10)). また式(9)でズレ(敵成分)を見出したときも同様に 状態ベクトル𝑥 と価値𝑉𝑎𝑙 の積から状態ベクトル に対応した価値を見出す(式(11)). 𝑉𝐼 𝑉𝑎𝑙 𝑥 ⋯ 10 𝑉𝐼 𝑉𝑎𝑙 𝑥 ⋯ 11 敵成分が含まれず予想通りの観察情報が得られた 場合には,その予想状態に対応した価値が式(10)で 求まる.あるいは,予想された状態ベクトルが複数 の状態群の混合ベクトルである場合には,状態群を 表すベクトルが直行していることから,それらの 個々に対応した複数の価値𝑉𝐼が予測状態ベクトルに 含まれる個々の状態ベクトルの強さに応じて求まる. もしそこに敵成分が含まれるなら,その敵成分に対 応した価値𝑉𝐼 も同様に計算的に求まる. この見出された状態価値𝑉𝐼と𝑉𝐼 を用いて,状態の 価値が最大となる(あるいは負の価値が最小となる) 状態を選択する(式(12)).これによりズレが生じた 状態の価値を評価でき,状態価値を用いて柔軟な行 動決定を行う. 𝑅𝐼 argmax |𝑉𝐼|,|𝑉𝐼 | ⋯ 12

(5)

3-5. 制御システムの機能

ここまでに述べてきた機能が協調的に動作すると, 以下の一連の動作が継続的に実施される. a. 環境状態の実時間予測 b. 環境の観察と想定外の事象の検出 c. 予測の中に含まれる複数のタスク価値の評価 d. タスク価値の競合 e. 競合に勝ったタスクの行動生成器の選択 f. 行動の実施 これらの動作の一つ一つの実現は比較的容易と考 えられるが,個々の機能を適切なタイミングで適切 な入力に対して働かせるには,システムとしての制 御が必要である. また,今回とは想定の異なる状況であったとして も,環境の認識や予測,動作の生成などの機能は多 くの状況で不可欠に使われるものであり,その処理 モジュールの再利用は必須であろう.そのとき,こ れらの機能を選択的かつ組織的に制御するシステム が必要である.このように考えると,本モデルには 個々の要素機能とは別に,システム動作を制御する 中央制御システム(Central Executive System: CES)が 必要であるように思われる.CES はブロードベント 以来長く機能的な存在が示唆されながら,その神経 科学的な存在は未だ明らかになっていないモジュー ルである[6].本稿で考える多重タスク環境での汎用 知能の実現においては,必ず検討を要するものであ ろう.

4. シミュレーションによる評価

4-1. 仮想世界とエージェントのタスク

ここまで述べてきた価値に駆動されるタスクスイ ッチモデルを検証するために,計算機シミュレーシ ョンによる検証を行った.この検証では,7 つの状 態の間の状態遷移で表現される2 層の探索木の構造 を持つ環境とした(図 4 左).この環境の状態𝑅 と 状態𝑅 には報酬を設定し,状態𝑅 は状態𝑅 よりも報 酬量を多くした.行動エージェントは,事前にこの 環境をズレが生じない想定で学習しており,それぞ れの状態における期待報酬(価値)が強化学習など の手段により個々の状態に伝播されているとする. さらにこの環境に,予測した状態と実際の観察状 態との間でズレを生じさせるため,探索木の状態𝑆 に負の価値である敵が現れる場面を想定した(図 4 右).これにより,ズレがない場合は,経験通りに状 態𝑆 からは状態𝑆 の観測情報が得られる一方で,ズ レがある場合は,状態𝑆 からは状態𝑆 の情報と敵を 表す情報が組み合わされた状態𝑆 ′が観測情報とし て得られる.行動エージェントは,学習で得た経験 からズレがない場合の状態を予測するため,敵の有 無によりズレを検出できる. このような環境で行動エージェントは,探索木の 状態𝑆 から探索を開始し,その場の状態に合わせ, 状態𝑆 または状態𝑆 のどちらに進むかを価値に基づ いて判断してタスクをスイッチできることを示す.

4-2. 検証 1:価値評価による行動変化

4-2-1. 敵がいなかった場合 図5(左)に, 状態𝑆 に負の価値をもつ敵がいない 場合の処理過程ごとの連想強度の変化を示した.行 動エージェントは,スタート地点の状態𝑆 から次の 状態を予測すると, 状態𝑆 と直交する状態𝑆 と状態 𝑆 のみが連想強度が 1 に近くなり, 状態𝑆 と状態𝑆 を予測する.この予測された状態𝑆 と状態𝑆 をエー ジェントが観測し,予測した状態と観測した状態を 式(8)で比較する.この処理結果を図 5(左)の「観 測」の部位で示す.相関値がどちらの状態も1 に近 いことから,どちらの状態も予測と観測状態のズレ が少ないことが分かる.そこで予測した状態の価値 を含めて連想強度を計算すると図5(左)の「価値評 価」で示した値になる.これにより,状態𝑆 から意 思決定する際に見出された価値によって連想強度が 高くなった状態𝑆 を選択する. 図 5.(左)敵配置なし場合の連想強度の変化 (右)敵配置あり場合の連想強度の変化 図 4.検証 1 で⽤いた探索⽊のイメージ

(6)

4-2-2. 敵が状態𝑆 にいた場合 図5(右)に状態𝑆 に負の報酬をもつ敵がいた場合 の処理過程ごとの連想強度の変化を示した.敵がい た場合,行動エージェントがスタート地点の状態𝑆 から次の状態を予測すると,状態𝑆 と直交する状態 𝑆 と状態𝑆 の連想強度が 1 に近くなり,状態𝑆 と状 態𝑆 が予測された.次に予測した状態と観測した状 態を相関値で比較する(図5(右)).この観測時に状 態𝑆 からは,状態𝑆 の一部が敵の情報となった情報 𝑥 が得られる.そのため,状態𝑆 の相関値は 1 に 近いままであるが状態𝑆 の相関値は 0.2 と低くなる. この状態𝑆 の相関値は設定した閾値よりも低いため, 予測状態と観測状態がズレていることが検出される. このズレの部分に注意を向けて,式(7)で設置した敵 の状態ベクトル𝑥 から始まる式(9)の自己想起を行 うことで𝑥 の全体が想起され,予想から外れた原因 が敵の出現であると検知した. この計算過程により,図5(右)の「価値評価」で は,敵に対応した大きな負の価値が得られると判断 された.これにより,正の報酬獲得を追求する価値 マップと敵からの回避を追求する価値マップのそれ ぞれから,現在の状態で見出される状態価値が算出 され,比較・評価される.そして,敵がいない場合 には期待報酬として得られるはずの正の価値を追求 する価値-行動マップからの行動を実行するはずの ものが,敵を検知したことによって大きな負の価値 である敵から逃避する価値-行動マップからの行動 を実行するように切り替えられた. この処理結果を図4(右)の敵がいる場合の価値評 価で示すと,この過程で得られる価値は,状態𝑆 よ りも状態𝑆 の方が高くなり,エージェントは状態𝑆 への行動を選択すると説明できる.以上,観測状態 と予測した状態とのズレを検出し,そのズレに対し て注意を向け価値評価を行うことでエージェントの 行動の変化を確認できた.

4-3 検証 2:タスク切り替えの確認

検証 1 で,予測とのズレからの価値評価による行 動変化を確認した.それを受けて検証2 では,この 行動変化がタスクの切り替えになっているか,また 動的な環境であっても行えるか,迷路課題を用いた シミュレーションで確認した(図6).この課題では エージェントが行えるタスクは2 種類である.第 1 は,正の報酬である青のマス(食料をイメージ)に 向かって移動するタスクである.第2 は,負の報酬 である敵を回避するタスクである.敵は図6 の矢印 の向きに沿って巡回移動する.エージェントは,図 6 の A 地点から行動を開始し,敵を回避しながら, 報酬のあるゴール(青いマス)に向かうように行動 する.各瞬間のエージェントの行動は,上下左右に 1 ステップずつの 4 種類である.環境は,敵が継続 して行動することで,エージェントにとっては状態 が変化する動的な環境となっている.そのため,一 般的な強化学習では敵の位置に合わせた行動学習を しなければならず,かなり難しい課題となる.しか し一方で,人間の直観的な感覚では,敵が近くいれ ば回避して,いなければゴールに向かうという,二 つのタスクを敵の位置に合わせて切り替えることで 実現できるように思える. シミュレーション時のエージェントと敵の行動処 理の順序を図7 に示す.このシミュレーションでは, 入力情報と観測情報のタイミングは次のようになる. [1] エージェントが予測に使う入力情報は,エージ ェントが1step 前に行動した後に得た情報(敵が 行動する前)である. [2] エージェントは,この情報を基に次の状態を予 図 6.検証 2 の迷路環境 図 7.シミュレーション中のエージェント と敵の⾏動処理順序 図 8.(左)敵が移動しない場合の⾏動軌跡. (右)敵が移動する場合の⾏動軌跡

(7)

測する. [3] 観測は,1step 前に敵が行動した後に行い,エー ジェントが予測した状態とのズレは,敵が行動す ることによって生じる. また,この検証でのエージェントは,視野を持つ. エージェントは,自身の向いている方向から,自身 の位置を含む前方に2 マスとその左右に 1 マスずつ の計8 マスの状態が組む合わさった観測情報(入力 情報)を得る.そのため,観測情報は式(1)を用いて 生成した状態ベクトルの組み合わせとした式(13)の ように表現する.式(13)の 𝑜, 𝑞, 𝑝 はそれぞれ 2 マス 前方,1 マス前方,自身の位置を表す.式(3)と(4)の ように相互連想行列𝑊 と自己連想行列𝑊 を生成す る際には,式(13)で生成した状態を表す状態ベクト ル群を用いる. 𝑥 𝑥 , 𝑥 , 𝑥 , 𝑥 , 𝑥 , 𝑥 , 𝑥 , 𝑥 ⋯ 13 一方で,エージェントの視野範囲に敵が存在する 時には敵が存在する場所に対応する状態ベクトルが 敵を表現する状態ベクトル𝑥 となり,敵の情報を含 んだ観測情報が得られるとした(式(14):o+1 の位置 に敵がいるとした). 𝑥 𝑥 , 𝑥 , 𝒙𝑬, 𝑥 , 𝑥 , 𝑥 , 𝑥 , 𝑥 ⋯ 14 ここで,エージェントの方向を含めた現在状態に 対応する価値は,式(13)で示される状態ベクトル𝑥 に含まれている状態ベクトル群の価値の総和となる. そして,この向きと位置を間接的に表す状態に対応 する価値をもとに,エージェントは式(12)にもとづ き価値が大きい行動を選択する.この予測からのズ レが生じる状態位置が動的に変化する環境で,エー ジェントがズレを検出し,状態の価値評価により行 動を変化させることができるか,すわなち状態に応 じてタスクが切り替わっているかを確認した. 4-3-1. 敵が移動しない場合 予測からのズレが生じない場合のエージェントの 行動を確認するため,敵が移動せずエージェントの 知覚範囲に敵が入ってこない条件での行動軌跡を図 8(左)に示す.エージェントは,スタート地点から ゴールに向かうタスクを実行し,最短距離での移動 ができている.これは検証1 と同じように,スター ト位置からエージェントの行動選択肢(上下左右) のそれぞれの期待報酬を求め,その値がより大きい 行動選択による. 4-3-2. 敵が移動する場合 敵が移動してエージェントの視野に入ってくる場 合のエージェントの行動軌跡を図8(右)に示す.エ ージェントは,スタート地点からゴールに向かう行 動選択をするが,途中で最短ではない図6(右)の迷 路の一番下まで移動している.このとき,敵はエー ジェントの近くに移動してきて視野内に入り,エー ジェントは過去の経験から予測した状態と観察情報 とのズレを検出し,ズレの原因は敵であると検知し ている.これにより,それまでは働いていなかった 敵に対する価値評価の機能が起動され,その観察状 態から見い出される価値として,ゴールに対応する 状態価値と,大きな負の価値をもつ敵に対応する状 態価値が得られた.この2 種類の状態価値が比較・ 評価され,エージェントの行動が,「ゴールに向かう 行動」から「敵を回避しつつゴールに向かう行動」 に変化したと考えられる.そして,敵がエージェン トから離れていき,エージェントの視野中で敵を検 出できなくなり,敵に関連する状態価値が見出され なくなった時点で,エージェントの行動は,「敵を回 避しつつゴールに向かう行動」から,「ゴールに向か う行動」に変化した.そのため,図8(右)のエージ ェントの行動軌跡で,迷路の一番下からゴールに向 かって行動している.このことから,エージェント は,現在の状態の価値を評価することでタスクを選 択が可能という示唆を得た.

5. 考察とまとめ

今回, 動的な環境での行動決定課題に連想記憶モ デルと強化学習でアプローチするために,連想記憶 モデルに観測状態と予測した状態とのズレを検知す る機構を付加した.この機構は,現在の状態と過去 の経験を基に予測された状態を比較し,ズレが生じ ている箇所に注意を向けて価値探索を行う.この探 索によって見出された価値を踏まえて価値評価を行 うことで,柔軟な行動選択が実現できることを検証 1 で示した.次に検証 2 では,この検証 1 の結果を 迷路課題に用いて,連続的な行動を確認することで, 価値評価によって動的な環境においてもタスクの変 化が生じることを確認した. 検証 2 では,現実世界の特性を想定して行動エー ジェントに視野の概念を取り入れた.さらに,敵が ステップ毎に行動するため,敵によってズレが生じ る箇所が変化する.このときでも,観測した状態と 予測した状態からズレを検出し,ズレの価値探索を する.この価値探索から見出された価値も合わせて 評価することで,状況に対応した行動が実現できる ことを確認した.つまり,状態から見出される価値 を評価することで行動エージェントが行うタスクが スイッチできた.そのようなステップ毎の評価の課 題となるのが実時間での環境予測と価値評価である が,その問題は宮田の提案した連想記憶による推論 モデルを適用できることで解決した. 今後の課題として,本稿の検証 2 の価値評価によ って行動やタスク選択が変化したことを可視化する ことが挙げられる.さらに,本稿で扱った検証では, 敵を検知した時に敵から回避する行動をしていたが, もし敵がエージェントから遠ざかる行動をとる場合, エージェントは敵を回避する行動選択をする必要が

(8)

ないと考える.そこで,検証 2 のような環境でエー ジェントが,敵の行動前と行動後の位置を観測する ことにより,敵の行動予測を行うこともできるであ ろう.そのような将来における価値も意思決定に用 いることで,より現実的な世界環境を想定した行動 決定モデルを実現できると考える. また,今回のシミュレーションではエージェント の内発的欲求の時間的な変化は考慮しなかった.欲 求の変化は多様な価値の値を変化させるため,行動 決定に影響を与えることは自明である.これらの実 装により,例えば動的な実世界で現実に行動・生存 しているネズミのように,より柔軟なタスク選択を 行うエージェントの実現が可能となると期待する.

参考文献

[1] 谷口忠大 : イラストで学ぶ人工知能概論, 講談社 (2014). [2] 宮田,大森:価値に駆動された連想記憶に基づく人の 推論過程の統合モデルの提案,知能と情報(日本知能 情報ファジィ学会誌),Vol.31,No.3,pp.712-721(2019) [3] K. Nakano, Associatron-A Model of Associative Memory,

IEEE, vol. SMC-2, pp. 380-388, 1972 [4] 中野馨:アソシアトロン-連想記憶のモデルと知的情 報処理-,昭晃堂(1979). [5] 大森,宮田:ヒト脳にシンボル的な思考を生み出す脳 アーキテクチャについて,人工知能学会研究資料 SIG-AGI-014-07(招待講演),人工知能学会,2020 [6] Baddeley, A.D. and Hitch, G.J. (1974) Working memory.

In The Psychology of Learning and Motivation (Bower, G.A., ed.), pp. 47–89, Academic Press

参照

関連したドキュメント

よう素による甲状腺等価線量評価結果 核種 よう素 対象 放出後の72時間積算値 避難 なし...

2.2.2.2.2 瓦礫類一時保管エリア 瓦礫類の線量評価は,次に示す条件で MCNP コードにより評価する。

瓦礫類の線量評価は,次に示す条件で MCNP コードにより評価する。 なお,保管エリアが満杯となった際には,実際の線源形状に近い形で

2.2.2.2.2 瓦礫類一時保管エリア 瓦礫類の線量評価は,次に示す条件で MCNP コードにより評価する。

その問いとは逆に、価格が 30%値下がりした場合、消費量を増やすと回答した人(図

【留意事項】 手続きに時間がかかる場合がある

累積ルールがない場合には、日本の付加価値が 30% であるため「付加価値 55% 」を満たせないが、完全累 積制度があれば、 EU で生産された部品が EU

★分割によりその調査手法や評価が全体を対象とした 場合と変わることがないように調査計画を立案する必要 がある。..