第 4 章 連想記憶モデルによる推論
4.6 直観的推論および論理的推論の統合
4.6.5 各推論システムの基本特性比較
本シミュレーションでは,提案したモデルの内,直観的推論をシステム 1(4.4.1 項),
論理的推論をシステム2(4.5.1項)とし,これらを統合した式(4.23)による推論をシステム
3(4.6.2項)として,各システムの特性を確認する.
シミュレーション条件は4.6.3 項と同様の地図,価値の割り振り,報酬量とした.そ して各推論システムの条件は以下のようにした.
1) 直観的推論で探索することのできる探索範囲は3層までとする
2) 論理的推論によって20ステップ分計算した際に推論結果が収束しない 場合には推論結果が収束しないと判断し,相互抑制をかけることにより 収束を促す
3) 推論の統合システムのパラメータαの切り替え条件は,推論する際の初 期値はαを1とし,直観的推論を必ず実施するようにした.そして,直 観的推論の結果として得られた次の状態ベクトル𝑥𝑐中に価値が複数含 まれていた際にパラメータαを0とし,論理的推論に切り替わるように した.
なお本手法では,直観的推論において深い推論をした際,その行動状態 を保持しているわけではない.そのため,直観的推論の2層目以降の結 果として価値が含まれていた場合,直観的推論の1層目の結果として得 られた過去の経験に基づく行動数が最大となる方向に行動する(式 (4.17)).
エージェントの推論結果に基づく探索経路を図4-20 に示す.探索経路は2つのパタ ーンに分けられた.システム1による意思決定では,報酬量の少ない青のキューブを得 る行動をとり,システム2,およびシステム3による意思決定では,報酬量の大きい赤 のキューブを得る行動をとった.さらに,それぞれのシステムによる意思決定の過程を 見ると,その計算処理は4フェーズに分けられた(図4-20 破線部内フェーズ1~4).
73
図 4-20 迷路探索用の地図,および価値配置
表4-1に3つのシステムそれぞれの各フェーズ内における平均探索ステップ数を示し た.まず,システム1では,探索時に通過したすべてのフェーズにおいて平均探索ステ ップは3システムの内で最小であった一方で,エージェントが得たのは小さい報酬であ った.これは過去に多くの回数を経験していた青のキューブに到達する経路への移動確 率が高く,多くの価値が予測されたことによる.次にシステム2による推論では,探索 にかかる平均探索ステップはすべてのフェーズにおいて最大であった一方で,エージェ ントは報酬量の大きい赤のキューブを得た.さらにシステム 2 のフェーズ 1 において は,事前の行動確率が一定であること,価値が見いだせない領域であることの2点によ り推論が 1 に収束しない.そのため,推論回数の上限時(本シミュレーションでは 100 回とした)における状態ベクトルに対して式(4.15)を適応することで行動決定する結果 を得た.このことから,価値による変調を行いながら推論をするシステム2を用いるこ とで,探索ステップはかかるが,確実に報酬量の多い行動を取ることができることが示 唆された.
表 4-1 推論システムごとの探索ステップ数比較
(平均探索ステップ数/action) 探索フェーズ システム1 システム2 システム3
フェーズ1 2.5 37 2.5
フェーズ2 1 65 58
フェーズ3 1 - -
フェーズ4 - 7.8 1
74
それに対して,システム3による推論では,探索にかかる平均探索ステップはフェー ズ1と4では最小であったが,フェーズ2に対してはシステム2に近い大きいもので あった.そして,エージェントは報酬量の大きい赤のキューブを得た.これは,フェ ーズ1ではスタート地点の近傍領域では価値のある状態を見出せなかったが,連想を 繰り返すことで遠くに価値のある状態を見出すことができ,適切な行動ができたこと による.一方でフェーズ2では,青のキューブに対する価値と赤のキューブに対する 価値の両方が同時に見出されて競合が起こり,システム2が機能して価値の高い赤の キューブに向かう行動を選択できたと考えられる.そしてフェーズ4では赤のキュー ブに対する価値のみがあるため,システム1のみで意思決定できたことによる.
これらのシミュレーションの結果から,提案したシステム1から3までのすべての 推論システムにおいて推論特性に応じたシミュレーション結果を得ることができた.