各推論システムの基本特性比較

第 4 章連想記憶モデルによる推論

4.6 直観的推論および論理的推論の統合

4.6.5 各推論システムの基本特性比較

本シミュレーションでは，提案したモデルの内，直観的推論をシステム 1(4.4.1 項)，

論理的推論をシステム2(4.5.1項)とし，これらを統合した式(4.23)による推論をシステム

3(4.6.2項)として，各システムの特性を確認する．

シミュレーション条件は4.6.3 項と同様の地図，価値の割り振り，報酬量とした．そして各推論システムの条件は以下のようにした．

1) 直観的推論で探索することのできる探索範囲は3層までとする

2) 論理的推論によって20ステップ分計算した際に推論結果が収束しない場合には推論結果が収束しないと判断し，相互抑制をかけることにより収束を促す

3) 推論の統合システムのパラメータαの切り替え条件は，推論する際の初期値はαを1とし，直観的推論を必ず実施するようにした．そして，直観的推論の結果として得られた次の状態ベクトル𝑥^𝑐中に価値が複数含まれていた際にパラメータαを0とし，論理的推論に切り替わるようにした．

なお本手法では，直観的推論において深い推論をした際，その行動状態を保持しているわけではない．そのため，直観的推論の2層目以降の結果として価値が含まれていた場合，直観的推論の1層目の結果として得られた過去の経験に基づく行動数が最大となる方向に行動する(式 (4.17))．

エージェントの推論結果に基づく探索経路を図4-20 に示す．探索経路は2つのパターンに分けられた．システム1による意思決定では，報酬量の少ない青のキューブを得る行動をとり，システム2，およびシステム3による意思決定では，報酬量の大きい赤のキューブを得る行動をとった．さらに，それぞれのシステムによる意思決定の過程を見ると，その計算処理は4フェーズに分けられた(図4-20 破線部内フェーズ1～4)．

73

図 4-20 迷路探索用の地図，および価値配置

表4-1に3つのシステムそれぞれの各フェーズ内における平均探索ステップ数を示した．まず，システム1では，探索時に通過したすべてのフェーズにおいて平均探索ステップは3システムの内で最小であった一方で，エージェントが得たのは小さい報酬であった．これは過去に多くの回数を経験していた青のキューブに到達する経路への移動確率が高く，多くの価値が予測されたことによる．次にシステム2による推論では，探索にかかる平均探索ステップはすべてのフェーズにおいて最大であった一方で，エージェントは報酬量の大きい赤のキューブを得た．さらにシステム 2 のフェーズ 1 においては，事前の行動確率が一定であること，価値が見いだせない領域であることの2点により推論が 1 に収束しない．そのため，推論回数の上限時(本シミュレーションでは 100 回とした)における状態ベクトルに対して式(4.15)を適応することで行動決定する結果を得た．このことから，価値による変調を行いながら推論をするシステム2を用いることで，探索ステップはかかるが，確実に報酬量の多い行動を取ることができることが示唆された．

表 4-1 推論システムごとの探索ステップ数比較

(平均探索ステップ数／action) 探索フェーズシステム1 システム2 システム3

フェーズ１ 2.5 37 2.5

フェーズ２ 1 65 58

フェーズ３ 1 －－

フェーズ４－ 7.8 1

74

それに対して，システム3による推論では，探索にかかる平均探索ステップはフェーズ1と4では最小であったが，フェーズ2に対してはシステム2に近い大きいものであった．そして，エージェントは報酬量の大きい赤のキューブを得た．これは，フェーズ1ではスタート地点の近傍領域では価値のある状態を見出せなかったが，連想を繰り返すことで遠くに価値のある状態を見出すことができ，適切な行動ができたことによる．一方でフェーズ2では，青のキューブに対する価値と赤のキューブに対する価値の両方が同時に見出されて競合が起こり，システム2が機能して価値の高い赤のキューブに向かう行動を選択できたと考えられる．そしてフェーズ4では赤のキューブに対する価値のみがあるため，システム1のみで意思決定できたことによる．

これらのシミュレーションの結果から，提案したシステム1から3までのすべての推論システムにおいて推論特性に応じたシミュレーション結果を得ることができた．

75

ドキュメント内価値に駆動された人の推論システムに関する研究 (ページ 73-76)

第 4 章 連想記憶モデルによる推論

4.6 直観的推論および論理的推論の統合

4.6.5 各推論システムの基本特性比較

73

74

75

第 4 章連想記憶モデルによる推論