• 検索結果がありません。

行動表象の操作と行動系列の生成

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 89-92)

第4章 行動表象操作の進化シミュレーション

4.2 行動表象操作の進化シミュレーションの設計

4.2.1 行動表象操作モデル

4.2.1.2 行動表象の操作と行動系列の生成

エージェントが試行錯誤を行う場合,現在状態や具体的な行動の経験を参照するこ となく,自身が実行可能な行動の表象の結合して行動系列を生成し,構成的に環境に

55 実際はこの式のままでは値が発散しうるため,適切な減算処理を行う.

56 これは行動の連合を行っていると言える.

57 ただし,このシミュレーションではスタックに深さの概念を設け,エージェントの認知能力 としてGAで制御することとした.詳細は後述する.

対して適応するという形式が考えられる.外部環境での物体操作に加えて,エージェ ントは行動を表象として操作し思考実験するための内部状態をもつ.この内部状態も,

内部作業台と内部スタックという2状態として表現され,エージェントは物体操作と 同じように行動表象を操作することができる.ただし,行動表象の操作における操作 対象は物体ではなく物体操作における行動,すなわち Get,Push,Pop,Stop であ る.エージェントは次の4つの操作58を行い,行動系列を生成する.

⚫ 「sImage」:行動系列の生成に必要な構成要素を手に入れる遷移関数.構成要 素は「Get」,「Push」,「Pop」,「Stop」の 4 つ.構成要素それぞれに遷移確率 が割り当てられており,物体操作におけるGet関数と等しい機能をもつ.

⚫ 「sPush」:内部作業台の状態を内部スタックの状態とする遷移関数.内部作業 台に何もない場合,関数は実行されない.この関数が実行されたとき,内部作 業台の状態はリセットされる.

⚫ 「sPop」:内部スタックの状態を内部作業台の系列の末尾に追加する関数.こ の関数が実行されたとき内部スタックの状態はリセットされる.

⚫ 「sStop」:内部作業台の状態を成果物として操作を終了する関数.

各操作の選択は物体操作の Q テーブルとは別に存在し,行動表象操作における Q 値の更新は思考実験による行動系列を実行した際に遷移した外部状態の Q 値によっ て定まる.

図4.2に物体操作と行動表象操作の状態遷移表の関係を示す.まず,最も内側のオ レンジ色の線で囲われた部分が物体操作における Q テーブルであり,線形の物体系 列と階層的な物体系列を学習内容に基づいて生成できる.次に,青色の線で囲われた 部分および表象操作のQ テーブルの右端のsStop列が行動表象操作におけるQテー ブルであり,線形の行動系列を生成することができる.最後に,最も外側の緑色で囲 われた部分が表象操作における再帰的結合を実現することで階層的な行動系列を生 成できる.それぞれの段階はスタックの有無や表象操作の有無などによって進化的に 決定され,最終的なQテーブルまで使用可能になることで,2.3節で論じた行動表象 操作の脳機能的モデルに到達する.

行動表象操作のQテーブルにおけるsImage操作は,物体操作のテーブルとは独立

58 各操作の頭文字はSpeculationsであり,物体操作における遷移関数名と区別するためにつ けておく.

にそれぞれの状態遷移を学習する.これは一見意味のない設定に見えるが,試行錯誤 を行うエージェントの性質によって,物体操作の Q テーブルによらず行動表象の組 み合わせを探索するという意味を持ちうる.

図 4.2物体操作と行動表象操作の状態遷移表,および想定される脳機能的モデル

エージェントは行動表象の操作によって物体操作の行動系列を生成する59.重要な 点として,ここでは外部環境の現在状態を参照した将来的な行動の計画ではなく,行 動の合間に挟まれる思考実験を実装したい.そのため,行動表象の操作はエージェン トの外部状態と無関係に行われることとする.行動表象の操作は遺伝的に決められた

59 行動表象の操作を行う確率は遺伝子によって制御される.

回数を限界として,表象操作の上限回数まで操作するかsStopを実行するまで行うこ とができる.今回,エージェントが生成できる行動系列の長さは3とした60.操作に 際して,エージェントは例えば「Get, Push, Get」や「Push, Pop, Get」のような行 動系列を生成することができる.このときGetによって得られる物体は,行動の実行 時に物体操作において学習した傾向に依存して決定される.すなわち,Getという抽 象的な行動のみが操作可能であり,何を Get するかまでは行動表象操作の Q テーブ ルは学習しない.行動表象の操作が終了したあとは,エージェントは生成された行動 系列を実行するか否か,遺伝子によって決められた確率で決定する.そして,実行後 に到達した状態の,物体操作における Q 値が報酬として行動表象操作に対し与えら れる.行動表象の操作は製作物を完成させるまで,すなわち物体操作で Stop が実行 されるまで何度でも実行することができる.ただし,一度終了した行動表象操作にお ける内部状態は維持されない.

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 89-92)