• 検索結果がありません。

ACT-R による内発的動機づけのモデル化

N/A
N/A
Protected

Academic year: 2021

シェア "ACT-R による内発的動機づけのモデル化"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

SIG-AGI-013-07

ACT-R

による内発的動機づけのモデル化

Modeling Intrinsic Motivation with ACT-R

長島一真

1

森田純哉

1

竹内勇剛

1

Kazuma Nagashima

1

, Junya Morita

1

,Yugo Takeuchi

1

1

静岡大学情報学部

1

Faculty of Informatics, Shizuoka University

Abstract: A development of autonomous agents requires not only learning by external rewards but also a mechanism for generating spontaneous rewards from the inside. Specifically, reinforce-ment learning methods using intrinsic motivation have been studied. In this study, we propose a method to express it by ACT-R, a general-purpose cognitive architecture. The proposed method focuses on a compilation of pattern matching in ACT-R and regards pattern discovery as a source of intrinsic motivation.

1

はじめに

人間は自律システムの極致だと言っても過言ではな い.人間は目的を持ち,幅広い環境において,目的を達 するために自律的に学習することができる.一方,自 律的に行動するエージェントを考えた場合,人間に比 べ適応できる環境が限定的になる事は否めない.この ようなエージェントは強化学習の枠組みで実装される ことが多く,学習しながら最適に近しい行動を取るよ うになる.しかし,人間とエージェントの自律性を比 べた場合,適応可能な環境の範囲に大きな隔たりがあ る.人間のような汎用的に振る舞うエージェントの実 現を考えた場合,この隔たりを埋めなくてはならない. この隔たりを埋めるための枠組みとして,自律学習 をエージェントに適用した研究に注目が集まっている. 自律学習とは,学習者が自分のために,学習を積極的 に行うことである [Little 03].これをエージェントに適 用するために,エージェントが積極的に学習を行う姿 勢,つまりエージェントに内発的動機を付与する必要 がある. 本研究では,このような自律学習をするエージェン トを実装するために,人間の脳のモデルである認知モ デルを用いて内発的動機を検討する.認知モデルとは, コンピュータ上に実装された人間の内部処理に関わる 仮説である.通常の人工知能研究に対して,認知モデ ルの研究は,人間のエラーやバイアスを説明し,予測 することに重点を置く.また,認知モデルはしばしば 認知アーキテクチャを利用して構築される.認知アー キテクチャとは,個別の課題において,認知モデルを 連絡先:静岡大学情報部情報科学科 〒 432-8011 静岡県浜松市中区城北3丁目5−1 E-mail: [email protected] 実装するフレームワークである.認知アーキテクチャ の上に認知モデルを実装することで,一般的な認知機 能との関連の中で個別の課題に関するモデルを構築で きる.これまでに複数の認知アーキテクチャが開発さ れてきた.本研究では,ACT-R (Adaptive Control of Thought-Rational[Anderson 07]) に着目する.ACT-R は個々の脳の部位に対応したモジュールを多く持ち,大 きなコミュニティを持つため,先行研究が豊富である. そのモジュールの中には従来の自律エージェントで用 いられている強化学習に似た機能を持つため,数ある フレームワークの中から適任だと考えた.

2

関連研究

2.1

内発的動機に基づく自律エージェント

内発的動機に基づく自律エージェントの研究は,本 研究において初めて検討されるものではない.例えば 内発的動機に基づいて自律学習を行い,階層的な高レ ベルのスキルを獲得する研究などがすでに行われてい る [Chentanez 05, Manoury 19].これら研究は強化学 習などの統計的学習の枠組みを援用し,内発的動機を 用いて自律学習をするエージェントを実装するもので ある. 具体的には,Chentanez の研究では,従来の強化学 習に内発的動機を取り入れた Intrinsically motivated reinforcement learning (IMRL) という手法を用いてい る.通常,強化学習におけるエージェントは,外部環境 から受け取った情報に基づき,行動を決定する.そし て,エージェントは,行動の結果として環境から報酬を 受け取り,時間経過の中で,それを最大化するように努 める.この従来的な強化学習の枠組みに対し,Sutton はエージェントと環境間の境界と,身体と環境間の物

(2)

SIG-AGI-013-07 理的な境界は同様ではないとのべる [Sutton 98].つま り,身体から得られる情報は,エージェントに直接与 えられず,一旦エージェントの内部に保持される.こ の主張を援用し,IMRL では環境を外部環境と内部環 境に分け,報酬を別々に定義する.外部環境から直接報 酬を受ける従来の強化学習に対し,IMRL は,内部環 境の状態によって報酬が変動するものであり,予期せ ぬ反応に対する好奇心などをモデル化するものである. この考えに則り Manoury は,環境の認知にアフォー ダンス [Gibson 14] を採用した統計的学習を提案してい る.そこでは環境に配置されるアフォーダンスに内発 的動機を付与し,エージェントの興味を動的に変更し ている. 以上 2 つの研究は内発的動機づけのメカニズムを導 入することで,従来の統計的学習よりも,高レベルの スキル獲得課題におけるエージェントのパフォーマン スが向上することを示した.

2.2

迷路課題における認知モデルの利用

上記エージェントは,最適な探索を実現する学習ア ルゴリズムを提案するものであり,人間とモデルの具 体的な行動の対応を検討するものではない.人間の行 動との詳細な対応を説明するモデルは,ACT-R を用 いて構築できる.ACT-R はプロダクションシステム [Newell 73] をベースとした認知アーキテクチャであり, 脳部位と対応するモジュールを持つ.モジュールには, 外界との入出力を制御するモジュール群,経験や知識 を保持する宣言的モジュール,タスクにおける状態を管 理するゴールモジュールなどが含まれる.ACT-R にお けるプロダクションルールは各モジュールの状態を条 件として選択され,モジュールに対するコマンド(例: 画面の特定の位置に注意を向ける,条件に合う知識を 検索する,タスクの状態の認識を更新する)をアクショ ンとして発行する.ルールの条件には変数が含まれ,モ ジュールの状態との柔軟な対応(パターンマッチ)を 実現する.1 つのプロダクションの発火に要する時間 や各モジュールがそれぞれのコマンドを遂行する時間 は,過去の心理実験の結果によって見積もられている. そのため,ACT-R は特定のタスクの遂行に要する時間 を予測することができ,人間の行動との詳細な対応を 可能にする. このような ACT-R の機能を用いて,環境に適応しな がら学習していく先行研究が存在する.その中に ACT-R の強化学習に似た機能を用いて,モデルが迷路課題を 解く認知モデルの研究が行われている.具体的に Fu は, ACT-R のモデルに上下左右の知識を与え,強化学習の 手法を用いて迷路課題を繰り返し解かせる研究を行って いる [Wai-Tat 06].ACT-R は Q-Learning[Watkins 89] に似たユーティリティモジュールという機能が存在し, このモデルでは正しい行動をした時に正の報酬を,間 違った行動した時に負の報酬を与えている.これによっ て,課題の試行回数を増やすことで,モデルが最適な 行動を取るように学習していく.この研究において課 題試行回数におけるモデルの実験データと,過去の動 物と人間の実験データが適合していると主張している. また,迷路環境における学習としては,強化学習だ けでなく,ACT-R のモデルの宣言的知識を用いたパス プランニングを行う研究が存在する [Reitter 10].この 研究において,位置情報をモデルが利用できるアフォー ダンスとして宣言的知識に入れ,トポロジカルマップ を構成し,バックトラックを用いてパスのプラニング を行っている. 上記一連の研究は環境探索における多様な戦略を明 らかにし,人間の学習のプロセスを説明する.自律エー ジェントの構築に向けた認知モデルからのアプローチ として,本研究は,ACT-R のプリミティブな機能を用 いて内発的動機をモデル化することを目的とする.将 来的に人間に近しい自律性のあるエージェントを実装 することで,幅広い環境に適応できるエージェントの 実装につながることを期待する.

3

課題継続の

ACT-R

モデル

3.1

楽しさの理論と ACT-R モデルの対応

上記 2 節の関連研究から得られた知見を説明するモデ ルを ACT-R のメカニズムを用いることで考える.その 際に,迷路課題の先行研究をゲーム課題にし,本研究で は,内発的動機の生起要因の 1 つとして,楽しさに注目 する.楽しさに関する代表的な理論としては, Koster による “Theory of Fun for Game Design [Koster 04]” が考えられる.この理論において人間が感じる楽しさ は,環境や状況において,新しいパターンを発見するこ とによって引き起こされると述べられている.例えば, 数あるパターンから最適解が発見されたゲームは,最 適解発見後にゲームから得られるものがなくなり,「飽 き」が生じてしまう. ここで,人間によるパターンの発見に対応する概念 として,パターンマッチという仕組みに注目する.パ ターンマッチは正規表現によるテキスト検索にも使わ れる汎用的な仕組みである.先述したように ACT-R においてはプロダクションルールとモジュールの状態 のマッチングに利用される.図 1 は,ACT-R における パターンマッチの説明である.この例では,ACT-R の プロダクションルールの IF 節に含まれる「変数 1」と 「変数 2」がデータベース(宣言的知識)に含まれる記 憶事例の定数(1 や 2 などの数字)とマッチングして いる. このようにパターンマッチは,ルールに埋め込まれ た変数のパターンに応じてデータや環境中の構造を発 見する.この仕組みは人間の認知の柔軟性を説明する

(3)

SIG-AGI-013-07 図 1: パターンマッチの例 とされ,類推に代表される関係的推論,ゴールを状況 に応じて変更するメタ認知など,人間に固有とされる 認知機能のベースとなるともされる [Anderson 07].こ のことから,我々は,認知モデルのパターンマッチが, 人間による知的探究(=パターンの発見)の楽しみと 対応するのではないかと考えた.この考えから,本研 究では ACT-R のもつパターンマッチ,およびそれと 関連する汎用的な認知機能を集積することで「楽しさ」 をモデル化する.

3.2

ACT-R の学習理論

ACT-R は複数の汎用的なモジュールを持っている. パターンマッチとして表現される「楽しさ」に対して, 「飽き」を表現するために「プロダクションコンパイル モジュール」と「ユーティリティモジュール」に着目す る.以下,これらの機能の概略を説明する.詳細は文献 [Anderson 07, Bothell 04] あるいは ACT-R のチュー トリアル (unit 6,7) などを参照されたい. 3.2.1 プロダクションコンパイル 「プロダクションコンパイル」とは,2 つの定義され ているプロダクションルールを 1 つのプロダクション ルールに統合する機能である [Anderson 86].ある課題 に対しての一連のルールを反復発火することで,ルー ルの統合が起き,課題達成までに発火するルールの数 が減る.ルール統合の対象となるルールは,通常ルー ルの条件節に変数を含むものとなる.つまり,ACT-R において,プロダクションコンパイルによって統合さ れるルールは,IF 節とモジュールの状態(たとえば宣 言的モジュールに含まれる知識)の間でのパターンマッ チを伴うものである.つまり,統合前のルールに含ま れていた変数は,個別の宣言的知識の値によって置換 される.そのため,定型的で自動的な課題遂行の手続 きがシミュレーションされ,人間的な慣れと同様の振 る舞いをする [Anderson 87]. 図 2 は環境探索において,現在位置からゴール位置ま でのパスのプランニングをするプロセスを,本モジュー ルを用いた反復学習の前後で ACT-R のトレースとし て示している.縦軸に時間を示し,各コラムはモジュー ルのイベントを示している. 図 2: 知識コンパイル学習前と後 上記の仕組みを迷路環境の探索に当てはめれば,モ デルはゲーム初期において,環境地図の記憶検索を度々 行う.ゲームが進行するに従って,それらの記憶検索 が必要なくなる.その結果,モデルによるゲームの遂 行が効率化されるだけでなく,パターンマッチの頻度 が減少する.つまり,環境におけるパターンが発見尽 くされ,飽きをモデル化できると考える. 3.2.2 ユーティリティ ACT-R における効用 (utility) とは,競合解消(特 定の状況において発火可能な複数のルールから 1 つを 選択すること)に利用されるパラメータであり,個別 のルールに付与される.ACT-R の 「ユーティリティ モジュール」は,効用値の更新を制御するモジュール であり,効用関数の計算に報酬を用いる. 図 3 は本ゲーム課題におけるインタラクション継続 の提案モデルを示したものである.ゲーム内の各ラウ ンドの開始時において,ゲーム続行,ゲーム終了の判断 (競合解消)を行う.ゲーム続行が選択された後,ゲー ム内における種々の操作に関わるルール(地図の探索 など)が発火した後にラウンドが終了し,新たなラウ ンドがスタートする. 上記のプロセスにおいて,ゲーム続行ルールの効用 値の初期値は,ゲーム終了ルールの効用値の初期値よ り高く設定されると考える.ゲーム開始時に,人間は ある程度はゲーム継続の意思があると考えるためであ る.この初期状態からの「飽き」のプロセスは,各ラウ ンドの終了を認識するルールの発火を負の報酬のトリ ガーとすることでモデル化できる.ラウンド終了時に

(4)

SIG-AGI-013-07 図 3: 課題継続モデルのフローチャート 負の報酬が与えられることで,そのラウンドにおいて 競合解消の結果として発火したルール(すなわちゲー ム続行ルール)の効用値が低下し,ゲーム終了ルール が選択される確率が増加する. 「飽き」を抑止し,ゲームを継続させる条件を検討す るためには,ゲームにおける「楽しさ」のモデルが必 要である.ゲーム中に「楽しい」と感じるプロセスが 生起した時に正の報酬がトリガリングされれば,ゲー ム続行ルールの効用値は高い値を保ち,継続的なイン タラクションが可能になる.本研究では,正の報酬の トリガーとなるルールを,ゲーム中の宣言的知識の検 索成功(地図を思い出せた,他者の振る舞いの予測で きたなど)に付随して発火するルールと定義する.宣 言的知識の検索はルールの IF 節(現在の状況)と宣 言的知識内の記憶とのパターンマッチングであり,こ れに成功することは Koster による楽しさの定義と整合 する.ただし,このルールは繰り返し実行されると慣 れ,つまりルールの統合が起こる.統合が起こるとルー ティン化してしまい報酬を得られなくなり,ゲーム続 行ルールの効用値が減少してゲーム終了ルールが発火 するようになる.つまりこのモデルにおけるゲーム続 行の要因は,パターンマッチの対象となる宣言的知識 を見つけ続けられることとなる.

4

プロトタイプモデルの実装

4.1

概要

本研究の目的は,人間に近い自律学習エージェント を実装するために,ACT-R のプリミティブな機能を用 いて内発的動機をモデル化することである.この目的 を達するために,我々は,内発的動機づけされ自発的 に環境を探索する認知モデルを実装する.そのモデル の課題設定として,我々は岡ら [岡 18] が行った迷路課 題を用いた課題継続実験を参考にした.この研究は人 と人がインタラクションする鬼ごっこを題材としたオ リジナルの課題を構築し,実験参加者からデータを取 得したものである.2.2 節で示した ACT-R の迷路課題 の知見と,将来的に岡らが取得した個人データをモデ ルに援用できると考えられることから,本研究の目的 の達成にとって適した課題であると考えた. この課題を遂行するモデルは,自分の位置から相手 の位置までのパスをプラニングする必要がある.相手 の位置,つまりゴールが動的に変化するため,モデル は動的なパスプラニングをでなくてはならない.この ようなモデルを構築する第一歩として,静的なスター トからゴールまでの経路をプランニングするモデルを 構築した.モデルの宣言的知識には,環境の地図が事 前に記憶される.宣言的記憶内において,環境地図は 曲がり角のつながりをグラフとして連結するトポロジ カルマップとして表現される.モデルは記憶内のトポ ロジカルマップに対し,スタートからゴールまでのパ スの探索を繰り返す. この単純な迷路課題の中で,前節で示した楽しさや 飽きのプロセスがどのように生じるのかを検討した.こ のモデルにおいて,パターンマッチに付随する「楽し さ」は,現在の状況からゴールまでの正しい道を思い 出すことと定める(パスの発見時に発火するルールを 正の報酬のトリガーとする).また,パス探索の終了 を課題の継続のモチベーションの減少と定義する.つ まり,ゴール探索の成功,失敗によらず,ラウンドの 終了時に発火するルールを負の報酬のトリガーとする. ラウンド中に楽しさを表すルールが発火せずに,ラウ ンド終了に伴う負のトリガリングが生じ続けることで, 継続ルールの効用値は減少していく.そして,継続ルー ルの効用値が,終了ルールの効用値を下回った時に,終 了ルールが発火し,課題が終了することになる.なお, 本モデルは,宣言的知識のトポロジカルマップに対す る DFS(depth-first search[Cormen 09]) によって環境 探索を行う.DFS はパスに関する知識を再帰的に検索 するヒューリスティックであり,コンパイルによって探 索プロセスが顕著に変化すると考える.以下,本モデ ルの実装に関わる詳細を示す.

4.2

迷路環境

図 4 はプロトタイプモデルに探索させる迷路環境で ある.空間内の各曲がり角に 1 から 16 まで番号を振り, モデルに空間内の場所を認識させる.本課題において, 16 番をスタート(エージェントの初期位置),1 番を ゴールと静的に決める.また,モデルは,各曲がり角 において,後戻りはしないよう確率的に上下左右を選 択し,DSF アルゴリズムを用いて迷路探索を行う.

(5)

SIG-AGI-013-07 図 4: 迷路環境

4.3

モジュール

前述した通り ACT-R は複数の独立したモジュール から構成されている.本モデルを実装するため,これら モジュールの中からゴールモジュール,宣言的モジュー ル,プロダクションモジュール,イマジナルモジュー ルを利用した.以下,これらのモジュールの概説と本 研究のモデルにおける役割を示す. 4.3.1 ゴールモジュール 本モジュールは,モデルの現状態を保持するモジュー ルである.このモジュールは,対応するバッファを 1 つ 有しており,そのバッファにチャンクと呼ばれる知識 のかたまりを対応させることができる.この時,その バッファはモデルの現状態となる.モデルは状態を参 照,更新し動作を行う. 本モデルにおいて,チャンクは複数のスロットをも つ.本モデルにおけるスロットには,初期状態,現在 位置,ゴールの座標が含まれる.また,各座標におけ る向き,方向の探索済みフラグ,スタックのトップの チャンク名などが含まれる.また,本モデルは 1 ラウ ンド対して制限時間を設けており,制限時間が過ぎて しまった場合立てられる特殊なフラグを持つ. 4.3.2 宣言的モジュール 本モジュールは,人間の宣言的知識に対応するモジ ュールである.このモジュールは,対応するバッファを 1 つ有しており,宣言的知識から記憶を想起した際に, 想起したチャンクをこのバッファに格納する.この時 モデルは,このバッファを参照し,モデルの現状態の 一部とすることができる. 本モデルにおいて,図 4 の環境についての宣言的知 識を,トポロジカルマップとしてモデルは事前に保持 していた.その迷路環境の知識は,曲角番号,次の曲 角番号,向きで構成される.曲角番号とモデルの向き を用いることで,次の曲がり角番号がわかる.モデル が認識する向きは西北東南を順に 0,1,2,3 と定めた 4.3.3 イマジナルモジュール 本モジュールは,新しいチャンクを生成し,宣言的知 識に格納するためのモジュールである.このモジュー ルは,対応するバッファを 1 つ有しており,その格納さ れたチャンクが宣言的モジュールに記憶される.イマ ジナルモジュールにおけるバッファに,他のモジュー ルが保持するチャンクを格納することで,複数のチャ ンクを組み合わせた新たなチャンクを構成することが できる.例えばゴールに格納される現在位置と宣言的 モジュールから検索された過去の記憶に関するチャン クを対応づけることができる.チャンク生成時に,時 間的コストがかかるため,人がチャンクを生成する際 の動作を模倣する事ができる. 本モデルにおいて,DFS で用いるスタック構造に関 するチャンクの生成に用いている.詳細は後述する. 4.3.4 ルールモジュール 本モジュールは,手続き的知識に対応するモジュー ルである.モデルの状態によって発火する条件 (IF) と, 発火後にモデルの状態を変更する (THEN) ルールを記 述する. 本モデルは課題を開始する前に継続するか止めるか の判断を行う.継続ルールが発火すれば課題を継続し, 終了ルールが発火すれば課題は終了となる.モデルは 課題継続後,初期位置からゴール位置までの探索を行 う.各位置において,モデルは確率的に東西南北の探 索を行う.本課題では DFS を採用しているので,現在 地とモデルの向きから宣言的知識に対して,その先の 曲角の情報を思い出せるかどうかの問い合わせを行う. 問い合わせた結果,思い出せたら,モデルは現在の状 況をスタックに積み,場所を移動し,移動前の曲角の 方向は探索済みとフラグを立て,後戻りしないように 確率的に残りの各方向を探索する.これを再帰的に繰 り返す.もし,ゴール位置を発見した場合は探索成功 となる.ある場所のすべての方向の探索が完了したら, スタックから 1 つ前の状態をポップし,その状態を用 いて 1 つ前の場所に戻り各方向の続きを行う.もし 1 ラウンドの制限時間が過ぎてしまった場合は,ラウン ドの終了ルールに遷移する.

4.4

DFS の実装

DFS はバックトラックを用いてグラフを探索するア ルゴリズムである.グラフの探索初期位置から探索で きるところまで探索を行い,目的地がなければ 1 つ前 に戻り,他の方向を探索する (バックトラック).本課 題の開始の際に,モデルの宣言的知識に迷路環境をト ポロジカルマップとして記述している.そのため,モ デルは,それをグラフとして見立て迷路探索を行う.

(6)

SIG-AGI-013-07 上記の通り DFS の実装には,バックトラック機能が 必要である.通常,手続き型などのプログラム言語に おいては,関数を再帰的に呼び出し探索を行うか,ま た探索の繰り返し処理の中に,バックトラック後の状 態の復元のために現状態をスタックに積みながら探索 を行うよう実装する. ACT-R のモデルの実装において関数のような機能 は存在しない [Anderson 00].ACT-R のモデルは,基 本的に,状態を変化させ,その状態によって発火する ルールとチャンク生成,記憶,想起をしながら動作す る.したがってバックトラック機能の実装のためには, これら機能を用いた,チャンクによるスタック構造と 現状態をスタックに退避,復元する機能が必要である. 4.4.1 チャンクを用いたスタック構造 図 5 は,本モデルにおいて実装したチャンクを用いた スタック機能である.本モデルでは,CHUNK-X をス タックに積んでいる.CHUNK-X の ARG1 にスタック の前のチャンク名が格納され,ARG2 に CHUNK-S-X のチャンク名が格納されている.CHUNK-S-X は,モ デルの状態,つまり,曲がり角の番号,モデルの前の 向きの方角,モデルの後ろの向きの方角が格納されて いる.また,モデルは,自身の状態の 1 つとしてスタッ クの最上部 (tail) のチャンク名を持つ.これらの構造 と,前述したモジュールを用いてチャンクの生成,記 憶,想起を行いスタック構造を実現している. 図 5: 本モデルのチャンクを用いたスタック構造 スタックにおけるプッシュ機能は,モデルの状態の 更新,チャンクの生成と記憶を用いて実現している.ス タックに積むチャンクを生成する際に,モデルが持つ スタックの最上部のチャンク名を 1 つ前のチャンク名 とする.加えてモデルは,最上部のチャンク名をこの チャンク名に更新することでスタックにおけるプッシュ 機能を実現している.なお,これらの生成後のチャン クは宣言的知識に記憶されるため後ほど想起すること が可能である. スタックにおけるポップ機能は,モデルの状態の更 新とチャンクの想起によって実現している.モデルは スタックの最上部のチャンク名をもとにチャンクの内 部を思い出す.内部にはスタックの最上部の 1 つ前の チャンク名があるので,このチャンク名をモデルが持 つスタックの最上部のチャンク名として更新すること でポップ機能を実現している. 4.4.2 現状態の退避と復元 現状態の退避は,モデルが向いてる方向に存在する 曲角に移動する前に状態をスタックにプッシュする事 で実現している.これによって,移動して行く際の状 態がスタックに保持される. 状態の復元は,任意の曲がり角の探索終了 (西,北, 東,南) した際に,スタックから状態をポップし,モデ ルの状態を更新することで実現している.これによっ て,移動前の状態に戻り,移動前の次の方向から探索 を開始することができる.

4.5

シミュレーション

実装されたモデルによる内発的動機の挙動を確認す るシミュレーションを実施した.図 6 はシミュレーショ ンの結果である.継続ルールの効用値の初期値を 10, 終了ルールの効用値の初期値を 5 とした.また,探索方 向を確率的に決める各ルールの効用値の初期値をそれ ぞれの 10 とした.その他パラメータは ans (activation noise level) = 0.5, egs (expected gain s) = 1 を設定 した.加えてパスの発見 (DFS の成功) によってトリ ガーされる報酬値を 1 から 20 まで変化させ,各報酬値 に対して 100 回,課題の継続シミュレーションを行っ た.なお,各ラウンドの制限時間を 100 秒に設定した. 図 6 は報酬値を変化させた際に課題継続数の推移をグ ラフ化したものである.報酬値が大きいほど継続数が 大きくなっているこを確認できる. 図 6: 100 回の試行のうちの継続平均回数 図 7 は 100 回の実行結果から,20 回分を無作為に 抽出し,課題実行回数に対して課題の実行時間の推移 をグラフ化したものである.グラフ中で色付けされた

(7)

SIG-AGI-013-07 各線が各試行の結果を示し,黒のダッシュ線は,平均 の推移を表す.ラウンド数が大きくなるにつれ課題実 行時間が小さくなっていることが確認できる.このこ とは,コンパイルによって宣言的知識が検索される頻 度が減少し,タスク遂行にかかる時間が減少したと考 える.汎用的なアルゴリズムである再帰的なバックト ラックがコンパイルされることで,今回の課題環境に 特化した行動が学習されたと考えることができる.ま た,報酬値の低い条件においては,十分に課題時間が 減少しない段階でモデルの実行がストップしているこ とも確認できる. 図 7: 各報酬値に対して課題完了時間の遷移 図 8 は各報酬値条件における効用値の変動を,図 8 と同様のフォーマットで示している.グラフより,報酬 値が低い条件では線形に効用値が減少することがわか る.それに対して,報酬が一定の値以上(10 を超える 値)の条件においては,課題の遂行に応じて,効用値 の向上が散発的に生じ,ラウンドが継続することがわ かる.すなわち,課題の遂行において,新たなパター ンの発見が生じた際には,報酬を受け取り継続数を伸 ばしている事が確認できる.

5

まとめ

本研究の目的は,ACT-R から提供されるプリミティ ブな認知プロセスの集積によって,認知モデルに内発 的動機づけのメカニズムを実装することであった.こ の目的の達成のために,Koster の理論を基に,モデル のパターンの発見と人間のパターンマッチが対応して いるという仮定を置き,モデルが感じる「楽しさ」を, 図 8: 各報酬値に対して継続ルールの効用値の遷移 (赤 の横線は終了ルールの値) 状況と宣言的記憶とのパターンマッチングの成功に対 応付けた.課題環境に関わる先読みや他者の反応の予 測には,宣言的知識が利用されると仮定した.よって, これらのプロセスが成功することによって,モデルは 課題を継続させる.そして,この利用がコンパイルに よってスキップされることで,モデルは課題に対する 「飽き」を生じさせ,課題を終了すると考えた. このようなモデル化は,従来の自律学習における内 発的動機をよりプリミティブなレベルで説明するもの である.また,ACT-R による過去の研究においてもパ ターンマッチによる報酬の付与や,コンパイルによる タスクへの飽きを表現するものはなく,本研究におい て示したモデルは,オリジナルのものといえる. 提案されたアルゴリズムは,静的な状況における迷 路探索の課題に適用された.それを検証するためプロ トタイプモデルを作成し,シミュレーションを行いモデ ルの振る舞いを確認した.得られたシミュレーション結 果から,パターンマッチを伴うルールに対する報酬の 付与が,課題継続のルールの効用値を上昇させ,長期 間にわたる課題遂行を持続させることが示された.こ の結果から,本研究において提案するパターンマッチ による楽しさのモデル化が,課題継続の必要条件とい うことは言えそうである. 今後の課題として,動機づけの最適水準 [Yerkes 08] に達するまでのモデル化が必要である.本モデルは静

(8)

SIG-AGI-013-07 的に継続ルールの効用値を決めている.つまり,最適 水準に達するまでの過程はモデル化されていない.し たがって,モデルが最適水準に達するまでの課題の検 討が必要になってくるだろう.

参考文献

[Anderson 86] Anderson, J.: Knowledge compilation: The general learning mechanism, Machine learning:

An artificial intelligence approach, Vol. 2, pp. 289–

310 (1986)

[Anderson 87] Anderson, J. R.: Skill acquisition: Compilation of weak-method problem situations.,

Psychological review, Vol. 94, No. 2, p. 192 (1987)

[Anderson 00] Anderson, J. R. and Schunn, C. D.: Implications of the ACT-R Learning Theory: No Magic Bullets (2000)

[Anderson 07] Anderson, J. R.: How Can the Human

Mind Occur in the Physical Universe, Oxford Press

(2007)

[Bothell 04] Bothell, D.: ACT-R 7.6+ Reference Manual (2004)

[Chentanez 05] Chentanez, N., Barto, A. G., and Singh, S. P.: Intrinsically Motivated Reinforcement Learning, in Saul, L. K., Weiss, Y., and Bottou, L. eds., Advances in Neural Information Processing

Systems 17, pp. 1281–1288, MIT Press (2005)

[Cormen 09] Cormen, T., Leiserson, C. E., Rivest, R. L., and Stein, C.: Introduction to algorithms, MIT press, 3rd. edition (2009)

[Gibson 14] Gibson, J.: The ecological approach to

vi-sual perception: classic edition, Psychology Press

(2014)

[Koster 04] Koster, R.: Theory of Fun for Game

De-sign, ParaglyphPr (2004)

[Little 03] Little, D.: Learner autonomy and sec-ond/foreign language learning, Guide to Good

Practice (2003)

[Manoury 19] Manoury, A., Sao, M. N., and C´edric, B.: Hierarchical Affordance Discovery us-ing Intrinsic Motivation, In Proceedus-ings of the 7th International Conference on Human-Agent Interac-tion (HAI ’19), pp. 186–193, New York, NY, USA (2019), ACM

[Newell 73] Newell, A.: Production systems: Models of control structures, in Visual information

process-ing, pp. 463–526, Elsevier (1973)

[Reitter 10] Reitter, D. and Lebiere, C.: A cognitive model of spatial path-planning, Computational and

Mathematical Organization Theory, Vol. 16, No. 3,

pp. 220–245 (2010)

[Sutton 98] Sutton, R. S. and Barto, A. G.:

Rein-forcement Learning: An Introduction, MIT Press

(1998)

[Wai-Tat 06] Wai-Tat, F. and Anderson, J. R.: From recurrent choice to skill learning: A reinforcement-learning model, Journal of experimental

psychol-ogy. General, Vol. 135, pp. 184–206 (2006)

[Watkins 89] Watkins, C. J. C. H.: Learning from

de-layed rewards, King’s College, Cambridge (1989)

[Yerkes 08] Yerkes, R. M. and Dodson, J. D.: The re-lation of strength of stimulus to rapidity of habit-formation, Journal of comparative neurology and

psychology, Vol. 18, No. 5, pp. 459–482 (1908)

[岡 18] 岡 真奈美, 森田純哉, 大本義正:インタラクショ ンを持続させる個人特性ーシステム化と共感に注目 した検討ー, p. G21, HAI シンポジウム 2018 (2018)

参照

関連したドキュメント

これらの協働型のモビリティサービスの事例に関して は大井 1)

〜30%,大腸 10%,食道 10%とされ る  1)   .発育進 展様式として壁内発育型,管内発育型,管外発育 型,混合型に分類されるが,小腸の

算処理の効率化のliM点において従来よりも優れたモデリング手法について提案した.lMil9f

図 3.1 に RX63N に搭載されている RSPI と簡易 SPI の仕様差から、推奨する SPI

の総体と言える。事例の客観的な情報とは、事例に関わる人の感性によって多様な色付けが行われ

しかし,物質報酬群と言語報酬群に分けてみると,言語報酬群については,言語報酬を与

ASTM E2500-07 ISPE は、2005 年初頭、FDA から奨励され、設備や施設が意図された使用に適しているこ

である水産動植物の種類の特定によってなされる︒但し︑第五種共同漁業を内容とする共同漁業権については水産動