• 検索結果がありません。

PDFファイル 2B3 「認知と推論」

N/A
N/A
Protected

Academic year: 2018

シェア "PDFファイル 2B3 「認知と推論」"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

不確実性

人間

探索

知識利用

Transition between Exploration and Exploitation in Humans under Uncertainty

並木

尚也

*1

大用

庫智

*1

高橋

*2

Namiki Naoya Oyo Kuratomo Takahashi Tatsuji

*1

東京電機大学大学院

*2

東京電機大学

Graduate School of Tokyo Denki University Tokyo Denki University

Decision making in an uncertain environment poses a conflict between the opposing demands of gathering new information and exploiting information, which is called the exploration-exploitation dilemma. It has been shown in previous studies that the loosely symmetric (LS) model is effective for handling the dilemma with the cognitive biases the model implements and correlates highly to causal intuition of humans. In this study, we compare behavioral data of humans in decision making with some representative policies in reinforcement learning to understand humans' iterative decision making under uncertainty.

1.

めに

不確実 環境 意思決定 い ,多数 択 肢 良い 択肢 探 出 探索 ,既知 情報 経験 活 用 最良 択肢 択 続 知識利用 いう2 相

行 動 要 求 . 探 索 知 識 利 用 ン 呼 ぶ. ン 表現 強化学習 基本的 課題 あ N 本 腕 ン ッ 問 題[Sutton 98] あ , 問 題 対

提案 い . 中 ,人間 知的 性 質 応用 ,優秀 結果 有 LS [篠原 07] 存 在 . , 脳 科 学 人 間 各 択 肢 比 較 相 対的 評価 行 い 明 い [Daw 06].

,人間 実際 ン 対 う 振 舞い ,あ い う 性質 あ 具体 的 明 い い.

本研究 ,探索 知識利用 ン 対 人間 う 振 舞い ,強化学習 あ ン ッ 問題 通 方策 比較 析 .

2.

探索と知識利用

ジレンマ

不確実 環境 意思 決定 ,多数 択 肢 良 い 択肢 探 出 探索 ,既知 情報 経 験 活用 最良 択肢 択 続 知識利用 いう2 相 行動 要求 . 探索 知識利用 ン 呼ぶ.得 利益 最大 いう目的 , ン

無視 い厄 要素 あ . 益 最大化

, 最 良 択 肢 見 わ , 択 続 必 要 あ 知 識 利用 . ,不確実 環境 , 択肢 有益 未知 あ 一 一 試 検証 価値 見 わ 必要 あ 探索 .知識利用 視 ,最良 択肢 見 誤 能 性 あ ,結 果的 目 的 遠

う.探索 視 ,利益 回 遅 い,制限 あ 環境 えば時 間,資金 ,あ い 制限 明

環境 利 益 回 不 十 , 目的 遠 う. 現 実 無 制 限 試 行 環 境

く, 要素 制限 う. ,目的 ,探索 知識利用 ラン う く保 必要 あ .

探 索 知 識 利 用 ン 人 間 経 験 的 学 習 意 思 決 定 性質 深 く関 わ い . ン 対 人 間 う う く対 処 い 解明 , 人間 経験 的 学 習 意思決 定 性 質 理解 考え .

, 性 質 応 用 , 人 工 知 能 や ボ ッ 未 知 環 境 い 自 的 学 習 能

い. う 意味 ,探索 知識利用 ン 対 人間 振 舞い 研究 意義 あ あ 考え, 本研究 行 .

3. N

本腕バン

ィッ

問題

N本腕 ン ッ 問題 ,強化学習 基本的 課

題 一 あ , 前 述 探 索 知 識 利 用 ン 最 単 純 表 現 課 題 あ . 具 体 例 , ッ ン 挙

説明 .任意 N ッ ン 存在 ,

異 当 確率 設定 , 当 確率 従 報 酬 返 . ッ ン プ 得 報酬 最大化 目的 . プ 各 腕 当 確 率 知 ,1度 1 腕 択 .目的 , プ 各腕 中 最良 腕 探 探索 ,最良 思 わ 腕 引 続 知識 利用 要求 . う , ン ッ 問題 探索 知識利用 2 要素 含 , 単純 表現 い . ン ッ 問題 , う N 個

択肢 中 次的 択 ,報酬 最大化 いう目的 あ 形 態 問 題 あ . 本 研 究 , 探 索 知 識 利 用 ン 対 人 間 振 舞 い 観 測 都 合 良い ,実験 使用 実験 ,2 個 択肢

行 .

4.

人間

探索と知識利用

ジレンマ

扱い方

探索 知識利用 ン ,強化学習 中 中心的 ッ 研究 .近 ,強化学習 通 ,探 索 知 識 利 用 ン 脳 科 学 研 究 初 来

[Daw 06]. 中 ,fMRI 用い ン ッ 問題 プ

中 参加者 脳 観測 ,探索 知識利用 ン や学 習 等 人 間 脳 内 扱 わ 方 , 解 明

あ . , 々 探索 知識利 用 ン 脳 科 学, , ン ッ 問題 関 深い論文 紹 .Daw et

al. 4本腕 ン ッ 問題 プ 中 人間 参加者 脳活

動 観測 ,探索 関連 神経基質 関 探索 連絡先:並木: e-mail: 10rd170[at]ms.dendai.ac.jp

(2)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 2 -

穫 替 え 形 式的 問 題 調査 . 結果, 彼 前 頭前 腹内側部 ventral medial prefrontal cortex : vmPFC 相対的 報酬 大 化 探索時 前頭極 活 性化 示 .Daw et al. 初 ,探索 神経基質 関 明 ,探索 知識利用 間 行動戦略 ッ ン 容易 管理機構 映 能 .Boorman et al. ,2本腕 ン ッ 問題 プ 中 人間 参加者 脳活動 観測 ,主 脳 領域 活性 化 探 索 知 識 利 用 ン 関 調 査 . 結 果 , 彼 前 頭前 腹内側 部 択 腕 相対的 価値

化 示 . ,前頭極 択 い い腕 相対的 報酬確率 化 示 .彼 ,不確実

環境 対処 能 人間 行 動 柔軟性 関 ,前頭葉 計算 要性 示 . , ン ッ 問題 非定常 あ .

以 ,不確実 環境 発生 探索 知識利用 ン 対処 ,人間 絶対的評価 相対的 評価 行 い . 証 , ン ッ 問題 プ 中 人間 振 舞い 相対評価 行 う SoftMax法 最 特 徴 い [Daw 06]. ,SoftMax法 様 評価 人間 い 考 え ラン 系列 正 く 知出来 い[Tversky 74] . ,実際 行動 う 表 具体的 明 い い.

5.

実験

5.1 実験設定

本 実 験 ン 行 . 実 験 参 加 者 東 京 電 機 大学 学生 39 あ .参加者 2本腕 ン ッ 問題 取 組 ,得 報 酬 最 大化 当 確 率 高 い腕 択 う 指 示 . 人 間 直 観 性 視

, 試行 , 腕 当

,あ い 外 情報 参加者 い う .先行研究 , 情報 視化 い 場合 多く, 人間 純粋 直観性 別 傾向 生

出 う 考え .

取 組 簡単 問題 い問題 2種類あ .簡 単 問題 2 腕 当 確率 0.8, 0.2 ,

い問題 2 腕 当 確率 0.6 0.2 .参加者 能 試行回数 ,簡単 問題 20回, い 問題 40回 設定 .本研究 ,最初 簡単 問題 行 い問題 行う群 ED 群 呼ぶ.逆 最 初 い問題 行 簡単 問題 行う群 DE群 呼 ぶ.参加者 2群 実験 行 . ,いく 方策 人間 比較 .

5.2 人間と比較 る方策

人 間 比 較 方策 紹 . , ッ 評価値 客観的 条件付確率 算出 .

(1) Greedy法

方 策 , 択 肢 評 価 値 基 い , 常 一 番評価値 高い 択肢 択 方策 あ .Greedy いう

貪欲 いう意味 あ .

(2) ε-greedy法

, 探 索 知 識 利 用 行 動 明 確 方 策 あ . 具 体 的 ラ ε 0.0 1.0 間 確 率 ラン 択肢 択 ,1-ε 確 率 greedy

択 行う.ε-greedy法 いく 種類 あ , 回 中

3 方策 比較対象 使用 .

 序盤探索法 Epsilon First

序 盤 探 索 法 , 定 挑 戦 能 試 行 回 数 ε 割合 完全 ラン 択 行う方策 あ .

 ε‐一定法 Epsilon Constant

ε‐一定 法 ,最 初 試行 最 試行 ε 確率 変化 い方策 あ .

 ε‐減衰法 Epsilon Decreasing

ε ‐ 減 衰 法 , 試 行 回 数 徐 々 ε 確 率 減 衰 ゆく 方 策 あ . 本 研 究 用 い 減 衰 式 以 示 .τ 減 衰 ラ ,t 時 点 試行回数 あ .

� = . + � ∗ �. (1)

(3) SoftMax法

SoftMax法 ,条件付 確率 算出 ッ

ン 評 価 値 択 確率 , 択 確 率 的 行 う あ . 探 索 知 識 利 用 行 動 ラン ン 方 策 あ . 本 研 究 ,SoftMax 法 張 Modefied

SoftMax Algorithm 使用 [Oyo 13].以 式 示 .P X

あ 択肢 択確率,M(1|X) あ 択肢 X 対 評 価,τ 減衰率,t 現在 試行回数 あ .

� � = ��� � |� × ��

�′{ , ��� � |�′ × ��

(2)

5.3 実験結果

人間 探索 知識利用 観測 , Win-Shift いう 指標 用い .Win-Shift ,あ 腕 択 ,当 関 わ 次 試 行 う腕 択 確率 あ . 行動 知識利用 最 行動 あ , う 意味 あ

種 探索行動 (単 純 腕 替 え 探 索行 動 ,Win-Shift 探 索 的 行 動 ). 図

1~4 群 Win-Shift 類,表 1~4 図

1~4 対応 プ 正解率

プ 割合 示 .

Win-Shift 各個人 類 理 , 均化

ぶ 性 質 見 え く あ . ,

Win-Shift 発生 ップ 期間 類 行 い .

正解率 1回目 試行 最 試行 ,当 確率 高い腕 択 割合 あ .

表1 . 簡単 問題 ED群 正解率 プ 割合 プ/ 正解率(%) プ 割合(%)

74 29

89 35

68 11

93 11

80 7

Greedy法

序盤探索法 ε一定法 ε減衰法

SoftMax法

(3)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 3 -

表2 . 簡単 問題 ED群 正解率 プ 割合 プ/ 正解率(%) プ 割合(%)

34 11

63 35

82 18

73 18

48

63 66

Greedy法

序盤探索法 ε一定法 ε減衰法

SoftMax法

72 72 69 73 69

表3 . 簡単 問題 DE群 正解率 プ 割合 プ/ 正解率(%) プ 割合(%)

80 14

72 14

58 9

58 9

70 50 87

5 5 45

表4 . い問題 DE群 正解率 プ 割合 プ/ 正解率(%) プ 割合(%)

63 14

60 14

88 5

86 9

60 65 85

23 9 27

図1. 簡単 問題 ED群 Win-Shift 類

図2. 難しい問題におけるED群のWin-Shiftの分類

図3. 難しい問題におけるDE群のWin-Shiftの分類

図4. 難しい問題におけるDE群のWin-Shiftの分類

Ϩ型

Ϭ型

0 0.2 0.4 0.6 0.8 1

1 5 9 13 17 21 25 29 33 37 0 0.2 0.4 0.6 0.8 1

1 5 9 13172125293337

0 0.2 0.4 0.6 0.8 1

1 5 9 13172125293337 0 0.2 0.4 0.6 0.8 1

1 5 9 13 17 21 25 29 33 37 0 0.2 0.4 0.6 0.8 1

1 5 9 13172125293337 0

0.2 0.4 0.6 0.8 1

1 5 9 13172125293337

ϩ型 Ϫ型

(4)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 4 -

5.4 考察

表 1~4 ,人間 い 最 多い プ Win-Shift 無 い プ あ .先 紹 greedy法以外 う

Win-Shift 出現 . ,一般的

人間 良い情報, 勝 択肢 替え 行動 い 能性 高い.逆 悪い情報, 負 いう情 報 択肢 替え, 探索 い 能性 あ いえ . , 単 純 択 肢 替 え 探 索 定 義

場合 あ . , 択 確率的 決定 い 能性 あ いえ . 択 確率的 ば,勝 あ 択 肢

替え 行動 あ 良い あ . 関わ う 行動 一 見 い ,や 択 確率 的 い いえ あ う. 人間 ラン 系列 正 く 識

く,何 規則性 ラン 系列 対 誤 見出 う[Tversky 74]. う 性質 人間 ラン 性 う く扱 い 考え くい.脳科学 SoftMax法 類 似 傾 向 あ 報 告 い , 実 際 行 動

見 振 舞 い 異 い 考え ほう 良 い 考え . ,各 ッ ン 対 あ 程度 サンプ 数 集 傾向 ,知識利用 行動 移 い わ い う 思 わ . , 明 確 探 索 知 識 利 用 行 動

い い 考え .

6.

結論

本研究 ,探索 知識利用 ン 対 人間 振 舞い 性 質 傾向 調査 . 結 果,探 索 知 識利用 行 動 明 確 方 策 や , 人 間 相 関 あ い わ い

SoftMax 法 方策 う傾向 あ 確 .確

率的 択 行わ い あ . ,探索行動, 択肢 替 え 一般 的 負 情報 時 起 確 . 結果 ,現在研究 い 人間 知的 特性 利用 対 , 詳細 形式化 能 能性 あ .

課題 ,サンプ 数 増や , 環境 設定 結果 確 う 検証 必要 あ .本研究 ,問 題 確率 設定 片方 択肢 高 く, う一方 低く設定 い . ,2 択肢 両方 低確率,あ い 高確率 環境設定 試 必要 あ . , 回 結果 人 間 方 策 Greedy 法 傾向

あ 確 ,実際 条件付確率 評価値 算 出 条件 Greedy法 完全 一致 い 不明 あ .一致 い ば,人間 評価 算出 仕方 条件付

確率 異 ,人間特有 評価方法 存在 い 能性 確 .本研究 人間 方策 関 焦点 当 ,

う 人 間 評 価 方法 関 調 査 課 題 い.

参考文献

[Auer 02] Auer, P., Cesa-Bianchi, N., Fischer, P., Finite-time analysis of the multi-armed bandit problem, Machine Learning, 47, 235-256, 2002.

[Boorman 09] Boorman, E.D., Behrens, T.E., Woolrich, M.W., Rushworth M.F., 2009. How Green Is the Grass on the Other Side? Frontopolar Cortex and the Evidence n Favor of Alternative Courses of Action. Neuron, 62(5), 733-743. [Cohen 07] Cohen, J. D., McClure, S. M., Yu, A. J., 2007.

Should I stay or should I go? How the human brain manages

the trade-off between exploitation and exploration. Philos Trans R Soc Lond B Biol Sci, 362(1481), 933–942.

[Daw 06] Daw, N. D., O'Doherty, J. P., Dayan, P., Seymour, B., Dolan, R. J., 2006. Cortical substrates for exploratory decisions in humans. Nature, 441(7095), 876–879, 2006. [並木 14] 並木尚也, 高橋 , 探索 知識利用

対 人間 行動, 情報処理学会第76回全国大会講演 論文集,517-518. (2014)

[西村 12] 西村友伸, 大用庫智, 高橋 , 変参照型緩対称

性推論 ン 木探索 効果, プ ラ ン ワ ョ ッ プ 2012 論 文 集 2012‐11‐09 ,2012 6 ,

191‐196. 2012 .

[Oyo 13] Oyo,K., Takahashi,T. A cognitively inspired heuristic for two-armed bandit problems: The loosely symmetric (LS) model. Procedia Computer Science 24 (2013) 194-204, 2013. [大用 11] 大用庫智, 佑, 高橋 , 非定常N本腕 ン

ッ 問 題 対 人 間 知 適 用, JSAI

2011 2011 度人工知能学会全国大会 第25回 予稿集,

1G1-2in, 2011 .

[篠原 07] 篠原修 , 口亮, 桂 浩一, 新 恒雄. 因果性 基

く信 念 形 N本 腕 ン ッ 問 題 適 用,

人工知能学会論文 , Vol.22, No.1, pp.58-68, 2007. [Sutton 98] Sutton, R. S., Barto, A. G., 1998. Reinforcement

Learning: An Introduction. MIT Press, Cambridge, MA.Sidman, M. (1994). Equivalence relations and behavior: A research story. Boston, M.A.: Authors Cooperative. [Takahashi 11a] Takahashi, T., Oyo, K., Shinohara, S., A

Loosely Symmetric Model of Cognition, In: LNCS Springer Proceedings of the 10th European Conference on Artificial Life (ECAL 2009), Springer, 5778, 234–241, 2011a.

[Takahashi 11b] Takahashi, T., Nakano, M., and Shinohara, S., Cognitive Symmetry: Illogical but Rational Biases, Symmetry, Culture and Science, 21, 1-3, 275–294, 2011b.

[Tversky 74] Tversky, A., Kahneman, D., Judgment under Uncertainty: Heuristics and Biases, Science, 185(4157), 124-1131, 1974.

[Wunderlich 09] Wunderlich, K., Rangel, A., O'Doherty, J. P., 2009. Neural computations underlying action-based decision making in the human brain. Proc Natl Acad Sci U S A, 106(40), 17199–17204.

参照

関連したドキュメント

We can now state the fundamental theorem of model ∞-categories, which says that under the expected co/fibrancy hypotheses, the spaces of left and right homotopy classes of maps

In this article we provide a tool for calculating the cohomology algebra of the homo- topy fiber F of a continuous map f in terms of a morphism of chain Hopf algebras that models (Ωf

In this paper, we will be concerned with a degenerate nonlinear system of diffusion-convection equations in a periodic domain modeling the flow and trans- port of

To deal with the complexity of analyzing a liquid sloshing dynamic effect in partially filled tank vehicles, the paper uses equivalent mechanical model to simulate liquid sloshing...

3.1, together with the result in (Barber and Plotkin 1997) (completeness via the term model construction), is that the term model of DCLL forms a model of DILL, i.e., a

All (4 × 4) rank one solutions of the Yang equation with rational vacuum curve with ordinary double point are gauge equivalent to the Cherednik solution.. The Cherednik and the

It is suggested by our method that most of the quadratic algebras for all St¨ ackel equivalence classes of 3D second order quantum superintegrable systems on conformally flat

In particular, we consider a reverse Lee decomposition for the deformation gra- dient and we choose an appropriate state space in which one of the variables, characterizing the