The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 1 -
不確実性
人間
探索
知識利用
移
Transition between Exploration and Exploitation in Humans under Uncertainty
並木
尚也
*1
大用
庫智
*1
高橋
*2
Namiki Naoya Oyo Kuratomo Takahashi Tatsuji
*1
東京電機大学大学院
*2
東京電機大学
Graduate School of Tokyo Denki University Tokyo Denki University
Decision making in an uncertain environment poses a conflict between the opposing demands of gathering new information and exploiting information, which is called the exploration-exploitation dilemma. It has been shown in previous studies that the loosely symmetric (LS) model is effective for handling the dilemma with the cognitive biases the model implements and correlates highly to causal intuition of humans. In this study, we compare behavioral data of humans in decision making with some representative policies in reinforcement learning to understand humans' iterative decision making under uncertainty.
1.
めに
不確実 環境 意思決定 い ,多数 択 肢 良い 択肢 探 出 探索 ,既知 情報 経験 活 用 最良 択肢 択 続 知識利用 いう2 相
行 動 要 求 . 探 索 知 識 利 用 ン 呼 ぶ. ン 表現 強化学習 基本的 課題 あ N 本 腕 ン ッ 問 題[Sutton 98] あ , 問 題 対
提案 い . 中 ,人間 知的 性 質 応用 ,優秀 結果 有 LS [篠原 07] 存 在 . , 脳 科 学 人 間 各 択 肢 比 較 相 対的 評価 行 い 明 い [Daw 06].
,人間 実際 ン 対 う 振 舞い ,あ い う 性質 あ 具体 的 明 い い.
本研究 ,探索 知識利用 ン 対 人間 う 振 舞い ,強化学習 あ ン ッ 問題 通 方策 比較 析 .
2.
探索と知識利用
ジレンマ
不確実 環境 意思 決定 ,多数 択 肢 良 い 択肢 探 出 探索 ,既知 情報 経 験 活用 最良 択肢 択 続 知識利用 いう2 相 行動 要求 . 探索 知識利用 ン 呼ぶ.得 利益 最大 いう目的 , ン
無視 い厄 要素 あ . 益 最大化
, 最 良 択 肢 見 わ , 択 続 必 要 あ 知 識 利用 . ,不確実 環境 , 択肢 有益 未知 あ 一 一 試 検証 価値 見 わ 必要 あ 探索 .知識利用 視 ,最良 択肢 見 誤 能 性 あ ,結 果的 目 的 遠
う.探索 視 ,利益 回 遅 い,制限 あ 環境 えば時 間,資金 ,あ い 制限 明
環境 利 益 回 不 十 , 目的 遠 う. 現 実 無 制 限 試 行 環 境
く, 要素 制限 う. ,目的 ,探索 知識利用 ラン う く保 必要 あ .
探 索 知 識 利 用 ン 人 間 経 験 的 学 習 意 思 決 定 性質 深 く関 わ い . ン 対 人 間 う う く対 処 い 解明 , 人間 経験 的 学 習 意思決 定 性 質 理解 考え .
, 性 質 応 用 , 人 工 知 能 や ボ ッ 未 知 環 境 い 自 的 学 習 能
い. う 意味 ,探索 知識利用 ン 対 人間 振 舞い 研究 意義 あ あ 考え, 本研究 行 .
3. N
本腕バン
ィッ
問題
N本腕 ン ッ 問題 ,強化学習 基本的 課
題 一 あ , 前 述 探 索 知 識 利 用 ン 最 単 純 表 現 課 題 あ . 具 体 例 , ッ ン 挙
説明 .任意 N ッ ン 存在 ,
異 当 確率 設定 , 当 確率 従 報 酬 返 . ッ ン プ 得 報酬 最大化 目的 . プ 各 腕 当 確 率 知 ,1度 1 腕 択 .目的 , プ 各腕 中 最良 腕 探 探索 ,最良 思 わ 腕 引 続 知識 利用 要求 . う , ン ッ 問題 探索 知識利用 2 要素 含 , 単純 表現 い . ン ッ 問題 , う N 個
択肢 中 次的 択 ,報酬 最大化 いう目的 あ 形 態 問 題 あ . 本 研 究 , 探 索 知 識 利 用 ン 対 人 間 振 舞 い 観 測 都 合 良い ,実験 使用 実験 ,2 個 択肢
行 .
4.
人間
探索と知識利用
ジレンマ
扱い方
探索 知識利用 ン ,強化学習 中 中心的 ッ 研究 .近 ,強化学習 通 ,探 索 知 識 利 用 ン 脳 科 学 研 究 初 来
[Daw 06]. 中 ,fMRI 用い ン ッ 問題 プ
中 参加者 脳 観測 ,探索 知識利用 ン や学 習 等 人 間 脳 内 扱 わ 方 , 解 明
あ . , 々 探索 知識利 用 ン 脳 科 学, , ン ッ 問題 関 深い論文 紹 .Daw et
al. 4本腕 ン ッ 問題 プ 中 人間 参加者 脳活
動 観測 ,探索 関連 神経基質 関 探索 連絡先:並木: e-mail: 10rd170[at]ms.dendai.ac.jp
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 2 -
穫 替 え 形 式的 問 題 調査 . 結果, 彼 前 頭前 腹内側部 ventral medial prefrontal cortex : vmPFC 相対的 報酬 大 化 探索時 前頭極 活 性化 示 .Daw et al. 初 ,探索 神経基質 関 明 ,探索 知識利用 間 行動戦略 ッ ン 容易 管理機構 映 能 .Boorman et al. ,2本腕 ン ッ 問題 プ 中 人間 参加者 脳活動 観測 ,主 脳 領域 活性 化 探 索 知 識 利 用 ン 関 調 査 . 結 果 , 彼 前 頭前 腹内側 部 択 腕 相対的 価値
化 示 . ,前頭極 択 い い腕 相対的 報酬確率 化 示 .彼 ,不確実
環境 対処 能 人間 行 動 柔軟性 関 ,前頭葉 計算 要性 示 . , ン ッ 問題 非定常 あ .
以 ,不確実 環境 発生 探索 知識利用 ン 対処 ,人間 絶対的評価 相対的 評価 行 い . 証 , ン ッ 問題 プ 中 人間 振 舞い 相対評価 行 う SoftMax法 最 特 徴 い [Daw 06]. ,SoftMax法 様 評価 人間 い 考 え ラン 系列 正 く 知出来 い[Tversky 74] . ,実際 行動 う 表 具体的 明 い い.
5.
実験
5.1 実験設定
本 実 験 ン 行 . 実 験 参 加 者 東 京 電 機 大学 学生 39 あ .参加者 2本腕 ン ッ 問題 取 組 ,得 報 酬 最 大化 当 確 率 高 い腕 択 う 指 示 . 人 間 直 観 性 視
, 試行 , 腕 当
,あ い 外 情報 参加者 い う .先行研究 , 情報 視化 い 場合 多く, 人間 純粋 直観性 別 傾向 生
出 う 考え .
取 組 簡単 問題 い問題 2種類あ .簡 単 問題 2 腕 当 確率 0.8, 0.2 ,
い問題 2 腕 当 確率 0.6 0.2 .参加者 能 試行回数 ,簡単 問題 20回, い 問題 40回 設定 .本研究 ,最初 簡単 問題 行 い問題 行う群 ED 群 呼ぶ.逆 最 初 い問題 行 簡単 問題 行う群 DE群 呼 ぶ.参加者 2群 実験 行 . ,いく 方策 人間 比較 .
5.2 人間と比較 る方策
人 間 比 較 方策 紹 . , ッ 評価値 客観的 条件付確率 算出 .
(1) Greedy法
方 策 , 択 肢 評 価 値 基 い , 常 一 番評価値 高い 択肢 択 方策 あ .Greedy いう
貪欲 いう意味 あ .
(2) ε-greedy法
, 探 索 知 識 利 用 行 動 明 確 方 策 あ . 具 体 的 ラ ε 0.0 1.0 間 確 率 ラン 択肢 択 ,1-ε 確 率 greedy
択 行う.ε-greedy法 いく 種類 あ , 回 中
3 方策 比較対象 使用 .
序盤探索法 Epsilon First
序 盤 探 索 法 , 定 挑 戦 能 試 行 回 数 ε 割合 完全 ラン 択 行う方策 あ .
ε‐一定法 Epsilon Constant
ε‐一定 法 ,最 初 試行 最 試行 ε 確率 変化 い方策 あ .
ε‐減衰法 Epsilon Decreasing
ε ‐ 減 衰 法 , 試 行 回 数 徐 々 ε 確 率 減 衰 ゆく 方 策 あ . 本 研 究 用 い 減 衰 式 以 示 .τ 減 衰 ラ ,t 時 点 試行回数 あ .
� = . + � ∗ �. (1)
(3) SoftMax法
SoftMax法 ,条件付 確率 算出 ッ
ン 評 価 値 択 確率 , 択 確 率 的 行 う あ . 探 索 知 識 利 用 行 動 ラン ン 方 策 あ . 本 研 究 ,SoftMax 法 張 Modefied
SoftMax Algorithm 使用 [Oyo 13].以 式 示 .P X
あ 択肢 択確率,M(1|X) あ 択肢 X 対 評 価,τ 減衰率,t 現在 試行回数 あ .
� � = � ��� � |� × ��
�′∈{ , ��� � |�′ × ��
(2)
5.3 実験結果
人間 探索 知識利用 観測 , Win-Shift いう 指標 用い .Win-Shift ,あ 腕 択 ,当 関 わ 次 試 行 う腕 択 確率 あ . 行動 知識利用 最 行動 あ , う 意味 あ
種 探索行動 (単 純 腕 替 え 探 索行 動 ,Win-Shift 探 索 的 行 動 ). 図
1~4 群 Win-Shift 類,表 1~4 図
1~4 対応 プ 正解率
プ 割合 示 .
Win-Shift 各個人 類 理 , 均化
ぶ 性 質 見 え く あ . ,
Win-Shift 発生 ップ 期間 類 行 い .
正解率 1回目 試行 最 試行 ,当 確率 高い腕 択 割合 あ .
表1 . 簡単 問題 ED群 正解率 プ 割合 プ/ 正解率(%) プ 割合(%)
74 29
89 35
68 11
93 11
80 7
Greedy法
序盤探索法 ε一定法 ε減衰法
SoftMax法
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 3 -
表2 . 簡単 問題 ED群 正解率 プ 割合 プ/ 正解率(%) プ 割合(%)
34 11
63 35
82 18
73 18
48
63 66
Greedy法
序盤探索法 ε一定法 ε減衰法
SoftMax法
72 72 69 73 69
表3 . 簡単 問題 DE群 正解率 プ 割合 プ/ 正解率(%) プ 割合(%)
80 14
72 14
58 9
58 9
70 50 87
5 5 45
表4 . い問題 DE群 正解率 プ 割合 プ/ 正解率(%) プ 割合(%)
63 14
60 14
88 5
86 9
60 65 85
23 9 27
図1. 簡単 問題 ED群 Win-Shift 類
図2. 難しい問題におけるED群のWin-Shiftの分類
図3. 難しい問題におけるDE群のWin-Shiftの分類
図4. 難しい問題におけるDE群のWin-Shiftの分類
Ϩ型
Ϭ型
0 0.2 0.4 0.6 0.8 1
1 5 9 13 17 21 25 29 33 37 0 0.2 0.4 0.6 0.8 1
1 5 9 13172125293337
0 0.2 0.4 0.6 0.8 1
1 5 9 13172125293337 0 0.2 0.4 0.6 0.8 1
1 5 9 13 17 21 25 29 33 37 0 0.2 0.4 0.6 0.8 1
1 5 9 13172125293337 0
0.2 0.4 0.6 0.8 1
1 5 9 13172125293337
ϩ型 Ϫ型
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 4 -
5.4 考察
表 1~4 ,人間 い 最 多い プ Win-Shift 無 い プ あ .先 紹 greedy法以外 う
Win-Shift 出現 . ,一般的
人間 良い情報, 勝 択肢 替え 行動 い 能性 高い.逆 悪い情報, 負 いう情 報 択肢 替え, 探索 い 能性 あ いえ . , 単 純 択 肢 替 え 探 索 定 義
場合 あ . , 択 確率的 決定 い 能性 あ いえ . 択 確率的 ば,勝 あ 択 肢
替え 行動 あ 良い あ . 関わ う 行動 一 見 い ,や 択 確率 的 い いえ あ う. 人間 ラン 系列 正 く 識
く,何 規則性 ラン 系列 対 誤 見出 う[Tversky 74]. う 性質 人間 ラン 性 う く扱 い 考え くい.脳科学 SoftMax法 類 似 傾 向 あ 報 告 い , 実 際 行 動
見 振 舞 い 異 い 考え ほう 良 い 考え . ,各 ッ ン 対 あ 程度 サンプ 数 集 傾向 ,知識利用 行動 移 い わ い う 思 わ . , 明 確 探 索 知 識 利 用 行 動
い い 考え .
6.
結論
本研究 ,探索 知識利用 ン 対 人間 振 舞い 性 質 傾向 調査 . 結 果,探 索 知 識利用 行 動 明 確 方 策 や , 人 間 相 関 あ い わ い
SoftMax 法 方策 う傾向 あ 確 .確
率的 択 行わ い あ . ,探索行動, 択肢 替 え 一般 的 負 情報 時 起 確 . 結果 ,現在研究 い 人間 知的 特性 利用 対 , 詳細 形式化 能 能性 あ .
課題 ,サンプ 数 増や , 環境 設定 結果 確 う 検証 必要 あ .本研究 ,問 題 確率 設定 片方 択肢 高 く, う一方 低く設定 い . ,2 択肢 両方 低確率,あ い 高確率 環境設定 試 必要 あ . , 回 結果 人 間 方 策 Greedy 法 傾向
あ 確 ,実際 条件付確率 評価値 算 出 条件 Greedy法 完全 一致 い 不明 あ .一致 い ば,人間 評価 算出 仕方 条件付
確率 異 ,人間特有 評価方法 存在 い 能性 確 .本研究 人間 方策 関 焦点 当 ,
う 人 間 評 価 方法 関 調 査 課 題 い.
参考文献
[Auer 02] Auer, P., Cesa-Bianchi, N., Fischer, P., Finite-time analysis of the multi-armed bandit problem, Machine Learning, 47, 235-256, 2002.
[Boorman 09] Boorman, E.D., Behrens, T.E., Woolrich, M.W., Rushworth M.F., 2009. How Green Is the Grass on the Other Side? Frontopolar Cortex and the Evidence n Favor of Alternative Courses of Action. Neuron, 62(5), 733-743. [Cohen 07] Cohen, J. D., McClure, S. M., Yu, A. J., 2007.
Should I stay or should I go? How the human brain manages
the trade-off between exploitation and exploration. Philos Trans R Soc Lond B Biol Sci, 362(1481), 933–942.
[Daw 06] Daw, N. D., O'Doherty, J. P., Dayan, P., Seymour, B., Dolan, R. J., 2006. Cortical substrates for exploratory decisions in humans. Nature, 441(7095), 876–879, 2006. [並木 14] 並木尚也, 高橋 , 探索 知識利用
対 人間 行動, 情報処理学会第76回全国大会講演 論文集,517-518. (2014)
[西村 12] 西村友伸, 大用庫智, 高橋 , 変参照型緩対称
性推論 ン 木探索 効果, プ ラ ン ワ ョ ッ プ 2012 論 文 集 2012‐11‐09 ,2012 6 ,
191‐196. 2012 .
[Oyo 13] Oyo,K., Takahashi,T. A cognitively inspired heuristic for two-armed bandit problems: The loosely symmetric (LS) model. Procedia Computer Science 24 (2013) 194-204, 2013. [大用 11] 大用庫智, 佑, 高橋 , 非定常N本腕 ン
ッ 問 題 対 人 間 知 適 用, JSAI
2011 2011 度人工知能学会全国大会 第25回 予稿集,
1G1-2in, 2011 .
[篠原 07] 篠原修 , 口亮, 桂 浩一, 新 恒雄. 因果性 基
く信 念 形 N本 腕 ン ッ 問 題 適 用,
人工知能学会論文 , Vol.22, No.1, pp.58-68, 2007. [Sutton 98] Sutton, R. S., Barto, A. G., 1998. Reinforcement
Learning: An Introduction. MIT Press, Cambridge, MA.Sidman, M. (1994). Equivalence relations and behavior: A research story. Boston, M.A.: Authors Cooperative. [Takahashi 11a] Takahashi, T., Oyo, K., Shinohara, S., A
Loosely Symmetric Model of Cognition, In: LNCS Springer Proceedings of the 10th European Conference on Artificial Life (ECAL 2009), Springer, 5778, 234–241, 2011a.
[Takahashi 11b] Takahashi, T., Nakano, M., and Shinohara, S., Cognitive Symmetry: Illogical but Rational Biases, Symmetry, Culture and Science, 21, 1-3, 275–294, 2011b.
[Tversky 74] Tversky, A., Kahneman, D., Judgment under Uncertainty: Heuristics and Biases, Science, 185(4157), 124-1131, 1974.
[Wunderlich 09] Wunderlich, K., Rangel, A., O'Doherty, J. P., 2009. Neural computations underlying action-based decision making in the human brain. Proc Natl Acad Sci U S A, 106(40), 17199–17204.