PDFファイル 2B3 「認知と推論」

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

不確実性

人間

探索

知識利用

移

Transition between Exploration and Exploitation in Humans under Uncertainty

並木

尚也

*1

大用

庫智

*1

高橋

*2

Namiki Naoya Oyo Kuratomo Takahashi Tatsuji

*1

東京電機大学大学院

*2

東京電機大学

Graduate School of Tokyo Denki University Tokyo Denki University

Decision making in an uncertain environment poses a conflict between the opposing demands of gathering new information and exploiting information, which is called the exploration-exploitation dilemma. It has been shown in previous studies that the loosely symmetric (LS) model is effective for handling the dilemma with the cognitive biases the model implements and correlates highly to causal intuition of humans. In this study, we compare behavioral data of humans in decision making with some representative policies in reinforcement learning to understand humans' iterative decision making under uncertainty.

1. めに

不確実環境意思決定い，多数択肢良い択肢探出探索，既知情報経験活用最良択肢択続知識利用いう2 相

行動要求．探索知識利用ン呼ぶ．ン表現強化学習基本的課題あ N 本腕ンッ問題[Sutton 98] あ，問題対

提案い．中，人間知的性質応用，優秀結果有 LS [篠原 07] 存在．，脳科学人間各択肢比較相対的評価行い明い [Daw 06]．

，人間実際ン対う振舞い，あいう性質あ具体的明いい．

本研究，探索知識利用ン対人間う振舞い，強化学習あンッ問題通方策比較析．

2. 探索と知識利用

ジレンマ

不確実環境意思決定，多数択肢良い択肢探出探索，既知情報経験活用最良択肢択続知識利用いう2 相行動要求．探索知識利用ン呼ぶ．得利益最大いう目的，ン

無視い厄要素あ．益最大化

，最良択肢見わ，択続必要あ知識利用．，不確実環境，択肢有益未知あ一一試検証価値見わ必要あ探索．知識利用視，最良択肢見誤能性あ，結果的目的遠

う．探索視，利益回遅い，制限あ環境えば時間，資金，あい制限明

環境利益回不十，目的遠う. 現実無制限試行環境

く，要素制限う．，目的，探索知識利用ランうく保必要あ．

探索知識利用ン人間経験的学習意思決定性質深く関わい．ン対人間ううく対処い解明，人間経験的学習意思決定性質理解考え．

，性質応用，人工知能やボッ未知環境い自的学習能

い．う意味，探索知識利用ン対人間振舞い研究意義ああ考え，本研究行．

3. N

本腕バン

ィッ

問題

N本腕ンッ問題，強化学習基本的課

題一あ，前述探索知識利用ン最単純表現課題あ．具体例，ッン挙

説明．任意 N ッン存在，

異当確率設定，当確率従報酬返．ッンプ得報酬最大化目的．プ各腕当確率知，1度 1 腕択．目的，プ各腕中最良腕探探索，最良思わ腕引続知識利用要求．う，ンッ問題探索知識利用 2 要素含，単純表現い．ンッ問題，う N 個

択肢中次的択，報酬最大化いう目的あ形態問題あ．本研究，探索知識利用ン対人間振舞い観測都合良い，実験使用実験，2 個択肢

行．

4. 人間

探索と知識利用

ジレンマ

扱い方

探索知識利用ン，強化学習中中心的ッ研究．近，強化学習通，探索知識利用ン脳科学研究初来

[Daw 06]．中，fMRI 用いンッ問題プ

中参加者脳観測，探索知識利用ンや学習等人間脳内扱わ方，解明

あ．，々探索知識利用ン脳科学，，ンッ問題関深い論文紹．Daw et

al. 4本腕ンッ問題プ中人間参加者脳活

動観測，探索関連神経基質関探索連絡先:並木: e-mail: 10rd170[at]ms.dendai.ac.jp

(2)

- 2 -

穫替え形式的問題調査．結果，彼前頭前腹内側部 ventral medial prefrontal cortex : vmPFC 相対的報酬大化探索時前頭極活性化示．Daw et al. 初，探索神経基質関明，探索知識利用間行動戦略ッン容易管理機構映能．Boorman et al. ，2本腕ンッ問題プ中人間参加者脳活動観測，主脳領域活性化探索知識利用ン関調査．結果，彼前頭前腹内側部択腕相対的価値

化示．，前頭極択いい腕相対的報酬確率化示．彼，不確実

環境対処能人間行動柔軟性関，前頭葉計算要性示．，ンッ問題非定常あ．

以，不確実環境発生探索知識利用ン対処，人間絶対的評価相対的評価行い．証，ンッ問題プ中人間振舞い相対評価行う SoftMax法最特徴い [Daw 06]．，SoftMax法様評価人間い考えラン系列正く知出来い[Tversky 74] ．，実際行動う表具体的明いい．

5. 実験

5.1 実験設定

本実験ン行．実験参加者東京電機大学学生 39 あ．参加者 2本腕ンッ問題取組，得報酬最大化当確率高い腕択う指示．人間直観性視

，試行，腕当

，あい外情報参加者いう．先行研究，情報視化い場合多く，人間純粋直観性別傾向生

出う考え．

取組簡単問題い問題 2種類あ．簡単問題 2 腕当確率 0.8, 0.2 ，

い問題 2 腕当確率 0.6 0.2 ．参加者能試行回数，簡単問題 20回，い問題 40回設定．本研究，最初簡単問題行い問題行う群 ED 群呼ぶ．逆最初い問題行簡単問題行う群 DE群呼ぶ．参加者 2群実験行．，いく方策人間比較．

5.2 人間と比較る方策

人間比較方策紹．，ッ評価値客観的条件付確率算出．

(1) Greedy法

方策，択肢評価値基い，常一番評価値高い択肢択方策あ．Greedy いう

貪欲いう意味あ．

(2) ε-greedy法

，探索知識利用行動明確方策あ．具体的ラ ε 0.0 1.0 間確率ラン択肢択，1-ε 確率 greedy

択行う．ε-greedy法いく種類あ，回中

3 方策比較対象使用．

 序盤探索法 Epsilon First

序盤探索法，定挑戦能試行回数 ε 割合完全ラン択行う方策あ．

 ε‐一定法 Epsilon Constant

ε‐一定法，最初試行最試行 ε 確率変化い方策あ．

 ε‐減衰法 Epsilon Decreasing

ε ‐ 減衰法，試行回数徐々 ε 確率減衰ゆく方策あ．本研究用い減衰式以示．τ 減衰ラ，t 時点試行回数あ．

� = _{. + � ∗ �}. (1)

(3) SoftMax法

SoftMax法，条件付確率算出ッ

ン評価値択確率，択確率的行うあ．探索知識利用行動ランン方策あ．本研究，SoftMax 法張 Modefied

SoftMax Algorithm 使用 [Oyo 13]．以式示．P X

あ択肢択確率，M(1|X) あ択肢 X 対評価，τ 減衰率，t 現在試行回数あ．

� � = _� �� |� × ��

�′_∈｛ , �� |�′ × ��

(2)

5.3 実験結果

人間探索知識利用観測， Win-Shift いう指標用い．Win-Shift ，あ腕択，当関わ次試行う腕択確率あ．行動知識利用最行動あ，う意味あ

種探索行動 (単純腕替え探索行動，Win-Shift 探索的行動 )．図

1~4 群 Win-Shift 類，表 1~4 図

1~4 対応プ正解率

プ割合示．

Win-Shift 各個人類理，均化

ぶ性質見えくあ．，

Win-Shift 発生ップ期間類行い．

正解率 1回目試行最試行，当確率高い腕択割合あ．

表1 . 簡単問題 ED群正解率プ割合プ/ 正解率(%) プ割合(%)

74 29

89 35

68 11

93 11

80 7

Greedy法

序盤探索法 ε一定法 ε減衰法

SoftMax法

(3)

- 3 -

表2 . 簡単問題 ED群正解率プ割合プ/ 正解率(%) プ割合(%)

34 11

63 35

82 18

73 18

48

63 66

Greedy法

序盤探索法 ε一定法 ε減衰法

SoftMax法

72 72 69 73 69

表3 . 簡単問題 DE群正解率プ割合プ/ 正解率(%) プ割合(%)

80 14

72 14

58 9

70 50 87

5 5 45

表4 . い問題 DE群正解率プ割合プ/ 正解率(%) プ割合(%)

63 14

60 14

88 5

86 9

60 65 85

23 9 27

図1. 簡単問題 ED群 Win-Shift 類

図2. 難しい問題におけるED群のWin-Shiftの分類

図3. 難しい問題におけるDE群のWin-Shiftの分類

図4. 難しい問題におけるDE群のWin-Shiftの分類

Ϩ型

Ϭ型

0 0.2 0.4 0.6 0.8 1

1 5 9 13 17 21 25 29 33 37 0 0.2 0.4 0.6 0.8 1

1 5 9 13172125293337

0 0.2 0.4 0.6 0.8 1

1 5 9 13172125293337 0 0.2 0.4 0.6 0.8 1

1 5 9 13 17 21 25 29 33 37 0 0.2 0.4 0.6 0.8 1

1 5 9 13172125293337 0

0.2 0.4 0.6 0.8 1

1 5 9 13172125293337

ϩ型 Ϫ型

(4)

- 4 -

5.4 考察

表 1~4 ，人間い最多いプ Win-Shift 無いプあ．先紹 greedy法以外う

Win-Shift 出現．，一般的

人間良い情報，勝択肢替え行動い能性高い．逆悪い情報，負いう情報択肢替え，探索い能性あいえ．，単純択肢替え探索定義

場合あ．，択確率的決定い能性あいえ．択確率的ば，勝あ択肢

替え行動あ良いあ．関わう行動一見い，や択確率的いいえあう．人間ラン系列正く識

く，何規則性ラン系列対誤見出う[Tversky 74]．う性質人間ラン性うく扱い考えくい．脳科学 SoftMax法類似傾向あ報告い，実際行動

見振舞い異い考えほう良い考え．，各ッン対あ程度サンプ数集傾向，知識利用行動移いわいう思わ．，明確探索知識利用行動

いい考え．

6. 結論

本研究，探索知識利用ン対人間振舞い性質傾向調査．結果，探索知識利用行動明確方策や，人間相関あいわい

SoftMax 法方策う傾向あ確．確

率的択行わいあ．，探索行動，択肢替え一般的負情報時起確．結果，現在研究い人間知的特性利用対，詳細形式化能能性あ．

課題，サンプ数増や，環境設定結果確う検証必要あ．本研究，問題確率設定片方択肢高く，う一方低く設定い．，2 択肢両方低確率，あい高確率環境設定試必要あ．，回結果人間方策 Greedy 法傾向

あ確，実際条件付確率評価値算出条件 Greedy法完全一致い不明あ．一致いば，人間評価算出仕方条件付

確率異，人間特有評価方法存在い能性確．本研究人間方策関焦点当，

う人間評価方法関調査課題い．

参考文献

[Auer 02] Auer, P., Cesa-Bianchi, N., Fischer, P., Finite-time analysis of the multi-armed bandit problem, Machine Learning, 47, 235-256, 2002.

[Boorman 09] Boorman, E.D., Behrens, T.E., Woolrich, M.W., Rushworth M.F., 2009. How Green Is the Grass on the Other Side? Frontopolar Cortex and the Evidence n Favor of Alternative Courses of Action. Neuron, 62(5), 733-743. [Cohen 07] Cohen, J. D., McClure, S. M., Yu, A. J., 2007.

Should I stay or should I go? How the human brain manages

the trade-off between exploitation and exploration. Philos Trans R Soc Lond B Biol Sci, 362(1481), 933–942.

[Daw 06] Daw, N. D., O'Doherty, J. P., Dayan, P., Seymour, B., Dolan, R. J., 2006. Cortical substrates for exploratory decisions in humans. Nature, 441(7095), 876–879, 2006. [並木 14] 並木尚也, 高橋 , 探索知識利用

対人間行動, 情報処理学会第76回全国大会講演論文集,517-518. (2014)

[西村 12] 西村友伸, 大用庫智, 高橋 , 変参照型緩対称

性推論ン木探索効果，プランワョップ 2012 論文集 2012‐11‐09 ，2012 6 ，

191‐196． 2012 .

[Oyo 13] Oyo,K., Takahashi,T. A cognitively inspired heuristic for two-armed bandit problems: The loosely symmetric (LS) model. Procedia Computer Science 24 (2013) 194-204, 2013. [大用 11] 大用庫智, 佑, 高橋 , 非定常N本腕ン

ッ問題対人間知適用, JSAI

2011 2011 度人工知能学会全国大会第25回予稿集,

1G1-2in, 2011 .

[篠原 07] 篠原修 , 口亮, 桂浩一, 新恒雄. 因果性基

く信念形 N本腕ンッ問題適用,

人工知能学会論文 , Vol.22, No.1, pp.58-68, 2007. [Sutton 98] Sutton, R. S., Barto, A. G., 1998. Reinforcement

Learning: An Introduction. MIT Press, Cambridge, MA.Sidman, M. (1994). Equivalence relations and behavior: A research story. Boston, M.A.: Authors Cooperative. [Takahashi 11a] Takahashi, T., Oyo, K., Shinohara, S., A

Loosely Symmetric Model of Cognition, In: LNCS Springer Proceedings of the 10th European Conference on Artificial Life (ECAL 2009), Springer, 5778, 234–241, 2011a.

[Takahashi 11b] Takahashi, T., Nakano, M., and Shinohara, S., Cognitive Symmetry: Illogical but Rational Biases, Symmetry, Culture and Science, 21, 1-3, 275–294, 2011b.

[Tversky 74] Tversky, A., Kahneman, D., Judgment under Uncertainty: Heuristics and Biases, Science, 185(4157), 124-1131, 1974.

[Wunderlich 09] Wunderlich, K., Rangel, A., O'Doherty, J. P., 2009. Neural computations underlying action-based decision making in the human brain. Proc Natl Acad Sci U S A, 106(40), 17199–17204.