PDFファイル 2N5OS03b オーガナイズドセッション「OS3 内部観測と探索」

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

線条体ュ

ン持続的発火強

学習

A new reinforcement learning model inspired by firing prolongation in the striatum

太田

宏之

*1

甲

佑

*2

高橋

達

*2 Hiroyuki Ohta Yu Kohno Tatsuji Takahashi

*1

_防衛医

_{大学校生理学講}

National Defense Medical College, Department of Physiology

*2

_{東京電機大学}

Tokyo Denki University

We propose a new reinforcement learning model which was inspired by the prolonged firing observed in the rat striatal neurons. The proposed model has “QTimer” which counts the remaining steps to an update of state-action value, based on the Monte Carlo method, and which is also used as a kind of eligibility trace. The state-action value is asynchronously and intermittently updated, and reference to the previous state-action values at each step is not required. This feature contributes to keep absolute changes of the state-action value small. Moreover, the model is extendable for the parallel processing for adapting to a non-Markovian environment.

1. じめ

本稿ッ大脳基底線条体ュンい観察さ持続的発火及び存現象ンを得環境状態移関性仮定い対応

強学習を提案

学習試行中け大脳基底ンュン挙動[Schultz 95] TD 誤差(Temporal Difference Error) [Barto 95] 似いこ大脳基底強学習目さ

い [Houk 95] 線条体ュン一部行動価値

関数(Q 値)を表現い報告あ [Samejima 05] 大脳

基底挙動を理解目的強学習理論参照さい

一般的強学習理論枠組い環境状態移行動報酬関決定過程前提さ遅延報酬課題を解く場合適格 (eligibility trace)

[Klopf 72] 呼ば仕組導入さ提案さ

い

々大脳基底線条体ュン 8 ～20 程頻繰返刺激入力数間持続的発火繰返徐々発火期間延長いくいう現象を発見論文投稿中ここ線条体何時間方向積分器的能力を持い可能性想定さこ

現象をン個々状態行動対線条体ュンけ自己完結的適格可塑性存在を仮定環境性を前提い強学習を提案

2. 線条体持続的発火及び残存現象

青色刺激脱分極を誘発可能ネン 2 発現ンッッ [Tomita 09][Ji 12][Ohta 13]

線条体急性を作顕微鏡青色刺激時活動電発火を細胞外記録 1 間刺激を 8

1 回頻 5 回繰返こ発火数発火期間

徐々増加繰返刺激を 5回行後休期間をい再刺激を1回加え際存数休期間20 あば5回目刺激時数同程あ以休期間を経減衰こ

時間発展現象濃増大関ッ依存いこわ

こ依存性持続的現象適格う持続的変数候補一得あ同時ュン単自己完結的 Q値更新存在を予期さこ現象をン以示う

連絡：太田宏之防衛医大学校生理学講埼玉県所沢市並木 042-995-1225(内線2227) [email protected]

2N5-OS-03b-4

1 チネプシン発現ラッ線条体ニューン光刺激応答．8

秒 1回頻度 1秒間光刺激 5回与えこ，活動電位数

増え同時そ発生期間徐々延長し上 5段目．

そ後，20秒間休止期間経再度光刺激入力行っこ，時

間発展し持続的発火残存しい 5段目．ここ，10秒単

位短期的積算機能線条体ニューン存在しいこ示し

い．平均す，こ残存発火 5回目 20秒休止期間

あ最後発火数 5回目同程度あ，30秒半減，60秒以

(2)

- 2 - ッ毎 Q値更新状態行動対管理担体ュン外部 Q値参照要強学習を提案

3. QTimer Model 1.0

本研究提案 QTimer Sarsa()等一般的

強学習 [Watkins 92] 同様行動価値関数を

用い各ッ観測状態 s 毎行動 aを -greedy方策

択更新方法異状態

sを初回訪問起動さ ( � ) 終了後間得益対ン法同様更新

さ各状態行動対対 QTimer 時間₍₎ う定義ッ毎更新さ

( ) { �� ∧ ∧ ( ) ( ) − ( ) >

�� QTimer 最大値あ．QTimer 残時間

( ) 非 0 時そスップ得報酬_� ，

残時間依存し重付け QTimer 起動中収益

( ) 加算し保存さ．

( ) { ( ) + � ��−�( � )� ( ) ≠ ��ℎ��

QTimer 残時間₍₎ 非0 0 っ時，そ

得報酬関す決算し Q値更新個々

( ) い行わ．そ状態行動対初回訪問

��スップ後更新留保す点 QTimer

半ンライン的学習行うあ．

( ) ( ) + � ( ) − ( )

ここ _� 学習率 _� QTimer ッ数をQ値更新

映さ係数割引率あ起動中益を用い行動価値更新を行う点 QTimer model

�� 強学習け初回訪問ン法

一

4. 遅延報酬課題

提案を Sarsa(0)及び Sarsa() 比較う課題を用い

状態数 10個(s0~s9)あ連い図 .

状態ン実行可能行動択肢右行く例:s0→s1 行く例:s0→s9 留例:s0→s0 3種あ状態特状態あ原因状態(s2) 報酬状態(s7) 存在報酬 s2 を訪問後 10

step 以内 s7を訪発生ン報酬を

得時状態移通常異初期状態(s0) 強制的戻さ報酬原因状態s2を過去10 step以内通

いう情報ン記憶さいン

い性無い課題原因状態 s2 後報酬状態 s7を通報酬得こ課題最適行動

初期状態(s0) 常右進続けあ実際報酬得 s7 執着回や方向良いく 10個状態を一周いう択い学習いい

5. シューション結果

ン状態移 Sarsa(0) Sarsa() QTimer 獲得報

酬総和 1 ッあ報酬 Sarsa() QTimer Q

値更新頻更新をッを図示ここい学習率 _� 割引率 _�

2 提案評価すタスク

3 報酬総和発展曲線，1スップあ報酬，1スップあ

Q値更新回数．1回更新あ Q値変化量絶対値，1ス

ップあ Q値変化量絶対値．す 10,000個体平均値

示す．原理的 Sarsa() Q値更新回数適格度ース値

�(� � ) 非0 あ状態行動対数け行わ (本シミューショ

ン最大30回)，そ原理的常過去訪問し全状態行

動対対し，影響く更新行わしう．本研究

有効更新対象す，適格度ース値_{�(� � )} 0.001

(3)

- 3 -

QTimer 長さ _�� 比較対象あ

Sarsa() 適格減衰

QTimer 学習初期遅あ概

Sarsa() 近い性能を持いわ 1 ッあ

Q値更新 QTimer 半ン的学習を

行う毎ッ更新 Sarsa() 比較少く抑え

い

QTimer model け各状態訪問率(%)を図示

理想的学習ン初期状態s0 s7 迷い無く移動常学習さいば報酬獲得関係

い状態 s8 s9 訪問以外均等訪問

行動択右方向顕著偏予測さ各状態け行動択率を図示

Sarsa(0) s7 多く訪問い s7 対対称的訪

問比率を有右差い学習

手くいい行動択右ばあ

Sarsa()及びQTimer 共初期状態s0 最多く訪問

い報酬状態s7 訪問い以外 s0 s7 間状態同訪問率を持報酬獲得必要い s8

s9 訪問率い Sarsa()及びQTimer 共 s0

s6 状態い行動右向多く択さい

s8 s9 い Sarsa() 向択率高くこ s7

戻行動択結果 QTimer 比較やや高い総報酬

い考え

6. 考察

6.1 コフ性と適格度トース

一般的強学習い離散決定過程仮定さわ環境状態前状態離散的

ば行動決定さ報酬状態依存え報酬遅延を想定場合報酬状態毎え特定状態初え遅延報酬を過去状態行動対映さ仕組必要

ここ性を仮定こ意義を検討強学習複数仕組前提絡あ議論を簡潔目的報酬遅延無い場合を考えこ

性を仮定意義報酬原因前状態推測一意決定いう利点あ動物置実環境い n ッ前状態群単一表象可能場合含 [Ohta 12][太田 13] 依存い否本質的明あ原因状態推定を行う必要あ

こ対性を仮定場合必要性くこ性を仮定利点あこ報酬遅延あ場合こ利点解消さう

報酬遅延あ場合い検討報酬関性を仮定報酬現在状態依存い報酬遅延 n ッ状態移結果表現さ一般的強学習い各状態定義過去

状態行動対ベキ集合

複数経路行動現在状態こ可能あ状態―行動対関一意性立いい報酬及び一階状態行動対関性仮定

報酬原因 n ッ前状態行動対を特定

こい適格 (eligibility trace)[Klopf 72]

こ問題を疑似的解決仕組あ言え状態移別通過状態―行動対を付け連続的値を減こ時間的価値を表現報酬時点遡 ad hoc 報酬原因推定を行うこ

性仮定原因状態推定必要性無い遅延報酬を前提場合別途原因

状態推定仕組適格必要さい

一般 Q値差分報酬(TD誤差)をQ値更新利用手法採い提案 TD誤差を用い適格依存 Q値を更新

ュョン結果 Sarsa() 適格持非

的課題関学習能力高さを示同時提案

Sarsa() 同程能力を持いこを示い

6.2 Q値更新必要計算プセスとパラメータ

提案 QTimer 終了ン Q値を更

新いう特徴を持 TD誤差を用い強学習

いッ毎前後 Q値を参照 TD誤差を算出 Q値を更新差分計算前ッ Q値ッ Q値を同期さ必要あ大脳基底

いう同期機構未見いい個々線条体ュンい Q 値保持さ

[Samejima 05] 本う個々ュン Q値

を更新持続的を仮定ば Q値を外部同期的参照こく報酬個別更新

可能あン酸性入力をけ

4 各状態訪問率．QTimer SARSA(0.9) ，報酬得

s7 左側寄っ，s8, s9 訪問しい，SARSA(0) s7

周左右対称訪問率上っい．

(4)

- 4 -

濃昇 cAMP DRAPP-32 STEP ERK ン

酸等細胞内入力ン入

力履歴蓄積さい可能性検討さい [Houk 95][Nakano 10][Shifleett 10][Shiflett 11] 本 QTimer

持続的細胞内ンをい一般的強学習う Q値をッ毎更新こ過去学習内容を忘あ複数条件揃うこ初線条体ュン可塑的変

誘導さこを考えば[Reynolds 02] Q値更新ッ毎発生こ考えくい提案状態行動揃起動さ時限付細胞内ン終了時点け可塑的変誘導を想定、Q 値更新ン間的あ 1 ッあ Q値更新く抑えい図

以う提案生理学的見自然大脳基底学習機能関理解助け考え

非的環境適応大脳皮質複数ッ渡入力を並列的処理必要あ提案非同期独立 Q 値更新機構あう並列的処理適張性を持い例えば線条体ュン大脳皮質対入力元 (receptive region/receptive field) ン変

うュネッワ [Schultz 95] [Nakahara 02]

本提案親和性高い考え強学習状態及び時間を空間的扱う能力を付基礎う

7. まとめ

大脳基底線条体ュン持続的発火性質をン状態行動対訪問時起動さ基い

非同期行動価値関数更新を持強学習

を提案提案非的

い Sarsa( 概同程行動択ン学習性能を

持いこわ 

謝辞

本研究研費  防衛医大学校特別研究費学技術研究振興財団東大学電気通信研究所共同

助を受けあ  参考文献

[Barto 95] A. Barto: Adaptive critics and the basal ganglia. Models of Information Processing in the Basal Ganglia, in Models of Information Processing in the Basal Ganglia, J. C. Houk, J. Davis, and D. Beiser, Eds. Cambridge, MA: MIT Press, 1995, pp. 215–232.

[Houk 95] J. C. Houk, J. L. Adams, A. Barto: A model of how the basal ganglia generate and use neural signals that predict

reinforcement,” in Models of Information Processing in the

Basal Ganglia, J. C. Houk, J. L. Davis, and D. G. Beiser, Eds. Cambridge, MA: MIT Press, 1995, pp. 249–270.

[Ji 12] Z.-G. Ji, S. Ito, T. Honjoh, H. Ohta, T. Ishizuka, Y. Fukazawa, H. Yawo: Light-evoked somatosensory perception of transgenic rats that express channelrhodopsin-2 in dorsal root ganglion cells, PLoS One, vol. 7, no. 3, p. e32699, Mar. 2012.

[Klopf 72] A. Klopf: Brain function and adaptive systems: a heterostatic theory, AIR FORCE CAMBRIDGE Res. LAORATORIES, no. 133, 1972.

[Nakahara 02] H. Nakahara, S. Amari,O. Hikosaka: Self-organization in the basal ganglia with modulation of reinforcement signals, Neural Comput., vol. 844, pp. 819– 844, 2002.

[Nakano 10] T. Nakano, T. Doi, J. Yoshimoto, K. Doya, A kinetic model of dopamine-and calcium-dependent striatal synaptic plasticity, PLoS Comput. Biol., vol. 6, no. 2, pp. 1– 16, 2010.

[Ohta 12] H. Ohta, D. Uragami, Y. Nishida, J. C. Houk: Presynaptic inhibition balances the trade-off between differential sensitivity and reproducibility, Proc. of 6th Int. Conf. Soft Comput. Intell. Syst. 13th Int. Symp. Adv. Intell. Syst., pp. 1172–1175, Nov. 2012.

[太田 13] 太田宏之, 西田育弘: 神経可塑性状態生 , 人知能学会全国大会(第 27 回)論文集, 2L4–OS–24d–5, 2013.

[Ohta 13] H. Ohta, S. Sakai, S. Ito, T. Ishizuka, Y. Fukazawa, M. Tandai-hiruma, S. Maruyama, H. Mushiake, H. Yawo, Y. Nishida, Spike timing- dependent retrograde plasticity of the CA3 excitability in the rat hippocampus, Neurosci. Lett. 534, pp. 182-7, 2013

[Reynolds 02] J. N. J. Reynolds, J. R. Wickens: Dopamine-dependent plasticity of corticostriatal synapses, Neural Netw., vol. 15, no. 4–6, pp. 507–21, 2002.

[Samejima 05] K. Samejima, Y. Ueda, K. Doya, M. Kimura: Representation of action-specific reward values in the striatum, Science, vol. 310, no. 5752, pp. 1337–40, Nov. 2005.

[Schultz 95] W. Schultz, R. Romo, T. Ljungberg, J. Mirenowicz, J. R. Hollerman, and A. Dickinson: Reward-related signals carried by dopamine neurons, in Models of information processing in the basal ganglia, vol. 12, J. C. Houk, J. L. Davis, and D. G. Beiser, Eds. MIT Press, 1995, pp. 233–248. [Shiflett 10] M. Shiflett: Acquisition and performance of goal-directed instrumental actions depends on ERK signaling in distinct regions of dorsal striatum in rats, J. ..., vol. 30, no. 8, pp. 2951–2959, 2010.

[Shiflett 11] M. Shiflett, B. Balleine: Contributions of ERK signaling in the striatum to instrumental learning and performance, Behav. Brain Res., vol. 218, no. 1, pp. 240–7, Mar. 2011.

[Tomita 09] H. Tomita, E. Sugano, Y. Fukazawa, H. Isago, Y. Sugiyama, T. Hiroi, T. Ishizuka, H. Mushiake, M. Kato, M. Hirabayashi, R. Shigemoto, H. Yawo, M. Tamai: Visual properties of transgenic rats harboring the channelrhodopsin-2 gene regulated by the thy-1.channelrhodopsin-2 promoter, PLoS One, vol. 4, no. 11, p. e7679, Jan. 2009.

PDFファイル 2N5OS03b オーガナイズドセッション「OS3 内部観測と探索 」

線条体 ュ

ン 持続的発火 強

学習

A new reinforcement learning model inspired by firing prolongation in the striatum

太田

宏之

甲

佑

高橋

達

防衛医

大学校生理学講

東京電機大学

1.

じめ

2.

線条体 持続的発火及び残存現象

2N5-OS-03b-4

3. QTimer Model 1.0

4.

遅延報酬課題

5.

シ ュ ーション結果

6.

考察

7.

まとめ