• 検索結果がありません。

PDFファイル 2N5OS03b オーガナイズドセッション「OS3 内部観測と探索 」

N/A
N/A
Protected

Academic year: 2018

シェア "PDFファイル 2N5OS03b オーガナイズドセッション「OS3 内部観測と探索 」"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

線条体 ュ

ン 持続的発火 強

学習

A new reinforcement learning model inspired by firing prolongation in the striatum

太田

宏之

*1

*2

高橋

*2 Hiroyuki Ohta Yu Kohno Tatsuji Takahashi

*1

防衛医

大学校生理学講

National Defense Medical College, Department of Physiology

*2

東京電機大学

Tokyo Denki University

We propose a new reinforcement learning model which was inspired by the prolonged firing observed in the rat striatal neurons. The proposed model has “QTimer” which counts the remaining steps to an update of state-action value, based on the Monte Carlo method, and which is also used as a kind of eligibility trace. The state-action value is asynchronously and intermittently updated, and reference to the previous state-action values at each step is not required. This feature contributes to keep absolute changes of the state-action value small. Moreover, the model is extendable for the parallel processing for adapting to a non-Markovian environment.

1.

じめ

本稿 ッ 大脳基底 線条体 ュ ン い 観 察さ 持続的発火及び 存現象 ン を得 環境 状態 移 関 性 仮定 い 対応

強 学習 を提案

学習試行中 け 大脳基底 ン ュ ン 挙 動[Schultz 95] TD 誤差(Temporal Difference Error) [Barto 95] 似 い こ 大脳基底 強 学習 目さ

い [Houk 95] 線条体 ュ ン 一部 行動価値

関数(Q 値)を表現 い 報告 あ [Samejima 05] 大脳

基底 挙動を理解 目的 強 学習理論 参照さ い

一般的 強 学習理論 枠組 い 環境 状態 移 行動 報酬 関 決定過程 前提 さ 遅延 報 酬 課 題 を 解 く場 合 適格 (eligibility trace)

[Klopf 72] 呼ば 仕組 導入さ 提案さ

々 大脳基底 線条体 ュ ン 8 ~20 程 頻 繰 返 刺激入力 数 間持続的 発火 繰 返 徐々 発火期間 延長 いく いう 現象を発見 論文投稿中 こ こ 線条体 何 時間方向 積分器的能力を持 い 可能性 想定さ こ

現象を ン 個々 状態 行動対 線条体 ュ ン け 自己完結的 適格 可塑性 存在を仮定 環境 性を前提 い強 学習 を提案

2.

線条体 持続的発火及び残存現象

青色 刺激 脱分極を誘発可能 ネ ン 2 発現 ン ッ ッ [Tomita 09][Ji 12][Ohta 13]

線条体 急性 を作 顕微鏡 青色 刺激時 活動電 発火 を細胞外 記録 1 間 刺激を 8

1 回 頻 5 回繰 返 こ 発火数 発火期間

徐々 増加 繰 返 刺激を 5回行 後 休 期間を い 再 刺激を1回加え 際 存 数 休 期間20 あ ば5回目 刺激時 数 同程 あ 以 休 期間を経 減衰 こ

時間発展 現象 濃 増大 関 ッ 依存 い こ わ

こ 依存性 持続的現象 適格 う 持続的変数 候補 一 得 あ 同時 ュ ン単 自己完結的 Q値 更新 存在を予期さ こ 現象を ン 以 示 う

連絡 :太田宏之 防衛医 大学校生理学講 埼玉県所沢 市並木 042-995-1225(内線2227) [email protected]

2N5-OS-03b-4

1 チ ネ プシン発現ラッ 線条体ニュー ン 光刺激応答.8

秒 1回 頻度 1秒間 光刺激 5回与え こ ,活動電位 数

増え 同時 そ 発生期間 徐々 延長し 上 5段目 .

そ 後,20秒間 休止期間 経 再度光刺激入力 行っ こ ,時

間発展し 持続的発火 残存し い 5段目 .こ こ ,10秒単

位 短期的 積算機能 線条体ニュー ン 存在し い こ 示し

い .平均す ,こ 残存発火 5回目 20秒 休止期間

あ 最後 発火数 5回目 同程度 あ ,30秒 半減,60秒以

(2)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 2 - ッ 毎 Q値更新 状態 行動対管理担体 ュ ン 外 部 Q値参照 要 強 学習 を提案

3. QTimer Model 1.0

本研究 提案 QTimer Sarsa()等 一般的

強 学習 [Watkins 92] 同様 行動価値関数

用い 各 ッ 観測状態 s 毎 行動 aを -greedy方策

更新方法 異 状態

sを初回訪問 起動さ ( � ) 終了 後 間 得 益 対 ン 法 同様 更新

さ 各状態行動対 対 QTimer 時間 ( ) う 定義 ッ 毎 更新さ

( ) { ��� ∧ ∧ ( ) ( ) − ( ) >

��� QTimer 最大値 あ .QTimer 残 時間

( ) 非 0 時 そ ス ップ 得 報酬

残 時間 依存し 重 付け QTimer 起動中 収益

( ) 加算し 保存さ .

( ) { ( ) + � ����−�( � )� ( ) ≠ ��ℎ���� �

QTimer 残 時間 ( ) 非0 0 っ 時,そ

得 報酬 関す 決算 し Q値 更新 個々

( ) い 行わ .そ 状態行動対 初回訪問

���ス ップ後 更新 留保す 点 QTimer

半 ンライン的 学習 行う あ .

( ) ( ) + � ( ) − ( )

ここ 学習率 QTimer ッ 数をQ値 更新

映さ 係数 割引率 あ 起動中 益を 用 い 行 動 価 値 更 新 を 行 う 点 QTimer model

��� 強 学習 け 初回訪問 ン 法

4.

遅延報酬課題

提案 を Sarsa(0)及び Sarsa() 比較 う 課題を用い

状態数 10個(s0~s9)あ 連 い 図 .

状態 ン 実行可能 行動 択肢 右 行く 例:s0→s1 行く 例:s0→s9 留 例:s0→s0 3種 あ 状態 特 状態 あ 原因状 態(s2) 報酬状態(s7) 存在 報酬 s2 を訪問 後 10

step 以内 s7を訪 発生 ン 報酬を

得 時 状態 移 通常 異 初期状態(s0) 強制的 戻 さ 報酬 原因 状態s2を過去10 step以内 通

いう情報 ン 記憶さ い ン

い 性 無い課題 原因状態 s2 後 報酬状態 s7を通 報酬 得 こ 課題 最適 行動

初期状態(s0) 常 右 進 続け あ 実 際 報酬 得 s7 執着 回 や 方向 良い く 10個 状態を一周 いう 択 い 学習 い い

5.

シ ュ ーション結果

ン 状態 移 Sarsa(0) Sarsa() QTimer 獲得 報

酬 総和 1 ッ あ 報酬 Sarsa() QTimer Q

値更新頻 更新 を ッ を図 示 ここ い 学 習 率 割 引 率

2 提案 評価す タスク

3 報酬 総和 発展曲線,1ス ップあ 報酬,1ス ップあ

Q値更新回数.1回 更新あ Q値 変化量 絶対値,1ス

ップあ Q値 変化量 絶対値.す 10,000個体 平均値

示す.原理的 Sarsa() Q値 更新回数 適格度 ース 値

�(� � ) 非0 あ 状態行動対 数 け行わ (本シミュ ーショ

ン 最大30回),そ 原理的 常 過去訪問し 全 状態行

動対 対し , 影響 く 更新 行わ し う.本研究

有効 更新 対象 す ,適格度 ース値�(� � ) 0.001

(3)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 3 -

QTimer 長 さ ��� 比 較 対 象 あ

Sarsa() 適 格 減 衰

QTimer 学 習 初 期 遅 あ 概

Sarsa() 近い性能を持 い わ 1 ッ あ

Q値 更新 QTimer 半 ン的 学習を

行う 毎 ッ 更新 Sarsa() 比較 少 く抑え

QTimer model け 各状態 訪問率(%)を図 示

理想的 学習 ン 初期状態s0 s7 迷い無 く移動 常 学習さ い ば 報酬獲得 関係

い状態 s8 s9 訪問 以外 均等 訪問

行動 択 右方向 顕著偏 予測さ 各状態 け 行動 択率を図 示

Sarsa(0) s7 多く訪問 い s7 対 対称的 訪

問比率を有 右 差 い 学習

手く い い 行動 択 右 ば あ

Sarsa()及びQTimer 共 初期状態s0 最 多く訪問

い 報酬状態s7 訪問 い 以外 s0 s7 間 状態 同 訪問率を持 報酬獲得 必要 い s8

s9 訪問率 い Sarsa()及びQTimer 共 s0

s6 状態 い 行動 右向 多く 択さ い

s8 s9 い Sarsa() 向 択率 高く こ s7

戻 行動 択 結果 QTimer 比較 やや高い総報酬

い 考え

6.

考察

6.1 コフ性と適格度ト ース

一般的 強 学習 い 離散 決定過 程 仮定さ わ 環境 状態 前状態 離散的

ば 行動 決定さ 報酬 状態 依存 え 報酬 遅延を想定 場合 報酬 状態毎 え 特定 状態 初 え 遅延報酬を過去 状態 行動対 映さ 仕組 必要

ここ 性を仮定 こ 意義を検討 強 学 習 複数 仕組 前提 絡 あ 議論を 簡潔 目的 報酬 遅延 無い場合を考え こ

性を仮定 意義 報酬 原因 前状態 推測 一意 決定 いう利点 あ 動物 置 実環境 い n ッ 前 状態群 単一 表象 可能 場合 含 [Ohta 12][太田 13] 依存 い 否 本質的 明 あ 原因 状態 推定を行う必要 あ

こ 対 性を仮定 場合 必要性 く こ 性を仮定 利点 あ こ 報酬 遅延 あ 場合 こ 利点 解消さ う

報酬 遅延 あ 場合 い 検討 報酬 関 性を仮定 報酬 現在 状態 依存 い 報酬 遅延 n ッ 状態 移 結果 表現さ 一般的 強 学習 い 各状態 定義 過去

状態 行動対 ベキ集合

複数 経路 行動 現在 状態 こ 可能 あ 状態―行動対 関 一意性 立 い い 報 酬及び一階 状態 行動対 関 性 仮定

報酬 原因 n ッ 前 状態 行動対を特定

こ い 適格 (eligibility trace)[Klopf 72]

こ 問題を疑似的 解決 仕組 あ 言え 状態 移 別 通過 状態―行動対 を 付け 連続的 値を減 こ 時間的 価値を表現 報酬 時点 遡 ad hoc 報酬 原因 推定を行うこ

性 仮定 原因 状態 推定 必要性 無い 遅延報酬を前提 場合 別途原因

状態 推定 仕組 適格 必要 さ い

一般 Q値 差分 報酬(TD誤差)をQ値更新 利用 手法 採 い 提案 TD誤差を用い 適格 依存 Q値を更新

ュ ョン結果 Sarsa() 適格 持 非

的課題 関 学習能力 高さを示 同時 提案

Sarsa() 同程 能力を持 い こ を示 い

6.2 Q値更新 必要 計算プ セスとパラメータ

提案 QTimer 終了 ン Q値を更

新 いう特徴を持 TD誤差を用い 強 学習

い ッ 毎 前後 Q値を参照 TD誤差を算出 Q値を更新 差分 計算 前 ッ Q値 ッ Q値を同期さ 必要 あ 大脳基底

い う 同期機構 未 見 い い 個々 線 条体 ュ ン い Q 値 保持さ

[Samejima 05] 本 う 個々 ュ ン Q値

を更新 持続的 を仮定 ば Q値を 外部 同期的 参照 こ く報酬 個別 更新

可能 あ ン酸性 入力を け

4 各状態 訪問率.QTimer SARSA(0.9) ,報酬 得

s7 左側 寄っ ,s8, s9 訪問し い ,SARSA(0) s7

周 左右対称 訪問率 上 っ い .

(4)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 4 -

濃 昇 cAMP DRAPP-32 STEP ERK ン

酸 等 細胞内 入力 ン入

力 履歴 蓄積さ い 可能性 検討さ い [Houk 95][Nakano 10][Shifleett 10][Shiflett 11] 本 QTimer

持続的 細胞内 ン を い 一般的 強 学習 う Q値を ッ 毎 更新 こ 過去 学習 内容を忘 あ 複数 条件 揃うこ 初 線条体 ュ ン 可塑的変

誘導さ こ を考え ば[Reynolds 02] Q値 更新 ッ 毎 発生 こ 考え くい 提案 状態 行 動 揃 起動さ 時限付 細胞内 ン 終 了時点 け 可塑的変 誘導を想定 、Q 値更新 ン 間 的 あ 1 ッ あ Q値 更新 く抑え い 図

以 う 提案 生理学的 見 自然 大脳基底 学習機能 関 理解 助け 考え

非 的 環境 適応 大脳皮質 複数 ッ 渡 入力を並列的 処理 必要 あ 提案 非同期 独立 Q 値 更新機構 あ う 並列的 処理 適 張性を持 い 例 え ば 線 条 体 ュ ン 大 脳 皮 質 対 入 力 元 (receptive region/receptive field) ン 変

う ュ ネッ ワ [Schultz 95] [Nakahara 02]

本提案 親和性 高い 考え 強 学習 状態及び時間を空間的 扱う能力を付 基礎 う

7.

まとめ

大脳基底 線条体 ュ ン 持続的 発火 性質を ン 状態 行動対 訪問時 起動さ 基 い

非同期 行動価値関数更新 を持 強 学習

を提案 提案 非 的

い Sarsa( 概 同程 行動 択 ン 学習性能を

持 い こ わ 

謝辞

本研究 研費  防衛医 大学校特別研究費 学技術研究振興財団 東 大学電気通信研究所共同

助 を受け あ  参考文献

[Barto 95] A. Barto: Adaptive critics and the basal ganglia. Models of Information Processing in the Basal Ganglia, in Models of Information Processing in the Basal Ganglia, J. C. Houk, J. Davis, and D. Beiser, Eds. Cambridge, MA: MIT Press, 1995, pp. 215–232.

[Houk 95] J. C. Houk, J. L. Adams, A. Barto: A model of how the basal ganglia generate and use neural signals that predict

reinforcement,” in Models of Information Processing in the

Basal Ganglia, J. C. Houk, J. L. Davis, and D. G. Beiser, Eds. Cambridge, MA: MIT Press, 1995, pp. 249–270.

[Ji 12] Z.-G. Ji, S. Ito, T. Honjoh, H. Ohta, T. Ishizuka, Y. Fukazawa, H. Yawo: Light-evoked somatosensory perception of transgenic rats that express channelrhodopsin-2 in dorsal root ganglion cells, PLoS One, vol. 7, no. 3, p. e32699, Mar. 2012.

[Klopf 72] A. Klopf: Brain function and adaptive systems: a heterostatic theory, AIR FORCE CAMBRIDGE Res. LAORATORIES, no. 133, 1972.

[Nakahara 02] H. Nakahara, S. Amari,O. Hikosaka: Self-organization in the basal ganglia with modulation of reinforcement signals, Neural Comput., vol. 844, pp. 819– 844, 2002.

[Nakano 10] T. Nakano, T. Doi, J. Yoshimoto, K. Doya, A kinetic model of dopamine-and calcium-dependent striatal synaptic plasticity, PLoS Comput. Biol., vol. 6, no. 2, pp. 1– 16, 2010.

[Ohta 12] H. Ohta, D. Uragami, Y. Nishida, J. C. Houk: Presynaptic inhibition balances the trade-off between differential sensitivity and reproducibility, Proc. of 6th Int. Conf. Soft Comput. Intell. Syst. 13th Int. Symp. Adv. Intell. Syst., pp. 1172–1175, Nov. 2012.

[太田 13] 太田宏之, 西田育弘: 神経可塑性 状態 生 , 人 知能学会全国大会(第 27 回)論文集, 2L4–OS–24d–5, 2013.

[Ohta 13] H. Ohta, S. Sakai, S. Ito, T. Ishizuka, Y. Fukazawa, M. Tandai-hiruma, S. Maruyama, H. Mushiake, H. Yawo, Y. Nishida, Spike timing- dependent retrograde plasticity of the CA3 excitability in the rat hippocampus, Neurosci. Lett. 534, pp. 182-7, 2013

[Reynolds 02] J. N. J. Reynolds, J. R. Wickens: Dopamine-dependent plasticity of corticostriatal synapses, Neural Netw., vol. 15, no. 4–6, pp. 507–21, 2002.

[Samejima 05] K. Samejima, Y. Ueda, K. Doya, M. Kimura: Representation of action-specific reward values in the striatum, Science, vol. 310, no. 5752, pp. 1337–40, Nov. 2005.

[Schultz 95] W. Schultz, R. Romo, T. Ljungberg, J. Mirenowicz, J. R. Hollerman, and A. Dickinson: Reward-related signals carried by dopamine neurons, in Models of information processing in the basal ganglia, vol. 12, J. C. Houk, J. L. Davis, and D. G. Beiser, Eds. MIT Press, 1995, pp. 233–248. [Shiflett 10] M. Shiflett: Acquisition and performance of goal-directed instrumental actions depends on ERK signaling in distinct regions of dorsal striatum in rats, J. ..., vol. 30, no. 8, pp. 2951–2959, 2010.

[Shiflett 11] M. Shiflett, B. Balleine: Contributions of ERK signaling in the striatum to instrumental learning and performance, Behav. Brain Res., vol. 218, no. 1, pp. 240–7, Mar. 2011.

[Tomita 09] H. Tomita, E. Sugano, Y. Fukazawa, H. Isago, Y. Sugiyama, T. Hiroi, T. Ishizuka, H. Mushiake, M. Kato, M. Hirabayashi, R. Shigemoto, H. Yawo, M. Tamai: Visual properties of transgenic rats harboring the channelrhodopsin-2 gene regulated by the thy-1.channelrhodopsin-2 promoter, PLoS One, vol. 4, no. 11, p. e7679, Jan. 2009.

参照

関連したドキュメント

In recent communications we have shown that the dynamics of economic systems can be derived from information asymmetry with respect to Fisher information and that this form

In this paper, we will apply these methods to the study of the representation theory for quadratic algebras generated by second-order superintegrable systems in 2D and their

A lemma of considerable generality is proved from which one can obtain inequali- ties of Popoviciu’s type involving norms in a Banach space and Gram determinants.. Key words

In this case, the extension from a local solution u to a solution in an arbitrary interval [0, T ] is carried out by keeping control of the norm ku(T )k sN with the use of

A wave bifurcation is a supercritical Hopf bifurcation from a stable steady constant solution to a stable periodic and nonconstant solution.. The bifurcating solution in the case

The commutative case is treated in chapter I, where we recall the notions of a privileged exponent of a polynomial or a power series with respect to a convenient ordering,

Then it follows immediately from a suitable version of “Hensel’s Lemma” [cf., e.g., the argument of [4], Lemma 2.1] that S may be obtained, as the notation suggests, as the m A

Definition An embeddable tiled surface is a tiled surface which is actually achieved as the graph of singular leaves of some embedded orientable surface with closed braid