PDFファイル 2N5OS03b オーガナイズドセッション「OS3 内部観測と探索」

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

LS-Q

学習

探索

停滞

回避

Exploration and Stagnant Loop Avoidance by LS-Q Learning

浦

大輔

*1

高橋

達二

*2

高橋

優太

*2 Daisuke Uragami Tatsuji Takahashi Yuta Takahashi

ワン

*3

松尾

芳樹

*1 Ali Alalwan Yoshiki Matsuo

*1

東京工

大学

ン

ュ

ン

学部

*2

東京電機大学理工学部

School of Computer Science, Tokyo University of Technology School of Science and Technology, Tokyo Denki University

*3

東京工

大学大学院

情報

研究

Tokyo University of Technology Graduate School

In a previous study, we proposed a novel reinforcement learning architecture LS-Q that applies human cognitive biases to action selection in Q-learning. It has become clear that LS-Q learning adaptively searches in the environment with large uncertainty. In this study, we analyze the aspect in which LS-Q learning adeptly escapes from local optima, avoids stagnant loops through states with little rewards, and return to efficient motion learning.

1. じめに

環境相互作用基学習キク強

学習注目い強学習未知環境い

試行錯誤的探索多報酬得目的

い有限回試行錯誤い探索環境

知識蓄積優先既得い知識従

報酬獲得優先断いわえ

報酬遅延探索知識利用遥択困

う課題え々人間推論傾向論理階層混

同傾向模 Q学習応用強学習

LS-Q 提案い [Uragami 2014] LS-Q学習不確

実性大い環境い適応的探索行ういう明

あ

本研究大車輪運動獲得例 LS-Q 学

習報酬少い状態停滞巧回

避様相解析普遂的探索理論局性や論

理階層混同[高橋 2013] あい部観測[松 2000] 意

義効用考察

2. LS-Q

学習によ

大車輪ロボット

実現

人間知推論や意思決定偏

p ば q q ば p 推論傾向性対称性

あう推論論理的必

い経験的ばば有用あ人間知能柔軟

関係い考え [服部2008] LS 人間対

称性定的再現一方 1 状態強学習

課題あ n本腕ン問題い優

ン示知い [篠原 2007]

々状態数 N個あ一般的強学習課題

適応可能強学習手法あ Q学習行動遥択 LS

応用手法 LS-Q学習提案い Q学習実

装容易多学習対象適用可能あ学習要

試行回数膨大あや環境不確実性影響大

い課題あ LS-Q学習学習速度改善且環

境不確実性影響小大車輪

制御ュョンい図1

2.1 LS-Q学習

LS-Q学習行動遥択学習簡単述

図2 詳細文献[Uragami 2014] LS-Q学習

C-table 基い行動遥択行う C-table greedy 行動

Q 最大行動遥択回数以外行動遥択

回数状態記録あ C-table 次式

う LS 評価

( |行動 )

⁄

⁄ ⁄ 連絡先：浦大輔東京工大学ンュン学

部東京都八王子市倉 1404-2 [email protected]

2N5

-

OS

-

03b

-

1

(2)

- 2 - LS(greedy|行動 A) LS(greedy|行動 B) 計算大い

方行動 LS-greedy 行動学習遃程 ε

-greedy行動遥択 LS-greedy 行動以外行動

定確率遥択 Q 更新通常 Q学習

同様手続行う

2.2 大車輪ロボットへ適用

大車輪図 1中写真う体操鉄棒競技

模あ鉄棒接続部ョン

腰部関節能動的稼働

振運動行う鉄棒接続部第ョン

腰部関節第ョン呼第ョン

角度角速度第ョン角度割散

LS-Q学習 Q 学習状態定義

行動第ョン曲 A0 伸ば A1 停 A2 通

あ報酬鉄棒対先第ョン先端

振角度比例う定義先鉄棒真

位置場合 1 最大先鉄棒真位置

場合 0 最小う設定本研究 ODE

(Open Dynamics Engine) 用いュ構築実験

行

3. 停滞ループ

回避

研究果状態割粗不確定性大

い環境い LS-Q学習 Q学習良いン

示明い [Uragami 2014] え

本研究状態割極端粗第ョン角度

6状態 P0, P1, P2, P3, P4, P5 第ョン角速度 3

状態 W0, W1, W2 第ョン角度 3状態 R0, R1,

R2 合計 6×3×3＝54 状態状態数少い不確定

性大学習時間短縮いう実用利点

わえ状態遤移可視易いう解析利点あ

図 3 ュョン結果 100 試行均あ 0.2

1 行動遥択 Q びC-table 更新

行う横軸学習時間 1000 1

状態初期状態戻い縦軸 1 毎獲得報

酬合計あ学習初期完全ン行動遥択

1 毎 LS-greedy greedy 行動遥択確率

0.02増や最後 10 完全 LS-greedy greedy

行動遥択 LS-Q 学習 Q学習比較学習

開始徐々 LS-Q学習獲得報酬 Q学習回

いわ Q学習学習終盤ン行

動遥択割合小獲得報酬減少い一方

LS-Q 学習獲得報酬一減少い後回

復学習終了時高い獲得報酬得い

図2：LS-Q学習の行動択と学習のアゴズム

図3：学習曲線

図4：回転角の変化

(3)

- 3 -

学習終盤獲得報酬減少現象報酬少い状

態停滞 [坂井2010] 原因あ図4

ン行動遥択割合 0 51 目最初 127

い第ョン回転角変

あ Q学習回転角 0.5 ン 0.5

ン間振動いわ一方 LS-Q 学習停

滞状態 5～45 付近遃渡状態 45～70 付

近経回転至い

図5 52 127 状態遤移図あ

同心 54 割区 P0, P1, P2, P3, P4,

P5 × W0, W1, W2 × R0, R1, R2 指定状態

割当い直線状態間遤移表遤

移回数多いほ線太い Q学習図場合同

心中心側 R2 P3 P4 間遤移中い

第ョン曲姿勢第ョン回転角小

い状態留い停滞意味い多

報酬得一見不適あい遠回見

え一第ョン伸ば報酬小い状態経

必要あいわゆ報酬遅延問題

Q 学習原理的環境性満条件

報酬遅延換算多報酬得う行動

遥択最適本研究学習環境状態割

粗環境不確実性大い最適行動得

いい一方 LS-Q学習(図 5 ) 第ョン伸

ば姿勢 R0 経第ョン回転角大い状

態 P0, P1, P5 至い LS-Q学習停滞

回避い

LS-Q学習う停滞回避い

う？図6 停滞中あ状態 P3, W1, R2

LS 図びC 図わ C-table

変あ状態第ョン曲先振

状態 R2 あ行動 A1 伸ば遥択

先振必要あ図初期

A0 A2 LS 最大い

状態留 A0 A2 LS 降一方

遥択いい関わ相対評価[高橋 2013] 通

A1 LS 昇 A1 LS A0 A2 LS

逆転結果 A1 遥択停滞状態脱出

注目 C 図ほ変いい

あ図中 A1-greやA2-not A1 遥択

行動 Q 最大あ回数や A2 遥択

行動 Q 最大回数あ図中 0

段階既 1000 ×50 学習時間経い

0～40 あ連続 A0 び

A2 遥択 A0-not びA2-not 増い比率

僅あ間 A1 遥択いい

A1-gre び A1-not 変いいわ LS

図急激変い LS 式(1)

効果あ人間推論柔軟効用あ考え [高橋2013]

図７通常 Q学習図 LS-Q学習図 Q

変あ通常 Q学習 A2 Q 最大

A2 遥択続 A2 Q 減少い

他逆転至いい一方 LS-Q学習前半

複数行動入替わ最大い後半 A1

最大 Q い適学習いわ

通常 Q学習 LS-Q学習図 Q 至

十回数 Q 更新行い適 Q

図6：LS-QにおけるLS値とC値の変化

(4)

- 4 - 束いい原因環境非性あ

考え詳細解析今後課題あ

4. おわ

に

本研究人知特性応用強学習

探索効率高且停滞回避様相解析

停滞要因環境不確実性非性あ

考え非的環境い学習可能強学

習い提案い基本潜

ク再構あ時系列

十記憶且時系列見渡

必要あ工学的う方法遥択肢あう

人間知特性触発キク開発

あい人間知能理解い問わう

記憶起源あ＝脳中小人不あ

い創発あ太 1 計算中包

遃去部的真意味並列再構築人工知能

あい脳学最要問題掲い [太

2014] 本研究文脈い太主張

非的環境ク＝1

計算中包遃去＝真意

味並列部的再構あう本研究果

LS わ人間対称性記

再構あい再現前 [Deleuze 1968] 関係い考

えう視点再現前＝表象あい記号再

考記号創発ク [谷口 2000] 部観測繋

断補助線あう

謝辞

本研究一部 25 度東大学電気通信研究共同

ク研究H25/A12 不定環境適応能階層

横断的解明工学的応用東京電機大学総合研究研究 Q13K-03, Q11K-02 本学術振興会学研究費補助金 25730150 .

参考文献

[Uragami 2014] Uragami, D., Takahashi, T., Matsuo, Y.: Cognitively inspired reinforcement learning architecture and its application to giant-swing motion control, BioSystems, 116, 1-9, 2014.

[高橋 2013] 高橋達二: 論理的階層縮部観測

乗越え, 2013 度人工知能学会全国

大会(第27回)予稿 , 1L3-OS-24a-2, 2013.

[松 2000] 松孝一郎: 部観測何青土社 2000

[服部 2008] 服部史: 推論断等確率性仮説：思考対

称性適応的意味, 知学, 15, 3, 408–427, 2008.

[篠原 2007] 篠原修二口亮桂浩一新恒 : 因果性

基信念形 N本腕ン問題応用

人工知能学会論文 22巻1号G pp.58-68 2007

[坂井 2010] 坂井直樹川辺直人原之豊希薮哲

郎: 強学習用い大車輪運動獲

得行動形態考察計測自動制御学会論文 Vol.46 No.3 pp.178-187 2010

[太 2014] 太宏之: 性前提い情報処理

向第 25回計測自動制御学会 SI部門共創

部会研究会第8回部観測研究会共同開催 , 2014.3.8

口頭講演予定

[Deleuze 1968] Deleuze, G., Différence et repetition, P.U.F.,

1968 ( 差異復財津理訳河出書新社 1992).

[谷口 2010] 谷口忠大: ュケョン創

PDFファイル 2N5OS03b オーガナイズドセッション「OS3 内部観測と探索 」