PDFファイル 3L3OS26a オーガナイズドセッション「OS26 金融情報学―ファイナンスにおける人工知能応用― 」

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

3L3-OS-26a-4

実取引環境

複利型強化学習用

取引戦略獲得

Acquiring Trading Strategy Using Compound Reinforcement Learning

in Online Trading Platform

松井藤五郎

∗

1

Tohgoroh Matsui

長瀬舜

∗

1 Shun Nagase

後藤卓

∗

2 Takashi Goto

和泉潔

∗

3 Kiyoshi Izumi

陳

∗

3

Yu Chen

鳥海不二夫

∗

3

Fujio Toriumi

∗

1

_中部大学

Chubu University

∗

2

_{株式会社三菱東京}

_UFJ

_銀行

Bank of Tokyo-Mitsubishi UFJ, Ltd.

∗

3

_東京大学

The University of Tokyo

This paper describes an application of compound reinforcement learning to an online trading platform. We use TradeStation that is the most popular online trading platform among individual investors. We propose a measure for commission fee in order to improve the winning rate.

1.

我々，，日本株仮想取引環境

複利型強化学習 [松井11a, Matsui 12, 松井11b,

松井13b,松井13a] 用取引戦略獲得手法開発

[松井07,松井09,後藤13]． ∗1 ，Java

環境，

分析指標株取引必要 API 提供

，様々環境高度取引戦略実装

[鳥海06]．，注文出機会前

場開前後場開前 1日2回制限，

行．一般的

注文出機会多安定運用行可

能性高，本研究，安定運

用目指．

対，TradeStation∗2 ，価格情報更新

実行，更新間隔短

行．，TradeStation

，開発用実際取引行

．

，本論文，開発複利型強化学習

用取引戦略獲得手法 TradeStation上実装，

行方法提案．，TradeStation

EasyLanguage 独自言語用，取引必要

API 十分提供．，複利型強化学習

用取引戦略獲得実装上工夫必要．

，，価格変動小，手

数料場合細取引行勝率極端悪

．，本論文，防手数料対策方法

提案．

従来研究[後藤13] 本研究環境違表1 示

．従来研究最大違，時間足日足分足

行点．他，[中原13] ，

強化学習用株取引行研究行研究

，実取引可能環境強化学習行．

連絡先: 松井藤五郎, 中部大学, 愛知県春日井市松本町1200,

TohgorohMatsui@tohgoroh.jp ∗1 http://www.kaburobo.jp ∗2 http://www.tradestation.com

表1:従来研究[後藤13] 比較

[後藤13] 本研究 TradeStation 使用言語 Java EasyLanguage

○ ○

実取引 × ○

対象商品日本株米国株

時間足日足分足

2. 複利型強化学習用

株取引戦略獲得

複利型強化学習，割引複利利益率（割引複利）

(

1

+

Rt+1f

)(

1

+

Rt+2f

)

γ

(

1

+

Rt+3f

)

γ

2 . . .

=

∞

∏

k=0

(

1

+

Rt+k+1f

)

γ

k

期待値最大化行動規則学習．，Rt

時刻t 観測利益率（），γ 割引率

，f 投資比率表．割引複利利益率，

対数取，従来強化学習同再帰的形

表．，行動規則π 下状態s

価値Vπ

₍

_s

₎

行動規則

π 下状態s 行動a 価

値Qπ

₍

_s_,_a

₎

次表．

Vπ

₍

_s

_{) =}

_E π

[ log

∞

∏

k=0

(

1

+

Rt+k+1f

)

γ

k

st

=

s

]

=

∑

a∈A

π

(

s,a

)

∑

s′_∈S

P

_ssa′ (

R_ssa′

+

γVπ

(

s′

)

) (1)

Qπ

₍

_s_,_a

_{) =}

_E π

[ log

∞

∏

k=0

(

1

+

Rt+k+1f

)

γ

k

st

=

s,at

=

a

]

=

∑

s′_∈S

P

_ssa′(R_ssa′

+

γVπ

(

s′

)

) (2)

，π

(

s,a

)

行動規則π 下状態s 行動a

選択確率（行動選択確率），

P

a

ss′ 状態s 行動

a 行次状態 s′ 確率（状態遷移確率），

Ra_ss′ 状態s 行動a 行次状態 s′

(2)

Algorithm 1複利型OnPS ．

入力:割引率γ,強化学習率α,初期優先度p,初期投資比率f,投資比率学習率η

for alls,ado

P(s,a) p 初期化

f(s,a) f 初期化

end for

loop(各対繰返 )

c(s,a)←0 for alls,a

状態s 初期化

repeat( 各対繰返 )

P 導行動規則従 s 行動a 選択 c(s,a)←c(s,a) +1

行動a 実行，利益率R 次状態s′ 観測 for alls,ado

P(s,a)←P(s,a) +αlog(1+R f(s,a))c(s,a)

c(s,a)←γc(s,a) end for

f(s,a)← f(s,a) +η₁₊_{R f}R₍_s_,_a₎

s←s′

untils 終端状態

end loop

得利益率投資比率掛 1 加

対数期待値

Rass′

=

Eπ

[

log

(

1

+

rt+1f

)|

st

=

s,at

=

a,st+1

=

s′] (3)

表．複利型強化学習， s, a 対

Qπ

₍

_s_,_a

₎

最大化行動規則

π 学習．

本論文，取引戦略学習勾配法用

投資比率最適化複利型OnPS [後藤13,松井13b] 用

．複利型OnPS Algorithm 1 示．

複利型強化学習状態，終値移動標準偏差基

二次元空間表現．株価大変動，直近

比較相対的値正規化

，株価大異場合学習行動規則利用

．具体的，移動平均移動標準偏差算

出期間 k ，以下相対化[Matsui 09] ．

ot

=

vt

−

µ_t_,_k

4σ_t_,_k (4)

，vt t 値，µ_t_,_k 時刻t 直近k個

求移動平均，σ_t_,_k 同移動標準偏差表．終値

相対化値相対終値（RCP），移動標準偏差相対化

値相対移動標準偏差（RMSD）呼．RCP 正

現在株価移動平均株価大，，株価上

昇表．RMSD 正現在標

準偏差移動平均標準偏差大，，株価変動

大表．値共連続

値，15

×

15 格子状配置動径基底関数用

線形関数近似行．

行動買売 2種類．株式

購入状態・，株式信用売

状態・．，複

利型強化学習学習取引戦略行動選択

，勾配法学習投資比率 f

大調整．

3. TradeStation

Strategy

構築

TradeStation ，米国 TradeStation社提供個

人投資家向実取引環境．TradeStation ，米国

株式，，先物，FX 4種類金融商品取引

行，行

．2011年4月・

同社株買収，日本向

公開予定．本研究，米国版

TradeStation9.1 使用．

TradeStation 自動取引，Strategy 呼．Strategy ，TradeStation 提供様々機能，Chart 呼機能適用．

Strategy ，EasyLanguage 呼専用言語記述．TradeStation TradeStation Development Envi-ronment 呼 EasyLanguage専用開発環境用意

，利用 Strategy 作成・編集．

TradeSta-tion ，銘柄，時間足，期間指定，指令

銘柄，時間足，期間 Chart（時系列）作成．

Chart Strategy 適用，Strategy 記述

従，期間行．

EasyLanguage ，TradeStation専用

記述言語．例，

Buy 100 shares next bar at market;

命令，次足（next bar）成行（at market）

100株（100 shares）買注文出（Buy）表．

，単純専用，

，実取引前提言語，複利型強化学習

用 Strategy 構築上必要中

取引，保有資産評価額，総資産額等計算

API 用意．，，強化学

習上必要，保有資産評価額，総資産額

取引記録基算出．

本論文，状態変数相対終値相対移動標準偏差

直近30足求．相対化前移動標

準偏差計算直近30足用，状態変数

求直近60足必要．証券取引所，

平日昼間取引行，市場開直後，

直近60足前日含．市場開

直後株価前日終値大乖離

，本研究，市場開 60足間取引行

．

実際 Strategy TradeStation 実行画面図1 示．Chart 横軸時間，縦軸株価示，

（移動標準偏差）表示．足対

下矢印買注文，上矢印売注文，数値

取引株数示．Chart中縦破線営業日境目示

． Chart ，営業日境目株価大変

確認．，市場開間，

取引行確認．

我々，[長瀬13] ，上場投資信託 SPDR S&P

500 ETF Trust (SPY) 取引対象，時間足 1分足，手数

料 0 実験行．学習期間 1週間，2週間，1

月，3 月，6 月，1年，2年，運用期間 1日，

無作為 30回行，利益率，最大

，評価．参考，2012年

2013年 SPY 値動（日足終値）図2 示．

(3)

図1: TradeStation 実行画面．

図2: SPDR S&P 500 ETF Trust (SPY) 値動．

図3 ，30回結果幾何平均利益率 1

年間 250営業日年換算利益率求結果．

学習期間 3 月以下 2年利益

，学習期間 6 月年換算

10.2%，学習期間 1年年換算 23.2% 利益

．，学習期間 1年，

利益取引戦略獲得確認．

，結果手数料，

手数料一株当 $0.1 ，極端勝率悪，利

益出判明．，購入価格

価格動関，細取引

行．，本論文，以下手数料対

策提案．

4. 手数料対策

，株価購入価格変動手数料分小間

，取引．，購入価格変動

手数料分小間，取引行必損

失発生．実際，損失発生

取引行場合得，，

場合考．

次，現在学習中最適投資比率実際投資比率乖離

際生追加注文部分決済調整

取．調整行，細

取引大幅削減期待．調整

行，平均購入価格変動，変動手数料分小

間取引行対策影響大．

例，追加注文行，平均購入価格上昇，平均

購入価格対手数料上乗分上昇取引

図3:年換算利益率．

図4:定数量導入前後学習期間中一日取引回数

勝率比較．

行．

，含益状態変数追加．，

状態相対終値，相対移動標準偏差，含益 3次

元表現．，，現在含益

出知，含益出

決済行動学習期待．

，状態変数加状態特徴数増，動径

基底関数 15

×

15

×

15 9

×

9

×

9 格子状配置

．

5. 実験結果

提案手数料対策有効性確認，実験行

．取引対象手数料対策導入前同 SPY ，時

間足導入前同 1分足．2013年各月第3水曜

日期間，直前 1年間学習期間．結

果図5 示．

左側縦棒一年 250営業日換算一日

取引回数表，右側棒勝率表．手数

料導入勝率 47.9% 3.1% 激減，提案

手法手数料対策行勝率 37.1%

回復．一日取引回数，手数料

200.4回対，手数料導入後 151.5回，手

数料対策行 24.5回．

，取引勝状況絞込，負

取引大幅削減意味．一日勝

取引回数，手数料対策行，4.71回

9.09回増加．

提案手数料対策勝率大幅改善，手

数料場合運用成績正．

，個人投資家向手数料適用場合

，頻繁行利益得難

．

(4)

図5:学習期間中一日取引回数勝率．

6.

本論文，複利型強化学習用取引戦略獲得手

法 TradeStation上実装，行方法

述．本手法直近状態変数求

，市場開直後状態変数

前日影響受，前日影

響間取引行．本手法用評価，

学習期間 1年複利利益率最大

確認．，手数料，勝率極端

下利益出．

，本論文，手数料対策，価格変動手数

料分小間取引行，資産評価額変動

状態遷移実際投資比率推定最

適投資比率乖離調整行，状態

変数含益加 3点提案．実験，

提案手法用手数料場合勝率大

改善確認．

，勝率改善，運用成績正

．個人投資家向手数料

場合資産安定的運用

難，今後，強化学習

等運用成績正検討行

．

留意事項

本論文三菱東京UFJ銀行公式見解表

．

謝辞

本研究使用 TradeStation

証券株式会社提供．感謝

意表．

参考文献

[Matsui 09] Matsui, T., Goto, T., and Izumi, K.: Acquiring a government bond trading strategy using reinforcement learning,Journal of Advanced Computational Intelligence and Intelligent Informatics, Vol. 13, No. 6, pp. 691–696 (2009) [Matsui 12] Matsui, T., Goto, T., Izumi, K., and Chen, Y.:

Compound Reinforcement Learning: Theory and An Ap-plication to Finance, in Sanner, S. and Hutter, M. eds., Recent Advanced in Reinforcement Learning: Revised and

Selected Papers of the European Workshop on Reinforcement Learning 9 (EWRL 2011), Vol. 7188 ofLecture Notes in Com-puter Science, pp. 321–332 (2012)

[後藤13] 後藤卓,松井藤五郎,大澄祥広：複利型強化学習株

式取引応用,第27回人工知能学会全国大会(JSAI 2013),

4I1-OS-16-4 (2013)

[鳥海06] 鳥海不二夫：株式売買株

作 !,秀和 (2006)

[中原13] 中原孝信,羽室行信,岡田克彦,宇野毅明：強化学

習用相場検知株取引適用,第27回人

工知能学会全国大会(JSAI 2013), 1E4-3 (2013)

[長瀬13] 長瀬舜, 松井藤五郎, 後藤卓, 和泉潔, 陳 , 鳥

海不二夫：TradeStation 複利型強化学習用

Strategy構築,第12回人工知能学会金融情報学研究会 (SIG-FIN), pp. 51–55 (2013)

[松井07] 松井藤五郎：招待–人工知能用株

式取引–,人工知能学会誌, Vol. 22, No. 4, pp. 540–547 (2007)

[松井09] 松井藤五郎,後藤卓：強化学習用金融市場取

引戦略獲得分析, 人工知能学会誌, Vol. 24, No. 3, pp.

400–407 (2009)

[松井11a] 松井藤五郎：複利型強化学習,人工知能学会論文誌,

Vol. 26, No. 2, pp. 330–334 (2011)

[松井11b] 松井藤五郎,後藤卓,和泉潔,陳：複利型強化学

習枠組応用,情報処理学会論文誌, Vol. 52, No. 12, pp.

3300–3308 (2011)

[松井13a] 松井藤五郎：複利型強化学習—強化学習

応用—,計測制御（計測自動制御学会誌）, Vol. 52,

No. 11, pp. 1022–1027 (2013)

[松井13b] 松井藤五郎,後藤卓,和泉潔,陳：複利型強化学

習投資比率最適化,人工知能学会論文誌, Vol. 28,

No. 3, pp. 267–272 (2013)

PDFファイル 3L3OS26a オーガナイズドセッション「OS26 金融情報学―ファイナンスにおける人工知能応用― 」

3L3-OS-26a-4

実取引環境

複利型強化学習 用

取引戦略 獲得

Acquiring Trading Strategy Using Compound Reinforcement Learning

in Online Trading Platform

松井 藤五郎

∗

長瀬 舜

∗

後藤 卓

∗

和泉 潔

∗

陳

∗

鳥海 不二夫

∗

∗

中部大学

∗

株式会社三菱東京

UFJ

銀行

∗

東京大学

1.

2.

複利型強化学習 用

株取引戦略 獲得

(

+

)(

+

)

(

+

)

=

∏

(

+

)

(

)

(

)

(

) =

∏

(

+

)

=

=

∑

(

)

∑

P

+

(

)

(

) =

∏

(

+

)

=

=

=

∑

P

+

(

)

(

)

複利型強化学習用

取引戦略獲得

松井藤五郎

長瀬舜

後藤卓

和泉潔

鳥海不二夫

_中部大学

_{株式会社三菱東京}

_UFJ

_銀行

_東京大学

複利型強化学習用

株取引戦略獲得

₍

₎

₍

₎

₍

_{) =}

₍

_{) =}

₍

₎