意思決定科学：マルコフ連鎖

(1)

意思決定科学：マルコフ連鎖

情報学部堀田敬介

2012年1月24日（金）

(2)

マルコフ連鎖とは？

 ex1

）酔歩

（ランダムウォーク）

3m

車道危険ドブ

危険

1m 50cm

50cm

0.4 0.2 0.4

100m

(4)

マルコフ連鎖とは？

手持ちの玉：

90

個目標：

100

個

1

個

当りはずれ

0

個

2

個

p 1-p

破産：

0

個

 ex2

）パチンコ必勝法？（破産問題）

出展：「オペレーションズ・リサーチ」p.187,例7

(5)

マルコフ連鎖とは？

 ex3

）蜜柑取りゲーム



おじいさんと猫のタマちゃんでカルタ取りをする．



最初に蜜柑を

3

個ずつ所持している．



カルタ取りをやって勝った方が相手から一つ蜜柑をもらう



おじいさんとタマちゃんの勝率は，

6 : 4



タマちゃんが蜜柑を全部取られてしまう可能性は？

出展：「オペレーションズ・リサーチ」p.168,例1

(6)

マルコフ連鎖とは？

 ex3

）蜜柑取りゲーム

 X_t

：

t

回目のカルタ取り終了後にタマちゃんが持ってる蜜柑の個数

0 1 2 3 4 t

X_t 6

3

タマちゃんの勝ちタマちゃん

の負け

問題は，無数にあるこのパスが，上のライン

6

に届くことなしに，下のライン

0

に達する確率を求めること

5 6 7

難しい

!?

サンプルパス sample path

（見本路，標本関数）

0

個

6

個

0.4 0.6

ランダムウォーク

（酔歩）

(7)

吸収状態 absorbing state

マルコフ連鎖とは？



マルコフ性

Markov property

『現在の状態がわかっていれば，これまでの経緯（履歴）に関係なく，次の状態がどうなるかを確率的に予測できる』

A.A. Markov (1856-1922)



状態遷移図（推移図）

 X_t

がマルコフ性を持っていれば描ける

ex3）タマちゃんの蜜柑所持数 X_t の推移図

3 4 5 6

1

0 2

0.4

0.6

0.4 0.4

0.6 0.6

1.0 1.0

吸収状態

(8)

マルコフ連鎖とは？



演習１：



状態遷移図（推移図）を書いてみよう

 ex1）酔歩

 ex2）破産問題

1m 50cm

50cm

0.4 0.2 0.4

3m

1.5 2.0 2.5 3.0

0.5

0 1.0

0.4 0.4

0.4 0.4 0.4

1.0 1.0

0.4 0.4

0.4

0.2 0.2 0.2 0.2 0.2

吸収状態吸収状態

(9)

マルコフ連鎖とは？



確率過程

stochastic process



状態が時間と共に変化する時系列

 離散時間過程：tが離散値をとる場合例：T = {0, 1, 2, …}

 連続時間過程：tが実数値をとる場合例：T = [0, ∞)

 状態空間 state space … 状態の全体例：S = {1, 2, 3, …}



^X_t ^,^t ^^T



パラメータ空間



^X _₁ ^ ^k ^X₁ ^ ^j₁^, ^X₂ ^ ^j₂^, ^, ^X ^ ^j



^ ^?

P _t  _t



マルコフ過程

Markov process



マルコフ性を持つ確率過程



^X ^k ^X ^j ^X ^j ^X ^j

 

^P ^X ^k ^X ^j



P _t_₁  ₁  ₁, ₂  ₂,, _t   _t_₁  _t 

次の状態 X_t+1が一つ前の状態 X_tに

のみ依存する

特に，状態が離散的な場合，マルコフ連鎖

Markov chain



^X_t ^,^t ^^T



Sが有限

↓ 有限マル

コフ連鎖

(10)

推移確率



推移確率

transition probability



（時点

t

における）状態

j

から状態

k

への（

1

ステップの）確率



斉時的

homogeneous

マルコフ連鎖



推移確率が時刻

t

に依存しないマルコフ連鎖



推移確率行列



^X ₁ ^k ^X₁ ^j₁^, ^X₂ ^j₂^, ^, ^X ^j

 

^P ^X ₁ ^k ^X ^j



^p ⁽^t⁾

P _t_     _t   _t_  _t   _jk

jk

jk t p

p ( ) 

時間と共に確率が変わらない



















ss s

s

s s

jk

p p

p

p p

p

p p

P

 





 

2 1

2 22

21

1 12

11

] [



 



 







1 ,

0

S k

jk

jk p

p

マルコフ性より

1 2

p₁₂

s 3

p₁₃ p_1s

p₁₁

p₂₁

p₂₂

p₂₃

… ^p³¹ ^p32

p_3s

(11)

推移確率

 2

ステップ後の推移確率？



時刻

t

で状態

j

にいて，

2

ステップ後（

t+2

）に状態

k

にいる確率

 





    



 _s

h

hk jh sk

js k

j k

j

t t

jk

p p p

p p

p

j X

k X

P p

1 2

2 1

1

2 )

2 (



j 1

2

s k

p_js p_j2 p_j1 p_jj

p_sk

p_2k p_1k p_jk

X_t s

j

k

p_j2 p_js

p_j1

p_1k p_j3

1 2

3 p_2k p_3k p_sk

t t+1 t+2

… …

p_jk

…

(12)

推移確率

 2

ステップ後の推移確率？



時刻

t

で状態

j

にいて，

2

ステップ後（

t+2

）に状態

k

にいる確率

 





    



 _s

h

hk jh sk

js k

j k

j

t t

jk

p p p

p p

p

j X

k X

P p

1 2

2 1

1

2 )

2 (



2

ステップ後の推移確率行列：

m

ステップ後の推移確率行列：

^P⁽^m⁾ ^

 

^p⁽_jk^m⁾ ^ ^P^m

2

2 1

2 22

21

1 12

11

2 1

2 22

21

1 12

11

) 2 ( )

2 (

2 )

2 (

1

) 2 ( 2 )

2 ( 22 )

2 ( 21

) 2 ( 1 )

2 ( 12 )

2 ( 11 )

2

( P

p p

p

p p

p

p p

p

p p

p

p p

p

p p

p

p p

p

p p

p

p p

p P

ss s

s

s s

ss s

s

s s

ss s

s

s s











































































(13)

推移確率



演習

2

：

 ex1

）酔歩

2

ステップ後の推移確率

 時刻 t で状態1.5にいて，2ステップ後（t+2）に状態 1.5 にいる確率

 時刻 t で状態1.5にいて，2ステップ後（t+2）に状態 2.0 にいる確率

1.5 2.0 2.5 3.0

0.5

0 1.0

0.4 0.4

0.4

0.4 0.4 1

1

1m 50cm

50cm

0.4 0.2 0.4

3m

0.4 0.4

0.4

0.2 0.2 0.2 0.2 0.2

吸収状態吸収状態

 

36 . 0 16

. 0 04

. 0 16

. 0 4

. 0 4 . 0 2

. 0 2 . 0 4

. 0 4 . 0

5 . 1 5

. 1

5 . 1 0 . 2 0 . 2 5 . 1 5

. 1 5 . 1 5 . 1 5 . 1 5

. 1 0 . 1 0 . 1 5 . 1

2 )

2 (

5 . 1 5 . 1

















  

  









p p

X X

P

p _t _t

 

16 . 0 08

. 0 08

. 0 2

. 0 4 . 0 4

. 0 2 . 0

5 . 1 0

. 2

0 . 2 0 . 2 0 . 2 5 . 1 0

. 2 5 . 1 5 . 1 5 . 1

2 )

2 (

0 . 2 5 . 1













 

  









p p

X X

P

p _t _t

(14)

m

0 t

状態確率・状態分布

 2

ステップ後の状態確率？



（時点

0

から）

2

ステップ後に状態

k

にいる確率：



（時刻

0

から）

m

ステップ後に状態

k

にいる確率：



状態分布（状態確率ベクトル）

初期状態分布π(0)が与えられると

) 2

k (



)

k (m



 ⁽ ^), ⁽ ^), ^, ⁽ ⁾

)

(m  ₁ m ₂ m _ _s m π

Pm

P m

m) ( 1) ( 2) (0)

( π π ² π

π     

) (m π )

0 (

π π(t)

我々が知りたいことの一つはπ(m)

(15)

推移確率・状態確率



演習３：



推移確率（推移確率行列），状態確率を計算してみよう！

 ex4）ランチの後の飲み物（出展：「オペレーションズ・リサーチ」p.175,例2）

 Mさんは，食後に「珈琲」「ココア」「檸檬ティー」を飲むが，いつも前日とは異なる飲み物を飲みたいと思っている．前日に「ココア」か「檸檬ティー」を飲んだ場合は，今日は残りの2つを確率1/2で選択し，前日に「珈琲」を飲んだ場合は，今日は必ず「檸檬ティー」を飲む．

 状態遷移図（推移図）を書き，推移確率行列を求めよう．

 状態確率を求め，Mさんが1ヶ月の間に各飲み物をどの程度の割合で飲んでいるのか推測してみよう．

珈琲ココア檸檬ティー

 ? P

2  ? P

10  ? P

30  ? P

? )

(m  π

(16)

マルコフ連鎖とは？



定常分布

stationary distribution



『

αP=α

』を満たす確率ベクトル

α

を定常分布という

 例：初期状態分布：π(0)=αのとき，すべの時点 t で定常分布 π(t)=α

∵） π(m) = π(m-1)P = π(m-2)P² = … = π(0) P^m = αP^m-1 = … = α

 例2：ランチの飲み物











 

0 0

0 .

100.5 00.5 00..55 P

^₁ ^₂ ^₃



α として，αP=αを解くと，…









 



2 1

3

1 2

3 2

1

5 . 0 5

.

00.5 0.5 1.0



 

  



3 1

2

1   

 _として，_…

⁴^/⁹ ²^/⁹ ³^/⁹

 α

定常分布

注： m が大きいときの P^mの各行ベクトルと等しい！











 

3333 .

0 2222 .

0 4444 .

0.4444 0.2222 0.3333 0.4444 0.2222 0.3333

30 0 P

状態空間が既約（推移図が強連結），

状態数が有限，

非周期的なマルコフ連鎖（状態jの周期性指数が1），

全ての状態が正再帰的（その状態に戻る平均再帰時間が有限）

→ mを大きくすると，状態分布は初期状態に関係なく，定常分布 αに収束する

(17)

マルコフ連鎖とは？



定常分布

stationary distribution

 例2：蜜柑とりゲーム

 吸収状態のα₀，α₆が一意的に定まらない．















0 . 1 0

0 0

0 0 0 0 0.6 0 0.4

0 0 0 0.6 0 0.4 0 0 0 0.6 0 0.4 0 0 0 0.6 0 0.4 0 0 0 0.6 0 0.4 0 0 0 0

0.0 0 0 0 0 0 0

1 P



定常分布の性質

 時間的に定常（αP=αの解）

 既約で非周期的な場合は，mを大きくしたときの推移確率の極限は定常分布になる

 観測時間が長いときの各状態の現れる回数の相対頻度が定常分布に近づく（＝エルゴード性 ergodic property）

(18)

例題



破産問題（パチンコ）

₁_個

当りはずれ 0個

2個

p=0.45 1-p

手持ちの玉：90個目標：N=100個

破産：0個

状態空間

S={0,1,…,N}

a_j

：手持ちの玉数

j

から開始して目標に達する前に破産する確率



  _   _  

) (

0 ,

1

) 1 ,

, 2 , 1 (

)

1 (

0

1

1 境界条件

N

j j

j

a a

N j

a p pa

a 

j

j+1

j-1 p

1-p

最初に玉が入る

最初に玉が入らない ^

















 



  







 



 



 





 













  

1

0 0 1 0

0 1 1 1

1 1

) 1 (

) (

) )(

1 ( ) (

) 1 (

j

k

k j

j j

j

j j j

j

j j j

j

j j

j

p a p

a a

a

a p a

a a p a

a p

a p pa

a

















 



  





 



  









 



  





1

0

1

0 0

0 1

1

0 0 1 0

1 1 1

) 1 (

N

k

k N

k

k N

N

k

k N

p p

p a p

a a

a

p a p

a a

a























 



 



 



 



 



 





 



 



 



 















2) ( 1

1

2) ( 1

1 1

0 1

0

p N if

j

p if p

p p

p

p p p

p

a ^N

N j

N

k

k j

k

j

（出展：「オペレーションズ・リサーチ」p.187,例7）

(19)

例題



釣銭問題

会費

7000

円のパーティで幹事のあなたは釣銭を幾ら用意すべき

? N

人の参加者が，受付で会費を

 1万円札で支払う確率 p，

 5千円札と千円札で支払う確率 q，

 千円札だけで支払う確率 r

とすると，お釣りを千円札で何枚用意しておくべきか？

N=20

人とし，釣銭を千円札で

10

枚用意した．

（１）状態空間を考え，推移図の概略を描け

（２）

p=0.4,q=0.5,r=0.1

のとき，途中で釣銭のなくなる確率を求めよ．

（出展：「オペレーションズ・リサーチ」p.189,演習10.3）

(20)

例題



釣銭問題



状態空間：

S={ruin,0,1,2,…,150} ruin 0 1 2 … 150

 ⁾ ¹

0 200

100

2020 2 20 7 20 0 3

10           r q p

r q

p 

3 .

 0

 r

q ^程度だと^ruin^{にならない．今，}q=0.5,r=0.1より，千円札は支払順を考えなければ，支払確率がp,q,rであることより，

44 2

7 10 2

10     

なので，状態は45程度まで考えれば十分．

P²⁰を計算して，p_10,ruinを求める．

m ruin

m-3 m+2 m+7

p q

p (if m=0,1,2)

r

1

(m=0,1,2,…,143) (if m=3,…,143)

(21)

参考文献



森雅夫・松井知己「オペレーションズ・リサーチ」朝倉書店

（2004）



伏見正則「確率と確率過程」講談社（

1987

意思決定科学：マルコフ連鎖