意思決定科学:マルコフ連鎖
情報学部 堀田敬介
2012年1月24日(金)
Contents
マルコフ連鎖とは?
ランダムウォーク(酔歩),破産問題,
etc.
マルコフ性
状態遷移図(推移図)
推移確率,吸収確率
定常分布,極限分布
Д
マルコフ連鎖とは?
ex1
)酔歩
(ランダムウォーク)
3m
車道 危険 ドブ
危険
1m 50cm
50cm
0.4 0.2 0.4
100m
マルコフ連鎖とは?
手持ちの玉:
90個 目標:
100個
1
個
当り はずれ
0個
2個
p 1-p
破産:
0個
ex2
)パチンコ必勝法?(破産問題)
出展:「オペレーションズ・リサーチ」p.187,例7
マルコフ連鎖とは?
ex3
)蜜柑取りゲーム
おじいさんと猫のタマちゃんでカルタ取りをする.
最初に蜜柑を
3個ずつ所持している.
カルタ取りをやって勝った方が相手から一つ蜜柑をもらう
おじいさんとタマちゃんの勝率は,
6 : 4
タマちゃんが蜜柑を全部取られてしまう可能性は?
出展:「オペレーションズ・リサーチ」p.168,例1
マルコフ連鎖とは?
ex3
)蜜柑取りゲーム
Xt
:
t回目のカルタ取り終了後にタマちゃんが持ってる蜜柑の個数
0 1 2 3 4 t
Xt 6
3
タマちゃん の勝ち タマちゃん
の負け
問題は,無数にあるこのパスが,上 のライン
6に届くことなしに,下のライ ン
0に達する確率を求めること
5 6 7
難しい
!?サンプルパス sample path
(見本路,標本関数)
0
個
6個
0.4 0.6
ランダムウォーク
(酔歩)
吸収状態 absorbing state
マルコフ連鎖とは?
マルコフ性
Markov property『現在の状態がわかっていれば,これまでの経緯(履歴)に関係な く,次の状態がどうなるかを確率的に予測できる』
A.A. Markov (1856-1922)
状態遷移図(推移図)
Xt
がマルコフ性を持っていれば描ける
ex3)タマちゃんの蜜柑所持数 Xt の推移図
3 4 5 6
1
0 2
0.4
0.6
0.4 0.4
0.4 0.4
0.6 0.6
0.6 0.6
1.0 1.0
吸収状態
マルコフ連鎖とは?
演習1:
状態遷移図(推移図)を書いてみよう
ex1)酔歩
ex2)破産問題
1m 50cm
50cm
0.4 0.2 0.4
3m
1.5 2.0 2.5 3.0
0.5
0 1.0
0.4 0.4
0.4 0.4 0.4
1.0 1.0
0.4 0.4
0.4 0.4
0.4
0.2 0.2 0.2 0.2 0.2
吸収状態 吸収状態
マルコフ連鎖とは?
確率過程
stochastic process
状態が時間と共に変化する時系列
離散時間過程:tが離散値をとる場合 例:T = {0, 1, 2, …}
連続時間過程:tが実数値をとる場合 例:T = [0, ∞)
状態空間 state space … 状態の全体 例:S = {1, 2, 3, …}
Xt ,t T
パラメータ空間
X 1 k X1 j1, X2 j2, , X j
?P t t
マルコフ過程
Markov process
マルコフ性を持つ確率過程
X k X j X j X j
P X k X j
P t1 1 1, 2 2,, t t1 t
次の状態 Xt+1 が 一つ前の状態 Xtに
のみ依存する
特に,状態が離散的な場合,マルコフ連鎖
Markov chain
Xt ,t T
Sが有限
↓ 有限マル
コフ連鎖
推移確率
推移確率
transition probability
(時点
tにおける)状態
jから状態
kへの(
1ステップの)確率
斉時的
homogeneousマルコフ連鎖
推移確率が時刻
tに依存しないマルコフ連鎖
推移確率行列
X 1 k X1 j1, X2 j2, , X j
P X 1 k X j
p (t)P t t t t jk
jk
jk t p
p ( )
時間と共に確率 が変わらない
ss s
s
s s
jk
p p
p
p p
p
p p
p p
P
2 1
2 22
21
1 12
11
] [
1 ,
0
S k
jk
jk p
p
マルコフ性より
1 2
p12
s 3
p13 p1s
p11
p21
p22
p23
… p31 p32
p3s
推移確率
2
ステップ後の推移確率?
時刻
tで状態
jにいて,
2ステップ後(
t+2)に状態
kにいる確率
s
h
hk jh sk
js k
j k
j
t t
jk
p p p
p p
p p
p
j X
k X
P p
1 2
2 1
1
2 )
2 (
j 1
2
s k
pjs pj2 pj1 pjj
psk
p2k p1k pjk
Xt s
j
k
pj2 pjs
pj1
p1k pj3
1 2
3 p2k p3k psk
t t+1 t+2
… …
pjk
…
推移確率
2
ステップ後の推移確率?
時刻
tで状態
jにいて,
2ステップ後(
t+2)に状態
kにいる確率
s
h
hk jh sk
js k
j k
j
t t
jk
p p p
p p
p p
p
j X
k X
P p
1 2
2 1
1
2 )
2 (
2
ステップ後の推移確率行列:
m
ステップ後の推移確率行列:
P(m)
p(jkm) Pm2
2 1
2 22
21
1 12
11
2 1
2 22
21
1 12
11
) 2 ( )
2 (
2 )
2 (
1
) 2 ( 2 )
2 ( 22 )
2 ( 21
) 2 ( 1 )
2 ( 12 )
2 ( 11 )
2
( P
p p
p
p p
p
p p
p
p p
p
p p
p
p p
p
p p
p
p p
p
p p
p P
ss s
s
s s
ss s
s
s s
ss s
s
s s
推移確率
演習
2:
ex1
)酔歩
2ステップ後の推移確率
時刻 t で状態1.5にいて,2ステップ後(t+2)に状態 1.5 にいる確率
時刻 t で状態1.5にいて,2ステップ後(t+2)に状態 2.0 にいる確率
1.5 2.0 2.5 3.0
0.5
0 1.0
0.4 0.4
0.4
0.4 0.4 1
1
1m 50cm
50cm
0.4 0.2 0.4
3m
0.4 0.4
0.4 0.4
0.4
0.2 0.2 0.2 0.2 0.2
吸収状態 吸収状態
36 . 0 16
. 0 04
. 0 16
. 0 4
. 0 4 . 0 2
. 0 2 . 0 4
. 0 4 . 0
5 . 1 5
. 1
5 . 1 0 . 2 0 . 2 5 . 1 5
. 1 5 . 1 5 . 1 5 . 1 5
. 1 0 . 1 0 . 1 5 . 1
2 )
2 (
5 . 1 5 . 1
p p
p p
p p
X X
P
p t t
16 . 0 08
. 0 08
. 0 2
. 0 4 . 0 4
. 0 2 . 0
5 . 1 0
. 2
0 . 2 0 . 2 0 . 2 5 . 1 0
. 2 5 . 1 5 . 1 5 . 1
2 )
2 (
0 . 2 5 . 1
p p
p p
X X
P
p t t
m
0 t
状態確率・状態分布
2
ステップ後の状態確率?
(時点
0から)
2ステップ後に状態
kにいる確率:
(時刻
0から)
mステップ後に状態
kにいる確率:
状態分布(状態確率ベクトル)
初期状態分布π(0)が与えられると
) 2
k (
)
k (m
( ), ( ), , ( )
)
(m 1 m 2 m s m π
Pm
P m
P m
m) ( 1) ( 2) (0)
( π π 2 π
π
) (m π )
0 (
π π(t)
我々が知りた いことの一つ はπ(m)
推移確率・状態確率
演習3:
推移確率(推移確率行列),状態確率を計算してみよう!
ex4)ランチの後の飲み物(出展:「オペレーションズ・リサーチ」p.175,例2)
Mさんは,食後に「珈琲」「ココア」「檸檬ティー」を飲むが,いつも前日とは異 なる飲み物を飲みたいと思っている.前日に「ココア」か「檸檬ティー」を飲ん だ場合は,今日は残りの2つを確率1/2で選択し,前日に「珈琲」を飲んだ場 合は,今日は必ず「檸檬ティー」を飲む.
状態遷移図(推移図)を書き,推移確率行列を求めよう.
状態確率を求め,Mさんが1ヶ月の間に各飲み物をどの程度の割合で飲ん でいるのか推測してみよう.
珈琲 ココア 檸檬ティー
? P
2 ? P
10 ? P
30 ? P
? )
(m π
マルコフ連鎖とは?
定常分布
stationary distribution
『
αP=α』 を満たす確率ベクトル
αを定常分布という
例:初期状態分布:π(0)=αのとき,すべの時点 t で定常分布 π(t)=α
∵) π(m) = π(m-1)P = π(m-2)P2 = … = π(0) Pm = αPm-1 = … = α
例2:ランチの飲み物
0 0
0 .
100.5 00.5 00..55 P
1 2 3
α として,αP=αを解くと,…
2 1
3
1 2
3 2
1
5 . 0 5
.
00.5 0.5 1.0
3 1
2
1
として,…
4/9 2/9 3/9
α
定常分布
注: m が大きいときの Pm の各 行ベクトルと等しい!
3333 .
0 2222 .
0 4444 .
0.4444 0.2222 0.3333 0.4444 0.2222 0.3333
30 0 P
状態空間が既約(推移図が強連結),
状態数が有限,
非周期的なマルコフ連鎖(状態jの周期性指数が1),
全ての状態が正再帰的(その状態に戻る平均再帰時間が有限)
→ mを大きくすると,状態分布は初期状態に関係なく,定常分布 αに収束する
マルコフ連鎖とは?
定常分布
stationary distribution 例2:蜜柑とりゲーム
吸収状態のα0,α6が一意的に定まらない.
0 . 1 0
0 0
0 0
0 0 0 0 0.6 0 0.4
0 0 0 0.6 0 0.4 0 0 0 0.6 0 0.4 0 0 0 0.6 0 0.4 0 0 0 0.6 0 0.4 0 0 0 0
0.0 0 0 0 0 0 0
1 P
定常分布の性質
時間的に定常(αP=αの解)
既約で非周期的な場合は,mを大きくしたときの推移確率の極限は定常 分布になる
観測時間が長いときの各状態の現れる回数の相対頻度が定常分布に近 づく(=エルゴード性 ergodic property)
例題
破産問題(パチンコ)
1個当り はずれ 0個
2個
p=0.45 1-p
手持ちの玉:90個 目標:N=100個
破産:0個
状態空間
S={0,1,…,N}aj
:手持ちの玉数
jから開始して目標に達する前に破産する確率
) (
0 ,
1
) 1 ,
, 2 , 1 (
)
1 (
0
1
1 境界条件
N
j j
j
a a
N j
a p pa
a
j
j+1
j-1 p
1-p
最初に玉が入る
最初に玉が入らない
1
0 0 1 0
0 1 1 1
1 1
1 1
1 1
) 1 (
) 1 (
) 1 (
) (
) )(
1 ( ) (
) 1 (
j
k
k j
j j
j
j j j
j
j j j
j
j j
j
p a p
a a
a
a p a
a p a
a p a
a p a
a a p a
a p
a p pa
a
1
0
1
0 0
0 1
1
0 0 1 0
1 1 1
) 1 (
) 1 (
N
k
k N
k
k N
N
k
k N
p p
p a p
a a
a
p a p
a a
a
2) ( 1
1
2) ( 1
1 1
1 1
1 1
1 1
0 1
0
p N if
j
p if p
p p
p p
p
p p p
p
a N
N j
N
k
k j
k
k
j
(出展:「オペレーションズ・リサーチ」p.187,例7)
例題
釣銭問題
会費
7000円のパーティで幹事のあなたは釣銭を幾ら用意すべき
? N人の参加者が,受付で会費を
1万円札で支払う確率 p,
5千円札と千円札で支払う確率 q,
千円札だけで支払う確率 r
とすると,お釣りを千円札で何枚用意しておくべきか?
N=20
人とし,釣銭を千円札で
10枚用意した.
(1)状態空間を考え,推移図の概略を描け
(2)
p=0.4,q=0.5,r=0.1のとき,途中で釣銭のなくなる確率を求めよ.
(出展:「オペレーションズ・リサーチ」p.189,演習10.3)
例題
釣銭問題
状態空間:
S={ruin,0,1,2,…,150} ruin 0 1 2 … 150 ) 1
0 200
100
2020 2 20 7 20 0 3
10 r q p
r q
r q
p
3 .
0
r
q 程度だとruinにならない.今,q=0.5,r=0.1より,千円札は 支払順を考えなければ,支払確率がp,q,rであることより,
44 2
7 10 2
10
なので,状態は45程度まで考えれば十分.
P20を計算して,p10,ruinを求める.
m ruin
m-3 m+2 m+7
p q
p (if m=0,1,2)
r
1
(m=0,1,2,…,143) (if m=3,…,143)
参考文献
森雅夫・松井知己「オペレーションズ・リサーチ」朝倉書店
(2004)