閾値確率基準マルコフ決定過程とポジティブ DP
船 木 洋 一
Ⅰ はじめに
閾値確率基準マルコフ決定過程をポジティブ
DP
として定式化し、その定常な最適政策の存在を 述べる。無限期間の逐次決定問題を考える。システムの可能な状態空間を
S
とする。システムの状態がi
である時の可能な行動空間をA i
とする。時点t
でシステムの状態がi ∈ S
のとき行動a ∈ A i
を 選択すると、その期に直接報酬r
iaが得られ、次の期に推移確率p
ijaで状態j
になる。時点t
で行動 を選択する規則を関数d t
で表す。決定時点がt = 0, 1, …と番号付けられているものとする。各時
点でのこの行動の選択規則の列π≡
{ d d d
00, d d d
11, …, d d d n n ,… }
を政策と呼ぶ。
t
時点における状態をs t 、行動を a t
とするとき( s
0, a
0, s
1, a
1, …, a t
-1, s t )
を時点
t
における履歴と呼ぶ。時点t
で行動を選択する規則が、履歴を考慮して行うか、考慮しな いで行うか、ランダムな選択を許すか、許さないかによって、政策を以下のように呼ぶことにしよう。政策:履歴に依存しランダムな選択を許す、もっとも一般的な政策。
マルコフ政策:現在の状態にのみ依存しランダムな選択を許す政策。
定常政策:マルコフ政策でランダムな選択を許さず害害害害害害害害害害害
、各時点の決定規則が同じ政策。
割引率
( discount factor )
をβ ( 0< β <1 )
として、時点t
における直接報酬をR t
であらわすと、無限期間の割引総報酬
V
はV= Σ
tβ t t t R R t
であらわされる。これは確率変数であり、値は初期状態i
と選択した政策πに依存して決まる。それを強調したいときにはV i
πと書く。その期待値をE E E
ππ[ i V ]
であらわす。すべてのi
に対して、この期待値を最大にする政策を割引最適政策と呼ぼう。本稿を 通して次の仮定を置く。仮定1
(1)
状態集合S= {1, 2, …}は可算、
(2)
A i
は各i ∈ S
に対して完備可分距離空間のコンパクトな部分集合、(3)
直接報酬r ( 0 i a - < r i a < - G )は各状態 i ∈ S
に対してa
に関して連続、(4)
推移確率p ij a
は各状態i ∈ S
とj ∈ S
に対してa
に関して連続。この仮定1が成立する時、定常政策の中に割引最適政策が存在することが知られている。
Ⅱ 閾値確率基準
ここで割引総報酬が一定の値を超える確率
P
π[ i V > - C ]を考えよう。これは政策πを用い、初期
状態i
から出発したときの割引総報酬がC
以上となる確率をあらわす。この確率を最大にする政 策を求めたい。s
π up P
π[ i V > - C ]
を与える政策である。この基準を閾値確率基準と呼ぶことにしよう。初期時点で状態
i
にあり、目標はV > - C
とする。状態i
で行動a
を選択して、報酬r ij a
を得て、次の時点で状態
j
に推移したとする。そうすると、次の時点での目標は、V V V j j > - ( C - r ij a ) / β
となる。(た だしV V V j j
は次の時点以後の割引総報酬である。)なぜならばV = r ij a + β V V V j j > - C
となるからである。この章以降、現時点で得られる直接報酬を次の時点の状態
j
にも依存するとする。この場合、前 章での直接報酬はr i a = Σ
jr ij a p ij a
として考える。(r ij a
は0 < - r ij a < - G
であり、各状態i, j ∈ S
に対してa
に関して連続であると仮定する。)[状態空間の拡張]
閾値確率基準では、最適政策を求めるときに、マルコフ政策のみを考えたのでは十分ではない。
拡張した状態空間の上でのマルコフ政策を考えなければならない。この点を説明しよう。今、従来 の政策の意味でπ=
{ d d d
00, d d d
11, … }
を考える。q ( i a )
でd d d (
00i ) = a
となる確率を表す。本稿を通して度数 分布の形でのみ証明する。するとP
iπ[ V > - C ]= Σ
aq (a)
iΣ
jp ij a P P P j j π π π [ ' ' V > - C C C ' ' ] ……… (1)
となる。ここで
C' = ( C - r ij a ) / β
であり、π' = { d d d
00' , d d d
11' , … }は政策πを一つずらした政策である。
d t
d t
d ' ( h t ' ) = d d d t t
+1( h t
+1)
で定義される。ただしt > - 0
に対してh t
+1= ( i , a , s
0' , a
0' , …, a t
-1' , s t ' )
のとき
h t ' t ' t = ( s
0' , a
0' , …, a t
-1' , s t ' ' ' ) )
である。上式
(1)の両辺で政策πに関して sup
をとるとs up π P
πi [ V > - C ] =s up
π 兼 献験
Σ
aq ( i a ) Σ
jp ij a P P P
πj j [ ' V > - C C C ' ' ]
券献 鹸=sup
d0 d0 d
兼 献
験
Σ
aq ( i a ) Σ
jp ij a s up π' ( P P P
πj j [ ' V V V > > - C C C ' ' ] )
券献鹸 となる。s
up P π' P P
πj j [ ' V V V > > - C ' ' ' ] ]
の値はの値はC '
により影響を受ける。ここでC ' = ( C - r ij a ) / β
であるから、右辺 を最大にするd d d
00はC
の値にも依存する。すなわち最適政策もC
に依存する。したがって、この目的関数を持つ、マルコフ決定モデルでは、最適政策は、その時点までのシステムの状態と行動ば かりでなく、基準となる値
C
にも依存する。それで、システムの状態
S
と実数直線R
との直積S × R
を考えて、これを拡張された状態空間 と呼ぶことにしよう。この拡張された状態空間は非可算の集合となる。また、S × R
の要素を拡張 された状態と呼びi ∈ S 、 C ∈ R
として( i , C )
で表そう。また一つの文字でこの拡張された状態を 表すときにはx
を用いることにしよう。すなわちx ∈ S × R
である。行動空間は拡張された状態の1番目の要素のみに依存して、拡張前と同様である。
x ∈ ( i , C )
のとき、A
x≡ A
iと定義しよう。[履歴の拡張]
状態空間の拡張に伴い、履歴も拡張する必要がある。履歴を
( x
0, a
0, x
1, a
1, …, x t
-1, a t
-1, x t )
x x x k k = ( i i i
kk, c c c
k k) ∈ S × R, k =0, 1, …, t ; a a a
kk∈ A i
k,
k = 0, 1, …, t -1
であらわし、今後この拡張された履歴をh t
で表すことにしよう。[決定関数の新しい履歴への依存]
また
t
時点で履歴h t
のときの行動a ∈ A it
をとる確率がq ht ( a )
Σ
aq ht ( a ) =1,
0< - q ht ( a ) < - 1
であるランダムな決定関数を
d d d ( t t h t )
であらわし、この決定関数からなる政策{ d d d
00, d d d
11, … }
を考える。今後も記号
q ht ( a )
でランダムな決定関数d d d ( t t h t )
に対応する確率を表すことにする。[政策の再定義]
今後システムの状態といったら拡張された状態
x ∈ S × R
を指し、政策といったら新しい拡張さ れた履歴に依存する政策を指すことにする。マルコフ政策、定常政策の場合についてもそれらの依存 する状態はx ∈ S × R
である。[目的関数の書き換え]
確率は初期状態
x
と政策πに依存する。すべての状態i
とすべての実数C
に対してPr [ V V V i i
π*> - C ] =s up π Pr [ V V V i i
π> - C ]
となるπ*が閾値確率基準での最適政策である。システムの状態が拡張されたモデルに対しても、
確率が初期状態
x
と政策πに依存していることを表すためにP x
π[・] ≡ Pr [・]
と書くことにしよう。
x = ( i , C )
のとき、
P x
π[ V V V V V C > > - - ] = Pr [ V V V i i
π> - C ]
である。
(証明)
簡単な式の変形により
(1) C > r ij a (1- / β )
ならば( C - r ij a ) / β > C 。 C' = ( C - r ij a ) / β
よりC' > C 。他も同様。
(2)(1)より明らか。
(3) J = C' - C = { (1- β ) C - r ij a } / β
であり、1-β >0
であることよりJ
はC
の単調増加関数。(
証明終わり)
(3)
のイメージは数直線上でC
が大きければ大きいほどC'
はC
より右方により大きく離れ、C
が小さければ小さいほどC'
はC
より左方により大きく離れるということである。仮定2
割引総報酬
V
の確率分布は連続と仮定する。すなわち任意の
i
と対象とする政策πに対してV V V V V i i
ππが特定の値C
をとる確率が0
と仮定する。
U = {( i , C )
│( i , C ) ∈ S × R , C > - ru (1- / β )},
L = {( i , C )
│( i , C ) ∈ S × R , C < rl (1- / β )}
と二つの集合を定義する。定理1
(2)
から、いったんC > - ru (1- / β )
やC < rl (1- / β )
になると、そ れ以降もそうであることがわかる。任意の政策πに対して
x ∈ U
ならば、常に目標C
は達成できないので、P x
π[ V > - C ] =0、
x ∈ L
ならば、常に目標C
は達成できるので、P x
π[ V > - C ] =1
である。割引率
β <1,直接報酬 r ij a < - G
なので総報酬の実現値v
v = r
0+ β r
1+ β
2r
2+…+ β t r t +…
は確定して
v < - G (1- / β )
である。ただしr t
はt
時点の直接報酬の実現値とする。定理1
拡張された状態
( i, C )
から拡張された状態( j,C' )
に1
度で推移するとする。そのとき(1) C = r ij a (1- / β )
ならばC' = C 、
C > r ij a (1- / β )
ならばC' > C 、
C < r ij a (1- / β )
ならばC' < C 。
また逆も成り立つ。(2) ru ≡ s
i,j,a
up
i,j,a
up
i,j,a
r ij a , rl ≡ i
i,j,a
nf r ij a
とおくと
C > - ru (1- / β )
ならば C' > - ru (1- / β )、
C <
rl (1- / β )
ならば C' < rl (1- / β )。
(3) J ≡ C' - C
はC
の単調増加関数である。任意の閾値
C ( rll (1- (1- / / β ) < C < ru (1- / β ) ) に対して必ず C < - v
あるいはv < C
のいずれか が成立する。(証明)
①
rl (1- / β ) < C < v
のとき
( v ) k ≡ r
0+ β r
1+ β
2r
2+…+ β k k k r r r r k k
と定義する。そのとき(
v ) T T T
-2-2+ β T T T
-1-1rl (1- / β ) < - C
で(v ) T T T
-1-1+ β T T T rl rl (1- / β ) > C
となるT
がある。
C C C
11≡ ( C - r
0) / β ,
C C C
22≡ ( C C C
11- r
1) / β ,
…
C C C k k ≡ ( C C C k k k k
-1-1- r r r k k k k
-1-1) / β ,
…と定義すると
C T T T
-1-1> - rl (1- / β )
でC T T T < < rl (1- / β )
となり、T
時点までには集合L
にはいる。②
ru (1- / β ) > C C C v > >
のとき同様にして(
v ) T T T
-2-2+ β T T T
-1-1ru (1- / β ) > C
で(v ) T T T
-1-1+ β T T T ru ru (1- / β ) < - C
となるT
がある。C T T T
-1-1< ru (1- / β )
でC T > - ru (1- / β )
となり、T
時点までには集合U
にはいる。(証明終わり)
割引総報酬の確率分布が連続であると仮定している
(仮定2)
ので、①②からシステムの状態は確 率1
で集合U
あるいはL
にはいる。[ C
の離散化]基準値
C
のとりうる値の集合は非可算である。計算と簡単化のためC
を離散近似しよう。ここ でC
を離散近似することはそれほど不自然ではない。仮にC
を金額であるとすると、我々は円未 満を考慮しない。あるいはもっと大きな金額が最小の単位の場合もある。以下で
inf、sup
はすべてのi, j, a
に対しての下限や上限である。c
を任意の実数とする。
m ≡ inf { r ij a } (1- / β ),
c - ≡ inf {( c - r ij a ) / β },
M ≡sup { r ij a } (1- / β ),
c + ≡ sup {( c - r ij a ) / β },
と定義する。
m
とM
の間をn
等分する。
c
1≡ m ,
c n
+1≡ M
として、両端を含めて小さい方からc
1, c
2, …, c n
+1定理2
各
x ∈ S × R
に対してε > 0
とT < ∞
が存在してP
πx [ X X X T T ∈ U ∪ L ] > ε
が成立する。とする。
半開区間
[ c i , c i
+1)の点を左端の点 c i
で近似する。さらに
[(m - ) - , m - ) ∪ [ m - , c 1 )
をm -
で(これをc
0とおく)、
[ M M M M , , M M + + ]
をM
で、すなわちc n
+1で近似する。
K ≡{ c
0, c
1, c
2, …, c n
+1},
K + ≡{ c
1, c
2, …, c n
+1}
と定義する。状態空間は
S×K
とする。この状態空間は可算の集合となる。今後、状態はすべてこの近似された状 態で考える。また、この近似により、正確には近似式であるところも等式で表わすことにする。次の定理により、任意の政策に対して、時点
t
の状態と行動に対して同じ確率分布を与えるとい う意味で、同等のマルコフ政策が存在する。証明はPuterman[3]134p
参照。分布q ( h a )
がより一 般的な場合は Strauch [6]参照。このマルコフ政策は初期状態
x
に依存して決まる(Strauch[6] , random semi-Markov policy)。
定理3は、状態を近似していない場合に対してもいえる。この定理3によってマルコフ政策のみを 考えて良いことが保証される。
[再帰関係式]
π
をマルコフ政策とすると、次の再帰関係式が成立する。
W W W W W
((i,i,π
C)≡Pr [ V V V i i π > - C ] = Σ
aq h ( 0 a ) Σ
jp ij a Pr [ V V V j j π ' > - C ' ]
=Σ
aq h ( 0 a ) Σ
jp ij a W W W W W
( (j, j, π C' ' ' '
))π '
はπ
を1期ずらした政策で、C' = ( C-r ij a ) / β
である。可能なC
を離散近似しているので、等号 は近似での等号である。次の記号を定義する 定理3
π
を政策とする、そのとき各x ∈ S×K
に対してマルコフ政策π '
が存在してP x π [ ' X X X t t = y , B t = a ] = P π x [ X X X t t = y , B t = a ]
t = 0, 1, ….
ここで
X X X t t
は時点t
における状態、B t
は時点t
において選択される行動である。1
if D = ( C - r ij a ) /
Δ
(i,C)a
( j, D( j, D( )) )≡ {
1
{
1
{
0 ( 0 (i,C 0 i,C)( 0 ( j, D) 0 ( j, D( ))j, D 0 ( j, D( )) ) 0 )
{
0
{ if D ≠ ( C - r ij a ) / .
上の再帰関係式から、決定関数
d d d ( t t , t =0, 1,…)
が現在の状態にのみ依存するときには、行動a
を 用いたときの状態( i , C )
から状態( j , D )
への推移確率がp ij a ・ Δ
(a i
,C
)(j
,D
)で与えられるマルコフ過程を 考えることができる。
x = ( i , C ) , y = ( j , C' ) , C' = ( C - r ij a ) / β
とする。
1 if C' > - M
U
U
a
U x, x,
U y ≡ {
0 if C' < M ,
1 if C' < m
L
L a x,y ≡ {
0 if C' C' C' > > - m
を定義する。U a x,y
は次期に、システムの状態がU
に入るか入らないかの指標で、入ったら1、入らなかった ら0
である。同様にL a x,y
は次期に、システムの状態がL
に入るか入らないかの指標で、入ったら1、入らなかったら
0
である。(証明)
x = ( i , C ) , y = ( j , D )
とする。ここではq h (
0a )
を簡単のためq ( a )
と書くことにする。π '
はπ
を1期間シフトさせた政策である。
W W W x x π = Σ
aq ( a ) Σ
jΣ
Dp ij a ・ Δ (i,C) a (j,D ) (j,D ) ( ) W W W y y π '
=
Σ
aq ( a ) Σ
jΣ
Dp ij a ・ Δ
(a i
,C
)()()(j j
,D
)・ U a x,y ・ W W W y y π '
+
Σ
aq ( a ) Σ
jΣ
Dp ij a ・ Δ
(a i
,C
)()()(j j
,D
)・ L a x,y ・ W W W y y π '
+ Σ
aq ( a ) Σ
jΣ
Dp ij a ・ Δ
(a i
,C
)()()(j j
,D
)・ (1- U a x,y ) ・ (1- L a x,y ) ・ W W W y y π '
である。
y ∈ U
ならばW W W y y π ' = 0
より最右辺第1
項は0
である。またy ∈ L
ならばW W W y y π ' = 1
である。したがって
W W W x x π = Σ
aq ( a ) Σ
jΣ
Dp ij a ・ Δ
(a i,C
)()()(j,D j,D
)・ L a x,y
定理4
W (
W (
W i π ,
C) ≡Pr [ V V V i i π > - C ] = {マルコフ政策 π
によって( i , C )
から出発して初めてL
に達する確率}
である。+ Σ
aq ( a ) Σ
jΣ
Dp ij a ・ Δ
(a i
,C
)(j
,D
)・ (1- U a x,y ) ・ (1- L a x,y ) ・ W W W y y π '
である。
R (i,C) a ≡ Σ
jΣ
Dp ij a ・ Δ
(a i,C
)(j,D
)・ L (i,C) a ( j,D) , ,
………(2)
Q (i,C) a ( j,D) ≡ p ij a ・ Δ (i,C) a ( j,D) ・ (1- U (i,C) a ( j,D) , ) ・ (1- L (i,C) a ( j,D) , )………(3)
と定義する。
R x a
は行動a
のもとで次期に状態L
に入る確率である。また
Q a xy
は行動a
の下で次期に状態y ∈ S×R - U - L
となる確率である。y / ∈ / ∈ S×R - U - L
に対してはQ a xy = 0
である。
W W W x x π = Σ
aq ( a ) R x a
+ Σ
aq ( a ) Σ
yQ a xy W W W y y π '
である。右辺の
W W W y y π '
を同じように再帰的に展開していくことにより定理の証明が得られる。定理2より右辺の和は定まる。
(証明おわり)
定理4は、一部、和が積分になるが、状態を近似していない場合に対しても同様に証明できる。
定常政策を
f ∞ ∞ ∞ ≡ ≡ { { f f f f , , f f , …, , …, f f f , … } , … }
と表すことにする。また状態に1つの行動を対応させる決定関数
f
に対してf ( x ) = a
の時にR x f ≡ R x a ,
Q xy f ≡ Q a xy
と表すことにする。
定常政策
f ∞
のときには再帰関係式が
W W W x x f
∞= R x f + Σ
yQ f xy W W W W W y y f f ∞ ………(4)
となる。
[推移確率と直接報酬]
式
(2)
から
( R (i,C) a ) ( j,D) ≡ p ij a ・ Δ
(a i
,C
)(j
,D
)・ L
(a i
,C
)( ,j
,D
) ………(5)と書くことにする。はじめのモデルのデータから拡張されたモデルのデータを作成しよう。
式(3)
(5)から以下のように計算される。
現在の状態
x = ( i , C )
で行動a
をとったときy = ( j , C' )
とする。①
C = c
0, c
1のときⅰ)
C' = c
0のy
に対して( R x a ) ) ) y y = p ij a ,
Q a xy = 0,
ⅱ)その他の
y
に対して( R x a ) ) ) y y = 0,
Q a xy = 0.
②
C = c n
+1のとき、すべてのy
に対して( R x a ) ) ) y y = 0,
Q a xy = 0.
③
C ≠ c
1, C ≠ c n
+1のときⅰ)
C' = c 0
かつ( C - r ij a ) / β < c
1 なるy
に対して( R x a ) ) ) y y = p ij a ,
Q a xy = 0,
ⅱ)
k ≠ 0 k ≠ 0 k , n +1
としてC' = c k
かつc k < - ( C - r ijiji a ) / β < c k
+1 なるy
に対して( R x a ) ) )= y y 0, Q a xy xy x = p ij a ,
ⅲ)その他のy
に対して( R x a ) ) )= y y 0, Q a xy xy x = 0.
R
xa = Σ
y( R x a ) ) ) y y
である。以上から
状態空間:
S×K ,
行動空間:{
A A A x x : x ∈ S×K } ( x = ( i, c )
のときA A A x x = A i ),
直接報酬:{
R x a : x ∈ S×K, a ∈ A A A x x },
推移確率:{
Q a xy xy x :x∈ S×K , a ∈ A A A x x }
( Σ
yQ a xy xy x - < 1 )
である、マルコフ決定過程を考えることができる。1.すべての
x
とπ
に対してP x π [ V > - C ] < - 1。
2.各
x = ( i, c )
に対してR x a > - 0
である少なくとも一つのa ∈ A A A x x
が存在する。(本稿の場合、すべての
a ∈ A A A x x
に対してR x a > - 0
である。)1,
2からこのモデルはポジティブ DP(Blackwell [1] ,Puterman [3] 284p)である。
証明は
Puterman[3]294p
参照。したがって、閾値確率基準最適政策を求めるためには、拡張された状態の下での定常政策のみを 考えれば良いことになる。また定理
2
から再帰関係式(4)
の解が求まる(Kushner[2]120p,Theorem8
参照)。定常最適政策を求める計算が可能である。状態が( ・ , c
0)
になるとそこでパスがなくなる。c
0< m
であるので、はじめから閾値C = c
0は考える必要がないので、状態空間をS×K +
として よい。定理5
状態空間
S × K
は可算であり、またすべてのx ∈ S × K
とすべてのa ∈ A A A x x
に対してR x a > - 0
であるから、最適政策が存在するならば、定常な最適政策が存在する。Ⅲ 終わりに
White
[7]
は元のシステムが有限状態空間、有限行動空間で、閾値確率基準のモデルを考えている。また最適定常政策の存在を閾値
C
を離散にせず証明している。本稿では、可能な閾値C
を離散化 することにより、閾値確率基準マルコフ決定過程を、状態が可算無限のポジティブDP
に帰着させ ている。閾値の離散化はWhite[7]でも、計算上必要になるということで、最後に簡単に触れて
いる。連続無限な状態からみると、本稿ではε -
最適定常政策を考えていることになる。船木も[8]第Ⅵ章で、元の状態空間も行動空間も共に有限な閾値確率基準のモデルを述べた。そこでは本稿の 定理2に相当する仮定をおいた。本稿の動機はその仮定をなくすことであった。
参考文献