無限期間動的計画法について

(1)

無限期間動的計画法について

グレーヴァ香子

一人の意思決定者が、以下のように行動a₁, a₂, . . .を選んで無限期間の報酬の割引和 u(a1;s1) +δu(a2;s2) +δ²u(a3;s3) +· · ·=

X∞

t=1

δ^t−1u(at;st) を最大にするという問題を考える。

1. 初期状態s1が決まる。行動a1 ∈A(s1)を選ぶと報酬u(a1;s1)を得る 2. 状態s₂が決まる。行動a₂ ∈A(s₂)を選ぶと報酬u(a₂;s₂)を得る。

3. 状態s₃が決まる。行動a₃ ∈A(s₃)を選ぶと報酬u(a₃;s₃)を得る。

· · ·

一般には、状態の変化は意思決定者の過去の行動すべてと過去の状態全てに依存する。また、

意思決定者は各期の状態によって行動を変えることができるので、展開形ゲームの戦略を決めると考えることができる。ゲームと解釈するときは、状態は過去の全てのプレイヤーの（観察された）行動の列と考えられる。xを戦略とし、第１期の行動は条件付きでないのでx₁と書くことにする。その後の行動はxとその期の状態によって決められる条件付き行動である。各期の状態と行動は以下のように決まっていくと考える。（状態の変化は仮定。行動は純戦略を用いるとこうなる、ということ。簡単化のため、行動の集合A_t(s_t)はすべて有限集合と仮定する。）

s2 =s2(x1, s1), a2 =a2(x, s2(x1, s1)) s₃ =s₃(x₁, a₂, s₁, s₂(x₁, s₁)), a₃ =a₃(x, s₃(x₁, a₂, s₁, s₂)

· · · · · ·

簡略化して書くと

s_t =s_t(x, s₁), a_t=a_t(x, s₁) とすることができる。

定義：報酬の割引和をValue functionといい、初期状態s₁の下で、戦略xを選んだとき、以下のように定義する。

V(s₁, x) = X∞

t=1

δ^t−1u(a_t(x, s₁);s_t(x, s₁))

戦略xを選んでValue functionを最大にしたものを Optimal value functionといい、

f(s₁) = sup

x

V(s₁, x) と書く¹。

1戦略が無限個あるので、maxが存在するとは限らないが、最小上界(sup)は存在する。ある集合Xについて、

その最小上界supXとは、「全てのx∈Xについてy=x」となるyの中で最小のもの。

1

(2)

Bellman Equation

定理：Optimal value functionfは以下の式(Bellman Equation)を満たす。

f(s₁) = max

a1∈A(s1)

h

u(a₁, s₁) +δf(s₂(a₁, s₁)) i

.

証明：まず左辺≤右辺を示す。

任意の戦略xについて、定義よりValue functionは以下の式を満たす。

V(s₁, x) =u(x₁, s₁) +δV(s₂(x₁, s₁), x).

V(s₂(x₁, s₁), x)≤sup_aV(s₂(x₁, s₁), a) =:f(s₂(x₁, s₁))であるから V(s1, x) ≤ u(x1, s1) +δf(s2(x1, s1))

≤ max

a1∈A(s1)[u(a₁, s₁) +δf(s₂(a₁, s₁))].

xは任意だったから、

sup_xV(s₁, x) = f(s₁)≤ max

a1∈A(s1)[u(a₁, s₁) +δf(s₂(a₁, s₁))].

次に、左辺≥右辺を証明する。

a^∗₁として、今日の報酬と、明日からは最適になっているとしての報酬の和を最大にする（以下の式を満たす）ものをとる。

u(a^∗₁, s1) +δf(s2(a^∗₁, s1)) = max

a1∈A(s1)[u(a1, s1) +δf(s2(a1, s1))].

sup の定義より、任意の状態sと任意の（小さい）² > 0について、戦略a⁰(s)が存在して V(s, a⁰(s))≥f(s)−²とすることができる。

戦略aとして、１期目はa^∗₁を、２期目以降はa⁰(·)に従うものを考えると V(s1, a) = u(a^∗₁, s1) +δV(s2(a^∗₁, s1), a⁰) f(s1)≥V(s1, a) ≥ u(a^∗₁, s1) +δf(s2(a^∗₁, s1))−δ².

a^∗₁の定義より

f(s1)≥ max

a1∈A(s1)[u(a1, s1) +δf(s2(a1, s1))]−δ².

²→0としても、等号付きの不等式は成立するので f(s₁) ≥ lim

²→0

h

a1max∈A(s1)[u(a₁, s₁) +δf(s₂(a₁, s₁))]−δ² i

f(s₁) ≥ max

a1∈A(s1)

h

u(a₁, s₁) +δf(s₂(a₁, s₁))i .

2