slide lecture4 Recent site activity masaruinaba

(1)

講義ノート４：動的計画法

稲葉大

J^3^{ }15^, 2010 @ G^{} E-mail: big.rice.plant.leaf@gmail.com http://sites.google.com/site/masaruinaba/

(2)

I. ^{動的計画法} (dynamic programming): ^有限

期間

(3)

中央計画者問題

max

ct,k_t+1

∑T t=0

β^tu(c_t) subject to

k_t+1−k_t _{= f (k}_t) − c_t−δk_t fort = 1, 2, · · · , T, k₀ _{= k}₀

k_{T +1} ≥0.

ここで0 < β < 1 は，割引因子(discount factor)^{である．効用関数} u(·) と生産関数 f (·) は，

u(0) = 0, u^′(·) > 0, u^′′(·) < 0, u^′_{(0) = ∞, u}^′_{(∞) = 0} f (0) = 0, f^′(·) > 0, f^′′(·) < 0, f^′_{(0) = ∞, f}^′_{(∞) = 0} と仮定する．

(4)

ベルマンの最適性の原理

問題の再帰的な(recursive)な構造を利用して解く．動的計画法は，以下の原理に基づいて考察する．

ベルマンの最適性の原理 _(B  _’     ₎

最適政策とは，最初の状態や決定がどうであっても，それ以後の決定が最初の決定によって生じた状態に関して最適政策となるように構成しなければならないという性質を持っている．₍西村 (1994)P150^より抜粋)

後ろ向き帰納法(backward induction method)^{で求めた解は，} あるt 時点を考えるとき，それ以降の政策は常に最適になって いる．

時間が有限であるときには，後ろ向き帰納法_(backward

induction method)により最適政策得られる．

(5)

I.1 ^{後ろ向き帰納法} (backward induction

method)

（_{T 期）}

状態変数である_k_Tは前の期に決まっている．

今決めることは，_uc_Tを最大にするように，消費_c_Tと残す資本_k_{T +1}を決定すること．

問題は，

cmaxT,k_{T +1}^u(c^T⁾

s.t. k_{T +1}−k_T _{= f (k}_T) − c_T −δk_T k_T :given

k_{T +1}≥0.

(6)

制約式を代入すれば，問題は次のように書くことができる． maxk_{T +1} ^u

(f (kT) + (1 − δ)k^T ⁻^kT +1

) s.t.kT :given

k_{T +1} ≥0.

問題の解，つまり最適な次期資本_k^∗

T +1^は^k^T^の関数．

k^∗_{T +1}_{= φ}_T(k_T).

これを最適政策関数，またはpolicy function^と呼ぶ．

(7)

policy function^の導出

T 期以降の最大化の必要条件， u^′(c_T_{) = λ}_T λ_T _{= µ}

k_t+1 ≥0, µ ≥ 0, and µk_{T +1} _{= 0.} より，

u^′(c_T_{) = µ} µk_{T +1} _{= 0.}

u^′(c_T) = µ > 0 であるから，kT +1= φT^(kT) = 0．よって，予算制約式より，

c_T _{= f (k}_T) + (1 − δ)kT ⁻^φT^(kT⁾

とpolicy function^はk_Tの関数であることがわかる．

(8)

この政策関数をもとの問題に代入すると，

V_T(k_T_{) =u}⁽f (k_T) + (1 − δ)kT ⁻^φT^(kT⁾

)

とかくことができる．

V_T(k_T) は，時点 T ，状態 k_Tであるときに達成される最大の効用を評価したものであり，「状態評価関数(state evaluation function)^」あるいは「価値関数(value function)^{」と呼ばれる．}

(9)

（_{T − 1 期）}

T 期以降については，T − 1 期に決めた k_T^{に基づいて，}V_T(k_T) によって最適化されている．

T 期以降は VT(kT) によって最適化されているとして，T − 1 期の問題だけを考えれば，以降は全て最適化されている．

cmaxT −1,kT

u(c_{T −1}_{) + βV}_T(k_T)

s.t.k_T −k_{T −1} _{= f (k}_{T −1}) − c_{T −1}−δk_{T −1} k_{T −1}:given

制約式を代入して_c_{T −1}を消去すると， maxkT

u⁽f (kT −1) + (1 − δ)k^{T −1}⁻^k^T⁾+ βVT(kT) s.t.kT −1:given

最適な次期資本は_k_{T −1}の関数となる． k_T^∗ _{= φ}_{T −1}(k_{T −1})

(10)

この政策関数をもとの問題に代入．value function^は， V_{T −1}(k_{T −1}_{) =u}⁽φ^∗_{T −1}(k_{T −1})⁾_{+ βV}_T(k_T) とかくことができる．

V_{T −1}(k_{T −1}) は，時点 T − 1，状態 k_{T −1}であるときに達成される最大の効用を評価したvalue function^．

(11)

₍一般の_{t 期）}

t + 1 期以降については，t 期に決めた kt+1^{に基づいて，}

V_t+1(k_t+1) によって最適化されている．

V_t+1(k_t+1) を与えられたものとして，t 期の問題だけを考えれば，以降は全て最適化されている．

maxct,k_t+1^u(c^t^{) + βV}^t+1^(k^t+1⁾

s.t.k_t+1−k_t _{= f (k}_t) − c_t −δk_t k_t :given

制約式を代入して_c_tを消去すると， maxk_t+1 ^u

(f (kt) + (1 − δ)k^t⁻^kt+1

)

+ βVt+1^(kt+1⁾

s.t.kt :given 解である最適次期資本_k^∗

t+1 ^{= φ}^t^(k^t) をもとの問題に代入 Vt(kt_{) =u}

(f (kt) + (1 − δ)k^t⁻^φ^∗t^(k^t⁾

)

+ βVt+1^(kt+1⁾

(12)

₍現在_t=0)

maxc0,k1

u(c0_{) + βV}1(k1) s.t. k1⁻k0= f (k0) − c0⁻^δk0

k₀ :given

制約式を代入して_c₀を消去すると， maxk1

u⁽f (k0) + (1 − δ)k⁰⁻^k¹⁾+ βV1(k1) s.t.kt :given

解である最適次期資本_k^∗

1^{= φ}⁰^(k⁰^{) もとの問題に代入}

V₀(k₀_{) =u}⁽f (k₀) + (1 − δ)k0⁻^φ^∗₀^(k0⁾

)

+ βV1^(k1⁾

以上の操作で，各期の最適な次期資本および各期の最適な消費額が政策関数として表現された．

(13)

以下のように各期の最適政策と遷移式に基づいて，逐次に最適な消費額が決定される．

1 t = 0 において，初期値は k0．期末（次の期）の資本ストックは_k^∗

1 ^{= φ}⁰^(k⁰^).このとき最適な消費は， c^∗₀_{= f (k}₀) + (1 − δ)k0⁻^φ0^(k0^)．

2 t = 1 において，資本ストックは k1．期末（次の期）の資本ストックは_k^∗

2 ^{= φ}¹^(k¹^).このとき最適な消費は， c^∗₁_{= f (k}₁) + (1 − δ)k1⁻^φ1^(k1^)．

...

3 t 期において，資本ストックは k_t．期末（次の期）の資本ストックは_k^∗

t+1 ^{= φ}^t^(k^t^).このとき最適な消費は， c^∗_t _{= f (k}_t) + (1 − δ)kt⁻^φt^(kt^)．

...

4 T 期において，資本ストックは kT．期末（次の期）の資本ストックは_k^∗

T +1 ^{= φ}^T^(k^T^{) = 0}^.このとき最適な消費は， c^∗_T _{= f (k}_T) + (1 − δ)kT ⁻^φT^(kT)．横断面条件より k_{T +1}_{= 0}

(14)

後ろ向き帰納法は，時間が有限であるときならば有効である．し

かし期間T が無限であるようなケースでは，後ろが定まっていな

いために，後ろ向き帰納法を使うことができない．そのため準備として次のような再帰関係式を考察しておく．

(15)

基本的再帰関係式 (fundamental recurrence

relation)

もう一度同じ問題を考えて，問題が再帰的な関係を持つことを考えてみる．

max

ct,k_t+1

∑T t=0

β^tu(c_t) subject to

k_t+1−k_t _{= f (k}_t) − c_t−δk_t fort = 1, 2, · · · , T, k₀ _{= k}₀

k_{T +1} ≥0.

(16)

最後の_{T 期の問題は，} V_T(k_T_{) = max}

cT,k_{T +1}^u(c^T⁾

s.t.k_{T +1}−k_T _{= f (k}_T) − c_T−δk_T k_T :given, k_{T +1} ≥0.

この問題は簡単に解くことができ， u^′(c_T_{) = λ}_T

λ_T _{= µ}

k_t+1 ≥ 0, µ ≥ 0, andµk_{T +1}_{= 0.}

(17)

以上から，

u^′(c_T_{) = µ} µk_{T +1}_{= 0.}

u^′(c_T) = µ > 0 であるから，横断性条件 kT +1= φ(kT) = 0^. 予算制約式より最適な消費は，

c_T _{= f (k}_T) + (1 − δ)kT⁻⁰

T 期の状態評価関数は，

V_T(k_T_{) = u}⁽f (k_T) + (1 − δ)kT

). (1)

この最後の評価関数を「境界条件(boundary condition)^」と呼ぶことがある．

(18)

次にT − 1 期以降の問題を考察すると， V_{T −1}(k_{T −1}_{) =} max

cT −1,cT,kT,k_{T +1}^u(c^{T −1}^{) + βu(c}^T⁾ ⁽²⁾

s.t.k_T −k_{T −1}_{= f (k}_{T −1}) − c_{T −1}−δk_{T −1} k_{T +1}−k_T _{= f (k}_T) − c_T −δk_T k_{T −1}:given

k_{T +1}≥ 0. この問題を書き換えると，

VT −1(kT −1_{) = max} cT −1,kT

[u(cT −1_{) + β max} cT,k_{T +1}^u(c^T⁾

] s.t.kT ⁻kT −1= f (kT −1) − cT −1⁻δkT −1

k_{T +1}−k_T _{= f (k}_T) − c_T −δk_T k_{T −1}:given.

(19)

よって，₍₁₎の_V_T_(k_T_{) を用いると，} V_{T −1}(k_{T −1}_{) = max}

kT

{u⁽f (k_{T −1}) − k_T _{+ (1 − δ)k}_{T −1}

| {z }

cT −1

)

+ βVT^(kT⁾

} (3)

と書くことができる．

(20)

同じくT − 2 期以降の問題は， V_{T −2}(k_{T −2}_{) =} max

cT −2,cT −1,cT,kT −1,kT,k_{T +1}^u(c^{T −2}^{) + βu(c}^{T −1}^{) + β} 2_u(c

T⁾ ⁽⁴⁾

s.t. k_{T −1}−k_{T −2} _{= f (k}_{T −2}) − c_{T −2}−δk_{T −2} k_T−k_{T −1}_{= f (k}_{T −1}) − c_{T −1}−δk_{T −1} k_{T +1}−kT = f (kT) − cT ⁻^δkT

kT −2:given, k_{T +1}≥ 0.

となる．この問題は次のように書き直すことができる． V_{T −2}(k_{T −2}_{) = max}

cT −2,kT −1

[

u(c_{T −2}_{) + β}^{ max

cT −1,cT,kT,k_{T +1}^u(c^{T −1}^{) + βu(c}^T⁾

}] s.t.k_{T −1}−k_{T −2}_{= f (k}_{T −2}) − c_{T −2}−δk_{T −2}

kT ⁻kT −1= f (kT −1) − cT −1⁻^δkT −1

k_{T +1}−kT = f (kT) − cT⁻δkT

k_{T −2} :given, k_{T +1}≥0.

(21)

中括弧における最大化問題は₍₂₎の_V_{T −1}_(k_{T −1}) に対応するため，最終的に

V_{T −2}(k_{T −2}_{) = max}

kT −1

{u⁽f (k_{T −2}) − k_{T −1}_{+ (1 − δ)k}_{T −2}⁾_{+ βV}_{T −1}(k_{T −1})^} (5)

(22)

同じくT − 3 期以降の問題は， V_{T −3}(k_{T −3}_{) =} max

cT −3,cT −2,cT −1,cT,kT −2,kT −1,kT,k_{T +1}^u(c^{T −3}^{) + βu(c}^{T −2}^{) + β} 2_u(c

T −1⁾

+ β³^u(cT) (6) s.t.k_{T −2}−k_{T −3}_{= f (k}_{T −3}) − c_{T −3}−δk_{T −3}

k_{T −1}−k_{T −2}_{= f (k}_{T −2}) − c_{T −2}−δk_{T −2} k_T −k_{T −1}_{= f (k}_{T −1}) − c_{T −1}−δk_{T −1} k_{T +1}−k_T _{= f (k}_T) − c_T −δk_T k_{T −3}:given

k_{T +1}≥ 0. となる．

(23)

この問題は次のように書き直すことができる． VT −3(kT −3_{) = max}

cT −3,kT −2

[

u(cT −3) + β

{ max

cT −2,cT −1,cT,kT −1,kT,k_{T +1}^u(c^{T −2}^{) + βu(c}^{T −1}^{) + β} 2_u(c

T⁾

}] s.t.k_{T −2}−k_{T −3}_{= f (k}_{T −3}) − c_{T −3}−δk_{T −3}

kT −1⁻kT −2= f (kT −2) − cT −2⁻^δkT −2

k_T −k_{T −1}_{= f (k}_{T −1}) − c_{T −1}−δk_{T −1} k_{T +1}−k_T _{= f (k}_T) − c_T −δk_T k_{T −3}:given

k_{T +1}≥ 0.

(24)

中括弧における最大化問題は₍₄₎の_V_{T −2}_(k_{T −2}) に対応するため，最終的に

V_{T −3}(k_{T −3}_{) = max}

kT −2

{u⁽f (k_{T −3}) − k_{T −2}_{+ (1 − δ)k}_{T −3}⁾_{+ βV}_{T −2}(k_{T −2})^} (7)

(25)

一般に_{t 期については，} V_t(k_t_{) = max}

cτ,k_τ+1

∑T τ=t

β^τ−tu(c_τ)

s.t.k_τ+1−k_τ_{= f (k}_τ) − c_τ−δk_τ (forτ = t, · · · , T − 1,⁾ k_t :given, k_{T +1} ≥0.

となる．次のように書き直してみると， V_t(k_t_{) = max}

ct,k_t+1





^u(c^t^{) + β max}_c_τ_,k_τ+1









∑T τ=t+1

β^τ−t−1u(c_τ)













 s.t.k_t+1−k_t _{= f (k}_t) − c_t−δk_t

k_τ+1−kτ = f (kτ) − cτ⁻^δkτ (forτ = t + 1, · · · , T − 1,⁾ k_t :given.

(26)

これまでの考えと同様にすれば後ろの括弧はt + 1 期以降の問題で あることがわかる．よって

V_t(k_t_{) = max}

kt+1

{u⁽f (k_t) − k_t+1_{+ (1 − δ)k}_t⁾_{+ βV}_t+1(k_t+1)^} (8)

と書くことができる．この式はベルマン方程式_(Bellman’s equation)^{と呼ばれる．}

(27)

以上をまとめると

初期値_k₀ _{= k}₀と境界条件 VT(kT_{) = u}

(f (kT) + (1 − δ)k^T⁾ とt = 0, 1, 2, · · · , T − 1 についてのベルマン方程式

Vt(kt_{) = max} k_t+1

{u⁽f (kt) − k_t+1_{+ (1 − δ)k}t

)

+ βVt+1^(kt+1⁾

}

により，各期の状態評価関数(value function)^が V_T(k_T) → V_{T −1}(k_{T −1}) → · · · → V₀(k₀)

のように求まる．policy functionは，状態評価関数を求めた後で， maxk_t+1

{u⁽f (k_t) − k_t+1_{+ (1 − δ)k}_t⁾_{+ βV}_t+1(k_t+1)^} (fort = 0, 1, 2, · · · , T − 1.⁾

の解である最適政策関数は_k_tの関数_k^∗

t+1 ^{= φ}^t^(k^t^),

c^∗_t _{= f (k}_t) − φ_t(k_t)

|{z}

k_t+1

+(1 − δ)kt^となる．

(28)

最適政策関数 (optimal policy function)

maxk_t+1

{u⁽f (k_t) − k_t+1_{+ (1 − δ)k}_t⁾_{+ βV}_t+1(k_t+1)^} (fort = 0, 1, 2, · · · , T − 1.⁾

の解を求める．_k_t+1で微分して，最大化のための必要条件を求めると，

−u^′(ct_{) + βV}_t+1^′ (k_t+1_{) = 0} (9)

⇐⇒u^′(ct_{) = βV}_t+1^′ (k_t+1) (10)

⇐⇒u^′⁽f (k_t) − k_t+1_{+ (1 − δ)k}_t ⁾ _{= βV}_t+1^′ ⁽k_t+1⁾ (^{遷移式を代入．}) (11)

⇐⇒k_t+1^∗ _{= φ}_t(k_t) (12) と，最適政策関数は_k_tの関数である_.

(29)

オイラー方程式の導出

k^∗_t+1_{= φ}_t(k_t) を用いると，ベルマン方程式は， V_t(k_t_{) = u}⁽f (k_t) − φ_t(k_t) + (1 − δ)kt

)

+ βVt+1

(φ_t(k_t)⁾ (fort = 0, 1, 2, · · · , T

のように書くことができる．両辺を_k_tで微分すると， V_t^′(k_t_{) = u}^′(c^∗_t)^[f^′(k_t) − φ^′_t(k_t) + (1 − δ)^]+ βV_t+1^′ ^(kt+1^)φ^′t^(k^t⁾

⇐⇒V_t^′(kt_{) = u}^′(c^∗_t)^[f^′(kt) + (1 − δ)^]+ φ^′t^(k^t⁾

[−u^′(c^∗_t_{) + βV}_t+1^′ (k_t+1)^]

(30)

ここで，最大化のための一階条件₍₁₀₎式を用いると第二項が消え (^{これを包絡面の定理}(envelope theorem)^という)^，

⇐⇒V_t^′(k_t_{) = u}^′(c_t^∗)^[f^′(k_t) + (1 − δ)^] が得られる．これと，₍₁₀₎式より，

u^′(c_t_{) = βu}^′(c_t+1)^[f^′(k_t+1) + (1 − δ)^]

(31)

II ^{動的計画法} (dynamic programming) ^：無限

期間

(32)

II.1 ^{ベルマン方程式の導出}

中央計画者問題を考察する． maxct,k_t+1

∑∞ t=0

β^tu(c_t)

subject to

k_t+1−k_t _{= f (k}_t) − c_t −δk_t k₀_{= k}₀

ここで0 < β < 1 は，割引因子(discount factor)^{である．効用関数} u(·) と生産関数 f (·) は，

u(0) = 0, u^′(·) > 0, u^′′(·) < 0, u^′_{(0) = ∞, u}^′_{(∞) = 0} f (0) = 0, f^′(·) > 0, f^′′(·) < 0, f^′_{(0) = ∞, f}^′_{(∞) = 0}

(33)

ここで状態評価関数(value function)は次のように書くことができる．

V0(k0_{) = max} ct,k_t+1

∑∞ t=0

β^tu(ct) (13) s.t.k_t+1−k_t _{= f (k}_t) − c_t−δk_t

k₀ :given

V0(k0) 効用を最大にする消費の経路に基づいて測った効用である

から，間接効用関数(indirect utility function)^{と対応している．}

(34)

ベルマンの最適性の原理から，₍₁₃₎は， V₀(k₀_{) = max}

c0,k1

{u(c₀_{) + β max}

cτ,k_τ+1

∑∞ τ=1

β^τ−1u(c_τ)^} (14) s.t.k_t+1−k_t _{= f (k}_t) − c_t−δk_t, k₀:given

と書くことができる．括弧の中の第二項は，t = 1 から先の効用最 大化問題であるから，

V₀(k₀_{) = max}

c0,k1

{u(c₀_{) + βV}₁(k₁)^} (15) s.t.k₁−k₀ _{= f (k}₀) − c₀−δk₀, k₀ :given.

c₀^{を消去すれば，}V₀(k₀) は，次のように書くことができる． V0(k0_{) = max}

k1

{u⁽f (k0) − k1+ (1 − δ)k0

)

+ βV1(k1)^} (16)

(35)

一般の_{t 期では，} V_t(k_t_{) = max}

cτ,k_τ+1

∑∞ τ=t

β^τ−tu(c_τ) (17) s.t.k_τ+1−k_τ_{= f (k}_τ) − c_τ−δk_τ, k_t :given

と表すことができる．よって同様にして， V_t(k_t_{) = max}

ct,k_t+1





^u(c^t^{) + β max}_c_τ_,k_τ+1









∑∞ τ=t+1

β^τ−t−1u(c_τ)













 s.t.k_t+1−k_t _{= f (k}_t) − c_t−δk_t, k_t :given

と書くことができ_,_c_tを消去すれば，_V_t_(k_t) は，次のようにベルマン方程式(Bellman equation)として書くことができる．

V_t(k_t_{) = max}

k_t+1

{u⁽f (k_t) − k_t+1_{+ (1 − δ)k}_t⁾_{+ βV}_t+1(k_t+1)^} (18)

(36)

さらに，₍₁₇₎は時間t に関わらず同じ形をしていることから，t に 依存しない時間不変な状態評価関数(time-invariant value function) として表すことができる．つまり，

V(·) = Vt^(·).

よって，ベルマン方程式は，時間不変な関数_{V(·) について} V(k_t_{) = max}

k_t+1

{u⁽f (k_t) − k_t+1_{+ (1 − δ)k}_t⁾_{+ βV(k}_t+1)^}.

(37)

II.2 ^{状態評価関数} (value function) ^{とポリシー}

関数 (policy function)

次に，得られたベルマン方程式に基づいてvalue function^を求め，

その後policy functionを求める．有限期間の問題と異なり，無限期

間の問題では最後のT 時点が無いため，後ろ向き帰納法を用いて 後ろ向きに解くことができない．変わりに，value functionV(·) が時間不変であることから，問題は

V(k_t_{) = max}

k_t+1

{u⁽f (k_t) − k_t+1_{+ (1 − δ)k}_t⁾_{+ βV(k}_t+1)^}. (19)

を満たすような関数V(·) を見つけるという問題になっている．

(38)

(i) Value function

関数が解になるような問題であるため，取り扱うのは関数空間の問題であり，関数解析(functional analysis)^{の知識が必要不可欠と} なる．しかしここでは，value functionV(·) は一意に存在する十分条件を満たしている．よって以下のvalue function iteration^が利用可能である．

1 _{関数方程式}₍₁₉₎は，一意で強凹関数である解を持つ．

2 _一般的に_k

t+1 = ˜k，kt = k と置くとする．有限でかつ連続であ る関数_V₀を初期値として，次の繰り返し(iteration)^{によって，}

j → ∞ としたときに V_j(·) は関数方程式の解に近づく． V_j+1_{(k) = max}

˜k

{u⁽f (k) − ˜k + (1 − δ)k⁾+ βVj^(˜k)

} s.t.k : given.

(39)

(ii) Policy function

(19)式において，左辺の最大化問題を考える．一階条件は_k_t+1で微分して，

−u^′(c_t_{) + βV}^′(k_t+1_{) = 0}

⇔u^′(c_t_{) = βV}^′(k_t+1) (20)

⇔u^′(c_t_{) = βV}^′( f (k_t) − c_t_{+ (1 − δ)k}_t) (21) である．_u(·), _{f (·),}V(·) はどれも時間不変な関数であるため，この 式を解くことで，時間不変なpolicy function (time invariant policy function)^：

k_t+1 _{= φ(k}_t) (22) が_{t 期の状態 k}_tの関数として得られる．これは_{t 期において，状態} k_tのときの最適な次期資本を表す関数である．

またt 期において，状態 kt^{のときの最適な消費}ct^は，

ct = f (kt) − φ(kt) + (1 − δ)k^t ⁽²³⁾

(40)

(iii) Euler equation

policy function (23)^のct = f (kt) − φ(kt) + (1 − δ)k^t^{を用いると，ベル} マン方程式は，

V(k_t_{) = u}⁽f (k_t) − φ(k_t) + (1 − δ)kt

)

+ βV(kt+1⁾

のように書くことができる．両辺を_k_tで微分すると， V^′(k_t_{) = u}^′(c_t)^[f^′(k_t) − φ^′(k_t) + (1 − δ)^]+ βV^′^(kt+1^)φ^′^(kt⁾

⇐⇒V^′(k_t_{) = u}^′(c_t+1)^[f^′(k_t) + (1 − δ)^]⁻^φ^′^(kt⁾

[u^′(c_t) − βV^′(k_t+1)^]

(41)

ここで，最大化のための一階条件₍₂₀₎式を用いると第二項が消え (^{これを包絡面の定理}(envelope theorem)^という)^，

V^′(kt_{) = u}^′(ct)^[f^′(kt) + (1 − δ)^] ⁽²⁴⁾ が得られる．これと，₍₂₀₎式より，

u^′(ct_{) = βV}^′(k_t+1)

⇐⇒ u^′(c_t_{) = βu}^′(c_t+1)^{f^′(k_t+1) + (1 − δ)^} となり，オイラー方程式を得ることができる．

(42)

II.3 ^{動的計画法：例}

value function^{を求める方法}

(i) Value function iteration

(ii) Howard’s improvement algorithm (iii) Guess and verify

(43)

(i) Value function iteration

このアルゴリズムは，すでにほとんど解説済み．

1 _一般的に_k

t+1 = ˜k，kt = k と置くとする．有限でかつ連続であ る関数_V₀を初期値として与える．

2 _{次の繰り返し}(iteration)^を行う． V_j+1_{(k) = max}

˜k

{u⁽f (k) − ˜k + (1 − δ)k⁾+ βVj^(˜k)

} s.t.k : given.

3 j = j + 1 とおく．

4 _V

jが収束するまで，繰り返す．

この手法をvalue function iteration^とか，iterating on the Bellman equation^と呼ぶ．

(44)

(ii) Howard’s improvement algorithm

このアルゴリズムについては，後で一般的なケースについて説明する．

(45)

(iii) Guess and Verify

効用関数u(c) = log(c)，生産関数 f (k) = Ak^α^{というケースを考え} る．ただし0 < α < 1, A > 0 である．また減耗率 δ = 1 とする．ベ ルマン方程式₍₁₉₎式は，

V(k_t_{) = max}

k_t+1

{log⁽Ak^α_t −k_t+1⁾_{+ βV(k}_t+1)^} (25)

である．このベルマン方程式を満たすようなV(·) の関数を見つけ たい．今，関数_{V(·) を}

V(kt) = E + F log(k^t⁾ ⁽²⁶⁾

と推測_(guess)する．E と F はまだ決まっていない係数

(undetermined coefficients)^である．

(46)

この_guessに基づいて，一階条件からpolicy function^{を導出してみ} よう．₍₂₅₎式左辺の最大化の一階条件は，

− ¹ ct

+ βV^′^(kt+1) = 0

⇔ ¹ c_t ^{= βV}

′(k_t+1) (27)

⇔ − ¹ c_t ^{+ βF}

1 k_t+1 ^{= 0}

⇔ ¹ c_t ^{= βF}

1 Ak^α_t −c_t

⇔c_t ₌ ^Ak

α t ⁻^c^t

βF

⇔ (

1 + ¹ βF

)

ct = ^Ak

α t

βF

⇔c_t ₌ ^Ak

α t

1 + βF^.

(47)

また_k_t+1のpolicy function^は，

k_t+1 _{= Ak}^α−ct

⇔k_t+1 _{= Ak}^α− ^Ak

α t

1 + βF

⇔k_t+1 _{= Ak}^α− ^Ak

α t

1 + βF

⇔k_t+1 ₌ ^βF 1 + βF^Ak

α t

となる．₍₂₄₎より，

V^′(k_t_{) = βV}^′(k_t+1)αAk^α−1_t

⇔V^′(k_t_{) =} ¹ c_t^αAk

α−1

t ⁽⁽²⁷⁾^式より⁾

⇔V^′(k_t_{) =} ^Ak

α−1 t Ak^α_t 1+βF

(c_t^のpolicy function^より)

⇔V^′(k_t) = (1 + βF)αk⁻¹t ⁽²⁸⁾

(48)

一方，₍₂₆₎式をk について微分したものは，

V^′(kt_{) = Fk}_t⁻¹ (29) (28)^と(29)^{とを比較すると，}

F = (1 + βF)α

⇔_{F =} ^α 1 − αβ

であることがわかる．よって，value function^およびpolicy function^は，

V(k_t_{) = E +} ^α

1 − αβ^log(k^t⁾ ⁽³⁰⁾ ct = (1 − αβ)Akt^α ⁽³¹⁾

k_t+1 _{= Aαβk}^α_t (32)

(49)

k

_t

^{のダイナミクス}

t 期に状態 kt^{のとき，最適な}k_t+1^はpolicy functionk_t+1 _{= Aαβk}^α_t ^によって決まる．つまり最適経路は_k_t+1 _{= Aαβk}_t^αという差分方程式を満たしていることになる．対数をとると，

log k_t+1 = log(Aαβ) + α log kt (33)

|α| < 1 より，t → ∞ のとき，k_tはある有限な値に収束していく．この定常状態は，

k = Aαβk^α

⇔_{k = (Aαβ)}^1−α¹

(50)

III 動的計画法：一般的な定式化

(51)

関数空間の問題

関数解析(functional analysis)^の知識

(52)

不確実性のないケース

割引因子として0 < β < 1 を置く．目的は以下のペイオフ関数 r(·, ·) のは割引現在価値を最大にするように，無限期間の操作変数 (control variables){u_t}^∞_t=0^{を選ぶことである．}

max{ut^}^∞_t=0

∑∞ t=0

β^tr(xt^{, u}t) (34) s.t. x_t+1 _{= g(x}_t, u_t), x₀ :given.

ペイオフ関数r(·, ·) は，凹関数であると仮定．

x_t+1_{= g(x}_t, u_t) は，x_t^{の遷移を表す遷移式}(transition equation)^．集合_{(x_t+1_{, x}_t_{) : x}_t ≤g(x_t, u_t)} は，凸集合で，かつコンパクト集合であるとする．

(53)

目的：時間不変(time-invariant)^{なポリシー関数}(policy function)h を見つける．_{h は，状態変数}(state variables)x_t^{から操作変数} (control variables)ut^へのmapping^であり，

u_t _{= h(x}_t) (35) x_t+1_{= g(x}_t, u_t) (36) x₀:given,

に基づいて作られた系列_{u_t}^∞

t=0は元の問題の解なる．このような解の形式を”recursive”^と呼ぶ．

(54)

状態評価関数(value function)^は， V₀(x₀_{) = max}

{ut^}^∞_t=0

∑∞ t=0

β^tr(x_t, u_t) (37) s.t. x_t+1 _{= g(x}_t, u_t), x₀:given.

このvalue functionは次のように書くことができる．

V₀(x₀_{) = max}

u0

{r(x₀, u₀_{) + β max}

{uτ}^∞_τ=1

∑∞ τ=1

β^τ−1r(x_τ, u_τ)^} s.t. x_t+1_{= g(x}_t, u_t), x₀ :given. 第二項に₍₃₇₎を利用すると，

V₀(x₀_{) = max}

u0

{r(x₀, u₀_{) + βV}₁(x₁)^}

s.t. x_t+1 _{= g(x}_t, u_t), x₀:given.

(55)

一般のt 期についても同様にして，ベルマン方程式を導出できる． V_t(x_t_{) = max}

ut

{r(x_t, u_t_{) + βV}_t+1(x_t+1)^} s.t. x_t+1 _{= g(x}t^{, u}t), xt :given. ここで，₍₃₇₎はt に関係しない定式化になっているため，

V₀(·) = V(·) と時間不変(time-invariant)な関数として書くことができる．よって，一般に_{˜x = x}_t+1，_{x = x}_t，_{u = u}_tとするとき，_{V(·) は}

V(x) = max

u

{r(x, u) + βV( ˜x)^} ⁽³⁸⁾ s.t. ˜x = g(x, u), ^{x :}^given,

というベルマン方程式の解になる．

(56)

value functionV(·) をどのように見つけるかは，あとに議論するとして，V(·) が見つかれば，policy function^は，

maxu

{r(x, u) + βV( ˜x)^} s.t. ˜x = g(x, u)

x :given. の解として求めることができる．

(57)

まとめると，問題は次のようになる．

次のベルマン方程式の解としてvalue functionV(·)，policy function h(·) を求める．

V(x) = max

u

{r(x, u) + βV( ˜x)^} ⁽³⁹⁾ s.t. ˜x = g(x, u), ^{x :}^given,

policy functionh(x) と ˜x = g(x, u) を代入すれば，定義域上の任意の x に対して

V(x) = r(x, h(x)) + βV⁽^{g(x, h(x))}⁾^. ⁽⁴⁰⁾

未知の関数であるV(·)，h(·) を解とする関数方程式(functional equation)^{が得られる．}

(58)

以上の仮定の下で，次のことがわかる．

1. ^{関数方程式}(39)は，一意で強凹関数である解を持つ．

2. 有限でかつ連続である関数_V₀を初期値として，次の繰り返し (iteration)^{によって，}j → ∞ としたときに Vj(·) は関数方程式の解に近づく．

V_j+1_{(x) = max}

˜x

{r(x, u) + βVj^{( ˜x)}

} s.t. x : given.

3. (39)の右辺を最大にする必要条件は，

∂r(x, u)

∂u ^{+ βV}

′_{(g(x, u))}^{∂g(x, u)}

∂u ^{= 0} ⁽⁴¹⁾ この必要条件を満たす，一意で時間不変(time-invariant)^なpolicy functionh(·) が存在する．

slide lecture4 Recent site activity masaruinaba

講義ノート４：動的計画法

I. 動的計画法 (dynamic programming): 有限

期間

ベルマンの最適性の原理

ベルマンの最適性の原理 (B  ’     )

I.1 後ろ向き帰納法 (backward induction

method)

基本的再帰関係式 (fundamental recurrence

relation)

以上をまとめると

最適政策関数 (optimal policy function)

オイラー方程式の導出

II 動的計画法 (dynamic programming) ：無限

期間

II.1 ベルマン方程式の導出

II.2 状態評価関数 (value function) とポリシー

関数 (policy function)

(i) Value function

(ii) Policy function

(iii) Euler equation

II.3 動的計画法：例

(i) Value function iteration

(ii) Howard’s improvement algorithm

(iii) Guess and Verify

k

のダイナミクス

III 動的計画法：一般的な定式化

不確実性のないケース

I. ^{動的計画法} (dynamic programming): ^有限

ベルマンの最適性の原理 _(B  _’     ₎

I.1 ^{後ろ向き帰納法} (backward induction

II ^{動的計画法} (dynamic programming) ^：無限

II.1 ^{ベルマン方程式の導出}

II.2 ^{状態評価関数} (value function) ^{とポリシー}

II.3 ^{動的計画法：例}

^{のダイナミクス}