lecturenote4 standard Recent site activity masaruinaba

(1)

講義ノート４：動的計画法

稲葉大

First draft 2008 年 10 月 27 日

Revised 2009 年 1 月 7 日

Revised 2010 年 5 月 26 日

（例えばサーチモデル，離散選択のモデルなど）のための準備として動的計画法を学んでおく必要がある．以下では不確実性のないケースを紹介する．不確実性のあるケースについては，後に考察していく．並行してAdda and Cooper (2003) の chapter 2，および Ljungqvist and Sargent (2004) の chapter 2 と appendix on functional analysis を読んでおくことを進める．

I ^{動的計画法} (dynamic programming): ^有限期間

以下では動的計画法について直観的な解説をする

1

．次のように記述される中央計画者問題を考察する．

(SP) max

ct,k_t+1

∑T t=0

β^tu(ct) subject to

kt+1− kt= f (kt) − ct− δkt for t = 1, 2, · · · , T, k0 = k0

kT +1 ≥ 0.

ここで0 < β < 1 は，割引因子 (discount factor) である．効用関数 u(·) と生産関数 f (·) は， u(0) = 0, u^′(·) > 0, u^′′(·) < 0, u^′(0) = ∞, u^′(∞) = 0

f(0) = 0, f^′(·) > 0, f^′′(·) < 0, f^′(0) = ∞, f^′(∞) = 0

と仮定する．さきのラグランジアンを用いたケースでは，この問題を巨大な非線形制約付き最適化問題としてとらえ，通時的に一度に問題を解いている．一方，問題の再帰的な(recursive) な構造を利用して解いていくのが動的計画法である．動的計画法は，以下の原理に基づいて考察する．

ベルマンの最適性の原理(Bellman’s principle of optimality)

最適政策とは，最初の状態や決定がどうであっても，それ以後の決定が最初の決定によって生じた状態に関して最適政策となるように構成しなければならないという性質を持っている．(西村 (1994)P150 より抜粋)

この考え方を用いると，時間が有限であるときには，後ろ向き帰納法(backward induction method) によって，得られる政策が最適政策になる．なぜなら，後ろ向き帰納法 (backward induction method) で求めた解は，ある t 時点を考えるとき，それ以降の政策は常に最適になっているからである．

I.1 ^{後ろ向き帰納法} (backward induction method)

（_{T 期）}

いま経済はT 期にいるとする．このとき，決定する問題は非常にシンプルである．T 期におい

1

以下の記述も多くを西村(1990) に寄っている．

(3)

て，状態変数である_k_T は前の期に決まっている値となっている．今決めることは，_{T 期以降に} できることで，効用を最大化することである．つまり_uc_T を最大にするように，今の消費_c_T と残す資本_k_{T +1}を決定する．よって問題は，

c_Tmax,k_{T +1}^u(c^T⁾

s.t. kT +1− kT = f (kT) − cT − δkT

kT : given kT +1 ≥ 0.

となる．制約式を代入すれば，問題は次のように書くことができる． maxkT +1

u⁽f(kT) + (1 − δ)kT − kT +1

) s.t. kT : given

kT +1 ≥ 0.

この問題の解つまり，最適な次期資本_k_{T +1}^∗ は_k_T の関数になっている．これを_k^∗_{T +1} _{= φ}_T_(k_T₎ とする

2

．最適に選んだ政策関数(policy function) と呼ぶことがある．この政策関数をもとの問題に代入すると，

VT(kT) =u⁽f(kT) + (1 − δ)kT − φT(kT)⁾

とかくことができる．_V_T_(k_T) は，時点 T ，状態 kT であるときに達成される最大の効用を評価したものであり，「状態評価関数(state evaluation function)」あるいは「価値関数 (value function)」と呼ばれる．

（_T _{− 1 期）}

T − 1 期において，問題は次のようになる．T 期以降については，T − 1 期に決めた kT ^に基づ

いて，_V_T_(k_T) によって最適化されている．よって，T 期以降は VT(kT) によって最適化されているとして，_T − 1 期の問題だけを考えれば，以降は全て最適化されている．

c_{T −1}max,k_T^u(c^T⁻¹^{) + βV}^T^(k^T⁾

s.t. kT − kT−1 ^{= f (k}T−1^{) − c}T−1^{− δk}T−1

kT−1 : given

2

これは次のように導出できる．上の問題のT 期以降の最大化の必要条件は，kT +1^{で微分して，}

u^′(c^T) = µ

kt+1≥0, µ ≥ 0, and µkT +1= 0.

µ はクーン・タッカー条件に関するラグランジアンである．u^′(c^T) = µ > 0 であるから，kT +1= φ^T(k^T) = 0 とわかる．よって，予算制約式より，最適な消費は，

cT _{= f (k}T) + (1 − δ)k^T−φT_(kT₎

であることがわかる．

(4)

制約式を代入して_c_T₋₁を消去すると， maxk_T ^u

(

f(kT−1) + (1 − δ)kT−1− kT

)

+ βVT(kT) s.t. kT−1 : given

解である最適な次期資本ストックを_k_T^∗ _{= φ}_T₋₁_(k_T₋₁) とする．この政策関数をもとの問題に代入すると，

VT−1(kT−1) =u⁽f(kT−1) + (1 − δ)kT−1− φ^∗_T₋₁(kT−1)⁾+ βVT(kT) とかくことができる．

_{(一般の t 期）}

同様にして，t 期において，問題は次のようになる．t+ 1 期以降については，t 期に決めた kt+1

に基づいて，_V_t+1_(k_t+1) によって最適化されている．よって，Vt+1(kt+1) を与えられたものとして，t 期の問題だけを考えれば，以降は全て最適化されている．

cmaxt,kt+1

u(ct) + βVt+1(kt+1) s.t. kt+1− kt= f (kt) − ct− δkt

kt : given 制約式を代入して_c_tを消去すると，

maxkt+1

u⁽f(kt) + (1 − δ)kt− kt+1

)+ βVt+1(kt+1) s.t. kt : given

解である最適な次期資本ストックを_k^∗_t+1_{= φ}_t_(k_t) とする．この政策関数をもとの問題に代入すると，

Vt(kt) =u⁽f(kt) + (1 − δ)kt− φ^∗_t(kt)⁾+ βVt+1(kt+1) とかくことができる．

_{(現在 t=0)}

maxc0,k1

u(c0) + βV1(k1) s.t. k1− k0 = f (k0) − c0− δk0

k0 : given 制約式を代入して_c₀を消去すると，

maxk1

u⁽f(k0) + (1 − δ)k0− k1

)+ βV1(k1) s.t. kt : given

(5)

解である最適な次期資本ストックを_k₁^∗ _{= φ}₀_(k₀) とする．この政策関数をもとの問題に代入すると，

V0(k0) =u⁽f(k0) + (1 − δ)k0− φ^∗0(k0)⁾+ βV1(k1)

とかくことができる．

以上の操作で，各期の最適な次期資本および今期消費額が政策関数として表現された．以下のように各期の最適政策と遷移式に基づいて，逐次に最適な消費額が決定される．

t = 0 において，初期値は k0．期末（次の期）の資本ストックは_k^∗₁ _{= φ}₀_(k₀_{). このとき最} 適な消費は，_c^∗₀ _{= f (k}₀) + (1 − δ)k0− φ0(k0)．

t = 1 において，資本ストックは k1．期末（次の期）の資本ストックは_k₂^∗ _{= φ}₁_(k₁_{). この} とき最適な消費は，_c^∗₁ _{= f (k}₁) + (1 − δ)k1 − φ1(k1)．

...

t 期において，資本ストックは kt．期末（次の期）の資本ストックは_k_t+1^∗ _{= φ}_t_(k_t_{). このと} き最適な消費は，_c^∗_t _{= f (k}_t) + (1 − δ)kt− φt(kt)．

...

T 期において，資本ストックは kT．期末（次の期）の資本ストックは_k_{T +1}^∗ _{= φ}_T_(k_T_{) = 0.} このとき最適な消費は，_c^∗_T _{= f (k}_T) + (1 − δ)kT − φT(kT)．

後ろ向き帰納法は，時間が有限であるときならば有効である．しかし期間_{T が無限であるよ} うなケースでは，後ろが定まっていないために，後ろ向き帰納法を使うことができない．そのため準備として次のような再帰関係式を考察しておく．（後ろ向き帰納法ここまで）

—————————————

I.2 ^{基本的再帰関係式} (fundamental recurrence relation)

もう一度同じ問題を考えて，問題が再帰的な関係を持つことを考えてみる． (SP) max

ct,kt+1

∑T t=0

β^tu(ct) subject to

kt+1− kt= f (kt) − ct− δkt for t = 1, 2, · · · , T, k0 = k0

kT +1 ≥ 0.

(6)

最後の_{T 期の問題は，}

VT(kT) = max

cT,kT +1

u(cT)

s.t. kT +1− kT = f (kT) − cT − δkT

kT : given kT +1 ≥ 0. となる．この問題は簡単に解くことができ，

u^′(cT) = λT

λT = µ

kt+1 ≥ 0, µ ≥ 0, and µkT +1 = 0. より，

u^′(cT) = µ µkT +1 = 0.

と横断性条件が導出される．_u^′_(c_T) = µ > 0 であるから，kT +1 = 0 とわかる．よって，予算制約式より最適な消費は，

cT = f (kT) + (1 − δ)kT

よってT 期の状態評価関数は，

VT(kT) = u⁽f(kT) + (1 − δ)kT

) (1)

と分かる．この最後の評価関数を「境界条件(boundary condition)」と呼ぶことがある．次に_T − 1 期以降の問題を考察すると，

VT−1(kT−1) = max

c_{T −1},c_T,k_T,k_{T +1}^u(c^T⁻¹^{) + βu(c}^T⁾ ⁽²⁾

s.t. kT − kT−1 = f (kT−1) − cT−1− δkT−1

kT +1− kT = f (kT) − cT − δkT

kT−1 : given kT +1 ≥ 0. となる．この問題は

c_{T −1},k_T

[u(cT−1) + β max

c_T,k_{T +1}^u(c^T⁾

] s.t. kT − kT−1 = f (kT−1) − cT−1− δkT−1

kT−1 : given.

(7)

と考えることができる．よって，_{(1) の V}_T_(k_T_{) を用いると，} VT−1(kT−1) = max

k_T

{ u

(

f(kT−1) − kT + (1 − δ)kT−1

)

+ βVT(kT) }

(3)

と書くことができる．

同じく_T − 2 期以降の問題は，

cT −2,cT −1,cT,kT −1,kT,kT +1

u(cT−2) + βu(cT−1) + β²u(cT) (4) s.t. kT−1− kT−2 = f (kT−2) − cT−2− δkT−2

kT − kT−1 = f (kT−1) − cT−1− δkT−1

kT−2 : given kT +1 ≥ 0.

となる．この問題は次のように書き直すことができる． VT−2(kT−2) = max

cT −2,kT −1

{

u(cT−2) + β^[ max

cT −1,cT,kT,kT +1

u(cT−1) + βu(cT)^]} s.t. kT−1− kT−2= f (kT−2) − cT−2− δkT−2

kT − kT−1 = f (kT−1) − cT−1− δkT−1

kT−2 : given kT +1 ≥ 0.

中括弧における最大化問題は_{(2) の V}_T₋₁_(k_T₋₁) に対応するため，最終的に VT−2(kT−2) = max

k_{T −1}

[

u⁽f(kT−2) − kT−1+ (1 − δ)kT−2

)+ βVT−1(kT−1) ]

(5)

同じく_T − 3 期以降の問題は， VT−3(kT−3) = max

c_{T −3},c_{T −2},c_{T −1},c_T,k_{T −2},k_{T −1},k_T,k_{T +1}^u(c^T⁻³^{) + βu(c}^T⁻²^{) + β}

2u(cT−1) + β³u(cT) (6) s.t. kT−2^{− k}T−3 ^{= f (k}T−3^{) − c}T−3^{− δk}T−3

kT−1− kT−2 = f (kT−2) − cT−2− δkT−2

kT − kT−1 = f (kT−1) − cT−1− δkT−1

kT−3 : given kT +1 ≥ 0.

(8)

となる．この問題は次のように書き直すことができる． VT−3(kT−3) = max

c_{T −3},k_{T −2}

{

u(cT−3) + β^[ max

c_{T −2},c_{T −1},c_T,k_{T −1},k_T,k_{T +1}^u(c^T⁻²^{) + βu(c}^T⁻¹^{) + β}

2u(cT)^]} s.t. kT−2^{− k}T−3 ^{= f (k}T−3^{) − c}T−3^{− δk}T−3

kT−1− kT−2 = f (kT−2) − cT−2− δkT−2

kT − kT−1 = f (kT−1) − cT−1− δkT−1

kT−3 : given kT +1 ≥ 0.

中括弧における最大化問題は_{(4) の V}_T₋₂_(k_T₋₂) に対応するため，最終的に VT−3(kT−3) = max

kT −2

[

u⁽f(kT−3) − kT−2+ (1 − δ)kT−3

)

+ βVT−2(kT−2) ]

(7)

以上のように考えてみれば，一般に_{t 期については，} Vt(kt) = max

cτ,kτ +1

∑T τ =t

β^τ−tu(cτ)

s.t. kτ +1− kτ = f (kτ) − cτ − δkτ (for τ = t, · · · , T − 1,) kt : given

kT +1 ≥ 0.

となる．次のように書き直してみると， Vt(kt) = max

ct,kt+1

{

u(ct) + β max

cτ,kτ +1

[ _T

∑

τ =t+1

β^τ−t−1u(cτ) ]}

s.t. kt+1− kt= f (kt) − ct− δkt

kτ +1− kτ = f (kτ) − cτ − δkτ (for τ = t + 1, · · · , T − 1,) kt : given.

これまでの考えと同様にすれば後ろの括弧は_t+ 1 期以降の問題であることがわかる．よって Vt(kt) = max

k_t+1

[

u⁽f(kt) − kt+1+ (1 − δ)kt

)+ βVt+1(kt+1) ]

(8)

と書くことができる．この式はベルマン方程式(Bellman’s equation) と呼ばれる．以上をまとめると，

(9)

初期値_k₀ _{= k}₀と境界条件

VT(kT) = u⁽f(kT) + (1 − δ)kT

)

とベルマン方程式 Vt(kt) = max

kt+1

[

u⁽f(kt) − kt+1+ (1 − δ)kt

)+ βVt+1(kt+1) ]

(for t = 0, 1, 2, · · · , T − 1.)

により，各期の状態評価関数(value function) が

VT(kT) → VT−1(kT−1) → · · · → V0(k0)

のように求まる．一方，最適政策関数は，状態評価関数を求めた後で， maxkt+1

[

u⁽f(kt) − kt+1+ (1 − δ)kt

)

+ βVt+1(kt+1) ]

(for t = 0, 1, 2, · · · , T − 1.)

の解として，_k_t+1^∗ _{= φ}_t_(k_t_{), c}^∗_t _{= f (k}_t_{) − φ}_t_(k_t₎

| {z }

kt+1

+(1 − δ)ktと求めることができる．

最適政策関数は次のように求めれば良い． maxkt+1

[

u⁽f(kt) − kt+1+ (1 − δ)kt

)

+ βVt+1(kt+1) ]

(for t = 0, 1, 2, · · · , T − 1.)

の解を求める．_k_t+1で微分して，最大化のための必要条件を求めると，

− u^′(ct) + βV_t+1^′ (kt+1) = 0 (9)

⇐⇒u^′(ct) = βV_t+1^′ (kt+1) (10)

⇐⇒u^′⁽f(kt) − kt+1+ (1 − δ)kt

)

= βV_t+1^′ ⁽kt+1

)

(遷移式を代入．) (11)

⇐⇒k^∗_t+1= φt(kt) (12)

と，最適政策関数は_k_tの関数であることが確認できた．_c_t_{, k}_t+1の最適経路の扱いは４ページとおなじである．

オイラー方程式の導出

また，_k^∗_t+1_{= φ}_t_(k_t) を用いると，ベルマン方程式は， Vt(kt) = u⁽f(kt) − φt(kt) + (1 − δ)kt

)+ βVt+1

(

φt(kt)⁾ (for t = 0, 1, 2, · · · , T − 1.)

のように書くことができる．両辺を_k_tで微分すると，

V_t^′(kt) = u^′(c^∗_t)^[f^′(kt) − φ^′_t(kt) + (1 − δ)^]+ βV_t+1^′ (kt+1)φ^′_t(kt)

⇐⇒V_t^′(kt) = u^′(c_t^∗)^[f^′(kt) + (1 − δ)^]+ φ^′_t(kt)^[−u^′(c^∗_t) + βV_t+1^′ (kt+1)^]

(10)

ここで，最大化のための一階条件(10) 式を用いると第二項が消え (これを包絡面の定理 (envelope theorem) という)，

⇐⇒V_t^′(kt) = u^′(c_t^∗)^[f^′(kt) + (1 − δ)^]

が得られる．これと，_{(10) 式より，}

u^′(ct) = βu^′(ct+1)^[f^′(kt+1) + (1 − δ)^]

となり，オイラー方程式を得ることができる．

(11)

II ^{動的計画法} (dynamic programming) ^{：無限期間}

次に無限期間のケースについて，動的計画法を適用することを考えてみる．今までと同様に最適成長モデルを例として取り上げる．一般の動的計画法の問題については，後にまとめる予定だが，Ljungqvist and Sargent (2004) などを参照すると良い．

II.1 ^{ベルマン方程式の導出}

次のように記述される中央計画者問題を考察する． (SP) max

ct,kt+1

∑∞ t=0

β^tu(ct)

subject to

kt+1− kt = f (kt) − ct− δkt

k0 = k0

ここで0 < β < 1 は，割引因子 (discount factor) である．効用関数 u(·) と生産関数 f (·) は， u(0) = 0, u^′(·) > 0, u^′′(·) < 0, u^′(0) = ∞, u^′(∞) = 0

f(0) = 0, f^′(·) > 0, f^′′(·) < 0, f^′(0) = ∞, f^′(∞) = 0

と仮定する．ここで状態評価関数(value function) は次のように書くことができる． V0(k0) = max

ct,kt+1

∑∞ t=0

β^tu(ct) (13)

s.t. kt+1− kt= f (kt) − ct− δkt

k0 : given

V0(k0) 効用を最大にする消費の経路に基づいて測った効用であるから，間接効用関数 (indirect utility function) と対応している．ベルマンの最適性の原理から，(13) は，

V0(k0) = max

c0,k1

[

u(c0) + β max

cτ,kτ +1

∑∞ τ =1

β^τ−1u(cτ) ]

(14) s.t. kt+1− kt = f (kt) − ct− δkt

k0 : given

と書くことができる．括弧の中の第二項は，_t= 1 から先の効用最大化問題であるから， V0(k0) = max

c0,k1

[u(c0) + βV1(k1)^] (15) s.t. k1− k0 = f (k0) − c0− δk0

k0 : given.

(12)

c0^{を消去すれば，}V0(k0) は，次のように書くことができる． V0(k0) = max

k1

[

u⁽f(k0) − k1+ (1 − δ)k0

)

+ βV1(k1)^] (16)

一般の_{t 期では，}

Vt(kt) = max

cτ,k_{τ +1}

∑∞ τ =t

β^τ−tu(cτ) (17)

s.t. kτ +1− kτ = f (kτ) − cτ− δkτ

kt: given と表すことができる．よって同様にして，

Vt(kt) = max

ct,kt+1

{

u(ct) + β max

cτ,kτ +1

[ _T

∑

τ =t+1

β^τ−t−1u(cτ) ]}

s.t. kt+1− kt = f (kt) − ct− δkt

kt: given

と書くことができ_{, c}_tを消去すれば，_V_t_(k_t) は，次のようにベルマン方程式 (Bellman equation) として書くことができる．

Vt(kt) = max

kt+1

[

u⁽f(kt) − kt+1+ (1 − δ)kt

)+ βVt+1(kt+1) ]

(18)

さらに，(17) は時間 t に関わらず同じ形をしていることから，t に依存しない時間不変な状態評価関数(time-invariant value function) として表すことができる．つまり，

V(·) = Vt(·).

よって，ベルマン方程式は，時間不変な関数_V_{(·) について} V(kt) = max

k_t+1

[

u⁽f(kt) − kt+1+ (1 − δ)kt

)+ βV (kt+1) ]

.

II.2 ^{状態評価関数} (value function) ^{とポリシー関数} (policy function)

次に，得られたベルマン方程式に基づいてvalue function を求め，その後 policy function を求める．有限期間の問題と異なり，無限期間の問題では最後のT 時点が無いため，後ろ向き帰納法を用いて後ろ向きに解くことができない．変わりに，value function V (·) が時間不変であることから，問題は

V(kt) = max

kt+1

[

u⁽f(kt) − kt+1+ (1 − δ)kt

)+ βV (kt+1) ]

. (19)

を満たすような関数_V(·) を見つけるという問題になっている．

(13)

(i) Value function

関数が解になるような問題であるため，取り扱うのは関数空間の問題であり，関数解析_(functional analysis) の知識が必要不可欠となる．しかしここでは，value function V (·) は一意に存在する十分条件を満たしている．よって以下のvalue function iteration が利用可能である．

1. 関数方程式 (19) は，一意で強凹関数である解を持つ．

2. 一般的に kt+1= ˜k，kt= k と置くとする．有限でかつ連続である関数 V0^{を初期値として，}

次の繰り返し(iteration) によって，j → ∞ としたときに Vj(·) は関数方程式の解に近づく． Vj+1(k) = max

˜k

[

u⁽f(k) − ˜k+ (1 − δ)k⁾+ βVj(˜k) ]

s.t. k : given.

(ii) Policy function

(19) 式において，左辺の最大化問題を考える．一階条件は kt+1^{で微分して，}

− u^′(ct) + βV^′(kt+1) = 0

⇔ u^′(ct) = βV^′(kt+1) (20)

⇔ u^′⁽f(kt) − kt+1+ (1 − δ)kt

)= βV^′(kt+1) (21)

である

3

．u(·), f (·), V (·) はどれも時間不変な関数であるため，この式を解くことで，時間不変なpolicy function (time invariant policy function)：

kt+1= φ(kt) (22)

が_{t 期の状態 k}_tの関数として得られる．これはt 期において，状態 ktのときの最適な次期資本ストックを表す政策関数である．

またt 期において，状態 kt^のときのt 期の最適な消費 ct^は，

ct = f (kt) − φ(kt) + (1 − δ)kt (23) となる．

(iii) Euler equation

policy function (22) の kt+1 = φ(kt) を用いると，ベルマン方程式は， V(kt) = u⁽f(kt) − φ(kt) + (1 − δ)kt

)

+ βV⁽φ(kt)⁾

3

計算の過程で_ct_{= f (k}t_{) − k}t+1+ (1 − δ)k^tの関係を利用している．

(14)

のように書くことができる．両辺を_k_tで微分すると，

V^′(kt) = u^′(ct)^[f^′(kt) − φ^′(kt) + (1 − δ)^]+ βV^′(kt+1)φ^′(kt)

⇐⇒ V^′(kt) = u^′(ct+1)^[f^′(kt) + (1 − δ)^]− φ^′(kt)^[u^′(ct) − βV^′(kt+1)^]

ここで，最大化のための一階条件(20) 式を用いると第二項が消え (これを包絡面の定理 (envelope theorem) という)，

V^′(kt) = u^′(ct+1)^[f^′(kt) + (1 − δ)^] (24)

が得られる．これと，_{(20) 式より，}

u^′(ct) = βu^′(ct+1)^[f^′(kt+1) + (1 − δ)^]

となり，オイラー方程式を得ることができる．

II.3 ^{動的計画法：例}

ここでは効用関数，生産関数を具体的に特定化した例を用いて，動的計画法を適用し，_value function を求めてみる．value function を求める方法として代表的なものが 3 つある．

1. Value function iteration

2. Howard’s improvement algorithm 3. Guess and verify

Value function iteration は，先にみた関数方程式の性質を利用したものであり，解を解析的に求めることができないケースにおいても数値計算によって対応することが可能である．また_Howard’s improvement algorithm は，value function iteration ではなく，policy function iteration になっているところがポイントである．ここでは，Guess and Verify のみを紹介する．value function iteration および Howard’s improvement algorithm については，ここではアルゴリズムだけを簡単に説明する．具体的な数値計算の方法については，Adda and Cooper (2003) および Ljungqvist and Sargent (2004) を参照すること．一方，解を解析的に求めることができるケースでは，Guess and Verify という手続きによって，解関数を推測して，それが解になっていることを証明することで，解を求める．ただしこの手法が使えるのは，非常に限定的なケースだけであり，より強力なのは数値計算に基づいた手法である．

(i) Value function iteration

このアルゴリズムは，すでにほとんど解説済みである．

1. 一般的に kt+1 = ˜k，kt = k と置くとする．有限でかつ連続である関数 V0^{を初期値として}

与える．

(15)

2. 次の繰り返し (iteration) を行う． Vj+1(k) = max

˜k

[

u⁽f(k) − ˜k+ (1 − δ)k⁾+ βVj(˜k)^] s.t. k : given.

3. j = j + 1 とおく．

4. Vjが収束するまで，繰り返す．

この手法をvalue function iteration とか，iterating on the Bellman equation と呼ぶ．

(ii) Howard’s improvement algorithm

このアルゴリズムについては，後で一般的なケースについて説明する．

(iii) Guess and Verify

ここでSargent (1987) の第一章に基づいて，効用関数 u(c) = log(c)，生産関数 f (k) = Ak^α^というケースを考える．ただし0 < α < 1, A > 0 である．また減耗率 δ = 1 とする．ベルマン方程式_{(19) 式は，}

V(kt) = max

k_t+1

[

log⁽Ak_t^α− kt+1

)+ βV (kt+1) ]

(25)

である．このベルマン方程式を満たすような_V(·) の関数を見つけたい．今，関数 V (·) を V(kt) = E + F log(kt) (26) と推測(guess) する．E と F はまだ決まっていない係数 (undetermined coefficients) である．このguess に基づいて，一階条件から policy function を導出してみよう．(25) 式左辺の最大化の一階条件は，

− ¹ ct

+ βV^′(kt+1) = 0

⇔ ¹ ct

= βV^′(kt+1) (27)

⇔ − ¹ ct

+ βF ¹ kt+1

= 0

⇔ ¹ ct

= βF ¹ Ak^α_t − ct

⇔ ct = ^Ak

α t ^{− c}^t

βF

⇔ (

1 + ¹ βF

)

ct= ^Ak

α t

βF

⇔ ct = ^Ak

α t

1 + βF^.

(16)

また_k_t+1のpolicy function は，

kt+1= Ak^α− ct

⇔ kt+1= Ak^α− ^Ak

α t

1 + βF

⇔ kt+1= Ak^α− ^Ak

α t

1 + βF

⇔ kt+1= ^βF 1 + βF^Ak

α t

となる．_{(24) より，}

V^′(kt) = βV^′(kt+1)αAk^α−1_t

⇔ V^′(kt) = ¹ ct

αAk^α−1_t ((27) 式より)

⇔ V^′(kt) = ^Ak

α−1 t Ak_t^α 1+_βF

(ct^のpolicy function より)

⇔ V^′(kt) = (1 + βF )αk⁻¹_t (28) と書くことができる．一方，(26) 式を k について微分したものは，

V^′(kt) = F k⁻¹_t (29) (28) と (29) とを比較すると，

F = (1 + βF )α

⇔ F = ^α 1 − αβ

であることがわかる．よって，value function および policy function は， V(kt) = E + ^α

1 − αβ ^log(k^t⁾ ⁽³⁰⁾

ct= (1 − αβ)Ak_t^α (31)

kt+1 = Aαβk^α_t (32)

E を求めるには，(25) に，上の 3 本を代入して， V(kt) = max

kt+1

[

log⁽Ak_t^α− kt+1

)+ βV (kt+1) ]

⇔ E + ^α

1 − αβ ^log(k^t^{) = log}

((1 − αβ)Ak_t^α⁾+ β [

E+ ^α 1 − αβ ^log

(

Aαβk_t^α^)]

⇔ E + ^α

((1 − αβ)A⁾+ α log(kt) + βE + ^αβ 1 − αβ ^log

(Aαβ⁾+ ^α

2β

1 − αβ ^log(k^t⁾

⇔ E + ^α

((1 − αβ)A⁾+ βE + ^αβ 1 − αβ^log

(Aαβ⁾+ (

α+ ^α

2β 1 − αβ

)

log(kt)

⇔ (1 − β)E + ^α

((1 − αβ)A⁾+ ^αβ 1 − αβ ^log

(Aαβ⁾+ ( α

1 − αβ )

log(kt)

(17)

log(kt) の係数はまったく同じだから，両辺が等しくなるためには，定数項の部分が等しくなる必要がある．つまり

(1 − β)E = log⁽(1 − αβ)A⁾+ ^αβ 1 − αβ ^log

(Aαβ⁾

⇔ E = (1 − β)⁻¹^{log⁽(1 − αβ)A⁾+ ^αβ 1 − αβ ^log

(Aαβ^)}.

実はこの例では，value function iteration を用いても同じ解を得ることができる．これについては，練習問題としておく．

少し_k_tのダイナミクスについて考えてみよう．_{t 期に状態 k}_tのとき，最適な_k_t+1は_policy functionkt+1 = Aαβk_t^αによって決まる．つまり最適経路は_k_t+1 _{= Aαβk}_t^αという差分方程式を満たしていることになる．対数をとると，

log kt+1= log(Aαβ) + α log kt (33)

|α| < 1 より，t → ∞ のとき，ktはある有限な値に収束していく．この定常状態は， k = Aαβk^α

⇔ k = (Aαβ)^1−α¹

(18)

III 動的計画法：一般的な定式化

いままでは，最適成長モデルに基づいて動的計画法を説明してきた．そこでの直観的な理解を生かし，以下ではより一般的な定式化を行う．ベルマン方程式から，状態評価関数_(value function) とポリシー関数 (policy function) を導くという手続きはまったく同じである．動的計画法は，関数が解になるような問題であるため，取り扱うのは関数空間の問題であり，関数解析(functional analysis) の知識が必要不可欠となる．しかし，数学的に厳密に取扱うにはこの講義の時間を超えるため，Ljungqvist and Sargent (2004) および Adda and Cooper (2003) に基づいて直観的な説明だけを行うことにする．数学的には正しくないが直観的に言えば，関数空間をあたかも実数の空間であるかのように取り合っていると考えるとわかりやすいかもしれない．

III.1 ^{不確実性のないケース}

いままで考察してきたモデルは全て不確実性のない(no uncertainty，または deterministic) モデルであった．以下では不確実性のないケースの一般的な定式化を行う．不確実性のあるケースは別の講義ノートで改めて解説を行う．

割引因子として0 < β < 1 を置く．目的は以下のペイオフ関数 r(·, ·) のは割引現在価値を最大にするように，無限期間の操作変数(control variables){ut}^∞_t=0^{を選ぶことである．}

{umaxt}^∞_t=0

∑∞ t=0

β^tr(xt, ut) (34) s.t. xt+1= g(xt, ut)

x0 : given.

ペイオフ関数r(·, ·) は，凹関数であると仮定する．xt+1 = g(xt, ut) は，xtの遷移を表す遷移式(transition equation) と呼ばれる．集合 {(xt+1, xt) : xt ≤ g(xt, ut)} は，凸集合で，かつコンパクト集合であるとする

4

．動的計画法では，時間不変(time-invariant) なポリシー関数 (policy function)h を見つけることである．h は，状態変数 (state variables) である xt^から操作

変数(control variables) である ut^へのmapping であり，

ut= h(xt) (35)

xt+1= g(xt, ut) (36) x0 : given,

に基づいて作られた系列_{u_t_}^∞_t=0は元の問題の解なる．このような解の形式を”recursive”と呼ぶ．policy function を見つけるためには，次のような状態評価関数 (value function) を考える必要がある．これはある状態のときの問題の最適な価値を表したものであり，次のように書くこ

4

数学的には正確ではないが，直観的に説明しておく．凸集合とは，集合(集まり) があったときに，その境界のどこにもクボミがない状態である．ちなみに凸という漢字は凸集合ではない．コンパクト集合とは，有限で閉じた閉集合を表す．例えば数直線状に閉区間を考えたときには，値が有限であり，かつ境界を含み，中身が詰まっている区間が閉区間である．

(19)

とができる．

V0(x0) = max

{ut}^∞_t=0

∑∞ t=0

β^tr(xt, ut) (37) s.t. xt+1= g(xt, ut)

x0 : given.

このvalue function は次のように書くことができる． V0(x0) = max

u0

[

r(x0, u0) + β max

{uτ}^∞_{τ =1}

∑∞ τ =1

β^τ−1r(xτ, uτ) ]

s.t. xt+1 = g(xt, ut) x0 : given. 第二項に(37) を利用すると，

V0(x0) = max

u0

[

r(x0, u0) + βV1(x1)^] s.t. xt+1 = g(xt, ut)

x0 : given.

と書くことができる．一般のt 期についても同様にして，ベルマン方程式を導出できる． Vt(xt) = max

ut

[r(xt, ut) + βVt+1(xt+1)^] s.t. xt+1= g(xt, ut)

xt: given.

ここで，(37) は t に関係しない定式化になっているため⁵^，V0(·) = V (·) と時間不変 (time-invariant) な関数として書くことができる．よって，一般に_x_˜_{= x}_t+1，_x _{= x}_t，_u _{= u}_tとするとき，_V_(·) は

V(x) = max

u

[r(x, u) + βV (˜x)^] (38) s.t. ˜x= g(x, u)

x: given,

というベルマン方程式の解になる．value function V (·) をどのように見つけるかは，あとに議論するとして，_V(·) が見つかれば，policy function は，

maxu

[

r(x, u) + βV (˜x)^] s.t. ˜x= g(x, u)

x: given.

5t をどこから始めても関数の形は同じままである．

(20)

の解として求めることができる．

まとめると，問題は次のようになる．

次のベルマン方程式の解としてvalue function V (·)，policy function h(·) を求める． V(x) = max

u

[r(x, u) + βV (˜x)^] (39) s.t. ˜x= g(x, u)

x: given,

policy function h(x) と ˜x= g(x, u) を代入すれば，定義域上の任意の x に対して

V(x) = r⁽x, h(x)⁾+ βV⁽g⁽x, h(x)⁾⁾. (40)

未知の関数である_V(·)，h(·) を解とする関数方程式 (functional equation) が得られる．以上の仮定の下で，次のことがわかる

6

1. 関数方程式 (39) は，一意で強凹関数である解を持つ．

2. 有限でかつ連続である関数 V0を初期値として，次の繰り返し(iteration) によって，j → ∞ としたときに_V_j(·) は関数方程式の解に近づく．

Vj+1(x) = max

˜x

[r(x, u) + βVj(˜x)^] s.t. x : given.

3. (39) の右辺を最大にする必要条件は，

∂r(x, u)

∂u ^{+ βV}

′⁽_{g(x, u)}^{) ∂g(x, u)}

∂u ^{= 0} ⁽⁴¹⁾

この必要条件を満たす，一意で時間不変(time-invariant) な policy function h(·) が存在する．

4. 端点を除いて，value function は次のように微分可能である．(40) より，

V^′(x) = ^∂r

(x, h(x)⁾

∂x ^{+ β}

∂g⁽x, h(x)⁾

∂x ^V

′⁽_g⁽_{x, h(x)}⁾⁾_. ₍₄₂₎

この式の導出はBenveniste and Scheinkman による⁷^．特にx˜= g(u) であるとき，_∂x^∂g = 0 より，

V^′(x) = ^∂r

(x, h(x)⁾

∂x ⁽⁴³⁾

である．

6

証明は省略する．詳しくはLjungqvist and Sargent (2004) および Adda and Cooper (2003) に直観的な説明が書かれている．また数学的に厳密な取扱いは，Stokey and Lucas (1989) にある．

7(42) 式の導出は後述

(21)

5. Euler 方程式の導出

˜

x= g(u) であるとき，(41) 式は，

∂r(x, u)

∂u ^{+ βV}

′_(˜_x)^∂g(u)

∂u ^{= 0} ⁽⁴⁴⁾

上の式に(43) を代入すると，

∂r(x, u)

∂u ^{+ β}

∂r⁽x, h(˜˜ x)⁾

∂x˜

∂g(u)

∂u ^{= 0.} ⁽⁴⁵⁾

のようにEuler 方程式を導出できる⁸^．

(i) (42) 式の導出 (Benveniste and Scheinkman (1979)) (40) より，両辺微分して，

V^′(x) = ^∂r

(x, h(x)⁾

∂x ⁺

∂r⁽x, h(x)⁾

∂u

∂h(x)

∂x + βV^′⁽g⁽x, h(x)⁾⁾

[∂g⁽x, h(x)⁾

∂x ⁺

∂g⁽x, h(x)⁾

∂u

∂h(x)

∂x ]

を少し整理すると，

V^′(x) = ^∂r

(x, h(x)⁾

∂x ^{+ βV}

′⁽_g⁽_{x, h(x)}^{)) ∂g}

(x, h(x)⁾

∂x +

[∂r⁽x, h(x)⁾

∂u ^{+ βV}

′⁽_g⁽_{x, h(x)}^{)) ∂g}

(x, h(x)⁾

∂u

] ∂h(x)

∂x ^.

(41) 式より，第三項はゼロであるから，包絡面の定理 (envelope theorem) より (42) 式

V^′(x) = ^∂r

(x, h(x)⁾

∂x ^{+ βV}

′⁽_g⁽_{x, h(x)}^{)) ∂g}

(x, h(x)⁾

∂x ^. が導出される．

8

分かりやすく時間の添え字を戻せば，

∂r(xt, ut)

∂ut

+ β^∂r(x^t+1^{, h(x}^t+1⁾ )

∂xt+1

∂g(ut)

∂ut

= 0

∂r(x^t, ut₎

∂u^t ^{+ β}

∂r(xt+1, ut+1

)

∂xt+1

g^′(u^t) = 0

ここで，_xt= kt，_ut= kt+1^，r(xt, ut) = u⁽f(kt) − kt+1+ (1 − δ)kt

)

，_g(ut) = kt+1^{とおけば，}

−u^′(c^t) + βu^′(ct+1) [f^′(kt+1) + (1 − δ)] = 0 と，最適成長のモデルにおけるオイラー方程式になっていることが確認できる．

(22)

III.2 ^{３つの導出方法}

最適成長の例で説明したとおり，value function と policy function を求めるのには 3 つの方法がある．

1. Value function iteration

2. Howard’s improvement algorithm 3. Guess and verify

Value function iteration は，先にみた関数方程式の性質を利用したものであり，解を解析的に求めることができないケースにおいても数値計算によって対応することが可能である．また_Howard’s improvement algorithm は，value function iteration ではなく，policy function iteration になっているところがポイントである．value function iteration および Howard’s improvement algorithm については，ここではアルゴリズムだけを簡単に説明する．具体的な数値計算の方法については，Adda and Cooper (2003) および Ljungqvist and Sargent (2004) を参照すること．

(i) Value function iteration

1. 有限でかつ連続である関数 V0を初期値として与える． 2. 次の繰り返し (iteration) を行う．

Vj+1(x) = max

u

[r(u, x) + βVj(˜x)^] s.t. ˜x= g(x, u)

x: given, 3. j = j + 1 とおく．

4. Vjが収束するまで，繰り返す．

この手法をvalue function iteration とか，iterating on the Bellman equation と呼ぶ．

(ii) Howard’s improvement algorithm

Howard’s improvement algorithm は次のステップからなる．

1. はじめに policy function の初期関数として u = h0(x) を選ぶ．value を計算する．

Vhj^{(x) =}

∑∞ t=0

β^tr⁽xt, hj(xt)⁾,

s.t. xt+1= g⁽xt, hj(xt)⁾, x0 : given.

(23)

2. 次の目的関数を最大にする policy function を，u = hj+1(x) とする． maxu ⁼

[r(x, u) + βVhj

(g(x, u)^)]

3. j = j + 1 とおく．

4. hj(·) が収束するまで，step 1, 2, 3 を繰り返す．

(iii) Guess and verify すでに解説済み．

参考文献

[1] Adda, Jerome and Russell W. Cooper, (2003) “Dynamic Economics: Quantitative Methods and Applications,” MIT Press.

[2] Benveniste, Lawrence, and Jose Scheinkman, (1979) “On the differentiability of the value function in dynamic models on economics,” Econometrica, Vol. 47(3), 727-732.

[3] チャン, A., C., (1995),「現代経済学の数学基礎〈上〉〈下〉」，CAP 出版

[4] Ljungqvist, Lars and Thomas Sargent, (2004), “Recursive Macroeconomic Theory,” 2nd edition, MIT Press.

[5] 西村清彦，(1990)，「経済学のための最適化理論入門」，東京大学出版会．

[6] Sargent, Thomas, (1987) “Dynamic Macroeconomic Theory,” Harvard University Press. [7] Stokey, Nancy, and Robert Lucas, (1989) “Recursive Methods in Economic Dynamics,”

Cambridge, MA: Harvard University Press.

lecturenote4 standard Recent site activity masaruinaba

講義ノート４：動的計画法

稲葉 大

First draft 2008 年 10 月 27 日

Revised 2009 年 1 月 7 日

Revised 2010 年 5 月 26 日

目 次

I 動的計画法 (dynamic programming): 有限期間

I.1 後ろ向き帰納法 (backward induction method)

I.2 基本的再帰関係式 (fundamental recurrence relation)

II 動的計画法 (dynamic programming) ：無限期間

II.1 ベルマン方程式の導出

II.2 状態評価関数 (value function) とポリシー関数 (policy function)

II.3 動的計画法：例

III 動的計画法：一般的な定式化

III.1 不確実性のないケース

III.2 ３つの導出方法

参考文献

稲葉大

目次

I ^{動的計画法} (dynamic programming): ^有限期間

I.1 ^{後ろ向き帰納法} (backward induction method)

I.2 ^{基本的再帰関係式} (fundamental recurrence relation)

II ^{動的計画法} (dynamic programming) ^{：無限期間}

II.1 ^{ベルマン方程式の導出}

II.2 ^{状態評価関数} (value function) ^{とポリシー関数} (policy function)

II.3 ^{動的計画法：例}

III.1 ^{不確実性のないケース}

III.2 ^{３つの導出方法}