$\mathrm{d}\mathrm{p}$ (Katsuhisa $\mathrm{o}\mathrm{m}\mathrm{o}$) Aichi Institute of Technology (Takahiro Ito) Nagoya Institute of Te

(1)

Title

ニューロDPによる多品目在庫管理の最適化 (不確実で動

_{的なシステムへの最適化理論とその展開)}

Author(s)

大野, 勝久; 伊藤, 崇博; 石垣, 智徳; 渡辺, 誠

Citation

数理解析研究所講究録 (2004), 1383: 64-71

Issue Date

2004-07

URL

http://hdl.handle.net/2433/25715

Right

Type

Departmental Bulletin Paper

Textversion

publisher

(2)

ニューロ

$\mathrm{D}\mathrm{P}$

による多品目在庫管理の最適化

愛知工業大学

大野勝久 (Katsuhisa

$\mathrm{O}\mathrm{m}\mathrm{o}$

)

Aichi Institute of

Technology,

名古屋工業大学

伊藤崇博 (Takahiro

Ito)

Nagoya

Institute of

Technology,

大阪府立大学

石垣智徳

(Tomonori

Ishigaki)

Osaka

Prefecture

University,

NTT

ドコモ東海

渡辺

誠 (Makoto Watanabe)

NTT

DoCoMo

Tokai

1. 序論

在庫管理問題は

,

古くは

1913

年の

F.WHarris

の経済的発注量

(EOQ)

の研究に始まり

,

経営工学

分野の中で長年にわたり中心的課題として, 多く

の研究が行われてきた。今田こおいては

, 原材料

の調達から消費者にいたる SCM

を中心に

, 多品

目在庫管理問題の最適化が切望されている。

本発表てはます 7

2 章で離散時間多品目在庫管

理問題を平均費用を最小化する時間平均マルコ

フ決定過程問題として定式化する。

動的計画法

(

以下

DP

と略す

)

の枠組みとマルコフ決定過程

(MDP)

は

,

Bellman

によって

1950

年代に提案

されたが

, 政策反復法 (Policy

Iteration

Method,

PIM)

を初めとするアノレゴリズムは

Howard[l],

Puterman[2]

等にまとめられている。離散時間多品

目在庫管理問題にたいしても

,

Omo et

a1.[31

は

,

PIM を改善したアルゴリズムを提案している。し

かし

,

MDP

は

DP

同様

, 品目数の増加とともに

次元の呪いを引き起こし,

実用規模の問題を事実

上解くことができない。そこで本研究では,

人工

知能 [4]

の分野において強化学習

(Reinforcement

Leaming)[5]

とも呼ばれている,

ニューロ・ダイナ

ミツクプログラ

ミング

(NeurO-Dynamic

Programming,

ニューロ

)[

$6,7$

1 の適用を試みる。

ニューロ

は

MDP

の枠組みの中で

,

シミュレ

ーション,

学習

, ニューラルネットワークなどを

組み合わせ

,

大規模な問題に対する近似最適政策

を計算する手法として開発されてきた。最近 Das

et

a1.[8] と Gosavi[9] は,

MDP を含むより一般的な

セミ

マルコフ決定過程

(SMDP)

の時間平均費

用を最小化するアルゴリズムとして

SMART,

RELAXED-SMART

を提案し

, 保全問題へ適用し

ている。また

He

et a1.[10]

は

,

PIM の値決定ルー

チンをシミュレーションで置きかえた

SBPI

アノレ

ゴリズムを提案し,

在庫管理問題へ適用している。

さらに

Gosavi

et

al.[

垣

]

は

,

SMART

に

$\mathrm{T}\mathrm{D}$

(Temporal

Differnce) をとり入れた

$\lambda$

-SMART

を開発し

,

航空運賃の収入管理問題へ応用している。

本発表では,

ます

Omo

et

a1.[3]

に基つき次章て

多品目在庫管理問題を説明し

,

3 章で時間平均マ

ルコフ決定過程 (UMDP) への定式化を行い, 若

干の理論的性質を定理として示す。

4 章で修正政

策反復法

(

$\mathrm{M}\mathrm{o}\mathrm{d}\mathrm{i}\mathrm{f}_{1}\mathrm{e}\mathrm{d}$

Policy

Iteration

Meffiod,

MPIM)

[12-14]

の値決定ルーチンにシミュレーションを

用いる

SBMPIM

アルゴリズム

[15]

を述べる。

5 章

では

SMART,

旺

$\mathrm{L}\mathrm{A}\mathrm{X}\mathrm{E}\mathrm{D}-\mathrm{S}\mathrm{M}\mathrm{A}\mathrm{R}\mathrm{T}$

と

SBPI

アノレゴ

リズムを簡単に説明する。

6 章てはこれらアルゴ

リズムを

2 品目在庫管理問題へ適用し

,

SBMPIM,

SMART,

旺

,

SBPI

に対する結

果をも含めて

Omo et

a1.[31

による厳密解との比

較を行う。

2. 多品目在庫管理問題

発注費用の形が一般的であり,

超過需要が部分

的もしくはすべてバックログされ,

周期的な観測

を行う

$N$

品目在庫管理システムを考える。

もし

ロストセールを仮定するならば,

品物の納入遅れ

はないものとする。

ここで

$\mathrm{x}=$

$(x_{1},x2’\cdots, x_{N})^{T}$

を

各期首における発注前の手持ち在庫水準とする。

ここで

$x_{n}\in \mathrm{Z}=\{0,\pm 1,\pm 2,\cdots\}(n\in \mathrm{N}=\{1,2,\cdots,N\})$

であり,

$T$

は転置を表す。

Johnson[16]

を除くすべ

ての論文は連続状態を論じているが

,

より現実的

な離散状態を議論する。発注は

$\mathrm{x}$

と発注政策

f

に

よって決定され

,

$\mathrm{y}=$

$(y_{1},y2’\cdots,y_{N})^{T}\in \mathrm{z}^{N}$

まて発

注したとき

,

段取り費用を含む発注費

$K$

(X,y)

が

発生する。各期の需要

$\mathrm{D}=$

$(D_{1},D2’\cdots,D_{N})^{T}$

,

$D_{n}\in \mathrm{Z}_{+}=\{0,1,2,\cdots\}$

$(n\in \mathrm{N})$

は独立な同一分布

$\phi(\mathrm{y},\mathrm{D})$

に従うものと仮定する。

その期に需要

$\mathrm{D}$

が発生したならば

,

1 期間当たり在庫・品切れ費

用

$l(\mathrm{y},\mathrm{D})$

が発生する。

したがって

, 各期における

(3)

95

$L( \mathrm{y})=\sum_{\mathrm{D}\geq 0}\phi(\mathrm{y},\mathrm{D})l(\mathrm{y},\mathrm{D})$

求される条件である。また

, 確率

1 で需要

0 をと

る品目は在庫管理の対象として無視できるので

で与えられる。ここで

$\mathrm{x}\leq \mathrm{y}$

(x,

$\mathrm{y}\in \mathrm{Z}^{N}$

)

(ま

$x_{n}\leq y_{n}$

条件

4 は一般的な在庫管理システムについて成

立する。目的は計画期間が無限にわたる在庫管理

$(n\in \mathrm{N})$

_を表し

,

$\mathrm{x}<\mathrm{y}$

は

$\mathrm{x}\leq \mathrm{y}$

かつ

$\mathrm{x}\neq \mathrm{y}$

を意味

システムの単位期間当たりの期待費用を最小に

するものとする。また

, 次期の期首在庫は

$u(\mathrm{y},\mathrm{D})$

する最適発注政策を見つけることである。

によって与えられるものとする。例えば

,

バック

ログを仮定する場合

,

$u_{B}$

(y,

$\mathrm{D}$

)

$=\mathrm{y}-\mathrm{D}$

となり

,

_ロ

3. マルコフ決定過程による定式化

ストセールを仮定する場合,

前章の多品目在庫管理システムは

UMDP

に定

$u_{L}$

(y,

$\mathrm{D}$

)

$=([\gamma_{1}-D_{1}\mathrm{r},[\gamma_{2}-D_{2\mathrm{F}},\cdot..,\triangleright_{N} -D_{N}]+)^{T}$

:

式化することができ

,

その最適方程式は次式で与

えられる。

$\int y_{n}-D_{n}\mathrm{r}=\max\{y_{n}-D_{n},0\}$

$(n\in \mathrm{N})$

である。

g(X)+U(x)=y?\sim

々

}){K(x,

$\mathrm{y}$

)

$+L( \mathrm{y})+\sum_{\mathrm{D}\epsilon \mathrm{B}}\phi(\mathrm{y},\mathrm{D})$

v(u(y,

$\mathrm{D})$

)

$\}$

状態

$\mathrm{x}$

の値からなる状態空間

$\mathrm{X}$

は倉庫容量

$\overline{\mathrm{M}}$

と

在庫処理環境

(例えはバックログ

(B),

ロスト

(1)

セール

(L)

$)$

によって制約される。

例えば

,

バ

ックログの場合

$\mathrm{X}_{B}=\{\mathrm{x}\in \mathrm{Z}^{N}$

;

$\sum_{n\epsilon \mathrm{N}}a_{n}x_{n}^{+}\leq\overline{\mathrm{M}}\}$

$g( \mathrm{x})=\min_{\mathrm{y}\epsilon \mathrm{Y}}\{\sum_{\mathrm{y}\in \mathrm{Y}}\phi(\mathrm{y},\mathrm{D})g(u(\mathrm{y},\mathrm{D}))\}$

(2)

ここで

てあり,

ロストセールの場合

$\mathrm{Y}=\{\mathrm{y}\in \mathrm{X};\mathrm{y}\geq \mathrm{x}\}$

,

$\mathrm{X}_{L}=\{\mathrm{x}\in \mathrm{Z}_{+}^{N}$

;

$\sum_{n\epsilon \mathrm{N}}a_{n}x_{n}\leq\overline{\mathrm{M}}\}$

$\mathrm{Y}(\mathrm{x})=\{\mathrm{y}\in \mathrm{Y}:g(\mathrm{x})=\sum_{\mathrm{D}\mathrm{e}\mathrm{B}}\phi\langle \mathrm{y},\mathrm{D})g(u(\mathrm{y},\mathrm{D}))\}$

.

となる。

ここで

$a_{n}$

は

$n$

番目の品目

1 個当たりの

である。

$g(\mathrm{x}),$ $o(\mathrm{x})$

をそれぞれ初期状態が

$\mathrm{x}$

であ

大きさであり,

$x_{n}^{+}= \max\{x_{n},0\}$

,

$n\in \mathrm{N}$

である。

$X_{B}$

る時の最小期待平均費用と相対値とおく。有限で

は加算集合であり

X

。は有限集合である。

以下の

_ある

$X$

の場合

,

確定的な定常マルコフ政策の中

条件を仮定する。

に最適政策が存在することがよく知られている。

条件

1

$\mathrm{x}<\mathrm{y}<\mathrm{z}$

であるような任意の在庫水準

定常政策

$f$

は

$\mathrm{X}$

の部分集合

$\sigma$

と

$\sigma$

から

$\mathrm{X}$

への写

$\mathrm{x},\mathrm{y},\mathrm{z}\in \mathrm{X}$

に対して以下の式が成立する。

像

$s(\cdot)$

を用いて

$f=(\sigma,S(.))$

_{と表わすことができ}

$K$

(x,

$\mathrm{z}$

)

$<K$

(x,

$\mathrm{y}$

)

$+K$

(y,z)

かつ

$K$

(x,

$\mathrm{x}$

)

$=0$

.

る。

$\sigma$

は

$(\sigma,S(.))$

政策は在庫水準

$\mathrm{x}$

において次の

条件

2 もし

$\mathrm{X}$

が有限でないならば

ように発注を決定する。

l 而

$\mathrm{x}arrow-\infty$

$L(\mathrm{x})=\infty$

てある。すなわち

, 総ての実数

$\mathrm{x}\in\sigma$

のとき

$S(\mathrm{x})$

まて発注する。

$M$

_に対して

,

$\mathrm{x}\in \mathrm{X}$

かつ

$\mathrm{x}\not\geq \mathrm{z}_{M}$

を満たすすべての

$\mathrm{x}\in\sigma^{c}\equiv \mathrm{X}-\sigma$

のとき

発注しない。

$\mathrm{x}$

に対して

$L(\mathrm{x})>M$

となる

$\mathrm{z}_{7}\in \mathrm{X}$

が存在する。

したがって,

$\sigma$

を発注状態集合

,

$\sigma^{c}$

を非発注状

条件

3 もし

$\mathrm{X}$

が有限でないならば各期の需要は

態集合と呼ぶことにする。

有界てある。

すなわち

,

すべての

に対して

定理

1 最適発注政策

$(\sigma,S(.))$

は以下を満たす。

$\mathrm{o}\sum_{\mathrm{e}\mathrm{B}}\phi(\mathrm{x},\mathrm{D})=1$

i) もし

$\mathrm{X}$

が有限でないならば

$\sigma^{c}\subset(\sigma^{0}f=\{\mathrm{x}\in \mathrm{X};\mathrm{x}\geq \mathrm{z}_{g^{0}}\},$

(3)

を満たすような有界集合

$\mathrm{B}\subset \mathrm{Z}_{+}^{N}$

が存在する。

条件

4 ロストセールの仮定の下ての

$x_{n}=0$

を除

である。ここで

$\mathrm{z}_{\mathrm{g}^{0}}$

は仮定

2 の

$M$

を以下て与えら

くすべての

と

$n\in \mathrm{N}$

に対し

$x_{n}>u_{n}$

(X,D)

がれる

$g^{0}$

によって置き換えたものである。

確率

1 で成立する。

$K(\mathrm{x},\mathrm{y})=K\delta(\mathrm{y}-\mathrm{x})+\mathrm{c}\cdot(\mathrm{y}-\mathrm{x})$

Johnson[16]

ては固定発注費用

$K>0$

に対して

$g^{0}= \min_{\mathrm{y}\epsilon \mathrm{X}}\{L(\mathrm{y})+\sum_{\mathrm{D}\in \mathrm{B}}\phi(\mathrm{y},\mathrm{D})K$

(u(y,

$\mathrm{D}\lambda \mathrm{y}$

)}.

$(4)$

と仮定されている。ここで

$\delta(0)=0$

_であり,

$\mathrm{x}>0$

$\mathrm{i}\mathrm{i})$ $S(\mathrm{x})\in\sigma^{c}$

,

$\mathrm{x}\in\sigma \mathrm{t}$

ならば

$\delta(\mathrm{x})=1$

’

$\mathrm{c}$

は

$N$

次元の価格行ベクトルで

$\mathrm{i}\mathrm{i}\mathrm{i})$

$v(\mathrm{x})=K$

(x,

$S(\mathrm{x})$

)

$+o(S(\mathrm{x}))$

,

$\mathrm{x}\in\sigma$

.

ある。明らかにこの発注費用は条件

1 を満たし

,

₍₅₎

(4)

もし

$\mathrm{X}$

が有限でないならば

$\mathrm{X}^{0}$

を

$(\sigma^{0})^{\rho}’\cup\{u(\mathrm{x},\mathrm{D})$

for

all

$\mathrm{x}\in(\sigma^{0})’$

’

かつ

$\mathrm{D}\in \mathrm{B}\}$

とおき

,

$\mathrm{X}^{0}$

の状態数を

$N^{0}$

_{とする。定理}

1 _は最適

政策の候補となるようなすべての発注政策の下

て

$\mathrm{X}^{0}$

がすべての再帰的状態を含むことを意味し

ている。

逆に

$\mathrm{X}^{0}$

の外側のすべての状態は最適政

策の下て常に過渡的状態であり

,

この状態におけ

る発注政策は最小平均期待費用に影響しない。し

たがって

, 有限集合

$\mathrm{X}^{0}$

のみに対して最適政策を

探せば十分である。

$\mathrm{x}\not\in \mathrm{X}^{0}$

に対する最適政策

$S(\mathrm{x})$

は (5) 式より容易に計算できる。次の定理

2 では

$\mathrm{X}$

が有限であるとき

,

$\mathrm{X}^{0}$

は

$\mathrm{X}$

を意味するものとす

る。

定理

2 最小平均期待費用

$g(\mathrm{x})$

は

に対して

定数である。すなわち

,

$g(\mathrm{x})=g$

_であり

,

最適方

程式 (1) と

(2)

は次式に帰着する。

$g+v( \mathrm{x})=\min_{\mathrm{y}\epsilon \mathrm{Y}}\{K$

(x,

$\mathrm{y}$

)

$+L( \mathrm{y})+\sum_{\mathrm{D}\mathrm{e}\mathrm{B}}\phi(\mathrm{x},\mathrm{D})u(u(\mathrm{x},\mathrm{D}))$

},

$\mathrm{x}\in \mathrm{X}^{0}$

,

(6)

ここで右辺の最小値を与える決定が最適政策で

ある。

4. 修正政策反復法とニューロ

アルゴリズム

最適性方程式 (6) を解くアルゴリズムが

PIM,

MPIM

であり

,

値反復法

(value

_iteration

method) ,

線形計画法

(linear

programming)

である [1,2,

12-14]

。

以下,

表記を簡単化するため

$r(\mathrm{x},\mathrm{y})=K(\mathrm{x},\mathrm{y})+L(\mathrm{y})$ $\mathrm{x}’=u(\mathrm{y},\mathrm{D})$

とお

$\text{く}$

。

[MPIM]

[14]

ステップ

1:

$u_{0}(s_{r})=0$

をみたす初期ベクトノレ

$u^{0}$

,

非負整数

$m_{\mathrm{f}}$

初期攻策

$f^{0}$

, 正数

$\epsilon$

を定め,

$k=0$

と

お

$\langle$

。

ステップ

2:(政策改良ルーチン)

各

に対

して

$g^{k+1}( \mathrm{x})=\mathrm{m}\mathrm{i}\mathrm{P}_{S})\{*\in Kr(\mathrm{x},\mathrm{y})+\sum_{\mathrm{D}\mathrm{e}\mathrm{B}}\phi(\mathrm{x},\mathrm{D})o^{k}(\mathrm{x}’)-o^{k}(\mathrm{x})\}$

を計算し

,

$f^{k}$

(X)

が

$g^{k+1}$

(x)

を与えれば:

$f^{k+1}(\mathrm{x})=f^{k}$

(x)

_とおき

_{さもなければ}

,

$g^{k+1}$

(x) を与える任意の決定を

$f^{k+1}$

(x) とと

る。

ステップ 3:(値近似ルーチン)

$w^{0}(\mathrm{x})=v^{k}(\mathrm{x})+\mathrm{o}^{k+1}$

(x),

とおき ,

$l=0,1,\cdots m-1$

に対して順次

,

$w^{/+1}(\mathrm{x})=r(\mathrm{x},f^{k+1}(\mathrm{x}))$

$+ \sum_{\mathrm{D}\in \mathrm{B}}\phi(\mathrm{x},\mathrm{D})w^{l}(\mathrm{x}’)$

を計算し

,

$v^{k+1}(\mathrm{x})=w^{m}(\mathrm{x})-w^{m}$

(xr),

とおく。すべての

$\mathrm{x}$

に対して

,

$|v^{k+1}(\mathrm{x})-o^{k}(\mathrm{x})|<\epsilon$

であれば終了。最適政策は

$f^{k+1}$

(X),

_最小平均

費用は

$g^{k+1}$

(xr),

相対費用は

$v^{k+1}$

(X) で与えられる。

さもなければ,

$k=k+1$

として

, ステップ

2^。

MPIM

は比較的状態数の大きな

MDP

に対して

も有効であるが

,

同様

, 品目数の増加ととも

に次元の呪いを引き起こし

, 多品目問題を解くこ

とは困難である。したがって,

MPIM

において状

態空間

$\mathrm{X}^{0}$

の全ての状態にたいして値近似ルーチ

ンを実行することは実際的ではなく,

シミュレー

ションを用いることが考えられる。すなわち

,

実

際によく生起する初期状態

$\mathrm{x}_{0}$

から出発し,

シス

テムの状態変化と費用をシミュレートし

, 訪問し

た状態の集合

$\mathrm{X}_{\nu}$

にたいしてだけ相対費用

$v(\mathrm{x})$

を

推定する。

このニューロ

DP

アルゴリズムを

SBMPIM

(

_{Simulation-Based Modified}

_Policy

Iteration

Method)

_{と呼ぶことにする}

_[15]

_。

[SBMPIM][15]

ステップ

1:

初期状態

$\mathrm{x}_{0}$

と望ましい状態

$\mathrm{x}^{\mathrm{s}}$

を定

め,

シミュレーション回数

$m$

および

$\lambda(0\leq\lambda\leq 1)$

を定めて,

訪問した状態の集合

$\mathrm{X}_{v}=\mathrm{X}_{T}=\phi$

(空

集合),

累積費用

$TC=0,$

$\mathrm{x}=\mathrm{x}_{0},$

$k=l=1$

とおく。

ステツプ

2;

$\mathrm{x}\not\in \mathrm{X}_{v}$

ならば

,

$\mathrm{X}_{v}=\mathrm{X}_{v}\cup\{\mathrm{x}\}\mathrm{r}$ $\mathrm{X}_{T}=\mathrm{X}_{\mathit{1}}\cdot\cup\{\mathrm{x}\},$ $\mathrm{x}$

の訪問回数

$v(\mathrm{x})=1$

とおき,

$f(\mathrm{x})$

を状態

$\mathrm{x}^{l}$

へ向かう実行可能な決定と定める。

$\mathrm{x}\in \mathrm{X}_{v}$

ならば,

$\mathrm{x}\not\in \mathrm{X}_{T}$

のとき,

$\mathrm{X}_{T}=\mathrm{X}_{T}\cup\{\mathrm{x}\}$

,

$v(\mathrm{x})=1$

とおき ,

$\mathrm{x}\in \mathrm{X}_{T}$

ならば

,

$v(\mathrm{x})=v(\mathrm{x})+1$

と更新する。

.

状態

$\mathrm{x}$

で決定

$f$

(X)

をとったときの

状態推移をシミュレーションし,

次期の状態

$\mathrm{x}’$

を

定める。

$TC=TC+r(\mathrm{x},f(\mathrm{x}))$

$\mathrm{x}=\mathrm{x}’$

と更新し

,

$l=m$

ならばステップ

3^

。

さもなけ

れば

$l=l+1$

としてステップ

2^

。

ステップ 3:(

$g$

の推定

)

平均費用

$g$

を次式により

推定する。

$g=TC/m$

ステップ

4:

(

$v(\mathrm{x})$

の推定

)

$\mathrm{X}_{v}$

のなかて

$\mathrm{x}_{r}$

を定め,

$o(\mathrm{x}_{r})=(1-\lambda v(\mathrm{x}_{r})/m\mathrm{X}w(\mathrm{x}_{r})_{-g})+(\lambda v(_{\mathrm{X}},)/m\mathrm{X}r(\mathrm{x}_{r},f(\mathrm{x}_{r}))_{-g})$

(5)

87 $U(\mathrm{x})=(1-\lambda v(\mathrm{x})/m\mathrm{X}w(\mathrm{x})-g)+(\lambda o(\mathrm{x})/m\mathrm{X}^{\gamma}(\mathrm{x},f(\mathrm{x}))-g)-U(\mathrm{x}_{r})$

ステップ

6:

ステップ

3 で決定

$\mathrm{y}^{\mathrm{t}}$

を選択したなら

を計算し

,

$o(\mathrm{x}_{r})=0$

とおく。ただし

,

_$k=1$

_のと

ば,

$TC$

_と

_$g$

_{を更新する。}

き

}

こ

は

$o(\mathrm{x},)=r(\mathrm{x}_{r},f(\mathrm{x}_{r}))-g$

$TC=TC+r(\mathrm{x},\mathrm{x}’,\mathrm{y}^{\mathrm{s}})$

$v(\mathrm{x})=r(\mathrm{x},f(\mathrm{x}))-g-v(\mathrm{x}_{r})$

である。

$T=T+1$

ステップ 5:(政策改良ルーチン)

$\mathrm{x}\in \mathrm{x}_{v}$

にたい

$g=TC/T$

して

ステップ

7:

$Q_{old}$

$($

X,

$\mathrm{y})=Q_{new}$

(X,y)

と更新する。

$w(\mathrm{x})=\mathrm{m}\mathrm{y}\mathrm{e}N(\mathrm{x}.$

.f(

幻

){r(x,

$\mathrm{y}$

)

$+ \sum_{\mathrm{D}\in \mathrm{B}}\phi(\mathrm{y},\mathrm{D})U(\mathrm{x}’)\}$

ステップ

8:

$k$

が停止回数に達すれば終了。

さも

な

$\{\}$

れぱ

$k=k+1$

,

$\mathrm{x}$

’ を

$\mathrm{x}$

としてステップ

$2\wedge\circ$

を計算し

,

$v(\mathrm{x})=0$

とおく。

_ここで

$N$

(X,

$f$

(x))

は

Gosavi[9]

は

SMART

が必すしも収束しないこ

とを示し,

その改良版

RELAXED-SMART

を提案

$f$

(X)

の近傍であり

,

$\emptyset(\mathrm{y},\mathrm{D})>0$

となる

$\mathrm{x}\not\in \mathrm{X}_{v}$

[こた

している。

SMART

と旺

は

いして (ま,

$\mathrm{x}_{v}=\mathrm{X}_{v}\cup\{\mathrm{x}’\},$

$v(\mathrm{x}’)=0$

とおき

,

_$f$

(x’)SMDP

にたいするアルゴリズムであるが,

ここて

を

$\mathrm{x}^{*}$

へ向かう実行可能な決定と定める。

は

$\mathrm{M}\mathrm{D}\mathrm{P}$

にたいするものに修正している。

$w(\mathrm{x}’)=r(\mathrm{x}’,f(\mathrm{x}’))$

_とおき

,

[

旺

]

_$[9]$

$o(\mathrm{x}’)=r(\mathrm{x}’,f(\mathrm{x}’))-r(\mathrm{x}_{r},f(\mathrm{x},))$

ステップ

3\sim 5,7,8

は [SMART]

と同じである。

ステツプ

1:

$\mathrm{Q}$

-factor

$Q_{new}$

(x,

$\mathrm{y}$

)

$=Q_{\mathit{0}/d}($

_X,

$\mathrm{y})=0$

,

として,

$w(\mathrm{x})$

を計算する。

_$f$

(x)

が

$w(\mathrm{x})$

を与えな

$TC=0$

,

$T=0$

,

$g$

=0,

$k=0$

とおき

,

パラメー

ければ

,

$w(\mathrm{x})$

を与える任意の決定として

$f$

(X)

を

タ

$\alpha_{0}$

,

$p_{0}$

,

$\beta$

0 を与える。

改良する。

$k$

が停止回数に達すれば終了。

さもな

ければ

$\mathrm{X}_{T}=\phi,$

$TC=0,\mathit{1}$

=l,

$k=k+1$

_とおきス

ステップ

2:

反復

$k$

で状態

$\mathrm{x}$

にいれば

,

$\alpha_{k},$ $p_{k}$

,

テップ

2 へ

$\text{。}$

A

を

$\alpha_{k}=a_{0}/k$

,

$p_{m}=p_{0}/m$

_’

$\beta_{k}=\beta_{0}/k$

5. SMART

と

SBPI

アルゴリズム

として定める。

MPIM

と

SBMPIM

を最適制御問題に適用する

_ステップ

_6:

_ステップ

₃

_で決定

$\mathrm{y}^{\mathrm{t}}$

を選択したなら

に先立ち

, 既存の

NDP

アルゴリズムを簡単に紹

_ば,

_$TC,$

$T,$

$g$

を次式で更新する。

介する。

$TC=(1-\beta_{k})TC+\beta_{k’}$

(x,

$\mathrm{x}’,\mathrm{y}.)$

[SMART] [81

ステップ

1:

全ての

と

$\mathrm{y}\in K$

(x){

こた

$\mathrm{A}\backslash$

して

T=0-\beta T+\beta k

$\mathrm{Q}$

-factor

$Q_{new}$

(x,

$f$

)

$=Q_{old}$

(x,

$f$

)

$=0-$

_.

累積費用

$g=TC/T$

$TC=0$

,

_累積時間

$T=0$

, 平均費用

$g=0$

,

反復

一方

,

He et

a1.[10]

は

$\mathrm{P}\mathrm{I}\mathrm{M}$

の値決定ルーチンを

回数

$k=0$

とおき

, 学習率

(learning

rate)

と探検

シミュレーションで置きかえた

SBPI

(Simulation

確率

(exploration probability)

をステップ

2 で定

Based Policy

lteration)

7/レゴリズムを提案して

$\mathrm{a}$

める定数

$(\alpha_{0},\alpha_{\tau},p0’ p_{\mathrm{r}})$

を与える。

る。

[SBPI アノレゴリズム

]

[101

ステップ 2:反復

$k$

で状態

$\mathrm{x}$

にいれば,

学習率

$\alpha_{k}$

,

ステップ

1:

初期政策

$\{f_{0}(\mathbb{X});\mathrm{x}\in \mathrm{X}\}$

を定め

,

$k=0$

探検確率

$p_{k}$

を

とお

$\langle$

。

$\alpha_{k}=\alpha_{0}(\alpha_{\tau}+k)/(k^{2}+k+\alpha_{\tau})$

,

ステップ 2:(値決定ルーチン)

$p_{k}=p_{0}(p_{\mathrm{r}}+k)/(k^{2}+k+p_{\tau})$

2-a:(

$\sim$

の推定)

として定める。

i)

初期状態

$\mathrm{x}_{0}$

からシミュレーションにより

ステップ

3:

高い確率

$(1-p_{k})$

_で

$Q_{new}$

(x,y)

を最小

$\mathrm{x}_{1},\cdots,\mathrm{x}_{m}$

を生成する。

にする決定

$\mathrm{y}^{*}$

を選択し

, 確率

$p_{k}$

で

$\mathrm{y}$

.

を除く

$\mathrm{i}\mathrm{i}$

)

$g^{k}=0$

とおき

,

$n=0,\cdots,m$

-l

にたレルて

$K$

(x)

からランダムに

$\mathrm{y}$

を選択する。

$(\mathrm{x}_{n},\mathrm{x}_{n+1})$

の推移に伴う

$g^{k}$

を次式て更新す

ステップ

4:

選択された決定

$\mathrm{y}$

でシミュレーショ

る。

ンを行い,

状態

$\mathrm{x}’$

へ推移すれば

,

直接費用

$g^{k}=(1-1/(n+1))g^{k}+(1/(n+1))r(\mathrm{x}_{n},\mathrm{x}_{n+1},f^{k}(\mathrm{x}_{n}))$

$r(\mathrm{x},\mathrm{x}’,\mathrm{y})$

がかかる。

ステップ

5:

$Q_{new}$

(x,y)

を次式により更新する。

2-b:(

$v^{k}($

x)

の推定

)

$Q_{new}(\mathrm{x},\mathrm{y})=(1-\alpha_{k})Q_{\mathit{0}/d}(\mathrm{x},\mathrm{y})$

i) ステップ

2-a

で行ったシミュレーション

において訪問回数が最も多い状態を

$\mathrm{x}^{*}$

と

$+\alpha_{k}\{$

r(x,

$\mathrm{x}’,\mathrm{y}$

)

$-g+ \min_{\mathrm{y}’\in K(\mathrm{x}’)}Q_{old}$

(X’,

$\mathrm{y}’$

)

$\}$

おく。

(6)

$\mathrm{i}\mathrm{i})$

過渡状態

$\mathrm{x}_{0}$

から出発し,

状態

$\mathrm{x}$

.

へ至るト

ラジェクトリーをシミュレーションにより

$L$

本生成する。

$\mathrm{i}\mathrm{i}\mathrm{i})$

1 本目のトラジエクトリ

$(\mathrm{x}_{0},\mathrm{x}_{1},\cdots,\mathrm{x}_{N}=\mathrm{x}.),$

_{$l=1,\cdots,L$}

,

にた

$\vee$

)

して

,

推移

$(\mathrm{x}_{n},\mathrm{x}_{n+1})$

に伴う

$w(\mathrm{x}_{l}),$ $i$

=l,

$\cdot$

..,

$n$

,

を

次式により更新する。

$w(\mathrm{x}_{i})=w(\mathrm{x}_{j})+\gamma_{j}\lambda^{n-i}d_{n}$

$-$

_こで

,

$\gamma_{i}$

はそのトラジェクトリ中て

$s_{j}$

を訪問

した回数の逆数であり

$0\leq\lambda\leq 1$

$d_{\hslash}=r(\mathrm{x}_{n},\mathrm{x}_{n’ 1},f^{k}(\mathrm{x}_{n}))-g^{k}+w(\mathrm{x}_{n+1})-w(\mathrm{x}_{n})$

であ

る。

$\mathrm{i}\mathrm{v})v^{k}(\mathrm{x})=14^{\mathrm{X}})-w(\mathrm{x}_{r}),$ $\mathrm{x}$

\in X

ステップ

3:(

政策改良ルーチン

)

$f^{k+1}( \mathrm{x})=\arg \mathrm{m}\mathrm{i}\mathrm{P}_{\mathrm{x})}\{\mathrm{y}\in\kappa r(\mathrm{x},\mathrm{y})+\sum_{\mathrm{B}\mathrm{D}\epsilon}\phi(\mathrm{y},\mathrm{D}\}_{2}^{k}(\mathrm{x}’)\}$

:

ステツプ

4:

$f^{k+1}(\mathrm{x})=f^{k}$

(x),

ならば停止。

最適政策は

$f^{k}$

(x)

である。

さもなければ

$k=k$ 利

としてステップ

2^

。

算時間を表

2 に示す。

表

3 は

MPIM

による最適政策である。

また

,

訪問回数の多い状態における

MPIM

および各ア

ルゴリズムの政策との比較を表 4

に示す。表中

「一致」

の列には

MPIM

と政策が等しい場合に

$\mathrm{O}$

,

そうでない場合に

$\cross$

を記入している。また

,

「政策一致数」の行は全

300 状態中で

MPIM

と

政策が一致した状態数を示している。

表

1 アルゴリズムに使用するパラメーター覧

アルゴリズム

パラメータ

$\mathrm{m}=10000,$

$\lambda$

=0.l,

SBMPIM

$\mathrm{x}_{0}=(11,12),\mathrm{x}^{*}=(8,9)$

,

停止回数

=50

-$\mathrm{m}=1000000,$

$\alpha_{0^{=}}0.9,$

$\mathrm{p}_{0}\triangleleft-.3$

,

SMART

$\alpha=10000,$

$\mathrm{p}_{\tau}=10000-^{\zeta}--$

RELAXED-SMART

$\mathrm{m}$

=l000000,

$\alpha 0^{=}0.\underline{9_{-},}\mathrm{P}\mathrm{o}=0.3$

SBPI

$\mathrm{m}=10000,$

$\mathrm{L}$

=l,

$\lambda=0.9$

表

2 各アルゴリズムの

$\mathrm{g}$

およひ計算時間

計算時間

アルゴリズム

$\mathrm{g}$

(秒)

MPIM

40.907

0.35

6

$\iota$

数値実験

各アノレゴリズムは

VB

(Visual Basic) によりプ

ログラムし,

$\mathrm{D}\mathrm{O}\mathrm{S}/\mathrm{V}$

機 (CPU

:Pentium4

$2.4\mathrm{G}\mathrm{H}\mathrm{z}$

,

メモリ

:

$2\mathrm{G}\mathrm{B}$

)

を用いて計算を行った。

6. 1

数値例

.

_{各品目の容積はすべて}

₁

品目数

;2

.

在庫容量 ;23

一期あたりの

$i$

番目の需要

$D_{i}$

(i=L2) の確率

$\phi_{j}(D_{i})$

;

$\mathrm{A}(0)=1/27$

,

A

$(1)=2/9$

,

$\phi(2)=4/9$

’

$\mathrm{A}(3)=8/27$

$\phi_{2}(0)=1/16$

_’

$\emptyset$

2 $(1)=1/4$

’

$\emptyset$

2 $(2)=3/8$

’

$\phi_{2}(3)=1/4$

,

$\phi_{2}(4)=1/16$

’

発注費用

;

$K(\ \mathrm{y})=15\delta(\mathrm{y}-\mathrm{x})+10\delta(y_{1}-x_{1})+5\delta(y_{2}-x_{2})$

$+6(y_{1}-x_{1})+3(y_{2}-x_{2})$

$|\urcorner$

保管

品切れ費用 ;

$l(\mathrm{y},\mathrm{D})=2[y_{1}-D_{1}]^{+}+2[y_{2} " D_{2}]^{+}+21[D_{1}-y_{1}]^{+}$

SBMPIM

$40.910\pm 0.043$

1.11 SMART

62.626

3.98

– $\mathrm{R}\mathrm{E}\mathrm{L}\mathrm{A}\underline{\mathrm{X}}\underline{\mathrm{E}}\mathrm{D}-$

-SMART65.500

4.01 SBPI

43.217 $\underline{1.92}$

3 品目在庫管理問題に対して

MP

犬

SBMPIM

により計算を行った結果を表

5 に示す。

ここで

,

2 品目の場合と異なる

SBMPIM

のパラメータは

$\mathrm{x}_{0}=(7,8,8)$

, x*=(5,6,6)

である。また,

需要およひ

コストのパラメータは品目

1,

2 に関しては

2 品

目の場合と同じであり

, 品目

3 に関しては

, 需要

パラメータは品目

1 と同じ,

コストパラメータは

品目

2 と同じてある。

多品目での

SBMPIM

の優

位性が示されている。

表

5

3 品目問題の

$\mathrm{g}$

およひ計算時間

計算時

$\mathrm{F}\mathrm{a}\mathrm{i}$

.

$\text{ア}J\triangleright \mathrm{z}\mathrm{f}^{\backslash }|)\text{ス^{}*}\text{ム}$

$\mathrm{g}$

(秒)

$–$

–MPIM

$54.\overline{890}-$

45.37 SBMPIM

$54.904\pm 0.041$

113.27 $+14[D_{2}-y_{2}]^{+}$

6.

2 SBMPIM

と従来のアルゴリズムとの比

較

SBMPIM

およひ既存のアルゴリズムのパラメ

ータを表

1 に示す。表

1 のパラメータのもとで各

アルゴリズムにより計算したときの

$\mathrm{g}$

およひ計

謝辞

本研究の一部は

, 日本学術振興会平成

14–1 5

年度科学研究費補助金

(

基盤研究

(B) (1), 課

題番号 14380185)

およひ

(基盤研究 (C)

(2), 課題番号 14580477)

の助成を受

けてなされたものてある。

(7)

88 参考文献

[11

R. A.

$\mathrm{H}\mathrm{o}\mathrm{w}\pi \mathrm{d}$

:Dynamic

Programming

and

Markov

Processes,

MIT PTess

(1960) (

関根

, 羽島,

森共訳「ダイナミックプログラミングとマルコフ

過程」

, 培風館

,

1971)

[2]

M. L. Puteman: Markov Decision

Processes,

John Wiley& Sons

(1994)

[3]

K. Ohno,

T. lshigaki and

T. Yoshii:

“

_$A$

New

Algorithm

_for

$a$

Multi-item

Periodic Review Invenlory

System”,

ZOR-Math. Methods

of

Oper.

${\rm Res}$

.

Vol. 39,

$\mathrm{p}\mathrm{p}$

.

$349- 364,1994$

.

$[4]\mathrm{S}$

.

Russell and

P. Norvig,

古川康一訳「I–

ジェントアプローチ人工知能」,

共立出版

,

1997.

[5]

R. S.

Su

廿

on

and A.

$\mathrm{G}$

BaIto:

Reinforcement

Learning,

MIT Press

(1998)

(三上,

皆川共訳「強

化学習」

, 森北出版,

2000)

[6]

D.

P. Bertsekas

and

J.

N. Tsitsiklis:

NeurO-Dynamic Programming,

Athena

Scientific

(1996)

[7]

R. V. Roy: “NeurO-dynamic

programming:

overview

and recent

廿

ends,”

pp.431-459,

in

E.

A. Feinberg and A. Schwartz ed. Handbook of

Markov

Decision

Processes,

Kluwer Academic

Publishers

(2002)

[81

T. K.

Das,

A. Gosavi,

S. Mahadevan

and

Nich.

Marchalleck:

“Solving

semi-Markov decision

problem

using

average

reward

reinforcement

leaming”, Management

Science,

Vol.

45, N0.4,

pp560-574

(1999)

[91

A. Gosavi:

Doctor

Thesis,

h

廿

p

$://\mathrm{f}\mathrm{a}\mathrm{c}\mathrm{u}\mathrm{l}\mathrm{t}\mathrm{y}$

.uscolo.

$\mathrm{e}\mathrm{d}\mathrm{u}/\mathrm{g}\mathrm{o}\mathrm{s}\mathrm{a}\mathrm{v}\mathrm{i}/\mathrm{t}\mathrm{h}\mathrm{e}\mathrm{s}\mathrm{i}\mathrm{s}$

.hbnl

(1999)

[101

Y. He,

M. C. Fu and S. I. Marcus: “A

Simulation- based policy

iteration

algorithm for

average

cost

unichain Markov decision

processes”,

M. Laguna

and

J. L.

G. Velarde

$\mathrm{e}\mathrm{d}$

,

Computing

Iools

_for

Modeling Optimization and

Simulation,

Kluwer

Academic,

pp.161-182(2000)

[111

A. Gosavi, N.

Bandla and

T. K.

Das:

“A

reinforcement leaming approach to

a

single leg

airline

revenue

management

problem

with multiple

fare classes and

overbooking,”

$IIE$

Transactions,

Vol. 34,

pp.729-742

(2002)

[12]

大野勝久

:“

マルコフ決定過程”-.

システム

と制御,

Vol.

29,

No.

6,

_PP.333-341

(1985)

[131

K. Ohno

and

K. Ichiki:

“Computing

optimal

policies

for controlled tandem queueing

systems”,

Operations

Research,

$\mathrm{V}\mathrm{o}\mathrm{l}$

.

35, No. 1,

$\mathrm{p}\mathrm{p}.121- 126$

(1987)

[141

K. Ohno:

“Modified

policy

iteration

algoriffim

with nonoptimality tests for

undiscounted

Markov

decision

process”,

Working Paper, Dept.

of

Infomation

System

and

Management

Science,

Konan University, Japan

(1985)

[15] 大野勝久, 八鴫憲司

, 伊藤崇博

:“

ニューロ

-ダイナミックプログラミングによる生産ライ

ンの最適制御に関する研究”-.

日本経営工学会

論文誌

,

VO1.

54,

No.

5,

pp. 316-325

(2003)

[16]

E.

L. Johnson:

“Optimality and

Computation

of

(

$\sigma,S$

)

Policies in

the

Multi-item Infinite

Horizon

Inventory

Problem”,

$\mathit{4}anagement$

Science,

げ

1. 13,

$\mathrm{p}\mathrm{p}$

.

$475- 491(1967)$

[17] 大野勝久

,

田村隆善

, 森健一, 中島健一

:

「生

産管理システム」,

朝倉書店

(2002)

[18] 石塚陽

, 山下英明

:

「サンプルパス最適化の

確率的離散事象システムへの適用」

,

オペレー

ションズ

. リサーチ,

Vol.

46,

No.

4,

pp. 195-201

(2001)

(8)

品目

2

23

22

21

35 -35

20

34

–

-34

19

32 –

–

-32

18

30 –

– –

-3

屋

17

28

28 –

–

-28

16 26 26

–

-26

15 24 24

–

– – – –

-24

14

22

22 –

–

-22

-13

20 20

–

-20

–

-1218 18

–

-18

–

-11

16 16

–

-16

– – –

-101414

–

-14

– – – –

-912 12

–

– – –

-12

– –

–

– –

-810 10

–

– –

-10

– – – –

–

– –

-788

–

– – –

8 91113151719212325

61

1 –

—-

–

1 7

–

-27

56

6 —-356

–

– –

–

-29

44 –

–

2 –

4

– –

–

– –

–

-31

31 –

–

-33

21 –

–

– – – – – – – – – – – – – – – –

–

-1

$\mathrm{t}$ $|$ –

–

5

1

7

9

– – – – – – – – – – – – – –

01112 3 5

1 7911

13151719

$2\mathrm{t}232527293133-$

$–$

0

1

2

3

4

5

6

7

8 910 11 12 13 14 15

16

17 18 19 20

212223

品日

1 表

2 は最適政策を示す。

表中の数字と,

同表中のゴシック体の数字が対応している。

例えば

, 状態

$[7, 1]$

_の数字

“

7 ”

は

“7”

に対応し,

つまり状態

[7,

61 まで発注するということを示す。

また,

“–,,

は発注しないことを示す。

(9)

71 表

4 各アルゴリズムの政策の比較

SBPI

発注

0 発注

発注

0 発注

6

$\overline{6}$ $\mathit{0}$

5

6

00

$\mathrm{O}$

0

0 MPIM

SBMF

$|0$

$\partial \mathrm{E}\mathrm{f}\mathrm{f}61$ $\partial \mathrm{g}f\grave{\mathrm{f}}06$ $\mathit{5}_{\frac{\mathrm{g}\grave{\dot{f}}_{-}^{-}}{6}}$

0

0 状態

MPIM

0

$|^{\prod_{111}}\text{目}1$

発注

0 発注

1

0

6

4

0

$\mathrm{O}\Gamma \mathrm{J}\mathrm{D}$

fl

0

4

0

1

3

4

3

2

1

4

1

0

2

0

0 _-0

0

$\mathrm{O}$

0

$\Re^{-}\text{態}\mathrm{t}\mathrm{F})$

300

136

320 政策一致数

(300 状態中)

RELAXED-SMART

一致

発注

0 発注

1 一致

$\cross$

2

1

$\cross$

SMART

$\text{発}\mathrm{f}\mathrm{f}1$

1 発注

0 発注

1

2 状態

MPIM

0

$\mathrm{Q}|\mathrm{l}\mathrm{f}\not\supset \text{目}\underline{1}$

発注

0 発注

1

06

6

$\mathrm{A}\text{目}0$

$40-$

$41$ $60$ $\frac{0}{5}$ $01$ $01$

00

0

$\mathrm{O}$ $\cross$

10

$\cross$

1

0

5

6

0

$\cross$

0

1

$\cross$

3

4

0

4

3

0

3

0

2

0

1

5

0

00

0

$\mathrm{O}$ $\mathrm{O}$

0

00

$\cross$

4

5

0

1

2

0

2

6

4

0

$\mathrm{O}$

0

10

$\cross$

2

0

4

6

0

$\cross$

0

$\cross$ $00$ $00$

$24200$

210

3

2

0 政策一致数

(300

状態中

)

$\mathrm{O}$

0

$\mathrm{O}$

237