• 検索結果がありません。

$\mathrm{d}\mathrm{p}$ (Katsuhisa $\mathrm{o}\mathrm{m}\mathrm{o}$) Aichi Institute of Technology (Takahiro Ito) Nagoya Institute of Te

N/A
N/A
Protected

Academic year: 2021

シェア "$\mathrm{d}\mathrm{p}$ (Katsuhisa $\mathrm{o}\mathrm{m}\mathrm{o}$) Aichi Institute of Technology (Takahiro Ito) Nagoya Institute of Te"

Copied!
9
0
0

読み込み中.... (全文を見る)

全文

(1)

Title

ニューロDPによる多品目在庫管理の最適化 (不確実で動

的なシステムへの最適化理論とその展開)

Author(s)

大野, 勝久; 伊藤, 崇博; 石垣, 智徳; 渡辺, 誠

Citation

数理解析研究所講究録 (2004), 1383: 64-71

Issue Date

2004-07

URL

http://hdl.handle.net/2433/25715

Right

Type

Departmental Bulletin Paper

Textversion

publisher

(2)

ニューロ

$\mathrm{D}\mathrm{P}$

による多品目在庫管理の最適化

愛知工業大学

大野勝久 (Katsuhisa

$\mathrm{O}\mathrm{m}\mathrm{o}$

)

Aichi Institute of

Technology,

名古屋工業大学

伊藤崇博 (Takahiro

Ito)

Nagoya

Institute of

Technology,

大阪府立大学

石垣智徳

(Tomonori

Ishigaki)

Osaka

Prefecture

University,

NTT

ドコモ東海

渡辺

誠 (Makoto Watanabe)

NTT

DoCoMo

Tokai

1.

序論

在庫管理問題は

,

古くは

1913

年の

F.WHarris

の経済的発注量

(EOQ)

の研究に始まり

,

経営工学

分野の中で長年にわたり中心的課題として, 多く

の研究が行われてきた。今田こおいては

, 原材料

の調達から消費者にいたる SCM

を中心に

, 多品

目在庫管理問題の最適化が切望されている。

本発表てはます 7

2

章で離散時間多品目在庫管

理問題を平均費用を最小化する時間平均マルコ

フ決定過程問題として定式化する。

動的計画法

(

以下

DP

と略す

)

の枠組みとマルコフ決定過程

(MDP)

,

Bellman

によって

1950

年代に提案

されたが

, 政策反復法 (Policy

Iteration

Method,

PIM)

を初めとするアノレゴリズムは

Howard[l],

Puterman[2]

等にまとめられている。離散時間多品

目在庫管理問題にたいしても

,

Omo et

a1.[31

,

PIM を改善したアルゴリズムを提案している。し

かし

,

MDP

DP

同様

, 品目数の増加とともに

次元の呪いを引き起こし,

実用規模の問題を事実

上解くことができない。そこで本研究では,

人工

知能 [4]

の分野において強化学習

(Reinforcement

Leaming)[5]

とも呼ばれている,

ニューロ・ダイナ

ミツクプログラ

ミング

(NeurO-Dynamic

Programming,

ニューロ

$\mathrm{D}\mathrm{P}$

)[

$6,7$

1

の適用を試みる。

ニューロ

$\mathrm{D}\mathrm{P}$

MDP

の枠組みの中で

,

シミュレ

ーション,

学習

, ニューラルネットワークなどを

組み合わせ

,

大規模な問題に対する近似最適政策

を計算する手法として開発されてきた。最近 Das

et

a1.[8] と Gosavi[9] は,

MDP を含むより一般的な

セミ

マルコフ決定過程

(SMDP)

の時間平均費

用を最小化するアルゴリズムとして

SMART,

RELAXED-SMART

を提案し

, 保全問題へ適用し

ている。 また

He

et a1.[10]

,

PIM の値決定ルー

チンをシミュレーションで置きかえた

SBPI

アノレ

ゴリズムを提案し,

在庫管理問題へ適用している。

さらに

Gosavi

et

al.[

]

,

SMART

$\mathrm{T}\mathrm{D}$

(Temporal

Differnce) をとり入れた

$\lambda$

-SMART

を開発し

,

航空運賃の収入管理問題へ応用している。

本発表では,

ます

Omo

et

a1.[3]

に基つき次章て

多品目在庫管理問題を説明し

,

3

章で時間平均マ

ルコフ決定過程 (UMDP) への定式化を行い, 若

干の理論的性質を定理として示す。

4

章で修正政

策反復法

(

$\mathrm{M}\mathrm{o}\mathrm{d}\mathrm{i}\mathrm{f}_{1}\mathrm{e}\mathrm{d}$

Policy

Iteration

Meffiod,

MPIM)

[12-14]

の値決定ルーチンにシミュレーションを

用いる

SBMPIM

アルゴリズム

[15]

を述べる。

5

では

SMART,

$\mathrm{L}\mathrm{A}\mathrm{X}\mathrm{E}\mathrm{D}-\mathrm{S}\mathrm{M}\mathrm{A}\mathrm{R}\mathrm{T}$

SBPI

アノレゴ

リズムを簡単に説明する。

6

章てはこれらアルゴ

リズムを

2

品目在庫管理問題へ適用し

,

SBMPIM,

SMART,

$\mathrm{L}\mathrm{A}\mathrm{X}\mathrm{E}\mathrm{D}-\mathrm{S}\mathrm{M}\mathrm{A}\mathrm{R}\mathrm{T}$

,

SBPI

に対する結

果をも含めて

Omo et

a1.[31

による厳密解との比

較を行う。

2.

多品目在庫管理問題

発注費用の形が一般的であり,

超過需要が部分

的もしくはすべてバックログされ,

周期的な観測

を行う

$N$

品目在庫管理システムを考える。

もし

ロストセールを仮定するならば,

品物の納入遅れ

はないものとする。

ここで

$\mathrm{x}=$

$(x_{1},x2’\cdots, x_{N})^{T}$

各期首における発注前の手持ち在庫水準とする。

ここで

$x_{n}\in \mathrm{Z}=\{0,\pm 1,\pm 2,\cdots\}(n\in \mathrm{N}=\{1,2,\cdots,N\})$

であり,

$T$

は転置を表す。

Johnson[16]

を除くすべ

ての論文は連続状態を論じているが

,

より現実的

な離散状態を議論する。発注は

$\mathrm{x}$

と発注政策

f

よって決定され

,

$\mathrm{y}=$

$(y_{1},y2’\cdots,y_{N})^{T}\in \mathrm{z}^{N}$

まて発

注したとき

,

段取り費用を含む発注費

$K$

(X,y)

発生する。 各期の需要

$\mathrm{D}=$

$(D_{1},D2’\cdots,D_{N})^{T}$

,

$D_{n}\in \mathrm{Z}_{+}=\{0,1,2,\cdots\}$

$(n\in \mathrm{N})$

は独立な同一分布

$\phi(\mathrm{y},\mathrm{D})$

に従うものと仮定する。

その期に需要

$\mathrm{D}$

が発生したならば

,

1

期間当たり在庫・品切れ費

$l(\mathrm{y},\mathrm{D})$

が発生する。

したがって

, 各期における

(3)

95

$L( \mathrm{y})=\sum_{\mathrm{D}\geq 0}\phi(\mathrm{y},\mathrm{D})l(\mathrm{y},\mathrm{D})$

求される条件である。また

, 確率

1

で需要

0

をと

る品目は在庫管理の対象として無視できるので

で与えられる。ここで

$\mathrm{x}\leq \mathrm{y}$

(x,

$\mathrm{y}\in \mathrm{Z}^{N}$

)

(ま

$x_{n}\leq y_{n}$

条件

4

は一般的な在庫管理システムについて成

立する。目的は計画期間が無限にわたる在庫管理

$(n\in \mathrm{N})$

を表し

,

$\mathrm{x}<\mathrm{y}$

$\mathrm{x}\leq \mathrm{y}$

かつ

$\mathrm{x}\neq \mathrm{y}$

を意味

システムの単位期間当たりの期待費用を最小に

するものとする。また

, 次期の期首在庫は

$u(\mathrm{y},\mathrm{D})$

する最適発注政策を見つけることである。

によって与えられるものとする。例えば

,

バック

ログを仮定する場合

,

$u_{B}$

(y,

$\mathrm{D}$

)

$=\mathrm{y}-\mathrm{D}$

となり

,

3.

マルコフ決定過程による定式化

ストセールを仮定する場合,

前章の多品目在庫管理システムは

UMDP

に定

$u_{L}$

(y,

$\mathrm{D}$

)

$=([\gamma_{1}-D_{1}\mathrm{r},[\gamma_{2}-D_{2\mathrm{F}},\cdot..,\triangleright_{N} -D_{N}]+)^{T}$

:

式化することができ

,

その最適方程式は次式で与

えられる。

$\int y_{n}-D_{n}\mathrm{r}=\max\{y_{n}-D_{n},0\}$

$(n\in \mathrm{N})$

である。

g(X)+U(x)=y?\sim

}){K(x,

$\mathrm{y}$

)

$+L( \mathrm{y})+\sum_{\mathrm{D}\epsilon \mathrm{B}}\phi(\mathrm{y},\mathrm{D})$

v(u(y,

$\mathrm{D})$

)

$\}$

状態

$\mathrm{x}$

の値からなる状態空間

$\mathrm{X}$

は倉庫容量

$\overline{\mathrm{M}}$

在庫処理環境

(例えはバックログ

(B),

ロスト

(1)

セール

(L)

$)$

によって制約される。

例えば

,

ックログの場合

$\mathrm{X}_{B}=\{\mathrm{x}\in \mathrm{Z}^{N}$

;

$\sum_{n\epsilon \mathrm{N}}a_{n}x_{n}^{+}\leq\overline{\mathrm{M}}\}$

$g( \mathrm{x})=\min_{\mathrm{y}\epsilon \mathrm{Y}}\{\sum_{\mathrm{y}\in \mathrm{Y}}\phi(\mathrm{y},\mathrm{D})g(u(\mathrm{y},\mathrm{D}))\}$

(2)

ここで

てあり,

ロストセールの場合

$\mathrm{Y}=\{\mathrm{y}\in \mathrm{X};\mathrm{y}\geq \mathrm{x}\}$

,

$\mathrm{X}_{L}=\{\mathrm{x}\in \mathrm{Z}_{+}^{N}$

;

$\sum_{n\epsilon \mathrm{N}}a_{n}x_{n}\leq\overline{\mathrm{M}}\}$

$\mathrm{Y}(\mathrm{x})=\{\mathrm{y}\in \mathrm{Y}:g(\mathrm{x})=\sum_{\mathrm{D}\mathrm{e}\mathrm{B}}\phi\langle \mathrm{y},\mathrm{D})g(u(\mathrm{y},\mathrm{D}))\}$

.

となる。

ここで

$a_{n}$

$n$

番目の品目

1

個当たりの

である。

$g(\mathrm{x}),$ $o(\mathrm{x})$

をそれぞれ初期状態が

$\mathrm{x}$

であ

大きさであり,

$x_{n}^{+}= \max\{x_{n},0\}$

,

$n\in \mathrm{N}$

である。

$X_{B}$

る時の最小期待平均費用と相対値とおく。有限で

は加算集合であり

X

。は有限集合である。

以下の

ある

$X$

の場合

,

確定的な定常マルコフ政策の中

条件を仮定する。

に最適政策が存在することがよく知られている。

条件

1

$\mathrm{x}<\mathrm{y}<\mathrm{z}$

であるような任意の在庫水準

定常政策

$f$

$\mathrm{X}$

の部分集合

$\sigma$

$\sigma$

から

$\mathrm{X}$

への写

$\mathrm{x},\mathrm{y},\mathrm{z}\in \mathrm{X}$

に対して以下の式が成立する。

$s(\cdot)$

を用いて

$f=(\sigma,S(.))$

と表わすことができ

$K$

(x,

$\mathrm{z}$

)

$<K$

(x,

$\mathrm{y}$

)

$+K$

(y,z)

かつ

$K$

(x,

$\mathrm{x}$

)

$=0$

.

る。

$\sigma$

$(\sigma,S(.))$

政策は在庫水準

$\mathrm{x}$

において次の

条件

2

もし

$\mathrm{X}$

が有限でないならば

ように発注を決定する。

l 而

$\mathrm{x}arrow-\infty$

$L(\mathrm{x})=\infty$

てある。 すなわち

, 総ての実数

$\mathrm{x}\in\sigma$

のとき

$S(\mathrm{x})$

まて発注する。

$M$

に対して

,

$\mathrm{x}\in \mathrm{X}$

かつ

$\mathrm{x}\not\geq \mathrm{z}_{M}$

を満たすすべての

$\mathrm{x}\in\sigma^{c}\equiv \mathrm{X}-\sigma$

のとき

発注しない。

$\mathrm{x}$

に対して

$L(\mathrm{x})>M$

となる

$\mathrm{z}_{7}\in \mathrm{X}$

が存在する。

したがって,

$\sigma$

を発注状態集合

,

$\sigma^{c}$

を非発注状

条件

3

もし

$\mathrm{X}$

が有限でないならば各期の需要は

態集合と呼ぶことにする。

有界てある。

すなわち

,

すべての

$\mathrm{x}\in \mathrm{X}$

に対して

定理

1

最適発注政策

$(\sigma,S(.))$

は以下を満たす。

$\mathrm{o}\sum_{\mathrm{e}\mathrm{B}}\phi(\mathrm{x},\mathrm{D})=1$

i) もし

$\mathrm{X}$

が有限でないならば

$\sigma^{c}\subset(\sigma^{0}f=\{\mathrm{x}\in \mathrm{X};\mathrm{x}\geq \mathrm{z}_{g^{0}}\},$

(3)

を満たすような有界集合

$\mathrm{B}\subset \mathrm{Z}_{+}^{N}$

が存在する。

条件

4

ロストセールの仮定の下ての

$x_{n}=0$

を除

である。ここで

$\mathrm{z}_{\mathrm{g}^{0}}$

は仮定

2

$M$

を以下て与えら

くすべての

$\mathrm{x}\in \mathrm{X}$

$n\in \mathrm{N}$

に対し

$x_{n}>u_{n}$

(X,D)

がれる

$g^{0}$

によって置き換えたものである。

確率

1

で成立する。

$K(\mathrm{x},\mathrm{y})=K\delta(\mathrm{y}-\mathrm{x})+\mathrm{c}\cdot(\mathrm{y}-\mathrm{x})$

Johnson[16]

ては固定発注費用

$K>0$

に対して

$g^{0}= \min_{\mathrm{y}\epsilon \mathrm{X}}\{L(\mathrm{y})+\sum_{\mathrm{D}\in \mathrm{B}}\phi(\mathrm{y},\mathrm{D})K$

(u(y,

$\mathrm{D}\lambda \mathrm{y}$

)}.

$(4)$

と仮定されている。ここで

$\delta(0)=0$

であり,

$\mathrm{x}>0$

$\mathrm{i}\mathrm{i})$ $S(\mathrm{x})\in\sigma^{c}$

,

$\mathrm{x}\in\sigma \mathrm{t}$

ならば

$\delta(\mathrm{x})=1$

$\mathrm{c}$

$N$

次元の価格行ベクトルで

$\mathrm{i}\mathrm{i}\mathrm{i})$

$v(\mathrm{x})=K$

(x,

$S(\mathrm{x})$

)

$+o(S(\mathrm{x}))$

,

$\mathrm{x}\in\sigma$

.

ある。 明らかにこの発注費用は条件

1

を満たし

,

(5)

(4)

もし

$\mathrm{X}$

が有限でないならば

$\mathrm{X}^{0}$

$(\sigma^{0})^{\rho}’\cup\{u(\mathrm{x},\mathrm{D})$

for

all

$\mathrm{x}\in(\sigma^{0})’$

かつ

$\mathrm{D}\in \mathrm{B}\}$

とおき

,

$\mathrm{X}^{0}$

の状態数を

$N^{0}$

とする。定理

1

は最適

政策の候補となるようなすべての発注政策の下

$\mathrm{X}^{0}$

がすべての再帰的状態を含むことを意味し

ている。

逆に

$\mathrm{X}^{0}$

の外側のすべての状態は最適政

策の下て常に過渡的状態であり

,

この状態におけ

る発注政策は最小平均期待費用に影響しない。し

たがって

, 有限集合

$\mathrm{X}^{0}$

のみに対して最適政策を

探せば十分である。

$\mathrm{x}\not\in \mathrm{X}^{0}$

に対する最適政策

$S(\mathrm{x})$

は (5) 式より容易に計算できる。次の定理

2

では

$\mathrm{X}$

が有限であるとき

,

$\mathrm{X}^{0}$

$\mathrm{X}$

を意味するものとす

る。

定理

2

最小平均期待費用

$g(\mathrm{x})$

$\mathrm{x}\in \mathrm{X}$

に対して

定数である。すなわち

,

$g(\mathrm{x})=g$

であり

,

最適方

程式 (1) と

(2)

は次式に帰着する。

$g+v( \mathrm{x})=\min_{\mathrm{y}\epsilon \mathrm{Y}}\{K$

(x,

$\mathrm{y}$

)

$+L( \mathrm{y})+\sum_{\mathrm{D}\mathrm{e}\mathrm{B}}\phi(\mathrm{x},\mathrm{D})u(u(\mathrm{x},\mathrm{D}))$

},

$\mathrm{x}\in \mathrm{X}^{0}$

,

(6)

ここで右辺の最小値を与える決定が最適政策で

ある。

4.

修正政策反復法とニューロ

$\mathrm{D}\mathrm{P}$

アルゴリズム

最適性方程式 (6) を解くアルゴリズムが

PIM,

MPIM

であり

,

値反復法

(value

iteration

method) ,

線形計画法

(linear

programming)

である [1,2,

12-14]

以下,

表記を簡単化するため

$r(\mathrm{x},\mathrm{y})=K(\mathrm{x},\mathrm{y})+L(\mathrm{y})$ $\mathrm{x}’=u(\mathrm{y},\mathrm{D})$

とお

$\text{く}$

[MPIM]

[14]

ステップ

1:

$u_{0}(s_{r})=0$

をみたす初期ベクトノレ

$u^{0}$

,

非負整数

$m_{\mathrm{f}}$

初期攻策

$f^{0}$

, 正数

$\epsilon$

を定め,

$k=0$

$\langle$

ステップ

2:(政策改良ルーチン)

$\mathrm{x}\in \mathrm{X}^{0}$

に対

して

$g^{k+1}( \mathrm{x})=\mathrm{m}\mathrm{i}\mathrm{P}_{S})\{*\in Kr(\mathrm{x},\mathrm{y})+\sum_{\mathrm{D}\mathrm{e}\mathrm{B}}\phi(\mathrm{x},\mathrm{D})o^{k}(\mathrm{x}’)-o^{k}(\mathrm{x})\}$

を計算し

,

$f^{k}$

(X)

$g^{k+1}$

(x)

を与えれば:

$f^{k+1}(\mathrm{x})=f^{k}$

(x)

とおき

さもなければ

,

$g^{k+1}$

(x) を与える任意の決定を

$f^{k+1}$

(x) とと

る。

ステップ 3:(値近似ルーチン)

$w^{0}(\mathrm{x})=v^{k}(\mathrm{x})+\mathrm{o}^{k+1}$

(x),

$\mathrm{x}\in \mathrm{X}^{0}$

とおき ,

$l=0,1,\cdots m-1$

に対して順次

,

$w^{/+1}(\mathrm{x})=r(\mathrm{x},f^{k+1}(\mathrm{x}))$

$+ \sum_{\mathrm{D}\in \mathrm{B}}\phi(\mathrm{x},\mathrm{D})w^{l}(\mathrm{x}’)$

$\mathrm{x}\in \mathrm{X}^{0}$

を計算し

,

$v^{k+1}(\mathrm{x})=w^{m}(\mathrm{x})-w^{m}$

(xr),

$\mathrm{x}\in \mathrm{X}^{0}$

とおく。 すべての

$\mathrm{x}$

に対して

,

$|v^{k+1}(\mathrm{x})-o^{k}(\mathrm{x})|<\epsilon$

であれば終了。 最適政策は

$f^{k+1}$

(X),

最小平均

費用は

$g^{k+1}$

(xr),

相対費用は

$v^{k+1}$

(X) で与えられる。

さもなければ,

$k=k+1$

として

, ステップ

2^。

MPIM

は比較的状態数の大きな

MDP

に対して

も有効であるが

,

$\mathrm{D}\mathrm{P}$

同様

, 品目数の増加ととも

に次元の呪いを引き起こし

, 多品目問題を解くこ

とは困難である。 したがって,

MPIM

において状

態空間

$\mathrm{X}^{0}$

の全ての状態にたいして値近似ルーチ

ンを実行することは実際的ではなく,

シミュレー

ションを用いることが考えられる。すなわち

,

際によく生起する初期状態

$\mathrm{x}_{0}$

から出発し,

シス

テムの状態変化と費用をシミュレートし

, 訪問し

た状態の集合

$\mathrm{X}_{\nu}$

にたいしてだけ相対費用

$v(\mathrm{x})$

推定する。

このニューロ

DP

アルゴリズムを

SBMPIM

(

Simulation-Based Modified

Policy

Iteration

Method)

と呼ぶことにする

[15]

[SBMPIM][15]

ステップ

1:

初期状態

$\mathrm{x}_{0}$

と望ましい状態

$\mathrm{x}^{\mathrm{s}}$

を定

め,

シミュレーション回数

$m$

および

$\lambda(0\leq\lambda\leq 1)$

を定めて,

訪問した状態の集合

$\mathrm{X}_{v}=\mathrm{X}_{T}=\phi$

(空

集合),

累積費用

$TC=0,$

$\mathrm{x}=\mathrm{x}_{0},$

$k=l=1$

とおく。

ステツプ

2;

$\mathrm{x}\not\in \mathrm{X}_{v}$

ならば

,

$\mathrm{X}_{v}=\mathrm{X}_{v}\cup\{\mathrm{x}\}\mathrm{r}$ $\mathrm{X}_{T}=\mathrm{X}_{\mathit{1}}\cdot\cup\{\mathrm{x}\},$ $\mathrm{x}$

の訪問回数

$v(\mathrm{x})=1$

とおき,

$f(\mathrm{x})$

を状態

$\mathrm{x}^{l}$

へ向かう実行可能な決定と定める。

$\mathrm{x}\in \mathrm{X}_{v}$

ならば,

$\mathrm{x}\not\in \mathrm{X}_{T}$

のとき,

$\mathrm{X}_{T}=\mathrm{X}_{T}\cup\{\mathrm{x}\}$

,

$v(\mathrm{x})=1$

とおき ,

$\mathrm{x}\in \mathrm{X}_{T}$

ならば

,

$v(\mathrm{x})=v(\mathrm{x})+1$

と更新する。

.

状態

$\mathrm{x}$

で決定

$f$

(X)

をとったときの

状態推移をシミュレーションし,

次期の状態

$\mathrm{x}’$

定める。

$TC=TC+r(\mathrm{x},f(\mathrm{x}))$

$\mathrm{x}=\mathrm{x}’$

と更新し

,

$l=m$

ならばステップ

3^

さもなけ

れば

$l=l+1$

としてステップ

2^

ステップ 3:(

$g$

の推定

)

平均費用

$g$

を次式により

推定する。

$g=TC/m$

ステップ

4:

(

$v(\mathrm{x})$

の推定

)

$\mathrm{X}_{v}$

のなかて

$\mathrm{x}_{r}$

を定め,

$o(\mathrm{x}_{r})=(1-\lambda v(\mathrm{x}_{r})/m\mathrm{X}w(\mathrm{x}_{r})_{-g})+(\lambda v(_{\mathrm{X}},)/m\mathrm{X}r(\mathrm{x}_{r},f(\mathrm{x}_{r}))_{-g})$

(5)

87

$U(\mathrm{x})=(1-\lambda v(\mathrm{x})/m\mathrm{X}w(\mathrm{x})-g)+(\lambda o(\mathrm{x})/m\mathrm{X}^{\gamma}(\mathrm{x},f(\mathrm{x}))-g)-U(\mathrm{x}_{r})$

ステップ

6:

ステップ

3

で決定

$\mathrm{y}^{\mathrm{t}}$

を選択したなら

を計算し

,

$o(\mathrm{x}_{r})=0$

とおく。 ただし

,

$k=1$

のと

ば,

$TC$

$g$

を更新する。

}

$o(\mathrm{x},)=r(\mathrm{x}_{r},f(\mathrm{x}_{r}))-g$

$TC=TC+r(\mathrm{x},\mathrm{x}’,\mathrm{y}^{\mathrm{s}})$

$v(\mathrm{x})=r(\mathrm{x},f(\mathrm{x}))-g-v(\mathrm{x}_{r})$

である。

$T=T+1$

ステップ 5:(政策改良ルーチン)

$\mathrm{x}\in \mathrm{x}_{v}$

にたい

$g=TC/T$

して

ステップ

7:

$Q_{old}$

$($

X,

$\mathrm{y})=Q_{new}$

(X,y)

と更新する。

$w(\mathrm{x})=\mathrm{m}\mathrm{y}\mathrm{e}N(\mathrm{x}.$

.f(

){r(x,

$\mathrm{y}$

)

$+ \sum_{\mathrm{D}\in \mathrm{B}}\phi(\mathrm{y},\mathrm{D})U(\mathrm{x}’)\}$

ステップ

8:

$k$

が停止回数に達すれば終了。

さも

$\{\}$

れぱ

$k=k+1$

,

$\mathrm{x}$

’ を

$\mathrm{x}$

としてステップ

$2\wedge\circ$

を計算し

,

$v(\mathrm{x})=0$

とおく。

ここで

$N$

(X,

$f$

(x))

Gosavi[9]

SMART

が必すしも収束しないこ

とを示し,

その改良版

RELAXED-SMART

を提案

$f$

(X)

の近傍であり

,

$\emptyset(\mathrm{y},\mathrm{D})>0$

となる

$\mathrm{x}\not\in \mathrm{X}_{v}$

[こた

している。

SMART

と旺

$\mathrm{L}\mathrm{A}\mathrm{X}\mathrm{E}\mathrm{D}-\mathrm{S}\mathrm{M}\mathrm{A}\mathrm{R}\mathrm{T}$

いして (ま,

$\mathrm{x}_{v}=\mathrm{X}_{v}\cup\{\mathrm{x}’\},$

$v(\mathrm{x}’)=0$

とおき

,

$f$

(x’)SMDP

にたいするアルゴリズムであるが,

ここて

$\mathrm{x}^{*}$

へ向かう実行可能な決定と定める。

$\mathrm{M}\mathrm{D}\mathrm{P}$

にたいするものに修正している。

$w(\mathrm{x}’)=r(\mathrm{x}’,f(\mathrm{x}’))$

とおき

,

[

$\mathrm{L}\mathrm{A}\mathrm{X}\mathrm{E}\mathrm{D}-\mathrm{S}\mathrm{M}\mathrm{A}\mathrm{R}\mathrm{T}$

]

$[9]$

$o(\mathrm{x}’)=r(\mathrm{x}’,f(\mathrm{x}’))-r(\mathrm{x}_{r},f(\mathrm{x},))$

ステップ

3\sim 5,7,8

は [SMART]

と同じである。

ステツプ

1:

$\mathrm{Q}$

-factor

$Q_{new}$

(x,

$\mathrm{y}$

)

$=Q_{\mathit{0}/d}($

X,

$\mathrm{y})=0$

,

として,

$w(\mathrm{x})$

を計算する。

$f$

(x)

$w(\mathrm{x})$

を与えな

$TC=0$

,

$T=0$

,

$g$

=0,

$k=0$

とおき

,

パラメー

ければ

,

$w(\mathrm{x})$

を与える任意の決定として

$f$

(X)

$\alpha_{0}$

,

$p_{0}$

,

$\beta$

0

を与える。

改良する。

$k$

が停止回数に達すれば終了。

さもな

ければ

$\mathrm{X}_{T}=\phi,$

$TC=0,\mathit{1}$

=l,

$k=k+1$

とおきス

ステップ

2:

反復

$k$

で状態

$\mathrm{x}$

にいれば

,

$\alpha_{k},$ $p_{k}$

,

テップ

2

$\text{。}$

A

$\alpha_{k}=a_{0}/k$

,

$p_{m}=p_{0}/m$

$\beta_{k}=\beta_{0}/k$

5.

SMART

SBPI

アルゴリズム

として定める。

MPIM

SBMPIM

を最適制御問題に適用する

ステップ

6:

ステップ

3

で決定

$\mathrm{y}^{\mathrm{t}}$

を選択したなら

に先立ち

, 既存の

NDP

アルゴリズムを簡単に紹

ば,

$TC,$

$T,$

$g$

を次式で更新する。

介する。

$TC=(1-\beta_{k})TC+\beta_{k’}$

(x,

$\mathrm{x}’,\mathrm{y}.)$

[SMART] [81

ステップ

1:

全ての

$\mathrm{x}\in \mathrm{X}$

$\mathrm{y}\in K$

(x){

こた

$\mathrm{A}\backslash$

して

T=0-\beta T+\beta k

$\mathrm{Q}$

-factor

$Q_{new}$

(x,

$f$

)

$=Q_{old}$

(x,

$f$

)

$=0-$

.

累積費用

$g=TC/T$

$TC=0$

,

累積時間

$T=0$

, 平均費用

$g=0$

,

反復

一方

,

He et

a1.[10]

$\mathrm{P}\mathrm{I}\mathrm{M}$

の値決定ルーチンを

回数

$k=0$

とおき

, 学習率

(learning

rate)

と探検

シミュレーションで置きかえた

SBPI

(Simulation

確率

(exploration probability)

をステップ

2

で定

Based Policy

lteration)

7/レゴリズムを提案して

$\mathrm{a}$

める定数

$(\alpha_{0},\alpha_{\tau},p0’ p_{\mathrm{r}})$

を与える。

る。

[SBPI アノレゴリズム

]

[101

ステップ 2:反復

$k$

で状態

$\mathrm{x}$

にいれば,

学習率

$\alpha_{k}$

,

ステップ

1:

初期政策

$\{f_{0}(\mathbb{X});\mathrm{x}\in \mathrm{X}\}$

を定め

,

$k=0$

探検確率

$p_{k}$

とお

$\langle$

$\alpha_{k}=\alpha_{0}(\alpha_{\tau}+k)/(k^{2}+k+\alpha_{\tau})$

,

ステップ 2:(値決定ルーチン)

$p_{k}=p_{0}(p_{\mathrm{r}}+k)/(k^{2}+k+p_{\tau})$

2-a:(

$\sim$

の推定)

として定める。

i)

初期状態

$\mathrm{x}_{0}$

からシミュレーションにより

ステップ

3:

高い確率

$(1-p_{k})$

$Q_{new}$

(x,y)

を最小

$\mathrm{x}_{1},\cdots,\mathrm{x}_{m}$

を生成する。

にする決定

$\mathrm{y}^{*}$

を選択し

, 確率

$p_{k}$

$\mathrm{y}$

.

を除く

$\mathrm{i}\mathrm{i}$

)

$g^{k}=0$

とおき

,

$n=0,\cdots,m$

-l

にたレルて

$K$

(x)

からランダムに

$\mathrm{y}$

を選択する。

$(\mathrm{x}_{n},\mathrm{x}_{n+1})$

の推移に伴う

$g^{k}$

を次式て更新す

ステップ

4:

選択された決定

$\mathrm{y}$

でシミュレーショ

る。

ンを行い,

状態

$\mathrm{x}’$

へ推移すれば

,

直接費用

$g^{k}=(1-1/(n+1))g^{k}+(1/(n+1))r(\mathrm{x}_{n},\mathrm{x}_{n+1},f^{k}(\mathrm{x}_{n}))$

$r(\mathrm{x},\mathrm{x}’,\mathrm{y})$

がかかる。

ステップ

5:

$Q_{new}$

(x,y)

を次式により更新する。

2-b:(

$v^{k}($

x)

の推定

)

$Q_{new}(\mathrm{x},\mathrm{y})=(1-\alpha_{k})Q_{\mathit{0}/d}(\mathrm{x},\mathrm{y})$

i) ステップ

2-a

で行ったシミュレーション

において訪問回数が最も多い状態を

$\mathrm{x}^{*}$

$+\alpha_{k}\{$

r(x,

$\mathrm{x}’,\mathrm{y}$

)

$-g+ \min_{\mathrm{y}’\in K(\mathrm{x}’)}Q_{old}$

(X’,

$\mathrm{y}’$

)

$\}$

おく。

(6)

$\mathrm{i}\mathrm{i})$

過渡状態

$\mathrm{x}_{0}$

から出発し,

状態

$\mathrm{x}$

.

へ至るト

ラジェクトリーをシミュレーションにより

$L$

本生成する。

$\mathrm{i}\mathrm{i}\mathrm{i})$

1

本目のトラジエクトリ

$(\mathrm{x}_{0},\mathrm{x}_{1},\cdots,\mathrm{x}_{N}=\mathrm{x}.),$

$l=1,\cdots,L$

,

にた

$\vee$

)

して

,

推移

$(\mathrm{x}_{n},\mathrm{x}_{n+1})$

に伴う

$w(\mathrm{x}_{l}),$ $i$

=l,

$\cdot$

..,

$n$

,

次式により更新する。

$w(\mathrm{x}_{i})=w(\mathrm{x}_{j})+\gamma_{j}\lambda^{n-i}d_{n}$

$-$

こで

,

$\gamma_{i}$

はそのトラジェクトリ中て

$s_{j}$

を訪問

した回数の逆数であり

$0\leq\lambda\leq 1$

$d_{\hslash}=r(\mathrm{x}_{n},\mathrm{x}_{n’ 1},f^{k}(\mathrm{x}_{n}))-g^{k}+w(\mathrm{x}_{n+1})-w(\mathrm{x}_{n})$

であ

る。

$\mathrm{i}\mathrm{v})v^{k}(\mathrm{x})=14^{\mathrm{X}})-w(\mathrm{x}_{r}),$ $\mathrm{x}$

\in X

ステップ

3:(

政策改良ルーチン

)

$f^{k+1}( \mathrm{x})=\arg \mathrm{m}\mathrm{i}\mathrm{P}_{\mathrm{x})}\{\mathrm{y}\in\kappa r(\mathrm{x},\mathrm{y})+\sum_{\mathrm{B}\mathrm{D}\epsilon}\phi(\mathrm{y},\mathrm{D}\}_{2}^{k}(\mathrm{x}’)\}$

:

$\mathrm{x}\in \mathrm{X}$

ステツプ

4:

$f^{k+1}(\mathrm{x})=f^{k}$

(x),

$\mathrm{x}\in \mathrm{X}$

ならば停止。

最適政策は

$f^{k}$

(x)

である。

さもなければ

$k=k$ 利

としてステップ

2^

算時間を表

2

に示す。

3

MPIM

による最適政策である。

また

,

訪問回数の多い状態における

MPIM

および各ア

ルゴリズムの政策との比較を表 4

に示す。 表中

「一致」

の列には

MPIM

と政策が等しい場合に

$\mathrm{O}$

,

そうでない場合に

$\cross$

を記入している。 また

,

「政策一致数」 の行は全

300

状態中で

MPIM

政策が一致した状態数を示している。

1

アルゴリズムに使用するパラメーター覧

アルゴリズム

パラメータ

$\mathrm{m}=10000,$

$\lambda$

=0.l,

SBMPIM

$\mathrm{x}_{0}=(11,12),\mathrm{x}^{*}=(8,9)$

,

停止回数

=50

-$\mathrm{m}=1000000,$

$\alpha_{0^{=}}0.9,$

$\mathrm{p}_{0}\triangleleft-.3$

,

SMART

$\alpha=10000,$

$\mathrm{p}_{\tau}=10000-^{\zeta}--$

RELAXED-SMART

$\mathrm{m}$

=l000000,

$\alpha 0^{=}0.\underline{9_{-},}\mathrm{P}\mathrm{o}=0.3$

SBPI

$\mathrm{m}=10000,$

$\mathrm{L}$

=l,

$\lambda=0.9$

2

各アルゴリズムの

$\mathrm{g}$

およひ計算時間

計算時間

アルゴリズム

$\mathrm{g}$

(秒)

MPIM

40.907

0.35

6

$\iota$

数値実験

各アノレゴリズムは

VB

(Visual Basic) によりプ

ログラムし,

$\mathrm{D}\mathrm{O}\mathrm{S}/\mathrm{V}$

機 (CPU

:Pentium4

$2.4\mathrm{G}\mathrm{H}\mathrm{z}$

,

メモリ

:

$2\mathrm{G}\mathrm{B}$

)

を用いて計算を行った。

6. 1

数値例

.

各品目の容積はすべて

1

品目数

;2

.

在庫容量 ;23

一期あたりの

$i$

番目の需要

$D_{i}$

(i=L2) の確率

$\phi_{j}(D_{i})$

;

$\mathrm{A}(0)=1/27$

,

A

$(1)=2/9$

,

$\phi(2)=4/9$

$\mathrm{A}(3)=8/27$

$\phi_{2}(0)=1/16$

$\emptyset$

2

$(1)=1/4$

$\emptyset$

2 $(2)=3/8$

$\phi_{2}(3)=1/4$

,

$\phi_{2}(4)=1/16$

発注費用

;

$K(\ \mathrm{y})=15\delta(\mathrm{y}-\mathrm{x})+10\delta(y_{1}-x_{1})+5\delta(y_{2}-x_{2})$

$+6(y_{1}-x_{1})+3(y_{2}-x_{2})$

$|\urcorner$

保管

品切れ費用 ;

$l(\mathrm{y},\mathrm{D})=2[y_{1}-D_{1}]^{+}+2[y_{2} " D_{2}]^{+}+21[D_{1}-y_{1}]^{+}$

SBMPIM

$40.910\pm 0.043$

1.11

SMART

62.626

3.98

– $\mathrm{R}\mathrm{E}\mathrm{L}\mathrm{A}\underline{\mathrm{X}}\underline{\mathrm{E}}\mathrm{D}-$

-SMART65.500

4.01

SBPI

43.217

$\underline{1.92}$

3

品目在庫管理問題に対して

MP

SBMPIM

により計算を行った結果を表

5

に示す。

ここで

,

2

品目の場合と異なる

SBMPIM

のパラメータは

$\mathrm{x}_{0}=(7,8,8)$

, x*=(5,6,6)

である。 また,

需要およひ

コストのパラメータは品目

1,

2

に関しては

2

目の場合と同じであり

, 品目

3

に関しては

, 需要

パラメータは品目

1

と同じ,

コストパラメータは

品目

2

と同じてある。

多品目での

SBMPIM

の優

位性が示されている。

5

3

品目問題の

$\mathrm{g}$

およひ計算時間

計算時

$\mathrm{F}\mathrm{a}\mathrm{i}$

.

$\text{ア}J\triangleright \mathrm{z}\mathrm{f}^{\backslash }|)\text{ス^{}*}\text{ム}$

$\mathrm{g}$

(秒)

$–$

–MPIM

$54.\overline{890}-$

45.37

SBMPIM

$54.904\pm 0.041$

113.27

$+14[D_{2}-y_{2}]^{+}$

6.

2

SBMPIM

と従来のアルゴリズムとの比

SBMPIM

およひ既存のアルゴリズムのパラメ

ータを表

1

に示す。表

1

のパラメータのもとで各

アルゴリズムにより計算したときの

$\mathrm{g}$

およひ計

謝辞

本研究の一部は

, 日本学術振興会平成

14–1 5

年度科学研究費補助金

(

基盤研究

(B) (1), 課

題番号 14380185)

およひ

(基盤研究 (C)

(2), 課題番号 14580477)

の助成を受

けてなされたものてある。

(7)

88

参考文献

[11

R. A.

$\mathrm{H}\mathrm{o}\mathrm{w}\pi \mathrm{d}$

:Dynamic

Programming

and

Markov

Processes,

MIT PTess

(1960) (

関根

, 羽島,

森共訳「ダイナミックプログラミングとマルコフ

過程」

, 培風館

,

1971)

[2]

M. L. Puteman: Markov Decision

Processes,

John Wiley& Sons

(1994)

[3]

K.

Ohno,

T. lshigaki and

T.

Yoshii:

$A$

New

Algorithm

for

$a$

Multi-item

Periodic Review Invenlory

System”,

ZOR-Math. Methods

of

Oper.

${\rm Res}$

.

Vol. 39,

$\mathrm{p}\mathrm{p}$

.

$349- 364,1994$

.

$[4]\mathrm{S}$

.

Russell and

P.

Norvig,

古川康一訳「I–

ジェント アプローチ人工知能」,

共立出版

,

1997.

[5]

R. S.

Su

廿

on

and A.

$\mathrm{G}$

BaIto:

Reinforcement

Learning,

MIT Press

(1998)

(三上,

皆川共訳「強

化学習」

, 森北出版,

2000)

[6]

D.

P.

Bertsekas

and

J.

N.

Tsitsiklis:

NeurO-Dynamic Programming,

Athena

Scientific

(1996)

[7]

R. V. Roy: “NeurO-dynamic

programming:

overview

and recent

廿

ends,”

pp.431-459,

in

E.

A.

Feinberg and A. Schwartz ed. Handbook of

Markov

Decision

Processes,

Kluwer Academic

Publishers

(2002)

[81

T. K.

Das,

A.

Gosavi,

S.

Mahadevan

and

Nich.

Marchalleck:

“Solving

semi-Markov decision

problem

using

average

reward

reinforcement

leaming”, Management

Science,

Vol.

45, N0.4,

pp560-574

(1999)

[91

A.

Gosavi:

Doctor

Thesis,

h

廿

p

$://\mathrm{f}\mathrm{a}\mathrm{c}\mathrm{u}\mathrm{l}\mathrm{t}\mathrm{y}$

.uscolo.

$\mathrm{e}\mathrm{d}\mathrm{u}/\mathrm{g}\mathrm{o}\mathrm{s}\mathrm{a}\mathrm{v}\mathrm{i}/\mathrm{t}\mathrm{h}\mathrm{e}\mathrm{s}\mathrm{i}\mathrm{s}$

.hbnl

(1999)

[101

Y.

He,

M. C. Fu and S. I. Marcus: “A

Simulation- based policy

iteration

algorithm for

average

cost

unichain Markov decision

processes”,

M. Laguna

and

J. L.

G.

Velarde

$\mathrm{e}\mathrm{d}$

,

Computing

Iools

for

Modeling Optimization and

Simulation,

Kluwer

Academic,

pp.161-182(2000)

[111

A.

Gosavi, N.

Bandla and

T. K.

Das:

“A

reinforcement leaming approach to

a

single leg

airline

revenue

management

problem

with multiple

fare classes and

overbooking,”

$IIE$

Transactions,

Vol. 34,

pp.729-742

(2002)

[12]

大野勝久

:“

マルコフ決定過程”-.

システム

と制御,

Vol.

29,

No.

6,

PP.333-341

(1985)

[131

K.

Ohno

and

K. Ichiki:

“Computing

optimal

policies

for controlled tandem queueing

systems”,

Operations

Research,

$\mathrm{V}\mathrm{o}\mathrm{l}$

.

35, No. 1,

$\mathrm{p}\mathrm{p}.121- 126$

(1987)

[141

K.

Ohno:

“Modified

policy

iteration

algoriffim

with nonoptimality tests for

undiscounted

Markov

decision

process”,

Working Paper, Dept.

of

Infomation

System

and

Management

Science,

Konan University, Japan

(1985)

[15] 大野勝久, 八鴫憲司

, 伊藤崇博

:“

ニューロ

-ダイナミックプログラミングによる生産ライ

ンの最適制御に関する研究”-.

日本経営工学会

論文誌

,

VO1.

54,

No.

5,

pp. 316-325

(2003)

[16]

E.

L.

Johnson:

“Optimality and

Computation

of

(

$\sigma,S$

)

Policies in

the

Multi-item Infinite

Horizon

Inventory

Problem”,

$\mathit{4}anagement$

Science,

1.

13,

$\mathrm{p}\mathrm{p}$

.

$475- 491(1967)$

[17] 大野勝久

,

田村隆善

, 森健一, 中島健一

:

「生

産管理システム」,

朝倉書店

(2002)

[18] 石塚陽

, 山下英明

:

「サンプルパス最適化の

確率的離散事象システムへの適用」

,

オペレー

ションズ

. リサーチ,

Vol.

46,

No.

4,

pp. 195-201

(2001)

(8)

品目

2

23

22

21

35

-35

20

34

-34

19

32

-32

18

30

– –

-3

17

28

28

-28

16

26 26

-26

15

24 24

– – – –

-24

14

22

22

-22

-13

20 20

-20

-1218 18

-18

-11

16 16

-16

– – –

-101414

-14

– – – –

-912 12

– – –

-12

– –

– –

-810 10

– –

-10

– – – –

– –

-788

– – –

8

91113151719212325

61

1

—-

1 7

-27

56

6

—-356

– –

-29

44

2

4

– –

– –

-31

31

-33

21

– – – – – – – – – – – – – – – –

-1

$\mathrm{t}$ $|$ –

5

1

7

9

– – – – – – – – – – – – – –

01112 3 5

1

7911

13151719

$2\mathrm{t}232527293133-$

$–$

0

1

2

3

4

5

6

7

8

910 11 12 13 14 15

16

17

18 19 20

212223

品日

1

2

は最適政策を示す。

表中の数字と,

同表中のゴシック体の数字が対応している。

例えば

, 状態

$[7, 1]$

の数字

7

“7”

に対応し,

つまり状態

[7,

61

まで発注するということを示す。

また,

“–,,

は発注しないことを示す。

(9)

71

4

各アルゴリズムの政策の比較

SBPI

発注

0

発注

発注

0

発注

6

$\overline{6}$ $\mathit{0}$

5

6

00

$\mathrm{O}$

0

0

MPIM

SBMF

$|0$

$\partial \mathrm{E}\mathrm{f}\mathrm{f}61$ $\partial \mathrm{g}f\grave{\mathrm{f}}06$ $\mathit{5}_{\frac{\mathrm{g}\grave{\dot{f}}_{-}^{-}}{6}}$

0

0

0

状態

MPIM

0

$|^{\prod_{111}}\text{目}1$

発注

0

発注

1

0

6

6

4

0

0

$\mathrm{O}\Gamma \mathrm{J}\mathrm{D}$

fl

0

4

0

1

3

4

3

2

1

4

1

0

2

2

0

0

-0

0

$\mathrm{O}$

0

0

$\Re^{-}\text{態}\mathrm{t}\mathrm{F})$

300

136

320

政策一致数

(300 状態中)

RELAXED-SMART

一致

発注

0

発注

1

一致

$\cross$

2

1

$\cross$

SMART

$\text{発}\mathrm{f}\mathrm{f}1$

1

発注

0

発注

1

2

状態

MPIM

0

$\mathrm{Q}|\mathrm{l}\mathrm{f}\not\supset \text{目}\underline{1}$

発注

0

発注

1

06

6

$\mathrm{A}\text{目}0$

$40-$

$41$ $60$ $\frac{0}{5}$ $01$ $01$

00

0

$\mathrm{O}$ $\cross$

10

$\cross$

1

0

5

6

0

0

$\cross$

0

1

$\cross$

3

4

0

0

0

0

4

3

0

0

0

0

3

3

0

0

0

0

2

2

0

0

0

0

1

1

5

5

0

0

00

0

$\mathrm{O}$ $\mathrm{O}$

0

0

$\mathrm{O}$ $\mathrm{O}$

0

0

$\mathrm{O}$ $\mathrm{O}$

0

0

$\mathrm{O}$ $\cross$

00

$\cross$

4

5

0

0

0

0

1

2

0

0

0

0

0

2

6

4

0

0

$\mathrm{O}$

0

0

$\mathrm{O}$ $\mathrm{O}$

0

0

$\mathrm{O}$ $\cross$

10

$\cross$

2

0

4

6

0

0

$\cross$

0

0

$\cross$ $00$ $00$

$24200$

210

3

2

0

政策一致数

(300

状態中

)

$\mathrm{O}$

0

0

$\mathrm{O}$ $\mathrm{O}$

0

0

$\mathrm{O}$

237

表 2 各アルゴリズムの $\mathrm{g}$ およひ計算時間 アルゴリズム $\mathrm{g}$ 計算時間 (秒) MPIM 40.907 0.35 6 $\iota$ 数値実験 各アノレゴリズムは VB (Visual Basic) によりプ ログラムし, $\mathrm{D}\mathrm{O}\mathrm{S}/\mathrm{V}$ 機 (CPU :Pentium4 $2.4\mathrm{G}\mathrm{H}\mathrm{z}$ ,

参照

関連したドキュメント

* Department of Mathematical Science, School of Fundamental Science and Engineering, Waseda University, 3‐4‐1 Okubo, Shinjuku, Tokyo 169‐8555, Japan... \mathrm{e}

For a brief history of the Fekete- Szeg¨o problem for class of starlike, convex, and close-to convex functions, see the recent paper by Srivastava et

8.1 In § 8.1 ∼ § 8.3, we give some explicit formulas on the Jacobi functions, which are key to the proof of the Parseval-Plancherel type formula of branching laws of

Han Yoshida (National Institute of Technology, Nara College) Hidden symmetries of hyperbolic links 2019/5/23 5 / 33.. link and hidden symmetries.. O. Heard and C Hodgson showed the

This paper presents an investigation into the mechanics of this specific problem and develops an analytical approach that accounts for the effects of geometrical and material data on

[Co] Coleman, R., On the Frobenius matrices of Fermat curves, \mathrm{p} ‐adic analysis, Springer. Lecture Notes in

[r]

Note: 1 ) A maximum of three applications per year can be made. 2) This product may be applied to Cranberries via ground or sprinkler irrigation. For ground application, apply