• 検索結果がありません。

ランダムウォークに関連した最適停止問題

N/A
N/A
Protected

Academic year: 2021

シェア "ランダムウォークに関連した最適停止問題"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

1−E−9 2000年度日本オペレーションズ・リサーチ学会 秋季研究発表会

ランダムウオークに関連した最適停止問題

01303783 愛知大学 玉置光司 mMAKIMitsushi

1 はじめに

最初に確率論でよく知られているギャンブラーの 破滅の結果を述べておこう。ギャンブラーは毎回の ゲームにおいて、確率pで1ドル獲得するか、あるい は確率9=1−pで1ドル失う。また、毎回のゲーム は独立で、ギャンブラーは所持金が目標値Ⅳドルに 達するか、あるいは破産して所持金が0ドルとなる までゲームを続けるものとする。ズmを時刻陀でのギ ャンブラーの所持金とすると、(ズれ,乃=0,1,2,…)

は、推移確率

po,0=pⅣ,Ⅳ=1 p山+1=p=1−p山一1)J=1)2)‥・)Ⅳ−1 を持つマルコフ連鎖となる。状態(0),(Ⅳ)は、吸 収状態である。ギャンブラーが所持金五ドルからス タートする時、彼がⅣドル獲得する確率を昂と記 すと、これは次式で与えられる。 p≠圭の時 (1) p=妄の時 ただし、γ=9/p.

● 2 Stopplngatthebest

l節のギャンブラーの破滅問題に関連して、所持 金が最大となった時にゲームをストップする確率を 最大にする問題を考える。すなわち、

吊(右■=ズ几)=現ズT=ズれ)

となるβ1叩p玩g壬乞meT*を求める問題を考える( Cは血p〆乃g壬五meの集合を表す)。簡単のため、

maxれ≧0ちlで停止することを成功と呼ぶと、この

問題は成功確率を最大にする最適停止問題となる。

2.1最適方程式

ギャンブラーの現在の所持金がα(0<α<Ⅳ) で、今までの最大である時、この状態を単にαで表 す。状態αの最適値関数をγ(α)とすると、これは次 式を満足する。 γ(α)= maX(β(α),C(α)),0<α<Ⅳ γα−γα+1 β(α) 1−γα+1, C(α)= pγ(α+1)+9(1−β(α−1))γ(α), ただし、γ(Ⅳ)=γ(0)=1. β(α)は、状態αでストップして成功する確率である が、これは所持金がα+1に到達する前に0に到達 する確率であり、(1)より、 1−γα 占(α)=1− 1−γα+1

として計算される。C(α)は、状態αでストップしな

い場合の成功確率であるが、次のゲームで1ドル獲 得するか1ドル失うかによって条件付けることによ り上述の結果を得る。

2.2 最適政策

Theorem2.1

(2)のγ(α)は、次式で与えられる。

γα−γα+1 if O≦α≦α*−1 if α*≦α≦Ⅳ 1一γα+1, 1−γα 1−γⅣ, γ(α)= ここで、α*は、 1−γα γα_γα+1 α*=mln α: 1−γⅣ」1−rα+1 ー120− © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

(2)

で与えられる。したがって、状態αでの最適政策は、 Lemma3.1 明(α)=Ci(α)≧β電(α),1<五<m・ したがって、状態(α,m)について最適政策を調べれ

ばよい。

Theorem3.2 叫m(α)は、次式で与えられる。

o乃t虞犯ue :;器ue)⇔α、〈津

〈 c となる。 Theorem2.1より、最初の所持金がa*より小さ い時はそこでゲームをストップするが、所持金が α*以上の時は目標値Ⅳになるまでゲームを継続す ることが最適となる。

3 StopplngatOneOfmbest ●

mを与えられた正整数として、 吊(ズJ・≧ズm−(m−1)) =吊(ズJ≧maxズ几−(m−1)) れ≧0 となる血即叫再血eJ*を求める問題を考える。こ れは、2節の問題の一般化になっている(m=1と おいた場合が2節の問題である)。

3.1 最適方程式

今時刻氾で所持金がαであるとする。すなわち、 ズ乃=αとする。この時ストップするか否かが問題 となるのは、ズ几のズ0,ズ1,…,ズnの中での順位が 1,2,…,mの場合である。そこで、ズ几=αで順位 が宜(宜=1,2,…,m)である状態を(α,宜)と記す。 状態(α,五)での最適値関数を明(α)とし、この状態 でストップした場合、あるいはストップしない場合 の値をそれぞれβi(α),Ci(α)と書くと以下の方程式 が成立する。 明(α)= maX(β慮(α),Ci(α)),1≦乞≦m 巧】.−γm) if O≦α≦α㌫−1 if α㌫≦α≦Ⅳ 1−γα+m, 1−γα 1−γⅣ−m+1, ここで、α㌫は、 1−γα \γα(1−γ)m 〈 α㌫=mln α: 1−γⅣ−m+1」1−γα+m したがって、状態(α,m)での最適政

で与えられる。

策は、

:…器ve)⇔α〈;ト

( CO†乙士官乃Ve となる。 成功確率は、次式で与えられる。 Lemma3.3 所持金αでゲームを開始した時、成功する確率 v(α)は、次式で与えられる。 Ⅳ−2m+1 U(α)= γm(小Aだ ̄m叫1 , . m−1<α<Ⅳ−m 1−γm−1 γα(1−γm) β電(α)= β(α)= 1≦五≦m ただし、Am= 1−γα+m, 1−γm c豆(α)= 匹豆_1(α+1)+鞘+1(α−1),1≦五<m Cm(α)= 匹m_1(α+1)+9(1−d(α−1))叫m(α)・ 参考文献 【1]Ross,S・M・,”Dynamicprogrammingandgam− blingmodels”,adv.Appl.PrY>bab.6,593−606, 1974. 【2】Ross,S・M・,血加d餌C±豆0花王oぶfoc加βf豆c上)y−

namic Prp9rammm9・Academic Press)New

York,1983. γα−γα+1 ただし、d(α)= 1−γα+1●

3.2 最適政策

次の補題は、状態(α,り,1≦五<mにおいては、

最適最策はストップしないことを述べている。

ー121− © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

参照

関連したドキュメント

6 枚方市訪問看護ステーション連絡会 ①概要

 本稿は、丸本が金沢少年鑑別所からの依頼を受けて行った当会議第二部の

最後 に,本 研究 に関 して適切 なご助言 を頂 きま した.. 溝加 工の後,こ れ に引

この問題に対処するため、第5版では Reporting Period HTML、Reporting Period PDF 、 Reporting Period Total の3つのメトリックのカウントを中止しました。.

ü  modeling strategies and solution methods for optimization problems that are defined by uncertain inputs.. ü  proposed by Ben-Tal & Nemirovski

最大消滅部分空間問題 MVSP Maximum Vanishing Subspace Problem.. MVSP:

節点領域辺連結度 (node-to-area edge-connectivity), 領域間辺連結度 (area-to-area edge-connectivity) の問題. ・優モジュラ関数

ポートフォリオ最適化問題の改良代理制約法による対話型解法 仲川 勇二 関西大学 * 伊佐田 百合子 関西学院大学 井垣 伸子