• 検索結果がありません。

強化学習による最適チェックポイントの動的生成

N/A
N/A
Protected

Academic year: 2021

シェア "強化学習による最適チェックポイントの動的生成"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

喜一・、臣・一点

2003年日本オペレーションズ。リサーチ学会 春季研究発表会

強化学習による最適チェックポイントの動的生成

岡村寛之(01013754)†,西村祐樹‡,土肥正(01307065)† †広島大学大学院工学研究科情報工学専攻 ‡広島大学工学部第二類(電気系) 1.はじめに データベースに代表されるファイ/レシステムでは,データ 処理を完了するまでに計算コストを必要とする.反面,シス テム障害が発生するとかなりの計算ロスを被る可能性がある. そこで,主記憶から安定な二次記憶媒体にデータを保存する チェックポインティングと呼ばれる予防保全手続きと,障害発 生後にシステムの状態を元の状態まで回復させるロールバッ クリカバリと呼ばれる事後保全手続きがなされる. 一般的に,チェックポインティングは次のように行われる. システム上でチェクポイントの生成が選択されると.計畏の プロセスは親プロセスと子プロセスの二つに分岐される.分 岐直後,親プロセスと子プロセスのデータは同一であり,親 プロセスは計算を続行する.一方,子プロセスはチェックポ イント以前までに蓄積されたデータを安定な二次記憶媒体へ 保存する.つまり,チェックポインティングを行った後,親プ ロセスと子プロセスは平行して処理を行っている状態となる. Vaidya川は,上述のチェックポイントモデルにおいて,計 算ロスの最も′トさい最適なチェックポイント間隔を解析的に 邸出している.本稿では,上述のチェックポイント生成モデ ルをセミマルコフ決定過程(SMDP)によって再定式化し,強 化学習によるアルゴリズムを適用することによって障嘗発生 時間データの計測を行いながら動的にチェックポイントの生 成を行うアルゴリズムを提案する. 2.SMDpによるモデル化 図1:モデルの概念図、 前述したチェックポイント生成モデルに対して,セミマル コフ決定過程により問題の定式化を行う.具体的にシステム 障害の発生がパラメータ入(>0)のポアソン過程に従う場合 を考える.すなわち,障害発生時間間隔に対する確率分布は 叩)一 = トe一入‘ (1) また,チェックポイントを生成するかどうかを選択する決定 点において成立すべき最適性方程式を導出するため,以下の 記号を定義する. 月(>0):ロールバック リカバリに費やす時間 Z:ロールバック リカバリの後,障害直前の状態に移行する までの処理時間(非負の確率変数) α(>0):割引率 T,2T,3丁,..∴チェックポイント生成可能な保存データ量 〃(>0)‥通常稼動中の処理率 J▲。(>0)ニチエックポイント生成中の処理率 チェックポイント生成に関する評価尺度として,総期待割引 無駄時間を考える.これは時刻tまでの累積無駄時間に関す る確率過程(ズ(り;土>0)を用いて B[上叫e−Qt榊] (2) と定義され,これを最小にする最適なチェックポイント生成 アルゴリズムを構築する. 以下のような諸盈を定義する. ¢(乃、CIlt):れ番目の決定点においてチェックポイントを生成 することを選択し,以後最適な方策を選択し続けた場合 の総期待割引無駄時間 データ処理を行う集中型ファイルシステムを考える.シス テムは正常な状態から稼動を開始し,保存データ量がある一 定急になった時点でチェックポイントを設定するかどうかのi軍 択を行う.本稿ではこのような選択を実行する時点を決定点 と呼ぶ.チェックポイントを生成しない場合,システムはデー タ処理を継続する.一方.チェックポイントを生成する場合, 計算のプロセスは二つに分岐される.親プロセスはそのまま 計算を続け,子プロセスはチェックポイントを生成するための 処理を始める、子プロセスによるチェックポイント生成が行 われている間,親プロセスの処理率は低下する.システム障 害はポアソン過程に従って発生すると仮定する.障害が発生 した場合,…定期間中ロールバックリカバリが行われ,直前 のチェックポイントの状態へ戻った後に処理の再実行を行う. このとき,障害が発生する直前の決定点までチェックポイン トの生成を行わずに処理を実行し,障害発生直前の決定点で 再びチェックポイントを生成するかどうかの選択を行う(図1 参照). 一丑50− © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

(2)

Q(m,Chk):m番目の決定点においてチェックポイントを生成 ここではチェックポイント生成アルゴリズムに対して強化 しないことを選択し,以後最適な方策を選択し続けた場 ■学習を適用する.具体的な強化学習による学習アルゴリズム 合の総期待割引無駄時間 として,これまでに様々なものが摸案されている.本稿では 期待割引郷間 V(m)=m哺(叫),Q(m叫}・ ・

(3)霊孟で芸諾冨警芸這芸㌘1警

ここで この値はQ億と呼ばれる.Q学習は,試行錯誤を繰り返し ながらQ値の推定を行うアルゴリズムである. Q‘几 z)]v(m)}dF( , Step3‥実行からひ(>0)時間程過後,再びシステムの状 態β什u(何番目の決定点であるか)を観測する.このと Q(れ’ ’の発生記録 Ste

]v(m,}。珊

+ノニ。“…c(1−鉦‡,dβ

+β〈上ue−OV榊 +e ̄帖γ

(1))d珊,

(5)

+e−Ou℃仲小,¢′)〉・(7)

E[上Z可=

St。‥戻る. LnT’〃〈/le−”ds+rRe−αきds ‘・ ) (6, 3・強化学習によるチェックポイント生成 4.今後の課題 強化学習【2Iとは,エージェント(学習と意思決定を行う 本稿では強化学習により最適チェックポイントを動的に生 者)が試行錯誤的に環境(制御する対象)との相互作用を学習 成するためのモデル化を行った.また,導出した最適性方程 して,環境に適応する(最適な制御を行う)ための方法論で 式に対する強化学習のアルゴリズムを示した.今後は,シス ある・ニューラルネットワークのような教師付き学習と異な テム障害の発生メカニズムが予測できないような状況におい り,明示的な行動選択を示す教師が存在しない∴その代わり て,最適チェックポイントを適応的に生成し,本手法の有効 エージェントは環境から報酬(費用)‘という情報を得ることが 性を検証する. でき,その情報を基にして環境を支配するパラメータを学習 する.強化学習を適用できる環境は,一般に次の性質を持つ・参考文献 【1】 a 酬(費刺は状態遷移を繰り返すことで発生する・これらの tioTびOmCom印加,VOl.46,nO.8(1997). 性質は・環境の動的な特性をSMDPによってモデル化可能 t2】R・S・Suuonand^・G・BarLo(三上貞芳,馴雅章(共 り▼強化学習は叩Pによるび 訳))‥「強化学則,森北出版(2002)・ −15l− © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

参照

関連したドキュメント

コンピュータシステムにおけるチェックポイントの最適化についての研究

ある基準を満たす選択肢が存在すれば,その選択肢に執着す る満足化という傾向がある.これは人間が持つ限定合理性に よって引き起こされるとされる [Simon

多重降下競合学習アルゴリズムは,このほかには複数 の「子 vehicleJ が地方をまわり, 1

M/M/m/k型待ち行列につ L 、て,その空 き率 π。 (=1 一利用率)をシステム評価基準としよう.この

新しいことを知りたいから,大人になって役に立つから,成績をよくするため庄とが小学生てば学

185 複数運動分離の教師なし学習による多段階最適化 菅谷 保之 金谷 健一 岡山大学工学部情報工学科 ビデオ画像上を移動する特徴点の軌跡から独立な運動を分離するさまざまな方法が提案されているが,物体や背景は一 般の3次元運動をすると仮定するので,平面運動に近い実際のビデオシーンでは分離の精度が劣化する.本論文では退

まず ここでのエージェントの感覚入力は "$ 節での感覚入 力から目標地点を除いたもの すなわち センサ入力のみとす る エージェントは

学習内容が単純明確で‑実験 耳におけ る漢字を模写す ること,実験 lにおけ る簡単 な直線図形を模写す るこ との よ うな‑学習者が その学習 目標 を意識