第 4 章 温度と信頼性の評価 16
4.6 推計による評価
推計プログラムを用いて,LOT負荷分散法と簡略化矢嶋法でサーバを運用する際の信 頼性を比較する.
4.6.1 推計プログラム概要
本研究では,推計をするにあたって推計プログラムを作成した.言語はRubyで,2次 元配列をサーバに見立てて様々な大きさを持つ仮想マシンを配列に配置する.配置温度閾 値なしとありの場合の実行結果を図4.7と4.8に示す.配置する仮想マシンのセットを図 4.9に示す.
例えば,図4.9に示すような仮想マシンセットを配置しなければならないとする.排気 温度閾値なしの場合,VMÀ(20%)とVMÁ(30%)はnode00に配置することができるが,
VMÂ(60%)はnode00に配置できないため,サーバを1つシフトしてnode01に配置される.
VMÃ(50%)はnode00の空いている部分に配置される.VMÄ(50%)はnode00とnode01 どちらの空いている部分にも配置することができないため,node02に配置される.その 他のサーバは,スタンバイ状態である.
同様に,図4.9に示すような仮想マシンセットを配置しなければならないとする.排気 温度閾値ありの場合,VMÀ(20%)とVMÁ(30%)はnode00に配置することができるが,
VMÂ(60%)はnode00に配置できないため,サーバを1つシフトしてnode01に配置され
る.VMÃ(50%)はnode00の空いている部分に配置することができるが,配置すると排気
温度閾値を超えてしまうため,サーバを2つシフトしてnode02に配置される.VMÄ(50%) はとnode01の空いている部分には配置することができない.node00とnode02の空いて いる部分に配置することができるが,配置すると排気温度閾値を超えてしまうため,サー バを3つシフトしてnode03に配置される.その他のサーバは,スタンバイ状態である.
図 4.7: 実行結果(排気温度閾値なし) 図 4.8: 実行結果(排気温度閾値あり)
図 4.9: 仮想マシンセット
4.6.2 推計モデル
以下の条件で推計を行う.
• 1架分のサーバラック(1U×40)を想定,内最大で30台が稼動する.
• 仮想マシン要求は予め分かるとして選別する.
• 推計では,メモリ容量・ストレージ容量・バンド幅・仮想マシンCPUコア数とイ メージサイズを考慮していない.
• 全てのタスクは均一と仮定する.
• 使用していない物理マシンはスタンバイモードにする.
4.6.3 信頼性に関する推計 ( 手順 )
推計手順を図4.10に示す.
À目標とする0.01%故障時間を決定する.
Á設定すべきTex thresholdを図2.2より計算する.
Â稼動サーバ数と最高排気温度を推計プログラムで計算する.
Ã最高排気温度から正確な0.01%故障時間を計算する.
図 4.10: 推計手順
4.6.4 信頼性に関する推計 ( 結果 )
信頼性に関する推計結果を図4.3に示す.LOT負荷分散法の推計結果に注目すると,目 標とする0.01%故障時間を10000hと決めたとき,Tex thresholdは図2.2より45.0に設定 すればよいと分かる.推計プログラムを実行すると,稼動サーバ数は30台,最高排気温 度は44.8℃であると分かる.この44.8℃からCPU温度を逆算して,[9]を使って正確な
0.01%故障時間を計算する.10368hとなり,ユーザが求める信頼性の制約条件を満たして
いる.最大CPU負荷は90%である.
表 4.3: 信頼性に関する推計結果
アルゴリズム LOT負荷分散法 簡略化矢嶋法
目標0.01%故障時間(h) 10000
-Tex threshold 45.0
-稼働サーバ数(台) 30 27
最高排気温度(℃) 44.8 46.0
0.01%故障時間(h) 10368 9026
最大CPU負荷(%) 90 100
4.6.5 CPU 使用率と最高排気温度
CPU使用率と最高排気温度の関係を図4.11に示す.CPU使用率の上昇とともに,最高 排気温度が上昇する.
図 4.11: CPU使用率と最高排気温度
4.6.6 T
exthreshold と故障時間
Tex thresholdと故障時間の関係を図4.12に示す.Tex thresholdが大きくすると,0.01%
故障時間は短くなる.簡略化矢嶋法は,温度閾値なしの場合である.
図 4.12: Tex thresholdと故障時間