5. テスト環境の開発アクティビティの課題と解決手法
5.2 テスト環境の開発アクティビティの問題と具体的な課題
5.4.1 解決手法「予備機の入れ替えと監視ツールによる検証環境の正常化手法」(手法 6)
課題 6 の解決手法としては「予備機の入れ替えと監視ツールによる検証環境の正常化手法」(手 法 6)が効果的であると考えた.理由は,監視ツールによる故障監視と,予備マシンの用意による故 障マシンの入れ替えで対応することで速やかに故障対応ができると考えたからである.以下に具体 的に示す.
解決方法は,ツールと監視 OSS である MRTG と Nagios や Crane に加えて,シェルスクリプトによ るツールと Cron により故障を検知する手法を採る.表 33 に示すとおり,監視 OSS による監視は,
従来のシステムでの監視内容である CPU の負荷といった CPU の状態,メモリの使用率といったメ モリの状態,ディスク I/O やディスク容量といったディスク状態や,NW の不具合等の状態を数値の 異常により監視する.加えて,利用した監視 OSS では,syslog 等のシステムログに出力されたエラ ーメッセージだけでなく,追加の設定により大規模分散処理システムのエラーメッセージも監視す る.
表 33. 監視概要 種別
監視内容
監視方法 ツール OSS
MRTG Nagios Crane 従来の情報
システム
CPU 状態
監視 OSS
× ○ ○ ×
メモリ状態 × ○ ○ ×
Disk 状態 × ○ ○ ×
NW 状態 × ○ × ×
大規模分散処理 システム
ログメッセージ
ツール
○ × ○ ○
プロセス状態 ○ × × ○
特定プロトコル疎通確認 ○ × × ×
統計情報 ○ × × ×
スクリプトや Cron のツールでは,大規模分散処理システムで特有の内容である,ログメッセージ やプロセス監視,特定プロトコルの疎通確認の他に,運用に必要となる統計情報の確認を行う.ス クリプトや Cron のツールを定期的に実行することにより,ログメッセージやプロセスの監視や特定プ ロトコルの疎通確認を自動化し,問題を検知した場合,即時に監視画面等で通知する.
商用システムの CBoC タイプ 2 の検証では,20 台のマシンを積んだラックを 15 ラック利用してい た. 図 26 に 2 年間の故障の実例を示す.故障の発生には,当初は「ある検証を実施すると発生 する」,「あるプロダクトのマシンで発生する」等の仮説を立てたが,特定の作業による故障の傾向 は見られなかった.一方で,故障したマシンは再度故障するという傾向が見られた.また,特定プロ トコルで接続できない状態のマシンは,1 ヶ月あたり数%の割合で発生していた.この状況から,故 障率とラックに搭載できるマシン数を考慮し,予備マシン数は全体台数の 1 割とする.
0 2 4 6 8 10 12 14
0 5 10 15 20 25 30 35 40
2010年10月~3月 2011年4月~9月 2011年10月~3月 2012年4月~9月 故障の件数と割合
故障件数 疎通不可件数 故障率(全体の台数に対する割合)
図 26. 適用した期間の故障の実例
件数