• 検索結果がありません。

CFIAを拡張した障害対策方式の実システムへの適用評価

N/A
N/A
Protected

Academic year: 2021

シェア "CFIAを拡張した障害対策方式の実システムへの適用評価"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)Vol.2009-EVA-30 No.1 2009/11/16. 情報処理学会研究報告 IPSJ SIG Technical Report. 1. はじめに. CFIA を拡張した障害対策方式の 実システムへの適用評価. 万が一障害が発生した場合,社会に多大な影響を与える恐れがあるミッションクリ ティカルシステムにおいては,システム導入やシステムリプレースの段階における, 障害対策が重要である.このため,ミッションクリティカルシステムでは,故障モー ドに対して,原因調査や影響評価を行う手法である FMEA(Failure Mode and Effect Analysis)などを用いて,障害対策が行われている. FMEA を用いた障害対策は,故障に注目し,故障発生時のユーザへの影響の度合い, 影響の度合いに基づき,対策の立案を行うことで,システムの故障を網羅した障害対 策を行うことについて有効である. しかし,FMEA を用いた手法では,故障には至っていないが,早期に対応を必要と する状態である機能劣化および,人間の作業ミスなどであるヒューマンエラーの対策 が漏れてしまい,抑制すべき障害を網羅的に対策することが困難である. このような課題に対し,「システムの構成要素の障害を事前に想定し,該システム に関連する障害履歴(システムのリプレース時であれば,旧システムの障害履歴など) を用いて,想定範囲および分解能を適切にし,また,想定が正しく機能することをシ ミュレートしたうえで,障害の影響を最小化するための解決策の作成,改善を行い, システムの可用性の向上を図る手法」 [1]である Advanced-CFIA を用いた障害対策を 導入することで,解決を図る. 本論文は,1,000 台規模のサーバを使用した大規模ミッションクリティカルシステ ムに次の手法を用いた障害対策を適用し,障害対策の網羅性に関して比較評価を行い, 有効性を論じる.  CFIA (Component Failure Impact Analysis)  Advanced-CFIA 結果,CFIA を用いた障害対策が,機能劣化を検討することに有効であったこと, Advanced-CFIA を用いた障害対策が,機能劣化およびヒューマンエラーを検討するこ とに有効であったことを示す.. 佐藤雅之† ミッションクリティカルシステムでは,FMEA (Failure Mode and Effect Analysis) などを用いて障害対策が行われている.しかし,FMEA を用いた手法では,障害 対策の網羅性に対する懸念がある.Advanced-CFIA(Advanced Component Failure Impact Analysis)は,障害履歴を用いて網羅的に障害対策を行う.Advanced-CFIA を CFIA と共に,大規模ミッションクリティカルシステムへの適用を行い,障害 対策検討への有効性について,評価を行った.. The evaluation of a method of analyzing system failure with Advanced-CFIA applying to the real system Masayuki Sato† The mission-critical system has to prevent system failures using FMEA (Failure Mode and Effect Analysis). However, FMEA cannnot examine any system failures. Advanced-CFIA (Advanced Component Failure Impact Analysis) can examine system failures using a system fault history. I evaluated the effectiveness to examine system failures with a large-scale mission-critical system by using Advanced-CFIA and CFIA.. †. 1. 三菱電機株式会社 情報技術総合研究所 Information Technology R&D Center, Mitsubishi Electric Corporation.. ⓒ2009 Information Processing Society of Japan.

(2) Vol.2009-EVA-30 No.1 2009/11/16. 情報処理学会研究報告 IPSJ SIG Technical Report. 表 1 構成要素の機能. 2. 大規模ミッションクリティカルシステムにおける障害対策方式 構成要 素分類 サーバ. 実例として取り上げる大規模ミッションクリティカルシステムは,次の業務を行う. なお,以降では,本システムを実システムと記載する.  計測機器の出力に基づき,制御対象の制御を行う.  システムを常時正常稼働させる. これらの業務を行うために,次の機能を実現している.  稼動状況を運用者が把握し,システムを運転する機能  システムを常時監視する機能 実システムは,図 1 のように構成している(一部).なお,サーバ,機器類を合わせ, 計 1,000 台で構成する.. 他社I/Fサーバ 他社I/Fサーバ. 操作卓 操作卓 (サーバ) (サーバ). クライ アント. 監視サーバ. 計測サーバ 計測サーバ. 制御サーバ 制御サーバ. 記録サーバ 記録サーバ. 計測機器 計測機器 計測機器. 計測機器 計測機器 制御機器. 外部ディスク 装置.       . 操作卓(クライアント)に対して,計測サーバ,監視サーバ, 他社 I/F サーバから取得した計測情報,監視情報,他社サ ーバ情報を送る. 操作卓(クライアント)から送られた制御情報を制御サー バに送る. 計測情報および監視情報から作成する制御対象情報を他 社 I/F サーバに送る. 計測機器から取得した情報を,操作卓(サーバ)に送る. 計測機器の異常情報を取得する. 操作卓(サーバ)から送られた制御情報を制御機器に送る. 制御装置の異常情報を取得する. 計測情報,制御情報を外部ディスク装置に記録する. 外部ディスクの異常情報を監視サーバに送る. サーバを監視し,監視情報を操作卓(サーバ)に送信する. 異常を検出した場合に,警報装置に信号を送る. 操作卓(サーバ)から送られた,計測情報,監視情報,他社 サーバ情報を表示する. 操作卓(サーバ)に対して,制御情報を送信する. 他社 I/F サーバに対して,制御対象情報を送信する. 監視サーバから送られた信号を受け取り鳴動する. 制御対象を計測し,計測情報を計測サーバに送信する. 制御情報に基づき,制御対象を制御する. サーバ,クライアントなどの通信を媒介する. 計測情報,制御情報,装置情報の保存媒体である.. . 制御対象と連携して動作する他社管理のサーバである.. . 運用者による制御対象である..  . 操作卓 操作卓 操作卓 (クライアント) (クライアント) (クライアント) 警報装置. 機能 . 操作卓 (サーバ). 他社サーバ 他社サーバ 他社サーバ. サービス提供者の管理責任範囲. 構成 要素名. 機器, 装置. 装置 装置 制御対象. 図 1 システム構成図. 制御 対象. 計測 サーバ 制御 サーバ 記録 サーバ 監視 サーバ 操作卓 (クライ アント) 警報装置 計測機器 制御機器 通信機器 外部 ディスク 装置 他社 サーバ 制御 対象.         . 表 1 にシステムの構成要素(S/W,H/W,N/W)の機能を示す.. 2. ⓒ2009 Information Processing Society of Japan.

(3) Vol.2009-EVA-30 No.1 2009/11/16. 情報処理学会研究報告 IPSJ SIG Technical Report. 実システムは,次のように動作する.  運用者は,操作卓(クライアント)上の表示,計測情報,監視情報,他社サーバ情 報を確認し,必要に応じて,操作を行う.  運用者の操作は,制御情報として,操作卓(サーバ),制御サーバ,制御機器を通 じて,制御対象に与えられ,必要な制御が行われる.  制御対象に対する制御の結果は,計測機器により収集され,計測サーバを通じて, 操作卓(サーバ)に与えられる.  監視サーバは,サーバを監視し,異常を検出した場合,警報装置を鳴動させる.  計測情報,制御情報は,記録サーバにより,外部ディスク装置に記録する.  他社サーバは,他社 I/F サーバを通じて,他社サーバ情報を操作卓(サーバ)に通 知する.  操作卓(サーバ)は,計測情報および監視情報から制御対象情報を作成し,他社 I/F サーバを通じて,他社サーバに送信する. 実システムでは,故障を漏れなく洗い出し,対策を検討する FMEA を適用し,結果 を FMEA ワークシートにまとめることが行われている.しかし,次のように障害対策 の網羅性を欠いていた.  故障には至らないが早期に対策を施すべき機能劣化障害が,障害対策資料上漏れ ていた.  故障ではない誤操作などのヒューマンエラーが,障害対策上漏れていた. なお,機能劣化障害は本論文において,次のように定義する.  完全に機能停止を行わずに,機能を停止した状態と,機能している状態を遷移す る現象となる障害.HDD などで,リードエラーが発生し始める状態など.  同じ機能を有する n 個の構成要素のうち,1つ以上,n 個未満の構成要素が機能 停止している状態となり,結果的に,機能の一部を失う障害.マルチプロセッサ であるところの 2 つの CPU を備えるサーバで,1 つの CPU がダウンしている状 態など.この例は,マルチプロセッサであるところの CPU が,アプリケーショ ンが作成するプロセスを同時並列に処理する機能を喪失している例である.. 表 2 FMEA ワークシート アイテム. 故障. 原因. 影響. 障害対策. サーバ. 起動しない. 電源異常. …. …. 外部ディスク 装置. 起動しない. … 電源異常. …. 対応 手段 代 替 機 に交換. 代 替 機 に交換 … … 故 障 情 報 取 得 エ HDD 異常 代 替 機 ラー に交換 … … 書き込み,読み込 HDD 異常 代 替 機 みエラー に交換 実システムの稼働後には,障害が発生した.表 3 は,発生した障害のうち,機能劣 化障害が 10 件(SY1~SY10)および,ヒューマンエラーが 55 件(HE-1~HE-55)あったこ とを示している.これらの障害は,FMEA を用いた事前の検討から漏れていた. 表 3 障害履歴 障害 番号 SY-1. 検出者. 現象. 運用者. SY-10. 運用者. HE-1. 運用者. HE-55. 運用者. 通 信 リ ト ラ イ 多 発 に よ る スイッチの機能劣化 応答時間性能劣化.応答が あるため,LAN 故障検出に よる切り替えが行われな い. …. ディスクが無応答になり, ディスク装置の機能劣化 書き込みプロセスがシス テムコールから返らない. なお,電源は正常である. システム停止 警告が表示されているに も関わらず,運用者が制御 対象停止操作を行った. … システム応答性能低下 運用者が LAN を誤接続し, 応答が遅くなった.. 3. 大規模 MC システムにおける障害対策の課題 大規模 MC システムである実システムにおいては,万が一障害が発生した場合,社 会に多大な影響を与える恐れがある. このため,網羅的な障害対策を要する.これに 対し,実システム導入の段階で FMEA による障害対策を検討し,それぞれの障害要因 に対して,対策を施した. 表 2 に FMEA ワークシートを示す.. 3. …. 原因. 原因個所 分類 通信機器. 外部 ディスク 装置 人間. 人間. ⓒ2009 Information Processing Society of Japan.

(4) Vol.2009-EVA-30 No.1 2009/11/16. 情報処理学会研究報告 IPSJ SIG Technical Report. 実システムにおいて,このような機能劣化障害やヒューマンエラーを考慮に入れた 障害対策を行うため,障害対策の範囲や,構成要素の分解能を適切に設定することが 課題である.. 検討. 4. CFIA および Advanced-CFIA による障害対策 一般的なクライアント-サーバシステムにおいて,障害対策の範囲や,構成要素の分 解能を適当に設定し,障害対策を検討する方法として CFIA や Advanced-CFIA がある. 「システムの構成要素(S/W,H/W,N/W)の障害を想定し,障害が業務に与える 影響の程度,大きさを評価し,障害の影響を最小化するための解決策の作成,改善を 行い,システムの可用性の向上を図る手法である」[1]CFIA は,システムを構築する 上で,検討範囲が適正であるか,およびシステムの構成要素の分解能が十分であるか どうかが分からない,という課題を持つ. Advanced-CFIA は,次のプロセスを適用することにより,障害対策の検討範囲や分 解能を適当に決定する手法である.以下に Advanced-CFIA のプロセスを引用する[1].. 検証. 修正. Advanced-CFIAマトリクスでは解決しない障害の対策 ・運用方法の改善 ・システム構築時の試験の強化 ・他システム管理者への対策の要求 ・ユーザミスへの対策. ① 検討…CFIA により,障害対策および障害検出手段を検討する. ② 検証…障害履歴に記載される障害が,検討対象のシステムでも発生することを 仮定し,その場合にも,検討ステップで決定した障害対応手段により障害が検 出できるか,障害対策が有効かを検証する. ③ 修正…検証ステップにおいて,障害検出ができなかった,あるいは障害対策が 適当ではなかった場合に,障害検出手段やコンポーネント,パーツ分割を見直 す.①~③の繰り返し適用により,検討範囲と分解能について,検証,修正が 行われた Advanced-CFIA マトリクスを作成する. ④ Advanced-CFIA マトリクスでは解決しない障害の対策…運用方法の改善などに よる障害の対策を行う. 修正の結果から,検討に戻ることを繰り返し,障害履歴により検証された障害対 応手段を得る.. 図 2 Advanced-CFIA のプロセス構成[1]. 5. 評価 CFIA および Advanced-CFIA の有効性について,実システムを用いて評価を行う. 図 1 のシステムで発生した障害履歴,特に課題である機能劣化障害とヒューマンエラ ーを取り出すと,表 3 のようになる.以下では,本障害履歴を用いて評価する. なお,比較のため,従来用いていた FMEA を用いた障害対策方式についても,評価を 行う.. 図 2 に,Advanced-CFIA のプロセス構成を示す. 機能劣化障害およびヒューマンエラーに対しても,CFIA および Advanced-CFIA が有効に対策を検討できることを仮定し,以下に CFIA とともに適用する.適用結 果について,過去に発生した障害が再発した場合に,障害を検出できるかどうかの 観点から網羅性を比較し,より多数の障害を検出できる手法がより有効であると評 価する.. 4. ⓒ2009 Information Processing Society of Japan.

(5) Vol.2009-EVA-30 No.1 2009/11/16. 情報処理学会研究報告 IPSJ SIG Technical Report 5.1 FMEA により解決する障害. CFIA は,障害対策の検討範囲や,分解能(より広い範囲であるサーバや機器類や, より狭い範囲である CPU やメモリといったデバイス,さらにはそれらを構成する素子 など)を適切に設定する点において,定まった方式はない.表 4 では,機能劣化障害 へ対応することを意図して障害対策を行った例である.なお,表 4 では,障害番号 SY-1 と SY-10 の解決のみを示している.他の障害番号 SY-2~SY-9 の障害についても 同様に,障害ケースを分類し,検知手段,対応手段を含む障害対策を設定できる. この結果,次のことが言える.  [機能劣化障害]10 件中,10 件(100%)の障害について解決しうる.  [HE]55 件中,0 件(0%)の障害について解決しうる.. FMEA により解決する障害の割合を求める. FMEA を用いて解決する障害対策は,障害履歴に記載される障害について,表 2 に おいて検討されているかどうかを照らし合わせると,次のようになる.  [機能劣化障害]10 件中,0 件(0%)の障害について解決しうる.  [HE]55 件中,0 件(0%)の障害について解決しうる. 5.2 CFIA により解決する障害. CFIA により解決する障害の割合を求める.CFIA では,システムの構成要素毎に, 障害対策を検討する.CFIA を用いて検討した障害対策は,表 4 のようになる.. なお,人間は,システムの構成要素ではないため,通常,CFIA を用いた障害対策 に含まれない.. 表 4 CFIA により解決する障害 分類. 細分類. 構成要素. 障害ケース. 影 響. 障害 対策. H/W. サーバ クライアント. 内部ディスク 装置. 無応答 (電源異常). X. …. 無応答 (電源正常). X. …. X. ….. X. …. … X. …. X. …. 解決 する 障害. 5.3 Advanced-CFIA により解決する障害. Advanced-CFIA により解決する障害の割合を求める. Advanced-CFIA において, CFIA 適用時の仮定と同様に,機能劣化障害へ対応することを意図して障害対策を行 う場合,Advacned-CFIA のプロセス①である検討の結果,CFIA の適用した結果と同様 に表 4 を得る.CFIA による障害対策と同様に,障害番号 SY-1~SY-10 を解決するこ とができた.Advanced-CFIA のプロセス②,プロセス③を実施した後,障害番号 HE-1 ~HE-55 については,運用により解決するものとし,表 5 の対策を作成することがで きる. なお,プロセス④に対する次のような障害については,該当する障害履歴はない.  システム構築時の試験の強化により解決すべき障害  他システム管理者への対策の要求により解決すべき障害  ユーザミスへの対策により解決すべき障害.なお,ここでいうユーザは,システ ムによる受益者,システムの利用者を指す.運用者は,ユーザに含まない. SY-10. … 外部ディスク 装置. 通信機器. 外部ディスク 装置. スイッチ HUB. 無応答 (電源異常) 無応答 (電源正常) 無応答 (電源異常) 故 障 に よるシステ ム応答性能劣化. SY-10.  . SY-1. …. 結果,Advanced-CFIA を用いて検討した障害対策は,次の通りである. [機能劣化障害]10 件中,10 件(100%)の障害について解決しうる. [HE]55 件中,55 件(100%)の障害について解決しうる.. … 凡例:X=重障害,空白=軽障害 解決する障害欄の番号は,表 3 の障害番号である.. 5. ⓒ2009 Information Processing Society of Japan.

(6) Vol.2009-EVA-30 No.1 2009/11/16. 情報処理学会研究報告 IPSJ SIG Technical Report. 表 6 障害対策の検討手法の適用 FMEA CFIA Advacned-CFIA 障害分類 機能劣化障害 ○ ○ ヒューマンエラー ○ 凡例:○=通常,障害対策の検討範囲に含まれる,-=通常,障害対策の検討範囲に含ま れない. 表 5 運用方法の改善により対応する障害 運用による対 応項目 ワークフロー の変更 運用マニュア ルの改訂. 内容. 解決する障害. 権限のあるものの承認がないとすすめないよう にガードをかける. … 誤接続を防止する LAN ケーブル接続時の手順, 誤接続をしてしまった場合の早期検出のための 確認手順に変更する.. HE-1. HE-55. 6. おわりに 障害発生時の社会への影響の大きいミッションクリティカルシステムでは,しかる べき障害対策を施すことが必要である.ミッションクリティカルシステムでは,FMEA などを用いて障害対策が行われている.しかし,FMEA は,機能劣化障害やヒューマ ンエラーなど,故障とは言えないが早急に検出すべきシステムの障害や,人間の操作 などにより引き起こされた障害を含めた検討が困難である.これに対し,障害履歴を 用いて,これらの障害を検討するため,Advanced-CFIA の適用を考案し,実システム への適用を行い,FMEA,CFIA との比較評価を行った. 結果は次の通りであった.. 5.4 FMEA および CFIA および Advanced-CFIA による障害対策の比較. FMEA を用いた障害対策について,実システムを用いた評価の結果,次のことが言 える.  故障とは言えない,機能劣化障害に対する障害対策検討が漏れる.  故障ではない,ヒューマンエラーに対する障害対策検討が漏れる. CFIA を用いた障害対策について,実システムを用いた評価の結果,次のことが言 える.  機能劣化障害に対して,障害対策検討を実施できる.  システムの構成要素ではない,ヒューマンエラーに対する障害対策検討が漏れ る. Advanced-CFIA を用いた障害対策について,実システムを用いた評価の結果,表 6 に示すように,次のことが言える.  機能劣化障害に対して,障害対策検討を実施できる.  ヒューマンエラーに対する障害対策検討を実施できる. すなわち,本事例において,次のことが言える.  Advanced-CFIA による障害対策検討は,FMEA による障害対策検討と比較し, 検討範囲が広い.  Advanced-CFIA による障害対策検討は,FMEA による障害対策検討と比較し, 分解能は等しい.  Advanced-CFIA による障害対策検討は,CFIA による障害対策検討に比べ,検討 範囲が広い.  Advanced-CFIA による障害対策検討は,CFIA による障害対策検討と比較し,分 解能は等しい.. . Advanced-CFIA による障害対策検討は,FMEA による障害対策検討に比べ,次の 障害に対する検討範囲が広い.  機能劣化障害  ヒューマンエラー  Advanced-CFIA による障害対策検討は,CFIA による障害対策検討に比べ,次の 障害に対する検討範囲が広い.  ヒューマンエラー 以上により,Advanced-CFIA は,ミッションクリティカルシステムにおいて,障害 履歴に記載される障害について,対策を講じることができるといえる. Advanced-CFIA の課題は,個々の障害に対する具体的な対策をどのように決定する かである.今後は,様々な障害ケースについて,対策を検討する.また,業務の異な るシステムへの適用を行い,障害ケースの収集を行う.. 参考文献 1) 2). 6. 情報処理学会研究報告,2008-EVA-27,Vol.2008,No.2,pp.7-12(2008) ソフトウェア品質知識体系ガイド-SQuBOK Guide-, SQuBOK 策定部会,2007.. ⓒ2009 Information Processing Society of Japan.

(7)

表 5 運用方法の改善により対応する障害  運用による対 応項目  内容 解決する障害 ワークフロー の変更 権限のあるものの承認がないとすすめないようにガードをかける. HE-1  …  運用マニュア ルの改訂  誤接続を防止する LAN ケーブル接続時の手順,誤接続をしてしまった場合の早期検出のための 確認手順に変更する.  HE-55

参照

関連したドキュメント

国民の「知る自由」を保障し、

また適切な音量で音が聞 こえる音響設備を常設設 備として備えている なお、常設設備の効果が適 切に得られない場合、クラ

口腔の持つ,種々の働き ( 機能)が障害された場 合,これらの働きがより健全に機能するよう手当

わが国の障害者雇用制度は、1960(昭和 35)年に身体障害者を対象とした「身体障害

データベースには,1900 年以降に発生した 2 万 2 千件以上の世界中の大規模災 害の情報がある

既存の精神障害者通所施設の適応は、摂食障害者の繊細な感受性と病理の複雑さから通 所を継続することが難しくなることが多く、

汚染水の構外への漏えいおよび漏えいの可能性が ある場合・湯気によるモニタリングポストへの影

関係会社の投融資の評価の際には、会社は業績が悪化