手法 4 の適用結果

４．テストケース生成アクティビティの課題と解決手法

4.2 テストケース生成アクティビティの問題と具体的な課題

4.3.2 手法 4 の適用結果

20%

40%

60%

80%

100%

30台 100台 300台

その他（上）

障害許容性＆回復性（中）

資源効率性（下）

図 21. 30/100/300 台の環境の項目割合

表 16 で示した 260 項目のシステム検証の実施で得られた，信頼度成長曲線を図 22 に示す．

3.5.1 項で記述したように，信頼度成長曲線は，検証実施時間とテストにより摘出された障害の数を成長曲線にあてはめて作成する．検証が充分に実施できているかどうかは，曲線の収束値を求めて収束度合いにより判断する．図 22 では，横軸に検証実施時間を縦軸に障害の数を設定し曲線の収束値を求めた結果，収束傾向にあると判断できた．プロダクトアウト後の実運用では，運用開始後１年間の障害の数が 2 件であり，サービスが継続できない問題は発生することなく安定運用ができた．このことから，提案する観点の絞込みで網羅的な項目抽出と同等な検証が可能であることが判明した．

図 22. 表 16 の完成項目での信頼度成長曲線

表 19. 検証環境別の問題発生割合資源効率性障害許容性

＆回復性その他平均

30 台 0.000 0.083 1.000 0.105 100 台 0.071 0.132 0.000 0.094 300 台 0.062 0.042 0.000 0.036 平均 0.065 0.102 0.014 0.069

また，表 17 で示した 130 項目のシステム検証の実施で得られた，信頼度成長曲線を図 23 に示す．

信頼度成長曲線の収束値を求めた結果，収束傾向にあると判断できた．またプロダクトアウト後の実運用では，運用開始後１年間の障害の数が 1 件であり，サービスが継続できない問題は発生することなく安定運用ができた．この結果から，提案する注力すべき項目に絞った検証では，観点の絞り込みからさらに効率的に検証できることが判明した．環境別の問題発生件数では，表 19 を見ると検証１項目あたりに発生する平均問題数が 0.069 件であり，30 台・100 台では障害許容性と回復性の観点に対応する問題が平均より多く抽出できることになる．また，資源効率性についても，

100 台・300 台環境で平均程度の問題数を抽出できる．これは，狙い通りに効率良く検証が実施できることを示している．一方，その他の観点では，ログの設定の問題摘出のみであったことから，システム検証における重要性は低い．以降に適用した手法の考察を示す．

図 23. 表 17 の完成項目での信頼度成長曲線

解決手法「システム特徴と問題発生傾向による項目削減と重要度による期間内検証手法」（手法 4）について，以下の

 システムの特徴に基づく削減手法（「資源効率性」/「障害許容性」/「回復性」の観点による検証）

 問題の要因分析に基づく削減手法（問題分析による検証項目へのフィードバック）

 手法の適用方法

 適用可能な領域の観点で考察する．

 システムの特徴に基づく削減手法（「資源効率性」/「障害許容性」/「回復性」の観点による検証）の考え方を以下に示す．テストケース生成のアクティビティにおいては，検証項目を作成するため，重要とする検証観点を抽出する必要がある．検証観点は，JIS X 0129-1(ISO9126-1)で示された品質特性の中からシステムの特徴と対応する検証観点を抽出する必要がある．具体的には大規模分散処理システムの場合， 2.2 節で述べたとおり，大規模分散処理システムの特徴である「スケールアウト性」と「耐障害性」を検証する内容が含まれるべきである．以下に各特徴に対する検証観点を述べる．

「スケールアウト性」の検証観点としては，「資源効率性」が主要な品質特性である．その理由は，システムを構成する多数のサーバ上では，要求されるデータ量や処理量が均等に分散することでスケーラブルに適応することから，「資源効率性」としてシステムの構成上で処理の集中する箇所がボトルネックになっていないかを検証し，リソース全体を効率的に利用して所望の性能が得られるか否かを検証するからである．特に，データの蓄積量の増加に伴って，サーバの台数を増やした際に，それに応じた処理性能の向上が得られるか否かの検証を行う必要がある．

「耐障害性」の検証観点としては，「障害許容性」，「回復性」が主要観点である．その理由は，

システムが動作するサーバやネットワークが故障した際には，システム全体が正常に機能を提供し続けるという，「障害許容性」を検証する必要があるからである．つまり，一部のサーバやネットワークが故障で機能しなくなった際に，システム全体として，正常に機能を提供し続けることを確認する検証を行うことがポイントとなる．ただし，システムの基幹となる役割を担うマシンが故障を受けた場合には，スタンバイ中のサーバが機能を有効にするまでの間，短期間ではあるが，

サービスが停止することを考慮する必要がある．一方，「回復性」の検証としては，上記の場合において，サービスが停止する期間，サーバの役割が切り替わる時間，さらには，これらの機能が正しく動作するかなどの検証を行う必要がある．

運用時のシステムの処理を確認して検証項目を作成し，縦軸を検証項目の大項目とし，横軸を JIS X 0129-1(ISO9126-1)で示された品質特性とした表に分類した．その結果，従来のシステム検証における分類の表 20 と異なり，大規模分散処理システムの分類は，表 21 の分類と

なった．◎や○の付いている欄は，ユースケースとしてシステムが必ず動作する観点であり，△

の付いている欄は，ユースケースとして特定のパターンでのみ動作する観点である．◎はシステムの特徴に基づく観点であり，重点化する項目である．機能を確認する検証項目は，機能の正常性，準正常，復旧障害および性能・高負荷の項目を網羅的に作成している．その上で，必ず動作する処理の検証項目は網羅的な項目の作成とし，特定のパターンでのみ動作する処理の検証項目は必要な項目だけとした．その結果，精査した後の項目数は，項目を網羅的に抽出した場合の半数以下となった．

表 20. 従来のシステム検証における検証項目抽出

機能性信頼性使用性効率性保守性移植性正常系・

準正常系 ○ ○ ○ ○ ○ ○

障害復旧 ○ ○ ○ ○ ○ ○

性能・

高負荷 ○ ○ ○ ○ ○ ○

長期安定 ○ ○ ○ ○ ○ ○

表 21. 大規模分散処理システムにおける検証項目抽出

機能性信頼性使用性効率性保守性移植性正常系・

準正常系 ○ △ △ △ △ △

障害復旧 △ ◎ ○ △ ○ △

性能・

高負荷 △ △ △ ◎ △ △

長期安定 △ ◎ ○ △ ○ △

 問題の要因分析に基づく削減手法（問題分析による検証項目へのフィードバック）の考え方を以下に示す．問題の要因分析に基づく削減手法は，検証により発生した問題の検証項目へのフィードバックにより実現する．発生した問題の検証項目へのフィードバックは，実際に検証で発生した問題に関して要因を分析し，その問題が抽出可能となる検証項目を作成し，元の検証項目に反映するということである．前述した「資源効率性」/「障害許容性」/「回復性」の観点による検証実施によって抽出できた問題を表 22 に示す．ここでは，問題発生要因を分析し，その分析結果から検証項目を精査する方法について示す．

表 22. 抽出した具体的問題

サービスの不具合抽出した問題

正常に動作しないマシン不具合

上位 AP が停止通信途絶時のリカバリ不具合による管理情報の欠如

登録のスループットが低下分割の閾値が大きすぎた

サーバの切り替えが突然発生サーバ側での旧接続に関する後処理の抜け圧縮の処理のタイムアウトが発生ログレベルの設定誤り

登録のスループットが低下通信途絶時でのデッドロック登録したデータが見つからないデッドロック

復旧処理時にデータが破損他の管理情報の混在による影響

サーバ追加ができない復旧処理の改修漏れ

登録のスループット低下ロック取得による処理遅延

サーバ追加ができない古いセッション管理情報を使ってしまっているサーバの切り替わりが突然発生リソース不足による切り替わり発生

収集したデータが見つからない通信ディスクリプタのマップからの削除漏れ障害復旧の処理が完了しない要求処理の滞留

上位 AP が停止リカバリが完了する前にクローラーのリトライアウト障害復旧できずにプロセス停止差分データが大きい場合の処理不具合

上位 AP が停止 MapReduce でのタイマとの差異障害復旧の処理が完了しないロック期間の調整不足

上位 AP が停止システムコール不具合

障害復旧の処理が完了しないハーフオープンされた File Description 処理の考慮漏れ

表 23. 発生した問題の主な要因

検証観点要因分類要因の概要

資源効率性

1. 処理集中・大量データを分散させる閾値誤りによる処理集中 2. 排他処理・異なるデータ処理の競合

・通信処理でのデッドロック 3. リソース設定・リソース設定誤り

障害許容性

1. 大規模障害・大規模障害による処理遅延 2. 障害復旧タイミング・接続情報のキャッシュ削除漏れ

・複製データへのアクセスタイミングの考慮漏れ 3. 障害復旧パターン・通信障害パターン考慮漏れ

・旧接続のリンク切り漏れ

・想定外の戻り値に起因するリトライ動作誤り 4. OS ・システムコールの動作不良

回復性 1. キャッシュ・キャッシュの削除漏れ

発生した問題に関して要因の分析を実施した結果を表 23 に示す．以降では，各要因について詳細を述べた後に，分析について述べる．

(1) 要因分類①-1 処理集中（資源効率性）

アクセス集中の問題では，分散テーブルのマスタが処理を担当するワーカを決定し，その情報をテーブルの META に保持するが，その META へアクセス集中が見られた．META は，データ量・

サーバ台数の増大で応答が遅くなるため，あるデータ量の閾値で分散する必要がある．しかし，

検証で設定した閾値ではアクセスを分散する前に応答が遅くなり，アクセスが集中した状態が継続してしまった．

(2) 要因分類①-2 排他処理（資源効率性）

大量データ処理との競合の問題では，分散ファイルのバックグラウンド処理であるデータの圧縮処理と書き込みとの競合が発生した．この場合，データ量が多いほど圧縮する時間も長くなり，

競合の発生時間も長くなっていた．

一方，通信処理におけるデッドロックの問題では，分散テーブルへのリクエストが強制切断された際にファイルを削除するため，書き込みとのデッドロックが発生した．問題の発生はタイミング依存であった．

(3) 要因分類①-3 リソース設定（資源効率性）

リソース設定誤りの問題では，長期運転中に分散ロックでメモリプールサイズの不足が発生した．

(4) 要因分類②-1 大規模障害（障害許容性）

大規模障害による処理遅延の問題では，多数のワーカのダウンが原因で，分散ファイルマスタの管理情報からダウンしたワーカ情報の削除が遅れた．そのため，マスタからダウンしたワーカ

ドキュメント内大規模分散処理システムの検証の効率化に関する研究 (ページ 91-103)

４． テストケース生成アクティビティの課題と解決手法

4.2 テストケース生成アクティビティの問題と具体的な課題

4.3.2 手法 4 の適用結果

４．テストケース生成アクティビティの課題と解決手法