提案手法

１．はじめに

1.3 提案手法

本節では，大規模分散処理システムにおける検証（システム検証）において，「計画」，「テストケース生成」および「テスト環境の開発」のアクティビティで発生した課題を解決する提案手法について，それぞれ概要を述べる．

1.3.1 計画アクティビティにおける提案手法

計画のアクティビティにおいて，大規模分散処理システムの検証では，1.2 節に示したように 3 点の課題「大量な検証データの早期データ準備」（課題 1），「検証実施時間の見積もり精度向上」

（課題 2），「効率的にバグ摘出するマシン台数分割による検証実施」（課題 3）を取り上げる．これらの課題に対する対策として，それぞれ「I/O デバイスをチューニングした高速データ登録手法」（手法 1），「大量データ観点の事前検証による見積もり精度向上手法」（手法 2），および「検証マシン台数分割と段階的検証による検証実施手法」（手法 3）を提案する．これら 3 つの手法を適用することにより，検証期間の削減ができ，課題を解決できる．

手法 1 の「I/O デバイスをチューニングした高速データ登録手法」は，事前に実施する大量データ蓄積を加速するための検証データの登録が，安定的かつ高速に登録ができない問題を解決する．データ書き込みの性能要件は要求仕様で規定されている．システムはその要件のとおりに作られているため，運用時の環境におけるデータ登録は，最速でもその性能要件で必要な時間を要する．性能要件を超える高速なデータ登録は，ネットワーク I/O に起因する高速登録のボトルネックと，

ディスク I/O に起因し処理が集中することにより，性能が不安定になるため不可能であった．事前に実施するデータ登録は，検証準備において一時的に必要な処理である．そのため，プロダクトのプログラム修正と比べ，一時的なデータ登録後に元に戻すことが容易なパラメータ設定の変更による I/O チューニングの手法が望ましい．パラメータ設定は，ボトルネックとなる I/O のネットワーク I/O とディスク I/O に着目して，段階的な調整を行いながら最適なチューニング値を見つける．チューニングはシステムのログやネットワーク監視の結果や性能値を確認して，性能劣化が生じないように実施する．提案する解決手法では， (1)ネットワーク I/O のチューニングは TCP バッファのサイズを 1.5 倍に変更する，(2)ディスク I/O のチューニングはデータ登録時にバッファリングされたデータが，ディスクに書き出される処理を同一時刻ではなくランダム化し，負荷分散させる．

手法 2 の「大量データ観点の事前検証による見積もり精度向上手法」は，見積もりの精度が低いため，見積もられた検証実施時間と実際の検証実施時間が大きく乖離してしまう問題を解決する．

特に大量にデータがあり，ディスクアクセス時間や処理時間がかかる検証項目は，机上で計算されたものと乖離する．具体的な検証項目の例として，大量データの書き込み／読み出し項目や，データのリカバリの項目は，従来の情報システムにおける見積もりでは，精度の高い見積もりを行うことができない．この問題を解決するために，大量にデータを使用する検証項目に着目する．これらの項目は，項目全体の約 1/3 程度の項目数を占めており，スケジュール全体に影響を与える．これらの項目から項目数を絞って事前検証を行い，検証時間から見積もりを行う方法で課題を解決

する．検証項目数の絞り方は，類似の項目が 2 項目以上ある場合，そのうちの 1 項目を検証項目とする．そして，その検証項目をスケジュール作成時に事前に検証を実施する．提案する解決手法では，大量にデータを使用する項目で，複数項目ある中から代表とした 1 項目については，スケジュール作成時に事前の検証を実施し，大量にデータを使用しない項目は，従来の見積もり手法とする．

手法 3 の「検証マシン台数分割と段階的検証による検証手法」は，発生した問題の解析と対処を効率化するため，サービスイン時のマシン台数が利用可能なシステム検証において，どのようにマシン台数を複数に分けて検証環境にするのかと，どのように検証環境を検証項目に割り当て検証を実施するかの問題を解決する．従来の情報システムにおけるシステム検証では，検証項目に運用条件である運用時のマシン台数を割り当てる．大規模分散処理システムの検証で，従来のように検証項目に運用時の最大のマシン台数を割り当てると，余分なマシンはないため検証と並行してマシンを使った問題の解析はできない．そうすると，発生した問題の解析時には，検証を止める必要があり，その間は検証の進捗がなく時間を要してしまうことになる．検証項目に運用時の最大のマシン台数を割り当てるのは，システム検証を運用時のマシン台数で検証するという前提だけではなく，バグを効率的に摘出するマシンの分割の仕方と，検証項目への割り当て方法が分からないからである．検証環境として商用のマシン台数しか持たない場合，提案する解決手法では，検証マシン台数の分割と，マシン台数が少ないものから多いものまで数段階の検証環境を検証項目に応じて割り当てて検証を実施する．

以上のように計画のアクティビティでは，上記 3 つの解決手法を適用することで，検証期間の削減ができ，課題を解決できる．その結果，事前にリスクを軽減し，精度のよい見積もりで計画したスケジュールで検証することができる．これらの課題と解決手法については，本論文の 3 章において詳述する．

1.3.2 テストケース生成アクティビティにおける提案手法

テストケース生成のアクティビティにおいて，1.2 節に示したように 1 点の課題「大量な検証項目の項目削減と期間内の検証完了」（課題 4）を取り上げる．この課題の対策として「システム特徴と問題発生傾向による項目削減と重要度による期間内検証手法」を提案する．この手法を適用することにより，検証精度と検証期間とのトレードオフのコントロールができ，課題を解決できる．

手法 4 の「システム特徴と問題発生傾向による項目削減と重要度による期間内検証手法」は，検証する項目数が多く，その全てを検証期間内に実施できない問題を解決する．従来の情報システムにおけるシステム検証では，検証条件を利用して精査する同値分析や境界値分析等により，項目数の絞り込みを行う．しかし，大規模分散処理システムの検証においては，網羅的に抽出する検証項目数が膨大な量になるため，従来の情報システムにおける方法では検証期間内に実施可能な項目数にまで削減することができない．この問題を解決するために，網羅的な項目を検証するのではなく，検証項目の重要度を決め，重要度に合わせた項目数で期間内に検証する「システム特徴と問題発生傾向による項目削減と重要度による期間内検証手法」を適用する．具体的には，

(1)検証観点を大規模分散処理システムの特徴である「資源効率性」，「障害許容性」，「回復性」を評価する．そして，(2)検証で摘出された問題を項目にフィードバックする．これら重要な観点以外で重要度の低い，運用では利用しない処理の項目を削減し，計画した期間で重要度の順に検証する．

以上のようにテストケース生成のアクティビティでは，上記の手法を適用することで，検証精度と検証期間とのトレードオフのコントロールができ，課題を解決できる．その結果，品質を確保したまま効率的な検証と期間内での検証を完了することができる．上記の課題と解決手法については，

本論文の 4 章において詳述する．

1.3.3 テスト環境の開発アクティビティにおける提案手法

テスト環境の開発アクティビティにおいて，1.2 節に示した 2 点の課題「性能確認や機能確認の効率化」（課題 5），「故障検知と故障対応の迅速化」（課題 6）を取り上げる．これらの課題の対策としてそれぞれ「データ生成とログの出力を組み込んだテストドライバ（TP）の作成手法」（手法 5），

「予備機の入れ替えと監視ツールによる検証環境の正常化手法」（手法 6）を提案する．この解決手法を適用することにより，検証期間の削減ができ，課題を解決できる．

手法 5 の「データ生成とログの出力を組み込んだテストドライバ（TP）の作成手法」は，数百台規模のマシン環境を利用し，分散されているプログラムの性能を計測する際に，検証条件の変更や結果の集計のための機能を決定する．OSS で利用可能な大規模分散処理システム向けのベンチマークツールは，性能を比較する機能はあるものの機能確認や問題解析の機能は含まれていない．そのため，機能確認や問題解析の検証で必要となる，書き込むデータと書き込まれたデータの整合性の確認や，データサイズの変更などデータの条件を細かく変化させた測定ができない．この問題を解決するために提案する手法では，独自ベンチマークツールである TP で，AP の処理を模擬しプログラムの機能とデータの読み書きの性能を確認するために，(1)複数台の TP を集中制御，

(2)書き込みデータの内容をパラメータで任意に変更，(3)スループットの計測やデータ内容を確認という 3 つの仕組みをツールに具備する．(1)は，TP の数が数百に及ぶ場合には一つ一つ手作業で起動や管理することは時間がかかるため，起動や停止を集中管理するコントロールサーバ上の TP の一括起動停止ツールを動作させる．これにより，各 TP を一括管理し，設定変更もコントロールサーバで実施する．また，AP の処理と同じに書き込みや読み出しの TP の起動や終了タイミングを合わせることで，AP の模擬が可能となる．(2)は，データの内容を固定ではなく変更できることにより，

圧縮率などデータの内容によるシステムの性能への影響を確認する．また AP のデータ内容を模擬することで，実際のシステムを模擬した機能確認が可能となる．(3)は，各 TP のログから結果を集計する仕組みを持ち，数百台規模のマシンから時刻を合わせて集計した結果を一箇所で確認する．

手法 6 の「予備機の入れ替えと監視ツールによる検証環境の正常化手法」は，数百台のマシンの故障を検知して検証に影響を与えないよう回復するという問題を解決する．従来の情報システムにおける故障検知と故障対応は，数百台規模の検証環境では故障の頻度が高いにも関わらず，リ

ドキュメント内大規模分散処理システムの検証の効率化に関する研究 (ページ 32-36)

１． はじめに

1.3 提案手法

１．はじめに