テスト工程完了評価関連標準類の見直し - a SYSTEM BENCHMARK - 統計指標に基づくベンチマーキングによる信頼性・生産性向上へのアプローチ

a SYSTEM BENCHMARK

4.2 テスト工程完了評価関連標準類の見直し

97 (1) 目的

ベンチマーク中に「テスト完了評価方法に関する知見」が有れば、

自組織の現状と対比しながら必要に応じて、品質マネジメントのテスト工程完了評価関連の標準類に反映することを検討する。

（備考）

ベンチマーク中の「テスト完了評価方法に関する知見」は、ポストプロセス計測データ（完了プロジェクト群の実績データ）を用いた評価方法であって、インプロセス計測データを用いたリアルタイムな評価方法ではない。

（インプロセス計測データを用いた評価方法については、必要に応じて「定量的品質予測のススメ」及び「続定量的品質予測のススメ」

を参照されたい。）

4.2 テスト工程完了評価関連標準類の見直し

（つづき）

98

（参考）テスト完了評価方法について

一般に、テスト完了評価方法では、インプロセス計測データに基づく評価基準を含めた複数の評価基準から成る総合評価方式を採っている。（各評価基準は総合評価における必要条件の一つ一つに相当する。）例えば、次のような評価基準から成る。

①前提として、テスト関連文書がテスト関連標準類に沿って作成され、それらのレビューが実施されていること。かつ、レビューコメントの処置が完了していること。

②前提として、テスト密度（テストケース数÷開発規模）が基準値を満足していること。

③前提として、未テスト項目、未修正項目が残っていないこと。

④テスト密度とテスト検出不具合密度（テスト検出不具合数÷開発規模）との関係、あるいはテストケース数とテスト検出不具合数との関係等が、管理基準を満足していること。

⑤障害／誤り件数の推移に、収束傾向が認められること。（インプロセス計測データ使用）

⑥障害内容（障害の重大度、障害の発生条件）の推移に、収束傾向が認められること。

（インプロセス計測データ使用）

⑦障害／誤り件数の推移から予測した残存誤り密度が信頼性目標を満足するものであること。（インプロセス計測データ使用）

ベンチマーク中の「テスト完了評価方法に関する知見」は、主に上記の④に該当する。また、

開発組織のマネジャー層や

PMO

及び品質マネジメント推進部門が、ポストプロセス計測データから簡便にテスト完了評価する方法に関するものと言える。

4.2 テスト工程完了評価関連標準類の見直し

（つづき）

99 (2) ベンチマーク

①ゾーン分析に関するテスト完了評価方法の知見

テスト密度が高くてテスト検出不具合密度が低いのは相対的に信頼性が良い兆候の一つである。一方、テスト密度が低くてテスト検出不具合密度が高いのは相対的に信頼性が良くない兆候の一つである。

この見方をテストの評価項目の一つとして採用することをお勧めする。

4.2 テスト工程完了評価関連標準類の見直し

（つづき）

100 0.00

0.02 0.04 0.06 0.08 0.10 0.12 0.14

テスト密度低（

30.8

以下）＆

テスト検出不具合密度高（

1.60

より大）

テスト密度高（

30.8

より大）＆

テスト検出不具合密度低（

1.60

以下）

発生不具合密度

（件／

KSLOC

）

テスト密度対テスト検出不具合密度のゾーン

テスト密度対テスト検出不具合密度のゾーン別発生不具合密度（新規開発）

相対的にテスト密度が高くテスト検出不具合密度が低い集合の方が、発生不具合密度が低い（相対的に信頼性が高い）傾向が見られる。

＜相対的にテスト密度が低くテスト検出不具合密度が高い集合との比較＞

・発生不具合密度の中央値が

0.022

件に対して

0

件／KSLOC

・発生不具合密度の

P75

が

1/3.3

信頼性

高

4.2 テスト工程完了評価関連標準類の見直し

（つづき）

101 （備考）考察

「テスト密度が高くてテスト検出不具合密度が低いのは相対的に信頼性が良い（稼働後の不具合発生数が少ない）兆候の一つである」

の主な要因として、次のことが考えられる。

◇テスト密度が高いのにテスト検出不具合密度が低いものは、

テスト開始時点の出来が良い（潜在不具合の密度が低い）、

つまりいわゆる作込み品質が良いものと考えられる。

◇テスト検出不具合密度が高いものは発生不具合密度（稼働後の不具合密度）も高い傾向が見られる。また、（テスト密度が低くなくて）テスト検出不具合密度が低いものは発生不具合密度も低い傾向が見られる。つまり、テストに至るまでの良し悪しがテストによって逆転するケースは少ないと言える。信頼性を高めるには、やはり作込み品質向上を目指すことが王道であり、テストによって挽回しようという作戦の成算は薄いと考えられる。

4.2 テスト工程完了評価関連標準類の見直し

（つづき）

102 ②テスト検出能率に関するテスト完了評価方法の知見

「テスト検出能率がある一定のレベルまで低下しているか否か」を、

テストの評価項目の一つとして利用することをお勧めする。

また、追加テストの収束性評価に利用することをお勧めする。

4.2 テスト工程完了評価関連標準類の見直し

（つづき）

103 0.00

0.05 0.10 0.15 0.20 0.25

P25 （ 0.026 ）以下 P25 ～中央値（ 0.048

）中央値～

P75 （ 0.100 ） P75

より大発生不具合密度

（件／

KSLOC

）

テスト検出能率（件／ケース）

テスト検出能率と発生不具合密度の関係（新規開発）

テスト検出能率が低い方が相対的に発生不具合密度が低い

（信頼性が高い）傾向が見られる。具体的には、テスト検出能率の中央値を境にして差が見られる。特に

P25

以下での発生不具合密度が低い（信頼性が高い）傾向が顕著である。

また、ばらつきが小さい。

中央値（約

0.048

件／テストケース）以下の集合と中央値より大きい集合とでは、発生不具合密度の中央値に約

2.4

倍の開きが見られる。

4.2 テスト工程完了評価関連標準類の見直し

（つづき）

104 （備考）考察

この結果からは、テスト検出能率が

25

パーセンタイル値を目安として下回ることが望ましいと考えられる。新規開発の場合は、テスト検出能率の

25

パーセンタイル値は約

0.026

件／テストケース（これは、およそ

40

ケースのテストに対して

1

件の不具合検出に相当）。

（注）上記の結果は、テスト工程全体での累積値に基づくもの。

テスト終盤におけるテスト検出能率を評価できれば、そのテスト検出能率は上記の結果よりも低くなるはずである。

テスト終盤におけるテストの収束性を評価するシーンにおいても、

テスト検出能率による評価が有用と考えられる。

テスト検出能率がテストの進捗に連れて低下して行くということは、

潜在している（残存している）不具合が減少して行くということを意味する。テスト検出能率によってテストの収束性を評価することは、

理に適っていると考えられる。

4.2 テスト工程完了評価関連標準類の見直し

（つづき）

105 (3) ベンチマーキング方法

①自組織の現状のテスト完了評価方法を睨みながら、当方法をテスト工程完了評価関連の標準類（テスト工程完了評価基準等）

に反映（追加）すると良いかどうかを検討する。

（備考）テスト終盤での収束性評価や、追加テストの評価にも有用と考えられる。

②上記の検討結果を、品質マネジメントのテスト工程完了評価関連の標準類（テスト工程完了評価基準等）に反映する（必要に応じて追加する）。

４．プロジェクト・マネジメントの改善例

ドキュメント内統計指標に基づくベンチマーキングによる信頼性・生産性向上へのアプローチ (ページ 97-106)