30
31
表5.2 教訓集から抽出した設計知識(1/6)
※分類タグ1:設定必須 分類タグ2:設定必須
分類タグ3:装置・デバイスの横串情報が不要な場合に空白としている。
分類タグ4:プロセス要因を強調したい場合のみ設定。通常は空白にしている。
(分類タグ1) 機能・処理
(分類タグ2.1) キーワード
“何が”
(分類タグ2.2) キーワード
“どうなる”
(分類タグ3) 装置・デバイス
(分類タグ3.1) 装置・デバイス
(分類タグ4) 混入プロセス
(分類タグ4.1) 混入プロセス
〔障害を引き起こ す機能・処理〕
〔考慮漏れし易い 設計視点・観点〕
1 起動処理 異常終了後の起動処理 起動失敗 業務システム 店舗用窓口システム 業務システムの起動処理 前回異常終了していた場合のリカバ
リ処理
2 起動処理 異常終了後の起動処理 起動失敗 (システム異常発生時の)起動・終了
シーケンス
直前にシステム異 常終了したことを 考慮したシステム 起動シーケンス設 計
3 集計処理 バッチ処理 再起動失敗 業務システム 店舗用窓口システム バッチ処理
バッチ処理シーケ ンスが異常終了し た後のリカバリ処 理
4 監視処理 故障検出能力向上 誤検知 センサー 故障検知センサー 設計 変更設計 故障検知センサー
センサーの感度を 必要以上にアップ させると、システム の信頼性を低下さ せる
5 定周期処理 定周期処理 処理時間の
超過 クリティカルな定周
期処理
変更設計によっ て、定周期に起動 されるメインルーチ ンのWCET(最悪実 行時間)が増加す る可能性があるこ と。また、メイン ルーチンの処理時 間に影響を与える 割り込みルーチン のWCET。
① ②
① ②
32
〔発生契機〕 〔発生し得る障害内容〕 〔発生メカニズム〕 〔対策〕
システムの異常終 了
業務システムが正常に立ち 上がらない。
前日の業務処理で集計データをサーバに送信中に バッチ処理が強制終了され、データ送信処理が未 完了のまま終了した。
このような事態を考慮せず業務システムを設計し ていたため、業務システムを再起動した際データ再 送などのリカバリ処理が行われず、システムが正常 に立ち上がらなかった。
起動処理には前回異常終 了を想定したリカバリ処理 を組み込む。 教訓15
RAID故障
システムが起動したが、シ ステム異常が解消されず、
正常動作できない状態にな る。
システム終了時の正常・異常情報を、RAIDに格納 した、起動・終了シーケンスを組んでいたが、RAID 故障で情報が喪失する場面を想定していなかっ た。
直前のシステム終了状態 を不揮発メモリに残すな ど、確実に確認できるよう な起動・終了シーケンスに する。
教訓21
バッチ処理の強制 終了
バッチ処理が再起動できな い。
前日の業務処理で集計データをサーバに送信中に バッチ処理が強制終了され、データ送信処理が未 完了のまま終了した。
このような事態を考慮せず業務システムを設計し ていたため、業務システムを再起動した際データ再 送などのリカバリ処理が行われず、システムが正常 に立ち上がらなかった。
起動処理には前回異常終 了を想定したリカバリ処理 を組み込む。 教訓15
ノイズ
信頼性向上のために故障 検知センサー感度を上げて しまったら、無視しても問題 のないノイズまで検出してし まい、障害発生とみなしてし まった。
システムの機構部分の改造に伴いノイズの発生頻 度が増えたように感じたため、信頼性向上が必要 と判断し、故障検知センサーの感度をアップさせ た。その際、故障発生確率の算出と故障発生時の 影響の定量評価を行わず、設計者個人の判断で改 造作業を行っていた。ノイズを検出した場合、故障 と判断するかどうかのロジックが組み込まれていた が、不十分であったため、無視しても問題のないノ イズを故障と判断してしまい障害とみなされてし まった。
故障検知センサーの感度 アップは、故障発生確率と 影響の定量評価に基づい て行う。
教訓20
動作シーケンスの 組合せバリエーショ ンの増大化、変化
変更設計により、動作シー ケンスのWCETが伸びてし まうと、制御信号の発出タイ ミングやセンサー情報の読 み取りタイミングにずれが生 じる。その結果システムの 不安定動作を引き起こす。
タイマー割り込みにより5ms定周期で起動されるメ インルーチンの中で、他の割り込み処理を受け付け ながら、5ms以内に処理シーケンスを終了する必要 があるが、変更設計により、処理シーケンスの WCET(最悪実行時間)が5msを超過してしまう非常 に稀なケースが発生した。
・定周期に起動されるメイ ンルーチンのWCET(最悪 実行時間)の見積もりを行 い増減を確認する。
・更に遅延を引き起こす割 り込みルーチンの変数組 合せバリエーションを考慮 したWCETの増減を確認 する。
・メインルーチンと割り込 みルーチンに共有変数が ある場合は割り込み干渉 の影響も確認する(相互 排他問題)。
教訓22
③ ④ ⑤ ⑥
③ ④ ⑤ ⑥
33
表5.2 教訓集から抽出した設計知識(2/6)
(分類タグ1) 機能・処理
(分類タグ2.1) キーワード
“何が”
(分類タグ2.2) キーワード
“どうなる”
(分類タグ3) 装置・デバイス
(分類タグ3.1) 装置・デバイス
(分類タグ4) 混入プロセス
(分類タグ4.1) 混入プロセス
〔障害を引き起こ す機能・処理〕
〔考慮漏れし易い 設計視点・観点〕
6 判定処理 入場判定処理 入場可否判定不能 入退出ゲート管理シス
テム
電子通行証の記録 と施設状態を照合 して入場判定する 入退出ゲートの判 定処理
複雑化した判定条 件の組合せパター ンは、抜け漏れが 起こり易く、類似ト ラブル防止のため の知識が蓄積され ていること
7 判定処理 判定処理 ユーザ判断ミス誘発 検査システム
歩留まりの ある量産製 品の検査装 置
検査システムにお ける異常状態の仕 様検討
ユーザ視点による 異常状態の洗い出 し
8 判定処理 判定処理 ユーザ判断ミス誘発 検査システム
歩留まりの ある量産製 品の検査装 置
検査結果表示の ユーザインタフェー ス
良品率100%の検 査結果の場合に検 査結果判定者はど のように感じるか のユーザエクスペ リエンス
9 保守機能 ログ収集 データ消失 保守用処理の実装
保守用処理など顧 客要求に直接かか わらない機能が異 常になった場合の 影響の確認
10 保守機能 ログ収集 I/O性能低下 業務システム サーバーシステム ログファイル
DISK上のファイル の断片化を考慮し ないとI/O負荷が 高騰する
① ②
① ②
34
〔発生契機〕 〔発生し得る障害内容〕 〔発生メカニズム〕 〔対策〕
セキュリティ強化の ための入退出詳細 記録と判定条件の 組合せパターンの 増大化
複数施設に入場するために 施設毎の入退出ゲートを通 行する際、ある施設の入場 可否判定が不能になり異常 終了した。その結果システ ム全体が異常となり使用で きなくなった。
入退室ゲートで利用者の通行証の入場可否を判定 する処理で本来考慮すべき入場判定条件の一部 が抜けていた。
これにより入場不可とすべき通行証を入場可とし て処理を進めたため、正常なデータ処理ができず 入場判定処理が異常終了、それを契機に入退出 ゲート管理システムが停止した。
・判定条件に抜けがない ように、不変条件を論理式 で記述するなど形式手法 の適用を検討する。
・過去の知識を蓄積・活用 するために、判定条件を 文書化するとともに蓄積さ れた知識を活用・確認す る場を設ける。
教訓17
検査システムにお ける異常状態の判 定
検査システムが異常のまま 検査を継続する。
【本ケースでは、全て良品と して検査を継続し、後に全 量再検査となった】
全てが不良品の場合にはシステム異常としていた が、全てが良品の場合にもシステム異常としなけ ればならないユーザ視点が抜けた案件。
本例の半導体検査では、通常一定の割合で良品
/不良品と判定されるため、全て良品あるいは全 て不良品となる場合は、検査システムが異常であ ることが多く、通常システムの確認が必要になる。
全不良、全良品発生時の 検査システムの振る舞い を仕様に明記する。
教訓12
メンテナンスモード の設定
検査結果をマスクして、意 図的に不良を検出させない メンテナンスモードの設定に 気づかず、良品率100%の 検査結果を正常と判定した まま検査を継続してしまい、
後に全量再検査となる。
全てが不良品の場合にはシステム異常としていた が、全てが良品の場合にもシステム異常としなけ ればならないユーザ視点が抜けた案件。
本例の半導体検査では、通常一定の割合で良品
/不良品と判定されるため、全て良品あるいは全 て不良品となる場合は、検査システムが異常であ ることが多く、通常システムの確認が必要になる。
全不良、全良品発生時の 検査システムの振る舞い を仕様に明記する。
教訓12
異常時のログデー タ出力
保守用処理の影響で業務 処理が異常終了し、業務が 停止する。
ある製品製造工程管理システムでは工程ごとの作 業情報をログデータとして集計し次の工程以降で 利用しているが、正常時と異常時のログデータを区 別なく同じファイルに書き込んでいたため、異常発 生時に正常時のデータが失われてしまった。
異常時のログデータ出力処理は、仕様書に明記 されておらず影響評価も実施されていなかった。
保守用処理も仕様書を作 成し、影響評価を実施す
る。 教訓16
保守ログ採取 ログファイル採取時によりシ ステムがスローダウンする。
日毎に作成し一定期間保持する可変長のログファ イルが作成・削除を繰り返すことによりDISK上で 徐々に断片化し、ログ採取時にDISK負荷高騰を発 生させてオンラインプロセスが待たされた。
一日分のログファイルと保 存用のログファイルパー テーションを分離し断片化 を発生させにくいようにし た。
教訓18
③ ④ ⑤ ⑥
③ ④ ⑤ ⑥