• 検索結果がありません。

PCセンサデータマイニングによるHDD故障予兆検出

N/A
N/A
Protected

Academic year: 2021

シェア "PCセンサデータマイニングによるHDD故障予兆検出"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第 75 回全国大会. 2B-4. PCセンサデータマイニングによるHDD故障予兆検出 中津川 実. 西川 武一郎. (株)東芝 研究開発センター. 1.はじめに HDD の故障予兆は検出可能か ハードディスクドライブ(HDD)が故障すると、重要 なデータが失われてしまう。バックアップの実施や RAID 構築により、データ損失リスクを軽減することは 可能である。しかし、バックアップをほとんど実施しな いユーザは、多く存在していると言われている。データ 損失を未然に防止するためには、HDD の状態を監視し て故障の予兆を検出し、ユーザに注意喚起することが重 要である。 HDD に は S.M.A.R.T. (Self-Monitoring, Analysis and Reporting Technology) と呼ばれる、障害の早期発見・故 障の予測を目的とした機能が搭載されている。Pinheiro ら[1] は、Google 社のサーバーの大量の HDD を対象に、 S.M.A.R.T.の各項目の値と HDD 故障との関係についての 調査を行い、いくつかの S.M.A.R.T.項目でエラーが発生 した場合は、その後の故障率が有意に高くなることを示 した。また少数の HDD のデータで故障予兆モデルを構 築した例として Hamerly[2]、Murray [3]の研究がある。し かし、多数のノート PC での分析事例は我々の知る限り 存在しない。本稿では、ノート PC に搭載されている HDD の稼動情報と修理情報を大量に収集して、データ マイニングにより HDD 故障予兆検出モデルを構築した 研究開発事例について述べる。そして、HDD の故障予 兆を高精度で検出可能であることを示す。. 図1. 東芝 PC ヘルスモニタ 時間. 正常稼動. 故障予兆検出. 故障. 修理受付. センサデータ ログデータ. 図2. 故障箇所特定. 修理履歴 データ. センサ・ログデータと修理データの関係. 30 25 20 15 10. 2.HDD 故障予兆モデル構築に用いたデータ 本章では、HDD 故障予兆検出モデルの構築に用いたデ ータについて説明する。HDD の稼動情報は「東芝 PC ヘ ルスモニタ」を用いて収集した。東芝のノート PC には、 センサ情報や各種ログ情報を活用して PC システムをモ ニタリングするソフトウェア「東芝 PC ヘルスモニタ」 が搭載されている(図 1)。ユーザの許可がある場合、 モニタリングしたデータはネットワーク経由で収集され、 データベースに蓄積される[4]。本稿執筆時点では、166 万台のデータが収集されている。本稿ではこのうち S.M.A.R.T.情報を活用した。 一方、PC 修理センターでは故障が疑われる PC を診断 して故障箇所を特定し、修理サービスを行っている。本 稿では修理履歴データを用いて、稼働中の HDD が故障 したかどうかを把握した。稼動データと修理データの関 係を、図 2 に示した。なお、Pinheiro ら[1]も指摘してい るが、HDD の故障は定義が難しい。ユーザとベンダー で故障と考える基準が異なることも指摘されている。本 稿では PC 修理センターで HDD が修理・交換された場合 を HDD 故障と見なす。 HDD failure prediction by PC sensor data mining † Minoru Nakatsugawa, Takeichiro Nishikawa, Corporate Research & Development Center, TOSHIBA. 5 0 2010/08/01. 図3. 2010/09/01. 2010/10/02. 2010/11/02. 2010/12/03. 故障 HDD の Reallocated Sector Count の時系列変化. 3.HDD 故障予兆モデル構築 特徴量計算 故障予兆を検知するうえで、徐々に劣化が進行してい る、急激に悪化した、安定している、というような時系 列変化の様子をとらえて判断することが重要である。図 3 に典型的な S.M.A.R.T.の時系列変化を示した。将来の 故障発生を予測する際の説明変数の候補として S.M.A.R.T.の時系列変化パターンの種類に応じた特徴量 を約 700 種類作成した。 故障/正常判別モデル構築 (Xi, Yi)を各ドライブのデータとする。Xi = [x1, . . . ,xNi] はドライブ i の時刻 1 から Ni までの時系列 S.M.A.R.T.デ ータ、Yi∈{0,1}はドライブ i の故障(1)・正常(0)の別であ る。HDD 一台ごとに特徴量の計算を、最新時刻 Ni にお けるデータで行う(Si としよう)。故障予兆モデルは、 Si から Yi を予測するモデルである。正常/故障(Y)の. 1-279. Copyright 2013 Information Processing Society of Japan. All Rights Reserved..

(2) 情報処理学会第 75 回全国大会. 二値判別モデルを構築するアルゴリズムとして、本稿で はブースティング(LogitBoost)を用いた。 モデル評価 図 4 は、HDD 故障予兆モデルの ROC 曲線である。縦 軸 は TP/(TP+FN) 、 横 軸 は FP/(FP+TN) で あ る 。 10-fold cross validation による評価結果を示した。故障 HDD のう ち 83.3%は故障前に予兆検出することが可能である。ま た、正常 HDD のうち 90.8%は正常と判定される。. 5.おわりに. 故障予兆あり. 故障予兆なし. 故障 HDD. true positive (TP). false negative (FN). 正常 HDD. false positive (FP). true negative (TN). 本稿では、PC センサデータの時系列変化に関する特 徴量を説明変数とし、PC 修理データを教師信号とした ブースティングによる HDD 故障予兆検出モデルの構築 を示した。これまでメーカーが提供できるサービスは、 修理センターに持ち込まれた PC の修理が中心であった。 しかし、稼動データを活用することによって、故障発生 前の情報提供など新しい価値を提供できる(図 6)。実 運用を通じて今後、提案手法のさらなる効果検証と技術 改善を行っていく。提案手法は過去の HDD のデータを 使用して性能検証を行ったものであり、新たな HDD で も同様の精度であるか、検証していく。. 1. true positive rate. 0.9 0.8 0.7. 0.6 0.5 0.4 0.3 0.2 0.1 0. 0. 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9. ここで、データ損失量は最終バックアップから故障まで の経過時間に比例すると仮定して、経過日数で表した。 さらに、詳細は講演資料に掲載するが、データ損失コス ト(データ損失量に比例すると仮定)とバックアップ実 施コスト(バックアップ実施回数に比例すると仮定)の 和を最小とするような、最適バックアップ間隔を求める ことも可能である。. 1. false positive rate. 図4. M2Mネットワーク. 稼動データ 修理データ. HDD 故障予兆モデルの ROC 曲線 データマイニングによる診断モデル構築. 異常診断モデル. 4.故障予兆検出に基づくデータバックアップ バックアップを定期的に行っていないユーザが多い理 由に、適切なバックアップ頻度がわからない、というこ とが挙げられる。バックアップの実施は PC に負荷がか かり、ユーザの手間もかかることから、なるべく少ない 方がよい。そこで、故障予兆に応じたバックアップを実 施することで、不要なバックアップの手間をかけずにデ ータ損失の削減効果が得られる。あるいは、故障予兆有 無に応じてバックアップ頻度を変更することで、データ 損失量を増やさずにバックアップ頻度を削減することが 可能である。図 4 に示したモデル精度の条件下でシミュ レーション評価を行ったところ、故障予兆発生後にバッ クアップ頻度を 毎月→毎日 に切り替えることで、毎週 バックアップ実施する場合と比較して同程度のデータ損 失量(平均 11%減)でバックアップ頻度を平均 61%削減 (52→20 回)することが可能である(図 5)。. 50. 2.5. 2.2. 2.5. 40. 2. 30. 52. 20 10. 3. 20. 半減以下. 1.5 1 0.5. 0. 0 予兆発生後にバックアップ 頻度切替 (毎月→毎日). 喪失データは何日分か (故障PC平均). 年間バックアップ回数 (全PC平均). 60. 毎週バックアップ. 確実に修理できる (現象非再現の減少). 修理の高精度化. ユーザーが故障リスクを把握 HDD LCD FLインバータ CPU Fan・冷却モジュール ACアダプター キーボード バッテリー メモリ 基板 ODD. 故障前に警告が でると安心. 異常確率. コールセンターで遠隔診断 電話では分からない情報がわかる →短時間で問題解決. 図6. 稼動データの活用によるサービスの実現. 6.参考文献 [1] Eduardo Pinheiro, Wolf-Dietrich Weber and Luiz André Barroso, "Failure Trends in a Large Disk Drive Population", Proceedings of the 5th USENIX Conference on File and Storage Technologies (FAST „07), 2007 [2] G. Hamerly, C. Elkan, “Bayesian approaches to failure prediction for disk drives,” Proc. 18th ICML, pp.202-209, 2001. [3] J. Murray, G. Hughes, and K. Kreutz-Delgado, “Machine learning methods for predicting failures in hard drives : a multiple-instance application,” JMLR Vol.6, pp.783-816, 2005. [4] 西川武一郎, 原貫三, “市場品質の監視による早期対策 からプロアクティブな品質保全とサービスへ”, 東芝レビ ュー, Vol.64, No.8, 2009.. 年間バックアップ回数(全PC平均) 喪失データは何日分か(故障PC平均). 図5. 故障予兆検出に応じたバックアップの実施. 1-280. Copyright 2013 Information Processing Society of Japan. All Rights Reserved..

(3)

図 3  故障 HDD の Reallocated Sector Count の時系列変化
図 4   HDD 故障予兆モデルの ROC 曲線  4.故障予兆検出に基づくデータバックアップ  バックアップを定期的に行っていないユーザが多い理 由に、適切なバックアップ頻度がわからない、というこ とが挙げられる。バックアップの実施は PC に負荷がか かり、ユーザの手間もかかることから、なるべく少ない 方がよい。そこで、故障予兆に応じたバックアップを実 施することで、不要なバックアップの手間をかけずにデ ータ損失の削減効果が得られる。あるいは、故障予兆有 無に応じてバックアップ頻度を変更することで、デ

参照

関連したドキュメント

肝障害に腎障害が併存することは,予後不良 の指標となる.特に,肝硬変に腎不全を合併し た際には 1 カ月生存率は 50%,6

る、関与していることに伴う、または関与することとなる重大なリスクがある、と合理的に 判断される者を特定したリストを指します 51 。Entity

特に、その応用として、 Donaldson不変量とSeiberg-Witten不変量が等しいというWittenの予想を代数

・会場の音響映像システムにはⒸの Zoom 配信用 PC で接続します。Ⓓの代表 者/Zoom オペレーター用持ち込み PC で

CPU待ち時間 PCとPSWを 専用レジスタ

パスワード 設定変更時にパスワードを要求するよう設定する 設定なし 電波時計 電波受信ユニットを取り外したときの動作を設定する 通常

すべての Web ページで HTTPS でのアクセスを提供することが必要である。サーバー証 明書を使った HTTPS

各テーマ領域ではすべての変数につきできるだけ連続変量に表現してある。そのため