• 検索結果がありません。

7.1 まとめ

近年,データセンターの需要の拡大に伴い大規模化が進んでいる.一人の管理者がその ような大規模なシステムの全体像を把握する事は困難であるため,多くのデータセンター では分散管理を行うことが一般的となってきている.担当を分けることにより,各管理者 の負担を削減することができる一方で,各システムの詳細はそれぞれの担当に依存しがち になる傾向にある.その上,運用管理者の数は慢性的に不足していることもあり,担当者 の多忙時や異動の直後など,熟知していないシステムの運用を行わざるを得ない状況など が発生した際,当該システムの仕様を知らないがために障害が発生するリスクが生じる問 題があった.

そこで本稿では,知らなければ障害を起こしかねない設定上のポリシーに注目した.そ れらの連携によって生じる障害事例をノウハウ情報として蓄積し,管理者の運用操作に合 わせてそのノウハウ情報を提示する事で,障害発生リスクに対する注意喚起を行い,運用 操作と他の設定や仕様との連携障害を予防する支援手法の提案を行った.

本支援手法により,以下の様な利点が得られた.

障害事例の提示による効率的なノウハウ共有

障害発生前に過去の事例を提示することで,ナレッジベースなどの既存の手法では 困難であった他の設定や仕様との連携障害の再発予防を可能にした.

担当外の管理者の教育

障害が発生した際,障害発生から復旧までに関わった管理者しか知り得なかったノ ウハウを,ノウハウ情報として蓄積しておくことによって必要な管理者にうまく伝 達することに成功した.

以上のように,本稿で提案した手法は,運用操作の実行前に障害発生リスクを提示する ことを可能にした.これにより,管理者は提示されたリスクを改めて検討する余地が生ま れ,知らなかったがために起こる障害を未然に防ぐことができる.また,得られるノウハ ウ情報はそれぞれの管理者の担当に依存しないため,システムの全体像を把握する必要な く,安定した運用を実現できる.

サービスを止める事なく提供し続けるデータセンターにとって,その可用性の向上は重 要な案件である.今後も情報サービスの需要の増大に伴って,データセンターの大規模化

が予想される情報社会において,このような支援は大変重要であり,大きな意味を持つと いえる.

7.2 今後の課題

今回の実験では,オブジェクトIDが一致しないオブジェクトに対し,オブジェクトタ イプの比較を行った際,オブジェクトタイプIDがすべて一致するオブジェクトに関して は,その類似度を0.9とした.このアルゴリズムによってシステムに合わせた正確な提示 が行えることが確認できたが,各管理者に合わせて提示の方法を変えるためにベイズ推定 を用いた動的なオブジェクトタイプの重みの更新を行うことにより,さらなる精度の向上 を目指すことが期待される.

また,今後は,隠れマルコフモデルを用いて,設定上取得できない依存関係オブジェク トの推定を行う事で,設定ポリシー上難しかった箇所を支援の範囲とする発展が考えられ る.また,提示したノウハウ情報が役立ったかどうかを判定する機構を取り入れることに よって,それらを学習することで運用するデータセンターに合わせて提示精度を向上させ る発展も考えられる.

謝辞

本論文の作成にあたり,終始適切な助言を賜り,また丁寧に指導して頂いた北陸先端科 学技術大学院大学情報社会基盤研究センター 敷田幹文教授に深く感謝致します.情報社 会基盤研究センターの技術職員の方々には貴重なご意見をいただきました.ありがとうご ざいます.また,坂下幸徳さんを始め研究室のみなさんにはゼミ等の議論の中で刺激と示 唆を得ることができ,精神的にも支えられました.ありがとうございました.

研究業績

口頭発表及び論文集掲載 ( 査読有り )

西野博之, 坂下幸徳, 敷田幹文:大規模データセンターにおける運用ノウハウ共有によ る障害再発防止方式の提案, 第6回情報処理学会インターネットと運用技術シンポジウム (IOT2013)論文集, pp. 87-94(2013)

参考文献

[1] IDC Japan, 「 国 内 の デ ー タ セ ン タ ー 数 は 減 少 、再 編 や 統 合 へ 。 」,

<http://publickey1.jp/blog/10/idc japan.html>(2013/11/14 アクセス).

[2] 宮澤雅典,西村公佐, サービス品質管理を考慮した障害原因解析手法の提案, ICM,情 報通信マネジメント 110(466), 7-10, 2011-03-03.

[3] 永井祟之,名倉正剛, 迅速な危機回復を目的とする大規模向け障害原因解析システム, 情報処理学会論文誌, 54(3), 1109-1119, 2013-3-15.

[4] 登内敏夫, 村田正幸, 潜在的な派生関係を有する障害に対する故障分析手法, 電子情 報通信学会論文誌.B, J92-B(8), 1236-1244, 2009-08-01.

[5] 森一, 敷田幹文, サーバの依存関係を考慮したシステム構成管理の支援法, 情報処理 学会論文誌, 46(4), 940-948, 2005-4-15.

[6] 幾世知範, 榎本真俊, 櫨山寛章, 門林雄基, 山口英, 動的依存性グラフを用いた計算コ スト削減に関する一考察, 情報処理学会研究報告, [システムソフトウェアとオペレー ティング・システム]2011-OS-119(7), 1-8, 2011-11-22.

[7] 加藤裕,敷田幹文, 障害予測における最適な障害回避手段の提示法 インターネット と運用技術シンポジウム2012論文集,110-116, 2012-12-06.

[8] 斉藤典明, 組織における知識の共有と継承に関する一考察, 情報処理学会研究報告, GN,[グループウェアとネットワークサービス]2010-GN-77(13), 1-6, 2010-11-18.

[9] 敷田幹文, 門脇千恵, 國藤進, フローに連携した組織内インフォーマル情報共有手法 の提案, 情報処理学会論文誌, 41(10), 2731-2741, 2000-10-15.

[10] 長田智和,谷口裕治,玉城史朗, 大規模分散ネットワーク運用管理システムの提案 情報処理学会研究報告,DSM, [分散システム/インターネット運用技術] 2000(113), 31-36, 2000-12-01.

[11] 高橋優介,三杉大輔,高橋晶子,笹井一人,阿部亨,木下哲男, 能動化された知識 の組織化によるネットワーク障害管理支援方式, 情報処理学会研究報告.CSEC,[コ ンピュータセキュリティ]2010-CSEC-48(5), 1-8, 2010-02-25.

関連したドキュメント