• 検索結果がありません。

Microsoft PowerPoint - OSS運用管理勉強会資料_ a.pptx

N/A
N/A
Protected

Academic year: 2021

シェア "Microsoft PowerPoint - OSS運用管理勉強会資料_ a.pptx"

Copied!
24
0
0

読み込み中.... (全文を見る)

全文

(1)

OSS

運⽤管理勉強会

商用統合監視ソフトウェアからの

移⾏事例とHPサーバーのHW監視

(2)

Agenda

HPサーバのHW監視 (10分)

商用統合監視SWからの移⾏事例(15分)

QA(5分)

(3)
(4)

ZabbixとHW監視

Zabbixはアプリケーションからハードウェアまで一括して監視できる

Zabbix Server

OS

Middleware

App

MIBの解析

ただし、ZabbixでHWを監視するのは大変…

(5)

どのホストで何が起きたかがすぐにわかる

MIRACLE ZBX HPサーバ用監視テンプレートによる受信

SNMP Trap送信元ホスト名を表示

障害内容の概要を表示

Phisical Drive Status Change (3046) on zab460l

Logical Drive Status Change (3034) on zab460l

(6)

詳細な障害箇所もZabbixから確認

MIRACLE ZBX HPサーバ用監視テンプレートによる受信

SNMP Trap全体をZabbix上に表示

Port 1I Box 1 Bay 2

(7)

MIRACLE ZBX HPサーバ用監視テンプレートによる受信

500以上のSNMP Trapに対応したアイテムとトリガーを登録済み

(8)

Zabbix 1.8でもZabbix 2.0でも利⽤できます

SNMP Trap受信方式

snmptrapdから呼び出されたスクリプトがZabbix_Senderコマンドを実⾏します。

Zabbixサーバ

snmptrapd

監視対象

HW/SW

スクリプト

(テンプレート付属)

スクリプト中でZabbix_Senderコマンドを

実⾏し、Zabbixサーバに通知する。

snmptrapdがSNMP Trap受信時にスクリプト

を呼び出す。

Zabbixサーバ

SNMP Trap

(9)

テンプレートの構成

キー

CPQIDA-MIB_cpqDa2PhyDrvStatusChange

CPQIDA-MIB_cpqDa2LogDrvStatusChange

CPQNIC-MIB_cpqNic2RedundancyIncreased

CPQNIC-MIB_cpqNic3RedundancyReduced

スクリプト

アイテム

名前

深刻度

Physical Drive Status Change (3003)

致命的

Logical Drive Status Change (3001)

致命的

NIC Redundancy Increased Trap (18007)

情報

NIC Redundancy Reduced Trap (18014)

重度

トリガー

zabbix_sender

–s <送信元IPの逆引き結果>

–k <MIB オブジェクト名>

–o <SNMP Trapのデータ全て>

テンプレート

Zabbixサーバ

紐づけ

値として保存

アイテムとトリガーは1対1に対応

SNMP Trap

送信元ホストの

障害として通知

コマンド引数

zabbix_sender –s <ホスト> –k <キー> –o <値>

(10)
(11)

商用統合監視SWとZabbixの機能差分

商用統合監視SWからの移⾏事例

Zabbixへ移⾏をしようとすると…

困った!旧システムで使用していた監視SWの機能がない!

1. 過去アラームのローカル出⼒機能がない

2. 取得したリソース値のローカル出⼒機能がない

3. ログ、SNMP Trap内のメッセージを抽出し、イベントやアクションに

反映ができない

作りこみで対応

工夫次第で

何とかなる!

4. アラーム抑止の時間リセット機能がない

5. アクションがテンプレート管理ではない

6. 監視条件に優先順位がないため、すべて排他の条件にしなければならない

(12)

4. アラーム抑止の時間リセット機能がない

商用統合監視SWからの移⾏事例

除外期間と除外解除期間

指定期間内にログ出⼒された重複アラームを抑止し、一定期間超過後にリセットする機能

除外期間

期間を指定(例:2分間で条件にマッチするエラーが複数⾏でても、最初の⾏のみアラームとする)

除外解除周期

初回アラームから指定時間超過後に、抑止をリセット(例:初回アラームから15分後に抑止を解除)

nodata関数を使えば簡単に実現できそうに思えるが、後者の「除外解除周期」が難しい。

(13)

4. アラーム抑止の時間リセット機能がない

商用統合監視SWからの移⾏事例

nodata関数だけで実現しようとすると…

[アイテム].regexp(.*)#0 & [アイテム].nodata(120)#1 (ノーマル)

このとき、DBに値が入ったタイミング(アイテム収集タイミング)と、タイマー系関数である

nodata関数の毎分0秒と30秒に過去120秒の値を確認する。

(14)

4. アラーム抑止の時間リセット機能がない

商用統合監視SWからの移⾏事例

nodata関数だけで実現しようとすると…

[アイテム].regexp(.*)#0 & [アイテム].nodata(120)#1 (ノーマル)

初回アラームを基準とするのではなく、DBの値を過去に遡って確認する仕様であるため、エラーが出

⼒され続けた時にトリガーステータスが正常に戻らない。

(15)

4. アラーム抑止の時間リセット機能がない

商用統合監視SWからの移⾏事例

[準備1] アクションを作成

エスカレーションを「有効」

期間を初回アラームから抑止リセットさせたい時間(秒)

アクションのオペレーションをステップ2

zabbix_senderで該当トリガーキーに対して”抑止リセット”という文字を送信

/usr/bin/zabbix_sender -z <ホスト名> -s {HOSTNAME} -k '{TRIGGER.KEY}' -o '<抑止リセット>'

[準備2] トリガーに条件追加

[アイテム].regexp(.*)#0 & [アイテム].nodata(120)#1

[アイテム].regexp(.*)#0 & [アイテム].nodata(120)#1

& [アイテム] .regexp("抑止リセット")}=0

(16)

4. アラーム抑止の時間リセット機能がない

商用統合監視SWからの移⾏事例

[参考] アクションの例

(17)

4. アラーム抑止の時間リセット機能がない

商用統合監視SWからの移⾏事例

結果

(18)

5. アクションがテンプレート管理ではない

商用統合監視SWからの移⾏事例

アクションのインポート/エクスポートが出来ない

ある商用統合監視SWの場合は自動アクション機能が、Zabbixでいうトリガーの一部として設定でき

たため、その自動アクションもテンプレートとしてインポート/エクスポートができたが、Zabbixで

はそれが出来ない。

(19)

5. アクションがテンプレート管理ではない

商用統合監視SWからの移⾏事例

アクションのインポート/エクスポートが出来ない

DBを直接書き換える方法も考えられるが、

Zabbixが使用するDBに直接INSERTすることで、予期せぬ動作をする懸念があった。

開発環境で試験をしたアクション設定値が、商用環境でも同一の設定となっていることの担保がと

れればよい。

ことから、アクションの設定一覧のエクスポート機能を実装した。

これは単純にアクションに使用している

actions

operations

conditions

をDBからSELECTし、テキストに出⼒する機能。

商用環境でアクションを作成後、あらかじめ開発環境で上記機能を使用して生成されたテキストデー

タとの差分比較をすることにより、最低限のエンドユーザー要望を満たすことが出来た。

(20)

6. 監視条件に優先順位がないため、すべて排他の条件にしなければならない

商用統合監視SWからの移⾏事例

商用統合監視SWの場合

条件を上から順番にマッチングしていき、マッチしたタ

イミングでそれより下の条件は⾒ない。

[例]

YYYY/MM/DD hh:mm::ss error エラーコード=[xxxx]

あるログに ”error” という⽂字列が書き込まれたときにアラーム

としたい。

但し、ログ内に書かれたエラーコードが

“1000/2000/3000/4000/5000”

のときはアラームとはしたくない。

ある商用統合監視SWであれば、右図のようにアラーム発報した

+/-

条件

1

除外

エラーコード=[1000]

2

除外

エラーコード=[2000]

3

除外

エラーコード=[3000]

4

除外

エラーコード=[4000]

5

除外

エラーコード=[5000]

6

発報

error

(21)

6. 監視条件に優先順位がないため、すべて排他の条件にしなければならない

商用統合監視SWからの移⾏事例

Zabbixで普通に条件を作ると…

Zabbixではすべての条件がフラットに評価される。

前ページの例でトリガーを作ると、

[アイテム].regexp(“.*error.*”)#0

errorという⽂字列が含まれる

& [アイテム].regexp(“.*エラーコード=¥[1000¥].*”)=0

エラーコード1000は除外

& [アイテム].regexp(“.*エラーコード=¥[2000¥].*”)=0

エラーコード2000は除外

& [アイテム].regexp(“.*エラーコード=¥[3000¥].*”)=0

エラーコード3000は除外

& [アイテム].regexp(“.*エラーコード=¥[4000¥].*”)=0

エラーコード4000は除外

& [アイテム].regexp(“.*エラーコード=¥[5000¥].*”)=0

エラーコード5000は除外

という⻑いトリガーを作らないとならない。

正規表現を使ってみる

(22)

6. 監視条件に優先順位がないため、すべて排他の条件にしなければならない

商用統合監視SWからの移⾏事例

独自正規表現を作成する

(23)

6. 監視条件に優先順位がないため、すべて排他の条件にしなければならない

商用統合監視SWからの移⾏事例

独自正規表現を作成する

名前:errorcode

条件式:右表

とすると、トリガー条件式は

[アイテム].regexp(@errorcode)#0

という短い条件で済む。

また、除外したいエラーコードの追加/削除があっ

たとしても、正規表現側を修正するだけで容易に

修正が可能になる。

期待値

条件

1

結果が真

.*eroor.*

2

結果が偽

.*エラーコード=¥[1000¥].*

3

結果が偽

.*エラーコード=¥[2000¥].*

4

結果が偽

.*エラーコード=¥[3000¥].*

5

結果が偽

.*エラーコード=¥[4000¥].*

6

結果が偽

.*エラーコード=¥[5000¥].*

(24)

参照

関連したドキュメント

縦走電力緻維ノ其ニー致シ,斯ノL線晦日肉眼的二著明ナラザルモ認メラレ,氣管及ビ氣管支

First three eigenfaces : 3 個で 90 %ぐらいの 累積寄与率になる.

No ○SSOP(生体受入) ・動物用医薬品等の使用記録による確認 (と畜検査申請書記載) ・残留物質違反への対応(検査結果が判

READ UNCOMMITTED 発生する 発生する 発生する 発生する 指定してもREAD COMMITEDで動作 READ COMMITTED 発生しない 発生する 発生する 発生する デフォルト.

2.シニア層に対する活躍支援 (3) 目標と課題認識 ○ 戦力として期待する一方で、さまざまな課題も・・・

国の5カ年計画である「第11次交通安全基本計画」の目標値は、令和7年までに死者数を2千人以下、重傷者数を2万2千人

口腔の持つ,種々の働き ( 機能)が障害された場 合,これらの働きがより健全に機能するよう手当

ダウンロードしたファイルを 解凍して自動作成ツール (StartPro2018.exe) を起動します。.