障害発生時の LifeKeeper の動作について - 書番号 :LK LifeKeeper for Linux 仮想環境構成ガイド (VMware vsphere6 編 ) 第 5 版サ

VMware vSphere 環境で稼働する LifeKeeper では、以下の様なサービス障害に発生した場合、正常にサービスのリカバリが⾏われます。

LifeKeeper for Linux SSP RDM iSCSI NAS DK VMDK

OS 上のアプリケーション障害〇〇〇〇〇〇

*1 VM 障害（カーネルパニック、VM

のフリーズ、リセット等）

〇〇〇〇〇〇

(要 VHA) ネットワーク障害 ( サービス

LAN 障害)

〇〇〇〇〇 △

*2 ネットワーク障害 ( コミュニ

ケーションパス 1 本切断)

〇〇〇〇〇 ―

*3 ネットワーク障害 ( コミュニ

ケーションパス全て切断)

〇〇〇〇〇 ―

*3 マネージメントネットワーク障

害

影響なし影響なし影響なし影響なし影響なし影響なし

全パスダウン(APD) 〇 (要 VHA)

〇 (要 VHA)

*4 ホスト(ESXi サーバー)障害〇〇〇〇〇〇

(要 VHA)

*1. vSphere HA と連携する事で、よりサービスの継続性を高めることが出来ます。

*2. SSP ではネットワーク障害を検出できますが、他の経路を使⽤するローカルリカバリで復旧できない場合、同じホスト上で VM を再起動する挙動のみとなります。そのため、物理的にネットワークの通信が⾏えない経路障害の場合、復旧できなくなります。

*3. SSP にはコミュニケーションンパスがないため、該当の障害は発生しません。そのため、”-” としています。

*4. SSP は VM 単体で稼働します。APD が発生した場合は、同じノードでの再起動しか⾃

動的に⾏えないため、APD を復旧する、もしくは vMotion 等で他のホストにサービスを切り替えない限り、起動は⾏えません。

 OS 上のアプリケーション障害

アプリケーション障害とは、ハートビートによるノード監視は正常であるが、保護するサービス

の監視で障害を検出する事です。vSphere6 ⾃体にはアプリケーションの障害を検出する機能がありませんので、LifeKeeper, SSP を使⽤する事で、保護するサービスの障害を⾃動的に復旧して、サービスの継続性を高めることが出来ます。

また SSP では、ローカルリカバリで復旧が⾏えなかった場合のシステムリセットを、OS によるシステムリセットではなく、vSphere HA によるシステムのリセットに変更することが出来ます。これは、OS によるシステムリセットが⾏えないようなアプリケーション障害（システム負荷が高く、サービスの提供やコマンドの受け付けは⾏えないが、ハートビートへの応答は可能な状態など）が発生した場合に有効です。この機能を利⽤する場合は、vSphere HA が有効である必要があります。

 VM 障害（カーネルパニック、VM のフリーズ、リセット等）

VM 障害とは、VM がフリーズやカーネルパニック等を引き起こす障害です。その結果、待機ノードがハートビートによるノード監視が⾏えなくなり、障害を検出します。この場合、vSphere HA による”VM の監視”機能を使⽤する事で⾃動的にリカバリ（VM のリセット）する事が可能です。

vSphere HA による VM の監視では、障害を検出してから 1 分程度でリセットが⾏われます。

対して LifeKeeper では、VM の障害を検出してサービスの切り替えを開始するまでに 15 秒程度となりますので、vSphere HA の VM 監視より早くサービスを復旧する事が可能です。

 ネットワーク障害(サービス LAN 障害)

サービス LAN のネットワーク障害が発生した場合、VIP,もしくはサービスがアプリケーション障害を検出します。そのため、“OS 上のアプリケーション障害”と同等の動作となります。ただし SSP の場合、1 台の VM で障害検出し復旧する必要がありますので、ネットワークが物理的に切断されている場合は、⾃動的な復旧が望めません。そのため、ネットワークの冗⻑化等を推奨します。

 ネットワーク障害(コミュニケーションパス 1 本切断)

ハートビート通信を⾏うコミュニケーションパス 1 本が切断した場合、LifeKeeper ではそれぞれコミュニケーションパスの障害を検出します。コミュニケーションパスは複数本で構成しますので、1 本途切れても、稼働するサービスには影響しません。

 ネットワーク障害(コミュニケーションパス全て切断)

成では、保護するサービスや OS には影響しません。ただ、vSphere6 による vCenter や ESX サーバーを経由した VM の管理が⾏えなくなります。なお vSphere HA の設定で、マネージメントネットワーク障害が発生した場合のホストの対応として、VM に対して再起動や停⽌を促す設定も可能です。

 全パスダウン(APD)

VM を保存する VMFS へのパスが全てダウンした場合の挙動です。この場合、ホストのメモリ上で OS が起動した状態で、読込先のディスク(VMDK)にアクセスできなくなるという状況に陥ります。LifeKeeper や SSP では、この状況に陥ったシステムやアプリケーションの障害の検出は殆ど⾏えません。そのため、vSphere HA の設定によって、APD となった VM を強制再起動させることお勧めします。強制再起動を⾏う事で、稼働しているノードで VM の障害を検出します。アクティブノードが強制再起動された場合は、スタンバイノードにサービスを切り替えます。

 ホスト(ESXi サーバー)障害

VM が稼働する ESXi サーバー(ホスト)が障害となり停⽌や再起動を起こした場合、vSphere HA によって、別のホストに VM を切り替えることが出来ます。LifeKeeper で構成する RDM、

iSCSI,NAS,DK,VMDK,SSP のいずれの構成でも、vSphere HA による別ホストへの切り替えは可能であり、LifeKeeper としても正常に稼働します。なお LifeKeeper は、vSphere HA によるノードの切り替えよりも早くハードビートによるノードの障害を検出し切り替えを開始しますので、アクティブノードが稼働するホストで障害が発生した場合は、別のホストで稼働するスタンバイノードにサービスを切り替えます。

ドキュメント内書番号 :LK LifeKeeper for Linux 仮想環境構成ガイド (VMware vsphere6 編 ) 第 5 版サイオステクノロジー株式会社 (ページ 32-35)