OS 再起動による業務サーバ ( コンピュートノード ) の復旧

第4章保守

4.2 トラブル発生時の対処

4.2.4 クラスタ構成の業務サーバ(コンピュートノード)の復旧【HA構成】

4.2.4.3 OS 再起動による業務サーバ ( コンピュートノード ) の復旧

ログの格納場所

業務サーバ(コンピュートノード)のフェイルオーバが実行されると、代表ノードに以下の情報が出力されます。

代表ノードの確認は、「代表ノードの確認方法」を参照してください。

・

スクリプトログ

業務サーバ(コンピュートノード)のフェイルオーバで発生したログのことです。

－

スクリプトログの格納場所 /var/opt/FJSVpf4c/logs/rcx_ha.log

・

システムログ

－

システムログの格納場所 /var/log/messages

－

システムログの表示内容

システムログの表示内容は、「4.4.5 業務サーバ(コンピュートノード)のフェイルオーバでエラーが発生した場合のメッセージ

【HA構成】」を参照してください。

・

evacuated_list.log

インスタンスが移動した時の情報です。

－

evacuated_list.logの格納場所

/var/opt/FJSVpf4c/logs/evacuated_list.log

－

evacuated_list.logの表示内容

以下のフォーマットで表示されます。

移行開始時刻 [Success | Failure] インスタンスID 移行元ノード名移行先ノード名移行元ノード

移行元の業務サーバ(コンピュートノード) 移行先ノード

移行先の業務サーバ(コンピュートノード)

例

20160615-10:37:24 Success 60adcde4-7d77-4007-95ce-9f06283887fe compute2 compute1 20160615-10:40:56 Success 1c9436ec-9897-4cc2-b1d6-4d30d33b7fb5 compute2 compute1 20160615-10:40:58 Success 4fdc0061-db68-4ab6-bb13-64d07e2b4f68 compute2 compute1 20160615-10:40:59 Success f366d83e-7c8b-4bcf-80e4-1401683cac84 compute2 compute1

代表ノードの確認方法

1.

管理サーバ(コントローラーVM2)にroot権限でログインします。

2.

以下のコマンドを実行します。

稼働ノード名には、任意の稼働ノード名を指定してください。

# ssh 稼働ノード名 "hvdisp -a |grep -w leaderapp" <RETURN>

3.

出力結果から代表ノードを確認します。

－

指定した稼働ノードが代表ノードの場合以下の内容が出力されます。

leaderapp userApp Online

－

指定した稼働ノード以外のノードが代表ノードの場合

コマンドの実行結果の赤文字、かつ下線部が代表ノード名を示しています。

leaderapp userApp Offline leaderapp userApp 代表ノード名RMS Online

業務サーバ(コンピュートノード)のノード名の例

業務サーバ(コンピュートノード)のノード名が以下の場合の例を示します。

図4.7 稼動ノードが故障した場合の例

稼動ノード

compute2、compute3 故障した稼動ノード

compute1 待機ノード

compute4

図4.8 待機ノードが故障した場合の例

稼動ノード

compute1、compute2、compute3 待機ノード

compute4

4.2.4.1 PRIMECLUSTER の状態確認

1.

^{待機ノードに}root権限でログインします。

2.

異常が発生した業務サーバ(コンピュートノード)の状態を確認します。

以下のコマンドを実行します。

# cftool -n <RETURN>

Node Number State Os Cpu Compute1 1 DOWN Linux EM64T Compute2 2 UP Linux EM64T Compute3 3 UP Linux EM64T Compute4 4 UP Linux EM64T

異常が発生した業務サーバ(コンピュートノード)のStateが"LEFTCLUSTER"状態になっている場合は、シャットダウン機構(SF)による強制停止処理が失敗し、クラスタパーティションが発生していることを意味します。

その場合は、以下の手順にしたがって手動で回復してください。

1.

停止していた業務サーバ(コンピュートノード)を再起動します。

2.

業務サーバ(コンピュートノード)がクラスタに参入したことを確認します。

以下のコマンドを実行し、各業務サーバ(コンピュートノード)のStateが"UP"になっていることを確認します。

# cftool -n <RETURN>

Node Number State Os Cpu compute1 1 UP Linux EM64T compute2 2 UP Linux EM64T compute3 3 UP Linux EM64T compute4 4 UP Linux EM64T

参考

詳細は、「PRIMECLUSTER Cluster Foundation 導入運用手引書」を参照してください。

待機ノードで異常が発生した場合

待機ノードで異常が発生した場合は、以下の手順を実施してください。

1.

^{稼働ノードに}root権限でログインします

2.

以下のコマンドを実行し、leaderappが稼働ノード上で起動したことを確認します。

leaderappのStateが"Online"になっていることを確認します。

以下のコマンドの実行例はどちらも、compute1上でleaderappが起動している場合の出力結果です。

－

ログインした稼働ノード上でleaderappが起動している場合

# hvdisp -a <RETURN>

Local System: compute1RMS

Configuration: /opt/SMAW/SMAWRrms/build/openstack.us

Resource Type HostName State StateDetails ---compute4RMS SysNode Online

compute3RMS SysNode Online compute2RMS SysNode Online compute1RMS SysNode Online leaderapp userApp Online Machine003_leaderapp andOp compute4RMS

Machine002_leaderapp andOp compute3RMS Machine001_leaderapp andOp compute2RMS

Machine000_leaderapp andOp compute1RMS Online

ManageProgram000_Cmd_LEADERAPP gRes Online

－

他の稼働ノード上でleaderappが起動している場合

# hvdisp -a <RETURN>

Local System: compute1RMS

Configuration: /opt/SMAW/SMAWRrms/build/openstack.us

Resource Type HostName State StateDetails ---compute4RMS SysNode Online

compute3RMS SysNode Online compute2RMS SysNode Online compute1RMS SysNode Online leaderapp userApp Offline leaderapp userApp compute1RMS Online Machine003_leaderapp andOp compute4RMS

Machine002_leaderapp andOp compute3RMS

Machine001_leaderapp andOp compute2RMS Offline Machine000_leaderapp andOp compute1RMS

ManageProgram000_Cmd_LEADERAPP gRes Online

4.2.4.2 ストレージの復旧

ここでは、ストレージの復旧について説明します。

ストレージシステム内のLUNグループに残っているインスタンスのボリューム情報を削除する手順を説明します。

4.2.4.2.1 業務サーバ(コンピュートノード)上での作業

移動したインスタンスに接続されているボリュームのETERNUS上での登録名と業務サーバ(コンピュートノード)のWWNを調査します。

調査の流れ、および操作手順は、以下のとおりです。

調査の流れ

1.

evacuated_list.logから移動したインスタンスの情報を確認

2.

インスタンスにアタッチされているボリューム情報を確認

3.

インスタンスにアタッチされているボリュームのETERNUS上の登録名を確認

4.

^{業務サーバ}(コンピュートノード)のWWN情報を確認

操作手順

1.

待機ノードにroot権限でログインします。

2.

evacuated_list.logから移動したインスタンスのuuidを確認します。

以下のコマンドを実行します。

# cat /var/opt/FJSVpf4c/logs/evacuated_list.log <RETURN>

20160701-14:04:15 Success c70368a4-66f2-4041-8b94-f1186d231ab0 compute1 compute4 20160701-14:04:16 Success a3038c12-fa9c-495d-9351-5c3b0ddc019b compute1 compute4 20160701-14:04:18 Success dcdb4fd4-643c-4ba6-a54c-e5aa4c502560 compute1 compute4

以降の手順では、削除対象のボリュームを持つインスタンスのuuidがc70368a4-66f2-4041-8b94-f1186d231ab0だった場合を説明します。

3.

管理サーバ(コントローラーVM2)にroot権限でログインします。

4.

移動したインスタンスのボリュームの情報を取得します。

以下のコマンドを実行します。

# . /root/openrc <RETURN>

# cinder list --all | grep c70368a4-66f2-4041-8b94-f1186d231ab0 <RETURN>

+---+---+---+

| ID | 略 | Attached to | +---+---+---+

| fe8d93eb-c1f9-4cb9-a787-b3ea22d7d55f | 略 | c70368a4-66f2-4041-8b94-f1186d231ab0 | +---+---+---+

| 略 | +---+---+---+

5.

ボリュームの詳細情報を確認します

以下のコマンドを実行し、コマンドの実行結果のFJ_Volume_Nameを控えておきます。

# cinder show fe8d93eb-c1f9-4cb9-a787-b3ea22d7d55f |grep -w metadata <RETURN>

| metadata | { u'FJ_Volume_Name': u'FJosv_2QbyOnrOm2Ce_h7lQ9HlNg==', (略) } |

6.

^{故障した業務サーバ}(コンピュートノード)以外のすべての業務サーバ(コンピュートノード)にroot権限でログインします。

7.

業務サーバ(コンピュートノード)のWWN情報を取得します。

以下のコマンドを実行し、コマンドの実行結果を業務サーバ(コンピュートノード)のWWNとして控えておきます。

# systool -c fc_host -A port_name | awk '/ port_name / {print $3}' | cut -c4-19 <RETURN>

10000000c9d5eb68 10000000c9d5eb69

注意

cinderコマンドを実行した際、以下のようなメッセージが数行表示されますが問題ありません。

WARNING:keystoneclient.auth.identity.base:Failed to contact the endpoint at http://管理サーバ(コントローラーVM1)のサービスLAN のIPアドレス:8776/v2/462f0910891f467e9a7de796cbcf7420 for discovery. Fallback to using that endpoint as the base url.

4.2.4.2.2 ETERNUS 上の作業

「4.2.4.2.1 業務サーバ(コンピュートノード)上での作業」で確認したボリュームが登録されているLUNグループから、不要なボリュームの"ホストLUNとボリュームNo.の割り当て情報"を削除します。

1.

ETERNUS Web GUIにログインします。

2.

[ 接続性 ]ナビの"ホストグループ" の"FC/FCoE"から以下の条件を満たすホストグループを検索し、名前を記録します。

－

"HOST_NAME#XX"という名前 (XXは整数) かつ

－

「4.2.4.2.1 業務サーバ(コンピュートノード)上での作業」の手順7.で記録したWWNと一致しないWWNである

3.

[ 接続性 ]ナビから手順2. のホストグループに接続されているLUNグループを確認します。

4.

[ 接続性 ]ナビの"LUNグループ"で、手順3.のLUNグループを選択します。

5.

"LUNグループ変更"で、不要なボリュームの"ホストLUNとボリュームNo.の割り当て情報"を削除します。

詳細は、「ETERNUS Web GUI ユーザーズガイド(設定編)」を参照してください。

注意

LUNグループ内のすべてのボリュームが不要な場合は、LUNグループの属するホストアフィニティを削除してからLUNグループを削除してください。

4.2.4.3 OS 再起動による業務サーバ ( コンピュートノード ) の復旧

異常の発生した業務サーバ(コンピュートノード)を再起動した際、OSが起動した場合の復旧手順を説明します。

以下の手順にしたがって、業務サーバ(コンピュートノード)が正常に動作していることを確認してください。

業務サーバ(コンピュートノード)のサービスの確認

1.

異常が発生した業務サーバ（コンピュートノード)にroot権限でログインします。

2.

異常が発生した業務サーバ（コンピュートノード)のサービスが起動していることを確認します。

以下のコマンドを実行します。コマンドの詳細は、「2.3.3 rcx_service」を参照してください。

# /opt/FJSVpf4c/bin/rcx_service status <RETURN>

3.

異常が発生した業務サーバ（コンピュートノード)のサービスが起動していない場合には、サービスを起動します。

以下のコマンドを実行します。

# /opt/FJSVpf4c/bin/rcx_service start <RETURN>

Faulted状態のクリア

OSが正常に起動したあと、PRIMECLUSTERのuserApplicationの状態を確認し、Faulted状態となっている場合には状態をクリアします。

1.

異常が発生した業務サーバ（コンピュートノード)にroot権限でログインします。

2.

以下のコマンドを実行し、userApplicationの状態を確認します。

userAppのStateが"Faulted"であることを確認します。

コマンドの実行結果の赤文字、かつ下線部がuserAppのStateを示しています。

# hvdisp -T userApplication <RETURN>

Local System: compute1RMS

Configuration: /opt/SMAW/SMAWRrms/build/config.us

Resource Type HostName State StateDetails ---leaderapp userApp Faulted

3.

Faulted状態をクリアします。

手順2.で"Faulted"が表示された場合は、Faulted状態をクリアします。

a.

以下のコマンドを実行し、userAppのFaulted状態をクリアします。

# hvutil -c leaderapp <RETURN>

b.

以下のコマンドを実行し、userApplicationの状態を確認します。

userAppのStateが"Offline"であることを確認します。

コマンドの実行結果の赤文字、かつ下線部がuserAppのStateを示しています。

# hvdisp -T userApplication <RETURN>

Local System: compute1RMS

Configuration: /opt/SMAW/SMAWRrms/build/config.us

Resource Type HostName State StateDetails ---app1 userApp Offline

userAppのStateが"Faulted"から変化しない場合、当社技術員に連絡してください。

稼動ノードで異常が発生した場合

マルチパスデバイス情報の更新

1.

復旧した業務サーバ(コンピュートノード)にroot権限でログインします。

2.

以下のコマンドを実行し、マルチパスデバイス情報を更新します。

# multipath -F <RETURN>

注意

以下のようなメッセージが表示される場合がありますが、問題ありません。

Aug 02 15:39:00 | 3600000e00d11000000110072001b0000: map in use

Aug 02 15:39:00 | failed to remove multipath map 3600000e00d11000000110072001b0000

# multipath -v2 <RETURN>

注意

以下のようなメッセージが表示される場合がありますが、問題ありません。

Aug 02 15:41:31 | 360030057023cffa01f1684c828b6202f: ignoring map create: 3600000e00d11000000110072002c0000 undef FUJITSU ,ETERNUS_DXL size=20G features='0' hwhandler='0' wp=undef

|-+- policy='round-robin 0' prio=50 status=undef

| `- 5:0:0:24 sdc 8:32 undef ready running

`-+- policy='round-robin 0' prio=10 status=undef `- 12:0:0:24 sde 8:64 undef ready running

復旧した業務サーバ(コンピュートノード)を代表ノードに設定

1.

復旧した業務サーバ(コンピュートノード)にroot権限でログインします。

2.

以下のコマンドを実行し、UserApplicationを起動します。

# hvswitch leaderapp compute1RMS <RETURN>

Novaのサービスを"enabled"に変更

1.

^{管理サーバ}(コントローラーVM2)にroot権限でログインします。

ドキュメント内ユーザーズガイド (ページ 78-87)

第4章 保守

4.2 トラブル発生時の対処

4.2.4 クラスタ構成の業務サーバ(コンピュートノード)の復旧 【HA構成】

4.2.4.3 OS 再起動による業務サーバ ( コンピュートノード ) の復旧

ログの格納場所

・

－

・

－

－

・

－

－

例

代表ノードの確認方法

1.

2.

3.

－

－

業務サーバ(コンピュートノード)のノード名の例

図4.7 稼動ノードが故障した場合の例

図4.8 待機ノードが故障した場合の例

4.2.4.1 PRIMECLUSTER の状態確認

1.

2.

1.

2.

参考

待機ノードで異常が発生した場合

1.

2.

－

－

4.2.4.2 ストレージの復旧

4.2.4.2.1 業務サーバ(コンピュートノード)上での作業

調査の流れ

1.

2.

3.

4.

操作手順

1.

2.

3.

4.

5.

6.

7.

注意

4.2.4.2.2 ETERNUS 上の作業

1.

2.

－

－

3.

4.

5.

注意

4.2.4.3 OS 再起動による業務サーバ ( コンピュートノード ) の復旧

業務サーバ(コンピュートノード)のサービスの確認

1.

2.

3.

Faulted状態のクリア

1.

2.

3.

a.

b.

稼動ノードで異常が発生した場合

1.

2.

注意

注意

1.

2.

1.

第4章保守

4.2.4 クラスタ構成の業務サーバ(コンピュートノード)の復旧【HA構成】