• 検索結果がありません。

OS 再起動による業務サーバ ( コンピュートノード ) の復旧

ドキュメント内 ユーザーズガイド (ページ 78-87)

第4章 保守

4.2 トラブル発生時の対処

4.2.4 クラスタ構成の業務サーバ(コンピュートノード)の復旧 【HA構成】

4.2.4.3 OS 再起動による業務サーバ ( コンピュートノード ) の復旧

ログの格納場所

業務サーバ(コンピュートノード)のフェイルオーバが実行されると、代表ノードに以下の情報が出力されます。

代表ノードの確認は、「代表ノードの確認方法」を参照してください。

スクリプトログ

業務サーバ(コンピュートノード)のフェイルオーバで発生したログのことです。

スクリプトログの格納場所 /var/opt/FJSVpf4c/logs/rcx_ha.log

システムログ

システムログの格納場所 /var/log/messages

システムログの表示内容

システムログの表示内容は、「4.4.5 業務サーバ(コンピュートノード)のフェイルオーバでエラーが発生した場合のメッセージ

【HA構成】」を参照してください。

evacuated_list.log

インスタンスが移動した時の情報です。

evacuated_list.logの格納場所

/var/opt/FJSVpf4c/logs/evacuated_list.log

evacuated_list.logの表示内容

以下のフォーマットで表示されます。

移行開始時刻 [Success | Failure] インスタンスID 移行元ノード名 移行先ノード名 移行元ノード

移行元の業務サーバ(コンピュートノード) 移行先ノード

移行先の業務サーバ(コンピュートノード)

20160615-10:37:24 Success 60adcde4-7d77-4007-95ce-9f06283887fe compute2 compute1 20160615-10:40:56 Success 1c9436ec-9897-4cc2-b1d6-4d30d33b7fb5 compute2 compute1 20160615-10:40:58 Success 4fdc0061-db68-4ab6-bb13-64d07e2b4f68 compute2 compute1 20160615-10:40:59 Success f366d83e-7c8b-4bcf-80e4-1401683cac84 compute2 compute1

代表ノードの確認方法

1.

管理サーバ(コントローラーVM2)にroot権限でログインします。

2.

以下のコマンドを実行します。

稼働ノード名には、任意の稼働ノード名を指定してください。

# ssh 稼働ノード名 "hvdisp -a |grep -w leaderapp" <RETURN>

3.

出力結果から代表ノードを確認します。

指定した稼働ノードが代表ノードの場合 以下の内容が出力されます。

leaderapp userApp Online

指定した稼働ノード以外のノードが代表ノードの場合

コマンドの実行結果の赤文字、かつ下線部が代表ノード名を示しています。

leaderapp userApp Offline leaderapp userApp 代表ノード名RMS Online

業務サーバ(コンピュートノード)のノード名の例

業務サーバ(コンピュートノード)のノード名が以下の場合の例を示します。

図4.7 稼動ノードが故障した場合の例

稼動ノード

compute2、compute3 故障した稼動ノード

compute1 待機ノード

compute4

図4.8 待機ノードが故障した場合の例

稼動ノード

compute1、compute2、compute3 待機ノード

compute4

4.2.4.1 PRIMECLUSTER の状態確認

1.

待機ノードにroot権限でログインします。

2.

異常が発生した業務サーバ(コンピュートノード)の状態を確認します。

以下のコマンドを実行します。

# cftool -n <RETURN>

Node Number State Os Cpu Compute1 1 DOWN Linux EM64T Compute2 2 UP Linux EM64T Compute3 3 UP Linux EM64T Compute4 4 UP Linux EM64T

異常が発生した業務サーバ(コンピュートノード)のStateが"LEFTCLUSTER"状態になっている場合は、シャットダウン機構(SF)による強 制停止処理が失敗し、クラスタパーティションが発生していることを意味します。

その場合は、以下の手順にしたがって手動で回復してください。

1.

停止していた業務サーバ(コンピュートノード)を再起動します。

2.

業務サーバ(コンピュートノード)がクラスタに参入したことを確認します。

以下のコマンドを実行し、各業務サーバ(コンピュートノード)のStateが"UP"になっていることを確認します。

# cftool -n <RETURN>

Node Number State Os Cpu compute1 1 UP Linux EM64T compute2 2 UP Linux EM64T compute3 3 UP Linux EM64T compute4 4 UP Linux EM64T

参考

詳細は、「PRIMECLUSTER Cluster Foundation 導入運用手引書」を参照してください。

待機ノードで異常が発生した場合

待機ノードで異常が発生した場合は、以下の手順を実施してください。

1.

稼働ノードにroot権限でログインします

2.

以下のコマンドを実行し、leaderappが稼働ノード上で起動したことを確認します。

leaderappのStateが"Online"になっていることを確認します。

以下のコマンドの実行例はどちらも、compute1上でleaderappが起動している場合の出力結果です。

ログインした稼働ノード上でleaderappが起動している場合

# hvdisp -a <RETURN>

Local System: compute1RMS

Configuration: /opt/SMAW/SMAWRrms/build/openstack.us

Resource Type HostName State StateDetails ---compute4RMS SysNode Online

compute3RMS SysNode Online compute2RMS SysNode Online compute1RMS SysNode Online leaderapp userApp Online Machine003_leaderapp andOp compute4RMS

Machine002_leaderapp andOp compute3RMS Machine001_leaderapp andOp compute2RMS

Machine000_leaderapp andOp compute1RMS Online

ManageProgram000_Cmd_LEADERAPP gRes Online

他の稼働ノード上でleaderappが起動している場合

# hvdisp -a <RETURN>

Local System: compute1RMS

Configuration: /opt/SMAW/SMAWRrms/build/openstack.us

Resource Type HostName State StateDetails ---compute4RMS SysNode Online

compute3RMS SysNode Online compute2RMS SysNode Online compute1RMS SysNode Online leaderapp userApp Offline leaderapp userApp compute1RMS Online Machine003_leaderapp andOp compute4RMS

Machine002_leaderapp andOp compute3RMS

Machine001_leaderapp andOp compute2RMS Offline Machine000_leaderapp andOp compute1RMS

ManageProgram000_Cmd_LEADERAPP gRes Online

4.2.4.2 ストレージの復旧

ここでは、ストレージの復旧について説明します。

ストレージシステム内のLUNグループに残っているインスタンスのボリューム情報を削除する手順を説明します。

4.2.4.2.1 業務サーバ(コンピュートノード)上での作業

移動したインスタンスに接続されているボリュームのETERNUS上での登録名と業務サーバ(コンピュートノード)のWWNを調査します。

調査の流れ、および操作手順は、以下のとおりです。

調査の流れ

1.

evacuated_list.logから移動したインスタンスの情報を確認

2.

インスタンスにアタッチされているボリューム情報を確認

3.

インスタンスにアタッチされているボリュームのETERNUS上の登録名を確認

4.

業務サーバ(コンピュートノード)のWWN情報を確認

操作手順

1.

待機ノードにroot権限でログインします。

2.

evacuated_list.logから移動したインスタンスのuuidを確認します。

以下のコマンドを実行します。

# cat /var/opt/FJSVpf4c/logs/evacuated_list.log <RETURN>

20160701-14:04:15 Success c70368a4-66f2-4041-8b94-f1186d231ab0 compute1 compute4 20160701-14:04:16 Success a3038c12-fa9c-495d-9351-5c3b0ddc019b compute1 compute4 20160701-14:04:18 Success dcdb4fd4-643c-4ba6-a54c-e5aa4c502560 compute1 compute4

以降の手順では、削除対象のボリュームを持つインスタンスのuuidがc70368a4-66f2-4041-8b94-f1186d231ab0だった場合を説 明します。

3.

管理サーバ(コントローラーVM2)にroot権限でログインします。

4.

移動したインスタンスのボリュームの情報を取得します。

以下のコマンドを実行します。

# . /root/openrc <RETURN>

# cinder list --all | grep c70368a4-66f2-4041-8b94-f1186d231ab0 <RETURN>

+---+---+---+

| ID | 略 | Attached to | +---+---+---+

| fe8d93eb-c1f9-4cb9-a787-b3ea22d7d55f | 略 | c70368a4-66f2-4041-8b94-f1186d231ab0 | +---+---+---+

| 略 | +---+---+---+

5.

ボリュームの詳細情報を確認します

以下のコマンドを実行し、コマンドの実行結果のFJ_Volume_Nameを控えておきます。

# cinder show fe8d93eb-c1f9-4cb9-a787-b3ea22d7d55f |grep -w metadata <RETURN>

| metadata | { u'FJ_Volume_Name': u'FJosv_2QbyOnrOm2Ce_h7lQ9HlNg==', (略) } |

6.

故障した業務サーバ(コンピュートノード)以外のすべての業務サーバ(コンピュートノード)にroot権限でログインします。

7.

業務サーバ(コンピュートノード)のWWN情報を取得します。

以下のコマンドを実行し、コマンドの実行結果を業務サーバ(コンピュートノード)のWWNとして控えておきます。

# systool -c fc_host -A port_name | awk '/ port_name / {print $3}' | cut -c4-19 <RETURN>

10000000c9d5eb68 10000000c9d5eb69

注意

cinderコマンドを実行した際、以下のようなメッセージが数行表示されますが問題ありません。

WARNING:keystoneclient.auth.identity.base:Failed to contact the endpoint at http://管理サーバ(コントローラーVM1)のサービスLAN のIPアドレス:8776/v2/462f0910891f467e9a7de796cbcf7420 for discovery. Fallback to using that endpoint as the base url.

4.2.4.2.2 ETERNUS 上の作業

「4.2.4.2.1 業務サーバ(コンピュートノード)上での作業」で確認したボリュームが登録されているLUNグループから、不要なボリューム の"ホストLUNとボリュームNo.の割り当て情報"を削除します。

1.

ETERNUS Web GUIにログインします。

2.

[ 接続性 ]ナビの"ホストグループ" の"FC/FCoE"から以下の条件を満たすホストグループを検索し、名前を記録します。

"HOST_NAME#XX"という名前 (XXは整数) かつ

「4.2.4.2.1 業務サーバ(コンピュートノード)上での作業」の手順7.で記録したWWNと一致しないWWNである

3.

[ 接続性 ]ナビから手順2. のホストグループに接続されているLUNグループを確認します。

4.

[ 接続性 ]ナビの"LUNグループ"で、手順3.のLUNグループを選択します。

5.

"LUNグループ変更"で、不要なボリュームの"ホストLUNとボリュームNo.の割り当て情報"を削除します。

詳細は、「ETERNUS Web GUI ユーザーズガイド(設定編)」を参照してください。

注意

LUNグループ内のすべてのボリュームが不要な場合は、LUNグループの属するホストアフィニティを削除してからLUNグループを削 除してください。

4.2.4.3 OS 再起動による業務サーバ ( コンピュートノード ) の復旧

異常の発生した業務サーバ(コンピュートノード)を再起動した際、OSが起動した場合の復旧手順を説明します。

以下の手順にしたがって、業務サーバ(コンピュートノード)が正常に動作していることを確認してください。

業務サーバ(コンピュートノード)のサービスの確認

1.

異常が発生した業務サーバ(コンピュートノード)にroot権限でログインします。

2.

異常が発生した業務サーバ(コンピュートノード)のサービスが起動していることを確認します。

以下のコマンドを実行します。コマンドの詳細は、「2.3.3 rcx_service」を参照してください。

# /opt/FJSVpf4c/bin/rcx_service status <RETURN>

3.

異常が発生した業務サーバ(コンピュートノード)のサービスが起動していない場合には、サービスを起動します。

以下のコマンドを実行します。

# /opt/FJSVpf4c/bin/rcx_service start <RETURN>

Faulted状態のクリア

OSが正常に起動したあと、PRIMECLUSTERのuserApplicationの状態を確認し、Faulted状態となっている場合には状態をクリアしま す。

1.

異常が発生した業務サーバ(コンピュートノード)にroot権限でログインします。

2.

以下のコマンドを実行し、userApplicationの状態を確認します。

userAppのStateが"Faulted"であることを確認します。

コマンドの実行結果の赤文字、かつ下線部がuserAppのStateを示しています。

# hvdisp -T userApplication <RETURN>

Local System: compute1RMS

Configuration: /opt/SMAW/SMAWRrms/build/config.us

Resource Type HostName State StateDetails ---leaderapp userApp Faulted

3.

Faulted状態をクリアします。

手順2.で"Faulted"が表示された場合は、Faulted状態をクリアします。

a.

以下のコマンドを実行し、userAppのFaulted状態をクリアします。

# hvutil -c leaderapp <RETURN>

b.

以下のコマンドを実行し、userApplicationの状態を確認します。

userAppのStateが"Offline"であることを確認します。

コマンドの実行結果の赤文字、かつ下線部がuserAppのStateを示しています。

# hvdisp -T userApplication <RETURN>

Local System: compute1RMS

Configuration: /opt/SMAW/SMAWRrms/build/config.us

Resource Type HostName State StateDetails ---app1 userApp Offline

userAppのStateが"Faulted"から変化しない場合、当社技術員に連絡してください。

稼動ノードで異常が発生した場合

マルチパスデバイス情報の更新

1.

復旧した業務サーバ(コンピュートノード)にroot権限でログインします。

2.

以下のコマンドを実行し、マルチパスデバイス情報を更新します。

# multipath -F <RETURN>

注意

以下のようなメッセージが表示される場合がありますが、問題ありません。

Aug 02 15:39:00 | 3600000e00d11000000110072001b0000: map in use

Aug 02 15:39:00 | failed to remove multipath map 3600000e00d11000000110072001b0000

# multipath -v2 <RETURN>

注意

以下のようなメッセージが表示される場合がありますが、問題ありません。

Aug 02 15:41:31 | 360030057023cffa01f1684c828b6202f: ignoring map create: 3600000e00d11000000110072002c0000 undef FUJITSU ,ETERNUS_DXL size=20G features='0' hwhandler='0' wp=undef

|-+- policy='round-robin 0' prio=50 status=undef

| `- 5:0:0:24 sdc 8:32 undef ready running

`-+- policy='round-robin 0' prio=10 status=undef `- 12:0:0:24 sde 8:64 undef ready running

復旧した業務サーバ(コンピュートノード)を代表ノードに設定

1.

復旧した業務サーバ(コンピュートノード)にroot権限でログインします。

2.

以下のコマンドを実行し、UserApplicationを起動します。

# hvswitch leaderapp compute1RMS <RETURN>

Novaのサービスを"enabled"に変更

1.

管理サーバ(コントローラーVM2)にroot権限でログインします。

ドキュメント内 ユーザーズガイド (ページ 78-87)