HAクラスタをDRBDとPacemakerで作ってみよう [Pacemaker編]

さくらインターネット 技術本部の山野です。

サーバは故障したり障害を起こしたりして停止するものですが、ダウンタイムをより短くしなければならないものがあります。 そこで、ストレージレプリケーションソフトウェアDRBDと、HAクラスタ管理ツールPacemakerを用いて、1台のサーバが故障しても動き続けるアクティブ/スタンバイ形式のZabbix監視サーバの作成方法をご紹介します。

前回の記事では、2台のサーバを用意し、ストレージレプリケーションソフトウェアDRBDの設定を行いました。今回の記事はそれに引き続き、Pacemakerを導入して、サーバ故障などの際に自動的に切り替えが行われるHAクラスタを構築します。 まずはLAMP環境とZabbixをセットアップしてから、Pacemakerのインストールと設定を行い、最後にフェイルオーバーを試してみたいと思います。




  • httpd(Apache)、MariaDB、PHP、Zabbixなど、必要なパッケージのインストール
  • DRBDブロックデバイスのマウント
  • MariaDBの起動とZabbix用データベースを作成
  • httpdの設定と起動
  • Zabbixサーバの設定と起動、セットアップウィザードの実行


# yum install mariadb mariadb-server
# yum install httpd php php-mysql php-mbstring
# rpm -i https://repo.zabbix.com/zabbix/4.0/rhel/7/x86_64/zabbix-release-4.0-1.el7.noarch.rpm
# yum install zabbix-server-mysql zabbix-web-mysql zabbix-web-japanese zabbix-agent


// /tmpなどにマウントしたままの場合
[root@ha-a ~]# umount /dev/drbd1

DRBDブロックデバイスをMariaDBで利用するので、ha-a:/var/lib/mysql にマウントします。

[root@ha-a ~]# drbdadm primary r0   <- 既にPrimaryの場合は不要
[root@ha-a ~]# mount /dev/drbd1 /var/lib/mysql
[root@ha-a ~]# chown mysql:mysql /var/lib/mysql


[root@ha-a ~]# systemctl start mariadb
[root@ha-a ~]# mysql_secure_installation
[root@ha-a ~]# echo "create database zabbix default character set utf8;" | mysql -u root -p
[root@ha-a ~]# echo "grant all privileges on zabbix.* to zabbix@localhost identified by 'yourpassword'" | mysql -u root -p


# vi /etc/zabbix/zabbix_server.conf

# vi /etc/httpd/conf.d/zabbix.conf
php_value date.timezone Asia/Tokyo


[root@ha-a ~]# zcat /usr/share/doc/zabbix-server-mysql-*/create.sql.gz | mysql -uzabbix -p zabbix
[root@ha-a ~]# systemctl start httpd
[root@ha-a ~]# systemctl start zabbix-server

http://ha-aのIPアドレス/zabbix/ へアクセスし、Zabbixのセットアップを進めてください。(セットアップ手順についてはこちらの記事をご覧ください)

セットアップ完了後にウィザードによって作成された /etc/zabbix/web/zabbix.conf.php は、ha-bにもコピーしておく必要があります。

[root@ha-a ~]# scp /etc/zabbix/web/zabbix.conf.php ha-b:/etc/zabbix/web/zabbix.conf.php


[root@ha-a ~]# systemctl stop httpd
[root@ha-a ~]# systemctl stop zabbix-server
[root@ha-a ~]# systemctl stop mariadb
[root@ha-a ~]# umount /var/lib/mysql
[root@ha-a ~]# drbdadm secondary r0
[root@ha-a ~]# drbdadm status r0
r0 role:Secondary
  ha-b.example.com role:Secondary

[root@ha-a ~]#


# systemctl stop drbd

Pacemaker, Corosync




# yum install pacemaker pcs corosync
# passwd hacluster  <- 同一のパスワードを設定しておきます。
# systemctl start pcsd
# systemctl enable pcsd


// ha-aとha-bで認証を行う。
[root@ha-a ~]# pcs cluster auth ha-a-local.example.com ha-b-local.example.com
Username: hacluster
Password:             <- 先ほど設定した共通のパスワードを入力
ha-b-local.example.com: Authorized
ha-a-local.example.com: Authorized

// ha-aとha-bを用いてhaというクラスタをセットアップする。
[root@ha-a ~]# pcs cluster setup --name ha ha-a-local.example.com ha-b-local.example.com
Destroying cluster on nodes: ha-a-local.example.com, ha-b-local.example.com...
ha-a-local.example.com: Stopping Cluster (pacemaker)...
ha-b-local.example.com: Stopping Cluster (pacemaker)...
ha-a-local.example.com: Successfully destroyed cluster
ha-b-local.example.com: Successfully destroyed cluster

Sending 'pacemaker_remote authkey' to 'ha-a-local.example.com', 'ha-b-local.example.com'
ha-b-local.example.com: successful distribution of the file 'pacemaker_remote authkey'
ha-a-local.example.com: successful distribution of the file 'pacemaker_remote authkey'
Sending cluster config files to the nodes...
ha-a-local.example.com: Succeeded
ha-b-local.example.com: Succeeded

Synchronizing pcsd certificates on nodes ha-a-local.example.com, ha-b-local.example.com...
ha-b-local.example.com: Success
ha-a-local.example.com: Success
Restarting pcsd on the nodes in order to reload the certificates...
ha-b-local.example.com: Success
ha-a-local.example.com: Success

// start及びenebleする。
[root@ha-a ~]# pcs cluster start --all
ha-a-local.example.com: Starting Cluster...
ha-b-local.example.com: Starting Cluster...

[root@ha-a ~]# pcs cluster enable --all
ha-a-local.example.com: Cluster Enabled
ha-b-local.example.com: Cluster Enabled


[root@ha-a ~]# pcs property set stonith-enabled=false
[root@ha-a ~]# pcs status corosync

Membership information
    Nodeid      Votes Name
         1          1 ha-a-local.example.com (local)
         2          1 ha-b-local.example.com
[root@ha-a ~]# pcs status
Cluster name: ha
Stack: corosync
Current DC: ha-b-local.example.com (version 1.1.18-11.el7_5.3-2b07d5c5a9) - partition with quorum
Last updated: Tue Oct  2 10:45:54 2018
Last change: Tue Oct  2 10:45:32 2018 by hacluster via crmd on ha-b-local.example.com

2 nodes configured       <- 2ノードで構成されている
0 resources configured   <- リソースはまだ未設定なので0

Online: [ ha-a-local.example.com ha-b-local.example.com ]   <- ha-aとha-bがONLINE

No resources

Daemon Status:          <- 関連サービスはactiveでenabled
  corosync: active/enabled
  pacemaker: active/enabled
  pcsd: active/enabled
[root@ha-a ~]#


続いて、Pacemakerで管理するリソースと、リソースに対する制約を登録します。今回は仮想IPアドレスやZabbix, MariaDBなどのリソースを登録しますが、次の条件を満たす必要があります。

  • DRBDはha-a及びha-bの両ノードで動作し、どちらか1ノードでのみPrimaryロールとなる。
  • DRBDがPrimaryロールのノードで、DRBDブロックデバイスのマウントを実施する。
  • DRBD以外の全てのリソースは、DRBDがPrimaryロールのサーバで起動する。
  • DRBDのロール変更やデバイスのマウント、zabbix-serverの起動などには順序がある。





// リソース名: drbd_r0
// DRBDのResource0をリソースとして登録します。
[root@ha-a ~]# pcs resource create drbd_r0 ocf:linbit:drbd drbd_resource=r0 op monitor interval=10s role=Master monitor interval=30s role=Slave

// リソース名: ms_drbd_r0
// リソースdrbd_r0をMaster/Slave形式とし、2ノードで立ち上げ、うち1ノードがMasterとなるように指定します。
// 結果として、ha-aとha-bでDRBDが起動し、どちらか1ノードでのみPrimaryロールとなります。
[root@ha-a ~]# pcs resource master ms_drbd_r0 drbd_r0 master-max=1 master-node-max=1 clone-max=2 clone-node-max=1 notify=true

// リソース名: fs_mysql
// DRBDブロックデバイス /dev/drbd1 を /var/lib/mysql へマウントします。
// また、zabbixリソースグループを作成し所属させます。
// 仮想IPアドレスやzabbix-serverのリソースを、このzabbixリソースグループに所属させることで、同一ノードで順番に起動するようにします。
[root@ha-a ~]# pcs resource create fs_mysql ocf:heartbeat:Filesystem device=/dev/drbd1 directory=/var/lib/mysql fstype=ext4 --group zabbix

// colocation制約
// リソースfs_mysqlはDRBDブロックデバイスをマウントしますので、リソースms_drbd_r0とzabbixリソースグループが同一ノードで起動する制約を付加します。
// あわせて、リソースms_drbd_r0がMaster(= DRBDがPrimaryロール)である制約を付加します。
[root@ha-a ~]# pcs constraint colocation add zabbix ms_drbd_r0 INFINITY with-rsc-role=Master

// リソースfs_mysqlはDRBDブロックデバイスをマウントしますので、リソースms_drbd_r0によってpromoteしてから(DRBDがPrimaryロールとなってから)zabbixリソースグループを起動する制約を付加します。
// 合わせて、今回の登録手順ではこの時点でエラーが発生し正常に稼働していないため、これをクリアしておきます。
[root@ha-a ~]# pcs constraint order promote ms_drbd_r0 then start zabbix
[root@ha-a ~]# pcs resource cleanup

// リソース名: mariadb
// MariaDBをリソースとして登録します。zabbixリソースグループに所属させます。
[root@ha-a ~]# pcs resource create mariadb systemd:mariadb --group zabbix

// リソース名: VirtualIP
// 仮想IPアドレスを設定します。仮想IPアドレス(yourVirtualIP)とサブネット(yourNetmaskCIDR。例:28)は自身の環境に置き換えてください。
// zabbixリソースグループに所属させます。
[root@ha-a ~]# pcs resource create VirtualIP ocf:heartbeat:IPaddr2 ip=yourVirtualIP cidr_netmask=yourNetmaskCIDR --group zabbix

// リソース名: httpd
// httpdをリソースとして登録します。zabbixリソースグループに所属させます。
[root@ha-a ~]# pcs resource create httpd systemd:httpd --group zabbix

// リソース名: zabbix-server
// zabbix-serverをリソースとして登録します。zabbixリソースグループに所属させます。
[root@ha-a ~]# pcs resource create zabbix-server systemd:zabbix-server --group zabbix

上記のコマンドを入力すると、仮想IPアドレスを用いてZabbixのWebUIへのアクセスが行え、zabbix-serverも起動していると思います。実際にウェブブラウザで仮想IPアドレスにアクセスし、WebUIを確認したり、pcs status コマンドで正常に動作していることを確認したりしてください。


[root@ha-a ~]# pcs status
Cluster name: ha
Stack: corosync
Current DC: ha-a-local.example.com (version 1.1.18-11.el7_5.3-2b07d5c5a9) - partition with quorum
Last updated: Wed Oct  3 11:54:25 2018
Last change: Wed Oct  3 11:54:11 2018 by root via cibadmin on ha-a-local.example.com

2 nodes configured
7 resources configured

Online: [ ha-a-local.example.com ha-b-local.example.com ]  <- 2ノードがONLINEとなっている。

Full list of resources:

 Master/Slave Set: ms_drbd_r0 [drbd_r0]   <- DRBDがha-aでMaster, ha-bでSlaveとなっている。
     Masters: [ ha-a-local.example.com ]
     Slaves: [ ha-b-local.example.com ]
 Resource Group: zabbix                   <- zabbixリソースグループに登録順にリソースが登録されている。
     fs_mysql   (ocf::heartbeat:Filesystem):    Started ha-a-local.example.com
     mariadb    (systemd:mariadb):      Started ha-a-local.example.com
     VirtualIP  (ocf::heartbeat:IPaddr2):       Started ha-a-local.example.com
     httpd      (systemd:httpd):        Started ha-a-local.example.com
     zabbix-server      (systemd:zabbix-server):        Started ha-a-local.example.com

Daemon Status:                           <- 各デーモンはactiveで自動起動がenabledとなっている。
  corosync: active/enabled
  pacemaker: active/enabled
  pcsd: active/enabled
[root@ha-a ~]# drbdadm status r0         <- 想定通りDRBDが起動し、ローカルホスト(ha-a)がPrimary、対向ホスト(ha-b)がSecondaryとなっている。
r0 role:Primary
  ha-b.example.com role:Secondary

[root@ha-a ~]#





// ha-aをスタンバイにする。
[root@ha-a ~]# pcs cluster standby ha-a-local.example.com
[root@ha-a ~]# pcs status
Cluster name: ha
Stack: corosync
Current DC: ha-a-local.example.com (version 1.1.18-11.el7_5.3-2b07d5c5a9) - partition with quorum
Last updated: Wed Oct  3 12:01:14 2018
Last change: Wed Oct  3 12:00:33 2018 by root via cibadmin on ha-a-local.example.com

2 nodes configured
7 resources configured

Node ha-a-local.example.com: standby   <- ha-aがstandbyとなる。
Online: [ ha-b-local.example.com ]

Full list of resources:

 Master/Slave Set: ms_drbd_r0 [drbd_r0]
     Masters: [ ha-b-local.example.com ]
     Stopped: [ ha-a-local.example.com ]
 Resource Group: zabbix                <- 各リソースがha-bで起動する。
     fs_mysql   (ocf::heartbeat:Filesystem):    Started ha-b-local.example.com
     mariadb    (systemd:mariadb):      Started ha-b-local.example.com
     VirtualIP  (ocf::heartbeat:IPaddr2):       Started ha-b-local.example.com
     httpd      (systemd:httpd):        Started ha-b-local.example.com
     zabbix-server      (systemd:zabbix-server):        Started ha-b-local.example.com

Daemon Status:
  corosync: active/enabled
  pacemaker: active/enabled
  pcsd: active/enabled
[root@ha-a ~]#


[root@ha-b ~]# drbdadm status r0
r0 role:Primary
  ha-a.example.com connection:Connecting

[root@ha-b ~]#


[root@ha-a ~]# pcs cluster unstandby ha-a-local.example.com


ホストの停止によるフェイルオーバーをテストするために、まずクラウドのコントロールパネルからha-bを強制停止します。その後、pcs statusにて各種リソースの起動ホストがha-aに切り替わっていることと、Zabbix等の動作の確認を行います。


// ha-bをクラウドのコントロールパネルから強制停止する。
// その後、pcs statusで状態を確認する。
[root@ha-a ~]# pcs status
Cluster name: ha
Stack: corosync
Current DC: ha-a-local.example.com (version 1.1.18-11.el7_5.3-2b07d5c5a9) - partition with quorum
Last updated: Wed Oct  3 12:08:08 2018
Last change: Wed Oct  3 12:04:37 2018 by root via cibadmin on ha-a-local.example.com

2 nodes configured
7 resources configured

Online: [ ha-a-local.example.com ]
OFFLINE: [ ha-b-local.example.com ]  <- ha-bがOFFLINEになっている。

Full list of resources:

 Master/Slave Set: ms_drbd_r0 [drbd_r0]
     Masters: [ ha-a-local.example.com ]
     Stopped: [ ha-b-local.example.com ]
 Resource Group: zabbix              <- ha-aでリソースが起動している。
     fs_mysql   (ocf::heartbeat:Filesystem):    Started ha-a-local.example.com
     mariadb    (systemd:mariadb):      Started ha-a-local.example.com
     VirtualIP  (ocf::heartbeat:IPaddr2):       Started ha-a-local.example.com
     httpd      (systemd:httpd):        Started ha-a-local.example.com
     zabbix-server      (systemd:zabbix-server):        Started ha-a-local.example.com

Daemon Status:
  corosync: active/enabled
  pacemaker: active/enabled
  pcsd: active/enabled
[root@ha-a ~]#

確認ができたらクラウドのコントロールパネルにてha-bを起動し、pcs statusを再び確認しておきます。



[root@ha-a ~]# pkill httpd
[root@ha-a ~]# ps axu | grep http[d]
[root@ha-a ~]# pcs status --full
Cluster name: ha
Stack: corosync
Current DC: ha-a-local.example.com (1) (version 1.1.18-11.el7_5.3-2b07d5c5a9) - partition with quorum
Last updated: Tue Oct  2 17:31:15 2018
Last change: Tue Oct  2 17:22:22 2018 by root via cibadmin on ha-a-local.example.com

2 nodes configured
7 resources configured

Online: [ ha-a-local.example.com (1) ha-b-local.example.com (2) ]

Full list of resources:

 Master/Slave Set: ms_drbd_r0 [drbd_r0]
     drbd_r0    (ocf::linbit:drbd):     Master ha-a-local.example.com
     drbd_r0    (ocf::linbit:drbd):     Slave ha-b-local.example.com
     Masters: [ ha-a-local.example.com ]
     Slaves: [ ha-b-local.example.com ]
 Resource Group: zabbix
     drbd1      (ocf::heartbeat:Filesystem):    Started ha-a-local.example.com
     mariadb    (systemd:mariadb):      Started ha-a-local.example.com
     VirtualIP  (ocf::heartbeat:IPaddr2):       Started ha-a-local.example.com
     httpd      (systemd:httpd):        Started ha-a-local.example.com   <- Pacemakerによって改めて起動される。
     zabbix-server      (systemd:zabbix-server):        Started ha-a-local.example.com

Node Attributes:
* Node ha-a-local.example.com (1):
    + master-drbd_r0                    : 10000
* Node ha-b-local.example.com (2):
    + master-drbd_r0                    : 10000

Migration Summary:
* Node ha-a-local.example.com (1):  <- ha-aでhttpdにfail-countが加算される。
   httpd: migration-threshold=1000000 fail-count=1 last-failure='Tue Oct  2 17:27:52 2018'
* Node ha-b-local.example.com (2):

Failed Actions:                     <- ha-aでhttpdが起動していなかった事が示される。
* httpd_monitor_60000 on ha-a-local.example.com 'not running' (7): call=88, status=complete, exitreason='',
    last-rc-change='Tue Oct  2 17:27:52 2018', queued=0ms, exec=0ms

PCSD Status:
  ha-a-local.example.com: Online
  ha-b-local.example.com: Online

Daemon Status:
  corosync: active/enabled
  pacemaker: active/enabled
  pcsd: active/enabled
[root@ha-a ~]#


[root@ha-a ~]# pcs resource cleanup httpd


// migration-thresholdを変更
[root@ha-a ~]# pcs resource defaults migration-threshold=1
Warning: Defaults do not apply to resources which override them with their own defined values

// httpdをkillして確認してみる
[root@ha-a ~]# pkill httpd
[root@ha-a ~]# ps axu | grep http[d]
[root@ha-a ~]# pcs status --full
Cluster name: ha
Stack: corosync
Current DC: ha-a-local.example.com (1) (version 1.1.18-11.el7_5.3-2b07d5c5a9) - partition with quorum
Last updated: Tue Oct  2 17:34:56 2018
Last change: Tue Oct  2 17:32:53 2018 by root via cibadmin on ha-a-local.example.com

2 nodes configured
7 resources configured

Online: [ ha-a-local.example.com (1) ha-b-local.example.com (2) ]

Full list of resources:

 Master/Slave Set: ms_drbd_r0 [drbd_r0]
     drbd_r0    (ocf::linbit:drbd):     Slave ha-a-local.example.com
     drbd_r0    (ocf::linbit:drbd):     Master ha-b-local.example.com
     Masters: [ ha-b-local.example.com ]
     Slaves: [ ha-a-local.example.com ]
 Resource Group: zabbix
     drbd1      (ocf::heartbeat:Filesystem):    Started ha-b-local.example.com
     mariadb    (systemd:mariadb):      Started ha-b-local.example.com
     VirtualIP  (ocf::heartbeat:IPaddr2):       Started ha-b-local.example.com
     httpd      (systemd:httpd):        Started ha-b-local.example.com                 <- 他のリソースもha-aからha-bにフェイルオーバーしている。
     zabbix-server      (systemd:zabbix-server):        Started ha-b-local.example.com

Node Attributes:
* Node ha-a-local.example.com (1):
    + master-drbd_r0                    : 10000
* Node ha-b-local.example.com (2):
    + master-drbd_r0                    : 10000

Migration Summary:
* Node ha-a-local.example.com (1):
   httpd: migration-threshold=1 fail-count=1 last-failure='Tue Oct  2 17:34:30 2018'  <- fail-countがmigration-thresholdに達している。
* Node ha-b-local.example.com (2):

Failed Actions:
* httpd_monitor_60000 on ha-a-local.example.com 'not running' (7): call=109, status=complete, exitreason='',
    last-rc-change='Tue Oct  2 17:34:30 2018', queued=0ms, exec=0ms

PCSD Status:
  ha-a-local.example.com: Online
  ha-b-local.example.com: Online

Daemon Status:
  corosync: active/enabled
  pacemaker: active/enabled
  pcsd: active/enabled
[root@ha-a ~]#


[root@ha-a ~]# pcs resource cleanup httpd
[root@ha-a ~]# pcs status




