Cybersecurity
DevOps Cloud
IT Operations Cloud
ESM の HA について問い合わせを受けることがあります。
次はESM 6.9.1 時点の HA に関する資料でご参考にしていただきたいのですが、
変更点などあるかもしれませんので次の最新版のドキュメントのご参照をお願い致します。
PDF
------------------------------------------------------------
ESM Active-Passive High Availability Module User's Guide
HTML版
https://www.microfocus.com/documentation/arcsight/arcsight-esm-7.6/APHA_UserGuide/
PDF版
https://www.microfocus.com/documentation/arcsight/arcsight-esm-7.6/pdfdoc/APHA_UserGuide/APHA_UserGuide.pdf
------------------------------------------------------------
これまでのお問い合わせからご注意いただき点は以下の通りです。
1.Shared Diskについて
Shared Disk はそれぞれのノードで物理的に異なるディスクが必要です。
Oracle Real Application Cluster (RAC) のように
物理的な1つのディスクを双方のノードから共有しているわけではありません。
また、DRDBを使用し、まずプライマリのディスクが更新され、
その後、更新されたブロックがセカンダリのディスクに送られます。
そのため、ディスクのミラーリングのように同時に更新されているわけではありません。
2.セカンダリの方のディスクが参照できない
セカンダリの方のディスクは、ローデバイスとしてOS上のファイルシステムからは参照できません。
また、セカンダリでは ESM のアプリケーションは稼働していません。
セカンダリにフェールオーバーされるとディスクがマウントされ、OS上のファイルシステムで参照できるようになります。
3.ESM がハングしたがフェールオーバーしない
フェールオーバーのトリガに関してはドキュメント(81ページ)に次の記載があります。
-------------------------------------------------
Failover Triggers
The following situations can trigger a failover:
・ You place the primary in offline mode using the arcsight_cluster command.
・ The primary operating system goes down. In the case of a routine system restart, the
machine doing the restart might continue to be primary. This is true when the system
starts again before the failover had time to trigger.
・ The hard disk on the primary system fails.
・ The primary system loses an internet connection.
The following situations do not trigger a failover:
・ You manually stop the ArcSight Manager or any of its services. For example, changing a
property in the server.properties file and starting the Manager again does not trigger a
failover.
・ The network switch fails, causing a communications failure to both primary and secondary
systems. Users will immediately detect that the ArcSight Console or ArcSight Command
Center has lost communication with the Manager. The primary continues to run and
connectors cache events until communications are restored, at which time the primary
ESM continues as usual.
・ The primary system runs out of disk space and the secondary system also runs out of space
because of mirroring.
-------------------------------------------------
Oracle Database の Oracle RAC のように、各ノードで Oracle のプロセスが稼働し、
それらのプロセス同士が死活を監視しているわけではなく、
ESM のアプリケーションがハングしてもフェールオーバーのトリガにはなりません。
DRBDを使用しているため、個人的な意見ですがどちらかというと OS、ハードディスクおよびネットワークなどの障害用とお考えいただいた方がよいと思います。