質問
HCIの共有ストレージは、フェイルオーバーするときどのような挙動になりますか? またどのような設定をしておく必要がありますか? |
解答
とても良い質問です。 HCI(Hyper-Converged Infrastructure)における共有ストレージのフェイルオーバー動作は、従来のSAN/NAS型ストレージとは構造的に異なります。 以下で、仕組み → フェイルオーバー時の挙動 → 必要な設定(設計上の注意)を順に説明します。 1. HCIにおける「共有ストレージ」の位置づけ HCIでは、各ノードが自前のローカルディスク(NVMe, SSD, HDDなど)を持ち、 それをソフトウェアで仮想的に統合し、共有ストレージとして提供します。 つまり、 * 実体は分散しているが、 * 仮想マシン(VM) からは一つの共有ストレージに見える。 この仮想ストレージ層は、ソフトウェア(例:vSAN、Nutanix AOS、Azure Stack HCI Storage Spaces Directなど)が管理しています。 2. フェイルオーバー時の典型的な挙動 フェイルオーバーのトリガー ノード障害やネットワーク断、電源断などが発生すると、 クラスタ管理ソフトウェアがノードのダウンを検出し、 自動的にフェイルオーバーを開始します。 【ステップ別の挙動】 (1) ノード障害検出 * 心拍(heartbeat)またはクラスタ通信が一定時間途絶えると、 該当ノードを「ダウン」と判定。 * タイムアウト値は実装によって異なります(例:vSANでは約5〜10秒程度)。 (2) ストレージ・レプリカからの復旧 * 共有ストレージのデータは通常、他ノードにも複製(replicaまたはparity)されています。 * 障害ノードが持つデータのコピーを、他ノードのレプリカから読み出してI/Oを継続。 * 書き込みも別ノードへ自動的にリルートされます。 (3) 仮想マシンのフェイルオーバー(HA機構) * 仮想マシンを動かしていたホストが停止すると、 クラスタ内の別ノードでVMが再起動される(自動 or 手動)。 * ストレージは分散構成なので、VMのディスクファイルは他ノードから即座に利用可能。 (4) 障害ノードの復旧時 * 障害ノードが復旧すると、クラスタが自動的に再同期を行い、 欠損していたレプリカやパリティを再構築(rebuild)します。 * この再同期中も、稼働中のVMは停止せずI/Oを継続できます。 3. フェイルオーバー時の注意点・性能影響
4. 事前に必要な設定・設計上のポイント (1) レプリケーションポリシー * データの冗長性(耐障害性)を確保する設定。 例: * vSAN:FTT (Failures To Tolerate) = 1 または 2 * Nutanix:RF (Replication Factor) = 2 or 3 → ノード障害に備えるなら最低2レプリカ。 (2) HA(High Availability)設定 * 仮想マシンの自動再起動を有効にしておく。 * VMwareなら vSphere HA * Nutanixなら AHA (Nutanix HA) * Hyper-Vなら Failover Clustering (3) ネットワークの二重化 * ストレージ通信と管理通信を別ネットワークに分離。 * NICのチーミングまたはLACPで冗長化。 → ネットワーク断で誤検知(false failover)を防止。 (4) クォーラム構成 * 2ノード構成では、外部にWitness(第三の投票者)を配置しスプリットブレインを防ぐ。 * 3ノード以上なら多数決で自動制御可能。 (5) 再同期ポリシー * 障害復旧後の自動リビルド(再同期)を有効化しておく。 * 帯域制限設定がある場合、夜間など低負荷時に実施されるようスケジューリングも可。 (6) バックアップ/スナップショットの定期運用 * フェイルオーバーでは冗長性は保てても、論理的破損(削除・暗号化など)は防げない。 * 外部バックアップは必須。 5. まとめ(要点)
|
|
|
この記事へのコメント