HCIの共有ストレージは、フェイルオーバーするときどのような挙動になりますか?

guerrillabuzz-7hA2wqBcSF8-unsplash.jpg

質問

HCIの共有ストレージは、フェイルオーバーするときどのような挙動になりますか?
またどのような設定をしておく必要がありますか?


解答

とても良い質問です。
HCI(Hyper-Converged Infrastructure)における共有ストレージのフェイルオーバー動作は、従来のSAN/NAS型ストレージとは構造的に異なります。
以下で、仕組み → フェイルオーバー時の挙動 → 必要な設定(設計上の注意)を順に説明します。


1. HCIにおける「共有ストレージ」の位置づけ

HCIでは、各ノードが自前のローカルディスク(NVMe, SSD, HDDなど)を持ち、 それをソフトウェアで仮想的に統合し、共有ストレージとして提供します。

つまり、
* 実体は分散しているが、
* 仮想マシン(VM)
からは一つの共有ストレージに見える。

この仮想ストレージ層は、ソフトウェア(例:vSAN、Nutanix AOS、Azure Stack HCI Storage Spaces Directなど)が管理しています。


2. フェイルオーバー時の典型的な挙動

フェイルオーバーのトリガー

ノード障害やネットワーク断、電源断などが発生すると、 クラスタ管理ソフトウェアがノードのダウンを検出し、 自動的にフェイルオーバーを開始します。


【ステップ別の挙動】



(1) ノード障害検出

* 心拍(heartbeat)またはクラスタ通信が一定時間途絶えると、 該当ノードを「ダウン」と判定。
* タイムアウト値は実装によって異なります(例:vSANでは約5〜10秒程度)。


(2) ストレージ・レプリカからの復旧

* 共有ストレージのデータは通常、他ノードにも複製(replicaまたはparity)されています。
* 障害ノードが持つデータのコピーを、他ノードのレプリカから読み出してI/Oを継続。
* 書き込みも別ノードへ自動的にリルートされます。


(3) 仮想マシンのフェイルオーバー(HA機構)

* 仮想マシンを動かしていたホストが停止すると、 クラスタ内の別ノードでVMが再起動される(自動 or 手動)。
* ストレージは分散構成なので、VMのディスクファイルは他ノードから即座に利用可能。


(4) 障害ノードの復旧時

* 障害ノードが復旧すると、クラスタが自動的に再同期を行い、 欠損していたレプリカやパリティを再構築(rebuild)します。
* この再同期中も、稼働中のVMは停止せずI/Oを継続できます。


3. フェイルオーバー時の注意点・性能影響

要素挙動 / 影響
I/Oパスの切替数秒〜数十秒程度の一時I/O停止が起こる場合あり(実装依存)
性能フェイルオーバー直後は負荷が残ノードに集中するため、スループットが低下
レプリカ数冗長構成(例:2 or 3レプリカ、パリティ構成)がなければデータ消失のリスク
同期再構築復旧後のノードがクラスタ全体に再同期する間、I/Oが増加し性能低下する可能性


4. 事前に必要な設定・設計上のポイント

(1) レプリケーションポリシー

* データの冗長性(耐障害性)を確保する設定。
例:
* vSAN:FTT (Failures To Tolerate) = 1 または 2
* Nutanix:RF (Replication Factor) = 2 or 3

→ ノード障害に備えるなら最低2レプリカ。


(2) HA(High Availability)設定

* 仮想マシンの自動再起動を有効にしておく。
* VMwareなら vSphere HA
* Nutanixなら AHA (Nutanix HA)
* Hyper-Vなら Failover Clustering

(3) ネットワークの二重化

* ストレージ通信と管理通信を別ネットワークに分離。
* NICのチーミングまたはLACPで冗長化。
→ ネットワーク断で誤検知(false failover)を防止。


(4) クォーラム構成

* 2ノード構成では、外部にWitness(第三の投票者)を配置しスプリットブレインを防ぐ。
* 3ノード以上なら多数決で自動制御可能。


(5) 再同期ポリシー

* 障害復旧後の自動リビルド(再同期)を有効化しておく。
* 帯域制限設定がある場合、夜間など低負荷時に実施されるようスケジューリングも可。


(6) バックアップ/スナップショットの定期運用

* フェイルオーバーでは冗長性は保てても、論理的破損(削除・暗号化など)は防げない。
* 外部バックアップは必須。


5. まとめ(要点)

項目概要
共有ストレージ構造分散ストレージ(各ノードのローカルディスクを仮想的に統合)
フェイルオーバー時障害ノードを自動切替し、他ノードのレプリカからI/O継続
必要設定レプリカ数(FTT/RF)、HA構成、ネットワーク冗長化、クォーラム、再同期設定
性能影響短時間のI/O停止・スループット低下・再同期負荷発生
ポイントデータ冗長性+クラスタ健全性監視+HAポリシーの整備が鍵




システム設計の基礎から実践まで 1からはじめるITアーキテクチャー構築入門【電子書籍】[ 二上 哲也 ]

価格:2750円
(2025/10/17 23:53時点)
感想(0件)


入門監視 モダンなモニタリングのためのデザインパターン Mike Julian/著 松浦隼人/訳

価格:3080円
(2024/4/27 23:35時点)
感想(0件)


 



この記事へのコメント

広告です。クリックいただけると励みになります。