Einen Proxmox-Cluster zusammenzuklicken dauert zehn Minuten. Einen Cluster zu bauen, der einen echten Node-Ausfall um drei Uhr nachts ohne Datenverlust übersteht, dauert länger — und genau die Teile, die diesen Unterschied ausmachen, werden am häufigsten übersprungen: Quorum, Fencing und Shared Storage.

Hier der Aufbau eines produktiven 3-Node-HA-Clusters, in der Reihenfolge, in der wir ihn tatsächlich umsetzen.

Warum drei Nodes das Minimum sind

Hochverfügbarkeit in Proxmox beruht auf Corosync und dem Quorum-Prinzip: Entscheidungen darf nur die Mehrheit der Nodes treffen. Mit zwei Nodes gibt es keine Mehrheit — fällt einer aus, weiß der andere nicht, ob sein Partner tot ist oder nur die Verbindung weg (Split-Brain). Beide könnten dieselbe VM starten, was im Shared Storage zu Datenkorruption führt.

Drei Nodes lösen das: Bei einem Ausfall behalten zwei die Mehrheit und handeln sicher. Wer aus Budgetgründen nur zwei Nodes hat, braucht mindestens einen QDevice (ein kleiner externer Quorum-Zeuge) als dritte Stimme — sonst ist es kein HA-Cluster, sondern zwei Server mit gemeinsamem Risiko.

Das Corosync-Netz gehört separat

Corosync ist latenzempfindlich. Wenn der Cluster-Heartbeat über dieselbe Leitung läuft wie VM-Traffic, Backups oder Storage-Replikation, führen kurze Lastspitzen zu verlorenen Heartbeats — und der Cluster „fenced“ Nodes, die in Wahrheit gesund sind. Deshalb:

Dieser eine Punkt verhindert die meisten „der Cluster rebootet sich grundlos“-Tickets.

Den Cluster aufsetzen

Der eigentliche Cluster-Aufbau ist unspektakulär — und das ist gut so. Auf dem ersten Node erzeugt man den Cluster, die weiteren treten bei:

Wichtig: Vor dem Join sollten die Nodes saubere, eindeutige Hostnamen, synchronisierte Zeit (NTP) und funktionierende Namensauflösung haben. Zeitversatz und doppelte Hostnamen sind die zwei klassischen Join-Killer.

Shared Storage — die eigentliche HA-Voraussetzung

HA bedeutet, dass eine VM auf einem anderen Node neu startet, wenn ihr Node ausfällt. Das geht nur, wenn der neue Node die Disk der VM auch erreicht. Lokaler Storage allein reicht dafür nicht. Zwei gängige Wege:

Ein häufiges Missverständnis: Ein NAS per NFS macht den Storage zwar gemeinsam, aber das NAS wird dann selbst zum Single Point of Failure. Echte HA braucht auch beim Storage Redundanz.

Fencing und Watchdog — der übersprungene Teil

Bevor Proxmox eine VM auf einem anderen Node neu startet, muss sicher ausgeschlossen sein, dass sie woanders noch läuft — sonst gibt es dieselbe VM zweimal. Diesen Ausschluss leistet das Fencing. Proxmox nutzt dafür einen Hardware-Watchdog (oder den Software-Watchdog), der einen hängenden oder isolierten Node nach Ablauf eines Timers hart zurücksetzt.

HA-Gruppen und Prioritäten

Nicht jede VM soll überall laufen. Über HA-Gruppen steuert man, auf welchen Nodes eine VM bevorzugt läuft und wohin sie im Failover wandert:

Live-Migration testen — vor dem Ernstfall

Live-Migration verschiebt eine laufende VM ohne nennenswerte Unterbrechung auf einen anderen Node — die Grundlage für wartungsfreie Updates. Das muss vor dem Produktivgang getestet werden, nicht im Störfall improvisiert:

Was im echten Ausfall passiert

Wenn ein Node hart ausfällt, läuft Folgendes ab: Corosync bemerkt den Verlust, die verbleibenden Nodes behalten das Quorum, der ausgefallene Node wird gefenced (Watchdog-Reset), und die HA-Manager starten die betroffenen VMs auf den verbliebenen Nodes neu. Aus VM-Sicht ist das ein unsauberer Neustart — die VM bootet, sie wird nicht live verschoben. Genau deshalb ist Anwendungs-Resilienz (Datenbank-Konsistenz, Wiederanlauf) Teil des Konzepts, nicht nur die Infrastruktur.

Stolperfallen aus echten Projekten

Fazit

Ein belastbarer Proxmox-HA-Cluster steht und fällt mit den unsichtbaren Teilen: einem separaten Corosync-Netz, echtem Shared Storage, funktionierendem Fencing und ehrlicher Kapazitätsreserve. Wer diese vier Punkte ernst nimmt, bekommt eine Plattform, die Wartung im laufenden Betrieb erlaubt und einen Node-Ausfall in Minuten statt in Stunden abfängt.

Wenn Sie einen HA-Cluster planen oder einen bestehenden absichern wollen: unsere Proxmox-Leistung beschreibt das Vorgehen, und für den Storage-Unterbau lohnt der Blick auf die richtige Ceph-Dimensionierung. Grundbegriffe klärt das Glossar zu Proxmox VE — und für Ihren konkreten Fall sprechen Sie uns an.

HA-Cluster geplant oder zu härten?

30 Minuten reichen für eine ehrliche Einschätzung. Kostenfrei, ohne Vertriebsdruck.

← Zurück zur Blog-Übersicht