Jump to content

Fail-over-Cluster: VM zeigt keine Reaktion und kann auch nicht vom Cluster entfernt werden


Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Empfohlene Beiträge

Hallo Zusammen, 

 

ich habe einen 2-Node-Fail-over-Cluster (beide Win-Server 2019) auf denen ich ca. 20 VMs laufen haben. Nach einem Update beider Nodes blieben 3 VMs im Status "offline" und ein manueller Start war auch nicht möglich, mit Ausnahme bei einer VM. Nachdem ich versucht habe die VMs manuell zu starten sind sie in dem Status "failed" gegangen. Ich versuchte dann die beiden  VMs aus dem Cluster zu entfernen, was ebenfalls nicht möglich war. 

Folgende zwei Updates wurden eingespielt: KB5007206 und KB5008873

Beide Updates sollten nach meinen Recherchen zu keinen Problemen führen.

 

Die VMs per Powershell zu entfernen hat auch fehlgeschlagen. 

Im Cluster-Log kommen immer wieder die Einträge "OnlinePending" und "WaitingToComeOnline" bei beiden VMs vor.

 

Hat jemand eine Idee wie ich die beiden VMs wieder zum Laufen bekomme? Oder wie ich die beiden VMs aus dem Cluster bekomme und aus dem HV-Manager entferne?

 

Danke im Voraus für eure Comments.

 

BG

Dexter

 

 

 

Link zu diesem Kommentar

Hi Nils,

 

über die GUI im Fail-over-Cluster Manger die Role auswählen und Delete. Der Vorgang bis das PopUp-Fenster zum Löschen der Role kommt dauert bereits sehr lange und danach versucht er die Role zu löschen endet aber im Status "Operation failed" (dauert auch wieder ca. 5min). Eine weitere Fehlermeldung nach ca. 10min:

Deleting 'VM03' failed.

Information is no longer available about this task because the object that monitors the progress no longer exists. This may occur when many tasks are being processed.

 

Im Event Log der VM kommen folgende Einträge:

 

Event-ID 1069: Cluster resource 'Virtual Machine Configuration VM03' of type 'Virtual Machine Configuration' in clustered role 'VM03' failed.

Based on the failure policies for the resource and role, the cluster service may try to bring the resource online on this node or move the group to another node of the cluster and then restart it.  Check the resource and group state using Failover Cluster Manager or the Get-ClusterResource Windows PowerShell cmdlet.

 

Event-ID 21502: 'Virtual Machine Configuration VM03' failed to unregister the virtual machine with the virtual machine management service.

 

 

PS: Remove-ClusterGroup -Name 'VM03' -force -RemoveResources

 

Ewig keine Rückmeldung. 

 

Was ebenfalls sehr merkwürdig ist, dass bei beiden VMs im Cluster-Manager nach dem Versuch sie zu starten das falsche Owner-Node angezeigt wird. 

 

BG

Dexter

Link zu diesem Kommentar

Moin,

 

Lassen sich die VMs über den Hyper-V-Manager oder per Start-VM starten?

 

Sind die zugehörigen Dateien vollständig? Sonst irgendwas auffällig bei diesen VMs?

 

Da scheint irgendwas nicht in Ordnung zu sein - ich hoffe, du hast laufende Backups der wichtigen VMs, Applikationen und Daten. Ich würde im Moment nicht ausschließen, dass der Cluster einen weg hat und das Problem sich noch verschlimmert.

 

Gruß, Nils

Link zu diesem Kommentar

Mit Start-VM bekomm ich die Rückmeldung: cannot contact virtual storage

VM wechselt in den Status "Off-Critical"

Über die GUI dasselbe Problem. 

Alle dazugehörigen Dateien sind vorhanden. Zugriff auf die Dateien besteht auch. 

Die VMs reagieren sehr Zeit verzögert, unabhängig was ich versuche zu machen. Rein der Aufruf der Settings dauert schon 5min. Bei den anderen VMs ist dieses Verhalten nicht. 

 

Backup ist vorhanden. Deshalb würde ich gern beide VMs aus dem Cluster entfernen, damit ich das Backup einspielen kann.

Befürchtest du, dass der Cluster ein Problem hat? Oder, dass die beiden VMs zu einen Problem für den Cluster werden können und dadurch sich alles verschlimmert. 

 

Bei der Cluster Validation wurden wiederum die beiden VMs als Problem (Warning) dargestellt.

Und zusätzlich, dass die beiden Nodes nicht die gleichen Updates installiert haben. Ein Vergleich zeigt jedoch was anderes. Bei Node 1 fehlen ihm folgende zwei Updates "KB2267602' und 'KB4052623' und am Node 2 sollten alle Updates vorhanden sein (konnte aber die fehlenden von Node 1 auch nicht auf Node 2 finden). 

Zusätzlich gibt er mir noch die Meldung, dass Updates auf einen Restart warten. Ich werde jetzt mal beide Node nacheinander restarten und hoffe, dass nicht mehr VMs den Geist aufgeben. 

 

BG

Dexter

 

 

Link zu diesem Kommentar

Hi,

 

noch ein Schuss ins Blaue: Ist auf den Hyper-V Hosts (oder ggfs. dem Storage) eine 3rd Party Antivirus oder Security Software installiert? Falls ja, sind dort alle benötigten Ausnahmen für Hyper-V / Failover Cluster gesetzt?

 

vor 26 Minuten schrieb Dexter_42:

Alle dazugehörigen Dateien sind vorhanden. Zugriff auf die Dateien besteht auch. 

Hast du mal versucht die Dateien an einen anderen Ort zu kopieren, ob die wirklich "lesbar" sind?

Das Storage (welches?) untendrunter hat auch keine Probleme?

 

Je nachdem wo du das höchste Supportlevel hast / überall (Server Hersteller, Storage Hersteller, Microsoft), einen Case aufmachen? 

 

Gruß

Jan

Link zu diesem Kommentar

@Nobbyaushb - Backup aller VMs ist gerade am laufen, danach werde ich den Cluster in den Wartungsmodus versetzen. 

 

@testperson - keine sonstige Software weder auf den HV-Nodes noch auf den File-Servern laufen. Ausnahmen passen alle. Der Cluster läuft bereits zwei Jahren einwandfrei und die Probleme sind erst jetzt aufgetreten. Dateien können kopiert werden und sind lesbar. Das Storage und die Fileserver laufen einwandfrei. 

 

@Sunny61 - leider nicht vorhanden. VMM leider nicht im Einsatz. 

Link zu diesem Kommentar

Moin,

 

vor 2 Stunden schrieb Dexter_42:

cannot contact virtual storage

naja, ich finde das ja recht deutlich - anscheinend kann der Dienst nicht auf die Dateien zugreifen. Dass du es mit deinem Account kannst, ist ja nicht dasselbe.

 

Ich kann aus dem Kopf nicht sagen, wie die Berechtigungen aussehen müssen, aber in die Richtung sollte man schon noch mal weiter suchen.

 

Gruß, Nils

 

Link zu diesem Kommentar

@Nobbyaushb - ich glaub Sunny61 hat den SCVMM gemeint. Im HV-Manager gibt es die Funktion reparieren nicht. Volumen sind alle online. Die VMs liegen alle auf CSVs.

 

@NilsK - war auch mein erster Gedanke aber eine genaue Betrachtung und Vergleich der Berechtigungen mit anderen VMs haben mir gezeigt, dass alle notwendigen Berechtigungen gesetzt sind.  

 

@Sunny61 - im Failover Manager leider nicht vorhanden

Link zu diesem Kommentar
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Schreibe einen Kommentar

Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung jetzt entfernen

  Only 75 emoji are allowed.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor-Fenster leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

×
×
  • Neu erstellen...