Jump to content

Server 2003 Cluster Service stürzt ab


Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Empfohlene Beiträge

Hallo zusammen,

 

seit knapp 2 Wochen habe ich hier ein Problem mit einem Server 2003 R2 x64 aktiv/passiv File-Cluster, bestehend aus zwei Maschinen. Egal welche Maschine gerade die Fileshares und die Cluster-Group hält (bei uns immer ein und dieselbe Maschine), in unregelmäßigen Abständen stürzt das Cluster einfach ab. Wie zum Beispiel heute, als der Cluster/Fileserver erst im Eventlog folgendes meldet:

 

A process serving application pool 'DefaultAppPool' failed to respond to a ping. The process id was '2868'. Source W3SVC, Event-ID 1010.

 

Zehn Minuten später folgen dann diese Meldung:

 

The node lost communication with cluster node 'Cluster' on network 'Team_Cluster'.

 

The node lost communication with cluster node 'Cluster' on network 'Heartbeat'.

 

Cluster node "Cluster" ist der Server, der die File- und Clustergruppe hält, Team_Cluster ist die geteamte HP NC373 Gigabit Netzkarte mit einem HP Smart Array P400 Controller und SAn-Platten im Hintergrund.

 

Der Server hängt sich im laufenden Betrieb auf, ein Swap der Ressourcen ist nicht mehr möglich, da ich zu dem Zeitpunkt auf beiden Maschinen den Cluster-Manager nicht mehr öffnen kann. Als Lösung kann ich nur den aufgehängten Server komplett rebooten und dann findet sich das Cluster von alleine wieder.

Hat mir jemand Tipps oder kennt so ein Verhalten von einem Server 2003 Cluster?

Wir haben das identische Cluster nochmals in betrieb, ohne jegliche Probleme und mit gleichen Treibern.

 

Grüße

Alex

Link zu diesem Kommentar

@ Norbert:

Soweit ich das sehe, ja. Allerdings habe ich das System vor einem halben Jahr übernommen und ich werde das nochmals gegenprüfen.

Die HP Treiber, Firmware und MPIO-Updates habe ich erneuert.

 

@ Lian:

Der IIS läuft, auch bei einem Ausfall, dennoch erscheint bei jedem Ausfall die Application Pool Meldung im IIS. Danach hängt sich die Maschine mit der Clustergroup / Fileshare, das Teaming ist nicht mehr möglich und ich kann die Ressourcen nicht mehr swappen, obwohl die zweite Maschine da ist.

 

Viele Grüße

Alex

Link zu diesem Kommentar

Ich lese aus Deiner Antwort, daß der IIS auf den Cluster Knoten läuft und benutzt wird (korrekt?), aber nicht als Cluster Ressource konfiguriert ist?

 

Lasse mal einen Cluster Validate laufen und prüfe den erzeugten Report.

 

Über 'cluster log /g' in der Eingabeaufforderung kannst Du ein cluster.log erzeugen, das Ergebnis findest Du dann unter %windir%\Cluster\Reports. Diese hilft bei der detaillierten Analyse.

Link zu diesem Kommentar

Hatten heute morgen wieder einen Clusterausfall. Diesmal kein Application Pool Fehler, sondern der Cluadmin Dienst, der auf der aktiven Node hing. Selbes Bild, die aktive Maschine zeigt nur einen grauen Hintergrund, der Cluster Admin ist nicht aufrufbar, das das Cluster nicht gefunden werden kann, die Ressourcen swappen nicht und alles steht, bis die besagte Maschine von Hand wieder gestartet wird.

 

post-53507-13567390185803_thumb.jpg

 

Bin gerade dabei, beide Maschinen mit den empfohlenen Clusterupdates zu versorgen.

Hat jemand noch Tipps?

 

Grüße

Alex

Link zu diesem Kommentar
Lian, als Cluster-Ressource werden Ordner aus der Defualt Website im IIS benutzt.
Als Freigaben? Mir ist immer noch unklar, was der IIS auf einem File-Cluster zu suchen hat.
Der Befehl cluster log /g funktioniert bei mir leider nicht. Geht der nur unter Server 2008?
Unter 2003 kannst Du das cluster.log direkt hier abgreifen: \\%windir%\cluster
Hatten heute morgen wieder einen Clusterausfall. Diesmal kein Application Pool Fehler, sondern der Cluadmin Dienst, der auf der aktiven Node hing.
Das ist ein Absturz des Dienstes, betrifft das immer nur einen Node?
Bin gerade dabei, beide Maschinen mit den empfohlenen Clusterupdates zu versorgen.
Gute Maßnahme ;)
Link zu diesem Kommentar

Hi Lian,

 

danke für die schnelle Antwort.

Der IIS ist eine weitere Applikation auf dem Server, der nix mit dem Cluster und den Fileshares zu tun hat. Das cluster.log gibt keinerlei Fehlermeldung her und mittlerweile hat sich erneut das System mit den aktiven Fileshares aufgehängt. Und ja, es ist immer nur eine Maschine. Am Freitag Nacht war es beispielsweise die passive Node, die sich aufgehängt hat. Vor ein paar Minuten war es jetzt Event-ID 1055: Cluster File Share ressource "XXXXX" has failed a status check. The error code is 64. Danach kam ein Fileshare nach dem anderen mit diesem Fehler auf der aktiven Node hoch. Andere Frage in diesem Zusammenhang: Wie löse ich das Cluster zum kurzfristigen Test auf? Eine der beiden Clustermaschinen ist jetzt down und ich will die Clusterfehler erstmal weg bekommen. Wie gehe ich da am besten vor? Auf der aktuell im Betrieb befindlichen Maschine ist der Cluster Dienst gestartet.

Link zu diesem Kommentar
Der IIS ist eine weitere Applikation auf dem Server, der nix mit dem Cluster und den Fileshares zu tun hat.
Ok, lassen wir den mal außen vor. Ideal wäre es, wenn auf einem Knoten im Cluster nichts außerhalb des Clusters läuft.
Das cluster.log gibt keinerlei Fehlermeldung her
Schade.
Andere Frage in diesem Zusammenhang: Wie löse ich das Cluster zum kurzfristigen Test auf? Eine der beiden Clustermaschinen ist jetzt down und ich will die Clusterfehler erstmal weg bekommen. Wie gehe ich da am besten vor? Auf der aktuell im Betrieb befindlichen Maschine ist der Cluster Dienst gestartet.
Nachdem es immer nur ein Knoten ist, der die Probleme bereitet ist das ein gangbarer Weg - den fehlerhaften Knoten aus dem Cluster entfernen und nach einem Reinstall des Betriebssystems wieder zum Cluster hinzufügen.

Siehe meinen Blogeintrag dazu: Cluadmin.de: Windows Cluster Blog » Cluster Knoten deinstallieren

 

hth

Link zu diesem Kommentar

Danke Dir erstmal. Der Knoten der passiven Node im Cluster Admin ist jetzt verschwunden. Gibt es jetzt noch Möglichkeiten, mich vor dem Cluadmin-Absturz abzusichern? Das passive System wurde jetzt bei den possible Owners entfernt und somit sollte doch kein Clustercheck (Cluster Fileshare resource status check) mehr durchgeführt werden, oder?

 

Grüße

Alex

Link zu diesem Kommentar
Danke Dir erstmal. Der Knoten der passiven Node im Cluster Admin ist jetzt verschwunden. Gibt es jetzt noch Möglichkeiten, mich vor dem Cluadmin-Absturz abzusichern?
Wenn man davon ausgeht, daß der Knoten nicht (mehr) sauber arbeitet hilft eine Neuinstallation. Danach kann der Knoten erneut dem Cluster beitreten (Join). Ich denke, daß ist ein sinnvolles Vorgehen.
Das passive System wurde jetzt bei den possible Owners entfernt und somit sollte doch kein Clustercheck (Cluster Fileshare resource status check) mehr durchgeführt werden, oder?
Der passive, entfernte Knoten ist jetzt außen vor und beeinflusst den Cluster nicht mehr.

 

Einzig die Pfade zur Shared Storage (Disk arbitration/Disk fencing) sind physikalisch angeschlossen und können theoretisch die Storage beeinflussen - das Windows aber nicht mehr.

Link zu diesem Kommentar

Hi Lian,

 

kannst Du mir das kurz erklären?

Eine Neuinstallation des Clusters?

 

"Wenn man davon ausgeht, daß der Knoten nicht (mehr) sauber arbeitet hilft eine Neuinstallation. Danach kann der Knoten erneut dem Cluster beitreten (Join). Ich denke, daß ist ein sinnvolles Vorgehen."

 

Für die Testphase lasse ich das Cluster zunächst mal nur auf einem System laufen, da der Cluster so gut wie nie geswappt sondern sich aufgehängt hat.

 

Grüße

Alex

Link zu diesem Kommentar
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Schreibe einen Kommentar

Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung jetzt entfernen

  Only 75 emoji are allowed.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor-Fenster leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

×
×
  • Neu erstellen...