Server 2003 Cluster Service stürzt ab

Maraun · 7. August 2012

Hallo zusammen,

seit knapp 2 Wochen habe ich hier ein Problem mit einem Server 2003 R2 x64 aktiv/passiv File-Cluster, bestehend aus zwei Maschinen. Egal welche Maschine gerade die Fileshares und die Cluster-Group hält (bei uns immer ein und dieselbe Maschine), in unregelmäßigen Abständen stürzt das Cluster einfach ab. Wie zum Beispiel heute, als der Cluster/Fileserver erst im Eventlog folgendes meldet:

A process serving application pool 'DefaultAppPool' failed to respond to a ping. The process id was '2868'. Source W3SVC, Event-ID 1010.

Zehn Minuten später folgen dann diese Meldung:

The node lost communication with cluster node 'Cluster' on network 'Team_Cluster'.

The node lost communication with cluster node 'Cluster' on network 'Heartbeat'.

Cluster node "Cluster" ist der Server, der die File- und Clustergruppe hält, Team_Cluster ist die geteamte HP NC373 Gigabit Netzkarte mit einem HP Smart Array P400 Controller und SAn-Platten im Hintergrund.

Der Server hängt sich im laufenden Betrieb auf, ein Swap der Ressourcen ist nicht mehr möglich, da ich zu dem Zeitpunkt auf beiden Maschinen den Cluster-Manager nicht mehr öffnen kann. Als Lösung kann ich nur den aufgehängten Server komplett rebooten und dann findet sich das Cluster von alleine wieder.

Hat mir jemand Tipps oder kennt so ein Verhalten von einem Server 2003 Cluster?

Wir haben das identische Cluster nochmals in betrieb, ohne jegliche Probleme und mit gleichen Treibern.

Grüße

Alex

NorbertFe · 7. August 2012

Hast du alle empfohlenen Clusterhotfixes für 2003 R2 x64 SP2 installiert?

Recommended hotfixes for Windows Server 2003 Service Pack 2-based server clusters

Bye

Norbert

Lian · 7. August 2012

A process serving application pool 'DefaultAppPool' failed to respond to a ping. The process id was '2868'. Source W3SVC, Event-ID 1010.

Läuft der IIS im Cluster?

Maraun · 8. August 2012

@ Norbert:

Soweit ich das sehe, ja. Allerdings habe ich das System vor einem halben Jahr übernommen und ich werde das nochmals gegenprüfen.

Die HP Treiber, Firmware und MPIO-Updates habe ich erneuert.

@ Lian:

Der IIS läuft, auch bei einem Ausfall, dennoch erscheint bei jedem Ausfall die Application Pool Meldung im IIS. Danach hängt sich die Maschine mit der Clustergroup / Fileshare, das Teaming ist nicht mehr möglich und ich kann die Ressourcen nicht mehr swappen, obwohl die zweite Maschine da ist.

Viele Grüße

Alex

Lian · 8. August 2012

Ich lese aus Deiner Antwort, daß der IIS auf den Cluster Knoten läuft und benutzt wird (korrekt?), aber nicht als Cluster Ressource konfiguriert ist?

Lasse mal einen Cluster Validate laufen und prüfe den erzeugten Report.

Über 'cluster log /g' in der Eingabeaufforderung kannst Du ein cluster.log erzeugen, das Ergebnis findest Du dann unter %windir%\Cluster\Reports. Diese hilft bei der detaillierten Analyse.

Maraun · 10. August 2012

Lian, als Cluster-Ressource werden Ordner aus der Defualt Website im IIS benutzt. Auch mit Effects the group, was ja einen Swap bedeuten würde wenn imm IIS dieser Application Pool nicht mehr erreichbar wäre, richtig?

Der Befehl cluster log /g funktioniert bei mir leider nicht. Geht der nur unter Server 2008?

Maraun · 13. August 2012

Hatten heute morgen wieder einen Clusterausfall. Diesmal kein Application Pool Fehler, sondern der Cluadmin Dienst, der auf der aktiven Node hing. Selbes Bild, die aktive Maschine zeigt nur einen grauen Hintergrund, der Cluster Admin ist nicht aufrufbar, das das Cluster nicht gefunden werden kann, die Ressourcen swappen nicht und alles steht, bis die besagte Maschine von Hand wieder gestartet wird.

Bin gerade dabei, beide Maschinen mit den empfohlenen Clusterupdates zu versorgen.

Hat jemand noch Tipps?

Grüße

Alex

Lian · 13. August 2012

Lian, als Cluster-Ressource werden Ordner aus der Defualt Website im IIS benutzt.

Als Freigaben? Mir ist immer noch unklar, was der IIS auf einem File-Cluster zu suchen hat.

Der Befehl cluster log /g funktioniert bei mir leider nicht. Geht der nur unter Server 2008?

Unter 2003 kannst Du das cluster.log direkt hier abgreifen: \\%windir%\cluster

Hatten heute morgen wieder einen Clusterausfall. Diesmal kein Application Pool Fehler, sondern der Cluadmin Dienst, der auf der aktiven Node hing.

Das ist ein Absturz des Dienstes, betrifft das immer nur einen Node?

Bin gerade dabei, beide Maschinen mit den empfohlenen Clusterupdates zu versorgen.

Gute Maßnahme ;)

Maraun · 13. August 2012

Hi Lian,

danke für die schnelle Antwort.

Der IIS ist eine weitere Applikation auf dem Server, der nix mit dem Cluster und den Fileshares zu tun hat. Das cluster.log gibt keinerlei Fehlermeldung her und mittlerweile hat sich erneut das System mit den aktiven Fileshares aufgehängt. Und ja, es ist immer nur eine Maschine. Am Freitag Nacht war es beispielsweise die passive Node, die sich aufgehängt hat. Vor ein paar Minuten war es jetzt Event-ID 1055: Cluster File Share ressource "XXXXX" has failed a status check. The error code is 64. Danach kam ein Fileshare nach dem anderen mit diesem Fehler auf der aktiven Node hoch. Andere Frage in diesem Zusammenhang: Wie löse ich das Cluster zum kurzfristigen Test auf? Eine der beiden Clustermaschinen ist jetzt down und ich will die Clusterfehler erstmal weg bekommen. Wie gehe ich da am besten vor? Auf der aktuell im Betrieb befindlichen Maschine ist der Cluster Dienst gestartet.

Lian · 13. August 2012

Der IIS ist eine weitere Applikation auf dem Server, der nix mit dem Cluster und den Fileshares zu tun hat.

Ok, lassen wir den mal außen vor. Ideal wäre es, wenn auf einem Knoten im Cluster nichts außerhalb des Clusters läuft.

Das cluster.log gibt keinerlei Fehlermeldung her

Schade.

Andere Frage in diesem Zusammenhang: Wie löse ich das Cluster zum kurzfristigen Test auf? Eine der beiden Clustermaschinen ist jetzt down und ich will die Clusterfehler erstmal weg bekommen. Wie gehe ich da am besten vor? Auf der aktuell im Betrieb befindlichen Maschine ist der Cluster Dienst gestartet.

Nachdem es immer nur ein Knoten ist, der die Probleme bereitet ist das ein gangbarer Weg - den fehlerhaften Knoten aus dem Cluster entfernen und nach einem Reinstall des Betriebssystems wieder zum Cluster hinzufügen.

Siehe meinen Blogeintrag dazu: Cluadmin.de: Windows Cluster Blog » Cluster Knoten deinstallieren

hth

Maraun · 13. August 2012

Also ich habe jetzt gerade nur eine von zwei Maschinen oben. Das heißt im Cluster-Admin auf den passiven Knoten, der sowieso ein rotes X hat und Evict Node sagen. Dies kann ich auf dem aktiven Knoten durchführen. Sollte das nicht funktionieren, dann müsste ich für den forcecleanup das passive System hochfahren. Passt das so?

Grüße

Alex

Lian · 13. August 2012

Hallo,

wenn der Dienst schon beendet ist (rotes X), wie Du sagst, kannst Du direkt ein "Evict" durchführen.

Sollte das nicht funktionieren, dann müsste ich für den forcecleanup das passive System hochfahren. Passt das so?

Passt :)

Viel Glück!

Maraun · 13. August 2012

Danke Dir erstmal. Der Knoten der passiven Node im Cluster Admin ist jetzt verschwunden. Gibt es jetzt noch Möglichkeiten, mich vor dem Cluadmin-Absturz abzusichern? Das passive System wurde jetzt bei den possible Owners entfernt und somit sollte doch kein Clustercheck (Cluster Fileshare resource status check) mehr durchgeführt werden, oder?

Grüße

Alex

Lian · 13. August 2012

Danke Dir erstmal. Der Knoten der passiven Node im Cluster Admin ist jetzt verschwunden. Gibt es jetzt noch Möglichkeiten, mich vor dem Cluadmin-Absturz abzusichern?

Wenn man davon ausgeht, daß der Knoten nicht (mehr) sauber arbeitet hilft eine Neuinstallation. Danach kann der Knoten erneut dem Cluster beitreten (Join). Ich denke, daß ist ein sinnvolles Vorgehen.

Das passive System wurde jetzt bei den possible Owners entfernt und somit sollte doch kein Clustercheck (Cluster Fileshare resource status check) mehr durchgeführt werden, oder?

Der passive, entfernte Knoten ist jetzt außen vor und beeinflusst den Cluster nicht mehr.

Einzig die Pfade zur Shared Storage (Disk arbitration/Disk fencing) sind physikalisch angeschlossen und können theoretisch die Storage beeinflussen - das Windows aber nicht mehr.

Maraun · 13. August 2012

Hi Lian,

kannst Du mir das kurz erklären?

Eine Neuinstallation des Clusters?

"Wenn man davon ausgeht, daß der Knoten nicht (mehr) sauber arbeitet hilft eine Neuinstallation. Danach kann der Knoten erneut dem Cluster beitreten (Join). Ich denke, daß ist ein sinnvolles Vorgehen."

Für die Testphase lasse ich das Cluster zunächst mal nur auf einem System laufen, da der Cluster so gut wie nie geswappt sondern sich aufgehängt hat.

Grüße

Alex

Anmelden

Server 2003 Cluster Service stürzt ab

Empfohlene Beiträge

Maraun 12

NorbertFe 2.230

Lian 2.601

Maraun 12

Lian 2.601

Maraun 12

Maraun 12

Lian 2.601

Maraun 12

Lian 2.601

Maraun 12

Lian 2.601

Maraun 12

Lian 2.601

Maraun 12

Schreibe einen Kommentar

Menu

Aktivitäten