Jump to content

4 Node Cluster macht ohne Grund einen Failover....


Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Empfohlene Beiträge

Hi,

 

ich hab seit ein paar tagen folgendes Problem und ich hoffe das jemand von euch mir da vielleicht etwas support geben kann.

 

Wir haben hier einen 4 Node Cluster, 3 sind aktive Cluster Nodes und 1 ist Standby.

Windows 2003 Sp2 ist auf den Servern installiert.

 

Es gibt eine C Partition also eine Physikalische Platte in den Servern auf denen das OS ist und eine D:\ Partition die über SAN angebunden ist.

 

Jetzt ist es wohl so das zu völlig unterschiedlichen Zeiten einer der Nodes einen Failover auf den Standby macht. Gründe dafür gibt es leider nicht. Es ist sonst keine Software auf den Clustern installiert, diese sind reine FileCluster.

 

Im Eventlog bekomm ich nur die Meldung das angeblich die SAN Platte nicht da wäre und aus diesem Grund der Failover gemacht wird was aber nicht stimmt.

 

Es sind ca 3000 Leute auf dem Cluster System unterwegs. Die Auslastung der Paltten haben wir schon untersucht doch dort ist nicht wirklich viel los zumal der Failover auch Nachts einfach passiert wo kein Mensch drauf ist.

 

Hatte jemand von euch schonmal so einen Fall ?? Oder kann mir dazu was sagen ?

Link zu diesem Kommentar
Wir haben hier einen 4 Node Cluster, 3 sind aktive Cluster Nodes und 1 ist Standby. Windows 2003 Sp2 ist auf den Servern installiert.

Seit wann ist das SP2 installiert und ist das vorher schon aufgetreten?

 

Im Eventlog bekomm ich nur die Meldung das angeblich die SAN Platte nicht da wäre und aus diesem Grund der Failover gemacht wird was aber nicht stimmt.

Welche Events hast Du? 9,11,15 & 50/51 oder andere?

 

zumal der Failover auch Nachts einfach passiert wo kein Mensch drauf ist.

Sicher, daß es ein Failover ist und kein Failback?

Es gibt Einstellungen in den Properties, die den Failback regeln, typischerweise zu Off Peak Zeiten.

Link zu diesem Kommentar

Hi,

 

also folgendes kommt:

 

Event Log:

 

Source: ClusSvc

Category: Ressource für Dateifreigaben

Message: Für die Clusterdateifreigabe "XXXXXX" konnte keine Statusüberprüfung durchgeführt werden. Fehlercode: 53

 

Diese Meldung kommt auf allen Resourcen die wir eingerichtet haben. Das sind so 30 Stück.

 

Dann hier das Clusterlog dazu:

 

WARN [EVT] ElfWriteClusterEvents failed: status = 3221225864

 

WARN [FM] FmpHandleResourceTransition: Resource Name = XXXXXXXX [Cluster-IP-Adresse] old state=2 new state=4

 

WARN [FM] FmpHandleResourceTransition: Resource Name = XXXXXXXXXXXXX [Cluster-IP-Adresse] old state=129 new state=4

 

WARN [FM] FmpHandleResourceTransition: Resource failed, post a work item

 

WARN [FM] FmpHandleResourceTransition: Resource Name =XXXXXXXXXXXXXXX [Cluster-IP-Adresse] old state=129 new state=4

 

WARN [EVT] ElfWriteClusterEvents failed: status = 3221225864

 

ERR File Share <XXXXX>: Share has gone offline, Error=53 !

 

INFO [FM] NotifyCallBackRoutine: enqueuing event

INFO [FM] Calling RmNotifyChanges in monitor 0b9c.

 

WARN [FM] FmpHandleResourceTransition: Resource Name = XXXXXXXXXXXXXXX [xxxxx] old state=2 new state=4

 

 

Das ist jetzt nur ein auszug der Cluster.log.... Aber os sieht es im allgemeinen da aus. Der Rest sind nur Infos usw.....

 

Vielleicht kann mal einer zu den Fehler Codes was posten ?

Link zu diesem Kommentar

Hallo

 

Abgehesehen zu den Fragen von Lian ... hast Du mal ein checkdisk (im lesemode) auf den SAN Disks gemacht ... dauert der Clusterswitch "normal lange" .... ich hatte da mal was ganz hässliches erlebt ... wir hatten Monate mit HP und Ms vertrödelt ... letztendlich war es ein Problem, dass das Dateisystem (NTFS) auf der SAN Disk korrupt war.

 

War das schon immer so, oder anders rum bis wann ging es ?

 

Gruss

Matthias

Link zu diesem Kommentar
ERR File Share <XXXXX>: Share has gone offline, Error=53 !

 

Vielleicht kann mal einer zu den Fehler Codes was posten ?

 

Der Fehler besagt:

The network path was not found.

 

Die Einstellungen für den Failback triffst Du in den Einstellungen einer Gruppe:

Bb727115.clustf115(en-us,TechNet.10).gif

 

Was nutzt Ihr für eine SAN und wie ist diese angebunden?

 

Seit wann tritt der Fehler auf?

 

Ein chkdsk kann nicht schaden, prüfe vorher mittels nhkntfs ob das dirty bit gesetzt ist.

 

Ist das ein reiner Fileshare-Cluster?

Link zu diesem Kommentar
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Schreibe einen Kommentar

Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung jetzt entfernen

  Only 75 emoji are allowed.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor-Fenster leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

×
×
  • Neu erstellen...