Jump to content
Sign in to follow this  
Gismo79

4 Node Cluster macht ohne Grund einen Failover....

Recommended Posts

Hi,

 

ich hab seit ein paar tagen folgendes Problem und ich hoffe das jemand von euch mir da vielleicht etwas support geben kann.

 

Wir haben hier einen 4 Node Cluster, 3 sind aktive Cluster Nodes und 1 ist Standby.

Windows 2003 Sp2 ist auf den Servern installiert.

 

Es gibt eine C Partition also eine Physikalische Platte in den Servern auf denen das OS ist und eine D:\ Partition die über SAN angebunden ist.

 

Jetzt ist es wohl so das zu völlig unterschiedlichen Zeiten einer der Nodes einen Failover auf den Standby macht. Gründe dafür gibt es leider nicht. Es ist sonst keine Software auf den Clustern installiert, diese sind reine FileCluster.

 

Im Eventlog bekomm ich nur die Meldung das angeblich die SAN Platte nicht da wäre und aus diesem Grund der Failover gemacht wird was aber nicht stimmt.

 

Es sind ca 3000 Leute auf dem Cluster System unterwegs. Die Auslastung der Paltten haben wir schon untersucht doch dort ist nicht wirklich viel los zumal der Failover auch Nachts einfach passiert wo kein Mensch drauf ist.

 

Hatte jemand von euch schonmal so einen Fall ?? Oder kann mir dazu was sagen ?

Share this post


Link to post
Share on other sites
Wir haben hier einen 4 Node Cluster, 3 sind aktive Cluster Nodes und 1 ist Standby. Windows 2003 Sp2 ist auf den Servern installiert.

Seit wann ist das SP2 installiert und ist das vorher schon aufgetreten?

 

Im Eventlog bekomm ich nur die Meldung das angeblich die SAN Platte nicht da wäre und aus diesem Grund der Failover gemacht wird was aber nicht stimmt.

Welche Events hast Du? 9,11,15 & 50/51 oder andere?

 

zumal der Failover auch Nachts einfach passiert wo kein Mensch drauf ist.

Sicher, daß es ein Failover ist und kein Failback?

Es gibt Einstellungen in den Properties, die den Failback regeln, typischerweise zu Off Peak Zeiten.

Share this post


Link to post
Share on other sites

Hi,

 

sorry das ich mich so lange nicht gemeldet hab, ich bin mir noch nicht ganz sicher, ich bin heute dabei erstmal die Cluster.Log zu analysieren, ich kann sie ja dann gerne mal hier posten, vielleicht seht ihr was.

 

Zu dem Failback, wo stellt man das denn ganu ein !?

 

Danke für die Antworten !!!

Share this post


Link to post
Share on other sites

Hi,

 

also folgendes kommt:

 

Event Log:

 

Source: ClusSvc

Category: Ressource für Dateifreigaben

Message: Für die Clusterdateifreigabe "XXXXXX" konnte keine Statusüberprüfung durchgeführt werden. Fehlercode: 53

 

Diese Meldung kommt auf allen Resourcen die wir eingerichtet haben. Das sind so 30 Stück.

 

Dann hier das Clusterlog dazu:

 

WARN [EVT] ElfWriteClusterEvents failed: status = 3221225864

 

WARN [FM] FmpHandleResourceTransition: Resource Name = XXXXXXXX [Cluster-IP-Adresse] old state=2 new state=4

 

WARN [FM] FmpHandleResourceTransition: Resource Name = XXXXXXXXXXXXX [Cluster-IP-Adresse] old state=129 new state=4

 

WARN [FM] FmpHandleResourceTransition: Resource failed, post a work item

 

WARN [FM] FmpHandleResourceTransition: Resource Name =XXXXXXXXXXXXXXX [Cluster-IP-Adresse] old state=129 new state=4

 

WARN [EVT] ElfWriteClusterEvents failed: status = 3221225864

 

ERR File Share <XXXXX>: Share has gone offline, Error=53 !

 

INFO [FM] NotifyCallBackRoutine: enqueuing event

INFO [FM] Calling RmNotifyChanges in monitor 0b9c.

 

WARN [FM] FmpHandleResourceTransition: Resource Name = XXXXXXXXXXXXXXX [xxxxx] old state=2 new state=4

 

 

Das ist jetzt nur ein auszug der Cluster.log.... Aber os sieht es im allgemeinen da aus. Der Rest sind nur Infos usw.....

 

Vielleicht kann mal einer zu den Fehler Codes was posten ?

Share this post


Link to post
Share on other sites

Hallo

 

Abgehesehen zu den Fragen von Lian ... hast Du mal ein checkdisk (im lesemode) auf den SAN Disks gemacht ... dauert der Clusterswitch "normal lange" .... ich hatte da mal was ganz hässliches erlebt ... wir hatten Monate mit HP und Ms vertrödelt ... letztendlich war es ein Problem, dass das Dateisystem (NTFS) auf der SAN Disk korrupt war.

 

War das schon immer so, oder anders rum bis wann ging es ?

 

Gruss

Matthias

Share this post


Link to post
Share on other sites

Das Problem ist erst seit ein paar Wochen da, das mit dem Checkdsk ist ne gute idee, werd ich mal machen. Vielleicht bringt es was. Meine Vermutung ist das die Quorum disk ein problem hat und das er aus dem grund nen Switch macht....

Share this post


Link to post
Share on other sites
ERR File Share <XXXXX>: Share has gone offline, Error=53 !

 

Vielleicht kann mal einer zu den Fehler Codes was posten ?

 

Der Fehler besagt:

The network path was not found.

 

Die Einstellungen für den Failback triffst Du in den Einstellungen einer Gruppe:

Bb727115.clustf115(en-us,TechNet.10).gif

 

Was nutzt Ihr für eine SAN und wie ist diese angebunden?

 

Seit wann tritt der Fehler auf?

 

Ein chkdsk kann nicht schaden, prüfe vorher mittels nhkntfs ob das dirty bit gesetzt ist.

 

Ist das ein reiner Fileshare-Cluster?

Share this post


Link to post
Share on other sites

Ein chkdsk kann nicht schaden, prüfe vorher mittels nhkntfs ob das dirty bit gesetzt ist.

 

Ist das ein reiner Fileshare-Cluster?

 

Da das hier W2k3 Cluster sind, auch nicht vergessen das Volume vor Checkdisk in den maintenance mode zu schalten. Sonst klappt das nicht. ;)

 

Bye

Norbert

Share this post


Link to post
Share on other sites

Hi,

 

danke für die zahlreichen Information, vor allem der Link von Lian ist sehr instressant.

Da ich jetzt zur Cebit muss kann ich mich erst wieder ab nächster Woche damit beschäftigen, ich werde euch aber auf dem laufenden halten :D

 

Danke nochmal für die Informationen.

Share this post


Link to post
Share on other sites
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte überlege Dir, ob es nicht sinnvoller ist ein neues Thema zu erstellen.

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Sign in to follow this  

Werbepartner:



×
×
  • Create New...