Alles zum Thema Windows Server sowie Windows IT Pro Themen — Q & A zu den Windows Server Versionen NT / 2000 / 2003 / 2003 R2 / 2008 / 2008 R2: Rollen, Features, Konfiguration, Troubleshooting
2K3 - 4 Node Cluster macht ohne Grund einen Failover....
Hi,
ich hab seit ein paar tagen folgendes Problem und ich hoffe das jemand von euch mir da vielleicht etwas support geben kann.
Wir haben hier einen 4 Node Cluster, 3 sind aktive Cluster Nodes und 1 ist Standby.
Windows 2003 Sp2 ist auf den Servern installiert.
Es gibt eine C Partition also eine Physikalische Platte in den Servern auf denen das OS ist und eine D:\ Partition die über SAN angebunden ist.
Jetzt ist es wohl so das zu völlig unterschiedlichen Zeiten einer der Nodes einen Failover auf den Standby macht. Gründe dafür gibt es leider nicht. Es ist sonst keine Software auf den Clustern installiert, diese sind reine FileCluster.
Im Eventlog bekomm ich nur die Meldung das angeblich die SAN Platte nicht da wäre und aus diesem Grund der Failover gemacht wird was aber nicht stimmt.
Es sind ca 3000 Leute auf dem Cluster System unterwegs. Die Auslastung der Paltten haben wir schon untersucht doch dort ist nicht wirklich viel los zumal der Failover auch Nachts einfach passiert wo kein Mensch drauf ist.
Hatte jemand von euch schonmal so einen Fall ?? Oder kann mir dazu was sagen ?
Wir haben hier einen 4 Node Cluster, 3 sind aktive Cluster Nodes und 1 ist Standby. Windows 2003 Sp2 ist auf den Servern installiert.
Seit wann ist das SP2 installiert und ist das vorher schon aufgetreten?
Im Eventlog bekomm ich nur die Meldung das angeblich die SAN Platte nicht da wäre und aus diesem Grund der Failover gemacht wird was aber nicht stimmt.
Welche Events hast Du? 9,11,15 & 50/51 oder andere?
zumal der Failover auch Nachts einfach passiert wo kein Mensch drauf ist.
Sicher, daß es ein Failover ist und kein Failback?
Es gibt Einstellungen in den Properties, die den Failback regeln, typischerweise zu Off Peak Zeiten.
sorry das ich mich so lange nicht gemeldet hab, ich bin mir noch nicht ganz sicher, ich bin heute dabei erstmal die Cluster.Log zu analysieren, ich kann sie ja dann gerne mal hier posten, vielleicht seht ihr was.
Zu dem Failback, wo stellt man das denn ganu ein !?
Source: ClusSvc
Category: Ressource für Dateifreigaben
Message: Für die Clusterdateifreigabe "XXXXXX" konnte keine Statusüberprüfung durchgeführt werden. Fehlercode: 53
Diese Meldung kommt auf allen Resourcen die wir eingerichtet haben. Das sind so 30 Stück.
Dann hier das Clusterlog dazu:
WARN [EVT] ElfWriteClusterEvents failed: status = 3221225864
WARN [FM] FmpHandleResourceTransition: Resource Name = XXXXXXXX [Cluster-IP-Adresse] old state=2 new state=4
WARN [FM] FmpHandleResourceTransition: Resource Name = XXXXXXXXXXXXX [Cluster-IP-Adresse] old state=129 new state=4
WARN [FM] FmpHandleResourceTransition: Resource failed, post a work item
WARN [FM] FmpHandleResourceTransition: Resource Name =XXXXXXXXXXXXXXX [Cluster-IP-Adresse] old state=129 new state=4
WARN [EVT] ElfWriteClusterEvents failed: status = 3221225864
ERR File Share <XXXXX>: Share has gone offline, Error=53 !
INFO [FM] NotifyCallBackRoutine: enqueuing event
INFO [FM] Calling RmNotifyChanges in monitor 0b9c.
WARN [FM] FmpHandleResourceTransition: Resource Name = XXXXXXXXXXXXXXX [xxxxx] old state=2 new state=4
Das ist jetzt nur ein auszug der Cluster.log.... Aber os sieht es im allgemeinen da aus. Der Rest sind nur Infos usw.....
Vielleicht kann mal einer zu den Fehler Codes was posten ?
Abgehesehen zu den Fragen von Lian ... hast Du mal ein checkdisk (im lesemode) auf den SAN Disks gemacht ... dauert der Clusterswitch "normal lange" .... ich hatte da mal was ganz hässliches erlebt ... wir hatten Monate mit HP und Ms vertrödelt ... letztendlich war es ein Problem, dass das Dateisystem (NTFS) auf der SAN Disk korrupt war.
War das schon immer so, oder anders rum bis wann ging es ?
Das Problem ist erst seit ein paar Wochen da, das mit dem Checkdsk ist ne gute idee, werd ich mal machen. Vielleicht bringt es was. Meine Vermutung ist das die Quorum disk ein problem hat und das er aus dem grund nen Switch macht....