Jump to content
Sign in to follow this  
Pipeline

Cluster Problem - MS DTC

Recommended Posts

Hallo Leute,

 

da wollte ich mal einen ruhigen Sonntag für etwas Wartung und aufräumen der Server nutzen, da passiert mir ein riesen Problem!

 

Folgendes ist passiert, ist ein Windows 2000 SP4 Cluster mit zwei Nodes:

- Ich habe auf dem FS-1 "Veritas Backup Exec" samt Remote Agent deinstalliert -> Neustart

- Anschließend habe ich die Ereignislogs geprüft, bevor ich auf dem FS-2 die Software ebenfalls deinstalliere, auf dem FS-1 erschien nach dem Neustart im Log folgende Meldung:

 

Ereignistyp: Warnung

Ereignisquelle: MSDTC

Ereigniskategorie: SVC

Ereigniskennung: 4147

Datum: 20.05.2007

Zeit: 13:44:59

Benutzer: Nicht zutreffend

Computer: SER-FS-RZ-1

Beschreibung:

MS DTC hat festgestellt, dass der Cluster-Dienst zwar installiert ist, aber beim Start von MS DTC nicht aktiviert wurde. MS DTC wird zwar weiterhin automatisch gestartet werden, Failover können jedoch nicht ausgeführt werden. Falls der Cluster-Dienst gestartet wird, schließen Sie diese Instanz von MS DTC, da sie nicht mehr verwendet werden kann. Fehler: .\msdtc.cpp:986, CmdLine: C:\WINNT\System32\msdtc.exe, Pid: 612

 

- Danach waren zwei Datenträger-Ressourcen P_Quorum und F_Daten nur noch auf FS-2 sichtbar. Sobald ich die Ressourcengruppe auf den FS-1 verschoben habe, waren die Laufwerke auf beiden Servern nicht mehr zu sehen.

 

- Aufgrund einer Anleitung "www.eventid.net" auf FS-1 "comclust" ausgeführt und neugestartet.

Anschließen auch auf dem FS-2 und ebenfalls Neustart.

 

Auf dem FS-1 erschienen dann noch folgende Fehler:

Ereignistyp: Fehler

Ereignisquelle: COM+

Ereigniskategorie: SVC

Ereigniskennung: 4097

Datum: 20.05.2007

Zeit: 14:19:40

Benutzer: Nicht zutreffend

Computer: SER-FS-RZ-1

Beschreibung:

Während der Laufzeit wurde ein interner Statusfehler entdeckt. Wenden Sie sich an den Microsoft Software Service, um diesen Fehler zu melden. Fehler in .\crmrecoveryclerkobj.cpp(2404), hr = 8004d01c: Recover

 

Ereignistyp: Fehler

Ereignisquelle: MSDTC

Ereigniskategorie: SVC

Ereigniskennung: 4385

Datum: 20.05.2007

Zeit: 14:31:24

Benutzer: Nicht zutreffend

Computer: SER-FS-RZ-1

Beschreibung:

MS DTC kann auf diesem Knoten des Clusters nicht starten, da die MS DTC-Ressource zurzeit einem anderen Knoten im Cluster gehört. Fehler: .\msdtc.cpp:869, CmdLine: C:\WINNT\System32\msdtc.exe, Pid: 1992

gefolgt von

 

Ereignistyp: Informationen

Ereignisquelle: MSDTC

Ereigniskategorie: SVC

Ereigniskennung: 4097

Datum: 20.05.2007

Zeit: 14:52:19

Benutzer: Nicht zutreffend

Computer: SER-FS-RZ-1

Beschreibung:

MS DTC wurde gestartet.

 

Es scheint, dass alle anderen Ressourcen ohne Fehler funktionieren. Auch kann ich auf Freigaben auf der Partition F_Daten zugreifen.

 

Ich habe keinerlei Ahnung was ich nun tun kann und bin für jeden Tipp dankbar!

Share this post


Link to post

Hallo,

 

was führte zu dem Problem bzw. was geschah vor dem Fehlerfall?

 

Du hast lediglich BE deinstalliert, richtig?

 

Hast Du die MS DTC Ressource im Cluadmin gelöscht und per comclust wieder angelegt?

Bist Du nach KB Artikel bei MS vorgegangen?

How to configure MSDTC in a Windows 2000 cluster environment

Bitte immer einen Node nach dem anderen Neustarten, nicht gleichzeitig.

 

Ereignistyp: Informationen

Ereignisquelle: MSDTC

Ereigniskategorie: SVC

Ereigniskennung: 4097

MS DTC wurde gestartet.

Läuft die MS DTC Ressource auf einem Node? Nur auf einem?

 

Die Disk Volumes schwenken ohne Probleme?

 

Findest Du einen Fehler im cluster.log?

 

Ich empfehle Dir den Cluster auf Windows Server 2003 upzugraden, es hat sich einiges getan - gerade beim Thema Cluster.

Auf Windows Server 2003 ist MS DTC eine ganz normale Ressource, die man im Cluadmin anlegen kann. Die Konfiguration und der Betrieb des MS DTC Dienstes im Cluster hat sich stark verbessert.

 

Hab Dir hier geantwortet, gerade erst Deine Nachricht in der NG gesehen.

Share this post


Link to post

Moin Lian,

 

ich wusste doch das man auf dich zählen kann. Danke schon mal für die Antwort.

Wenn ich auch alles nicht so einfach beantworten kann, so habe ich nun zumindest Ansätze, es gibt nichts schlimmeres als völlig ratlos und ohne eine Idee vor solchen Probleme zu stehen.

 

was führte zu dem Problem bzw. was geschah vor dem Fehlerfall?

Du hast lediglich BE deinstalliert, richtig?

[/Quote]

Richtig, damit ging es los. Und ich denke das ich mit comclust nur noch mehr Probleme verursacht habe, da danach die Laufwerke gar nicht mehr zu sehen waren...

 

Hast Du die MS DTC Ressource im Cluadmin gelöscht und per comclust wieder angelegt?

Bist Du nach KB Artikel bei MS vorgegangen?

How to configure MSDTC in a Windows 2000 cluster environment

Nein, ich habe nur comclust ausgeführt und anschilessend neugestartet, im Clustermanager habe ich mit der MSDTC Ressource nichts gemacht. Den Artikel kenne ich nicht.

 

Und auch wenn ich vom Cluster noch herzlich wenig weiß, so weiß ich doch das ein gleichzeitiger Reboot nicht sein sollte (mache ich generell nie bei mehreren Servern...)

 

Läuft die MS DTC Ressource auf einem Node? Nur auf einem?

[/Quote]

Ja, nur auf einem zur Zeit. Soll ich testen ob bei verschieben der Gruppe msdtc dann nur auf dem anderen Server läuft?

 

Die Disk Volumes schwenken ohne Probleme?

Jup, ohne Probleme

 

Findest Du einen Fehler im cluster.log?

Also erstens sind auf beiden Servern die Logs sehr groß (6 und 8 MB) wobei fast die hälfte der Einträge von heute sind!!

 

Und es gibt auch Fehler, öfters:

0000056c.000005f8::2007/05/20-11:40:33.796 [FM] FmpRmOfflineResource: RmOffline() for cb197019-8975-4a07-854c-b3dc59a7ef1d returned error 997

 

Dann:

00000620.00000628::2007/05/20-11:45:12.375 Network Name <SER-TEST-SAN-1>: Unable to read resource data parameter, error=2

00000620.00000628::2007/05/20-11:45:12.375 Network Name <SER-TEST-SAN-1>: Unable to read creating DC parameter, error=2

00000620.00000628::2007/05/20-11:45:12.382 Network Name <Clustername-1>: Unable to read resource data parameter, error=2

 

00000620.00000640::2007/05/20-11:45:12.648 Physical Disk: AddVolume: GetPartitionInfo(\??\Volume{7579e543-76a2-11d5-8771-806d6172696f}), error 1

 

00000620.000007dc::2007/05/20-11:53:47.875 Physical Disk <Datenträger F:>: Online, volumes not ready, error: 2. Retrying...

 

P:\MSCS\\54d2b67f-386e-4f12-a7ce-afb0bdcf3886\00000001.CPT to C:\DOKUME~1\CLAdmin\LOKALE~1\Temp\CLS5.tmp

00000548.000006d4::2007/05/20-13:54:49.828 [CP] CppReadCheckpoint unable to copy file P:\MSCS\\54d2b67f-386e-4f12-a7ce-afb0bdcf3886\00000001.CPT to C:\DOKUME~1\CLAdmin\LOKALE~1\Temp\CLS5.tmp, error 2

00000548.000006d4::2007/05/20-13:54:49.828 [CP] CppReadCheckpoint - Was that due to quorum resource not being up ???

00000548.000006d4::2007/05/20-13:54:49.828 [CP] CpGetDataFile - failed to retrieve checkpoint 1 error 2

 

Mich verwundert die Zeit, denn die Probleme begannen erst um ca. 13:40 Uhr

Viele der Einträge in dem cluster.log sind davor.

Die von mir hier eingefügten sind nur ein Auszug, es gibt noch einige Einträge mehr, habe nur nach "error" gesucht und einige Zeile hier rein kopiert.

 

Suchtest du eine bestimmte Meldung?

 

Ich empfehle Dir den Cluster auf Windows Server 2003 upzugraden, es hat sich einiges getan - gerade beim Thema Cluster.

Auf Windows Server 2003 ist MS DTC eine ganz normale Ressource, die man im Cluadmin anlegen kann. Die Konfiguration und der Betrieb des MS DTC Dienstes im Cluster hat sich stark verbessert.

Es wird dieses Jahr noch eine neue Server-Farm auf 2003 aufgebaut, aber dies steht für diese alte Farm ausser Frage und hilft mir jetzt auch nicht direkt weiter...Aber dein Hinweis macht Hoffnung!

Kannst du mir Aufgrund meiner Antwort eine Lösung empfehlen?

Share this post


Link to post

Was für ein Cluster ist es bzw. welche Ressourcen stellt er bereit? Außer File Share Ressourcen...

Bei einem SQL Server gibt es einen weiteren KB Artikel:

How to rebuild or move a MSDTC installation to be used with a SQL failover cluster (für SQL Server)

 

so weiß ich doch das ein gleichzeitiger Reboot nicht sein sollte (mache ich generell nie bei mehreren Servern...)

Prima ;):thumb1:

 

Wie ist der aktuelle Status des Clusters?

Läuft alles außer MS DTC?

Ja, nur auf einem zur Zeit. Soll ich testen ob bei verschieben der Gruppe msdtc dann nur auf dem anderen Server läuft?

Ich meinte, ob die MS DTC Ressource inzwischen läuft, da Du im Eventlog einen Eintrag hast (MS DTC wurde gestartet).

Daher die Frage, ob die Ressource wenigstens auf einem Node läuft.

 

Die Zeiten im cluster.log sind immer UTC/GMT.

Error 997 ist ERROR_IO_PENDING, weiter unten ist die Disk schon mal online, aber noch nicht verfügbar. Der Ausschnitt sieht so aus, als ob die Einträge generiert wurden, während Gruppen/Ressourcen online genommen wurden.

FM ist der Failover Manager.

 

Error 2 ist i.d.R. ERROR_FILE_NOT_FOUND bezogen auch Checkpoint Dateien.

 

Hast Du schon mal die MS DTC Ressource gelöscht und danach alle Gruppen auf den anderen Node geschwenkt?

Versuche das mal und geh nach dem KB Artikel vor.

 

Die Probleme mit dem MS DTC kenne ich hauptsächlich von W2K Servern und sind mir bei W2K3 Servern selten(er) begegnet.

Share this post


Link to post

Tja, also was für ein Cluster kann ich nicht sagen, ich weiß nicht was du meinst.

Es gibt vier Gruppen mit Dateifreigaben, IP-Adressen, Netzwerknamen, Diensten (standard), Druckwarteschlange und halt MSDTC.

Die Gruppen laufen i.d.R verteilt auf den beiden Servern und springen halt bei Bedarf auf den anderen Server.

 

Der Status ist okay soweit ich das sehen kann, auch MSDTC ist online!

 

Okay das mit den Zeiten verstehe ich nun...

 

Danke für die Erklärungen bzgö. des Logs.

 

Hast Du schon mal die MS DTC Ressource gelöscht und danach alle Gruppen auf den anderen Node geschwenkt?

Versuche das mal und geh nach dem KB Artikel vor.

Nein ich habe mit der Ressource nichts gemacht, will nicht noch mehr kaputt machen...

Gut, ich werde das mit dem Artikel versuchen.

Share this post


Link to post

Hmm, im Artikel ist von IIS und SQL die Rede.

Läuft ja beides nicht in unserem Cluster, soll ich trotzdem so vorgehen?

 

Lian, du schreibst: "Hast Du schon mal die MS DTC Ressource gelöscht und danach alle Gruppen auf den anderen Node geschwenkt?"

 

In dem Artikel kann ich nicht ersehen auf welchem Node die Gruppen bei beginn der Prozedur sein müssen.

Und du schreibst "den anderen Node". Kannst du mir das klarer machen welcher Node gemeint ist?

Ansonsten habe den Artikel schon verstanden...

Share this post


Link to post

Ja. Die angesprochenen Web & SQL Gruppen sind nur ein Beispiel.

 

Die MS DTC Ressource braucht man nicht in jedem Cluster, daher die Frage nach der Art des Clusters.

 

Ist es ein reiner File & Print Cluster?

Keine weiteren Ressourcen oder auch Dienste außerhalb des Clusters?

 

In dem Artikel kann ich nicht ersehen auf welchem Node die Gruppen bei beginn der Prozedur sein müssen.

Das spielt keine Rolle.

Und du schreibst "den anderen Node". Kannst du mir das klarer machen welcher Node gemeint ist?

Der Ansatz war die MS DTC Ressource zu löschen und die Gruppen zu schwenken um einen Failover zu testen.

 

Wie sieht es momentan aus?

Laufen alle Ressourcen?

Share this post


Link to post

So, habe nun den kompletten Ablauf durch gespielt.

Keine Fehler, aber leider auch keine positive Veränderung.

 

MSDTC wurde neu erstellt und kann so wie die anderen Ressource verschoben werden.

Alle Ressource laufen.

 

Hätte ich MSDTC nieht wieder neu erstellen sollen?

 

An Ressourcen laufen in dem CLuster (ich habe das übrigends nicht eingerichtet!!! nur übernommen)

4 Netzwerknamen, 4 IP-Adressen, 3 Physikalische Datenträger, XX Dateifreigaben, 1 Druckwarteschlange, 1 MSDTC und 4 Standarddienste für TSM (Backup Software)

 

Wie komme ich wieder an die Laufwerke heran?

Share this post


Link to post

Ok.

 

Somit laufen alle Ressourcen und sind online, der Failover funktioniert auch.

 

Welche Fehler / Events erhältst Du noch?

 

Ereignistyp: Fehler

Ereignisquelle: COM+

Ereigniskategorie: SVC

Ereigniskennung: 4097

 

Ereignistyp: Fehler

Ereignisquelle: MSDTC

Ereigniskategorie: SVC

Ereigniskennung: 4385

 

Sind die noch aktuell da?

 

Wie komme ich wieder an die Laufwerke heran?

Wie meinst Du das?

Ich ging davon aus, daß die nach wie vor vorhanden sind und auch schwenken.

Meinst Du Physical Disk Resources oder Freigaben/Shares.

Share this post


Link to post
Ok.

 

Somit laufen alle Ressourcen und sind online, der Failover funktioniert auch.

 

Welche Fehler / Events erhältst Du noch?

Keine außer diese auf beiden Servern:

Ereignistyp: Informationen

Ereignisquelle: MSDTC Client

Ereigniskategorie: CM

Ereigniskennung: 4156

Datum: 20.05.2007

Zeit: 19:46:16

Benutzer: Nicht zutreffend

Computer: SER-FS-RZ-1

Beschreibung:

Zeichenfolgemeldung: Session idle timeout over, tearing down the session.

 

Das ist ja das erstaunliche...

 

Ich ging davon aus, daß die nach wie vor vorhanden sind und auch schwenken.Meinst Du Physical Disk Resources oder Freigaben/Shares.

Naja, die Ressourcen sind alle online, die Freigaben kann ich auch nutzen, zum Beispiel im Explorer über UNC... aber ich sehe nirgends die Laufwerke des Quorums und meine Datenpartition! Nur die Spool Partition ist noch sichtbar.

Diese lag bei der SW Deinstallation auf dem anderen Server(FS-2) , Quorum und Daten lagen auf dem Server (FS-1) wo ich BE deinstalliert habe.

 

Wenn ich S:Spool nun von FS-2 auf den FS-1 schiebe ist auch dieses Laufwerk nicht mehr im Explorer sichtbar, die Druckerfreigaben werden aber angezeigt (per UNC Pafd zum Beispiel)

 

Der FS-1 (BE deinstalliert) zeigt also keine (Cluster-)Physikalischen Datenträger mehr an, außer seine lokalen eigenen die nichts mit dem Cluster zu tun haben.

Share this post


Link to post
Der FS-1 (BE deinstalliert) zeigt also keine (Cluster-)Physikalischen Datenträger mehr an, außer seine lokalen eigenen die nichts mit dem Cluster zu tun haben.

Das ist soweit ok, außer die Ressourcen sind auf diesem online.

 

Meinst Du damit, daß wenn FS-1 alle Ressourcen hält Du keinen Zugriff auf die Shared Disk hast?

Share this post


Link to post

Also Zugriff auf die Freigaben habe ich immer, egal auf welchem Node die online sind.

 

Aber auf die Disks Quorum und Daten habe ich nie zugriff, und auf Spool nur wenn sie auf dem FS-2 online ist.

Share this post


Link to post

Also alle Ressourcen sind online, richtig?

 

Und Du hast auf die Quorum Disk keinen Zugriff lokal über den Explorer auf dem FS-1?

Share this post


Link to post

Richitg, alles online.

Und Zugriff auf die Quorum Disk habe ich von keinem der Server.

Aber die Ressource muss ja da sein, sonst würde der Cluster nicht laufen und auf die Daten der von Laufwerk F: kann ich ja auch zugreifen, aber halt nur auf die Freigaben und nicht auf alle Verzeichnisse...

Share this post


Link to post

Im Moment sind alle Ressourcen auf dem FS-2 online und ich sehe gerade, dass in der Datenträgerverwaltung auch die physischen Disks angezeigt werden?! Aber im Explorer nicht :confused:

Share this post


Link to post
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte überlege Dir, ob es nicht sinnvoller ist ein neues Thema zu erstellen.

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Sign in to follow this  

Werbepartner:



×
×
  • Create New...