Jump to content

Cluster sporadisch sehr langsam


Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Empfohlene Beiträge

Moin!

 

Wir haben ein übles Problem wegen dem unsere Kunden kaum arbeiten können.

 

Wir betreiben eine Citrix Farm mit einem MS Flie/Print- Cluster auf zwei Windows Server adv. 2000 SP4 mit einem gemeinsamen SAN

(IBM FastT200 über zwei FC-Switches angebunden).

 

Das Problem ist, dass sporadisch Zugriffe sehr langsam sind.

Teilweise bekommen Benutzer beim anmelden nur ein standard Profil und nicht ihr eigenes vom Fileshare.

Outlook (standalone ohne Exchange) verliert zwischenzeitlich die Verbindung zur PST.

 

Alle Server (TS, DC, FS) sind nicht ausgelastet, auch auf dem Storage sieht es nicht nach Last aus.

 

Ich habe leider vom Cluster wenig Ahnung und finde keinen Ansatz wo ich suchen kann.

 

Ich hänge einfach mal das Cluster.log (wg der Größenbeschränkung im Forum nur den letzten Teil) an diesen

Beitrag vielleicht kann dies jemand mal auf mögliche Probleme durchsehen?

 

Ich bin froh über jeden Tipp bzw Ansatz wo ich suchen kann!

 

Noch eine kleine Ergänzung.

 

Der IBM Support sagt es sind keine Fehler im SAN die die Hardware der des Storage Servers von IBM betreffen.

 

Grund seinen "Fehler im Windows".

 

Nur wo suche ich hier???

2007-06-27_cluster.zip

Link zu diesem Kommentar

Bist Du sicher das es ein Clusterproblem ist? Wie schaut es denn lokal mit der Performance aus wenn das Problem auftritt?

Wie ist denn die Netzwerkperformance?

Wie schaut es aus Wenn Du Dich nicht am TS sondern auf einer WS anmeldest.

Wie sieht die Performance der TS aus?

 

Ich will Dich da nicht mit Fragen zubombardieren, aber bist Du _wirklich_ sicher, daß es am Cluster liegt?

 

Amichel

Link zu diesem Kommentar

Hallo Amichel!

 

Ich freue mich über die Fragen, denn darum habe ich diesen Thread aufgemacht, jeder Ansatz hilft!

 

Erstmal: Ich bin nicht sicher, dass es am Cluster liegt.

 

Aber wir haben bereits einige Tests hinter uns und vermuten halt immernoch den Cluster.

 

Nun zu den Fragen:

 

Die Netzwerkperformance ist okay

Es ist eine reine TS-Farm ohne Workstations.

Die Performance der TS ist nahe zu Null! die der FS ebenso.

 

Was heißt schon lokal, es wird ja immer auf den Cluster zugegriffen, da dort alle Daten liegen (Profile, Userverzeichnisse...).

Wenn keine Kunden angemeldet sind geht alles schneller.

Wenn ich dann aber innerhalb der Freigaben im Cluster (also auch im SAN) oder von Freigabe zu lokaler Platte eine ca 1,1 GB Outlook-PST kopiere wird wieder alles langsam und der Kopierjob bricht kurz vorm Ende ab mit der Meldung: Netzwerkpfad (UNC auf den gleichen Server) nicht mehr verfügbar.

 

Während des kopierens dauern etwa Anmeldungen auf einem TS sehr lange (Profikl wird vom FS geholt...) aber auch direkt auf dem FS ist es dann langsam.

 

Es ist auf jeden Fall an die Last gebunden. Deswegen: Gibt es die Möglichkeit eine Performance- bzw. Auslastungsprüfung im CLuster zu machen?

 

Also nochmal ich bin nicht sicher, dass es am CLuster liegt, aber ich will versuchen diese Komponente ebenfalls auszuschließen.

Link zu diesem Kommentar

Also ich bin ja leider auch kein cluster Guru, und kann Dich da auch nur guten Gewissens an unseren support verweisen.

Aber:

Schau doch mal ob einer der Hotfixe in den folgenden Artikeln eventuell auf Dein problem zutreffen könnte - Je nach OS

 

Recommended hotfixes for Windows Server 2003-based server clusters

Recommended hotfixes for Windows Server 2003 Service Pack 2-based server clusters

Recommended hotfixes for Windows Server 2003 Service Pack 1- based server clusters

Recommended hotfixes for Windows 2000 Service Pack 4-based server clusters

 

amichel

 

Edit: UUPs jetzt habe ich die deutschen automatisch übersetzten links angegeben - sorry

Link zu diesem Kommentar

Moin!

 

Es ist erstaunlich, aber heute ist alles in Ordnung.

Ich habe trotzdem auf einem der FS mal das "Update rollup for Windows 2000 Service Pack 4-based server clusters" KB 885912 installiert.

 

Einzige Änderung seit gestern: ich habe auf den FC-Switches das Zoning so geändert, dass jeder Server nur einen Pfad zum Storage hat.

Denn die Fehler hatten für mich den Charakter von unterschiedlichen Zugriffen auf gleiche ressourcen.

 

Ich warte nun erst mal ab ob es weiter so gut läuft.

Link zu diesem Kommentar

Hallo Pipeline,

 

MS pflegt eine Liste empfohlener Hotfixe, mehr dazu hier:

Cluadmin.de Windows Cluster Blog » Blog Archiv » Empfohlene Hotfixe für Windows Server 2003 Servercluster

Die gehören (auch) auf einen Cluster, sollten also nicht fehlen.

 

Outlook (standalone ohne Exchange) verliert zwischenzeitlich die Verbindung zur PST

Was heisst das? Ihr legt nicht wirklich PST Dateien auf den Server und lasst die Leute per File Share darauf zugreifen, oder? :shock:

 

 

 

Was ist Deine Disk S:?

 

Welchen Quorumtyp nutzt ihr?

Du hast im Log Auszug keine ERR oder WARNs, das ist schon mal gut.

 

Wieviele Anwender nutzen das System/wie stark wird es beansprucht?

 

Nutzt ihr den Cluster nur für File Sharing?

 

Was sagt der Task Manager und perfmon während die Performance einbricht?

Ist der Server dann noch flott über RDP bedienbar?

Link zu diesem Kommentar

Moin Lian!

 

Diese Liste gibt es auch für Windows 2000 Cluster:

Recommended hotfixes for Windows 2000 Service Pack 4-based server clusters

Da diese Patches alle (bis auf 831375 der sich nur auf ein Fehler mit chkdsk bezieht) im KB885912 enthalten sind,

habe ich dies ja gestern auf einem der Clusternodes installiert.

Ich hoffe ich komme noch dazu dies auch auf dem anderen Node zu machen, habe aber jetzt drei Wochen Urlaub...

 

Zu den PSTs:

Ja, die liegen in den Homeverzeichnissen der User auf einer Freigabe.

Da die Kunden auf unterschiedlichen Terminalserver arbeiten sehe ich auch keine andere, sinnvolle Lösung.

Mir ist dazu aber auch kein Problem bekannt. Es sorgt nur für Last, ansonsten sehe ich keine Nachteile.

 

Disk S: ist das Spoolverzeichniss für die Druckwarteschlange die auch im Cluster liegt.

 

Als Quorumtypen, tja ich weiß nicht ganz was du meinst, aber ich denke du möchtest den Ressourcentypen wissen.

Es läuft als "Physikalischer Datenträger" der wiederum auf dem SAN liegt.

 

Freut mich, dass im Log keine Fehlereinträge stehen. Auf ERR hatte ich bereits geprüft...

 

Gleichzeitig angemeldete Benutzer sind es etwa 55.

Was die Beanspruchung angeht habe ich leider keine wirklichen Analysetools. Dies war ja auch eine meiner Fragen:

 

Wie kann ich die Last des CLusters prüfen?

 

Die Server und das Storage sind zumindest kaum ausgelastet.

 

Im CLuster liegen neben Dateifreigaben nioch die Druckwarteschlange, ein paar Namen, IP-Adressen und ein einfacher Dienst von der Backup Software TSM (IBM Tivoli).

 

Wenn die Performance einbricht ist auf allen Servern im Taskmanager nichts zu sehen.

Perfmon habe ich bislang nicht benutzt, der ist unter 2000 ja leider nicht so ergiebig (oder ich habe nur nicht die richtigen Leistungsindikatoren gefunden...).

 

Die Server (nicht nur die FS!) sind dann sowohl über RDP, ICA, VNC und direkt nicht mehr flott bedienbar, wenn auf irgendwelche Daten zugegriffen wird,

was ja immer und ständig der Fall ist.

Link zu diesem Kommentar
Es ist erstaunlich, aber heute ist alles in Ordnung.

Ich habe trotzdem auf einem der FS mal das "Update rollup for Windows 2000 Service Pack 4-based server clusters" KB 885912 installiert.

 

Einzige Änderung seit gestern: ich habe auf den FC-Switches das Zoning so geändert, dass jeder Server nur einen Pfad zum Storage hat.

Denn die Fehler hatten für mich den Charakter von unterschiedlichen Zugriffen auf gleiche ressourcen.

 

Ich warte nun erst mal ab ob es weiter so gut läuft.

 

Es lief gestern wirklich den ganzen Tag gut.

Ich habe trotzdem gestern Abend das Storage (IBM FAStT200) mit neuer Firmware versorgt.

Das Zoning ist wieder umgestellt, so dass jeder Server über beide Switches ans Storage herankommt.

 

Ab 9 Uhr wird es spannend, wenn die Kunden so richtig loslegen!

Link zu diesem Kommentar
Mir ist dazu aber auch kein Problem bekannt. Es sorgt nur für Last, ansonsten sehe ich keine Nachteile.

 

Ist das nicht genau Dein Problem?

 

Generell immer beide Nodes möglichst identisch halten, sei es von der Software her (hotfixes) oder von der Hardware, sonst macht es keinen Sinn einen Cluster zu betreiben.

 

Überlegt Euch mal auf Windows Server 2003 upzugraden, der Nachfolger steht so gut wie vor der Tür, da sollte das d'rin sein. ;)

Und packt die PSTs weg vom File Server, die haben da nichts zu suchen.

Wenn das so gedacht wäre, bräuchte niemand einen Exchange Server.

 

Der perfmon ist sehr mächtig, auch schon unter W2K, schau ihn Dir mal an, das ist das Tool der Wahl um Performanceproblemen auf den Grund zu gehen.

 

Wenn Du mal ein paar ruhige Minuten hast, lies Dir folgenden Artikel durch:

Windows 2000 Server: File Cache Performance and Tuning

Link zu diesem Kommentar

Hallo Zusammen

 

Ich hatte im letzten August ein ähnliches Phänomen auf einer HP SAN (MSA 1000) mit zwei SQL/Fileclusternnode (allerdings unter Windows 2003). Stolz fanden wir die Ursache selbst, denn HP wies uns zu MS und MS zu HP :-(

 

Wir stellten fest, dass während einem Switch oder dem Bootvorgang oder dem Kopieren von vielen kleinen Dateien auf den SAN Switche ein sehr grosser Traffic (25 MByte /sec) auftraten. Das ganze trat auch nur sporadisch auf. War jedoch bei einem Switch reproduzierbar.

 

Ursache war ein defektes Dateisystem auf einem Diskvolume des SAN welcher dem Filecluster angehörte (nicht dem SQL). Wir hatten chkdsk gemacht, Disk in den (Maintmode nehmen damit es keine Switche gibt) und fanden 260 000 defekte ACL Einträge. Danach konnten wir die Disksysteme praktisch alle neu berechtigen. (Lustigerweise natürlich alle Departmentshares)

 

Gruss,

Matthias

Link zu diesem Kommentar

Moin!

 

Vieles ist passiert.

Freitag Mittag hat beim verschieben der Ressourcengruppen der Cluster plötzlich gar nicht mehr reagiert. Auf beiden Nodes war der Zugriff auf den Clustermanager weg, die Dienste hingen auf "wird gestartet". Mehrmaliges durchstarten hat zum Glückgeholfen. Einer der FS hat dann Chkdsk auf das Quorum gemacht (siehe Logauszug unten...) nun läuft es wieder. Allerdings habe ich das Gefühl das verschieben dauert länger als noch vor ein paar Wochen...

 

Wir haben Freitag Abend einiges mit IBM an der Konfig (bzgl. Cache) des Storage geändert.

Außerdem mal wieder eine Defekte Platte gefunden (wa sich in der FAStT immer sehr stark auswirkt!)

 

 

Die Cluster Nodes sind nun auch wieder identlisch was die Hotfixes angeht.

Update auf 2003 kommt nicht in Frage, wir bauen eine neue Farm auf in die diese alte dann mal umziehen soll, aber das dauert bestimmt noch ein halbes Jahr!

 

 

Nochmal zu den PSTs: Ich sehe ja ein, dass die im Cluster bzw. auf den FS Last produzieren, aber das war die letzten fünf Jahre nicht anders. Außer das die PSTs etwas gewachsen sind. Außerdem erwarte ich bei dieser Hard- und Software (SAN und Cluster) das man sie nicht mit 60 gleichzeitig angemeldeten Benutzern auslasten kann!

 

Wo sollten die PSTs auch liegen? Auf den Terminalservern macht auch kein Sinn, dann können die Benutzer bei einem Ausfall auf einem anderen TS nur mit alten Mails arbeiten, weil ihre aktuelle PST nur auf dem zuletzt genutzen TS verfügbar ist.

 

 

 

Chkntfs hat auf keinem der Laufwerke Fehler gefunden.

Chkdsk allerdings! S: (Spool)

CHKDSK hat freien Speicher gefunden, der in der MFT-Bitmap (Master
File Table) als zugeordnet gekennzeichnet ist.

==> Behoben

 

Perfmon werde ich mir nach meinem Urlaub (ja besser hätte es nicht passen können ab Montag habe ich drei Wochen Urlaub) unbedingt ansehen!

Auch nochmal danke für den "Cache Performance und Tuning" Link!

 

 

------------------------

Ereignistyp:	Informationen
Ereignisquelle:	Chkdsk
Ereigniskategorie:	Keine
Ereigniskennung:	26180
Datum:		29.06.2007
Zeit:		13:47:07
Benutzer:		Nicht zutreffend
Computer:	SER-FS-RZ-2
Beschreibung:
Dateisystem auf P: wird überprüft.
Der Typ des Dateisystems ist NTFS.
Die Datenträgerbezeichnung lautet P_Quorum.
Der Indexeintrag chkE442.tmp von Index $I30 in der Datei 0x1d verweist auf die nicht verwendete Datei 0x1e.
Indexeintrag chkE442.tmp in Index $I30 der Datei 29 wird gelöscht.
Kleinere Inkonsistenzen auf dem Laufwerk werden aufgeräumt.
3 nicht verwendete Indexeinträge aus Index $SII der Datei 0x9 werden aufgeräumt.
3 nicht verwendete Indexeinträge aus Index $SDH der Datei 0x9 werden aufgeräumt.
3 nicht verwendete Sicherheitsbeschreibungen werden aufgeräumt.
CHKDSK hat freien Speicher gefunden, der in der MFT-Bitmap (Master
File Table) als zugeordnet gekennzeichnet ist.
CHKDSK hat freien Speicher gefunden, der in der Datenträgerbitmap als
zugeordnet gekennzeichnet ist.
Windows hat Probleme im Dateisystem behoben.

 35503618 KB Speicherplatz auf dem Datenträger insgesamt
     2688 KB in 7 Dateien
       20 KB in 15 Indizes
        0 KB in fehlerhaften Sektoren
    67078 KB vom System benutzt
    65536 KB von der Protokolldatei belegt
 35433832 KB auf dem Datenträger verfügbar

     4096 Bytes in jeder Zuordnungseinheit
  8875904 Zuordnungseinheiten auf dem Datenträger insgesamt
  8858458 Zuordnungseinheiten auf dem Datenträger verfügbar

Link zu diesem Kommentar
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Schreibe einen Kommentar

Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung jetzt entfernen

  Only 75 emoji are allowed.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor-Fenster leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

×
×
  • Neu erstellen...