Exchange2k: hohe HDD Aktivität nach Neustart

reedbeat · 30. Dezember 2003

Hallo,

unser Exchange-2000-Server benötigt nach einem Reboot ungefähr 3-4 Stunden bis er "ansprechbar" wird.

(bzw. bis wieder über OWA oder mit Outlook zugegriffen und gearbeitet werden kann).

Es scheint so als ob grosse Datenmengen kopiert umgelagert, verschoben werden, da die LED der HDD´s (RAID5) sehr aktiv sind.

Der Server ist der 1 DC in der Domäne. Es gibt bei uns insg. 2 DC.

Hardware je DC: Xeon, 2GB Ram, Raid5 mit 200GB (85GB am ExchangeServer in Gebrauch).

Interessant ist auch, dass nach dem Reboot 20-30 Minuten vergehen (solange läuft auch alles ohne Probleme).

Erst dann beginnt die HDD Aktivität und der Server reagiert nicht mehr..

Nach den 3-4 Stunden läuft der Server wieder ganz normal.

Hier einige Logs ( aus "Anwendung" ):

Ereignistyp: Informationen

Ereignisquelle: ESENT

Ereigniskategorie: Allgemein

Ereigniskennung: 100

Datum: 29.12.2003

Zeit: 15:32:45

Benutzer: Nicht zutreffend

Computer: xyz

Beschreibung:

ntfrs (1424) Datenbank 6.01.3940.0031 startet.

-------------------------------------------------------------

Ereignistyp: Informationen

Ereignisquelle: ESENT

Ereigniskategorie: Protokollierung/Wiederherstellung

Ereigniskennung: 300

Datum: 29.12.2003

Zeit: 15:32:46

Benutzer: Nicht zutreffend

Computer: xyz

Beschreibung:

ntfrs (1424) Die Datenbank initiiert Schritte zur

Wiederherstellung.

---------------------------------------------------------------

Ereignistyp: Informationen

Ereignisquelle: ESENT

Ereigniskategorie: Protokollierung/Wiederherstellung

Ereigniskennung: 301

Datum: 29.12.2003

Zeit: 15:32:47

Benutzer: Nicht zutreffend

Computer: xyz

Beschreibung:

ntfrs (1424) Die Datenbank spielt die Protokolldatei

c:\winnt\ntfrs\jet\log\edb.log ab.

----------------------------------------------------------------

Ereignistyp: Informationen

Ereignisquelle: MSExchangeTransport

Ereigniskategorie: Routingmodul/dienst

Ereigniskennung: 1005

Datum: 29.12.2003

Zeit: 15:32:47

Benutzer: Nicht zutreffend

Computer: xyz

Beschreibung:

RE-Dienst wurde gestartet, Version: 6.0.6487.187.1.

---------------------------------------------------------------

Ereignistyp: Warnung

Ereignisquelle: MSExchangeMTA

Ereigniskategorie: Produktsupport

Ereigniskennung: 2219

Datum: 29.12.2003

Zeit: 15:32:52

Benutzer: Nicht zutreffend

Computer: xyz

Beschreibung:

Der MTA startet die Wiederherstellung der internen

Nachrichtendatenbank, da der MTA nicht ordnungsgemäß

heruntergefahren ist. Dies kann einige Zeit dauern.

Statusaktualisierungen werden in das Windows

2000-Ereignisprotokoll geschrieben. [DB Server MAIN BASE 1 0]

(14)

---------------------------------------------------------------

Ereignistyp: Warnung

Ereignisquelle: MSExchangeMTA

Ereigniskategorie: Produktsupport

Ereigniskennung: 2206

Datum: 29.12.2003

Zeit: 15:32:52

Benutzer: Nicht zutreffend

Computer: xyz

Beschreibung:

Die Wiederherstellung der MTA-Datenbank überprüft die

Warteschlange XAPIWRKQ. Die Datei der Warteschlange ist

01000020. [DB Server MAIN BASE 1 29] (14)

---------------------------------------------------------------

Ereignistyp: Fehler

Ereignisquelle: Perflib

Ereigniskategorie: Keine

Ereigniskennung: 1015

Datum: 29.12.2003

Zeit: 18:55:26

Benutzer: Nicht zutreffend

Computer: xyz

Beschreibung:

The timeout waiting for the performance data collection function

"ExIPC" in the "C:\Program Files\Exchsrvr\bin\exprfdll.dll"

Library to finish has expired. There may be a problem with this

extensible counter or the service it is collecting data from or

the system may have been very busy when this call was

attempted.

---------------------------------------------------------------

Unter "FileReplicationService" kommt dieser Log:

Ereignistyp: Fehler

Ereignisquelle: NtFrs

Ereigniskategorie: Keine

Ereigniskennung: 13568

Datum: 29.12.2003

Zeit: 15:32:58

Benutzer: Nicht zutreffend

Computer: FHS-HERMES

Beschreibung:

The File Replication Service has detected that the replica set "DOMAIN SYSTEM VOLUME (SYSVOL SHARE)" is in JRNL_WRAP_ERROR.

Replica set name is : "DOMAIN SYSTEM VOLUME (SYSVOL SHARE)"

Replica root path is : "c:\winnt\sysvol\domain"

Replica root volume is : "\\.\C:"

A Replica set hits JRNL_WRAP_ERROR when the record that it is trying to read from the NTFS USN journal is not found.

---------------------------------------------------------------------------------

Thx!

Reedbeat

günterf · 30. Dezember 2003

Hi!

Zu Fehler 1

http://www.eventid.net/display.asp?eventid=100&source=ESENT

Zu Fehler 2

http://www.eventid.net/display.asp?eventid=300&source=ESENT

Zu Fehler 3

http://www.eventid.net/display.asp?eventid=301&source=ESENT

Denke da ist mehr im argen als nur der Exchange.

Was habt ihr geändert?

Oder was könnte das System so durcheinander gebracht haben?

Steht dazu noch etwas in den anderen Pritokollen?

reedbeat · 31. Dezember 2003

Hallo!

Vielen Dank für die Anteilnahme!

Hab mir die Links durchgesehen.

Zum Problem:

Der erste Absturz des Servers war am 04.12.03, in den Logs findet man einen "Savedump" Eintrag, danach gingen die NICS wieder online, also war ein Reboot geschehen.

So viel ich mich erinnern kann hatten wir um diese Zeit das SP3 (W2k) nochmals installiert, da der Exchange kurzzeitig einen Aussetzer hatte ( Abrufbalken in Outlook, "es werden Daten vom Exchange Server abgerufen").Hat dann nach einem reboot wieder funktioniert. Weiss aber nicht ob das jetzt wirklich der 04.12 war. Es kommt aber hin.

Seit diesem Zeitpunkt steht auch die SCHANNEL Fehlermeldung in den Logs, siehe: http://www.eventid.net/display.asp?eventid=36871&source= Wir hatten aber vor dem 04.12.03 und bis eine Woche danach, noch NIE mit SSL bzw. Zertifikaten gearbeitet. Erst eine Woche später haben wir dann ein selbsterstelltes Zertifikat auf den IIS des Exchange importiert, um Kennwörter über OWA ändern zu können, das funktioniert jetzt auch einwandfrei.

Es wird Groupshield und Netshield von McAfee als Virenschutz verwendet. Das SP3(w2k) haben wir bei laufendem Groupshield installiert. Hat aber noch nie Probleme gemacht. Jetzt ist das SP4 (w2k) und das SP3 (exch) plus den aktuellen Hotfixes drauf.

Fehleinträge in denLogs (in "System",Anwendung","FileReplicationService") scheinen nur am ExchangeServer auf . Unser 2. Server welcher als Fileserver verwendet wird, hat keinerlei Arten solcher Fehleinträge drinnen.

Der GlobaleKatalog(ein der FSMO-Rollen) wird auf beiden Servern geführt (wegen der Ausfallsicherheit). (haken am Exchange bei Sites and Services reingemacht). Hoffe das ist OK???

Hab das von hier:

http://www.mcseboard.de/showthread.php?threadid=979&highlight=global

Die Server laufen seit knapp 5 Monaten.

DNS wird über AD(AD integriert) gepflegt.

WINS weiss ich jezt leider nicht ob aktiviert ist!Könnte es an fehlerhaftem WINS liegen?

Wo soll eurer Meinung nach mit der Fehlersuche begonnen werden, DNS,Replikationsverhalten, Exchange, ExchangeDB? Welche Diagnose-Tools zum Testen des Servers, sind bezogen auf die Log-Fehlermeldungen, anzuraten?

Kann leider erst wieder ab 07.01 Logs posten,

bis dahin allen Yambo Usern einen guten Rutsch ins neue Jahr! :)

reedbeat · 7. Januar 2004

Die fehlenden Logs:

Absturz am 04.12.03:

Ereignistyp: Informationen

Ereignisquelle: Save Dump

Ereigniskategorie: Keine

Ereigniskennung: 1001

Datum: 04.12.2003

Zeit: 07:46:07

Benutzer: Nicht zutreffend

Computer: xyz

Beschreibung:

The computer has rebooted from a bugcheck. The bugcheck was: 0x00000044 (0x87cebd28, 0x00000cca, 0x00000000, 0x00000000). Microsoft Windows 2000 [v15.2195]. A dump was saved in: C:\WINNT\MEMORY.DMP.

Weitere Informationen über die Hilfe- und Supportdienste erhalten Sie unter http://go.microsoft.com/fwlink/events.asp.'>http://go.microsoft.com/fwlink/events.asp.

----------------------------------------------------------------------------------

Kurz davor sind dann zum 1. Mal die beiden Schannel-IDs aufgetaucht:

Ereignistyp: Fehler

Ereignisquelle: Schannel

Ereigniskategorie: Keine

Ereigniskennung: 36871

Datum: 04.12.2003

Zeit: 07:41:12

Benutzer: Nicht zutreffend

Computer: xyz

Beschreibung:

A fatal error occurred while creating an SSL server credential.

Weitere Informationen über die Hilfe- und Supportdienste erhalten Sie unter http://go.microsoft.com/fwlink/events.asp.

-----------------------------------------------------------------------------------

Hab herausgefunden, dass die Event-ID 13568 (Journal Wrap Error, siehe weiter oben) darauf hinweist, einen non-authorativen Restore durchzuführen.(post SP3 feature) Siehe auch http://support.microsoft.com/default.aspx?scid=kb;en-us;307319 (nach "13568" suchen).

Trau mich aber nicht wirklich dies durchzuführen, da ev. das nicht den Ursprung des Problems darstellt.

@günterf:

Ich glaube nicht, dass die LOGS auf ein Problem mit WINS hinweisen,wie auf EventiID beschrieben, da sich nämlich die Beschreibung der Logs auf "ntfrs" bezieht.

Ich bedanke mich schonmal für eure Hilfe!

reedbeat

msdtp · 7. Januar 2004

Hallo,

Ich würde erst mal den kompletten Sserver sichern; mit Ghost oder mit Acronis.

letzteres hat den Vorteil, dass der SErver dafür weiter online sein kann.

Wenn das Image fertig ist, würde ich zuerst mal das SP 4 noch mal aufsielen und dann alleSupporttips durchführen.

Wenn es zum Crash kommt, kann man das image einfach zurückspielen und das "Spiel2 beginnt noch mal.

Wichtig ist hier noch, falls ser Server nicht mehr läuft, wie lange er offline sein kann. Sprich wie lange hält der ISP die Mails in der Warteschlange.

In unserem Haus sind das 48 Stunden.

Kann aber bei Rücksprache auch verlängert werden. :cool:

reedbeat · 7. Januar 2004

Hallo,

Acronis haben wir leider nicht, Ghost schon.

Das Image wäre dann an die 80GB gross.

Der Mailserver wird mit Backup-Exec von Veritas gesichert.

Die Ghost Variante ist aber glaub ich leichter durchzuführen als ein Restore mit BackupExec, oder?

Das SP4 wurde erst nachinstalliert.

Was versteht Du unter "alle Supporttipps", incl. non-authoritativen Restore?

Weiss wer was zu den geposteten Log-Meldungen?

Ich hätte gern gewusst warum der Fehler auftritt!

reedbeat · 19. Februar 2004

Problem gelöst:

mcAfee Groupshield war der Auslöser!!!

Haben jetzt die neue Version 6.0 oben, alles Ok, keine Hängenbleiber und sontige Aussetzer mehr!!

Ein non-authoritative Restore per Registry Eintrag (dann wieder entfernt) hat den ntfrs Fehler beseitigt. Funktioniert auch wieder!

grüsse

Reedbeat

Anmelden

Exchange2k: hohe HDD Aktivität nach Neustart

Empfohlene Beiträge

reedbeat 10

günterf 45

reedbeat 10

reedbeat 10

msdtp 13

reedbeat 10

reedbeat 10

Erstelle ein Benutzerkonto oder melde dich an, um zu kommentieren

Benutzerkonto erstellen

Anmelden

Menu

Aktivitäten