Jump to content

Server stürzt regelmässig ab


Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Empfohlene Beiträge

Hallo Leute, ich schreibe leider nicht um zu sagen wie toll ein Server läuft, sondern ich spreche - natürlich - von einem Problem.

 

Seit 4 Tagen stürzt unser SBS2003 alle 12-24h einmal ab und bootet neu und ich weiß nicht warum. Es sind am System selber zuletzt kleine Änderungen von ca. 3 Wochen gemacht wurden (neuer POP3-Connector inkl. Spam), aber nichts vor den besagten 4 Tagen.

 

Zum System:

- Asus Server Board

- XEON CPU

- 1GB ECC RAM

- Adaptec Zero RAID Controller

- RAID 5 mit Hot Spare HDD

 

Zuerst hatte ich den Controller im Verdacht, da vereinzelt Event Logs Typ 9 und 11 mit Lesefehlern auf Controllern drin standen (aber nicht unmittelbar vor/nach dem Crash). Einmal gab es gar einen Bluescreen mit einem Lesefehler auf den Controller Treiber.

 

Diesen kann ich aber ausschließen, da ich ihn vor 24h getauscht habe und der Fehler vor 1h wieder auftrat. Kein Bluescreen, keine Warnung/Fehler Einträge ins Event Log (das Ding ist absolut sauber!), absolut nichts. Er startete einfach neu....

 

Hat jemand eine Idee woran das noch liegen könnte? Netzteil, RAM (obwohl ECC) oder Mainboard selber? Ich steh bissel auf dem Schlauch :confused:

 

Danke,

ff

Link zu diesem Kommentar
Seit 4 Tagen stürzt unser SBS2003 alle 12-24h einmal ab und bootet neu und ich weiß nicht warum. Es sind am System selber zuletzt kleine Änderungen von ca. 3 Wochen gemacht wurden (neuer POP3-Connector inkl. Spam), aber nichts vor den besagten 4 Tagen.
Ist da mit dem Absturz genauer definierbar? Oder macht der sich durch den Neustart bemerkbar? Wird nach dem neustart das system neu geladen und initialisiert? Sagr das Ereignisprotokoll etwas aus?
Link zu diesem Kommentar
Hat jemand eine Idee woran das noch liegen könnte? Netzteil, RAM (obwohl ECC) oder Mainboard selber?
Das sind ja keine ausschliessbaren Dinge. Defekte ECCs habe ich zwar noch nicht gehabt, das ja aber nichts zu bedeuten. Ich würde sie tauschen falls möglich oder ein Speichertestprogramm benutzen.

 

Auch ein Board kann eine Meise haben. Fehlerhafte Kondensatoren waren schon häufig ein Thema.

Link zu diesem Kommentar
Seit 4 Tagen stürzt unser SBS2003 alle 12-24h einmal ab und bootet neu und ich weiß nicht warum. Es sind am System selber zuletzt kleine Änderungen von ca. 3 Wochen gemacht wurden (neuer POP3-Connector inkl. Spam), aber nichts vor den besagten 4 Tagen.
Führt der Exchange eine automatische Wartung durch?

 

Ich bin da kein Experte, ich habe da nur mal was gelesen, deshalb vorsicht!

 

Es wurde berichtet von einem Restart zeitgleich mit der Exchangewartung. Diese braucht anscheinend mehr Ressourcen, wohl auch RAM. Dieser soll letztendlich die Ursache gewesen sein.

Link zu diesem Kommentar

Der Server lief seit 1,5 Jahren ohne Probleme. Die Abstürze kann ich nicht genau definieren. Würde ein Bluescreen kommen, würde er nicht neu starten, da ich dies deaktiviert habe (ging auch einmal). Melde ich mich aber später wie an, möchte er eine Erklärung für den unkontrollierten Neustart für das Eventlog haben (es stehen keine 0x00000xxx oder ähnliches dabei). Die Zeiten sind auch völlig unterschiedlich. Mal 2 Uhr in der Nacht, mal halb 11 Uhr am Tag, mal 21:30 Uhr - kein Schema auszumachen. Die Auslastung liegt auch nur bei ca. 5% CPU. Eine automatische Wartung läuft zwar ab, aber zu völlig anderen Zeiten.

 

Wie gesagt, steht auch im Eventlog absolut nichts zum Absturz drin. Daher ist meine Vermutung ein Hardwaredefekt, den ich aber bisher nicht eingrenzen konnte.

Link zu diesem Kommentar

Nun, wenn solch ein OS sozusagen ins Bodenlose stürzt, warum auch immer und einen ansonsten fehlerfreien Neustart baut, gibt es über den Neustart eine Meldung, diese sagt aber nichts über eine Ursache aus.

 

Letztendlich bleiben doch wohl nur einge Optionen übrig: Austausch der Hardwarekomponenten komplett oder einzeln oder alternativ die Neuinstallation auf einem extra Plattensatz zum Testen ausserhalb der Betriebszeit. Wie wertvoll ist der unterbrechungsfreie Lauf des Gerätes? Was kostet ein plötzlicher Neustart, was würde ein Totalausfall kosten bis zur Ersatzgestellung?

 

Falls der Betrieb ohne die EDV steht, die Verwaltung, die Produktion, der wareneingang, der versand, der Verkauf, dann kann es doch wohl überhaupt keine Frage der Kosten sein für Ersatzhardware und sonstige Redundanz. Auch an den Kosten für fachlich versiertes Personal, Service darf es nicht liegen.

Link zu diesem Kommentar

Nun, wurde an dem Server schon mal ein Klopftest durchgeführt, mit einem Gummiehämmerchen?

 

Wurde er schon mal geöffnet, eine Prüfung auf ungewöhlichen Geruch durchgeführt?

 

Wurde die Komponenten, das Board mal optisch gemüstert? Liegt auf dem Gehäuseboden eventuell der Hut eines Kondensators? Ist bei einem Kondensator eine Kappe (leicht) geöffnet?

 

Wie ist es eigentlich mit der Temperatur des Prozessors? Wird die Wärme abgefördert, sitzt der Kühlkörper richtig plan auf der Fläche?

 

Wie sieht es denn mit dem Netzteil aus? Neulich hob ich bei einem Gerät mal den kabelbaum an, da machte das einen Neustart.

Link zu diesem Kommentar

Wie ich bereits am Anfang schrieb, habe ich bereits den RAID-Controller testweise gewechselt. Natürlich war der Server dabei offen ;)

Die CPU-Temperatur und die Lüfter habe ich bei der Gelegenheit mit kontrolliert. Kondis sahen alle iO aus. Die Kabelstecker (Wackler) hatte ich ebenfall geprüft.

 

Ich werde nach dem nächsten Absturz mal einen Memtest machen, auch wenn der RAM ECC ist und Speicherfehler damit eigentlich verhindert werden sollten. Ein passendes Netzteil kann ich erst Montag besorgen, aber das wäre dann der nächste Schritt. Ob es das Mainboard noch gibt wag ich zu bezweifeln, und nein, eine kleine Firma kann sich nicht einfach so Ersatzhardware hinlegen. Da es ein SBS2003 ist, könnt ihr Euch sicher die Bedeutung dieses Servers vorstellen. Zwar habe ich den DHCP woanders und auch der DNS-Server und das AD habe ich redundant aufgebaut, aber für den Exchange gibts natürlich keinen Ersatz.

 

Ich habe gehofft, dass einige von Euch das Problem des spontanen Neustarts kennen und gezielte Vorschläge bringen können. Insofern bin ich weiter für jede Hilfe offen. Vielen Dank :)

Link zu diesem Kommentar
Ob es das Mainboard noch gibt wag ich zu bezweifeln, und nein, eine kleine Firma kann sich nicht einfach so Ersatzhardware hinlegen. Da es ein SBS2003 ist, könnt ihr Euch sicher die Bedeutung dieses Servers vorstellen.
Ich kann mir die Bedeutung sehr wohl vorstellen. Ich kann das auch hinsichtlich der Hardware und auch des Restes.

 

Nun, ich denke alles Wesentliche dargelegt zu haben.

 

Viel Erfolg

 

Edit: Es wird doch nicht an solch profanen Dineg wie der Grafikkarte, dessen Treiber oder so liegen? Nein, da würde es zum BSoD kommen.

 

Aus meiner Erinnerung, aus einem Thread im Sommer 2005: Ein Server stürzte öfters ab, meist tagsüber. Er wurde aus dem Schrank im Serverraum rausgenommen, geöffnet in die Admninbude gestellt. Die Menge der Abstütze reduzierte sich gegen Null. Letztendlich wurde das Board getauscht und es funktionierte auch wieder im Rack.

Link zu diesem Kommentar
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Schreibe einen Kommentar

Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung jetzt entfernen

  Only 75 emoji are allowed.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor-Fenster leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

×
×
  • Neu erstellen...