Jump to content

Netzwerkausfall / Broadcaststorm oder Defekt?


Direkt zur Lösung Gelöst von lefg,
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Empfohlene Beiträge

Liebe Community,

 

ich hatte in den letzten 4 Wochen in einem Netzwerk mit rund 90 Clients 3 Netzwerkausfälle, die in letzter Instanz auf Switches (NETGEAR GS348T und HP Procurve) zurückzuführen waren. (So glaubte ich zumindest bis heute).

 

Heute in der Früh stellte sich die Situation so dar, dass im Netzwerk absolut nichts mehr ging:

Die Clients waren nicht pingbar, die Server waren nicht pingbar (auch nicht untereinander).

der DC war (obwohl der Taskmanager dies nicht anzeigte) extrem ausgelastet,

Tastatur und Mauseingaben waren nur in Superzeitlupe möglich.

 

Im Zuge der Analyse ist mir aufgefallen, dass offenbar eine extreme Last auf Switch 1 anliegt (hat man allein von den LEDs schon gesehen. Ich habe deshalb damit begonnen, das Servernetzwerk vom restlichen Netzwerk zu trennen. (Switch 1 von Switch 2 getrennt).

 

Das Netz sieht schematisch gesehen so aus:

 

SERVER <-> (SW)ITCH1

                         |

                    (SW)ITCH2 <--> (CL)ients

                     |      |       |

                   SW3 SW4 SW5

                     |       |      |

                   CL   CL    CL

 

Nach dieser Abkoppelung war das Servernetzwerk, das nur noch an Switch 1 hängte, wieder normal erreichbar. Auch der DC1 war nicht mehr ausgelastet und konnte normal bedient werden.

 

Schließlich konnte durch einen Austausch des Switch 2 das Problem gelöst werden.

So extrem wie heute, war das Problem in den letzten Wochen nicht. Hier gab es ein Problem mit Switch4, das nach einem Tausch des Switches behoben war. Ein ähniches Problem gab es vor ca. 3 Wochen mit Switch5.

 

Ich kann mir nicht vorstellen, dass 3 Switches innerhalb von 4 Wochen defekt werden.

 

Aktuell läuft das System wieder normal.

Leider hatte ich bislang nicht die Zeit die Sache genauer zu analysieren.

 

Heute schien es mir aber so zu sein, wie wenn ein Broadcaststorm im internen Netzwerk passiert.

 

Wie kann man sowas am Besten analysieren?

 

Vielen Dank im Voraus!

 

 

 

Link zu diesem Kommentar
  • Beste Lösung

Der Switch selbst muss nicht die wirkliche Ursache sein, aber "Mittäter".

 

Opa erzählt mal aus dem Krieg:

 

Ich arbeitete abends im Serverraum, die Kollegin aus dem Büro nebenan rief mir einen Abschiedsgruss zu, sie ging in den Urlaub. Ich wandte mich wieder dem LAN-Schrank zu, am grossen 3Com-Switch blinkten alle LED hektisch. Es ging nichts mehr im Netzwerk. Ein "Reset" durch Strom aus, Strom an änderte nichts.Durch Abkabeln aller Ports und einzelnes Ankabeln mit Pause zeigte den Übeltäter, der Rechner der Kollegin nebenan. Der Rechner war aber aus, die Kollegin hatte den runtergefahren weil sie in der Urlaub ging, sonst blieb er an. Die Netzwerkkarte hatte aber Spannung von Wake on LAN. Nach dem Ersetzen der Karte war das Problem behoben.

 

Mir ging ein Licht auf: In einem anderen Bereich beklagten sich seit einiger Zeit Kolleginnen, das morgens zu Arbeitsbeginn nichts ging, sie konnten sich zwar am Rechner anmelden, kamen aber nicht in die Zeiterfassung. Etwas später funktionierte es dann. Es war zum Speiben. Nun, vor einiger Zeit war ein Kollege aus einem anderen Standort zu uns gezogen, er brachte seinen Rechner mit.

 

Ich befragte den Kollegen, er blieb abends etwas länger, kam morgens etwas später. Es fuhr den Rechner nicht immer runter, meist zum Wochenende oder wenn er am nächsten Tag woanders tätig war, es gab keine Regel. Das Netzwerkinterface sein Rechners stellte sich als Übeltäter heraus.

 

Letztendlich wurden alle Switche ersetzt, die HP Procurve 17xx zeigten sich als resistent gegen potentielle weitere Störer.

 

 

Jahre später, anderer Fall, andere Ursache:

 

Die Damen aus dem Frontoffice beklagten sich bei meinem Kollegen, das Drucken dauere lange, stottere. Der Kollege "resettete" die beiden Switche für den Bereich, es schien im ersten Moment erfolgreich, wenig später aber nicht mehr. Es wurden beide Switche ersetzt durch einen 18xx und es war gut.

 

Ich war neugierig und hatte ein wenig Zeit, ich holte die beiden Switche vom Schrott, machte sie auf, zog den Stecker vom Netzteil ab, versorgte die Platine vom Experimentiertisch. Oh Wunder das Switching funktionierte. Eine Untersuchung der Spannung der Netzteile mit einem Oszilloskop zeigte, die Spannung war sehr wellig, mindesten ein Kondensator war defekt.

bearbeitet von lefg
Link zu diesem Kommentar

@DocData: Beim 348T gibt es ein Setting für DoS, dieser ist inaktiv und eine (schlecht übersetzt) "Sturmkontrolle" die inaktiv ist.

Wahlmöglichkeiten: Deaktiviert, Unbekannter Unicast, Multicast, Broadcast. Wählt man hier etwas aus, dann gibt es diverse Zusatzparameter. Diese sagen mir aber nur marginal etwas, weshalb ich da mal die Finger davon lasse.

Dann hätte ich hier noch: Portsicherheitsmodus: Inaktiv

 

Spanning Tree-Status ist aktiv. Betriebsmodus: RSTP

 

@lefg: Danke für deinen Input und deine Erfahrungen. Was mir halt sehr komisch vorkommt ist, dass es über die letzten 4 Wochen drei dieser Ausfälle gegeben hat. Die Switches die getauscht wurden, waren im Schnitt 5 Jahre alt. Jedenfalls haben wir jetzt nagelneue in Betrieb.

 

D.h. ich kann im Endeffekt jetzt nur abwarten und schauen ob es wieder auftritt & danach nicht gesamte Netzwerkbereiche abhängen, sondern PC für PC.

 

Danke jedenfalls!

Link zu diesem Kommentar
vor 3 Stunden schrieb Sunny61:

Die Firmware der beteiligten Switche ist aktuell?

so aktuell wie bei den älteren Switches möglich.

 

vor 2 Stunden schrieb lefg:

Ja, möglicherweise sind die neuen Switche vom Bau her resistent, das war bei unserem Fall so.

schon sehr strange. Da ändert man nix am System und im Rahmen von ca. 4 Wochen, "schießt" es dir 3 48-Port Switches aufgrund unklarer Umstände.

 

bearbeitet von mcdaniels
Link zu diesem Kommentar
vor 5 Stunden schrieb mcdaniels:

chießt" es dir 3 48-Port Switches aufgrund unklarer Umstände.

 

Wie bereits berichtet, defekte Netzteile sind eine Möglichkeit. Warum aber? Was defekt? Fehlerhaftes gemischtes Elektrolyt ist eine Möglichkeit. Mangel an Wärmefestigkeit, an Spannungsfestigkeit weitere. Manchmal oder oftmals sind Switche ungünstig im Rack eingebaut, mangelnde Wärmeableitung. Ich habe mehrfach Patchpenals tiefer gesetzt, die Switche dann nach oben, zwischen den Switches ein fingerbreit Luft. In mehreren Fällen trat der Verdacht auf, Ursache sei Überspannung induziert vom Gewitter.

 

Es müssen aber nicht die Kondensatoren draufgehen, es können auch Dioden sein. Dioden in Netzteilen und auch Steuerkreisen von Fernmeldeanlagen, Vermittlungsanlagen. Einmal stand ich daneben, der Blitz schlug in einen Richfunkmast ca 50m weiter ein, kam über ein eingegrabenes Feldkabel, der Überspannungsschutz am Gebäudeeintritt löste nicht aus,  ein Funke sprang vom Klinkenstecker und hinterliess auf der Tischplatte ein Brandloch. In der Wählanlage gingen die Dioden in den Koordinatenschalteren durch, Ich stand daneben, ich sah den Funken sprühen, ich roch die Mischung von ionisierte Luft, roch den verbrannten Lack und das verbrannte Holz. Und der Donner von draussen war gewaltig.

bearbeitet von lefg
Link zu diesem Kommentar
vor 4 Minuten schrieb NorbertFe:

und gabs weitere Opfer oder nur die arme Tischplatte? ;)

 

Gottseidank sass keiner der Diensthabenden am Vermittlungstisch.

 

Opfer war die Telefonwählanlage, die war funktionsunfähig, die Dioden in den Koordinatenschalteren der Innenverbindungssätze waren durch. Das festzustellen war aber nicht so einfach. Und die Dioden waren nicht einfach austauschbar, man kam da nämlich nicht ran, die Bauart des Satzes nannte sich Sandwich-Bauweise. Des war kein Bundeswehrgerät, wir hatten es vom Fernmeldezeugamt der Post als "Schrott" gekauft.

 

Eigentlich hätte der Überspannungsschutz am Kabeleingang des Gebäudes auslösen müssen.

Link zu diesem Kommentar

Guten Morgen,

 

na Gott  sei Dank gab es keinen Personenschaden. Heute bislang keine Troubles. Ging aber auch bislang immer wieder ein Zeit lang gut.

 

Mal gucken ;)

 

Bezüglich Blitzschlag hatten wir mal etwas Ähnliches bei einer Telefonanlage. Allerdings nicht ganz so eklatant wie von @lefg erwähnt, hat aber dennoch gereicht.

 

Bzgl. die nun neu verbauten Switches: Es scheint so, als wäre bei allen die Looperkennung inaktiv. Macht es Sinn diese einzuschalten?

 

 

bearbeitet von mcdaniels
Link zu diesem Kommentar
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Schreibe einen Kommentar

Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung jetzt entfernen

  Only 75 emoji are allowed.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor-Fenster leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

×
×
  • Neu erstellen...