Jump to content
Doso

Hohe Netzwerkauslastung Hyper-V Clusternodes -> Blue Screen

Empfohlene Beiträge

Wir hatten die Tage eine größere Netzwerkstörung. Jemand hatte eine Schleife im Backend Netzwerk gesteckt, was sich dann auch zu unserem Serverraum Netzwerk verbreitet hatte. Dies hat dann dazu geführt das unsere Hyper-V 2012R2 Cluster Nodes alle in einen Blue Screen gegangen sind, Meldung User_Mode_Health_Monitor. Die Server sind dann alle mehrfach neu gestartet, mit entsprechenden Auswirkungen auf die virtuellen Maschinen. Der Spuk hat erst aufgehört als die Schleife aufgelöst war.

 

Wir haben auch noch einen Testcluster, hier war zwar auch das Netzwerk nicht nutzbar, aber die Server sind nicht ständig neu gestartet.

 


 

Die Server sind neu gestartet weil sie keinen Hearthbeat mehr voneinander erhalten haben. b***d nur das ich eigentlich ein getrenntes Netzwerk mit eigenen kleinen Switches für diese Cluster Kommunikation / Live Migration vorgesehen habe. Und dieses Netzwerk sollte eigentlich auch dafür genommen werden, da niedrigste Metrik.

 

Ich stehe daher aktuell total auf dem Schlauch was man dagegen tun könnte. Jemand eine Idee?

 

Im Anhang ein Screenshot der Cluster Netzwerke. ClusterMove Team ist ein NIC Team aus 2x 1GBe Ports, Serverraum Teaming sind 2x 1GBe NIC Team für die Anbindung der VMs (hier war die Störung). Dies restlichen 4 Ports sind für die Anbindung von Storage, iSCSI, ohne NIC Teaming.

 

Edit:

 


Get-ClusterNetwork | ft Name,Metric

 

Name                                        Metric

----                                             ------

ClusterMove Team                    30384

DS3512-gross-3                        79985

DS3512-gross-4                        70384

DS3524-schnell-3                      79841

DS3524-schnell-4                      79840

Serverraum Teaming                  79842

bearbeitet von Doso

Diesen Beitrag teilen


Link zum Beitrag
Auf anderen Seiten teilen

Der Anhang fehlt . . . . 

 

BTW: Hast Du nun den Heartbeat getrennt oder nicht?

 

Habe es oben hinzugefügt.

 

Der Heartbeat sollte über das NIC Team laufen, zusammen mit dem Live Migrations Verkehr.

Diesen Beitrag teilen


Link zum Beitrag
Auf anderen Seiten teilen

Deine Vermutung bzgl der Ursache (Artikel) scheint in die richtige Richtung zu gehen. Eventuell kannst Du den Heartbeat über separate NICs in ein sparates VLAN stecken.

 

Nils kann bestimmt auch noch weitere Infos liefern. :-)

Diesen Beitrag teilen


Link zum Beitrag
Auf anderen Seiten teilen

Moin,

 

wie sind denn die IP-Segmente der verschiedenen Netze? Sind die voneinander getrennt, oder versucht der Cluster, dasselbe Segment über mehrere Karten zu erreichen? Das wäre spontan das einzige, was mir einfällt, warum der Cluster trotz separierten Heartbeat-Netzes in den Status geht. Oder das Netz ist eben in Wirklichkeit nicht separiert, wodurch der Loop alle Netze in Mitleidenschaft zieht.

 

Gruß, Nils

Diesen Beitrag teilen


Link zum Beitrag
Auf anderen Seiten teilen

Ich habe Live Migration und Cluster/CSV Verkehr über ein NIC Team laufen. Kann es sein das die Hosts irgendwie panisch versuchen Live Migration zu machen z.b. weil ein Host raus ist und dadurch auch dieses Netzwerk zu macht? Evtl. sollte ich das NIC Team auflösen und sowohl Cluster/CSV Verkehr und Live Migration wieder trennen. Hatte die eigentlich zusammen gepackt um mehr Speed bei der Live Migration zu bekommen.

Diesen Beitrag teilen


Link zum Beitrag
Auf anderen Seiten teilen

Moin,

 

zumindest früher war es nicht mal supported, das Heartbeat-Netz zu teamen. Man sollte stattdessen zwei separate Netze einrichten, weil der Clusterdienst selbst ein Failover darüber macht - genauer gesagt über alle Netze, die ihn mit den anderen Nodes verbinden. Diese Supportstatement gilt zwar nicht mehr, seit das Teaming Teil des Betriebssystems ist, aber es zeigt, dass man an der Stelle kein Team braucht.

 

Viele Kunden wollen wie du maximale Geschwindigkeit für Live Migrations. Da frage ich mich immer, wieviel man denn im Normalbetrieb live migriert. Solange man keine höchstdynamische Umgebung hat, migriert man vielleicht einmal im Monat, vor den Host-Updates. Dafür braucht man aber keine Maximalperformance. Ohnehin hülfe das Team nur, wenn du zwei VMs gleichzeitig migrierst, was man in mittelständischen Umgebungen auch eher selten tut.

 

Ganz abgesehen davon, solltest du aber dem Netzwerkproblem auf die Spur kommen, statt dich auf Nebenschauplätze zu konzentrieren. Das Verhalten des Clusters war nicht OK, und das muss einen Grund haben.

 

Gruß, Nils

Diesen Beitrag teilen


Link zum Beitrag
Auf anderen Seiten teilen

Hi,

 

OT:

Viele Kunden wollen wie du maximale Geschwindigkeit für Live Migrations. Da frage ich mich immer, wieviel man denn im Normalbetrieb live migriert. Solange man keine höchstdynamische Umgebung hat, migriert man vielleicht einmal im Monat, vor den Host-Updates. Dafür braucht man aber keine Maximalperformance. Ohnehin hülfe das Team nur, wenn du zwei VMs gleichzeitig migrierst, was man in mittelständischen Umgebungen auch eher selten tut.

 

Darum mag ich Converged Network. Da kann man diese Kunden so richtig glücklich mit machen. ;)

 

Gruß

Jan

Diesen Beitrag teilen


Link zum Beitrag
Auf anderen Seiten teilen

Moin,

 

ja, das wäre evtl. mal was für ein Redesign beim TO. Aber erst, wenn ausreichend Vertrauen in die Netzwerkkonfig drumrum besteht. :D

 

Gruß, Nils

Diesen Beitrag teilen


Link zum Beitrag
Auf anderen Seiten teilen

Danke für Anregungen!

 

Habe das Netzwerk Team auf dem Cluster/Livemigrations Netz wieder aufgelöst. Es hat zwar die Zeiten etwas reduziert wenn ein Host leer gemacht wurde. Aber wie Nils schon schrieb, so wirklich groß ist der Unterschied nicht.

 

Habe weiterhin bemerkt das einer der Node ein Problem hatte und immer mal wieder kurz aus dem Cluster flog. Habe mir das Ding dann mal angeschaut. Irgendwie war eine Netzwerkkarte etwas locker im Gehäuse, da war dann die Verbindung nicht so wirklich stabil.

 

Habe weiterhin bemerkt das wir ja doch eine physische Netzwerkverbindung haben. Wir haben da ein Verwaltungsnetz. Das würde zwar bedeuten das die Netzwerkstörung mehrere Switches,  eine Firewalls und VLANs übersprungen hat.. und eigentlich sollte das nicht .. aber...  So wirklich oft müssen wir nicht an die kleinen Switches ran, da kann ich notfalls die paar Meter zum Serverraum auch laufen. Daher die Management Verbindung getrennt (Kabel gezogen).

 

Ob davon nun irgendwas wirklich was gebracht hat weiß ich nicht. Bis zur nächstes großen Netzwerkstörung dann... wenn der Trend anhält in 3 Jahren dann?!

Diesen Beitrag teilen


Link zum Beitrag
Auf anderen Seiten teilen
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte überlege Dir, ob es nicht sinnvoller ist ein neues Thema zu erstellen.

Erstelle ein Benutzerkonto oder melde dich an, um zu kommentieren

Du musst ein Benutzerkonto haben, um einen Kommentar verfassen zu können

Benutzerkonto erstellen

Neues Benutzerkonto für unsere Community erstellen. Es ist einfach!

Neues Benutzerkonto erstellen

Anmelden

Du hast bereits ein Benutzerkonto? Melde dich hier an.

Jetzt anmelden

×