illuminaten 11 Geschrieben vor 9 Stunden Melden Geschrieben vor 9 Stunden (bearbeitet) Hallo zusammen, wir haben bei einem Kunden vor ein paar Monaten zwei neue HyperV-Hosts hingestellt. Vor ca. 4 Wochen kam es dann zu einem Ausfall auf einem der Hosts. Sie sind zwar im Failovercluster, aber die angelegten VM's wurden nicht korrekt verschoben und waren in einem undefinierten Zustand. Nach Prüfung des Fehlers ist uns aufgefallen, dass am Host in der Nacht die Netzwerkkarte getrennt wurde, was dann dutzende Folgefehler produziert hat. Eine Woche später erneut der genau gleiche Ausfall. Wir haben dann alle VM's auf den zweiten Host verschoben und sind von einer defekten Netzwerkkarte ausgegangen. Nun haben wir heute den gleichen Fehler auf dem zweiten Host. Die Meldungen aus dem Ereignisprotokoll hänge ich ganz unten an. Hört sich jetzt b***d an, aber bei allen drei Ausfällen wurde vorher vom Kunden selbst die externe HDD getauscht, für die Backup Copy Jobs. Ich gehe mal nicht davon aus, dass das damit etwas zu tun haben kann, aber ich erwähne es mal lieber. Die Hosts sind: Windows Server 2022 Fujitsu PRIMERGY RX2530 M7 bzw. PRIMERGY RX2530 M7S CPU: Intel(R) Xeon(R) Gold 5416S (CORES 16) Motherboard: FUJITSU D3982-A1 Hier noch ein paar Infos zu Netzwerkkarten: Name : Flexible LOM1 Port 3 Description : Intel(R) Ethernet Network Adapter I350-T4 for OCP NIC 3.0 Manufacturer : InterfaceDescription : Intel(R) Ethernet Network Adapter I350-T4 for OCP NIC 3.0 PNPDeviceID : Name : Flexible LOM1 Port 2 Description : Intel(R) Ethernet Network Adapter I350-T4 for OCP NIC 3.0 #4 Manufacturer : InterfaceDescription : Intel(R) Ethernet Network Adapter I350-T4 for OCP NIC 3.0 #4 PNPDeviceID : Name : PCI Slot 2 Port 1 Description : Intel(R) Ethernet Network Adapter X710-T2L Manufacturer : InterfaceDescription : Intel(R) Ethernet Network Adapter X710-T2L PNPDeviceID : Name : PCI Slot 2 Port 2 Description : Intel(R) Ethernet Network Adapter X710-TL Manufacturer : InterfaceDescription : Intel(R) Ethernet Network Adapter X710-TL PNPDeviceID : Name : Onboard LAN Description : Intel(R) I210 Gigabit Network Connection Manufacturer : InterfaceDescription : Intel(R) I210 Gigabit Network Connection PNPDeviceID : Name : Flexible LOM1 Port 1 Description : Intel(R) Ethernet Network Adapter I350-T4 for OCP NIC 3.0 #3 Manufacturer : InterfaceDescription : Intel(R) Ethernet Network Adapter I350-T4 for OCP NIC 3.0 #3 PNPDeviceID : Name : Flexible LOM1 Port 4 Description : Intel(R) Ethernet Network Adapter I350-T4 for OCP NIC 3.0 #2 Manufacturer : InterfaceDescription : Intel(R) Ethernet Network Adapter I350-T4 for OCP NIC 3.0 #2 PNPDeviceID : Edit: Ich habe noch einen Screenshot angehängt von der Clusterüberprüfung. Dort gibt er mir Warnungen und Fehler bei der Switch Konfiguration aus. bearbeitet vor 7 Stunden von illuminaten Edit
v-rtc 93 Geschrieben vor 8 Stunden Melden Geschrieben vor 8 Stunden Hallo, Treiber, Software Stände passen? Wurde immer die Disk getauscht kurz vor den Ausfällen? Grüße 1
illuminaten 11 Geschrieben vor 8 Stunden Autor Melden Geschrieben vor 8 Stunden vor 12 Minuten schrieb v-rtc: Treiber, Software Stände passen? Intel_LAN_ProSet_All Treiber ist die Version 9.01.04.00 installiert. Eine neuere Version 9.02.04.00 wäre verfügbar. vor 13 Minuten schrieb v-rtc: Wurde immer die Disk getauscht kurz vor den Ausfällen? Die Disks wurden immer zwischen 18 und 19 Uhr getauscht. Die Ausfälle der Netzwerkkarte war immer in Nacht, jeweils um 01:00 Uhr und gegen 02:00 Uhr
tesso 387 Geschrieben vor 8 Stunden Melden Geschrieben vor 8 Stunden Alles auf Höchstleistung? Energie sparen bei den Netzwerkkarten deaktiviert?
illuminaten 11 Geschrieben vor 7 Stunden Autor Melden Geschrieben vor 7 Stunden vor 3 Minuten schrieb tesso: Alles auf Höchstleistung? Energie sparen bei den Netzwerkkarten deaktiviert? Der Host selbst läuft in der Energieverwaltung auf "Höchstleistung". Bei der Netzwerkkarte ist der Haken nicht gesetzt bei "Computer kann das Gerät ausschalten um Energie zu sparen"
testperson 1.866 Geschrieben vor 7 Stunden Melden Geschrieben vor 7 Stunden Hi, wie sieht denn die Netzwerkkonfig generell aus? Wie viele Adapter gibt es und wofür? Wie sind die geteamed (LBFO vs. Switch Embedded)? Gruß Jan
illuminaten 11 Geschrieben vor 7 Stunden Autor Melden Geschrieben vor 7 Stunden vor 18 Minuten schrieb testperson: wie sieht denn die Netzwerkkonfig generell aus? Wie viele Adapter gibt es und wofür? Wie sind die geteamed (LBFO vs. Switch Embedded)? Physische Adapter: Je Host: 2 × Intel X710-10 Gbit Ports (für Cluster) Zusätzlich: 1 × Intel I350-T4 1 Gbit Port (für anderes Netz) vSwitches: 10G-Failover: Externer vSwitch, an beide 10 G-Ports (X710-T2L + X710-TL) angebunden Typ: Switch Embedded Teaming (SET) Teaming-Modus: Switch Independent AllowManagementOS: True
Sunny61 834 Geschrieben vor 6 Stunden Melden Geschrieben vor 6 Stunden vor einer Stunde schrieb illuminaten: Intel_LAN_ProSet_All Treiber ist die Version 9.01.04.00 installiert. Eine neuere Version 9.02.04.00 wäre verfügbar. Dann wäre es Zeit die Version zu aktualisieren. vor einer Stunde schrieb illuminaten: Der Host selbst läuft in der Energieverwaltung auf "Höchstleistung". Schau mal im BIOS nach ob man dort etwas einstellen. BIOS/UEFI aktuell? Falls nein, aktualisieren. Die Verkabelung bzw. beteiligte Komponenten können ganz sicher ausgeschlossen werden? Switch(e) an dem die Kabel dran hängen sind aktuell? Kabel schon getauscht?
testperson 1.866 Geschrieben vor 6 Stunden Melden Geschrieben vor 6 Stunden vor einer Stunde schrieb illuminaten: Physische Adapter: Je Host: 2 × Intel X710-10 Gbit Ports (für Cluster) Zusätzlich: 1 × Intel I350-T4 1 Gbit Port (für anderes Netz) vSwitches: 10G-Failover: Externer vSwitch, an beide 10 G-Ports (X710-T2L + X710-TL) angebunden Was bedeutet "für anderes Netz" und wie wird die Karte im Cluster behandelt? Die beiden Intel X710 bilden also ein SET Switch, der auch fürs Management genutzt wird. Es gibt keine dedizierten (physische / virtuelle) NICs für Cluster Kommunikation / Live Migration (/ Storage?) Ist das ein S2D Cluster bzw. wie ist das Storage angebunden?
illuminaten 11 Geschrieben vor 5 Stunden Autor Melden Geschrieben vor 5 Stunden vor 40 Minuten schrieb Sunny61: Schau mal im BIOS nach ob man dort etwas einstellen. BIOS/UEFI aktuell? Falls nein, aktualisieren. Die Verkabelung bzw. beteiligte Komponenten können ganz sicher ausgeschlossen werden? Switch(e) an dem die Kabel dran hängen sind aktuell? Kabel schon getauscht? Ehrlich gesagt können wir das nicht ausschließen und konnten auch noch keinen Blick in das Bios werfen. Der Fehler ist heute morgen aufgefallen. Wir sind noch daran die "Nachwehen" zu fixen. auch können wir den Host (noch) nicht neu starten. vor 6 Minuten schrieb testperson: Ist das ein S2D Cluster bzw. wie ist das Storage angebunden? Das kann ich dir schonmal beantworten. Im Cluster ist eine Ethernus eingebunden, also Netzwerkspeicher auf dem alle VM's angelegt sind.
mwiederkehr 398 Geschrieben vor 4 Stunden Melden Geschrieben vor 4 Stunden Gab es zu der Zeit der Ausfälle eine hohe Last (Backup)? Ich würde zuerst die Firmware und den Treiber aktualisieren. Vor einigen Jahren hatte ich ein ähnliches Problem mit X710-NICs. Sie haben unter Last die Verbindung verloren und sich nur durch einen Power-Cycle erholt. Ein Firmware-Update hat damals geholfen.
testperson 1.866 Geschrieben vor 3 Stunden Melden Geschrieben vor 3 Stunden vor 2 Stunden schrieb illuminaten: Das kann ich dir schonmal beantworten. Im Cluster ist eine Ethernus eingebunden, also Netzwerkspeicher auf dem alle VM's angelegt sind. Und angebunden per Fibre Channel, iSCSI, SAS? Zusätzlich wäre ein Antwort auf vor 2 Stunden schrieb testperson: Die beiden Intel X710 bilden also ein SET Switch, der auch fürs Management genutzt wird. Es gibt keine dedizierten (physische / virtuelle) NICs für Cluster Kommunikation / Live Migration (/ Storage?) hilfreich. ;)
illuminaten 11 Geschrieben vor 3 Stunden Autor Melden Geschrieben vor 3 Stunden Wir sind nun etwas klüger :) Laut Eventlog wurden an beiden Hosts die Netzwerkkarten komplett zeitgleich getrennt (sind zwei komplett getrennte Systeme). Habe daraufhin den Switch untersucht. Dieser hat zu der genannten Uhrzeit wo die Fehler auftraten ein Update installiert. Scheinbar war der Link dann kurz weg. Auto-Update habe ich dann direkt ausgeschaltet. Zudem habe ich laut Eventlog herausgefunden, dass die VM's (auch zu der Uhrzeit) "unerwartet heruntergefahren" wurden. Liegt vielleicht auch den Fehlermeldungen im Failovercluster, Was mir noch nicht in den Kopf geht ist, wieso die VM's heruntergefahren wurden und wieso es mit den VM's überhaupt Probleme gab, diese sind per Fibre Channel jeweils 2x 16Gb an den Hosts angeschlossen. 1
tesso 387 Geschrieben vor 2 Stunden Melden Geschrieben vor 2 Stunden Geht die Storageanbindung auch über den Switch?
mwiederkehr 398 Geschrieben vor 2 Stunden Melden Geschrieben vor 2 Stunden Sind die Hosts nur über einen Switch verbunden? Falls ja, passiert bei einem Unterbruch in Deinem Fall Folgendes: Der Host, welcher das Quorum hält, hat zwei Stimmen und bleibt online. Der andere Host stoppt die VMs, weil er den anderen Host nicht mehr sieht. NTFS ist (im Gegensatz zu zum Beispiel VMFS) kein "richtiges" Cluster-Dateisystem. Die Locks werden über SMB direkt zwischen den Hosts verwaltet, nicht über den Speicher. Wenn ein Host im Netzwerk isoliert ist, muss er die VMs stoppen, weil er nicht wissen kann, ob ein anderer Host versucht, sie zu starten. Bei Failover-Clustern unter Windows ist es entscheidend, dass sich die Hosts im Netzwerk immer sehen. Das hat kürzlich wieder ein Kunde erfahren, der gemeint hat, seine zwei Switches im Stack würden bei einem Update nacheinander neu starten... Die Lösung ist einfach: Verbinde die Hosts zusätzlich direkt mit einem Kabel. 1G reicht. Den NICs gibst Du eine IP-Adresse in einem sonst nicht verwendeten Netzwerk, trägst kein Gateway ein und deaktivierst den Haken bei "diese Verbindung im DNS registrieren". Du siehst das neue Netzwerk danach im Clustermanager und kannst dessen Verwendung für Live-Migration deaktivieren. So sehen sich die Hosts auch, wenn der Switch einmal nicht verfügbar ist. 1
Empfohlene Beiträge
Erstelle ein Benutzerkonto oder melde dich an, um zu kommentieren
Du musst ein Benutzerkonto haben, um einen Kommentar verfassen zu können
Benutzerkonto erstellen
Neues Benutzerkonto für unsere Community erstellen. Es ist einfach!
Neues Benutzerkonto erstellenAnmelden
Du hast bereits ein Benutzerkonto? Melde dich hier an.
Jetzt anmelden