Hyper-V mit HP SV3200 - SAN Ausfall - VM Neustart

System.Exit · 22. Mai 2017

Hallo,

ich habe einen Server 2012 R2 im Einsatz. Dieser hat ein HPE SV3200 SAN angebunden.

Leider hat dieses SAN noch einen Fehler, welchen ich nicht AdHoc lösen kann. Es startet alle 2 Wochen neu und nirgends ist der Fehler zu finden (Hersteller ist dran und nicht unbedingt hier zu lösen ;)).

Mein Problem ist, dass wenn das SAN neustartet, die VMs ausfallen. Diese liegen auf dem SAN und somit bricht die ISCSI Verbinung ab. Nach dem Neustart des SANs ist der Speicherplatz wieder da, nur die VMs sind weiterhin nicht Einsatzbereit.

Der Status der VMs ist weiterhin "wird ausgeführt", jedoch laufen sie nicht. Ich kann diese dann auch nicht über "Neustarten" reaktivieren. Ich muss diese Ausschalten und danach einzeln wieder Starten. Voila, sie laufen wieder.

Problematisch dabei ist, dass der Neustart jeden Dienstag Vormittag passiert :D Voll im geschehen und sehr unpassend. Noch blöder ist, dass ich jetzt im Vater-Urlaub bin und ich den Ausfall nicht sofort mitbekommen werde.

Als VMs sind fast nur Server 2012R2 im Einsatz. Zwei weitere Linux-Server sind außerdem am laufen. Kennt jemand ein Tool, wleches die VMs durchgehend überwacht und bei einem Ausfall Mails lossendet? Auch wäre ein Automatischer Neustart bei einem Ausfall gut.

Über weitere Tipps wäre ich auch Dankbar :D

MfG

Olli

Orangenjunge · 22. Mai 2017

Hallo,

schau dir mal PRTG (https://www.de.paessler.com/prtg) an, damit ist das alles und noch viel viel mehr möglich. Gibt es auch
in einer kostenlosen Variante ...

Viele Grüße

Doso · 22. Mai 2017

Nun, du bist im Urlaub. Entsprechend sollte sich deine Vertretung darum kümmern.

NilsK · 22. Mai 2017

Moin,

mal andersrum gedacht: Lässt sich der Neustart des SAN evtl. "verschieben", indem man einmal das System z.B. am Wochenende durchstartet? Wir hatten sowas mal bei einer Firewall, die der Kunde nicht austauschen wollte. Wenn man das so hinbekäme, könnte man als Workarund die VMs herunterfahren, alles neu starten und dann die VMs geordnet wieder hochfahren.

Sollte das nicht (als "zuverlässiger Workaround" bis zur wirklichen Lösung des Problems) funktionieren, würde ich schleunigst das ganze System außer Betrieb nehmen. Ihr spielt mit dem offenen Feuer. Wenn bislang die VMs und vor allem deren Applikationen den plötzlichen Ausfall des Storage überlebt haben, ist das nichts als Glück. Beim nächsten Mal können die Daten im Eimer sein, und dann ist es mit einem Neustart der VMs nicht getan.

Gruß, Nils

System.Exit · 22. Mai 2017

@doso: ... Helfeekomplex und leider noch keinen Vertreter :D

PRTG habe ich noch nicht getestet. Ich werde es mir Mal angucken, danke.

@NilsK

Den Plan mit dem durchstarten am Wochenende nehme ich gerne an, Problem ist nur, dass wir 7 Tage die Woche aufhaben :)

Ich werde es Mal abends machen. Ja ich verstehe das Problem mit dem Feuer. Maximal würden ca. 3 Stunden Arbeit verloren gehen. Schön ist es aber bei weitem nicht.

(Die Updates bei dem SAN laufen nicht gut durch. Bevor Controller 1 durch ist und wieder läuft, fängt C#2 an und produziert eine downtime. Im Anschluss schlägt dann auch noch das Update fehl.)

Nach meinen Urlaub ist schon ein Termin für den Support geplant. Ein Ziel ist somit hoffentlich in Sicht.

Danke schonmal für die helfenden Ideen.

Doso · 22. Mai 2017

Hat Windows Server Hyper-v 2016 nicht so ein Feature wo es solche Storage Ausfälle aushält?

magheinz · 22. Mai 2017

mal im Ernst: HP lässt sowas echt beim Kunden zu?

Gut zu wissen welchen Hersteller man nicht kaufen sollte...

mwiederkehr · 23. Mai 2017

Hat Windows Server Hyper-v 2016 nicht so ein Feature wo es solche Storage Ausfälle aushält?

Du meinst wahrscheinlich den umgeleiteten Zugriff? Der sorgt nur dafür, dass ein Cluster, dessen Pfade zum Storage ausfallen, über einen anderen Node auf den Storage zugreifen kann. Also zum Beispiel FC-HBA in Node1 defekt => greift über Clusternetzwerk und Node2 auf Storage zu. Wenn der Storage für keinen Node mehr erreichbar ist, hat man so oder so ein Problem. Je nachdem wie schnell der Storage neu startet, könnte man natürlich das Disk Timeout erhöhen, so dass die Guests nicht abstürzen. Aber das ist Gebastel hoch drei. :)

mal im Ernst: HP lässt sowas echt beim Kunden zu? Gut zu wissen welchen Hersteller man nicht kaufen sollte...

So wie ich den Threadersteller verstehe, will HP zuerst ein Firmware-Update machen. Der Termin dafür ist erst nach seinem Urlaub. Nach meinen Erfahrungen hilft HP gemäss den definierten Supportzeiten sehr gut, aber sie wollen verständlicherweise immer zuerst die Firmware aktuell haben.

DocData · 23. Mai 2017

Ich mache viel mit HPE, aber sorry: Geht gar nicht. Vor allem frage ich mich:

- warum ist das System produktiv?

- warum muss der Termin NACH DEINEM Urlaub sein?

magheinz · 23. Mai 2017

Problematisch dabei ist, dass der Neustart jeden Dienstag Vormittag passiert :D Voll im geschehen und sehr unpassend.

Ich habe daraus geschlossen das dieser Effekt schon länger auftritt.

System.Exit · 23. Mai 2017

Wir haben schon mehrere Termine mit HP gehabt. Haben auch viel gemacht und es wurde schon besser.

Wir haben eines der ersten SANs der aktuellen Reihe bekommen und somit doch ein paar Kinderkrankheiten mitbekommen. Bisher ist es zwei Mal passiert und das in diesem 2 Wochen Rhythmus. Davor fast 5 Monate fehlerfrei.

Nach meinem Urlaub, da ich eine "Ein-Mann-Abteilung" bin. Nicht schön aber muss ja auch laufen.

Firmware Update ist vollkommen richtig. Das Update muss laufen und dann "kann" der Fehler behoben sein oder behebbar sein.

Ich bin mit HPE vollkommen zufrieden. Der Support hat schon viel geholfen und somit Fehler behoben.

Btw. Heute trat der Fehler bisher nicht auf. Nach Dokumentation hätte es um ~10:20 Uhr sein müssen.

Im Grunde will ich auch erstmal nur gewappnet sein, sobald ein Fehler Auftritt schnell handeln zu können. Oder sich sogar selbst behandelt.

NilsK · 23. Mai 2017

Moin,

also ... müsst ihr selbst wissen, aber mir wäre das Risiko zu hoch. Die drei Stunden sind dabei ja die optimistische Betrachtung - oder sichert ihr alles komplett und konsistent im Drei-Stunden-Rhythmus und stellt es ohne Downtime wieder her?

Und nur um es noch mal gesagt zu haben: Monitoring ist nett, verhindert aber keinen einzigen Fehler. Vor allem keine Folgefehler wie korrupte Datenbestände, wenn ein iSCSI-Volume plötzlich nich mehr erreichbar ist.

Gruß, Nils

DocData · 23. Mai 2017

Wir haben eines der ersten SANs der aktuellen Reihe bekommen und somit doch ein paar Kinderkrankheiten mitbekommen.

Sowas kauft man dann halt noch nicht...

System.Exit · 23. Mai 2017

Ja, den Fehler macht man max einmal :)

Drei Stunden sind das maximale da die beiden letzten Ausfälle maximal 3 Stunden nach betriebsbeginn aufgetreten sind. Jede Nacht wird komplett gesichert.

Wie auch geschrieben, ich würde erstmal nur gerne ein Monitoring haben, damit ich schnell sehen kann, ob alle VMs einwandfrei laufen.

NilsK · 23. Mai 2017

Moin,

na, du hast ja sehr eigenwillige Vorstellungen von "maximal" ... aber OK, musst du wissen.

Gruß, Nils

Anmelden

Hyper-V mit HP SV3200 - SAN Ausfall - VM Neustart

Empfohlene Beiträge

System.Exit 0

Orangenjunge 2

Doso 77

NilsK 3.150

System.Exit 0

Doso 77

magheinz 111

mwiederkehr 419

DocData 85

magheinz 111

System.Exit 0

NilsK 3.150

DocData 85

System.Exit 0

NilsK 3.150

Erstelle ein Benutzerkonto oder melde dich an, um zu kommentieren

Benutzerkonto erstellen

Anmelden

Menu

Aktivitäten