Zum Inhalt wechseln


Foto

Hyper-V mit HP SV3200 - SAN Ausfall - VM Neustart


  • Bitte melde dich an um zu Antworten
16 Antworten in diesem Thema

#1 System.Exit

System.Exit

    Newbie

  • 4 Beiträge

 

Geschrieben 22. Mai 2017 - 12:25

Hallo,

 

ich habe einen Server 2012 R2 im Einsatz. Dieser hat ein HPE SV3200 SAN angebunden.

Leider hat dieses SAN noch einen Fehler, welchen ich nicht AdHoc lösen kann. Es startet alle 2 Wochen neu und nirgends ist der Fehler zu finden (Hersteller ist dran und nicht unbedingt hier zu lösen ;)).

 

Mein Problem ist, dass wenn das SAN neustartet, die VMs ausfallen. Diese liegen auf dem SAN und somit bricht die ISCSI Verbinung ab. Nach dem Neustart des SANs ist der Speicherplatz wieder da, nur die VMs sind weiterhin nicht Einsatzbereit.

 

Der Status der VMs ist weiterhin "wird ausgeführt", jedoch laufen sie nicht. Ich kann diese dann auch nicht über "Neustarten" reaktivieren. Ich muss diese Ausschalten und danach einzeln wieder Starten. Voila, sie laufen wieder.

 

Problematisch dabei ist, dass der Neustart jeden Dienstag Vormittag passiert :D Voll im geschehen und sehr unpassend. Noch blöder ist, dass ich jetzt im Vater-Urlaub bin und ich den Ausfall nicht sofort mitbekommen werde. 

 

Als VMs sind fast nur Server 2012R2 im Einsatz. Zwei weitere Linux-Server sind außerdem am laufen. Kennt jemand ein Tool, wleches die VMs durchgehend überwacht und bei einem Ausfall Mails lossendet? Auch wäre ein Automatischer Neustart bei einem Ausfall gut.

 

Über weitere Tipps wäre ich auch Dankbar :D 

 

MfG

Olli



#2 Orangenjunge

Orangenjunge

    Newbie

  • 30 Beiträge

 

Geschrieben 22. Mai 2017 - 12:30

Hallo,

 

schau dir mal PRTG (https://www.de.paessler.com/prtg) an, damit ist das alles und noch viel viel mehr möglich. Gibt es auch
in einer kostenlosen Variante ...

 

Viele Grüße



#3 Doso

Doso

    Board Veteran

  • 2.456 Beiträge

 

Geschrieben 22. Mai 2017 - 12:47

Nun, du bist im Urlaub. Entsprechend sollte sich deine Vertretung darum kümmern.



#4 NilsK

NilsK

    Expert Member

  • 12.334 Beiträge

 

Geschrieben 22. Mai 2017 - 12:55

Moin,

 

mal andersrum gedacht: Lässt sich der Neustart des SAN evtl. "verschieben", indem man einmal das System z.B. am Wochenende durchstartet? Wir hatten sowas mal bei einer Firewall, die der Kunde nicht austauschen wollte. Wenn man das so hinbekäme, könnte man als Workarund die VMs herunterfahren, alles neu starten und dann die VMs geordnet wieder hochfahren.

 

Sollte das nicht (als "zuverlässiger Workaround" bis zur wirklichen Lösung des Problems) funktionieren, würde ich schleunigst das ganze System außer Betrieb nehmen. Ihr spielt mit dem offenen Feuer. Wenn bislang die VMs und vor allem deren Applikationen den plötzlichen Ausfall des Storage überlebt haben, ist das nichts als Glück. Beim nächsten Mal können die Daten im Eimer sein, und dann ist es mit einem Neustart der VMs nicht getan.

 

Gruß, Nils


Nils Kaczenski

MVP Cloud and Datacenter Management
... der beste Schritt zur Problemlösung: Anforderungen definieren!

Kostenlosen Support gibt es nur im Forum, nicht privat!


#5 System.Exit

System.Exit

    Newbie

  • 4 Beiträge

 

Geschrieben 22. Mai 2017 - 19:18

@doso: ... Helfeekomplex und leider noch keinen Vertreter :D

PRTG habe ich noch nicht getestet. Ich werde es mir Mal angucken, danke.

@NilsK
Den Plan mit dem durchstarten am Wochenende nehme ich gerne an, Problem ist nur, dass wir 7 Tage die Woche aufhaben :)
Ich werde es Mal abends machen. Ja ich verstehe das Problem mit dem Feuer. Maximal würden ca. 3 Stunden Arbeit verloren gehen. Schön ist es aber bei weitem nicht.

(Die Updates bei dem SAN laufen nicht gut durch. Bevor Controller 1 durch ist und wieder läuft, fängt C#2 an und produziert eine downtime. Im Anschluss schlägt dann auch noch das Update fehl.)

Nach meinen Urlaub ist schon ein Termin für den Support geplant. Ein Ziel ist somit hoffentlich in Sicht.

Danke schonmal für die helfenden Ideen.

#6 Doso

Doso

    Board Veteran

  • 2.456 Beiträge

 

Geschrieben 22. Mai 2017 - 19:20

Hat Windows Server Hyper-v 2016 nicht so ein Feature wo es solche Storage Ausfälle aushält?



#7 magheinz

magheinz

    Newbie

  • 1.326 Beiträge

 

Geschrieben 22. Mai 2017 - 20:32

mal im Ernst: HP lässt sowas echt beim Kunden zu? Gut zu wissen welchen Hersteller man nicht kaufen sollte...

#8 mwiederkehr

mwiederkehr

    Junior Member

  • 128 Beiträge

 

Geschrieben 23. Mai 2017 - 07:24

Hat Windows Server Hyper-v 2016 nicht so ein Feature wo es solche Storage Ausfälle aushält?

Du meinst wahrscheinlich den umgeleiteten Zugriff? Der sorgt nur dafür, dass ein Cluster, dessen Pfade zum Storage ausfallen, über einen anderen Node auf den Storage zugreifen kann. Also zum Beispiel FC-HBA in Node1 defekt => greift über Clusternetzwerk und Node2 auf Storage zu. Wenn der Storage für keinen Node mehr erreichbar ist, hat man so oder so ein Problem. Je nachdem wie schnell der Storage neu startet, könnte man natürlich das Disk Timeout erhöhen, so dass die Guests nicht abstürzen. Aber das ist Gebastel hoch drei. :)

 

mal im Ernst: HP lässt sowas echt beim Kunden zu? Gut zu wissen welchen Hersteller man nicht kaufen sollte...

So wie ich den Threadersteller verstehe, will HP zuerst ein Firmware-Update machen. Der Termin dafür ist erst nach seinem Urlaub. Nach meinen Erfahrungen hilft HP gemäss den definierten Supportzeiten sehr gut, aber sie wollen verständlicherweise immer zuerst die Firmware aktuell haben.



#9 DocData

DocData

    Board Veteran

  • 1.272 Beiträge

 

Geschrieben 23. Mai 2017 - 07:51

Ich mache viel mit HPE, aber sorry: Geht gar nicht. Vor allem frage ich mich:

 

- warum ist das System produktiv?

- warum muss der Termin NACH DEINEM Urlaub sein?


Ein Wrack ist kein Ort, an dem ein Schatz schlummert...


#10 magheinz

magheinz

    Newbie

  • 1.326 Beiträge

 

Geschrieben 23. Mai 2017 - 07:52

 

Problematisch dabei ist, dass der Neustart jeden Dienstag Vormittag passiert :D Voll im geschehen und sehr unpassend.

Ich habe daraus geschlossen das dieser Effekt schon länger auftritt.



#11 System.Exit

System.Exit

    Newbie

  • 4 Beiträge

 

Geschrieben 23. Mai 2017 - 08:42

Wir haben schon mehrere Termine mit HP gehabt. Haben auch viel gemacht und es wurde schon besser.

Wir haben eines der ersten SANs der aktuellen Reihe bekommen und somit doch ein paar Kinderkrankheiten mitbekommen. Bisher ist es zwei Mal passiert und das in diesem 2 Wochen Rhythmus. Davor fast 5 Monate fehlerfrei.
Nach meinem Urlaub, da ich eine "Ein-Mann-Abteilung" bin. Nicht schön aber muss ja auch laufen.

Firmware Update ist vollkommen richtig. Das Update muss laufen und dann "kann" der Fehler behoben sein oder behebbar sein.

Ich bin mit HPE vollkommen zufrieden. Der Support hat schon viel geholfen und somit Fehler behoben.

Btw. Heute trat der Fehler bisher nicht auf. Nach Dokumentation hätte es um ~10:20 Uhr sein müssen.

Im Grunde will ich auch erstmal nur gewappnet sein, sobald ein Fehler Auftritt schnell handeln zu können. Oder sich sogar selbst behandelt.

#12 NilsK

NilsK

    Expert Member

  • 12.334 Beiträge

 

Geschrieben 23. Mai 2017 - 08:57

Moin,

 

also ... müsst ihr selbst wissen, aber mir wäre das Risiko zu hoch. Die drei Stunden sind dabei ja die optimistische Betrachtung - oder sichert ihr alles komplett und konsistent im Drei-Stunden-Rhythmus und stellt es ohne Downtime wieder her?

 

Und nur um es noch mal gesagt zu haben: Monitoring ist nett, verhindert aber keinen einzigen Fehler. Vor allem keine Folgefehler wie korrupte Datenbestände, wenn ein iSCSI-Volume plötzlich nich mehr erreichbar ist.

 

Gruß, Nils


Nils Kaczenski

MVP Cloud and Datacenter Management
... der beste Schritt zur Problemlösung: Anforderungen definieren!

Kostenlosen Support gibt es nur im Forum, nicht privat!


#13 DocData

DocData

    Board Veteran

  • 1.272 Beiträge

 

Geschrieben 23. Mai 2017 - 09:09

Wir haben eines der ersten SANs der aktuellen Reihe bekommen und somit doch ein paar Kinderkrankheiten mitbekommen. 

 

Sowas kauft man dann halt noch nicht...


Ein Wrack ist kein Ort, an dem ein Schatz schlummert...


#14 System.Exit

System.Exit

    Newbie

  • 4 Beiträge

 

Geschrieben 23. Mai 2017 - 11:38

Ja, den Fehler macht man max einmal :)
Drei Stunden sind das maximale da die beiden letzten Ausfälle maximal 3 Stunden nach betriebsbeginn aufgetreten sind. Jede Nacht wird komplett gesichert.
Wie auch geschrieben, ich würde erstmal nur gerne ein Monitoring haben, damit ich schnell sehen kann, ob alle VMs einwandfrei laufen.

#15 NilsK

NilsK

    Expert Member

  • 12.334 Beiträge

 

Geschrieben 23. Mai 2017 - 15:02

Moin,

 

na, du hast ja sehr eigenwillige Vorstellungen von "maximal" ... aber OK, musst du wissen.

 

Gruß, Nils


Nils Kaczenski

MVP Cloud and Datacenter Management
... der beste Schritt zur Problemlösung: Anforderungen definieren!

Kostenlosen Support gibt es nur im Forum, nicht privat!