Zum Inhalt wechseln


Foto

Storage für Hyper-V optimieren


  • Bitte melde dich an um zu Antworten
44 Antworten in diesem Thema

#1 rssd1983

rssd1983

    Newbie

  • 12 Beiträge

 

Geschrieben 02. August 2016 - 11:16

Hallo Zusammen,

ich habe ein Hyper-V Cluster übernommen und stehe jetzt vor dem Problem, dass wir in unserem Hyper-V Cluster sporadische Ausfälle einzelner iSCSI-Verbindungen haben. Dadurch funktioniert auch das Failover nicht und die VM's sind dann einfach aus. Zweites Problem, welches mich zum akuten Handeln zwingt, ist wenn eine Platte ausfällt und das RAID wiederhergestellt wird. Dann ist die Performance sehr schlecht und die Ausfälle der iSCSI-Verbindung häufen sich.

Mein Ziel:
- Storage redundant (am wichtigsten für VM's, Datengräber sind zweitrangig und könnten ausgelagert werden)
- akzeptable Performance auch bei einer Wiederherstellung nach HDD-Ausfall


Meine Fragen:

1. Welche Empfehlung gebt ihr mir für die RAID-Konfiguration?

2. Wäre ein Umstieg auf SMB3 eine Lösung?
2.1. Hat jmd. schon Erfahrung mit ähnlicher Hardware gesammelt (Hyper-V & SMB3 & NAS)?
2.2. Wie kann die Redundanz des Speichers erreicht werden? (falls ein Storage ausfällt)


Unsere Konfiguration:

2x QNAP TS-EC1679U-SAS-RP
16x 300GB 15k SAS (HGST & Seagate)

Store1:
1x RAID10 über 4 HDD (VM's)
1x RAID10 über 4 HDD (VM's)
1x RAID5 über 5 HDD (Datengrab, WSUS-Content)
1x RAID5 über 3 HDD (Datengrab)

Store2:
1x RAID10 über 4 HDD (VM's)
1x RAID10 über 4 HDD (VM's)
1x RAID5 über 5 HDD (Datengrab)
1x RAID5 über 3 HDD (Datengrab)


3x Hyper-V Host (alle 3 identisch)
Supermicro X9DR7-TF+
2x Intel Xeon E5-2690 v2, 10x 3.00GHz
192 GB DDR3-1600
2x Intel SSD DC S3500 Series 120GB, 2.5", SATA 6Gb/s (RAID1, OS: Windows Server 2012 Standard)


Die beiden QNAP sind jeweils über 2x 10GBit mit den Servern (auch 2x 10GBit) verbunden (2x Netgear ProSafe Plus XS708E, 8-Port Switch).

Es laufen insgesamt ca. 25 VM's auf allen 3 Hosts verteilt.

Unser Client-Netzwerk ist komplett mit 1GBit angebunden.


Falls ich Informationen unterschlagen habe, bitte jederzeit nachfragen.

Vielen Dank und Grüße,
René


#2 NilsK

NilsK

    Expert Member

  • 12.347 Beiträge

 

Geschrieben 02. August 2016 - 11:45

Moin,

 

wie ist denn die Netzwerkanbindung der Hosts? Wieviele Karten bzw. Ports, wie sind die konfiguriert?

 

Eine schnelle Darstellung des physischen und logischen Verbindung bekommst du mit diesem Skript:

https://gallery.tech...Report-e7acf854

 

Darüber hinaus ist relevant, wie die Host-Netzwerke eingerichtet sind: phsische Anbindung, VLANs, IP-Konfiguration.

 

Zu deinen Fragen:

  • Die Storage-Konfiguration hängt immer von den Anforderungen ab, es gibt da keine Pauschalempfehlungen.
  • Dass ein RAID-Rebuild die Performance beeinträchtigt, ist völlig normal - während so einer Phase sollte bzw. muss man den Betrieb reduzieren.
  • Deine Konfiguration erschließt sich mir nicht.
    • Was sind diese "Stores"?
    • Wie sind die einzelnen Bereiche wohin angebunden?
    • Was ist der Grund für diese Aufteilung?
  • SMB3 ist keine Pauschallösung.
  • Wie sind die einzelnen Volumes im Cluster eingebunden? Ein CSV, mehrere, ...?

Gruß, Nils


Nils Kaczenski

MVP Cloud and Datacenter Management
... der beste Schritt zur Problemlösung: Anforderungen definieren!

Kostenlosen Support gibt es nur im Forum, nicht privat!


#3 rssd1983

rssd1983

    Newbie

  • 12 Beiträge

 

Geschrieben 02. August 2016 - 13:29

Hallo Nils,

 

die Hosts haben eine integrierte NIC mit zwei 10Gbit-Ports.

Jeder Port hat eine eigene IP-Adresse im gleichen Subetz.

Im Moment läuft noch der gesamte Netzwerktraffic über diese Verbindung. >> Das will ich zeitnah ändern und durch weitere NIC's erweitern und in 3 Netze (Storage, Failover, Client/VM) aufteilen.

 

Mit Stores meine ich die zwei "QNAP TS-EC1679U-SAS-RP" die wir im Einsatz haben. Diese haben ebenfalls zwei 10Gbit-Ports, die ebenfalls eine eigenständige IP-Adresse im gleichen Subnetz wie die Hosts haben.

 

In den einzelnen Speicherpools (zB. RAID10) sind wiederum mehrere iSCSI-Ziele mit jeweils 2 LUN's konfiguriert. Pro LUN sind 2 VM's abgelegt.

An den Hosts sind die iSCSI-Ziele direkt eingebunden und werden in einem CSV abgelegt (wenn ich das so richtig analysiert habe, es gibt auf allen 3 Hosts einen Ordner "ClusterVolume" in dem alle VM's abgelegt sind).

 

Der Grund für die Aufteilung ist mit grosser Sicherheit der Versuch den Performanceproblemen zu entkommen.

 

Würde es evtl. schon helfen, wenn die Anzahl der iSCSI-Ziele reduziert wird? Was ist da so üblich?

 

Gruß,

René


Bearbeitet von rssd1983, 02. August 2016 - 13:30.


#4 NilsK

NilsK

    Expert Member

  • 12.347 Beiträge

 

Geschrieben 02. August 2016 - 14:18

Moin,

 

Im Moment läuft noch der gesamte Netzwerktraffic über diese Verbindung.

 

mit großer Sicherheit ist das dein Problem. iSCSI darf nie, nie, nie mit anderem Traffic vermischt werden. Separates Netz, mindestens separates VLAN und eigenes, nicht geroutetes IP-Segment.

 

Vermutlich wäre es nicht schlecht, wenn du dir mal jemanden ins Haus holst, der sich mit der Materie auskennt.

 

Gruß, Nils


Nils Kaczenski

MVP Cloud and Datacenter Management
... der beste Schritt zur Problemlösung: Anforderungen definieren!

Kostenlosen Support gibt es nur im Forum, nicht privat!


#5 rssd1983

rssd1983

    Newbie

  • 12 Beiträge

 

Geschrieben 02. August 2016 - 14:23

Hi Nils,

 

danke für die Antwort.

 

Ich werde jetzt schnellstmöglich das separate Netz erschaffen und das Konzept überarbeiten.

 

Ist die Konfiguration mit den zwei RAID10-Speicherpools sinnvoll oder sollte man die besser zusammenlegen zu einem grossen Speicherpool?

 

Und was mich auch stört, sind die "vielen" iSCSI-Ziele. Ist das sinnvoll mehrere zu haben oder sollte man die auch auf ein Minimum reduzieren?

 

Vielen Dank schon im Voraus

 

Grüße,

René



#6 NilsK

NilsK

    Expert Member

  • 12.347 Beiträge

 

Geschrieben 02. August 2016 - 14:43

Moin,

 

kann sinnvoll sein oder nicht, ist in einem Forum aber nicht sinnvoll diskutierbar. Das ist eine Designfrage, die viel mit den Anforderungen zu tun hat, weniger eine technische Frage.

 

Wenn ihr tatsächlich für euren Cluster nur eine einzige Netzwerk- und IP-Verbindung pro Node habt, wird auch sonst vermutlich einiges im Argen sein. Ich behaupte mal, dass zumindest punktuelles Einschalten eines kompetenten Externen euch schnell oder mittelfristig Geld spart.

 

Gruß, Nils


Nils Kaczenski

MVP Cloud and Datacenter Management
... der beste Schritt zur Problemlösung: Anforderungen definieren!

Kostenlosen Support gibt es nur im Forum, nicht privat!


#7 Doso

Doso

    Board Veteran

  • 2.461 Beiträge

 

Geschrieben 02. August 2016 - 16:30

Wir haben "nur" 1 GBe iSCSI aber keinerlei Probleme. Multipath, seperate Switche, seperates Netzwerk. Die NilsK schon schrieb wäre es gut wenn ihr den Traffic vom Rest trennt. (Netzwerkarten) Treiber, Firmware und ggf. MPIO Treiber auf den Geräten aktualisieren würde sicherlich auch nicht Schaden.

 

Das bei einem RAID Rebuild das Ganze komplett in die Knie geht ist ungewöhnlich. Klar hat man mehr Last drauf, aber eigentlich sollte ein stabiles System das aushalten. Eure RAID Konfiguration erscheint mir ein bisserl merkwürdig. Wozu die extra RAID5? Werden die iSCSI Verbindungen denn dann direkt in die VM geführt? Das ist eigentlich selten notwendig und meist nicht besonders gut für die Performance.



#8 magheinz

magheinz

    Newbie

  • 1.330 Beiträge

 

Geschrieben 02. August 2016 - 21:35

Je mehr spindeln desto mehr ios.
Wozu also diese kleinen raids im storage? Ich würde jeweils ein RAID6 machen, falls die Geräte das können.

Sind die Switche überbucht oder können die wirklich 10gb auf allen ports gleichzeitig?

#9 DocData

DocData

    Board Veteran

  • 1.273 Beiträge

 

Geschrieben 03. August 2016 - 06:12

RAID 6 ist für die Kisten vielleicht nicht ganz so der Burner. RAID 6 is super, wenn ich lange, sequenzielle IOs habe (Archivierung, Backup etc.). Kleine random IOs, gerade kleine Write IOs kann RAID 6 wahnsinnig schlecht. Vermutlich stecken da auch noch 7,2k SAS-NL oder so drin > Noch schlimmer.

 

Bei der Plattenkonstellation und dem Wunsch nach Performance: RAID 1+0. Wenn man Kapazität braucht: RAID 5.


Ein Wrack ist kein Ort, an dem ein Schatz schlummert...


#10 rssd1983

rssd1983

    Newbie

  • 12 Beiträge

 

Geschrieben 03. August 2016 - 06:23

Guten Morgen,

 

@NilsK: Ich werde jetzt so schnell es geht den Traffic aufteilen und neue Hardware beschaffen (muss auch erst genehmigt werden). Sollten dann immernoch Probleme da sein, würde ich ein neues Thema eröffnen, da die Umsetzung ein paar Tage dauern könnte :-)

 

@Doso: Die RAID5-Speicherpools sind Datengräber, die zum Teil auch direkt über iSCSI an VM's eingebunden sind. Es gibt auch iSCSI-Verbindungen von VMs zu RAID10-Pools (z.B. Exchange)

 

@magheinz: Die kleinen RAIDs sind aus den Performanceeinbrüchen bei einem Rebuild entstanden. Somit waren dann nur 2-4 VMs betroffen und nicht alle. Es hat ganz am Anfang einmal ein großes RAID6 gegeben, das hat dann alles lahm gelegt bei einem Rebuild. Die Switche sind von Netgear (http://www.downloads...t/en/XS708E.pdf). Ich würde spontan behaupten, dass die auf allen Ports gleichzeitig die 10Gb können

 

@DocData: RAID6 war damals anscheinend wirklich nicht gut :-). Als Platten stecken 600GB 15k SAS dahinter (HGST & Seagate). Ich plane aber die Kisten zu erweitern und möchte dann für die VMs mit SSDs arbeiten.


Bearbeitet von rssd1983, 03. August 2016 - 06:24.


#11 NilsK

NilsK

    Expert Member

  • 12.347 Beiträge

 

Geschrieben 03. August 2016 - 06:33

Moin,

 

wie gesagt: Komplettes Redesign mit jemandem, der sich auskennt. Die Stichworte und die Splitter, die du angibst, klingen nicht gut. Da kommen auch so Dinge dazu wie eure Konfiguration für Exchange - seit 2007, spätestens seit 2010 braucht Exchange keine große Storage-Performance mehr, regelmäßig ist das ein Kandidat für den "langsamen" Storage-Bereich.

 

Was mich überrascht, ist, dass bei euch Rebuilds angeblich so eine große Rolle spielen. Wie oft habt ihr denn sowas? Eigentlich ist das die große Ausnahme. Wenn es wirklich eine Rolle spielt, sucht euch ein neues Storage.

 

Gruß, Nils


Nils Kaczenski

MVP Cloud and Datacenter Management
... der beste Schritt zur Problemlösung: Anforderungen definieren!

Kostenlosen Support gibt es nur im Forum, nicht privat!


#12 rssd1983

rssd1983

    Newbie

  • 12 Beiträge

 

Geschrieben 03. August 2016 - 06:43

Hi Nils,

 

ein Rebuild fällt ca. alle 3 Monate an, da die Seagate HDDs (ST3600057SS) nichts taugen. Entweder sind die generell nicht so gut oder wir haben eine schlechte Charge bekommen. Auf jeden Fall fällt da regelmäßig eine aus :-(

 

Ein Redesign mit jemandem der sich auskennt werde ich auf jeden Fall anstreben.

 

Grüße,

René



#13 Doso

Doso

    Board Veteran

  • 2.461 Beiträge

 

Geschrieben 03. August 2016 - 07:15

Wir haben die Platten in einigen unserer Server, haben eigentlich recht geringe Ausfallquote. Gut, auf den Servern ist vermutlich weniger los als auf einem SAN.

 

P.S: Hatte gestern Nachmittag einen Rebuild auf unserem iSCSI SAN da Platte ausgefallen. Keine Unterbrechung, keiner hat irgendwas gemerkt.


Bearbeitet von Doso, 03. August 2016 - 07:17.


#14 NilsK

NilsK

    Expert Member

  • 12.347 Beiträge

 

Geschrieben 03. August 2016 - 07:16

Moin,

 

alle drei Monate?! Ganz ehrlich - sucht euch ein anderes Storage. Risiko und Kosten stehen offensichtlich in einem ungünstigen Verhältnis.

 

Gruß, Nils


Nils Kaczenski

MVP Cloud and Datacenter Management
... der beste Schritt zur Problemlösung: Anforderungen definieren!

Kostenlosen Support gibt es nur im Forum, nicht privat!


#15 DocData

DocData

    Board Veteran

  • 1.273 Beiträge

 

Geschrieben 03. August 2016 - 07:18

Öhm... ich kenne Umgebungen da ist in drei Jahren keine Platte ausgefallen...

 

btw: Sparedisks? WTF? Das Konzept hatte HP mit der EVA schon 2001 über den Haufen geworfen.


Bearbeitet von DocData, 03. August 2016 - 07:19.

Ein Wrack ist kein Ort, an dem ein Schatz schlummert...