Storage Spaces Direct in Windows Server 2016

Daniel -MSFT- · 24. März 2017

Hallo zusammen,

wegen der Lizenzkosten denke ich, dass der Hauptfokus für S2D einmal auf Hyper-converged Systemen liegt, die als Virtualisierungshosts eh schon Datacenter-Lizenzen haben und einmal auf Scale out File Servern. Für kleine SMB-Umgebungen sehe ich die Lösung nicht als präferierte Lösung an.

Was die Ausfallsicherheit angeht, so ist auch ein Cluster, der auf nur einen Festplattenausfall ausgelegt wird, anfällig gegen einen doppelten Ausfall. Das gleiche trifft aber auch für jedes "Hardware" RAID5. Wobei ich letzteres eher in Frage stelle: Was ist denn ein "Hardware" RAID5? Auch in einem Storage-Controller arbeitet Software und es soll auch SANs geben, in denen der Storage-Controller x86-basierend ist ;-)

Gerade bei Festplatten im Terabyte-Bereich sind die Rebuild-Zeiten im Falle des Ausfalls einer Platte so lang, dass es nicht unwahrscheinlich ist, dass eine weitere Platte während der höheren Rebuildbelastung aussteigt. Deswegen geht man ja auch weg von RAID5 und hin zu RAID6 oder bei S2D eben zu Dual Parity.

Wenn man dann noch bedenkt, dass bei Festplatte die Fehleranfälligkeit sich nicht analog zur Kapazitätserweiterung weiterentwickelt hat, ist die Gefahr von Silent Data Corruption (aka "Bitrot) eine der am meisten unterschätzten Fehlergründe im Speicherbereich (nach menschlichen Fehlern). Auch hier versagt in der Regel ein klassischer "Hardware" RAID-Controller:

There are many error sources beyond the disk storage subsystem itself. For instance, cables might be slightly loose, the power supply might be unreliable,^[2] external vibrations such as a loud sound,^[3] the network might introduce undetected corruption,^[4]cosmic radiation and many other causes of soft memory errors, etc. In 39,000 storage systems that were analyzed, firmware bugs accounted for 5–10% of storage failures.^[5] All in all, the error rates as observed by a CERN study on silent corruption are far higher than one in every 10¹⁶ bits.^[6] Webshop Amazon.com has acknowledged similar high data corruption rates in their systems.^[7]

...

As an example, ZFS creator Jeff Bonwick stated that the fast database at Greenplum, which is a database software company specializing in large-scale data warehousing and analytics, faces silent corruption every 15 minutes.^[9] As another example, a real-life study performed by NetApp on more than 1.5 million HDDs over 41 months found more than 400,000 silent data corruptions, out of which more than 30,000 were not detected by the hardware RAID controller. Another study, performed by CERN over six months and involving about 97 petabytes of data, found that about 128 megabytes of data became permanently corrupted.^[10]^[11]

(Hervorhebungen von mir)

Der Vorteil von S2D + ReFS liegt darin, dass von Anwendung > Dateisystem > Hardware Transparenz herrscht. So kann zum Beispiel über Integrity Streams das Dateisystem Silent Data Corruption erkennen und selbständig reparieren. Oder man kann Metadaten und Cache in einem Mirror und die Daten selbst auf einem Parity-gesicherten Speicher legen. Copy-on-Write erhöht auch ernorm die Datensicherheit, da hier auch Ausfälle während des Schreibens abgefangen werden können. Selbst bei einem beschädigten Datenträger geht nicht - wie bei einem RAID - der gesamte Inhalt verloren, sondern nur Daten, die in den defekten Bereichen liegen.

Wenn man sich mal ein bißchen im Detail mit Software Defined Storage beschäftigt und dagegen die Limitierungen klassischer RAID-Controller stellt, landet man eigentlich sehr schnell bei den moderneren Technologien. Was die Stabilität von S2D und ReFS angeht - wir nutzen das selbst bei Azure als primäre Technologie. Wenn es Hyper-Cloud-Anforderungen erfüllt, dann vertraue ich dem mehr für meine eigenen Daten, als den bisher bekannten RAID-Controllern. Da hatte ich in der Vergangenheit öfter Ausfälle zu beklagen.

Natürlich enthebt einen das alles nicht davon, regelmäßige Backups zu machen...

Have fun!
Daniel

bearbeitet 24. März 2017 von Daniel -MSFT-

NilsK · 27. März 2017

Moin,

Was die Stabilität von S2D und ReFS angeht - wir nutzen das selbst bei Azure als primäre Technologie.

das "Argument" bringt ihr oft, aber dadurch wird es noch lange nicht zu einem Argument ...

Eure Datacenter sind nun mal in Aufbau und Betrieb nicht mit dem zu vergleichen, was ein mittelständischer Kunde so hat und braucht. Und ganz sicher habt ihr keinen einzigen 2-Node-S2D-Cluster im produktiven Betrieb, auf den sich die ganze Diskussion hier gerade primär bezieht.

Gruß, Nils

bearbeitet 27. März 2017 von NilsK

Anmelden

Storage Spaces Direct in Windows Server 2016

Empfohlene Beiträge

Daniel -MSFT- 129

Link zu diesem Kommentar

NilsK 2.785

Link zu diesem Kommentar

Schreibe einen Kommentar

Menu

Aktivitäten