Jump to content

Deduplizierung von win2012


micha42
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Empfohlene Beiträge

Moin, wir haben jetzt Dedublizierung auf dem produktiven Win2012 Dateiserver. Das ist der Hammer. 60-80% weniger Daten. Obwohl wir bestimmt nicht so viele identische Dateien haben. Ich weiß, dass das auf Blockebene stattfindet aber mit einem solchen Effekt habe ich nie gerechnet. Und das ohne Performance-Verlust - geil. kann ich nur empfehlen! Michael

anbei der Verlauf der Plattenbelegung während der Reduktion

post-20966-0-40147100-1421852859_thumb.jpg

bearbeitet von micha42
Link zu diesem Kommentar

Vielleicht wart ihr euch nie bewusst, dass ihr so viele identische Dateien habt (kopien von kopien irgendwo abgelegt).

 

Wir haben bei einem Kunden auch deduplizierung im Einsatz (mit Netapp und nicht mit Windows Server), dort sind die Daten aber nicht so gut deduplizierbar und es gab max. 10% Einsparung.

Auch bei einer Backupumgebung nutzen wir Deduplizierung (mit Commvault) und sparen 75-85%.

Link zu diesem Kommentar

Deduplizierung sucht aber nicht nach identischen Daten, sondern teilt Daten in Blöcke einer bestimmten Länge ein (gibt aber auch Lösungen die mit variabler Länge arbeiten). Für jeden Block wird ein Hash gebildet und die Anzahl der Hashes wird vergleichen. Damit sind auch nur Teile von Dateien deduplizierbar.

Genau,

sehr schön erklärt!

 

Bin auch gerade am testen, was Dedup bei unserem Fileserver an (Platz)Einsparung bringt bzw. bringen wird.

Hat jemand schon irgendwo jemand verlässliche Aussagen über die Performanceverluste von Dedup-Volumes gefunden? Rein theoretisch müsste ein gewisser Geschwindigkeitsnachteil von einen Dedup Volume gegenüber einem native Volume da sein. Die Daten müssen ja sozusagen beim Abruf aus den einzelnen Blöcken 'zusammengebaut' werden.  

Spielt bei unserem FS mit Sicherheit keine Rolle. Würde mich aber einfach interessieren.

 

Gruß

Dirk

Link zu diesem Kommentar

Hat jemand schon irgendwo jemand verlässliche Aussagen über die Performanceverluste von Dedup-Volumes gefunden? Rein theoretisch müsste ein gewisser Geschwindigkeitsnachteil von einen Dedup Volume gegenüber einem native Volume da sein. Die Daten müssen ja sozusagen beim Abruf aus den einzelnen Blöcken 'zusammengebaut' werden.  

Dachte ich auch und habe es getestet.

Dabei hab ich lediglich große Dateien (ISO), die doppelt abgelegt waren vor und nach der Dedublizierung kopiert. Das habe ich mit einer Stoppuhr gestoppt - also insgesamt ungenaue Messungen

Trotzdem habe ich keinen Performance-Verlust messen können.

Michael

PS sogar ein 3.5 GB-ISO-File belegt nur 2.5 GB Plattenplatz. Da scheint es also innerhalb der Datei noch doppelte Blöcke im großen Ausmaß zu geben.

bearbeitet von micha42
Link zu diesem Kommentar

und kann auch bei Hyper-V verwendet werden :-)

 

Aber nur für VDI unter Hyper-V:

 

 

Data deduplication is supported only on the following:

  • Windows Server operating systems beginning with Windows Server 2012
  • NTFS data volumes
  • Cluster shared volume file system (CSVFS) supporting virtual desktop infrastructure (VDI) workloads beginning with Windows Server 2012 R2

Deduplication is not supported on:

  • System or boot volumes
  • Remote mapped or remote mounted drives
  • Cluster shared volume file system (CSVFS) for non-VDI workloads or any workloads on Windows Server 2012
  • Files approaching or larger than 1 TB in size.
  • Volumes approaching or larger than 64 TB in size.

 

https://msdn.microsoft.com/en-us/library/hh769303%28v=vs.85%29.aspx#requirements_for_data_deduplication

Link zu diesem Kommentar

Dachte ich auch und habe es getestet.

Dabei hab ich lediglich große Dateien (ISO), die doppelt abgelegt waren vor und nach der Dedublizierung kopiert. Das habe ich mit einer Stoppuhr gestoppt - also insgesamt ungenaue Messungen

Trotzdem habe ich keinen Performance-Verlust messen können.

Michael

PS sogar ein 3.5 GB-ISO-File belegt nur 2.5 GB Plattenplatz. Da scheint es also innerhalb der Datei noch doppelte Blöcke im großen Ausmaß zu geben.

 

Danke,

für die Info!

 

Bei meinen Tests konnte ich auch keine Performanceeinbußen feststellen. Habe allerdings auch keine performante Testumgebung.

Bei unserem Fileserver bringt das Aktivieren der Datendeduplizierung zwar nur 22%, aber das ist ja auch schon was. Speicherplatz auf dem SAN kostet auch Geld!

 

Gruß

Dirk

Link zu diesem Kommentar

Moin,

bei uns läuft Alles virtuell. Einzig der Backupserver ist Blech.

Klar, wenn man schon ein Storage mit integriertem Dedup hat, dürfte das aktivieren von Dedup in der VM nicht mehr ganz so viel bringen. Obwohl, da die effektivität von Dedup stark von der Blockgröße abhängig ist... Kommt wohl drauf an. Auch davon, ob man viele gleichartige VM hat. Z.B. bei VDI dürfte Dedup auf dem Storage sehr viel bringen.

 

Ist auf jedem Fall ein sehr interessantes Thema.

 

Gruß

Dirk

bearbeitet von monstermania
Link zu diesem Kommentar

Habt Ihr den FS als VM laufen oder physikalisch?

Haben auch gerade die Anfrage offen ob man nicht statt einer neuen NetApp die nur SMB liefert nicht Dedup vom Server 2012 nutzen könnte.

Moin,

 

bei uns ist aktuell in zwei VMs dedup aktiviert.

In der VMM Bibliothek hat er über 60% geschafft, auf dem Fileserver sind es nur 18%.

Im Betreib ist kein Performaceunterschied spürbar (nicht gemessen, nur nach Gefühl). Wenn der Dedup-Job läuft und es viele neue Dateien oder viele Änderungen gegeben hat, kann eine vCPU über mehrere Stunden unter Volllast stehen; das sollte bei der Konfiguration der VM und bei der Zeitplanung des Jobs berücksichtigt werden.

 

Die Frage NetApp oder Windows Dedup sollte im Gesamtkontext bewertet werden. Wird nur ein FS mit Dedup benötigt, würde ich - alleine aus Kostengründen - einen virtuellen FS (-Cluster) nehmen. Soll noch anderer Workload von Dedup profitieren, würde ich Dedup im Storage bevorzugen.

Link zu diesem Kommentar
  • 3 Wochen später...

Wenn man die Möglichkeiten von Windows ausnutzt, dann kann man sogar eine massive Steigerung erreichen.

Das ist möglich mit einem File-Server mit Cluster-Rolle. Dieser kann RAM als ReadCache benutzen (bei R2 auf Wunsch sowas um die 80-85%) .

 

Weil nun der ReadCache Blockbasiert ist und Dedupe die Blöcke zusammenfast, kann man im Endeffekt viel mehr Daten puffern, als es eben ohne Dedupe möglich ist.

 

Da kann man sich gut vorstellen, wo das am heftigsten spürbar ist. Virtualisierung. Bis jetzt dürften von MS nur Clients freigegeben sein, weil MS bzw. die Kunden das zuerst mal ausgiebig testen sollen. Fast niemand weint wirklich, wenn in einer grösseren Umgebung ein paar Clients crashen. Bei Server sieht das anders aus. ;)

Link zu diesem Kommentar
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Schreibe einen Kommentar

Du kannst jetzt antworten und Dich später registrieren. Falls Du bereits ein Mitglied bist, logge Dich jetzt ein.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung jetzt entfernen

  Only 75 emoji are allowed.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Editor-Fenster leeren

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

×
×
  • Neu erstellen...