Zum Inhalt wechseln


Foto

Deduplizierung von win2012


  • Bitte melde dich an um zu Antworten
35 Antworten in diesem Thema

#1 micha42

micha42

    Board Veteran

  • 1.033 Beiträge

 

Geschrieben 21. Januar 2015 - 15:06

Moin, wir haben jetzt Dedublizierung auf dem produktiven Win2012 Dateiserver. Das ist der Hammer. 60-80% weniger Daten. Obwohl wir bestimmt nicht so viele identische Dateien haben. Ich weiß, dass das auf Blockebene stattfindet aber mit einem solchen Effekt habe ich nie gerechnet. Und das ohne Performance-Verlust - geil. kann ich nur empfehlen! Michael

anbei der Verlauf der Plattenbelegung während der Reduktion

Angehängte Dateien


Bearbeitet von micha42, 21. Januar 2015 - 15:08.

Nur wer zickzack denken kann, weiß wie der Hase läuft.

#2 Dukel

Dukel

    Board Veteran

  • 9.262 Beiträge

 

Geschrieben 21. Januar 2015 - 15:11

Vielleicht wart ihr euch nie bewusst, dass ihr so viele identische Dateien habt (kopien von kopien irgendwo abgelegt).

 

Wir haben bei einem Kunden auch deduplizierung im Einsatz (mit Netapp und nicht mit Windows Server), dort sind die Daten aber nicht so gut deduplizierbar und es gab max. 10% Einsparung.

Auch bei einer Backupumgebung nutzen wir Deduplizierung (mit Commvault) und sparen 75-85%.


Stop making stupid people famous.


#3 micha42

micha42

    Board Veteran

  • 1.033 Beiträge

 

Geschrieben 21. Januar 2015 - 15:30

Auf dem laufwerk liegen Daten unserer Statistiker. Rohdaten, Skripte, Logdateien, Ergebnisse. Da ist nix (oder fast nix) an doppelten Dateien. Wenn es nun die User-Verzeichnisse wären, würde ich von Doppelten Dateien ausgehen, aber nicht in diesem Laufwerk.


Nur wer zickzack denken kann, weiß wie der Hase läuft.

#4 DocData

DocData

    Board Veteran

  • 1.273 Beiträge

 

Geschrieben 21. Januar 2015 - 16:10

Deduplizierung sucht aber nicht nach identischen Daten, sondern teilt Daten in Blöcke einer bestimmten Länge ein (gibt aber auch Lösungen die mit variabler Länge arbeiten). Für jeden Block wird ein Hash gebildet und die Anzahl der Hashes wird vergleichen. Damit sind auch nur Teile von Dateien deduplizierbar.


Ein Wrack ist kein Ort, an dem ein Schatz schlummert...


#5 substyle

substyle

    Board Veteran

  • 1.842 Beiträge

 

Geschrieben 22. Januar 2015 - 17:33

Jupp Server 2012 Dedup is schon geil, gerade mal unseren Filer angeschaut -- 46% -- ganz respektabel.



#6 monstermania

monstermania

    Board Veteran

  • 1.179 Beiträge

 

Geschrieben 23. Januar 2015 - 08:57

Deduplizierung sucht aber nicht nach identischen Daten, sondern teilt Daten in Blöcke einer bestimmten Länge ein (gibt aber auch Lösungen die mit variabler Länge arbeiten). Für jeden Block wird ein Hash gebildet und die Anzahl der Hashes wird vergleichen. Damit sind auch nur Teile von Dateien deduplizierbar.

Genau,

sehr schön erklärt!

 

Bin auch gerade am testen, was Dedup bei unserem Fileserver an (Platz)Einsparung bringt bzw. bringen wird.

Hat jemand schon irgendwo jemand verlässliche Aussagen über die Performanceverluste von Dedup-Volumes gefunden? Rein theoretisch müsste ein gewisser Geschwindigkeitsnachteil von einen Dedup Volume gegenüber einem native Volume da sein. Die Daten müssen ja sozusagen beim Abruf aus den einzelnen Blöcken 'zusammengebaut' werden.  

Spielt bei unserem FS mit Sicherheit keine Rolle. Würde mich aber einfach interessieren.

 

Gruß

Dirk



#7 micha42

micha42

    Board Veteran

  • 1.033 Beiträge

 

Geschrieben 23. Januar 2015 - 10:34


Hat jemand schon irgendwo jemand verlässliche Aussagen über die Performanceverluste von Dedup-Volumes gefunden? Rein theoretisch müsste ein gewisser Geschwindigkeitsnachteil von einen Dedup Volume gegenüber einem native Volume da sein. Die Daten müssen ja sozusagen beim Abruf aus den einzelnen Blöcken 'zusammengebaut' werden.  

Dachte ich auch und habe es getestet.

Dabei hab ich lediglich große Dateien (ISO), die doppelt abgelegt waren vor und nach der Dedublizierung kopiert. Das habe ich mit einer Stoppuhr gestoppt - also insgesamt ungenaue Messungen

Trotzdem habe ich keinen Performance-Verlust messen können.

Michael

PS sogar ein 3.5 GB-ISO-File belegt nur 2.5 GB Plattenplatz. Da scheint es also innerhalb der Datei noch doppelte Blöcke im großen Ausmaß zu geben.


Bearbeitet von micha42, 23. Januar 2015 - 10:36.

Nur wer zickzack denken kann, weiß wie der Hase läuft.

#8 CoolAce

CoolAce

    Board Veteran

  • 1.468 Beiträge

 

Geschrieben 23. Januar 2015 - 11:04

und kann auch bei Hyper-V verwendet werden :-)


IT-Systemkaufmann; IT-Networkadministrator (IHK),MCP,
MCSA +M
"Es gibt Menschen mit einem Horizont vom Radius '0'.
Das nennen Sie dann Ihren Standpunkt!"
(A. Einstein)

#9 Dukel

Dukel

    Board Veteran

  • 9.262 Beiträge

 

Geschrieben 23. Januar 2015 - 11:54

und kann auch bei Hyper-V verwendet werden :-)

 

Aber nur für VDI unter Hyper-V:

 


Data deduplication is supported only on the following:

  • Windows Server operating systems beginning with Windows Server 2012
  • NTFS data volumes
  • Cluster shared volume file system (CSVFS) supporting virtual desktop infrastructure (VDI) workloads beginning with Windows Server 2012 R2

Deduplication is not supported on:

  • System or boot volumes
  • Remote mapped or remote mounted drives
  • Cluster shared volume file system (CSVFS) for non-VDI workloads or any workloads on Windows Server 2012
  • Files approaching or larger than 1 TB in size.
  • Volumes approaching or larger than 64 TB in size.

 

https://msdn.microso...a_deduplication


Stop making stupid people famous.


#10 monstermania

monstermania

    Board Veteran

  • 1.179 Beiträge

 

Geschrieben 23. Januar 2015 - 12:38

Dachte ich auch und habe es getestet.

Dabei hab ich lediglich große Dateien (ISO), die doppelt abgelegt waren vor und nach der Dedublizierung kopiert. Das habe ich mit einer Stoppuhr gestoppt - also insgesamt ungenaue Messungen

Trotzdem habe ich keinen Performance-Verlust messen können.

Michael

PS sogar ein 3.5 GB-ISO-File belegt nur 2.5 GB Plattenplatz. Da scheint es also innerhalb der Datei noch doppelte Blöcke im großen Ausmaß zu geben.

 

Danke,

für die Info!

 

Bei meinen Tests konnte ich auch keine Performanceeinbußen feststellen. Habe allerdings auch keine performante Testumgebung.

Bei unserem Fileserver bringt das Aktivieren der Datendeduplizierung zwar nur 22%, aber das ist ja auch schon was. Speicherplatz auf dem SAN kostet auch Geld!

 

Gruß

Dirk



#11 NeMiX

NeMiX

    Board Veteran

  • 1.356 Beiträge

 

Geschrieben 23. Januar 2015 - 20:35

Habt Ihr den FS als VM laufen oder physikalisch?

Haben auch gerade die Anfrage offen ob man nicht statt einer neuen NetApp die nur SMB liefert nicht Dedup vom Server 2012 nutzen könnte.



#12 monstermania

monstermania

    Board Veteran

  • 1.179 Beiträge

 

Geschrieben 24. Januar 2015 - 06:23

Moin,
bei uns läuft Alles virtuell. Einzig der Backupserver ist Blech.
Klar, wenn man schon ein Storage mit integriertem Dedup hat, dürfte das aktivieren von Dedup in der VM nicht mehr ganz so viel bringen. Obwohl, da die effektivität von Dedup stark von der Blockgröße abhängig ist... Kommt wohl drauf an. Auch davon, ob man viele gleichartige VM hat. Z.B. bei VDI dürfte Dedup auf dem Storage sehr viel bringen.

Ist auf jedem Fall ein sehr interessantes Thema.

Gruß
Dirk

Bearbeitet von monstermania, 24. Januar 2015 - 06:27.


#13 Dunkelmann

Dunkelmann

    Expert Member

  • 1.862 Beiträge

 

Geschrieben 24. Januar 2015 - 07:31

Habt Ihr den FS als VM laufen oder physikalisch?

Haben auch gerade die Anfrage offen ob man nicht statt einer neuen NetApp die nur SMB liefert nicht Dedup vom Server 2012 nutzen könnte.

Moin,

 

bei uns ist aktuell in zwei VMs dedup aktiviert.

In der VMM Bibliothek hat er über 60% geschafft, auf dem Fileserver sind es nur 18%.

Im Betreib ist kein Performaceunterschied spürbar (nicht gemessen, nur nach Gefühl). Wenn der Dedup-Job läuft und es viele neue Dateien oder viele Änderungen gegeben hat, kann eine vCPU über mehrere Stunden unter Volllast stehen; das sollte bei der Konfiguration der VM und bei der Zeitplanung des Jobs berücksichtigt werden.

 

Die Frage NetApp oder Windows Dedup sollte im Gesamtkontext bewertet werden. Wird nur ein FS mit Dedup benötigt, würde ich - alleine aus Kostengründen - einen virtuellen FS (-Cluster) nehmen. Soll noch anderer Workload von Dedup profitieren, würde ich Dedup im Storage bevorzugen.


Keep It Small - Keep It Simple


#14 micha42

micha42

    Board Veteran

  • 1.033 Beiträge

 

Geschrieben 26. Januar 2015 - 10:49

Bei uns läuft der Dateiserver virtualisiert. Ich beobachte noch die CPU-Auslastung und schalte nur nach und nach die Laufwerke auf Dedub. Im Moment kann ich noch keine nennenswerte CPU-Mehrbelastung feststellen


Nur wer zickzack denken kann, weiß wie der Hase läuft.

#15 Weingeist

Weingeist

    Board Veteran

  • 767 Beiträge

 

Geschrieben 16. Februar 2015 - 08:00

Wenn man die Möglichkeiten von Windows ausnutzt, dann kann man sogar eine massive Steigerung erreichen.

Das ist möglich mit einem File-Server mit Cluster-Rolle. Dieser kann RAM als ReadCache benutzen (bei R2 auf Wunsch sowas um die 80-85%) .

 

Weil nun der ReadCache Blockbasiert ist und Dedupe die Blöcke zusammenfast, kann man im Endeffekt viel mehr Daten puffern, als es eben ohne Dedupe möglich ist.

 

Da kann man sich gut vorstellen, wo das am heftigsten spürbar ist. Virtualisierung. Bis jetzt dürften von MS nur Clients freigegeben sein, weil MS bzw. die Kunden das zuerst mal ausgiebig testen sollen. Fast niemand weint wirklich, wenn in einer grösseren Umgebung ein paar Clients crashen. Bei Server sieht das anders aus. ;)