Anzeige

Deduplizierungsmethoden richtig auswählen

Verschiedene Deduplizierungs-Verfahren versprechen unterschiedliche Erfolge bei den Reduzierungsraten der Daten. IT-Verantwortliche sollten vor der Wahl einer Dedup-Lösung genauer prüfen, welche Methode für ihre IT-Umgebung am besten geeignet ist.

Dr. Thore Rabe, EMC

Data Domain »DD 880«
EMC »Data Domain 880«
Prinzipiell ist Daten-Deduplizierung eine Art Virtualisierungs-Technologie. Durch die gewaltige Reduzierung von Speicherdaten lassen sich Informationen einfacher verwalten. Zudem werden sie mobiler, während im Vergleich zu vorher die Verwertungsleistung und Effizienz von Speicherinfrastrukturen gesteigert werden kann. Durch Deduplizierung rechnen sich robuste plattenbasierte Infrastrukturen auch für die Datensicherung und viele manuelle Abläufe können automatisiert werden. Auf den ersten Blick sieht das alles zwar rundweg positiv aus, allerdings ergibt sich aus der genaueren Betrachtung der Anwendungsbereiche für diese Technologie ein differenziertes Bild. Viele Anbieter verwenden den Begriff Deduplizierung für eine Reihe von Datenreduzierungs-Technologien, die viele große Unterschiede in ihren einfachsten Leistungsmerkmalen aufweisen.

Reduzierungsfaktor differenziert Technologien

Wenn man die verschiedenen Deduplizierungs-Technologien vor dem Hintergrund möglicher Anwendungen und Zielsetzungen in einer typischen Unternehmensumgebung betrachtet, stellt man schnell zwei Dinge fest: Erstens beschränkt sich der Nutzen von Single-Instance-Storage (SIS) auf den Primärspeicher und eventuell auf Archivierungen. Das liegt daran, dass SIS nicht auf der »Sub-File«-Ebene greift und daher die Reduzierungsraten relativ gering ausfallen, meist nur das Zwei- bis Dreifache. Das ist ausreichend, solange es lediglich um eine bessere Auslastung des Speicherplatzes geht. Allerdings ist der Effekt der Deduplizierung dann nicht groß genug, um zum Beispiel Backup-Daten über vorhandene WAN-Systeme zu replizieren. Interessanterweise ist der Unterschied zwischen dem Reduzierungseffekt von SIS und den handelsüblichen Kompressionsmethoden nicht sehr groß und es wird sogar bezweifelt, ob SIS tatsächlich zu den Deduplizierungs-Methoden zu zählen ist. Zweitens wird schnell klar, dass die Anwendungsarten für die Deduplizierung das meiste Potential bietet, alle mit Backup und Datenrettung oder Datensicherung im Allgemeinen im Zusammenhang stehen. Das ist nicht weiter verwunderlich, eine Sicherung als solche naturgemäß große Mengen redundanter Daten produziert und abspeichert.

Grafik: EMC
Grafik: EMC
Auf Sub-File-Ebene betrachtet sind die Kategorien der Deduplizierung und alle damit zusammenhängenden Fragen – sowie auch der Wettbewerb zwischen den Anbietern – um einiges komplexer. Wenn allerdings die Metrik einer zehnfachen – das entspricht 90 Prozent – Datenreduzierung als Minimum erreicht wird, kann man zumeist davon ausgehen, dass die Leistungen, die normalerweise von echter Deduplizierungs-Technologie auf Sub-File-Ebene geboten werden, auch erzielt werden können. Selbstverständlich können Deduplizierungsraten auch viel höher ausfallen, wobei eine 95-prozentige Datenreduzierung die Größe des Datensatzes einer 10-maligen Reduzierung nochmals halbiert. Bei weiter gesteigerten Reduzierungsraten sind diese Raten selbst weniger relevant als die Frage, ob die Leistungen der Technologie auch effektiv zu realisieren sind.

Einsatz von Deduplizierung in Unternehmen

Betrachtet man die derzeit wichtigsten sowie die am problematischsten empfundenen Aufgabenbereiche von IT-Managern, ist zu erkennen, dass Deduplizierung für die meisten von großem Vorteil wäre. Zu diesen Bereichen gehören Server-Virtualisierung, der Aufbau von Tiered-Storage-Infrastrukturen, die Neugestaltung und Verwaltung des Backups, das Management von Datenwachstum, Konsolidierung, Tape-Minimierung, Disaster-Recovery (DR), Compliance-Initiativen und Green-Computing.

Die Vorteile und entscheidenden Ziele der Implementierung von Sub-File-Deduplizierung sind für die Anwender klar: Die Lösungen versprechen, dass Anwender weniger Speicherplatz benötigen, weniger Druck durch kleine Backup-Fenster haben, die Nutzung von Bändern überflüssig wird, Vorgänge automatisiert und Managementkosten gesenkt werden können, sowie das Recovery schneller und zuverlässiger gestaltet werden kann. Im Gegensatz dazu geraten die Argumente der Anbieter über die beste Art der Deduplizierung und einzelner Produkte häufig eher verwirrend und unsachlich.

Auswahlfaktoren für Datendeduplizierung

Bei der Auswahl einer geeigneten Deduplizierungslösung sollte der Anwender einige Überlegungen im Auge behalten, um festzustellen, ob sich die Technologien für die obigen Anwendungen wirklich eignen. Während die Aufnahmerate der verschiedene Lösungen wichtig ist, ist jedoch auch die Geschwindigkeit, mit der die Daten auf Platten transferiert werden, dem Bedarf an Cache gegenüber zu stellen. Dieser ist in einem Deduplizierungssystem nötig, um eine ständig wachsende Menge an Backups abfangen zu können. Der EDV-Verantwortliche muss zunächst prüfen, ob die Geschwindigkeit seines Systems abhängig von der Disk-I/O ist. Falls ja, dann würde dies in direktem Widerspruch zu dem Ziel von weniger Plattenspeicherplatz stehen.

Grafik: EMC
Grafik: EMC
Ein weiterer Faktor ist, wie viele Abläufe im Rahmen von DR tatsächlich stattfinden und wie viel Zeit vergeht, bis die jeweiligen Daten sicher dupliziert, stabil und von dem DR-Ort wiederherstellbar sind. Darüber hinaus muss der IT-Manager feststellen, welche Art von Replikationsoptionen und Topologien die Deduplizierungslösung unterstützt. Falls diese begrenzt sind, muss der Anwender genauer hinsehen, ob die gesamten DR-Bedürfnisse oder nur Silos abgedeckt werden. Ein weiterer Entscheidungspunkt sind die genauen Vorlagen oder Methoden, welche die jeweiligen Anbieter in ihre Lösungen für virtuelle Umgebungen integriert haben.

Darüber hinaus sollte sich der IT-Manager fragen, ob er bereit ist, seine Backup-Software zu ändern. Die Antworten auf diese Fragen können helfen, die Deduplizierungsangebote einzugrenzen. Zudem lässt sich so sicherstellen, dass die Implementierung von Deduplizierungstechnologie tatsächlich den eigenen Vorgaben und Erwartungen entspricht.

Weitere Informationen
EMC Deutschland GmbH
Am Kronberger Hang 2a, 65824 Schwalbach/Ts.
Tel.: 0800-10 16 944

Weiterführende Links
Anzeige