Deduplizierung reduziert Backup-Volumen
Ein wesentlicher Grund für steigenden Kapazitätsbedarf ist die mehrfache Speicherung von Backup-Daten. Deduplizierung ist das neueste Wundermittel der Storage-Industrie, mit dem erstaunliche Ergebnisse hinsichtlich der Verringerung des Speichervolumens erzielt werden sollen.
von Karl Fröhlich
Es ist schon fast Ironie: Wer dachte, durch ausgefeilte Datensicherungsroutinen und -techniken wie zum Beispiel Snapshot-Backups oder Replikation den steigenden Anforderungen an Datenverfügbarkeit und Revisionssicherheit zu begegnen, hat unbeabsichtigt ein neues Problem geschaffen. Untersuchungen zeigen, dass das Verhältnis von mehrfach vorhandenen Backup-Daten 10:1, 20:1 oder sogar 30:1 betragen kann. »Durch Datenkomprimierung wird in der Regel lediglich eine Verringerung des Speicherbedarfs von 2:1 erzielt – zudem wird hiermit das Problem ja nicht beseitigt, sondern nur am Symptom herumgedoktert«, meint Guy Berlo, Regional Director Central Region bei FalconStor Software. »Es sind vielmehr Techniken nötig, die das mehrfache Speichern von Daten von vornherein ausschließen und Daten in eine geeignete Form für die effiziente Speicherung und schnelle elektronische Übertragung bringen. Die Lösung heißt Deduplizierung.«
Die Idee, das mehrfache Speichern derselben Daten zu verhindern, ist wie viele Storage-Management-Technologien nicht neu: Bereits in den frühen 80er Jahren wurden entsprechende Optionen entwickelt. Erst heute allerdings ist der damit erzielte Mehrwert so groß, dass sich die Investition in eine solche Lösung für immer mehr Unternehmen tatsächlich rentiert. Darüber hinaus wurden wichtige Voraussetzungen für einen optimalen Einsatz von Deduplizierung erst in jüngster Zeit technologisch realisiert, so etwa das Vorhalten von weniger speicherintensiven »Struktur-Daten« für schnelle Wiederherstellung bei Bedarf.
Es gibt einige wichtige Kriterien, die laut Falconstor-Manager Berlo bei der Entscheidung für eine Deduplizierungslösung in Betracht gezogen werden sollten:
Die Deduplizierung darf die Backup-Geschwindigkeit nicht beeinträchtigen. | |
Sie sollte auf einer robusten Storage-Management-Plattform basieren. | |
Die Deduplizierung sollte effektiv sein. | |
Sie muss Funktionen für den Schutz des Repositorys liefern. | |
Die Replikation muss besonders effizient sein, so dass im Falle eines Disaster-Recoverys nur wenig Bandbreite belegt wird. | |
Die Deduplizierungslösung sollte skalierbar sein, um bestehende und zukünftige Performance- und Kapazitätsansprüche zu erfüllen. | |
Sie sollte sich an jede Storage-Topologie anpassen lassen. |
Hohe Backup-Performance und stabile Basis
Die derzeit auf dem Markt erhältlichen Deduplizierungslösungen unterscheiden sich vor allem darin, wo im Netzwerk sie sitzen und zu welchem Zeitpunkt dedupliziert wird. Ein Ansatz ist die »Inline«-Deduplizierung während der Sicherung. Der Nachteil dieser Methode ist jedoch die starke Belastung der Backup-Geschwindigkeit. »Tatsächlich zeigen Analysen und Tests mit Inline-Lösungen, dass sich eine Virtual-Tape-Library (VTL) dabei während der Deduplizierung um 50 bis 60 Prozent verlangsamt«, erklärt Falconstor-Manager Berlo.
Besser ist eine »Offline«-Deduplizierung in einer VTL-Umgebung. Dieser Ansatz hat keinen negativen Einfluss auf das Backup-Fenster und die Daten können mit der gewohnten Performance auf die VTL übertragen werden. »Da in einer solchen Konfiguration nicht auf einen möglichst geringen Overhead durch die Datenübertragung geachtet werden muss, können hier auch intelligente, ausgefeilte Techniken zum Einsatz kommen, die das Datenvolumen spürbar reduzieren«, sagt Berlo.
Das Prinzip ist einfach: Auf der Basis von innerhalb der VTL verwalteten Policys scannt das System die Daten in der Library und erstellt ein Repository, das die Daten jeweils nur einmal enthält. Alle mehrfach vorhandenen Daten werden automatisch gelöscht. Der bisher davon belegte Speicherplatz in der VTL wird frei. So lassen sich mehr Daten über eine längere Zeit online vorhalten. »Da der Großteil der mehrfach gespeicherten Daten in Form von Backup-Images vorliegt, ist der Effekt der Deduplizierungslösung übrigens umso größer, je öfter ein Anwender eine Sicherung fährt und je mehr Backups er online verwaltet.«
Deduplizierung als langfristige Investition
In einigen Berichten über die mit Deduplizierung erzielten »Wunder« sprechen Anwender von einer Verringerung des Speichervolumens um den Faktor 300. »Dazu muss gesagt werden, dass der Grad der Reduzierung maßgeblich von der Art der Daten und den verwendeten Backup-Policys abhängt«, schränkt Berlo ein. »In bestimmten Situationen kann sogar eine Verringerung um den Faktor 1000 erreicht werden, tatsächlich sind in Enterprise-Umgebungen jedoch Raten von etwa 30:1 der Durchschnitt.«
Deduplizierung – effektiv und formatübergreifend
Ist die Deduplizierung wie beschrieben in die VTL integriert, wird der Prozess erst nach Abschluss der Datensicherung ausgeführt und diese damit nicht beeinträchtigt. Die virtuellen Tape-Cartridges werden gescannt, die Daten analysiert und geprüft, ob sie bereits als Kopie im Repository vorliegen. Die hierbei verwendeten Policys lassen sich wahlweise für die gesamte Library festsetzen oder für Gruppen von Bändern und sogar für einzelne Bänder. Die originäre virtuelle Cartridge wird dann durch einen virtuellen Index ersetzt, der mit dem Repository verknüpft ist. »Hohe Genauigkeit lässt sich durch eine formatübergreifende Lösung erzielen, die auch das Format des virtuellen Sicherungsbands unterstützt«, erläutert Falconstor-Manager Berlo. »Sie kann Blöcke verschiedener Größe erkennen und ist dadurch um 30 bis 40 Prozent treffsicherer beim Aufspüren von Dubletten als auf nur ein Format begrenzte Lösungen.«
Der Zugriff auf das Repository mit dem bereinigten Datenbestand ist natürlich kritisch, daher sollte die Deduplizierungslösung über eine integrierte Mirroring-Funktionalität zum Schutz vor einem Ausfall des lokalen Speichers verfügen. Ist darüber hinaus eine Funktion für Replikation integriert, kann die Lösung auch das Repository und die Metadaten replizieren. Ein weiterer Vorteil dieses Zusatzes ist die besonders effektive Deduplizierung in Umgebungen mit mehreren Standorten: Daten, die an mehreren Standorten vorliegen, werden zentral dedupliziert, so dass an eine Disaster-Recovery-Site wiederum nur ein einmalig vorhandener Datenbestand repliziert wird. »Dabei sollte eine bi-direktionale Replikation oder eine Many-to-One-Konfiguration möglich sein«, sagt Berlo.
Hinsichtlich der Bandbreitenbelastung ist die Replikation einer VTL mit Deduplizierungsfunktion gegenüber anderen Ansätzen deutlich im Vorteil, denn sie nimmt nur einen Bruchteil der Bandbreite in Anspruch, die andere Lösungen belegen. Es müssen lediglich das virtuelle Index-Tape und die nicht duplizierten Daten repliziert werden, nicht das gesamte virtuelle Originalband. Im zentralen Rechenzentrum überprüft die Deduplizierungslösung, ob die Daten bereits vorliegen oder ob es neue Daten sind, die am zweiten Standort erstellt wurden. In diesem Fall repliziert das System lediglich die neuen Daten vom Zweig-Repository in das zentrale Rechenzentrum.
Deduplizierung reduziert Datenvolumen – bewirkt aber keine Wunder
»Deduplizierung von Daten wird zukünftig eine wichtige Rolle im Storage-Management spielen«, erwartet Falconstor-Manager Berlo. »Durch diesen neuen Ansatz lassen sich die Datenvolumen drastisch reduzieren und gleichzeitig Kosten und Risiken der Datensicherung verringern.« Schon jetzt springen immer mehr Hersteller auf den Zug auf. Neben Falconstor setzt vor allem Quantum auf die Technik.
Unternehmen sollten sich bei all dem Hype um die neue Technologie nicht täuschen lassen: Deduplizierung bewirkt keine Wunder. Wie sehr sich der Speicherbedarf tatsächlich verringert, hängt maßgeblich von der Art der Daten ab und davon, wie Daten- und Speichermanagement generell gehandhabt werden.
Falconstor nimmt für seine VTL-Erweiterung »Single Instance Repository« (SIR) in Anspruch, dass die Deduplizierungslösung um 30 bis 40 Prozent effektiver ist als andere Ansätze. Zudem soll sie sich relativ einfach in bestehende IT- und Storage-Infrastrukturen integrieren lassen. »Wer bei der Anschaffung gleichzeitig auf Funktionen für geringe Belastung von Backup-Performance und Bandbreite, hohe Ausfallsicherheit und maximale Flexibilität und Skalierbarkeit achtet, kann mit Deduplizierung langfristig eines der größten aktuellen und zukünftigen Probleme im Storage-Management lösen«, resümiert Berlo.