Rheinwohnungsbau erreicht Dedup-Rate von 1:12
Ein zu kurzes Zeitfenster war für die Düsseldorfer Rheinwohnungsbau der Auslöser die Datensicherungsstrategie zu ändern. Zunächst wurde auf Disk-to-Disk-to-Tape gesetzt, das Konzept verfügte aber bald über zu wenig Kapazität. Nun setzt das Unternehmen auf eine Deduplizierungslösung von Data Domain.
Von Christian Walter, Rheinwohnungsbau
Rheinwohnungsbau ist ein kommunales Wohnungsbauunternehmen in kirchlicher Hand mit einem mehrheitlichen Wohnungsbestand in Düsseldorf. Derzeit beschäftigt das Unternehmen zirka 80 Mitarbeiter an 14 Standorten rund um Düsseldorf. Die IT-Landschaft setzt sich vor allem aus einer homogenen »Windows 2003«-Systemlandschaft auf IBM »BladeCenter«-Technologie zusammen. Neben den rund 25 physikalischen Servern wird noch eine »ESX«-Testumgebung mit zehn weiteren Servern betrieben. Die SAN-Kapazität liegt derzeit bei zwei TByte, wovon Bestandsdaten das meiste Volumen belegen, die nur einen geringen Datenzuwachs verzeichnen.
Die zu sichernden Informationen setzen sich aus einem heterogenen Datenmix zusammen. Sie bestehen aus klassischen Fileserver-Daten wie vielen kleineren Office-Dateien, Bildern und PDF-Dokumenten sowie BESR-Images (»Backup Exec System Recovery«), die ebenfalls dedupliziert werden. Exchange-, Oracle- und SQL-Datenbanken trennt das IT-Team für den Datensicherungsvorgang und stellt sie anschließend wieder online bereit.
Umstieg auf Disk-Backup und Deduplizierung
Über zwei Jahre hinweg haben wir versucht unsere langen Backup-Zeiten in den Griff zu bekommen. Zwar umfasste das Sicherungsfenster zirka zehn Stunden, dennoch sind wir immer wieder an unsere Grenzen gestoßen. Es folgte anschließend der Umstieg von der reinen Bandsicherung auf Backup-to-Disk-to-Tape. Dies brachte uns ein verbessertes Zeitfenster, so dass wir ein Problem schließen konnten.
Allerdings folgte eine neue Baustelle. Die Plattenkapazität reichte nach einiger Zeit nicht mehr aus und wir mussten eine Entscheidung zwischen der Erweiterung des bestehenden Disk-Backup-Systems inklusive Lizenzen treffen oder der bis dato unbekannten Technologie der Daten-Deduplizierung. Nach der Marktsondierung sind wir anschließend in eine Testphase mit zwei Quantum-Systemen der »DXi3500«-Serie gegangen. Hauptaugenmerk lag neben einer hohen Deduplizierungsrate (zirka 1:10) auf der Funktion der automatisierten Standortreplizierung. Aus unserer Sicht war aber die Management-Software der Appliance noch nicht ausgereift genug um dies voll verwaltbar darzustellen.
Schließlich haben wir uns für Einstiegsmodelle der »DD510«-Klasse von Data Domain entschieden, welche eine Vielzahl an Möglichkeiten direkt auf der Kommandozeile bietet. Zur Evaluierung stellt uns der Hersteller zwei Systeme der »DD500«-Serie zur Verfügung.
Die DD510 ist in verschiedenen Modell- und Lizenzgrößen verfügbar: angefangen bei einem nativen Speichervolumen von 1,2 TByte bis hin zu einer nutzbaren Kapazität von 3,75 TByte. Um den erhöhten Speicherplatz nutzen zu können, fallen neben den Kosten für weitere Festplatten zudem Kosten für eine Erweiterungslizenz des Restores und die Möglichkeit der Replikation an. Die nächstgrößere Appliance der Produktserie beginnt bei 2,5 TByte und kann bis zu 4,5 TByte nativen Speicherplatz aufweisen. Bis auf eine andere Lizenzierung und eine andere Ausstattung der Festplatten sind die Geräte innerhalb der 500er-Serie identisch.
Die theoretische Deduplizierungsrate soll zwischen 1:10 und 1:50 liegen. Damit wäre ein theoretischer Wert von bis zu maximal 55 TByte möglich. Die Verarbeitungsrate von nativen Daten liegt bei 435 GByte/h. Als kommunizierende Schnittstelle lassen sich die vorhandene Fibre-Channel-Karte oder die beiden integrierten Gbit-Ethernet-Ports nutzen. Zudem ist es möglich, optional eine referenzierte Netzwerkkarte mittels einer Lizenzgebühr nachzurüsten. Die Stromversorgung erfolgt über drei redundante Netzteile. Mit einer Wärmemengenabgabe von 1.663 BTU/h (British Thermal Unit) und 487 Watt Verbrauch liegt die DD510-Appliance knapp unterhalb den ökologischen Werten im Vergleich zur DXi3500.
Deduplizierung im Produktiveinsatz
Mit dem Umstieg auf eine Deduplizierungs-Appliance waren wir sicherlich einer der Pioniere am deutschen Markt. Wir konnten also kaum auf Referenzwerte aus bewährten Lösungen bei anderen Unternehmen zurückgreifen. Die ersten Probeläufe begannen im Sommer 2008, zu einem funktionierenden Produkt kamen wir im Jahr 2009.
Anfänglich bestand die Hauptaufgabe darin, ein passendes Backupkonstrukt zu bauen, worin die Deduplizierung volle Entfaltung finden kann. Da wir mit »Backup Exec« und Backup Exec System Recovery von Symantec arbeiten und es auch hier verschiedene Ansätze gibt, mussten wir unsere Erfolgsstrategie erst finden. Als größtes Problem stellte sich die Standardkomprimierung der Backup-Software heraus. Erst nachdem wir diese ausgeschaltet hatten, bekamen wir die versprochenen Quoten von bis zu 1:12.
Sehr zufrieden sind wir mit der automatischen Standortreplizierung. Bereits während der Datensicherung beginnt die interne Appliance direkt damit, neue Datensegmente an einen zweiten Standort auszulagern und anschließend die Hashwert-Tabelle abzugleichen. Weil sie nur die neuen Blöcke überträgt, verringert sich die Auslastung der WAN-Transfers um ein Vielfaches. Somit haben wir mit der Entscheidung für Deduplizierung eine weitere Sicherheitsebene mit der Standort-Replikation eingefügt.
Deduplizierung kein Allheilmittel gegen die Datenflut
Aus technischer Perspektive bietet die Daten-Deduplizierung mehrere eindeutige Vorteile gegenüber herkömmlichen Speichersystemen. Zudem verfügt eine entsprechende Appliance über die Möglichkeit der Replikation von Daten. Während es bei herkömmlichen Storage-Systemen zu einer doppelten Datenbevorratung an zwei Standorten kam und dementsprechend auch die Kapazitäten und WAN-Verbindungen dimensioniert sein mussten, ist dies bei einer Deduplizierungslösung nicht mehr vonnöten.
Daten-Deduplikation ist derweil noch eine recht junge Technologie, wobei bereits vorhandene Erfahrungswerte oft nicht besonders aussagekräftig sind. Des Weiteren spielen zusätzliche Einflussfaktoren der jeweiligen Implementierung vor Ort eine große Rolle. Einmalsicherungen und temporäre Daten fallen ebenfalls in diese Kategorie der Daten, welche auf einem Bandsicherungssystem effektiver gespeichert werden können. Demnach ist die Daten-Deduplizierung kein Allheilmittel gegen eine wachsende Datenflut, aber eine weitere nützliche Technologie zu ihrer Bewältigung.
Kritisch hingegen ist der Ausfall einer Dedup-Appliance. Derzeit existieren noch keine Mechanismen, um die Beziehung zwischen dem physikalischen Speicher und dem Zeiger für die Hashwert-Tabelle zu rekonstruieren. Die Hersteller sprechen hierbei von einem höchst unwahrscheinlichen Fall. Allerdings gibt es auch vermehrt Stimmen, welche eine zusätzliche Auffangzone schaffen wollen. Diese Risikokonzepte sehen für besonders wichtige Daten eine extra Ebene vor, worin die gesicherten Daten nativ auf ein Festplattensystem kopiert werden. Dies würde die Ausfallzeit für unternehmenskritische Daten reduzieren und zudem als letzte Bastion fungieren.
Band bleibt als letzte Bastion erhalten
Eine eindeutige Antwort auf die Notwendigkeit einer solchen letzten Bastion wird man allerdings nicht finden, da es eine individuelle Entscheidung ist, ob man eine zusätzliche Ebene mit einbaut oder auf die eingesetzte Technik vertraut. Alle als absolut unternehmenskritisch gekennzeichneten Daten und Datenbanken werden von uns im Wochenrhythmus zusätzlich nativ auf Band gesichert. Hierbei setzen wir auf eine altbewährte »SDLT600«-Library von Quantum, quasi als absolut letzte Bastion.
Künftige Entwicklung im Dedup-Markt
Das stetige Datenwachstum führt unweigerlich dazu, dass eine neue Technologie zur Redundanzerkennung in geraumer Zukunft steigenden Einfluss innerhalb der Datensicherungsstrategien erhalten wird. Es ist zu erwarten, dass sich der Deduplizierungsmarkt in den nächsten Jahren im Eiltempo entwickeln wird. Die Algorithmen werden weiter optimiert und neue dynamische Blockanalysen entwickelt.
Als zukunftsweisend scheint derzeit, dass die Deduplizierung in absehbarer Zeit zu einer Massenware wird, einer zusätzlichen Option innerhalb von Datensicherungs-Software, die sich nach Belieben und Bedarf nutzen lässt. Dabei wird sicherlich abzuwarten sein, ob Appliances – als autark agierende Hardware-Lösungen – weiterhin den Vorrang gegenüber Software-Produkten erhalten. Namhafte Hersteller entwickeln bereits neue Produkte. Die Entwicklung von »NetBackup« oder »Backup Exec« entscheidet im kommenden Jahr wohl maßgeblich darüber, wie sich die Deduplizierungs-Variante per Appliance weiter etabliert.
Die Möglichkeit, innerhalb der bestehenden Software bloß einen Haken für die Deduplizierung zu setzen, anstatt sich eine nicht günstige Appliance aufzubauen, könnte besonders in kleinen bis mittleren Unternehmen Verbreitung finden. Ein weiteres Indiz für die Streuung der Technologie in weitere Bereiche der Informationstechnologie hat EMC bereits vorgestellt. Mittels der Daten-Deduplizierung ist es nun auch möglich, Datensicherungen von Notebooks auf einen zentralen Speicherort über das Internet abzulegen.
Einen eindeutigen Vorteil gegenüber der reinen Software-Version der Daten-Deduplizierung besitzt die Appliance-Variante beim Disaster-Recovery im Unternehmensumfeld. Durch die Möglichkeit der integrierten Standort-Replikation zwischen mehreren Systemen behalten die hardwarebasierten Lösungen weiterhin Vorrang gegenüber einer existenten Software. Die Möglichkeiten der autarken Standort-Replikation ohne hohen administrativen Aufwand sind ein Meilenstein der Appliance-Lösungen am Markt.
Entscheidungsfindung nur anhand des eigenen Bedarfs
Insgesamt geht der Trend hin zu granulareren Datensicherungskonzepten. Unternehmen nutzen beispielsweise sowohl Festplatten als auch Datensicherungsbänder, weil sie sich mit ihren unterschiedlichen Vorteilen ideal ergänzen. Zusätzlich zum schnellen Backup ist dadurch die kurzfristige Wiederherstellung gesicherter Dateien gewährleistet. Die langfristige Sicherung erfolgt auf Bandmedien. Der Einsatz beider Systeme ermöglicht zudem eine Kombination aus Snapshots oder Images, welche ein gegenwärtiges Abbild der Daten sichern, mit dem klassischen Backup.
Insofern lässt sich IT-Entscheidern letztlich nur eines empfehlen: Potenziell für die eigenen Bedürfnisse in Frage kommende Systeme müssen genau evaluiert und, wenn möglich, mit den eigenen Datenbeständen und in der eigenen Umgebung getestet werden. Aussagekräftige Eckdaten lassen sich nur so gewinnen. Eine Entscheidung für oder gegen Daten-Deduplizierung ist nahezu immer auch eine Abwägung zwischen der Anschaffung einer neuen Technologie oder einer Erweiterung der bestehenden Storage-Umgebung. Wenn es allerdings um eine der drängendsten IT-Herausforderungen der Neuzeit geht, dem ungebremsten Datenwachstum Herr zu werden, bietet derzeit nur die Technologie der Deduplizierung Aussicht auf eine umfassende Problemlösung.