Deduplizierungsarten im Überblick
Deduplizierung ist ein effizientes Mittel, um Datenmengen zu reduzieren und Speicherplatz optimal zu nutzen. Die Liste der Anbieter und Verfahren ist in den letzten Jahren länger geworden. speicherguide.de stellt die bekanntesten Hersteller und ihre Dedup-Methoden vor.
Je besser ein Disk-Backup-System genutzt wird, umso länger und effizienter lässt es sich nutzen. Wenn identisch zu sichernde Dateien nicht mehrfach gespeichert werden müssen, spart dies Kapazität und gleichzeitig Investitionskosten. Die Deduplizierungstechnik eliminiert solche unnötigen Redundanzen. Bei der Datendeduplizierung sucht ein Algorithmus nach bestimmten Merkmalen innerhalb einer Datei, eines Datenfragmentes oder des Datenstroms. Es geht unter anderem darum, Anfang und Ende eingebetteter Elemente zu erkennen, zum Beispiel von Logos bzw. Fotos oder auch Dokumenten und Präsentationen. Prinzipiell handelt es sich um die Erkennung sich wiederholender Objekte beliebiger Größe an beliebigen Orten des gesamten Speichersystems.Je nach Technologie erfolgt diese Wiedererkennung direkt im Datenstrom vor dem Schreiben (»on the fly« oder »inline«) oder nachdem die Informationen geschrieben wurden (»data in place«, »data at rest« oder »post-process«) und ist größtenteils unabhängig von deren Format oder dem Netzwerkanschluss. Eine vorangehende Manipulation der Daten wie Komprimierung oder Verschlüsselung würde diese Wiedererkennung verhindern und darf daher erst nach der Deduplizierung passieren.
Gab es am Anfang der Deduplizierungsgeschichte nur zwei große Platzhirsche – Data Domain und Quantum – so haben sich doch im Laufe der Zeit zahlreiche Anbieter etabliert. Einige wurden aufgekauft und stecken jetzt in Speichersystemen großer Hersteller, andere behaupten sich als eigenständige Lösungsanbieter. Der Grundgedanke, Datenbestände zu minimieren und Speicherplatz zu sparen ist allen gleich. Die genutzten Verfahren variieren allerdings.
EMC »Avamar«
EMC vertreibt die »Avamar«-Produktreihe sowohl als Software-Paket als auch im Bundle mit entsprechenden Arrays. Die Software reduziert Daten nach deren Speicherung und stellt sich nach Anwendungen auf, in die es Deduplizierung zu integrieren gilt. Der Hersteller bietet Module für Oracle- oder »DB2«-Datenbanken, Microsoft »Sharepoint«, »Exchange« und »SQL« sowie für »Lotus Notes« an. Ein besonderes Augenmerk wird dabei – nicht überraschend für ein EMC-Produkt – auf das nahtlose Zusammenspiel mit VMware »ESX«-Servern und den dort laufenden virtuellen Maschinen gelegt. Zusammen mit der Software bietet EMC die »Avamar Data Storage« an, welche im 19-Zoll-Format mit drei bis 16 Knoten nach Herstellerangaben bis zu 124 TByte deduplizierte Daten speichern kann. Knoten lassen sich bei Bedarf online hinzufügen, die Integrität der Daten wird ständig überprüft. Gespeicherte Informationen können zwischen einer beliebigen Anzahl von Arrays repliziert werden.
EMC Data Domain
EMC ist der einzige Hersteller am Markt, der separate Produkte für Deduplikation »data in place« (Avamar) als auch »on the fly« anbietet. Letztere Technologie wird von den Data-Domain-Produkten abgedeckt. Im Gegensatz zu Avamar handelt es sich hierbei ausschließlich um Arrays mit integrierter Deduplizierungs-Software, so genannte Appliances. Die Systeme bieten nach Herstellerangaben bis zu 14,2 PByte logischer Kapazität und lassen sich im laufenden Betrieb kapazitätsseitig aufrüsten. Da im Datenstrom dedupliziert wird, gibt es keine Integration in bestimmte Anwendungsumgebungen. Dafür kann der IT-Manager seine Data-Domain-Umgebung mit einer Funktion als virtueller Bandbibliothek (VTL), einer Verschlüsselung der gespeicherten Informationen oder Möglichkeiten zur IT-Governance und Compliance ausrüsten. Damit lassen sich mit dem Produkt auch herkömmliche Archive mit unveränderlichen Daten ablösen.
Exagrid »EX Series«
Exagrid bietet Arrays der »EX Series« mit bis zu 975 TByte logischer Kapazität, die im »data in place«-Verfahren arbeiten. Durch die Grid-Architektur steigt die Leistung der Systeme mit der Anzahl an Prozessoren und Laufwerken. Im Gegensatz zu den meisten anderen Deduplizierungs-Arrays wendet Exagrid sowohl Block-Level- als auch Byte-Level-Algorithmen zur Datenreduzierung an, je nach Art der gespeicherten Informationen. Davon verspricht sich der Hersteller verbesserte Flexibilität und Skalierung des Systems. Im Gegensatz zur Avamar-Lösung konzentriert sich Exagrid auf die Integration in dedizierte Backup-Umgebungen, von denen alle gebräuchlichen von »ARCserve«, »Networker« und »Data Protector« über RMAN und »BackupExec« bis hin zu »NetBackup«, Vmware-Backup und Dateisystem-Dumps unterstützt werden.Fujitsu »ETERNUS CS800«
Fujitsu reihte sich erst spät in den Reigen der Deduplizierungslösungen ein und beschränkt sich derzeit auf eine Appliance als die Dedup-Funktion flächendeckend per Betriebssystem in alle Systeme zu spülen. Die Appliance repliziert die Backup-Daten zwischen unterschiedlichen Standorten unter Nutzung der globalen Inline-Deduplizierung und reduziert dabei den typischen Bedarf an Netzwerkbandbreite. Dabei unterstützen die CS-Modelle auch virtuelle Umgebungen sowie gängige Backup-Anwendungen und »OST« von Symantec.Darüber hinaus ist die CS800 mit allen am Markt befindlichen Bandbibliotheken kompatibel. Das System bietet eine zentralisierte Verwaltung für alle Backups und über alle angeschlossenen Außenstellen hinweg (siehe Produkt-Review Fujitsu »ETERNUS CS800 S2«).
Greenbytes »GB-X«
Der amerikanische Hersteller GreenBytes stattet seine GB-X-Baureihe neben Standard-Festplatten auch mit SSD-Laufwerken zur Beschleunigung des Deduplizierungs-Prozesses aus. Durch die hiermit erreichten Durchsatzleistungen bietet Greenbytes seine Arrays als einziges Unternehmen in diesem Marktsegment auch als Primärspeicher und nicht nur als Backup-Systeme an. Die im »inline«-Prinzip arbeitenden Arrays speichern bis zu 230 TByte logischer Kapazität und bieten neben den klassischen Backup-Funktionalitäten auch solche für herkömmlichen Online-Speicher (siehe Produkt-Review Greenbytes »GB-4000«).
HP »StoreOnce«
Für seine Backup-to-Disk Systeme der D2D-Baureihe bietet Hewlett Packard die Software »StoreOnce« an. Diese ist für einen Einsatz an mehreren Punkten in konvergierten Netzwerken entworfen, soll durch die Überwachung von Server- und Speicherprozessen die unnötige Duplizierung und anschließende Deduplizierung von Daten verhindern und damit die benötigten Kapazitäten im Rechner- und Speichernetz deutlich reduzieren. Durch diesen neuen Ansatz verspricht sich HP bis zu einem Fünftel Leistungsvorteil gegenüber herkömmlichen Software- und Appliance-Angeboten. Storeonce sorgt nicht nur für eine einmalige Speicherung von Informationen, sondern legt diese auch in einem optimierten Layout ab, wodurch die Fragmentierung reduziert und die Leistung gesteigert wird. Durch die Funktionsweise als »inline«-Deduplikation bietet HP keine Integration in spezielle Umgebungen – Storeonce eignet sich laut Herstellerangabe für alle Backup-to-Disk-Umgebungen.
Dell Ocarina
Das kürzlich von Dell übernommene Software-Unternehmen Ocarina bietet eine kombinierte Hard- und Software-Lösung zur Deduplizierung von Daten in beliebigen Arrays an. Während die Hardware-Lösung, der »Optimizer«, die bereits gespeicherten Informationen von den logischen Laufwerken liest, dedupliziert und wieder speichert, wird die Software »ECOreader« dazu verwendet, die deduplizierten Daten vor der Verarbeitung durch einen Rechner wieder gebrauchsfertig aufzubereiten. Damit arbeitet die schreibende Seite des Produktes also mit »data in place«, während die lesende Seite die »inline«-Technik anwendet. Ocarina verspricht sich dadurch einerseits die Nutzung des Besten aus beiden Welten für die Deduplikation, andererseits läßt sich das Paket mit beliebigen Arrays verwenden. Eine Spezialität der Lösung ist die Kenntnis der speziellen Strukturen von Daten aus unterschiedlichen Anwendungen, beispielsweise Office-Dokumenten, Bildern, Filmen oder PDF- und ZIP-Dateien. All diese ist Ocarina in der Lage zu erkennen und mit bestimmten Algorithmen optimal zu deduplizieren.
IBM »ProtecTIER«
IBM hat sich beim Thema Deduplizierung schon vor Jahren für eine Inband-Lösung entschieden, also für ein Gateway zwischen Rechnern und Speicher. Das aktuelle Produkt unterstützt bis zu 25 PByte an logischen Daten auf einem PByte physikalischem Volumen. Es läuft sowohl mit IBM- als auch mit Arrays von Fremdherstellern zusammen, wobei eine beeindruckende Rechenleistung von vier Acht-Kern-Prozessoren mit 64 GByte Speicher für die nötige Geschwindigkeit sorgt. Die »OST«-Schnittstelle soll für eine möglichst reibungslose Integration in alle Standard-Backup-Umgebungen sorgen. Die Appliance kann Daten zwischen zwei oder mehr Standorten replizieren und die dafür benötigte Bandbreite dramatisch reduzieren.
Quantum »DXi«
Quantum hat sich als klassische Hersteller von Tape-Librarys bereits frühzeitig dem Thema Disk-Bibliotheken zugewendet und in diesem Zusammenhang auch »inline«-Deduplizierung in seine Systeme integriert. Die Arrays der »DXi«-Baureihe kommen mit bis zu 200 TByte physikalischem Netto-Speicher und bieten vor allem Unterstützung für offene Backup-Umgebungen (OST). Sie emulieren alle gebräuchlichen Bandbibliotheken von ADIC und Quantum mit DLT-, SDLT- und LTO-Kassetten.
Netapp
NetApp bietet seine Deduplizierung für alle Arrays kostenfrei an und weist in technischen Papieren deutlich auf die Einsatzmöglichkeiten sowohl im Backup- als auch im Online-Speicher-Bereich hin. Der Hersteller nutzt eine »data in place«-Technologie. Diese kann im laufenden Betrieb ohne Einfluss auf existierende Verbindungen und gespeicherte Daten eingeschaltet werden und reduziert dann im Hintergrund die bereits abgelegte Datenmenge. Netapp macht auf »geringe Einflüsse« auf die Systemleistung durch die Deduplizierung aufmerksam und gibt vergleichsweise bescheidene Werte für deren Effizienz an.
Fazit
Kaum ein Markt im Speicherbereich ist momentan – obwohl bereits einige Jahre alt – so von Pionierstimmung erfasst wie der der Deduplizierungslösungen. Unterschiedliche Technologien wie »post process«- und »inline«-Deduplizierung oder gar Kombinationen aus beidem, Hard- oder Software-Lösungen, reine Plattenbibliotheken oder Mischsysteme für Online-Speicher und VTLs – IT-Entscheidern wird die Auswahl nicht leicht gemacht. Basierend auf unseren Erfahrungen können wir momentan diese Schlußfolgerungen ziehen:
- »on the fly«-Deduplizierung unterstützt das eigentliche Ziel dieser Technologie wesentlich nachhaltiger als »data in place«. Es macht wenig Sinn, ständig mehr Speicher als eigentlich nötig vorhalten zu müssen, nur um Daten zunächst »unbehandelt« zu speichern und später erst auszudünnen.
- Mit zunehmenden Prozessorleistungen und Netzwerkkapazitäten wird es immer einfacher, auch große Datenmengen mit »wirespeed« schon vor dem Speichern im Array zu deduplizieren. Dies spricht ebenso für »on the fly«-Systeme.
- Mit immer schnelleren Arrays und ebenso leistungsfähigeren Backends ist die Beschränkung von Deduplizierungs-Systemen auf den Backup-Bereich in Zukunft nicht mehr sinnvoll. Einige Hersteller haben dies bereits erkannt und bieten ihre Maschinen auch für die Verwendung als Online-Speicher an.
- Für Unternehmen mit heterogenen Speicherumgebungen eignen sich Software- oder Gateways wesentlich besser als Punktlösungen mit eingeschränkter Offenheit zu Systemen von Drittherstellern.