Tiered-Storage: verteiltes Speichern
Tiered-Storage erlaubt den Unternehmen, ihre Daten transparent auf Speichersysteme verschiedener Preis- und Geschwindigkeitsklassen zu verteilen. Ein Blick auf die technischen Grundlagen zeigt die Vor- und Nachteile dieser Lösungen.
Von Max Lessel
Schnelle Platten kosten viel Geld für vergleichsweise wenig Kapazität, während sehr große Laufwerke günstiger ausfallen aber langsamer laufen. Also sollten IT-Entscheider dafür Sorge tragen, dass nur wichtige Daten, welche sich häufig im Zugriff befinden, auf den möglichst kleinen, teuren Arrays lagern. Was in der Theorie so simpel und einfach klingt, erweist sich praktisch als große Herausforderung. Wer den Inhalt einer Serverplatte genauer studiert, muss feststellen, dass die manuelle Trennung von aktiven und inaktiven Daten einen großen Arbeitsaufwand bedeutet. Abhilfe verspricht Tiered-Storage. Hier schalten entsprechende Lösungen mehrere verschiedene Disk-Klassen zu einem virtuellen Laufwerk zusammen. Das Management entscheidet dann automatisch, welche Daten auf den schnellen und welche auf den langsamen Drives lagern. So können Unternehmen ihre teuren Arrays sehr klein halten.
Storage-Tiering setzt alt bekannte Grundkonzepte um. Das hierarchische Storage-Management von Anbietern wie IBM, Novell und Veritas (heute Symantec) verfolgt bereits diesen Ansatz. Allerdings arbeitet HSM in erster Line auf Basis eines Dateisystems oder innerhalb eines Backup-Pools. Storage-Tiering erledigt die Aufgabe auf Blockebene und damit völlig unabhängig von Betriebs- oder Dateisystemen. Dazu setzt es auf zwei ebenfalls alt bekannte Speichertechnologien: Virtualisierung und Thin-Provisioning.
Blöcke, Zeiger und eine große Tabelle
Um zu verstehen, wie vergleichsweise einfach das Stufenmodell arbeitet, reicht ein erster Blick auf die moderne Adressierung von Disks. Früher identifizierte das Betriebssystem einen Datenblock auf einer Festplatte anhand von Sektor-, Spur- und Kopfnummer (CHS-Adressierung = Cylinder, Head, Sector). Anfang der 90er fingen die Plattenhersteller jedoch an, die Oberflächen der Laufwerke effizienter auszunutzen. Sie führten das so genannte Zone-Bit-Recording ein. Auf den längeren äußeren Spuren schreibt eine Platte dabei mehr Sektoren als auf den inneren. Das hebelt die CHS-Adressierung aus, so dass heute alle Laufwerke einfach über fortlaufende Blocknummern (LBA = logical block addressing) angesprochen werden. Eine Disk hat dabei einfach eine Nummer von x Blöcken zu je 512 Byte.
Eine Tiered-Storage-Lösung gaukelt den angebundenen Servern dabei also einfach nur Disks mit x Blöcken vor. Wo die Daten dann tatsächlich liegen, steht in der Address-Mapping-Table, gerne auch nur als »Meta-Data« bezeichnet. Diese Tabelle zeigt von virtuellen Blöcken der LUN auf die physischen. Eine neue virtuelle LUN belegt erst einmal überhaupt keinen Speicherplatz. Erst wenn Blöcke darauf geschrieben werden, erfolgt eine Zuweisung in der Mapping-Table. Lesezugriffe auf noch nicht geschriebene Blöcke beantwortet eine Tiered-Lösung ganz einfach mit Nullen.
Das Management der Tiered-Storage-Lösung kann nun in aller Seelenruhe mit den physischen Datenblöcken spielen. Sektoren, auf die das Dateisystem schon seit langem keinen Zugriff mehr hatte, landen auf den günstigen SATA-Arrays, die häufig gebrauchten kommen auf schnelle SAS- oder SSD-Disks. Das geht ganz simpel: Block kopieren, verifizieren, Mapping-Table aktualisieren und fertig. Allerdings ist es nicht damit getan, die Tiering-Regelwerke anhand einzelner Zugriffsdaten festzulegen. Ein einzelner Disk-Check des Dateisystems oder eine Sicherung über eine Backup-Software berührt nahezu alle Blöcke des Dateisystems und würde folglich auch alle als wichtig markieren. Die Qualität der Lösung hängt also von der Logik der Tiering-Verwaltung ab und von der Qualität der Meta-Daten.
Der Management-Layer bei Tiered-Storage kann jederzeit komplette Arrays im Backend leeren. Wer einzelne Speichereinheiten austauschen möchte, kann dies ohne Unterbrechungen erledigen. Ferner erlaubt die Technologie, asynchron die physisch geschriebenen Blöcke zu analysieren und über Deduplikation zu komprimieren. Auch asynchrone Spiegel über WAN-Verbindungen arbeiten zuverlässig, ohne den Live-Zugriff auf Daten zu behindern.
Risiken von Tiered-Storage
Das Verteilen der Daten eines einzigen logischen Dateisystems auf mehrere Speichereinheiten birgt natürlich auch Risiken. Sollte ein einziges der dabei verwendeten Subsysteme ausfallen, sterben alle virtuellen LUNs, welche Blöcke auf diesem System hatten. Die Verfügbarkeit der kompletten Lösung ist daher nur so gut, wie die der schwächsten Komponente darin. Es macht daher eigentlich wenig Sinn, Arrays mit verschiedenen RAID-Klassen zu mischen. Die Zahl der verwendeten Tiers einer einzelnen LUN sollte der Verwalter auf maximal drei begrenzen.
Je nach Applikation kann auch die Leistung einer Stufenlösung zum Problem werden. Die Zugriffszeiten und Durchsatzwerte einer einzigen virtuellen LUN sind sehr unterschiedlich und kaum vorhersehbar. Während auf SSD gesicherte Daten in wenigen Millisekunden zur Verfügung stehen, kann die Reaktionszeit eines SATA-Arrays im Schlafzustand mehrere Sekunden benötigen. Das kann sehr unangenehme Folgen haben, beispielsweise wenn große Dateien einer einzigen Applikation auf mehrere Tiers verteilt lagern. Die meisten als In-Band-Lösung aufgesetzten Tiering-Mechanismen fügen zudem Latenzen in den Datenpfad ein. Das stört Applikationen, welche mit einer Vielzahl von Threads kleine Datenblöcke bewegen.
Tiered-Storage in der Praxis
Bei den verwendeten Tiers orientieren sich die Hersteller an den verfügbaren Laufwerkstechnologien. Im schnellsten Tier 1 setzen ausnahmslos alle Anbieter auf SSDs. Etliche Hersteller bezeichnen SSD auch gerne noch als »Tier 0« um die Besonderheit des Geschwindigkeitsvorteils gegenüber mechanischen Platten herauszustellen. In der Zwischenzeit offerieren alle Subsystemhersteller SSD-Lösungen, so dass speicherguide.de diese nunmehr etablierte Technologie ganz regulär als Tier 1 oberhalb aller mechanischen Drives klassifiziert.
Die 15.000 Touren schnellen SAS-Laufwerke stellen Tier 2. Über Tier 3 gehen die Meinungen auseinander. Es existieren Lösungen mit 10.000-Touren-SAS-Laufwerken oder so genannten Near-Line-SAS-Laufwerken. Das sind 10.000-tourige SATA-Laufwerke mit SAS-Interface über einen Konverterchip. Im Tier 4 finden sich dann die großen 7.200-Touren-SATA-Laufwerke mit Kapazitäten von einem TByte und mehr pro Platte, je nach Anbieter auch als Near-Line-SAS-Konfiguration. Je nach Einsatzgebiet genügen zwei bis drei der aufgeführten Tiers. Anwender mit hohen Performance-Ansprüchen setzen auf eine Kombination aus 1, 2 und 4 während in einfacheren Lösungen die Tiers 2 und 4 eigentlich ausreichen.
Lösungen
Hersteller wie Compellent oder Pillar Data Systems setzen Tiering als festen Bestandteil ihrer Storage-Plattformen ein. Die Systeme arbeiten überwiegend mit Fibre-Channel und zielen auf Enterprise-Umgebungen. Auf der iSCSI-Seite für die Einsteigerklasse und den mittleren Bereich findet sich Storage-Tiering in den Dell/Equallogic- und HP/Lefthand-Maschinen. Alle vier Hersteller offerieren Module der Tiers 1 bis 4.
Neben Tiered-Storage-Komplettlösungen lässt sich die Technik auch über In-Band-Appliances abbilden. Sowohl »IPStor« von FalconStor als auch »SANsymphony« sowie »SANmelody« von DataCore sprechen im Backend verschiedene Tiers an. Damit kann der Anwender bestehende Arrays weiter verwenden. Je nach Einsatzgebiet lassen sich auch entsprechend günstige Arrays mit Hilfe von In-Band-Tiering-Appliances zu sehr individuellen Lösungen zusammenstellen.