Im Interview: TIM

29.04.2010 kfr

Im Interview: TIM

Harald Will, Consultant, TIM

Disk-Subsysteme sind das Rückgrat jeder unternehmensweiten Storage-Strategie. Dank moderner Festplatten sind Speichereinheiten mit hohen Kapazitäten mittlerweile für jedes Budget erschwinglich. Gleichzeitig gilt es, neue Architekturen zu entwickeln, denn RAID stößt allmählich an seine Grenzen.
Wir sprachen mit Harald Will, Consultant bei TIM .

Selbst Einsteiger-RAIDs verfügen mittlerweile über einstige Highend-Funktionen wie Snapshots, Replikation und Online-Kapazitätserweiterung. Welche Funktionen fehlen modernen Disk-Subsystemen heute noch? Wie sieht das Disk-Array der Zukunft aus?

Harald Will

Will: Es stimmt, dass auch Einsteiger-RAIDs storagebasierende Hochverfügbarkeit und Disaster-Recovery-Funktionalitäten haben. Die eigentliche Herausforderung an ein Storage-System hat sich allerdings in den letzten Jahren verändert.

Weil heutige SLAs (Service-Level-Agreements) keinen Platz mehr für Stillstandzeiten lassen, ist eine Online-Sicherung in den meisten Fällen unumgänglich. Bei vielen Applikationen muss man eine Integration zwischen Storage-Funktionalität und Applikation schaffen, die sicherstellt, dass die Daten während eines Snapshots oder einer asynchronen Replikation in einem konsistenten und wieder verwertbaren Zustand sind. Diese Integration benötigt eine zusätzliche Intelligenz, die es für viele Einsteiger-RAIDs entweder nur in eingeschränkter Form oder überhaupt nicht gibt.

Sind die bekannten RAID-Level heute noch zeitgemäß? Sollte eine Festplatte mit einer Kapazität von bis zu zwei TByte ausfallen, dauert ein Rebuild bis zu 46 Stunden. Wie könnten neue Ansätze aussehen?

Will: So lange es sich um einen RAID-Level mit einer Parity-Information handelt (RAID 3, RAID 4, RAID 5) trifft diese Aussage zu. Die längeren Rebuild-Zeiten für größere Festplatten haben hauptsächlich zwei negative Auswirkungen:

Höhere I/O-Last auf den Festplatten bei einem Festplattenausfall

Jeder lesende I/O muss im Fehlerfall aus der Parity-Information und den verbleibenden Daten berechnet werden. Außerdem muss der Rebuild jeden Block aller Festplatten auslesen, um die Daten der defekten Platte wiederherzustellen.

Geringerer Schutz der Daten während des Rebuild

In der Zeit des Rebuild steht je nach RAID-Level kein oder nur ein begrenzter Schutz der Daten gegen einen weiteren Festplattenausfall zur Verfügung.

Ich sehe im Wesentlichen zwei unterschiedliche Ansätze die beschriebenen Probleme und Einschränkungen zu beseitigen oder zumindest zu minimieren:

»Prefail« einer Festplatte

Eine Festplatte wir nach Schreib- und Lesefehler von dem System vorab in noch funktionsfähigem Zustand auf eine neue Festplatte kopiert und danach als defekt markiert. In diesem Fall muss keine Berechnung der Daten mit den Parity-Informationen durchgeführt werden. Außerdem sind die Daten jederzeit noch durch das funktionsfähige RAID geschützt. Leider gibt es auch Festplattenausfälle, die sich vorher nicht ankündigen und bei denen das Kopieren der Daten nicht mehr möglich ist.

Besserer Datenschutz durch zusätzliche Parity-Informationen

Falls ein Prefail nicht möglich ist, muss zumindest sicher gestellt werden, dass während des Rebuild, der vielleicht mehrere Stunden benötigt, die Daten weiterhin geschützt sind. Hierfür bieten inzwischen fast alle Hersteller den RAID 6 oder auch RAID_DP an. Bei dem Ausfall einer Platte innerhalb einer RAID-Gruppe sind die Daten weiterhin durch eine Parity-Information geschützt.

Diese zwei Funktionen bieten heute aus meiner Sicht eine Basis, um auch große Festplatten beruhigt einsetzen zu können.

Eine sinnvolle Speicherstrategie variiert natürlich nach Branche, Einsatzszenario und dem verfügbaren Budget. Trotzdem, wie sieht Ihre Empfehlung für ein möglichst perfektes Storage-System für Primary- und Secundary-Daten aus?

Will: Der Investitionsschutz muss beim Kauf eines Storage-Systems an oberster Stelle stehen. Deshalb ist die Flexibilität, insbesondere die mögliche Verwendung unterschiedlicher Protokolle, das wichtigste Kriterium bei der Auswahl eines RAID-Systems.

In Zukunft gewinnen Funktionalitäten wie Deduplizierung und automatisches Tiering der Daten (Blöcke werden im Hintergrund je nach Anforderung auf unterschiedliche Plattentypen wie SATA, SAS oder SSD verschoben) sowohl für Primär- als auch für Sekundär-Systeme an Bedeutung. Weiterhin wird Storage den Anforderungen an Cloud-Computing, soweit diese Funktionalitäten nicht schon vorhanden sind, gerecht werden müssen.