Anzeige

»Löschen sie einfach das RAID und legen sie es neu an«

RAID-Arrays haben einen unglaublichen Siegeszug in die Rechenzentren hinter sich. Sie werden für Datenspeicherung, Datenbanken, Dokumentmanagement und Archivierung oder als Mail- und Web-Server verwendet. Selbst bei Ausfall von ein oder zwei Platten ist der Betrieb über die verbleibenden Datenträger möglich. Doch die RAID-Sicherheit ist trügerisch.

Festplattenanalyse im Reinraumlabor (Bild: Attingo)
Festplattenanalyse im Reinraumlabor (Bild: Attingo)
»Viele Unternehmen rechnen nicht damit, dass mehrere Festplatten gleichzeitig ausfallen können und vernachlässigen die unbedingt erforderlichen Datensicherungen«, warnt Nicolas Ehrschwendner, Geschäftsführer des Datenrettungsspezialisten Attingo. Tatsächlich liefert die aktuelle Attingo-Statistik alarmierende Fakten. Demnach hat sich die Anzahl der in den firmeneigenen Labors in Wien, Hamburg und Amsterdam bearbeiteten Datenrettungsfälle bei RAID-Systemen vom Jahr 2009 auf 2010 verdreifacht.

Dabei sind immer größere Speicherkapazitäten betroffen. Während die eingelieferten RAID-Systeme im Jahr 2009 durchschnittlich noch rund ein TByte aufwiesen, waren es 2010 schon drei TByte. Eindrucksvoll ist die Anzahl der Festplatten in defekten RAID-Systemen: Im Vorjahr waren die spitalreifen RAIDs durchschnittlich acht Hard-Disks bestückt, in 30 Prozent der Fälle sogar mehr als zehn.

Anzeige

Je mehr Festplatten, desto...

»Das Argument – mehrere Festplatten fallen nicht gleichzeitig aus – ist pauschal nicht haltbar«, erklärt Ehrschwendner. Ursachen für gleichzeitige Defekte von mehreren Datenträgern sind vielfältig: »Simple Spannungsspitzen können zum System-Crash führen. Auch Produktionsfehler, Überhitzung oder Stoßeinwirkung beim Transport sind häufige Gründe.« Eine weitere Fehlerquelle ist die integrierte Firmware der RAID-Controller. »Wir beobachten einen Anstieg an Ausfällen aufgrund fehlerhafter oder schlecht programmierter Controller-Software«, stellt der Attingo-Chef fest.

Virtualisierung: richtig gefährlich

Besonders brisant ist der steigende Anteil an virtualisierten Systemen, die verschiedene Dienste wie Mail-, File- oder Datenbank-Server auf derselben Hardware betreiben. Ihre Anzahl im Rahmen der Datenrettungsfälle hat sich von 2009 auf 2010 verdoppelt. »Unternehmen kommen massiv unter Druck, wenn bei System-Ausfällen gleich mehrere Server-Dienste betroffen sind«, betont Ehrschwendner. »Es kann die gesamte Belegschaft de facto nicht arbeiten.«

Aber es gibt auch gute Nachrichten aus der Attingo-Statistik: Die Rekonstruktionsrate für verloren geglaubte Daten liegt auch bei RAID-Systemen immerhin deutlich über 90 Prozent. Attingo kann eigenen Angaben zufolge alle aktuellen als auch alten RAID-Controller per eigenentwickelter Software simulieren.

Es sollten Notfallpläne im Vorfeld erstellt werden

Nicolas Ehrschwendner
Täglich werden in den modernen Reinraumlabors in Wien, Hamburg und Amsterdam komplexe RAID-Systeme aus ganz Europa behandelt. Auch nach missglückten Rebuilds sei eine professionelle Datenrettung möglich. Dies gelingt unabhängig von Anzahl, Typ der Datenträger und Betriebssystem – egal ob VMware, Unix oder Windows.

»Viele Unternehmen glauben, wenn man in teure RAID-Systeme investiert, kann bei der Datensicherung gespart werden. Dies ist ein fataler Irrtum«, resümiert Ehrschwendner. »Damit bereits bei der IT-Planung die richtigen Weichen gestellt werden, beraten wir Unternehmen im Vorfeld bei der Erarbeitung von Notfallplänen. Dadurch passieren weniger Fehler und Abläufe sind klar definiert.«

Die größten Fallstricke – auch der Support

? NAS: KMU verwenden aus Kostengründen als Server-Ersatz gerne NAS-Systeme. Meistens basieren diese auf RAID-Technologie. Die Datensicherung sollte auch hier nicht vernachlässigt werden.
? RAID-Online-Erweiterung: Gefährlich ist es auch, bei RAID-Systemen Kapazitäten online zu erweitern. Dabei kommt es häufig zu Datenverlust.
? Rebuild bei RAID 5 oder RAID 6: Die gefährlichste Operation bei RAID-Systemen ist das so genannte »Rebuild«. Wenn ein Datenträger ausfällt, muss dieser ausgetauscht werden. Der RAID-Controller kann die Daten einer defekten Festplatte durch Auslesen der noch übrigen neu berechnen. Aber die Wahrscheinlichkeit, dass mindestens eine der Platten nur einen kleinen Fehler aufweist, ist überdurchschnittlich hoch. Tritt während eines Rebuilds ein Lesefehler auf, wird der Prozess abgebrochen und das RAID meldet sodann zwei ausgefallene Datenträger. Bei RAID 5 ist damit kein Zugriff mehr möglich, bei RAID-6 ab der dritten defekten Festplatte.
? Experimentieren: Attingo schätzt die Zahl der RAID-Datenrettungsfälle, bei denen »Erste Hilfe« den Schaden noch vergrößert hat, auf über 80 Prozent. Der Grund ist der hohe Druck, unter den die IT-Verantwortlichen bei Ausfall teurer RAID-Systeme geraten. In solchen Situationen werden falsche Festplatten getauscht, im RAID-Controller-Bios wahllos Kommandos ausgeführt und Support-Anweisungen des Herstellers ausprobiert. Kunde: »Mein RAID ist offline!« Hotline: »Löschen sie einfach das RAID und legen sie es neu an.« Jedoch verschweigt der Support, dass die Daten dann nicht mehr verfügbar sind. Laut Ehrschwendner berichten dies Attingo-Kunden immer wieder, wenn sie den rettenden Weg ins Labor antreten.
? Kein Schutz bei Fehlern von außen: Weil RAID-Systeme sich gegenüber dem Betriebssystem genauso verhalten wie eine einzelne Festplatte, kann diese nicht gegen von außen verursachte Fehler schützen wie Hacking-Angriffe, manuelles Löschen, Datenbank-Probleme oder Software-Bugs.

Anzeige