Untersuchung zur tatsächlichen Lebensdauer von Festplatten
Die Hersteller von Festplatten werben gemeinhin mit der MTBF also der durchschnittlichen Dauer zwischen zwei Fehlern für die Langlebigkeit ihrer Produkte. Die liegt gerne mal über 2 Millionen Stunden und damit weit über 200 Jahren. Dennoch gibt es kaum mehr als drei Jahre Garantie. Das hat seine Gründe.
Die Lebenserwartung einer Festplatte wird in den Datenblättern normalerweise mit einem Wert für die Mean Time Between Failures (MTBF) angegeben also die Zeit zwischen zwei Fehlern. Diese Werte sind oft beeindruckend, sagen allerding wenig über die Lebenserwartung einer einzelnen Festplatte aus. Denn MTBF ist eine rein statistische Angabe. Dazu wird die Laufzeit einer Anzahl von Testmustern unter Laborbedingungen addiert und dann durch die Anzahl der aufgetretenen Fehler geteilt.
Das hat praktische Gründe. Zum Beispiel geben die Hersteller bei aktuellen, für den Einsatz in Rechenzentren gedachten High-End-Festplatten wie der Seagate Exos 20 mit 20 TByte oder der WD Gold mit 22 TByte eine MTBF von 2,5 Millionen Stunden an. Das sind über 280 Jahre. So lange können die Hersteller natürlich nicht warten, bevor sie ein neues, auf seine Lebenszeit getestete Produkt auf den Markt bringen. Also lassen sie eine größere Anzahl an HDDs einige Zeit im Labor laufen, rechnen die Betriebsdauer zusammen und teilen diese durch die Anzahl der ausgefallenen Platten et voilà, die MTBF.
Damit basiert die MTBF jedoch auf mehreren Annahmen, die in der Praxis nicht zutreffen. Zum Beispiel spielen zu hohe Temperaturen oder physische Einwirkungen wie Erschütterungen, Vibrationen, Stöße oder Staub keine Rolle.
Zahlen zur HDD-Lebensdauer aus der Praxis
Deshalb sind Zahlen aus der Praxis interessant. Leider liegen belastbare und aussagekräftige Zahlen nur selten vor, weil meistens die Zahl der defekten HDDs zu gering ist. Anders sieht das bei einem Datenrettungsunternehmen aus, das Sammel- und Anlaufstelle für defekte Festplatten ist. Die US-Firma Secure Data Recovery ist solch ein Unternehmen und hat im Jahr 2022 gezielt Betriebsinformationen von Tausenden beschädigter oder defekter Geräte gesammelt, um die Frage zu beleuchten, wann Festplatten ausfallen.
Die erste Variable, die die Experten von Secure Data Recovery verifizierten, sind die Betriebsstunden. Der Wert wird als Power-on hours oder »POH-Wert« von Herstellern teilweise ebenfalls angegeben. Bei Secure Data Recovery ist er als Gesamtzeit der Stunden definiert, in denen die Festplatte eingeschaltet war vom ersten Start des Geräts durch den Benutzer bis zur Ankunft in der Reparaturwerkstatt.
Darüber hinaus haben sie für ausgefallene Geräte die Anzahl der beschädigten oder unbrauchbaren Sektoren berechnet, die während routinemäßiger Lese- und Schreibvorgänge auf der Festplatte entstanden sind. Dazu haben sie den Parameter Current Pending Sector Count des HDD-Selbstüberwachungssytems (S.M.A.R.T) herangezogen. Er gibt Auskunft über die Anzahl der unstabilen Sektoren, die erneut gemappt werden müssen. Current Pending Sector Count ist ein wichtiger S.M.A.R.T-Parameter: Wenn er ansteigt, deutet das meist darauf hin, dass ein Ausfall bevorsteht.
Um möglichst aussagekräftige Ergebnisse zu bekommen, wurden dann Schäden durch unerwartete, nicht von der Festplatte zu verantwortende Ereignisse wie elektrische Überspannungen, Malware, Naturkatastrophen oder eine versehentliche falsche Handhabung aussortiert auf die übrigens der allergrößte Anteil der zur Datenrettung eingelieferten Festplatten zurückgeht. Damit bleiben die HDDs übrig, bei der man von vorhersagbaren Fehlern ausgehen darf.
2.007 Festplatten von sechs Herstellern untersucht
Alle untersuchten Festplatten wurden 2022 bei Secure Data Recovery eingereicht. Untersucht wurden schließlich 2.007 HDDs von sechs Herstellern (Western Digital, Seagate, Hitachi, Toshiba, Samsung, Maxtor). Mit der Auswertung der Anzahl von Fehlern und Betriebsstunden für vorhersehbare Ausfälle hofft das Unternehmen Benutzern Hilfe dabei zu geben, das Unvermeidliche vorherzusehen und sich darauf vorzubereiten.
Bei Power-on hours erreichten die 2.007 untersuchten HDDs einen Wert von 25.233 Stunden also 1.051 Tage oder 2 Jahre und 10 Monate. Das sind deutlich weniger als die 2,5 Millionen Stunden, die man im Datenblatt findet. Allerdings muss dazu berücksichtigt werden, dass ja nur Festplatten untersucht wurden, bei denen tatsächlich ein Fehler aufgetreten ist. Am längsten dauerte das im Durschnitt bei Festplatten von Toshiba (34.799 Stunden) und Maxtor (29,771 Stunden). Am schnellsten traten Fehler bei Hitachi (18.632 Stunden) und Samsung (19.224 Stunden) auf. Western Digital und Seagate lagen im Mittelfeld nahe beieinander (35.667 respektive 23.298 Stunden).
Der Current Pending Sector Count war im Durschnitt bei HDDs von Hitachi (3.348) und Seagate (2.671) am höchsten und bei Samung (529) und Maxtor (228) am niedrigsten. Untersuchte Modelle von Western Digital kamen auf einen Wert von 628, die von Toshiba auf 1.884.
Fokus auf Western Digital und Seagate
Da Western Digital (WD) und Seagate zusammen 2021 fast 80 Prozent aller HDDs auslieferten, untersuchten die Experten auf die Daten von Festplatten von WD und Seagate noch einmal genauer. Modelle der beiden Hersteller kamen auf einen Anteil von etwa 75 Prozent der untersuchten HDDs.
Dabei zeigte sich, dass es auch auf Herstellerebene Abweichungen innerhalb der einzelnen Produktlinien gibt. »Wir haben festgestellt, dass die fünf langlebigsten und widerstandsfähigsten HDDs von jedem Hersteller vor 2015 hergestellt wurden«, erklärt Timothy Burlee von Secure Data Recovery. »Andererseits wurden die meisten der am wenigsten haltbaren und widerstandsfähigsten HDDs von jedem Hersteller nach 2015 hergestellt.« Dafür gebe es ein logische Erklärung: Das Streben nach immer mehr Leistung führe zu schwierigen Designentscheidungen und Kompromissen.
Eine dieser Designentscheidungen sei etwa die Größe. Gerätehersteller gaben da zunächst 3,5, später 2,5 Zoll vor. Die kompakte Anordnung von Lese- und Schreibköpfen und Platten innerhalb des Gehäuses reduziert das Spiel zwischen beweglichen Teilen. Das scheint tendenziell zu häufigerer mechanischer Beschädigung und geringerer Verschleißfestigkeit zu führen.
Andererseits haben Hersteller sich auch stets bemüht, die Speicherkapazitäten zu erhöhen und dazu neue Aufzeichnungstechnologien entwickelt. 2005 war CMR (Conventional Magnetic Recording) ein großer Schritt, weil es höhere Dichten als zuvor genutzte Aufzeichnungsmethoden erlaubte und schließlich 2007 die Markteinführung erster 1-TByte-Festplatten ermöglichte.
2013 lieferte Seagate dann erste HDDs mit SMR (Shingled Magnetic Recording) aus, was in den folgenden Jahren die Speicherkapazitäten auf bis zu 20 TByte hochschraubte. Allerdings ist die Plattenoberfläche einer Festplatte mit SMR aufgrund der überlappenden Spuren komplexer. Dieses komplizierte Design macht die Platten anfälliger. Dazu kommt, dass SMR-Platten entweder Device-Managed, Host-Managed oder Host-Aware sind und Mängel in den Protokollen oder der Software ebenfalls zu Fehlern führen können.
Daher scheinen den Zahlen von Secure Data Recovery zufolge Festplatten mit CMR langlebiger und widerstandsfähiger zu sein als Modelle mit SMR. Und generell scheinen alte Laufwerke langlebiger und widerstandsfähiger zu sein als neue Laufwerke. Angesichts des rasanten Wachstums der Datenvolumen in den Unternehmen, der Kosten für deren Verwaltung und nicht zuletzt den Stromkosten muss man aber wohl diesen Nachteil in Kauf nehmen. Denn alleine mit 15 oder 20 Jahre alten Festplatten dürften sich die Anforderungen kaum noch erfüllen lassen.
Weiterführende Links: