Kann MTBF dabei helfen Festplatten-Ausfälle vorherzusagen?

Donnerstag, 11. Juni 2015 von Michael Nuncic

Hier bei Ontrack sind wir uns seit jeher bewusst, dass ein Datenverlust faktisch jeden treffen kann. Für viele kommt er unter dem Begriff und der Anzeige eines „Hard Disk Drive (HDD) Failure“ daher – ein Sammelbegriff für unterschiedliche mechanische und elektronische Defekte, die dazu führen, dass die Informationen auf dem Speicher nicht mehr ausgelesen werden können. Es gibt Dutzende von möglichen Ursachen für eine Störung, die von logischen Softwarefehlern bis hin zu physischen Schäden und Überhitzung reichen. Nicht zu vergessen natürlich die Tatsache, dass auch Festplatten stets eine begrenzte Lebensdauer haben.

Meine Festplatte macht Geräusche

Vielleicht sind Sie bereits mit einigen der verräterischen Anzeichen vertraut, die darauf hindeuten, dass die Festplatte in den letzten Zügen liegt. Seltsame Geräusche beispielsweise, wenn Ihre Festplatte vom normalen Surren und Klicken zum Schleifen und Knacken übergeht. Hier kann man fast schon eine Wette darauf eingehen, dass die Platte bald ihren Geist aufgibt. Wenn dann noch langsame Zugriffszeiten, häufige Abstürze und abnormales Verhalten – wie beschädigte Daten und verschwindende Dateien hinzukommen – hat man eigentlich schon fast die zuverlässigsten Indikatoren für einen nahenden Festplattenausfall (Hard Disk Failure) zusammen.

Leider kann man diese Warnsignale nicht gerade als wissenschaftliche Messdaten bezeichnen mit denen man eine Festplattenfehlfunktion erkennen kann. Und während es eine Sache ist, zuhause Geräusche aus dem Laptop oder dem Desktop-Computer zu erkennen, ist es eine andere Sache die gleiche Methode bei einem redundanten Verbund unabhängiger Festplatten (RAID) in einem weit entfernten Datenzentrum anzuwenden.

Wie lang ist die Lebensdauer einer Festplatte?

Wie können nun Heimnutzer und Geschäftsanwender gleichermaßen vorhersagen, wann eine Festplatte ausfallen wird? Nun, der erste Ansatzpunkt könnte sein, die Herstellerangaben über die prognostizierte Lebensdauer eines Speichermediums zu prüfen. Normalerweise wird das in Form eines sogenannten „Mean Time Between Failure“ (Mittlere Betriebsdauer zwischen Ausfällen/MTBF) Wertes angeboten.

Allerdings, so verbreitet dieser Wert auch ist, man muss dabei bedenken, dass diese Zahlen nicht wirklich beruhigen können oder so transparent sind, wie sie auf den ersten Blick erscheinen mögen.

Was bedeutet „mittlere Betriebsdauer zwischen Ausfällen“?

In der Theorie ist der MTBF-Wert ziemlich genau das wonach er klingt – die durchschnittliche Zeit zwischen einem inhärenten Ausfall und dem nächsten Defekt bei einer einzelnen Komponente. Das bedeutet, dass der MTBF-Wert die Anzahl der Stunden einer Maschine oder Komponente angibt, in der es nach einem (ersten) Ausfall und anschließender Reparatur wieder normal funktioniert, bevor sie erneut ausfällt.

Bei Consumer-Festplatten ist es nicht unüblich MTBF-Werte von rund 300.000 Stunden zu lesen. Das sind umgerechnet 12.500 Tage oder etwas mehr als 34 Jahre fehlerfreier Betrieb. HDDs der Enterprise-Klasse werben sogar mit MTBFs von bis zu 1,5 Millionen Stunden, also circa 175 Jahren. Das sind wirklich beeindruckende Zahlen!

Allerdings liegt es auf der Hand, dass diese Angaben zutiefst irreführend sind und sie weit entfernt von den realen Erwartungen an eine Festplatte in Bezug auf Langlebigkeit und Zuverlässigkeit sind. Das hat nichts damit zu tun, dass ein Problem mit MTBF an sich vorliegt. Ganz im Gegenteil hat diese Methodik eine lange Geschichte in der Militär- und Luftfahrttechnik hinter sich, bevor es zu einem Marketing-Buzzwort in der Computerindustrie geworden ist.

Aber realistisch gesehen hat wohl kein Festplattenhersteller seine Enterprise-Drives seit Mitte des 18. Jahrhunderts im Dauer-Prüfbetrieb laufen. Stattdessen werden die Zahlen anhand der Fehlerraten aus einer statistisch relevanten Anzahl von Laufwerken ermittelt, die wochen- oder monatelang gleichzeitig laufen. Und bieten dadurch eben nicht die durchschnittliche Lebenserwartung eines Gerätes aus dem gesamten getesteten Festplattenfeld.

Mehr Ausfälle als statistisch angenommen

Entsprechende Studien haben gezeigt, dass die MTBF-Werte der Hersteller in der Regel viel niedrigere Ausfallraten versprechen, als sie im praktischen Einsatz tatsächlich vorkommen. Im Jahre 2007 untersuchten Forscher der Carnegie Mellon Universität in einer Stichprobe 100.000 HDDs und den von den Herstellern für diese Platten angegebenen MTBF-Bereich von einer bis Million anderthalb Millionen ausfallsicheren Betriebsstunden. Diese prognostizierten Zahlen entsprechen einer durchschnittlichen jährlichen Ausfallrate (Average Failure Rate/AFR) von rund 0,88 %. Die Studie ergab dagegen das die AFRs der getesteten Platten „ in der Regel 1 Prozent übersteigen“, wobei die meisten eine Rate zwischen 2 und 4 Prozent aufwiesen und bei manchen Systemen sogar Ausfallraten von bis zu 13 Prozent zu beobachten waren“.

Gleichzeitig von Google durchgeführte Forschungen kamen zu ähnlichen Ergebnissen: Von einer Auswahl an 100.000 Festplatten mit einem 300.000-Stunden-MTBF (eine Ausfallrate/AFR von 2,92 %), waren die realen Werte mit mehr als 8,8 Prozent im dritten Jahr des Festplatten- Einsatzes ernüchternd.

Dabei ist zu beachten, dass die Hersteller nicht um zu beruhigen einfach ein Auge zudrücken bei dieser Diskrepanz zwischen ihren eigenen Angaben und den real-gemessenen Zahlen. Seagate und Western Digital haben beispielweise die Verwendung der Festplatten-Maßeinheit in den letzten Jahren schrittweise auslaufen lassen.

Wenn es also offensichtlich ist, dass es sich bei dem MTBF-Wert um einen ziemlich unzuverlässigen Indikator für die Gesundheit einer Festplatte handelt, wie kann man dann dennoch das Ende der Lebensdauer eines Speichergeräts zuverlässig vorhersagen

Ontrack Datenrettungsblog

Das sagen unsere Kunden: