Datenverfügbarkeit: Was bedeuten die Neunen?
Leserfrage: Die meisten Hersteller werben heute mit ich-weiß-nicht wie vielen Neunen an Zuverlässigkeit und Datenverfügbarkeit. Auf was bezieht sich diese »Zuverlässigkeit« genau und welche Informationen kann der »normale« Kunde aus diesen Angaben ziehen?
Antwort Doc Storage:
Ob man nun einige Erfahrung mitbringt oder ganz neu im Geschäft ist – in jedem Fall wird man am Ende vor allem nach der Betriebszeit und damit nach den Verfügbarkeiten der Systeme beurteilt. Somit sind dies die wichtigsten Kennzahlen der EDV, auf die Hersteller, Nutzer und der gesamte Wettbewerb achtet. Aber diese Angaben sind leider vielfach Opfer von Fehlinterpretationen, und das kann schnell ganz gehörig ins Geld gehen. Falsch verstandene Kennzahlen können sehr schnell dazu führen, dass eine Umgebung bestimmte Schwellwerte erfüllt, allerdings bei den anderen Leistungen hinter den Erwartungen der Kunden zurückbleibt.
Der berühmteste Begriff in diesem Zusammenhang sind die »fünf Neunen«. Diese beziehen sich auf eine bestimmte Verfügbarkeit bzw. Betriebszeit im Verhältnis zu Nichtverfügbarkeit oder gar Ausfällen.
Obwohl »Betriebszeit« und »Verfügbarkeit« meist für denselben Begriff verwendet werden, sind hier unterschiedliche Dinge gemeint. Die Betriebszeit ist das Maß für die Zuverlässigkeit von Systemen und wird als Prozentsatz der Zeit ausgedrückt, in der der Rechner oder andere Systeme einsatzbereit waren. Im Gegensatz dazu ist die Verfügbarkeit die Wahrscheinlichkeit, mit der ein System während seines Einsatzzeitraums wie definiert funktioniert.
Die Betriebszeit wird rückwärtsgerichtet betrachtet: Sie zeichnet auf, wie zuverlässig ein System über einen bestimmten Zeitraum war. Der Zeitraum kann variieren, beträgt allerdings in den meisten Fällen ein Jahr. Als Systemverwalter kann man grundsätzlich davon ausgehen, dass diese Betriebszeit ein Hinweis auf die Verfügbarkeit ist. Allerdings ist dies in keinem Fall eine Garantie. Dies ist mitentscheidend bei der Festlegung von Service-Level-Agreements (SLAs) mit einem Anbieter. Die garantierte Betriebszeit ist somit einfach die Bestätigung bereits abgelieferter Leistungen, allerdings keine Zusicherung auf etwas, das in der Zukunft passieren wird.
Ja, die meisten Systemhersteller überbieten sich seit Jahren in den Angaben, wie zuverlässig ihre Produkte sind, und hängen immer mehr Neunen an die »99« dran. Hier erst einmal zur Klarstellung, was welche Zahl bedeutet, basierend auf dem »klassischen IBM-Jahr«, also 365,25 Tagen, gerundet auf ganze Sekunden:
- 99 Prozent: 361 Tage 14 Stunden 20 Minuten 25 Sekunden Betrieb / 3 Tage 15 Stunden 39 Minuten 35 Sekunden Ausfall
- 99,9 Prozent: 364 Tage 21 Stunden 14 Minuten 2 Sekunden Betrieb / 8 Stunden 42 Minuten Ausfall
- 99,99 Prozent: 65 Tage 5 Stunden 7 Minuten 24 Sekunden Betrieb / 52 Minuten 36 Sekunden Ausfall
- 99,999 Prozent: 365 Tage 5 Stunden 54 Minuten 44 Sekunden Betrieb / 5 Minuten 16 Sekunden Ausfall
- 99,9999 Prozent: 365 Tage 5 Stunden 59 Minuten 28 Sekunden Betrieb / 32 Sekunden Ausfall
Und so weiter. Man sieht, dass ab 99,9999 Prozent Verfügbarkeit diese im Bereich von unter einer Minute Ausfall im Jahr liegt, alles darunter also sowieso nur noch ein mathematisches Spielchen ist.
Zuverlässigkeit kann viel bedeuten
Sollte ein Rechner also mit 99 Prozent Verfügbarkeit angeboten werden, liest sich das zunächst einmal nicht so dramatisch. Wenn man allerdings die dort auflaufenden fast 88 Stunden mit dem durch die Nichtverfügbarkeit des Systems auflaufenden Umsatzausfälle multipliziert, werden die Zahlen schnell beeindruckend.
Diese Zahlen gewinnen an Bedeutung, wenn man beispielsweise SLAs bewertet, die bei einem Dienstanbieter unterzeichnen werden sollen. Wie oben zu sehen – je höher die Anzahl der Neunen, desto geringer ist das Risiko von Ausfallzeiten. Die Sicherstellung jedes Verfügbarkeitsniveaus erfordert jedoch immer mehr Ressourcen (Hardware, Software und vor allem Mannschaft), die Kosten hierfür können sehr schnell sehr hoch werden. Schließt man ein SLA mit einer zu niedrigen garantierten Verfügbarkeitsstufe ab, spart man kurzfristig ein wenig Geld, allerdings es könnte dies auf längere Sicht einen erheblichen Betrag kosten.
Antwortfenster ist nicht die Zeit bis zur Problemlösung
Ein anderes Problem ist das des »Antwortfensters« auf eventuell auftretende Störungen. Die Zeitangabe hierzu (gerne vier Stunden oder ähnlich) bedeutet allerdings mitnichten, dass das Problem auch in diesen vier Stunden behoben wird. Es bedeutet lediglich, dass der Dienstanbieter innerhalb dieses Zeitraums mit der Fehlersuche beginnt. Wie lange allerdings dann die Behebung des Problems dauert, wird in den meisten Vereinbarungen nur sehr schwammig festgehalten. Darüber hinaus muss man sich darüber im Klaren sein, dass sich die im SLA zugesagte Verfügbarkeit meist nur auf anlagen-, also Hard- oder Software-bedingte Störungen bezieht. Falls Ausfallzeiten auf menschliches Versagen, langfristig geplante Ausfallzeiten oder wartungsbedingte Probleme zurückzuführen sind, wird deren Behebung meist nicht in einem ein SLA garantiert.
Um die ganze Sache noch ein wenig komplizierter zu machen, halten SLAs vielfach Betriebszeit- und Verfügbarkeitsstatistiken für ein bestimmtes Gerät fest. Sollte allerdings beispielsweise bei einem ISP ein Switch oder andere sekundäre Komponenten ausfallen – welche die Dienstnehmer dann hindern, auf bestimmte Netzwerke zuzugreifen – wird dadurch die SLA-Garantie für diese Netzwerke nicht beeinträchtigt. Aus Sicht des Dienstanbieters ist das Netzwerk weiterhin betriebsbereit, auch wenn es den Dienstnehmern nicht zur Verfügung steht.
Letztendlich sind SLAs also nur dann tatsächlich von Nutzen, wenn sie durchgehend funktionieren. Tun sie das nicht, gibt es in den meisten Fällen keine Konsequenzen für den Anbieter, während der Kunde keine Leistung bekommt. Wenn diese Kunden dann keine Backup- oder Disaster-Recovery-Pläne haben, kann jeder Ausfall beim Anbieter einen riesigen Einfluss auf das gesamte Geschäftsergebnis haben. Die in einem SLA garantierte Pönale deckt selten den tatsächlichen Verlust ab, den eine längere Ausfallzeit mit sich bringt.
Verfügbarkeit durch Lastausgleich
Die beiden grundlegenden Möglichkeiten zum Erreichen möglichst hoher Verfügbarkeit sind Ausrüstung und Personal. Wenn ein System gut aufgebaut ist, enthält es einen Lastausgleich, mit dem die Arbeitslast auf mehrere Rechner mit genügend verfügbarer Rechen- und Transaktionsleistung verteilt wird. Dies fängt jeweils den Einfluss einzelner ausgefallener Komponenten ab. Sollte eine Infrastruktur zum Beispiel aus vier Rechnern mit durchschnittlich 25 Prozent Auslastung bestehen und einer dieser Rechner ausfallen, kann das System die Last automatisch auf die anderen drei verteilen, womit jeder dann unter 33 Prozent Auslastung laufen würde. Hieraus resultiert eine hohe Verfügbarkeit, die eher eine Infrastrukturmaßnahme als ein Prozess ist. Eine solche Infrastruktur mit guter Lastverteilung führt zu hoher Verfügbarkeit.
Incident Response Management (IRM) ist dem gegenüber ein richtlinienbasierter und personalzentrierter Ansatz. Betriebszeit und Verfügbarkeit werden vor allem davon bestimmt, dass genutzte Systeme nicht ausfallen. Allerdings werden sie auch davon beeinflusst, wie schnell reagiert werden kann, falls Komponenten ausfallen sollten. Ein Plan zur Reaktion auf Vorfälle ist hierbei von immanenter Bedeutung. Sollte ein Rechner mitten in der Nacht ausfallen (und kein Rechner tut uns den Gefallen, kurz nach dem Mittagessen die Arbeit einzustellen), möchte man nicht hinterhertelefonieren müssen, wer wofür verantwortlich ist, wenn das System keinen Umsatz mehr generiert.
Anforderungen an den Dienstleister
Hieraus ergeben sich folgende Fragen, die man immer wieder intern und seinem Dienstleister stellen sollte:
- Wer entscheidet darüber, ob ein K-Fall eingetreten ist?
- Wie werden andere Kollegen der Abteilung, das Unternehmen selbst und alle betroffenen Anbieter benachrichtigt?
- Was ist, falls der K-Fall außerhalb der normalen Geschäftszeiten auftritt, wenn sich die benötigten Kollegen also nicht in der Nähe aufhalten?
- Wer entscheidet somit über einen Schwenk auf Ersatzsysteme?
- Wie werden alle benötigten Personen benachrichtigt?
- Gibt es hierfür Prozesse für Telefon, E-Mail oder andere Kontaktaufnahme?
- Was werden die beteiligten Personen tun, falls weiteres Personal um Hilfe gebeten werden muss, um auf einen K-Fall zu reagieren?
Die Verwendung automatisierter Werkzeuge kann den Zeitrahmen, in dem auf ein Ereignis reagiert werden kann, drastisch verkürzen. Obwohl viele teure Lösungen auf dem Markt sind, gibt es auch mehrere kostenfreie Pakete, welche die Grundlagen hierfür abdecken. Sollte es um ein Unternehmen gehen, welches ein absolutes Minimum an Ausfallzeiten erfordert, sollte sichergestellt sein, dass man das dazu geeignete Werkzeug findet. Sollten die Systeme jedoch relativ wenig Auswirkungen auf den Geschäftsbetrieb haben, können kostenlose Pakete durchaus ausreichen.
Die Betriebszeit spiegelt die Leistung in vergangenen Perioden wider und ist damit ein hilfreicher Hinweis auf die mögliche zukünftige Verfügbarkeit – allerdings gibt es auch hierfür keine Garantie. Je genauer sich Wartungsfenster und mögliche logistische Zeitfenster prognostizieren lassen, umso genauer die Prognose möglicher Ausfallzeiten. Vor allem dann, wenn man mit Cloud-Diensten arbeitet. Diese geben ein hervorragendes Beispiel dafür, wie man mit dem oben erwähnten Lastenausgleich eine sehr hohe Verfügbarkeit erreichen kann.
Viele Neunen ersetzen keinen Notfallplan
Als Dienstnehmer sollte man sich bereits vorher genau im Klaren sein, welche Verfügbarkeit vom Dienstanbieter in seinen SLAs festgelegt werden sollen. Hinzu kommen (natürlich) umfassende Plänen und Prozesse zur Reaktion auf K-Fälle. Diese Pläne und Prozesse sollten sich auf die eigene Infrastruktur und diejenige des Dienstanbieters beziehen. Nur so ist sichergestellt, dass jederzeit jeder Beteiligte weiß, was er in einem bestimmten Fall zu tun hat.
Denn nochmal und zum Schluss: die reine Anzahl an »Neunen« sagt überhaupt nichts über die spätere Zuverlässigkeit aus.
Gruß
Doc Storage
PS:
Einige Hersteller versprechen in ihren Broschüren immer noch »100 Prozent«. So etwas gibt es nur in der Phantasie einiger Marketing-Menschen. So lange humanoide Wesen an der Konstruktion und dem Bau solcher Maschinen beteiligt sind, wird es niemals eine hundertprozentige Zuverlässigkeit geben. Punkt, Basta, aus.