Maschinelles Lernen verhindern Anwendungsausfälle
Stehen wichtige Daten oder geschäftskritische Anwendungen nicht zur Verfügung, werden meistens der Admin oder die Speicher beschuldigt. Nimble Storage aber hat die wahren Schuldigen ausfindig gemacht. Die Ergebnisse der Studie belegen, dass nicht immer das Storage-System, sondern ganz andere Bereiche der IT-Infrastruktur für die verzögerte Verfügbarkeit verantwortlich sein können.
von Klaus Kupfer, Nimble Storage
Fehlerquellen für ungeplante Ausfallzeiten (Grafik: Nimble)Die Sensordaten wurden über das cloudbasierte InfoSight-Portal, dem integrierten Managementsystem der Datenspeicher von Nimble Storage, erfasst. Inzwischen kommen von den weltweit im Einsatz befindlichen Systemen mehr Daten zusammen, als es Sterne im Universum gibt. Diese Daten werden von automatisierten Systemen, aber auch von Datenwissenschaftlern bei Nimble Storage ausgewertet. Diese Art der Früherkennung führt dazu, dass mehr als 90 Prozent der Supportfälle automatisch gestartet werden und Lösungen für über 80 Prozent ebenso automatisch generiert werden. Im Ergebnis bedarf es keinem First Level oder Second Level Support. Stattdessen leitet Nimble Storage die wenigen Anfragen sofort zum Third Level Support, also direkt zu einem der 300 Ingenieure, um. Im Zeitraum von zweieinhalb Monaten wurden so 12.000 anonymisierte Fälle von 7.500 Kunden weltweit analysiert, um aus diesen Daten Rückschlüsse ziehen zu können auf die Auslöser von Anwendungsausfällen und der Verzögerung der Bereitstellung von Anwendungen, dem sogenannten »App-Data-Gap«.
Storage zu Unrecht am Pranger
Die Auswertung des ausgewählten Datensatzes ergab, dass nur in 46 Prozent der Fälle wirklich das Storage-System der Grund für den Ausfall war. Die Mehrzahl, genauer gesagt 54 Prozent der Ausfälle, resultierten aus Fehlern bei der Konfiguration, Interoperabilität zwischen Systemen sowie fehlenden bewährten Verfahren und Erfahrungswerten (Best Practices). Des Weiteren hingen Fehlerquellen mit Host, Compute und virtuellen Maschinen (VM) zusammen. Die folgende Graphik gibt Aufschluss über die verschiedenen Fehlerquellen und wie die Verteilung im Einzelnen aussieht.
Abbildung 1 zeigt die häufigsten Fehlerquellen im Detail auf, die nicht mit dem Storage zusammenhängen. Probleme in Bezug auf die Konfiguration waren zu 28 Prozent die Ursache. 11 Prozent entstanden durch mangelnde Interoperabilität, 8 Prozent sind fehlenden Best Practises geschuldet und 7 Prozent lassen sich auf Host, Compute oder aber Problemen mit den VMs zurückführen.
Komplexität durch viele Komponenten und Interoperabilität
Die Ursache eines Ausfalls von Anwendungen oder aber einer verzögerten Bereitstellung kann also vielerlei Gründe haben. Rechenzentren bestehen aus verschiedenen Hardware- und Software-Ebenen. Aus Netzwerken, Servern, Speichersystemen, Hypervisors, Betriebssystemen und Anwendungen. Diese Teilbereiche agieren zusammen, stammen aber zumeist von unterschiedlichsten Herstellern und Anbietern. Optimale Grundbedingungen für reibungslose Abläufe sehen anders aus. Zwar sind alle Systeme darauf ausgelegt, ineinander zu greifen, jedoch führt ihre Anzahl und ihre Interaktion miteinander zu großer Komplexität. Erschwerend tritt hinzu, dass die Performance jeder einzelnen Anwendung von der langsamsten Komponente und deren Interaktion mit anderen Komponenten abhängt.
Schneller und schneller hilft nicht immer
Daraus lässt sich ableiten, dass der bisherige vielfach angewendete Lösungsansatz beim App-Data-Gap, einfach einen schnelleren Storage, oftmals Flash-Storage, anzuschaffen, ad absurdum führt. Diese Investitionen können sich aber als fruchtlos erweisen, wenn die Problemursache nicht richtig analysiert wird. Denn ein lediglich schnellerer Speicher wird nicht zwingend zu einer schnelleren Verfügbarkeit von Anwendungen führen. Besonders bei Anwendern aus der Geschäftsführungsebene kann das leicht zu Frustration führen, wenn sie ihren Segen für die Anschaffung eines schnelleren Systems gegeben haben, aber das Problem trotz allem nicht behoben werden konnte.
Punktanalysen greifen zu kurz
Einige Anbieter versuchen, diese Probleme mit Hilfe von Punktlösungen zu berichtigen. Hier werden Daten aus bestimmten Systemen erhoben, um Rückschlüsse auf Performance- und Kapazitätsbedarf ziehen zu können. Diese Punktanalyse reicht jedoch nicht tief genug und wird wichtige Ursachen übergehen. Stattdessen sollten lieber umfassende Predictive Analytics-Verfahren durchgeführt werden, um Daten aus der gesamten Infrastruktur auswerten zu können. Nur dann kann festgestellt werden, welche Bereiche konkret betroffen sind.
Maschinelles Lernen als Lösungsansatz
Big Data-Analyse Tools wie das von Nimble Storage angebotene InfoSight Managementsystem in Verbindung mit Predictive Analytics-Verfahren für die Auswertung von Sensoren-Daten über die gesamte IT-Infrastruktur hinweg bieten gemeinsam mit maschinellem Lernen eine mögliche Lösung. Folgende Voraussetzungen sollten erfüllt sein:
- Vorhersage von Ausfällen für die gesamte Infrastruktur
- Automatisches Vermeiden von Ausfällen durch maschinelles Lernen
- Empfehlungen zur Problembehebung bei Fällen, die nicht automatisiert gelöst werden können
- Schnelle Ursachenanalyse, für den Fall, dass auch automatische Empfehlungen nicht weiterhelfen
- Komponentenübergreifende Analysen, um Fehlalarme zu vermeiden
- Analysegestützter technischer Support macht den First und Second Level Support unnötig, denn Dokumentation und Datenerfassung finden bereits automatisiert statt
Fazit: Predictive Analytics schließt das App-Data-Gap
Die frühzeitige Erkennung von möglichen Performance-Problemen verhindert oftmals, dass wichtige Anwendungen zu lange Ladezeiten aufweisen, und steigern dadurch die Effizienz täglicher Unternehmensprozesse. Mit der Kombination von Data Science und maschinellem Lernen in einer Predictive-Analytics-Lösung lässt sich der App-Data-Gap schließen. IT-Abteilungen erhalten mit den automatisierten Auswertungen die Möglichkeit, von einer passiven in eine aktive Rolle zu schlüpfen.
Die gezielten Vorhersage-Funktionen ermöglichen eine langfristig strategischere Planung und Entwicklung der IT-Infrastruktur. Zudem geben sie den Verantwortlichen Argumente in die Hand, mit denen diese über Budget-Entscheidungen auf Augenhöhe verhandeln können. Sie sind nicht mehr ein reiner Kostenfaktor, sondern ein Partner, der Empfehlungen für Produktivitätssteigerungen des gesamten Unternehmens abgeben kann. Konzerne profitieren von schnellerer Verfügbarkeit der Anwendungen, von zufriedeneren Mitarbeitern und gewinnen einen Vorteil gegenüber ihren Marktbegleitern.
Nimble Storage
Kurze Mühren 1, 20095 Hamburg
Tel.: +49 40/32 901 310
E-Mail: emea-sales@nimblestorage.com