Anzeige

Relevanz und Bedeutung von Big Data nimmt zu

Ging es bisher bei »großen« Datenbanken noch um TByte, so erstrecken sich diese heute bereits über PByte. Mit Standardwerkzeugen lassen sich die Informationsmengen nicht mehr in sinnvoller Zeit ordnen bzw. auswerten. Bald sehen wir die ersten Datenbanken in EByte-Größe, vor allem im Bereich der Finanztransaktionen, vielen Wissenschaftsbereichen und der Kernphysik.

Der Horizont der Daten (Bild: Varonis/Fotalia)
Der Horizont der Daten (Bild: Varonis/Fotalia)
Auch die zunehmend detaillierte Erfassung und immer längerfristige Speicherung von Verbindungsdaten, Webinhalten, Videoüberwachung und anderen Sensoren bläht die gespeicherten Datenmengen immer weiter auf. Einige Quellen schätzen, dass sich die Menge der gespeicherten Daten alle zwei bis drei Jahre schier verdoppeln wird. Dieses Phänomen wird heute allgemein als »Big Data« bezeichnet. Zur Bewältigung, Verarbeitung und Analyse dieser Mengen sind traditionelle relationale Datenbanksysteme nicht mehr geeignet.

Der Data-Governance-Spezialist Varonis Systems hat letztes Jahr ein Whitepaper mit dem Titel »Mastering the Information Explosion« herausgegeben, in dem untersucht wird, wie schnell Informationsmengen wachsen, wie sich das Tempo beim Zusammenarbeiten beschleunigt und wie manuelle Methoden, Daten zu verwalten und zu schützen, unzureichend sind. Das Unternehmen erklärte, dass es für ein effektives Datenhandling nötig sei, sich die Bedeutung von Metadaten durch intelligente Automatisierung zunutze zu machen.

Trend zur von Daten getriebenen Organisation

Zwölf Monate später dürfte es kaum überraschen, dass Industrieexperten jetzt sagen, dass die gleiche Art von Automatisierung für mehr als nur gutes Handling und Management nötig ist. »Um sich die Macht der ‚Big Data’ zunutze zu machen«, meint David Gibson, Director of Strategic Accounts and Technical Marketing bei Varonis, »müssen Organisationen Analysen durchführen und Aktivitätsmuster herausfinden, wie und wann diese massiven Datenmengen benutzt werden, wer sie verwendet, in welcher Reihenfolge, und was sie beinhalten, um effektiv eine von Daten getriebene Organisation sicherzustellen.«

In »Big Data is Only the Beginning« stellen die Analysten von Gartner fest: »Extreme Herausforderungen bei der Informationsverwaltung werden die Schwierigkeiten beim Informationsaustausch verschärfen und die Forderung nach einer übergreifenden Metadatenverwaltung in Unternehmen schüren.«

Was bedeutet es, sich die Bedeutung der Datenflut zunutze zu machen?

Wichtig: Identifizieren von sensitiven Daten (Bild: Varonis)
Wichtig: Identifizieren von sensitiven Daten (Bild: Varonis)
Die Analytik großer Datenbestände hat bereits ganze Industrien auf den Kopf gestellt. Zum Beispiel hat das »High Frequency Trading« (HFT), oder Hochfrequenzhandel, die Investitionsdynamik von Institutionen wie Hedge-Fonds völlig verändert. Im HFT werden Handelstransaktionen innerhalb von Mikrosekunden auf der Grundlage riesiger Informationsmengen, die innerhalb von Sekunden nach ihrem Eintreffen verarbeitet werden, durchgeführt.

Inzwischen laufen um die 70 Prozent aller Handelsaktivitäten als HFT ab, der jetzt für viele Firmen von entscheidender Bedeutung ist. Es wird bereits über Erkenntnisse von SEC und CFTC diskutiert, ob und was HFT während des so genannten »Flash Crash« am 6. Mai 2010 zur Volatilität beigetragen habe. »Unabhängig davon, ob hier ein Zusammenhang besteht, macht es Sinn zu bedenken, dass Analysen großer Datenmengen, wenn man sie in falscher Weise benutzt, zu einer Welle von schnell getroffenen falschen Entscheidungen führen können«, betont Gibson. (Der Flash-Crash hat übrigens den britischen Bestseller-Autor Robert Harris zum dem Thriller »Angst« inspieriert, der kürzlich herauskam.)

Trend zur von Daten getriebenen Organisation

Eine kurze Internetsuche bezüglich »Big Data Analysis« ergibt fast drei Millionen Resultate mit Links auf Artikel, die ihren potenziellen und gegenwärtigen Erfolg auf vielen Gebieten und Ebenen diskutieren – von Astrophysik über Gesundheitswesen, Finanzen, Öffentliche Ordnung bis hin zum Einzelhandel.

Unter Führungskräften ist viel Begeisterung und eine gewisse Dringlichkeit zu verspüren, die Wettbewerbsfähigkeit ihrer Organisationen sicherzustellen: In Gartners »Executive Advisory: CEO and Senior Executive Survey, 2011; Detail Report« wurde »datenbasierte Entscheidungsfindung« von leitenden Mitarbeitern als der Beitrag der Technologie angesehen, der dem Unternehmen den größten strategischen Wert bringt.

Analyse von großen Datenbeständen und strukturierte Daten

Die Analytik großer Datenbestände hat sich bisher meist auf gespeicherte Informationen konzentriert, für die es viele Metadaten zu analysieren gibt. Hierzu gehören beispielsweise Websites mit ausgedehnten Protokollaktivitäten und strukturierte Datensammlungen (Datenbanken), wo Transaktionen leicht aufzuzeichnen und zu analysieren sind. In Situationen, in denen Metadaten verfügbar sind, betrifft die Herausforderung in erster Linie Volumen und Technik – wie man große Informationsmengen schnell genug verarbeitet und effektiv analysiert, um Annahmen zu überprüfen, Fragen schnell zu beantworten, Veränderungen zu erkennen und Muster zu verstehen.

Gartner führt jedoch aus, dass »Geschäftsleute und Technologen feststellen, dass ein noch größerer potenzieller Wert darin liegt, andere Arten von Daten auszuwerten, solche, die es im Unternehmen momentan gibt, und einige neue Arten von Daten. Viele Organisationen haben Daten über Jahre aufbewahrt und niemals versucht, sie zu analysieren oder nach Mustern zu suchen, einfach weil das Verlangen in der Geschäftswelt danach nicht vorhanden war.«

80 Prozent organisatorischer Daten liegen in unstrukturierten Datensammlungen

Ungewöhnliche Datenaktivitäten gilt es rechtzeitig zu entdecken (Bild: Varonis)
Ungewöhnliche Datenaktivitäten gilt es rechtzeitig zu entdecken (Bild: Varonis)
Beispiele für solche Daten sind Tabellen, Präsentationen, Bilder, Audiodateien, Videodateien, Entwürfe und Zeichnungen. »Solche Daten«, erläutert Gibson, »liegen meist in unstrukturierten Datensammlungen wie Datenaustauscheinrichtungen.« Und in diesen unstrukturierten Datenlagern gibt es oft nicht viele Metadaten zu analysieren.

Denn gewöhnlich werden keine Aktivitäten aufgezeichnet, es gibt keine eindeutige Verbindung zu den Urhebern und Eigentümern der Daten und kein Verzeichnis darüber, was in den Daten enthalten ist. »Ironischerweise verhält es sich tatsächlich so mit den meisten (und größten) Datenbeständen«, gibt Gibson Einblick in seine Praxis. »Verschiedene Untersuchungen zeigen, dass über 80 Prozent organisatorischer Daten in unstrukturierten Datensammlungen liegen.«

Big Metadata – unstrukturierte Daten für die Analyse großer Datenmengen instrumentalisieren

In ihrem Report »Mastering the Information Explosion« vergleicht Varonis die digitale Revolution mit der Transportrevolution. So wie man bei mehr Autos und Flugzeugen mehr Ampeln und Luftfahrtkontrollen benötigte, bräuchte man auch bei mehr Datenbeständen und -verflechtung automatisierte Kontrollen, um sicherzustellen, dass Daten korrekt zugänglich sind und korrekt verwendet werden.

»Ohne automatisierte Kontrollen«, argumentiert Gibson, »hat es sich für Organisationen als unmöglich erwiesen, Dateneigentümer zu identifizieren und ihre Aktivitäten aufzuzeichnen, Berechtigungen zu überprüfen, um Rechte zu verwalten und das Prinzip der geringsten Rechte anzuwenden, den Datenzugang zu kontrollieren, Missbrauch zu erkennen und veraltete Daten zu identifizieren. Automatisierte Datenhandlingkontrollen würden jetzt wie Verkehrsampeln in einer großen Stadt funktionieren – wenn man sie ausschaltet, muss jeder sehr langsam fahren, oder es kommt zu Zusammenstößen.

Autos funken neuerdings ständig Echtzeit-GPS-Daten

Die Parallele geht noch weiter: Die Bewegungen von Kraftfahrzeugen und Flugzeugen werden maßstabsgetreu aufgezeichnet und analysiert. So können wir unsere Autos mit Echtzeit-GPS steuern, Gesetzeshüter können Raser durch einen Blick auf automatisierte Mautaufzeichnungen schnappen, und die Flugverkehrsleitung kann den Luftraum besser nutzen. Die Fahrzeuge selbst sind besser ausgeklügelt, sie liefern mehr Informationen über den Zustand eines jeden ihrer Teile und über ihren Gesamtzustand, so dass Sicherheit und Effizienz zunehmen.

In »Pattern-Based Strategy: Getting Value From Big Data« schreibt Gartner: »Unternehmensleiter räumen der Technologie hohe Priorität ein, wenn es darum geht, der Organisation wichtige Daten zu liefern, so dass bessere Entscheidungen auf der Grundlage von Tatsachen anstatt aufgrund von Vermutungen getroffen werden können.«

Dringend erforderlich: Metadatentechnologie und Metadatenintelligenz für Organisationen

So wie jetzt eine Metadatentechnologie für Organisationen nötig ist, um Daten, die in unstrukturierten und halb strukturierten Datensammlungen liegen, zu verwalten, werden Organisationen auch sehen, dass die Analyse von Metadaten unbedingt notwendig ist. »Nur so ist es möglich«, betont Gibson, »den maximalen Nutzen aus den Daten zu ziehen, ihren Wert einzuschätzen, Datensätze zu identifizieren, eine Verbindung zu Nutzern, Projekten und Eigentümern herzustellen, nachzuvollziehen, wie und wann diese ihre Daten nutzen, wo sie gespeichert sein sollten und wie man sie nutzen kann, um effektiver zusammenzuarbeiten.«

Diese Metadatenintelligenz und dieser Informationsnutzen werden nach Meinung von Gibson verwendet werden, um Geschäftsvorgänge in viele Richtungen voranzutreiben, wie etwa Arbeitsabläufe zu verbessern, verschiedenartige Teams zusammenzuschalten, und neue Aktivitätsmuster zu entdecken.

Fazit laut Gibson: »Die gute Nachricht ist, dass Organisationen nicht ihre Datenspeicherplattformen oder ihre Arbeitsabläufe umstellen müssen, um sich diese Intelligenz zunutze zu machen. Sie müssen aber die bestehenden Datenspeicher, die sie bereits nutzen, instrumentalisieren und die Metadatentechnologie benutzen, um diese Metadaten zu normalisieren, zusammenzuschließen und zu analysieren.«

.
Anzeige