Big Data mehr als nur Speichern großer Datenmengen

10.04.2012 eh

Big Data mehr als nur Speichern großer Datenmengen

Noch sind sich die Experten uneins, ob es sich weiterhin nur über einen Hype oder bereits um einen echten Trend handelt. Die Amerikaner sprangen jedenfalls zuerst auf Big Data an – und kreierten auch dieses Schlagwort –,nun schwappt die Welle auch auf Deutschland über. »Allerdings geht es bei Big Data nicht nur um große Datenvolumina, sondern auch um die Echtzeitanalyse der Daten und das Schlussfolgern daraus für bessere Unternehmensentscheidungen«, sagt Robert Guzek, Eternus Business Management Germany bei Fujitsu im ausführlichem Interview mit speicherguide.de.

Big Data – ist das doch mehr als nur ein Hype-Wort für große Datenvolumina?

Robert Guzek

Guzek: Absolut. Anfangs war der Begriff eher als Marketing-Hype belegt, um einfach noch mehr und größere Storage-Systeme zu verkaufen. Denn das hohe Wachstum der Datenvolumina ist ja eigentlich allseits bekannt. Aber wenn man sich längere Zeit genauer damit befasst, erkennt man: Es steckt wesentlich mehr dahinter.

Und was ist Big Data dann nun wirklich aus Ihrer Sicht?

Guzek: Es ist weit mehr als nur die Speicherung großer Datenmengen. Big Data lässt sich aktuell in die zwei großen Themenbereiche untergliedern. Zum einen geht es um die massive Größe von Daten. Also die Möglichkeit, große Mengen von Daten im TByte- bis PByte-Bereich zu bearbeiten und speichern. Und dazu gehört auch das Handhaben der Vielfalt der Datenquellen (strukturierte, semistrukturierte und nichtstrukturierte Daten). Zunehmend wichtiger und anspruchsvoller wird eine Realtime-Verarbeitung und -Nutzung der Daten in Echtzeit, die ständig hochfrequent erzeugt werden.

Dröseln wir das doch noch etwas auf. Was erwarten Sie denn beim Datenwachstum?

Guzek: Das Datenvolumen wird sich bis 2050 kontinuierlich auf 4,4 YByte (Yottabyte) vergrößern, sagen die Marktforscher von Horizon. Dieses bedeutet alle zehn Jahre mindestens eine Vervielfachung um den Faktor 17. Rein rechnerisch hat damit jeder Mensch, bei einer zu erwartenden Weltbevölkerung von neun Milliarden Menschen, 489 TByte an persönlichen Daten.

Was bedeutet das für die Speicherverwaltung?

Guzek: Speicherinfrastrukturen müssen daher zunehmend flexibler gestaltet werden und sich schneller auf wandelnde Anforderungen einstellen können. Wir bieten Funktionalitäten wie »Data in Place« (Skalierung in Kapazität und Performance vom Entry- bis in ein Highend-System) werden zunehmend erforderlich. Wichtig sind ein optimiertes GUI, bzw. Verwaltungs-Software wie unsere »Storage Foundation«. Gerade diese müssen den steigenden Anforderungen an die Systeme standhalten und zusätzlich noch einfach bedienbar sein.

Lässt sich heute schon abschätzen, was das für die Storage-Systeme bedeutet?

Guzek: Ganz wichtig: Speichersysteme sollten einen guten Migrationspfad aufzeigen. Da immer mehr Anwendungen überlebenswichtig für Unternehmen sind, müssen Daten immer schneller wiederhergestellt und Datenverluste weitgehend vermieden werden. Auch die Anwendungsverfügbarkeit ist zunehmend unverzichtbar. Die Einhaltung von Service-Level-Agreements (SLAs) stellt für immer mehr Unternehmen eine Herausforderung dar.

Hört sich einfach an. Gibt es schon Unternehmen, die sich dementsprechend ausrichten?

Robert Guzek

Guzek: Aber sicher. Viele Unternehmen sind derzeit bestrebt, von Insellösungen wegzukommen und den Datenschutz zu konsolidieren und zu zentralisieren, um die Kosten für den Datenschutz zu verringern. Dadurch können das Datenmanagement und die Implementierung unterschiedlicher SLAs einfach und kosteneffizient gestaltet werden. Auch räumliche Gegebenheiten wie Stromversorgung und Kühlmöglichkeiten beschränken bislang die Optionen für die Datenschutzinfrastruktur. Viele Unternehmen haben es bereits erkannt und suchen derzeit nach dem richtigen Mix aus Speichermedien und Speichergeräten. Obwohl höhere Anforderungen an den Datenschutz gestellt werden, sind viele Unternehmen nicht zu Mehrausgaben bereit, sondern setzen auf eine effizientere Implementierung. Wir bieten als Storage-Systeme-Hersteller eine umfangreiche Expertise und stellen mit »Flexible Data Management« (Online Storage) und »Efficient Data Protection« zur Verfügung. »Efficient Data Use« gewinnt zunehmend an Bedeutung, da eine ganzheitliche Betrachtung von Daten weiter in den Vordergrund rückt.

Ganzheitliche Betrachtung von Daten – das wäre dann doch der Big-Data-Ansatz?

Guzek: Ja, wir befassen uns bereits langfristig mit einem ganzheitlichen Ansatz für Daten, der bei den Endgeräten PCs, Notebooks und Mobile beginnt, über die Server und den dazugehörigen Netzwerken in Storage übergeht. Im Vordergrund steht dabei immer die Information, die es gilt zu transportieren, zu verarbeiten oder abzulegen. Also – vereinfacht gesagt – die bestmögliche Nutzung der Information.

Welchen Bezug besitzt Datenklassifizierung für Big Data?

Guzek: Datenklassifizierung ist nicht neu, aber sie wird künftig wesentlich mehr Einfluss auf Firmenentscheidungen nehmen als bisher. Denn aktuell werden Daten, wenn überhaupt, vor allem aus internen Beständen klassifiziert und stammen also meistens aus Enterprise-Applikationen. Aber jetzt geht es um die übergreifende Bewertung von Daten aus vielen Applikationen. Früher erledigten das CRM-Applikationen. Aber zukünftig werden hier auch Daten aus Web-Applikationen mit einfließen, verknüpft, und zu neuen und schnelleren Unternehmensentscheidungen führen.

Generiert Big Data dann somit neue Informationsmarktplätze?

Guzek: Den Trend hin zu Informationsmarktplätzen gibt es tatsächlich. Er ist zwar auch nicht ganz neu. Aber durch das neuartige Verknüpfen von Datenbeständen in Echtzeit erhalten diese Informationsmarktplätze eine neue Qualität.

Wenn Sie sagen, dass Daten aus Enterprise-Applikationen nun mit den Daten aus Web-Applikationen verknüpft werden, dann heißt das doch, die immense Datenflut von Social-Media-Websites wie Facebook oder Twitter mit einzubeziehen?

Guzek: Ja. Interessant zu bemerken ist dabei, dass Firmen, die sich schon heute mit Big Data konfrontiert sehen, folgende Bereiche aktiv nutzen oder nutzen wollen: Transaktionsdaten von Enterprise-Applikationen, Sensor/Maschine/Device-Daten, unstrukturierte Daten aus E-Mail und Office-Dokumenten, Clickstreams, Image-Dateien (also große Video/Foto-Daten) und wissenschaftliche/genomische Daten. Neu in den Blickwinkel der Unternehmen geraten jetzt vor allem Social-Media-Daten aus dem Internet wie zum Beispiel von Facebook und Twitter. Hier liegen die wahren Schätze, die es zu heben gilt. In den Unternehmen profitieren Marketing, Vertrieb, Risk-Management, Finance, das Produkt-Development und der Kundenservice von der Datenklassifizierung. Unternehmen, die rechtzeitig die Möglichkeiten erkennen und sich diesen Vorsprung zu eigen machen, werden künftig sehr gut auf dem Markt positioniert sein. Die Handhabung der Datenvielfalt ist ein wichtiger Aspekt von Big Data.

Um das zu verdeutlichen – machen Sie doch mal ein paar Realtime-Beispiele.

Guzek: Daten werden generiert durch Klicks aus dem Netz, wie bei Facebook oder Google. Diese Klicks aufzuzeichnen, abzuspeichern und zu bewerten, ist bereits heute eine anspruchsvolle Aufgabe. Aber jetzt gibt es noch sensorbasierte Technologien, welche Realtime-Daten produzieren. Diese Technologien bilden die Grundlage für sensorbasierte Netzwerke, die durch den Einsatz mehrerer Sensoren entstehen und automatisiert den Zustand zum Beispiel von Menschen und Gegenständen oder klimatische Bedingungen erfassen. Die über die Sensoren gewonnenen Daten werden dann über das Netzwerk übermittelt, um daraufhin je nach Situation angemessene Reaktionen auszulösen. Solche Sensoren sind zum Beispiel: Temperaturfühler, Überwachungskameras, Rauchmelder, Regenmesser, Infrarot-Sensoren, Fingerabdruck-Scanner, Thermometer, GPS, Blickwinkel-Sensoren, Beleuchtungsmesser, Feuchtigkeitsmesser und Tachometer. Jedes Smartphone sondert ständig GPS-Daten ab. Moderne Autos bieten sich gerade prädestiniert als Datenquelle an.

Und wie lassen sich diese vielen Daten aus Sensoren vernünftig verknüpfen?

Guzek: Dass das keine Zukunftsmusik mehr ist, zeigen Beispiele aus Japan. In Japan ist die Sensortechnik bereits weit verbreitet, so sind wir bereits in einer Landwirtschafts-Cloud aktiv. Ein weiteres Anwendungsszenario bietet das Verkehrswesen. Auch hier sind wir aktiv. In den kommenden Jahren werden von Sensoren generierte Daten drastisch zunehmen, denn wir stehen erst am Anfang einer neuen Entwicklung, die viele Bereiche unseres täglichen Lebens betreffen wird. All diese Daten müssen zukünftig über Netze übertragen und bewertet werden – Realtime ist somit ein wesentlicher Aspekt im Zusammenhang mit Big Data. Und hierzu lassen sich künftig jede Menge neuer Geschäftsmodelle aufsetzen.

Welche IT-Bereiche – außer dem Storage-Segment – wird Big Data noch beeinflussen?

Guzek: Wesentlich den BI-Bereich, also Business-Intelligence. Und wer sich als Unternehmen mit Big Data befasst, wird wohl nicht um die Open-Source-Lösung »Hadoop« herumkommen. Hadoop selbst ist ein Framework, das derzeit unter anderem von Firmen wie AOL, Baidu, Facebook, IBM, Imageshack oder Yahoo genutzt wird, um Berechnungen auf Computer-Clustern für sehr große Datenmengen durchzuführen. Das in Java geschriebene Hadoop wurde unter dem Dach der Apache Software Foundation entwickelt. Das Framework basiert auf dem bekannten Map-Reduce-Algorithmus von Google sowie auf Vorschlägen des Google-Dateisystems. Es ermöglicht intensive Rechenprozesse mit Big-Data-Datenmengen im PByte-Bereich auf Computer-Clustern durchzuführen.

Weiterführende Links