Was ist unter Big Data zu verstehen?
Leserfrage: In den Marketing-Aktivitäten der Storage-Hersteller wird zunehmend der Begriff Big Data verwendet. Letztendlich geht es wohl um das Handling großer Datenmengen. Aber ist das nicht eher ein Analysethema? Was hat Big Data mit Storage zu tun, worauf gilt es bei der Speicherung zu achten? Was muss ein Speichersystem oder Storage-Strategie können, um für Big Data gerüstet zu sein?
Antwort Doc Storage:
Die Mengen von Informationen vor allem in Datenbanken nehmen momentan in einem Maße zu, dass sie nicht mehr mit Standardwerkzeugen in sinnvoller Zeit geordnet, geschweige denn ausgewertet werden können. Sprachen wir vor nicht allzu langer Zeit noch über TBytes bei »großen« Datenbanken, so erstrecken sich diese heute bereits über PBytes. Bald werden wir die ersten Datenbanken in EByte-Größe sehen, vor allem im Bereich der Finanztransaktionen, vielen Wissenschaftsbereichen und der Kernphysik. Auch die zunehmend detaillierte Erfassung und immer längerfristige Speicherung von Verbindungsdaten, Webinhalten, Videoüberwachung und anderen Sensoren bläht die gespeicherten Datenmengen immer weiter auf. Einige Quellen schätzen, dass sich die Menge der gespeicherten Daten alle zwei bis drei Jahre schier verdoppeln wird.
Dieses Phänomen wird heute allgemein als »Big Data« bezeichnet. Zur Bewältigung, Verarbeitung und Analyse dieser Mengen sind traditionelle relationale Datenbanksysteme nicht mehr geeignet. In der Entwicklung befindliche neue Umgebungen auf hunderten bis tausenden Prozessoren sind allerdings noch im Frühstadium der Entwicklung. Die Open-Source-Bewegung verfolgt mit Hadoop einen Ansatz, während Produkte wie Aster Data und EMC Greenplum im kommerziellen Umfeld zu finden sind.
Größter Kritikpunkt bei Big Data ist die ungezügelte Sammelwut von Daten. Während noch vor fünf bis zehn Jahren eine genaue Vorauswahl von zu speichernden Informationen stattfand, wird heute ohne Einschränkung jegliches Datum gespeichert, dessen man habhaft werden kann. Allerdings hat dies kaum eine bessere Datenqualität zur Folge, die Frage nach der Quelle und damit nach der Art der Erfassung wird in den Hintergrund gestellt. Ganz zu schweigen von der ethischen Komponente.
Für den Speicherbereich bedeutet Big Data eigentlich nur zweierlei: das Array muss erstens in der Lage sein, möglichst große Datenmengen schnell zu verarbeiten und zweitens parallel mit einer möglichst großen Menge an Rechnern arbeiten können. Für Big Data, wie es heute verstanden wird, ist eigentlich niemand wirklich gerüstet. Weder die Hersteller, auch wenn sie sich dieses Thema auf jede Internetseite schreiben, noch die Anwender, die die Flut vor lauter Daten gar nicht kommen sehen. Wissen wir doch überhaupt nicht, wie groß die Menge der gespeicherten Daten in einem, zwei oder drei Jahren sein wird.
Gruß
Doc Storage