Big Data oder Business-Intelligence-Lösung
Leserfrage: Eigentlich ist Big Data doch eine neue Anforderung - oder Herausforderung - für BI-Lösungen, wie wir sie im Hause haben. Bei neuen Big-Data-Lösungen habe ich den Eindruck, dass es eher sehr viele - kaum wiederverwendbare - Sonderlösungen sind. Was passiert denn, wenn 100 Anwender gleichzeitig zur Berechnung nicht additiver Kennzahlen einen großen Teil des Datenbestands eines Hadoop-Clusters verarbeiten müssen? Dann geht doch was schief, oder nicht?
Antwort Doc Storage:
Wie bei jeder Nachfrage zu Leistungsdaten einer Rechnerumgebung gibt es hier die typische Antwort: »Das kommt darauf an.« Auch wenn diese nicht befriedigend ist. Aber worauf kommt es hauptsächlich an? Zum ersten auf die zugrundeliegende Infrastruktur. Hadoop arbeitet mit einem »Master-Knoten«, der einkommende Anfragen entgegennimmt und an die »Slave-Knoten« weitergibt. Er erstellt und verwaltet die nötigen Metadaten und organisiert die Kommunikation mit den abfragenden Systemen. Somit hängt die Leistung eines Hadoop-Systems nicht primär von der Anzahl der Knoten, sondern von der Leistungsfähigkeit ihres Masters ab.Zum zweiten kommt es auf die Hardware an, auf der das Hadoop-System läuft. Neben der Leistungsfähigkeit des Masters sind hier auch die Rechnerkopplung (1 Gbit/s, 10 Gbit/s...), die Speicherkopplung (FC, eSAS, eSATA, Infiniband, PCIe...) und nicht zuletzt die dort verwendeten Medien (SAS, SATA, FC, Platten, SSD, DRAM) ausschlaggebend. Da hier eine Berechnung für bestimmte Umgebungen nahezu ausgeschlossen ist, gilt hier der alte Grundsatz »Probieren geht über studieren«, für moderne Infrastrukturen also: »Testen geht über Errechnen«.
Und zum Dritten ist die Organisation wichtig. Dieser lange vergessene bzw. verdrängte Zweig der Informatik kann bei besserer Ausnutzung der vorhandenen Rechensysteme und Anwendungen helfen, bevor Geld für Neuanschaffungen in die Hand genommen werden muss. Die Frage in Ihrem Falle ist: »Müssen alle 100 Anwender zur selben Zeit auf den Datenbestand zugreifen, oder lässt sich ihre Zahl durch geschickte Organisation auf 50 oder gar 25 reduzieren, ohne die Ergebnisse am Ende des Tages zu verändern?
Gruß
Doc Storage