Hadoop im Speicherumfeld

03.02.2012 Doc Storage

Hadoop im Speicherumfeld

Leserfrage: Hadoop wird immer wieder empfohlen – von unterschiedlichen Herstellern – wenn es um das Bewältigen großer Datenmengen (Big Data) geht. Wie genau funktioniert Hadoop und was erreiche ich damit? Muss man darüber hinaus auf besondere Kriterien im Speicherumfeld achten?

Antwort Doc Storage:

Generell handelt es sich bei Hadoop um ein Konglomerat von Algorithmen und Dateisystemen für verteiltes Rechnen großer Datenmengen auf verclusterten Computern. Es besteht im Einzelnen aus HDFS (Hadoop Distributed File System), dem Algorithmus »MapReduce« (ursprünglich von Google), »Chukwa« und »ZooKeeper« zur Konfiguration und Überwachung verteilter Systeme, dem Analysewerkzeug »Pig« mit eigener Programmiersprache samt Compiler und schließlich der auf große Datenmengen optimierten Datenbank HBase. Als Abfragesprache steht »Hive« zur Verfügung, welches Facebook vor drei Jahren als Open Source veröffentlicht hat.

Alle Komponenten zusammen stellen momentan das einzige speziell für die Verarbeitung und Analyse von so genanntem »Big Data« entworfene System dar. Dieses Big Data zeichnet sich dadurch aus, dass vorhandene Informationen selten geändert, allerdings immer neue hinzugefügt werden. Facebook beispielsweise verwaltet in seiner Hadoop-Umgebung fast 25 PByte an Informationen, die jährlich um mehr als sieben PByte anwachsen. Um diese Daten zu verarbeiten, verwendet HBase einen kombinierten Map- und Reduce-Algorithmus, der einfach gesprochen die parallele Abarbeitung von Datenbank-Abfragen auf beliebig vielen Rechnern erlaubt und deren Zwischenergebnisse dann wieder zu einer großen Tabelle zusammenfügt. Nach dem Zusammenfügen werden alle eventuellen Redundanzen aus der Tabelle entfernt, so dass jeweils nur noch ein relevanter Eintrag zurückbleibt. Auf diese Weise lässt sich die erforderliche Rechenlast auf annähernd beliebig viele Systeme verteilen.

Als Speicher in diesem Umfeld wird momentan praktisch alles genutzt, was vor allem groß und billig ist, da sich durch die schiere Größe der HDFS-Dateisysteme die Anwendung fortgeschrittener Array-Funktionalitäten schlichtweg verbietet. Es genügt also ein Zugang zum Speicher, ob nun iSCSI, FCoE, FC oder eSAS, und ein möglichst großes und mittelmäßig schnelles Array.

Gruß
Doc Storage