Hadoop: Was ist es und was leistet es?
Mit Hadoop soll Big Data Wirklichkeit werden. Dabei können entsprechende Lösungen riesige Datenmengen nicht nur erfassen, sondern auch analysieren und zu nützlicher Information verarbeiten. speicherguide.de erläutert was Hadoop ist und wer es wirklich gebrauchen kann.
Die technische Definition Hadoop
Die Hadoop-Software entstand aus einem Open Source- bzw. ein Apache-Projekt und ist ein in Java geschriebenes Framework für skalierbare, verteilt arbeitende Software. Die Basis hierfür war ein Algorithmus von Google, »MapReduce«, sowie Teilen des Google-Dateisystems. In Kürze: Es ist ein Konglomerat von Algorithmen und Dateisystemen für verteiltes Rechnen großer Datenmengen auf verclusterten Computern. Demzufolge soll es mit intensiven Rechenprozessen und vielen Daten umgehen können.
Hadoop besteht aus mehreren Komponenten, die hier nur kurz aufgeführt sind. Das »Hadoop Distributed File System« (HDFS) ist ein leistungsfähiges Dateisystem zur Speicherung sehr großer Datenmengen. Dabei verteilt Hadoop die Dateien auf mehrere Datenblöcke. Um eine höhere Zuverlässigkeit und Geschwindigkeit zu erreichen, legt HDFS mehrere Kopien von einzelnen Datenblöcken an. Ein Masterknoten bearbeitet die eingehenden Datenanfragen, organisiert die Ablage von Dateien und speichert anfallende Metadaten. HDFS unterstützt dabei Dateisysteme mit mehreren 100 Mio. Dateien.
»Hive« ist eine Erweiterung der Software um die Anfragesprache QL. Diese ist eine SQL-basierte Abfrage, die eine Verwendung von SQL-Syntax erlauben soll. Damit können dann auch entsprechende Datenbankinhalte bearbeitet werden.
Der Software-Teil »Pig« ist datenhungrig und analysiert große Datenmengen. Es umfasst eine Programmiersprache, die High Level-Abfragen auf Datenbestände ermöglicht, und einen Compiler. Mit Pig lassen sich komplexe Analysen parallel prozessieren. Ebenso sind die Funktionalitäten auf unterschiedliche Anwendungsgebiete erweiterbar bzw. anpassbar.
»HBase« ist eine skalierbare Datenbank zur Verwaltung sehr großer Datenmengen innerhalb eines Hadoop-Clusters. Diese Datenbank basiert auf einer Integration von Google »BigTable«. Jene Datenstruktur eignet sich für Daten, die selten verändert, aber sehr häufig ergänzt werden. So sollen sich Milliarden von Zeilen verteilen und effizient verwalten lassen.
Darüber hinaus gehören noch »Chukwa« und »ZooKeper« zu Hadoop. Chuwka realisiert eine Echtzeitüberwachung großer verteilter Systeme, der Zookeeper dient der Konfiguration verteilter Systeme.
All diese technischen Details ergeben die Software, die in Verbindung mit leistungsstarker Hardware so genannte Big-Data-Lösungen gewährleistet. Seit geraumer Zeit nutzen einige große Unternehmen Hadoop, manche von ihnen bieten mittlerweile selbst Hadoop-basierte Lösungen an.
Hadoop Einsatzgebiete
Zwar gibt es derzeit nicht sehr viele Firmen, die tatsächlich solch enorme Datenbestände bearbeiten müssen, aber es lassen sich doch bereits zahlreiche Anwendungsgebiete und Beispiele hierfür finden. Internetanbieter bzw. Anbieter von sozialen Netzwerken gehören natürlich dazu.
So ist es nicht überraschend, dass Facebook eine Hadoop-Datenbank verwendet, die im Mai 2011 bereits 21 PByte umfasste. Angeblich kommen hier täglich 15 TByte hinzu. Auch IBM, AOL, Imageshack, Yahoo, Baidu und a9.com benutzen Hadoop, um ihre Datenflut beherrschbar und analysierbar zu machen.
Des Weiteren fällt es nicht schwer, andere Kunden zu erkennen, die einen Bedarf an Analysen großer Datenbestände haben. Zusammen mit Partner weblyzard kann EMC auf zahlreiche Referenzen im Hadoop-Umfeld verweisen. Dazu gehören unter anderem die dem U.S. Department of Commerce zugeordnete National Oceanic and Atmospheric Administration (NOAA), das dem U.S. Department of Health and Human Services zugeordnete National Cancer Institute, die HTW Chur und die Wirtschaftskammer Wien.
Die Liste der Big-Data-Anhänger wird sicher bald länger, denn ein Wachstumsstopp der Datenbestände ist nicht in Sicht. Hadoop ist ein Schritt daraufhin, den Informationsmassen wirklich nutzbringende Informationen zu entreißen.
Hadoop-Lösungen
Bereits jetzt ist eine erkleckliche Anzahl an Anbietern und Lösungen rund um Hadoop und Big Data zu finden. Prominentester ist sicherlich EMC, der ein Bundle aus Hadoop, Greenplum und Isilon-Systemen am Markt hat. Mit dem Partner weblyzard gibt es weitere Angebote, wie zum Beispiel den Finanz-Monitor, der Greenplum als Plattform nutzt, um Online-Nachrichten und User-Kommentare zu Entwicklungen auf internationalen Finanzmärkten in Echtzeit zu analysieren. IBM offeriert »InfoSphere BigInsights«, das Hadoop erweitert und Funktionen für die Verwaltung, den Workflow, die Beschaffung und Sicherheit sowie umfassende Analysefunktionen hinzufügt. Yahoo! Hingegen hat mit Benchmark Capital eine neue Marke – Hortonworks – hervorgebracht und eine entsprechende Lösung. Microsoft nutzt die Software im SQL- und im Azure-Umfeld, Syncsort hat DMExpress im Portfolio. Zu weiteren Anbietern gehören. NetApp, Cloudera, pentaho, Talend oder Datameer.
Zudem konzentrieren sich zahlreiche Start-up-Firmen auf die drei sich ihnen bietenden Geschäftsfelder unter Hadoop: Lösungen zur Analyse von Kundenverhalten, die Entwicklung neuer Funktionen für den Endanwender um ganz und gar neue Geschäftsfelder zu erschließen, die bislang vorher nicht erreichbar waren. Exemplarisch für jedes dieser Segmente stehen Eventbrite, Weebly und Backtype. Das ist aber mit Sicherheit nicht das Ende der Fahnenstange. Lösungsangebote rund um Hadoop bzw. Big Data stehen noch am Anfang des Erfolgsweges. Bis sich Big Data als eigenständiger Geschäftszweig voll entwickelt haben wird, tauchen mit Sicherheit noch weitere zahlreiche Unternehmen mit neuen Produkten an der Marktoberfläche auf.
Hürden für Hadoop
Das Thema Big Data nimmt gerade erst Fahrt auf und gleiches gilt für Hadoop-Anwendungen bzw. -lösungen. Zum einen sicherlich deswegen, weil der Kundenkreis noch nicht so groß ist, zum anderen aber auch, weil es noch einige Hürden zu überwinden gibt. Das fängt schon damit an, dass nur wenige Anwender die komplexen Technologien wie beispielsweise Mapreduce beherrschen. Die bislang bestehenden Installationen zeigen, dass bis auf die Verwendung von Mapreduce als Modelierungs-Abstraktionsschicht sonst kaum Gemeinsamkeiten vorhanden sind.
Darüber hinaus fehlt eine Standardisierung. Das erschwert eine Verzahnung bzw. Integration verschiedener Komponenten, die Hadoop komplementär und anwendungsspezifisch erweitern könnten. Ein weiteres Problem ist, dass derzeit noch zu wenige Anbieter Hadoop-Kerntechnologien wie HDFS, Hive oder Pig unterstützten. IBM und EMC sind die rühmliche Ausnahme. Daneben hat Informatica einen Konnektor im Ärmel, der als Hadoop-Schnittstelle fungiert und Datenverarbeitung über Hadoop-Cluster ermöglicht.
Hadoop steckt quasi noch in den Kinderschuhen, trotzdem sehen Analysten und Experten in Hadoop eine zukunftstaugliche Cloud-Data-Warehousing-Technologie. Setzt sich die Technologie erst einmal durch, so könnten Entwickler Inline-Analytics-Modelle schaffen, die eine extrem hohe Bandbreite von Clouds, Event Streams, Dateisystemen, Datenbanken, Complex-Event-Processing-Plattformen, Business-Process-Management-Systeme und Information-as-a-Services mit einbeziehen. Und dann steht der Super-Analyse in der Cloud mit all ihren Daten nichts mehr im Weg. Und vielleicht hieße das auch ein Licht am Ende des verwirrenden Informationstunnels zu sehen.