MapR 6.1: Engere Kubernetes-Integration und mehr Sicherheit
Ted Dunning, MapR: »MapR eignet sich nicht nur für die Arbeit mit HDFS, sondern für viele unterschiedliche datenbezogene Aufgaben, bei denen es auf Speed und Skalierbarkeit ankommt.« (Bild: A. Rüdiger)Die Data 2000 sind die Zielgruppe des 2009 gegründeten Unternehmens MapR. Seine Converged-Data-Platform steckt hinter Lösungen wie dem indischen biometrischen Identifikationssystem, das die gesamte Bevölkerung erfasst und den Einzelnen beispielsweise den Zugang zu Sozialdiensten, Bankkonten und anderen lebenswichtigen Dienstleistungen eröffnet.
Bisher lief die Lösung vier Jahre lang ohne einen einzigen Aussetzer. »Wenn wir nicht funktionieren, steht Indien«, sagt Ted Dunning, Chief Applications Architect beim Datenspezialisten MapR.
MapR dient inzwischen längst nicht mehr nur als HDFS-System (Hadoop Distributed File System). »Wir sind eine Plattform für viele Anwendungen«, betont Dunning, etwa für Maschinenlernen, Hochleistungsrechnen und für allgemeine Aufgaben zum Einsatz, sofern sie nur leistungshungrig und datenlastig genug seien. Immerhin laufen wegen des vorhandenen POSIX-API die Files vieler Applikationen direkt auf den MapR-Clustern. Als weitere Schnittstellen kommen JSON, HBase und Kafka hinzu. Die technische Basis von MapR-Knoten und -Clustern sind x86-Knoten, sprich: Rechner der unterschiedlichsten Größenordnungen vom Hochleistungsserver bis zum Taschencomputer. Die Mindestgröße eines Clusters, der auch räumlich verteilt sein kann, liegt bei fünf Knoten, nach oben sind die Grenzen offen.
Vielfältige Anwendungsgebiete
Die MapR-Plattform eröffnet den Zugang zu zahlreichen Daten- und Fileformaten und soll bald auch Daten-Streams so einfach handhabbar machen wie Dateien (Grafik: MapR).Ein großer, weltweiter Medienkonzern nutzt MapR als Basis fürs verteilte Edge-Computing. Das Unternehmen hat 42 Rechenzentren, die ständig Diagnosedaten erzeugen. Diese Daten werden in Streams geschrieben und in einer Zentrale RZ-übergreifend analysiert. Fällt eine Verbindung zur Zentrale aus, können die Daten auch »um die Ecke« geleitet werden, also zum Beispiel einen Umweg über ein anderes Rechenzentrum des Unternehmens nehmen, bevor sie zur Zentrale gelangen. Genauso lassen sich von einem RZ diverse Pfade zur Zentrale legen. »Solche Multipath- und Multimaster-Replikationen sind charakteristisch für MapR-Umfelder«, sagt Dunning.
Ein wichtiger Einsatzbereich ist die IT-Sicherheit. Beispielsweise scannt Cisco mit Hilfe einer MapR-Infrastruktur mit 20 Knoten seine Infrastruktur auf Angriffe. Darauf liegen rund zwei Billionen Logfiles samt der dazu gehörigen Metadaten.
»Bei der Angriffsdetektion komme es heute vor allem auf die massenweise Datenanalyse an, um auch gut getarnte Angriffe entdecken zu können«, erklärt Dunning. »Einer unserer Kunden hat einmal einen Angriff allein deshalb detektiert, weil im Header aller Angriffspakete zwei Segmente auf untypische Weise angeordnet waren.« Es gebe für diese Anordnung keine festgeschriebenen Regeln, sondern nur allgemeine Usancen, die aber meistens eingehalten würden. Deshalb lasse sich ein derartiger Angriff nur durch die blitzschnelle, intelligente Analyse unzähliger Pakete feststellen.
»Die wichtigsten Argumente auf MapR zu setzen sind Geschwindigkeit und Skalierung auf allen Ebenen«, sagt Dunning. MapR-Cluster und -Knoten sind über eine sogenannte Data-Fabric vernetzt, die auch mehrere Cluster umfassen kann. Auch Cluster, die sich an unterschiedlichen Orten befinden, können miteinander über die Data-Fabric verbunden werden. Zwischen Clustern, die sich relativ dicht beieinander befinden, garantiert MapR starke Konsistenz, das heißt, ein Schreibvorgang gilt erst dann als abgeschlossen, wenn er persistent auf alle Kopien geschrieben ist. »Wir verlieren keine Daten, so lange es noch eine Live-Kopie gibt«, betont Dunning. Auf der Langstrecke gelten andere Konsistenzmechanismen, die aber Datenverlusten genauso wirksam vorbeugen.
Version 6.1 integriert neue Infrastrukturvarianten
Nun kommt die Version 6.1 von MapR auf den Markt. Wichtigste Verbesserung: Sie hat eine einfache Kubernetes-Schnittstelle. Zur Erinnerung: Das Open-Source-Produkt Kubernetes ist derzeit die dominierende Plattform zur Orchestrierung von Containern. Mit der neuen Schnittstelle können Container über Kubernetes auf alle Files in MapR direkt zugreifen.
Zweite wichtige Veränderung ist, dass die Sicherheitsfunktionen nun standardmäßig angeschaltet sind, Kunden sie also aktiv abschalten müssen, wenn sie irgendwelche Sicherheitsfunktionen nicht nutzen wollen. Das entspricht einer datenschutzfreundlichen Voreinstellung, wie sie die inzwischen geltende DSGVO (Datenschutz-Grundverordnung) fordert. So werden jetzt automatisch alle MapR-Server gegeneinander identifiziert, jeder Zugriff erfordert einen Authentisierungsvorgang. Daten lassen sich beim Transport und stationär voll verschlüsseln, was je nach Applikation einen Leistungsverlust im einstelligen Prozentbereich verursachen kann. Alternativ können beim Transport auch nur die Header verschlüsselt werden.
Die dritte Veränderung betrifft das Tiering und ist dem Cloud-Trend geschuldet: Daten können nun über eine S3-Schnittstelle teilweise auf AWS gelegt werden. Trotzdem lassen sie sich danach wie zuvor lesen und sogar verändern. Dieselben Möglichkeiten gibt es unter anderem für den Hitachi Object Store und Microsoft Azure.
Schließlich unterstützt MapR jetzt NFS in Version 4, was bedeutet, dass bei Zugriffen eine kryptographische Identitätsprüfung stattfindet. Version 3 dagegen verwendete einen Server-to-Server-Trust-Mechanismus.
Deutsche Aktivitäten gehen von München aus
Wie viel Umsatz die mittlerweile auf 700 Mitarbeiter angewachsene Firma macht, wird wie viele Details zum Unternehmen nicht bekannt gegeben, da es sich um ein Privatunternehmen handelt. In Deutschland hat man den Geschäftssitz in München, wo auch das Treffen zwischen Dunning und der speicherguide.de-Redaktion stattfand, es gibt weitere deutsche Niederlassungen.
Immerhin gibt es Informationen zu einem deutschen Kunden: Die IT des Lebensmittel-Einzelhandelskette REWE gehört wegen der Bedeutung des Unternehmens für die Lebensmittelversorgung der deutschen Bevölkerung zur kritischen Infrastruktur, für die spezielle und besonders strenge gesetzliche Regelungen gelten, um Ausfälle möglichst auszuschließen. So muss das Unternehmen monatlich einen Datacenter-Failover ohne Datenverlust demonstrieren. MapR steckt auch hier hinter einem Teil der Dateninfrastruktur.
Schließlich stellt sich noch die Frage nach der weiteren technischen Entwicklung. »Das große Thema der nächsten Zeit sind noch bessere Skalierungsmöglichkeiten«, sagt Dunning, wobei jede Art von Daten ihren speziellen Ort und ihr spezielles Speicherformat brauche - von In-Memory über Files und Datenbanken bis zu Streams. Für letzteres stehe mit Kafka ja ein technisch durchaus interessanter Ansatz bereit. »Wir wollen das Handling von Streams so einfach wie das von Files machen«, verspricht Dunning. Das entspricht MapRs bisheriger Strategie, Open-Source-Technologien zu verwenden, ihre Implementierung aber auf die Bedürfnisse großer Unternehmen auszurichten, was meistens auf mehr Leistung, Sicherheitsfunktionen, Nachvollziehbarkeit und Kontrollierbarkeit hinausläuft. Bis es so weit ist, soll es nicht viel länger als sechs Monate dauern.