IBM-Dateisystem hat mehr als ein Facelifting erfahren
Filesysteme müssen absehbarer Weise in Unternehmen bald PByte an Daten und Milliarden an Dateien verwalten. Wie kann man Filesysteme schneller machen, damit Anwender und Anwendungen nicht »ewig« auf die Inhalte warten müssen?
Ralf Colbus, IBMColbus: Wir bei IBM hatten schon in den Neunzigern Kunden, die große Datenmengen und Millionen Files verwalten mussten. 1998 führten wir das General-Parallel-File-System (GPFS) in den Markt ein und entwickeln dies nun unter dem Namen IBM Spectrum Scale weiter. PByte-Skalierung und Anzahl der darin gespeicherten Objekte sind faktisch kein Problem. Wir könnten schon heute bis in den YByte-Bereich skalieren und Dateien mit einem Exabyte-Umfang speichern.
Da in diesen Dimensionen klassische RAID-Level nicht mehr zu Fehlerkorrekturen geeignet sind, werden die Daten durch Software-Verteilalgorithmen geschützt, der im Rebuild-Fall extrem schnell ist. Die Datenbereitstellung beschleunigen wir durch Caching, Flash-Speicher und eine intelligente Metadatenverwaltung. Beim Client- und Anwendungszugriff kommt ein natives Filesystem-Protokoll zum Einsatz, so dass wir auf NFS und SMB verzichten können, die in der Regel viel Performance kosten.
Erste Distributed Filesysteme verwalten Dateien auf privaten und öffentlichen Clouds. Wie schaffen es solche Global Name Spaces, das manuelle oder automatische Kopieraktionen von Dateien konsistent für das Dateisystem erfolgen?
Colbus: Bei Spectrum Scale setzen wir auf intelligentes Tiering. Mittels Policys kann der Storage-Admin Regeln festlegen, die zum Beispiel Dateien, die ein Jahr lang nicht angeschaut wurden, oder Ordner mit Musik- oder Videoinhalten an geeignete Speicherorte verschiebt. Sollten die Dateien gesetzliche Aufbewahrungsfristen in den Metadaten enthalten, können Sie bei Fristüberschreitung gelöscht werden, andernfalls werden in einer Speicherstufe gelagert, die eine mehr oder weniger schnelle Restaurierung erlaubt. Mit der Funktion Transparent-Cloud-Tiering lassen sich inaktive Dokumente auch nachverfolgbar in den IBM Cloud Object Storage, in Amazons S3-Speicher oder in ein Open Stack Swift-System verlagern.
Welche Fähigkeiten von globalen Dateisystemen für eine Multi-Cloud-Umgebung sind zukünftig unverzichtbar?
Colbus: Als kritisch ist natürlich der kontrollierbare und sichere Dateizugriff zu sehen. Zum einen benutzen wir bei Spectrum Scale eine rollenbasierte Authentifizierung mit LDAP (Lightweight Directory Access Protocol) oder AD (Active Directory). Zum anderen holen sich Anwendungen die Inhalte über HTTPs, das die Daten mit Hilfe von JSON-Syntax vor unerlaubten Zugriffen schützt.
Wozu brauchen wir künstliche Intelligenz im Dateisystem?
Colbus: Der Einsatz künstliche Intelligenz (KI) ist der nächste Schritt. Hier werden Daten gemäß ihrer Wertigkeit, die sich über die Zeit verändern kann, analysiert und gegebenenfalls migriert. Das KI-System erkennt faktisch den Wert der Daten anhand der Analyse der Metadaten und bestimmter anderer Parameter und entscheidet dann, ob und wie die Daten gespeichert werden. Dies besser als jeder Administrator es in Echtzeit jemals tun könnte. Wir haben in einigen großen Projekten erste Erfahrungen gesammelt für die weitere Entwicklung von Produkten mit diesen Eigenschaften.
Mit welchen Neuheiten ist in der nächsten Dateisystem-Generation zu rechnen?
Colbus: Eines ist klar. Wir setzen, wie schon seit Mainframe-Zeiten, auf die bestmögliche Integration von Tape. Anwendungsspezifische Softwareschnittstellen werden die Akzeptanz für die Fähigkeiten von Spectrum Scale besser sichtbar machen. Und ganz klar werden wir einen intensiven Datenaustausch mit HDFS, dem Hadoop Distributed File System, ermöglichen. Auch technische Innovationen wie Docker/Container fließen in unsere Überlegungen mit Mikro-Services ein sowie Multi-Cloud Konzepte.