Wie funktioniert Big Data bei Facebook, Google & Co?
Leserfrage: Dass die Datenexplosion alle Unternehmen mehr oder weniger trifft, liest man allenthalben. Aber bei Unternehmen wie Facebook, Google, Youtube und Co. muss die Big-Data-Welle ja immens sein. Haben Sie einen Einblick, welche Speichersysteme bzw. Filesysteme dort installiert sind? Dort fallen vermutlich jeden Tag hunderte von Festplatten aus – welche Backup- oder Disaster-Recovery-Strategien lassen sich dort überhaupt verfolgen?
Antwort Doc Storage:
Die großen Internet-Plattformen arbeiten fast durchgängig nicht mit großen, zentralen Systemen, sondern im Gegenteil mit möglichst kleinen, zahlreichen und verteilten Einheiten. Damit lassen sich wesentlich einfacher Ressourcen hinzufügen und ersetzen, bei tausenden Rechnern und Speichersystemen mit systemübergreifend replizierten Daten fällt ein möglicher Hardware-Fehler kaum oder gar nicht auf.
Die meisten Plattformen arbeiten somit mit x86-Rechnern auf Blade-Basis, Linux-Betriebssystemen und Midrange-Speichern mit NAS- oder Objektspeicheranbindung. Auf den Speichern werden Dateisysteme mit großen Namensräumen oder eben gleich Objekte abgelegt, um die unüberschaubare Anzahl an Dateien speichern zu können. Eine Sicherung findet aufgrund der riesigen Anzahl sich ständig ändernder Informationen zumeist nur über Replikation in einen oder mehrere andere Standorte statt. Damit entfällt sowohl der Bedarf nach Rücksicherung als auch die Abhängigkeit von der Funktionsfähigkeit einzelner Niederlassungen. Ein netter Nebeneffekt ist, dass Daten schneller und über mehr Kanäle gelesen werden können, je mehr Kopien von ihnen an unterschiedlichen Orten gespeichert sind.
Gruß
Doc Storage