Das ist Big Data: Facebook wächst täglich um 500 TByte

24.08.2012 eh

Das ist Big Data: Facebook wächst täglich um 500 TByte

Der Big-Data-Datenfluss bei Facebook (Bild: Facebook)

Das soziale Netzwerk Facebook, mit mittlerweile über 950 Millionen Mitgliedern das mit Abstand größte Netzwerk ihrer Art, gab erstmals einen etwas deutlicheren Einblick, mit welchen Datenmengen das Unternehmen umgehen muss. In der Tat, die Storage-Administratoren haben allerhand zu tun. So wächst alleine die zu bewältigende Datenmenge täglich um 500 TByte. Doch wie groß ist der Gesamtspeicherumfang jetzt? Über 100 PByte, ließ Jay Parikh, Vice President of Engineering bei Facebook, gegenüber Journalisten und Analysten am Firmensitz durchblicken.

Gespeichert wird alles in einem Hadoop-Disk-Cluster, von dem Parikh ausgeht, dass er derzeit der größte der Welt ist. Hadoop ist ein Open-Source-Projekt der Apache Software Foundation. Erst kürzlich meldeten Symantec und Syncsort, ihre Softwarepakete mit Hadoop zu verknüpfen. Auch Storage-Systemehersteller wie EMC, Hewlett-Packard oder IBM nehmen sich Hadoop an. Nicht nur Branchenanalysten wie IDC sind deshalb der Meinung, dass Hadoop zum Überflieger wird. Hadopp scheint die Storage-Branche umzukrempeln.

Facebook bedeutet: 300 Millionen neue Fotos täglich

Interessant auch, wie sich die tägliche 500-TByte-Daten zusammensetzt. Verursacht wird sie unter anderem durch mehr als 2,5 Milliarden Postings, 2,7 Milliarden Likes sowie 300 Millionen neu hochgeladenen Bildern.

Hadoop ist hier insofern bedeutend, da sich aus diesen Big-Data-Volumina Nutzerreaktionen in Minutenschnelle herausfiltern lassen. Facebook könne dadurch laut Parikh ein neues Produkt innerhalb von Minuten aufsetzen, Nutzerreaktionen schneller und besser verstehen, und ein Design möglicherweise in Echtzeit modifizieren. »In wenigen Monaten sind Data-Warehouses mit 100 PByte nichts besonderes mehr«, unkte Parikh. Bedeutender sei vielmehr, die richtigen und wertvollen Informationen daraus zu ziehen. »Die Welt wird hungriger und hungriger nach Daten.«

Der Facebook-Technikchef gab auch erste Einblicke in das Projekt »Prism«. Facebook ist hierbei dabei, den bislang monolithischen Datenblock auf fünf Datacenter aufzusplitten. Und zwar auf die vier US-Bundesstaaten Kalifornien, Virginia, Oregon und North Carolina sowie auf ein neues Datacenter in Schweden. Von außen soll alles wie ein einziges Datacenter aussehen.

Weiterführende Links