Deutsche Nationalbibliothek archiviert mit IBM SONAS
Es geht um die Werke großer Dichter – aber nicht nur um die. Die Deutsche Nationalbibliothek in Frankfurt sammelt als einzige Institution in Deutschland lückenlos alle deutschen und deutschsprachigen Publikationen ab 1913, archiviert diese dauerhaft, verzeichnet sie bibliografisch und stellt sie der Öffentlichkeit zur Verfügung.
Ein zentraler Bestandteil der Sammlung sind die neuen Medien, wie zum Beispiel CDs, die sich stetig vermehren. So digitalisieren die Mitarbeiter derzeit alleine einen Bestand von 400.000 bis 500.000 CDs. Das stellt die deutsche Nationalbibliothek zunehmend vor eine große Herausforderung beim Speicherbedarf. Bereits Ende 2011 wurde allein in diesem Bereich eine Datenmenge von 40 bis 50 TByte benötigt und der Bestand der digitalen Medien, die viel Speicherbedarf erfordern, wächst immer mehr.
Auch die Server für die Verwaltungsdaten und Dokumente wurden virtualisiert
Damit die Deutsche Nationalbibliothek auch langfristig dem Sammelauftrag, den ihr der Bundestag erteilt hat, nachkommen kann, benötigte sie eine IT-Infrastruktur, mit der sich digitale Publikationen einfach speichern und bereitstellen lassen. Daher hat sich die Nationalbibliothek dazu entschlossen die Speicherlösung IBM SONAS (Scale Out Network Attached Storage) zu implementieren. Der IBM-Geschäftspartner Bechtle hatte dabei die Aufgabe, das Projekt zu planen und die passenden Produkte auszuwählen.
In einem ersten Schritt wurden die Server für die Verwaltungsdaten und Dokumente virtualisiert, damit die Mitarbeiter unabhängig von den digitalen Publikationen auf diese zugreifen können. Eine weitere wichtige Komponente ist das Backup der Daten, das durch den IBM Tivoli Storage Manager Diskpool (TSM) gewährleistet wird. So werden die Daten dupliziert und mit einem vorgelagerten Diskpool auf Band gespeichert.
GPFS-Filesystem kann bis den PByte-Bereich skalieren
Als zweite Kernkomponente der Datensicherung verfügt die Nationalbibliothek mit IBM GPFS (General Parallel File System) über ein Filesystem, mit dem sich laut IBM auch ein Datenaufkommen im PByte-Bereich bewältigen lässt. Zusätzlich können die Mitarbeiter mittels der GPFS Policy Engines innerhalb weniger Minuten schauen, welche Daten sich in den letzten zwei Wochen geändert haben und neu dazugekommen sind, und diese entsprechend sichern. Anschließend wird TSM durch die enge Integration mit GPFS von diesen Daten gefüttert.
Eine wichtige Rolle spielt die Sicherheit bei der Archivierung der Daten. Daher hat sich die deutsche Nationalbibliothek für ein Daten-Backup auf Bändern entschieden. Die Mitarbeiter kopieren die Daten und tauschen die Kopien zwischen den Standorten Leipzig und Frankfurt aus. So sind die Daten auch im Katastrophenfall zur Sicherheit noch mal in einem anderen Haus gelagert. Außerdem greifen die Nutzer in den Lesesälen der Bibliothek aus Sicherheitsgründen niemals direkt, sondern immer mittels vorgeschalteter Applikationen auf das NAS-System zu.
Herausforderung: Migration von optischen Datenträgern
Eine weitere Herausforderung neben der Migration weiterer elektronischer Publikationen, die auf verteilten kleinen Altsystemen und einem zehn Jahre alten Deposit-Server lagen, war die Migration von optischen Datenträgern. »Unsere Mitarbeiter digitalisieren und speichern Audio-CDs und weitere Audiomedien ad-hoc und im Bedarfsfall vor Ort. Hier und bei der Massenmigration von CDs kommt uns die neue Speicherlösung zu Gute«, sagt Reinhard Altenhoener von der Deutschen Nationalbibliothek. »Gleichzeitig können so nun die täglich über die Repository-Software eingehenden Daten und Netzpublikationen gesichert und zugänglich gemacht werden. Besonders unsere Nutzer profitieren von der neuen Lösung. Sie können nun einfach eine CD auswählen und diese direkt über ein Audiosystem anhören.«
.