Archivierung durch KI vor neuen Aufgaben

15.05.2024 Peter Marwan

Archivierung durch KI vor neuen Aufgaben

Daten im Archiv sind meist nicht nur »Cold Data«, sondern oft auch »Dark Data«. Zwar ist grob bekannt, ob es sich um Baupläne, Vertragsunterlagen, Röntgenbilder oder Filmaufnahmen handelt, der Detailanalyse verschließen sie sich jedoch. Im Zuge des KI-Booms soll sich das ändern. Aber ist das ohne weiteres möglich?

Kürzlich bat mich ein Freund um einen Gefallen. Als engagierter Heimatforscher benötigte er einen fast 100 Jahre alten Zeitschriftenartikel. Den gab es nur in der Bayerischen Staatsbibliothek in München – die für ihn aber weit weg ist. Also meldete ich mich dort vor Ort mit Vorlage meines Personalausweises als Nutzer an, registrierte mich dann mit dem Benutzerausweis am Online-System an und bestellte darüber die Ausgabe der benötigten Zeitschrift in den Lesesaal.

Zwei Tage später war sie aus dem Magazin im Lesesaal eingetroffen. Ich musste nur noch online einen Platz im Lesesaal reservieren, in die Stadt fahren, eine Kopierkarte erwerben, den Artikel kopieren, das PDF auf dem mitgebrachten USB-Stick speichern, den USB-Stick zuhause am Notebook einstecken und dem Freund die PDF-Datei schicken. Er hat sich gefreut und ich habe es gerne getan.

Archivieren, um zu vergessen

Warum erzähle ich diese Geschichte hier? Archivierung in Unternehmen folgte bisher oft ähnlichen Mustern. Zwar machen physische Dokumente nur einen kleinen Teil der Daten aus – aber auch sie wollen und müssen in einigen Fällen archiviert werden. Doch selbst bei digitalen Daten war und ist Archivierung eher darauf ausgelegt, dass die Daten in Not- und Sonderfällen lange im Zugriff bleiben. Die regelmäßige Nutzung ist beim Archiv per Definition nicht vorgesehen.

Die Prozesse für den Zugriff sind daher oft etwas umständlich. Zu Recht: Schließlich kann nicht einfach jeder ins Archiv gehen und sich Tapes oder optische Speichermedien holen, von denen er glaubt, dass sie für seine Arbeit relevante Daten enthalten. Der Vorgang muss kontrolliert und geregelt vonstattengehen – ähnlich wie der Zugriff auf seltene alte Zeitschriften in der Bayerischen Staatsbibliothek.

KI macht alte Daten wieder wertvoll

Die rasche Adaption von Künstlicher Intelligenz in Unternehmen weckt allerdings Begehrlichkeiten. »KI-Projekte stellen neue Anforderungen an Archivierungslösungen, wie wir sie heute kennen«, berichtet etwa IT-Berater Jan Dittel. Er ist Leiter Marketing und Geschäftsentwicklung beim Dienstleister bluvisio. »Für das Training von KI-Lösungen benötigt es große Datenmengen, von denen viele bereits in Datenarchiven liegen, und die nun wesentlich schneller bereitgestellt werden müssen, als man bisher in der Regel auf archivierte Daten zugreifen musste. Es wird also ein wesentlich höherer Read-I/O nötig, was dazu führen wird, dass Archivdaten künftig immer mehr auf preiswertem, lese-intensivem Flash-Speicher abgelegt werden.«

Bei Quantum hat man das auch erkannt. »Archive sind von jeher günstige Speicherebenen, meist auf nachhaltigem Tape-Speicher basierend«, meint Bruno Hald, Vice President of Secondary Storage bei Quantum. »Diese hatten in der Vergangenheit den Nachteil, dass die Daten zwar günstig gespeichert werden, diese dann aber nicht mehr so schnell und einfach verfügbar sind. Das mag für manche Daten möglich sein, Anwendungsfälle wie KI werden dadurch jedoch ausgebremst.«

Datenerwärmung liegt im Trend

Als Ausweg schlägt der Hersteller die unter dem Namen Active Scale vermarktete Verbindung von Object-Storage und Tape vor. Sie löse dieses Problem und mache aus »Cold Data« wieder »Hot Data«.

Noch weiter geht Rob Lee, CTO bei Pure Storage. In einem Gespräch in München erklärte er kürzlich, dass sich das Konzept »Cold Data« bzw. »Cold Storage« aus seiner Sicht überlebt habe. »Wenn ich schon dafür bezahle, dass die Daten vorgehalten werden, dann will ich sie auch nutzen«, sei Lee zufolge die Argumentation seiner Kunden.

Als Pionier von Flash-Storage-Technologie sieht Pure Storage dabei natürlich Flash-Speicher in einer guten Position. Inzwischen seien die Kosten so weit gesunken, dass man sich längst nicht mehr darauf beschränken müsse, nur die jüngsten oder stark transaktional genutzten Daten auf Flash-Storage vorzuhalten.

Allerdings plädiert Lee nicht dafür, alle Daten in einem großen Repository zusammenzuführen. Es sei aber an der Zeit, die einzelnen Datenspeicherorte zu verknüpfen. Lee räumt aber auch ein: »Bei KI sind wir noch in einer sehr frühen Phase. Immer mehr Firmen werden Daten jedoch nicht nur speichern, sondern auch nutzen wollen.«

To Tape or not to Tape

»KI und andere datenintensive Initiativen erfordern eine einfachere, leicht zugängliche Infrastruktur, die sowohl Leistung als auch Kosteneffizienz in großem Umfang bietet«, sagt Quantum-Manager Hald. Mit ActiveScale habe Quantum ein Angebot, dass den Bedarf nach einer vollständig integrierten Objektspeicherlösung für Unternehmen erfülle, die leistungsfähige Scale-Out-Flash- und Scale-Out-Bandbibliotheken vereint. »So lassen sich Data-Lakes und Storage-Clouds mit herausragender Skalierbarkeit, Einfachheit, Leistung und Kosteneffizienz aufbauen, ohne die Datenverfügbarkeit und langfristige Haltbarkeit zu beeinträchtigen«, bilanziert Hald.

Gleichzeitig adressiere der Ansatz einen weiteren, wichtigen Trend bei Archivierung derzeit: Die Ziele Datenverfügbarkeit und Nachhaltigkeit in Einklang zu bringen. Also für die Speicherung von Daten nicht allzu viele Energie aufzuwenden – ein Vorwurf, der Festplatten oft gemacht wird.

Aktuell liegt der Anteil der Daten in Unternehmen, die auf Tape-Technologie gesichert sind, nach Marktstudien und Schätzungen zwischen zehn und 20 Prozent. Wie hoch der Anteil genau ist, hängt sehr stark von der Branche und dem einzelnen Unternehmen ab. Diese Daten in einem, wie von Quantum skizzierte Szenario, einzubeziehen und nutzbar zu machen, kann daher durchaus sinnvoll sein.

Außerdem hat Tape-Technologie zur Archivierung wegen seiner Kosteneffizienz, Langlebigkeit und Zuverlässigkeit sowie als Teil von Disaster-Recovery-Strategien berechtigterweise viele Fans. Das gilt insbesondere In Branchen mit großen Mengen an unstrukturierten Daten und/oder hohen Anforderungen an die Datenaufbewahrung, zum Beispiel der Medien- und Unterhaltungsbranche, wissenschaftlichen Forschungseinrichtungen, großen IT-Unternehmen oder im medizinischen Bereich. Hier liegen oft PByte an Daten auf Tapes – und oft ist ein direkter Nutzen dadurch, dass KI Zugriff auf diese Daten bekommt (noch) nicht greifbar.

Die Cloud soll´s richten

Allerdings argumentieren manche auch damit, dass neu entstehende Daten nicht nur bedeutsamer, sondern auch mengenmäßig wesentlich umfangreicher sind – und viele davon ohnehin in der Cloud generiert werden. Also sollten sie auch dort verbleiben, dort verarbeitet und archiviert werden. Dazu gehören zum Beispiel Anbieter wie Cohesity und Rubrik.

Als Vorteile der Cloud-Archivierung nennen sie im Vergleich zur lokalen Datenspeicherung geringere Einstiegskosten für Hardware und Software und im laufenden Betrieb keine Kosten für Verwaltung und Aktualisierung der Rechenzentrumsausrüstung. In Bezug auf KI-Pläne interessant sei zudem, dass die Daten einfacher zugänglich sind als bei herkömmlichen lokalen physischen Medien wie Bändern oder Festplatten.

Nachteile der Archivierung in der Cloud sind jedoch mit zunehmendem Datenvolumen steigende und oft unvorhersehbare Kosten. Denn auch die Cloud-Anbieter wollen es sich nicht leisten, alle Daten gleich zu behandeln. Sie bieten daher die günstigere, aber eben auch weniger flexible Archiv-Ebene an. Bei Microsoft ist das der Azure Archive Blob Storage mit mehreren Archivebenen, bei AWS der Dienst Amazon S3 Glacier mit mehreren Speicherklassen.

Microsoft räumt ganz offen ein, was das bedeutet: »Die Archivebene ist eine Offline-Ebene für die Speicherung von Daten, auf die nur selten zugegriffen wird. Die Zugriffsebene Archiv weist die niedrigsten Speicherkosten auf. Diese Ebene verursacht jedoch höhere Kosten für den Datenabruf und eine höhere Wartezeit …«. Oder anders gesagt: Ein Archiv in der Cloud hat im Wesentlichen dieselben Charakteristika wie ein Archiv im eigenen Rechenzentrum. Es mag bei Skalierbarkeit besser sein und erspart die Sorge um die Haltbarkeit der Daten – jederzeit »KI-ready« ist es deshalb, weil es in der Cloud ist, aber noch lange nicht.

Zwischenbilanz

Am Ende kommt es wie in Übergangszeiten eigentlich immer: Hybride Modelle werden bevorzugt. Die Ansätze, die nur einen Aspekt betonen, haben in bestimmten Szenarien ihre Berechtigung, in den meisten Unternehmen wird es aber nicht nur das eine Szenario geben.

Gleichzeitig fängt sich die KI-Euphorie gerade an, der Realität anzugleichen. Firmen entdecken, dass ChatGPT und Mitbewerber zwar witzige Antworten geben können und unterhaltsam sind, deren Nutzung sie aber nur dann voranbringt, wenn sie dem KI-Modell erstens saubere Daten zur Verfügung stellen, es zweitens aus rechtlichen und Sicherheitsgründen lokal oder zumindest in einem stark geschützten Umfeld laufen lassen. Und sie drittens die Kontrolle über das KI-Modell haben.

KI ohne Archiv: ein Praxisbeispiel

Ein prominentes Beispiel dafür ist die Otto Group, Deutschlands größter Online-Händler. Das Unternehmen will mit ogChat die Möglichkeiten von KI nutzen. Angefangen hat es damit im Herbst 2023, gedauert hat der Einstieg wenige Wochen. Der Konzern setzt auf den in der EU gehosteten Service Microsoft Azure OpenAI über den Unternehmen generative KI-Modelle von OpenAI (ChatGPT, GPT-4 oder DALL-E) über Microsoft Azure nutzen können.

Ein erstes Nutzungsszenario über die Chat-Funktion hinaus ist, dass Beschäftigte eigene Dokumente oder ganze Knowledge-Bases hochladen und sich im Anschluss mit dem KI-Assistenten darüber unterhalten können, ihm also beispielsweise Fragen zum Inhalt stellen können. Das funktioniert in mehreren Sprachen und mit Quellenverweise. Die generierten Antworten können so einfach nachvollzogen werden.

Die Frage »Gibt´s irgendwas Interessantes in unseren Archivdaten, das mir heute bei der Arbeit weiterhelfen könnte«, hat offenbar noch niemand bei der Otto Group gestellt. Auch in anderen Firmen wird das ein wenig relevanter Anwendungsfall sein. Wenn man sich Erkenntnisse aus alten Daten verspricht, dann mit einer sehr genauen Zielrichtung. Diese Daten dann in andere Systeme zu überführen ist zwar Aufwand, wird aber noch eine ganze Weile vertretbar sein. Schließlich gilt es zum Beispiel auch sicherzustellen, dass deren Formate überhaupt gelesen werden können.

Eine Frage, die in Zukunft in Bezug auf KI und Archivierung viel interessanter werden könnte ist daher vielleicht, wie sich KI dazu benutzen lässt, die anfallenden Datenmengen so zu klassifizieren und zu sortieren, dass möglichst wenige von ihnen ins Archiv wandern müssen – oder ob die zwölf pro Tag vom leicht verliebten Herrn Müller an Frau Maier per Teams verschickten »lustigen« GIF-Dateien vielleicht doch nicht geschäftsrelevant sind.