IDC: Unstrukturierte Daten als Mehrwert behandeln
90 Prozent der digitalen Firmendaten sind unstrukturiert Daten und werden aber nicht wie das neue »Öl« behandelt. IDC fordert Unternehmen daher auf, ihre Daten als Vermögenswert zu betrachten, nicht nur um wettbewerbsfähig zu bleiben, sondern von der Ära der KI zu profitieren. Weltweit soll das Volumen 2023 bei über 73.000 EByte liegen.
Unstrukturierte Daten liegen vorne, sehr deutlich: Im Jahr 2022 waren die von Organisationen erzeugten Daten nur zu zehn Prozent strukturiert. Das Volumen betrug laut IDC weltweit 57.280 EByte und soll heuer um rund 28 Prozent auf über 73.000 EByte wachsen. Diese Menge an Daten entspricht beispielsweise über 97 Billionen sequenzierten menschlichen Genomen oder auch der Menge an Videos, die 24 Stunden am Tag für ein ganzes Jahr auf 2,7 Milliarden Bildschirmen gestreamt werden.
Unstrukturierte Daten oder Inhalte sind für Organisationen von entscheidender Bedeutung: »Unstrukturierte Daten sind integraler Bestandteil von Lieferketten, wo sie in Bestellungen, Produktbeständen und Import-/Export-Aufzeichnungen vorkommen«, erklärt Sven Meyerhofer, Geschäftsführer bei N-TEC. »Sie machen den Großteil menschlicher Kommunikation aus, in Form von E-Mails, Meeting-Transkripten und -Notizen und Präsentationen.«
»Ein Großteil unseres Wissens wird in Form unstrukturierter Daten erfasst, kuratiert und geteilt«, ergänzt Hannes Heckel, Marketing Direktor bei FAST LTA. »Diese Inhalte sind unerlässlich für den Betrieb eines Unternehmen.«
Was an sich nach einer Selbstverständlichkeit klingt, ist in der Praxis für viele Firmen doch noch Neuland. IDC zufolge analysieren Unternehmen nur die Hälfte der unstrukturierten Daten, um daraus einen Nutzen zu ziehen, und nur 58 Prozent der unstrukturierten Daten werden nach ihrer ersten Verwendung mehr als einmal wiederverwendet. Zwar bezeichnen viele Führungskräfte Daten gerne als Vermögenswert, allerdings behandeln sie diese nicht entsprechend.
»Stellen Sie sich die Reaktion von Investoren oder Mitarbeitern vor, wenn ein CEO oder CFO nur die Hälfte der finanziellen Mittel eines des Finanzvermögens eines Unternehmens produktiv einsetzt, um eine Rendite zu erzielen«, sagt John Rydning, Research Vice President bei IDC. »Doch genau das ist der Fall bei unstrukturierten Daten, die routinemäßig vergeudet oder vernachlässigt werden.« Meist fehle ein einheitlicher Rahmen für die Sicherheit unstrukturierter Daten, der ein Gleichgewicht zwischen Governance und Zugriffsanforderungen der Benutzer in Einklang bringt. Zu oft verlasse man sich auf eine manuelle Datenklassifizierung, die vor allem zeitaufwändig ist und auch das schnelle Auffinden relevanter Daten behindert. Generell entsteht diese Lage durch die Silo artigen Strukturen, in denen unstrukturierter Daten in unzähligen Anwendungen, Tools und Systemen erstellt und verarbeitet werden.
Die Zukunft erscheint nicht weniger komplex, angesichts der Rolle von generativer KI (GenAI), die von großen Sprachmodellen (LLMs) abhängt, die mit massiven Mengen von Text, Bildern, Audio und Video trainiert wurden, um Muster zu erkennen und Produktivität, Kreativität und Entscheidungsfindung im großen Maßstab zu fördern. Noch steht der Einsatz von GenAI am Anfang, klar ist aber bereits, sie beruht auf einer Mischung von privaten und öffentlich zugänglichen unstrukturierten Daten.
KI und Bedeutung unstrukturierter Daten
Nun sind künstliche Intelligenz (KI) und Machine-Learning (ML) nicht neu, haben aber seit Ende 2022 einen unglaublichen Fortschritt hingelegt und sich von abstrakten zu »greifbaren« Technologien entwickelt. »Klassische KI oder ML hat eine breite Akzeptanz gefunden«, sagt Holly Muscolino, Group Vice President bei IDC. Nun komme mit der generativen KI ein neuer Zweig hinzu. Diese GenAI-Modelle werden mit großen, hauptsächlich unstrukturierten, öffentlich zugänglichen Datensätzen trainiert. Das Versprechen dieser Technologie, die Art und Weise, wie wir arbeiten und mit Maschinen interagieren, zu verändern, klingt zwar sehr nach Marketing, erste Ergebnisse sind bereits sichtbar.
Und Unternehmen versprechen sich eine Reihe von Vorteilen: In der IDC-CEO-Umfrage 2023 gaben 61 Prozent der nordamerikanischen CEOs und 78 Prozent der europäischen CEOs an, dass sie erwarten, den »laufenden« Teil ihrer IT-Budgets zu reduzieren, um damit neue Initiativen zu finanzieren. Ziel sei es die Produktivität zu verbessern, unter anderem durch die Optimierung von Geschäftsprozessen, der Erstellung kreativer Inhalte, der Interaktion zwischen Mensch und Computer sowie der Wissenserstellung und dem Wissensaustausch. Letztendlich soll mit weniger Aufwand mehr erreicht werden.
Dass Unternehmen damit Gelder einzusparen, glauben Marktbeobachter nicht. Zumindest nicht kurzfristig. Vielmehr sollten Firmen von steigenden Investitionen ausgehen, für neue bzw. erweiterte IT-Infrastrukturen und Tools. Um tatsächlich einen Wert aus unstrukturierten Daten zu ziehen, ist eine einheitliche, kontrollierte, sichere und zugängliche Plattform für alle unstrukturierten Daten notwendig.
Beispiele für spezifische Anwendungsfälle von GenAI:
Identifizieren von riskanten Klauseln in einem Vertrag
Auslösen eines Echtzeit-Geschäftsprozesses über AI-extrahierte Metadaten
Erhöhte Sicherheit im großen Maßstab durch KI-Automatisierung, die manuelle Eingriffe ersetzt
Schnelle Suche und Überprüfung von Finanzunterlagen Dritter, um zu bestimmen, ob ein potenzieller Kunde für ein Angebot geeignet ist
Bewertung der Absicht und des Tons einer E-Mail, um den richtigen Workflow zu bestimmen automatisiert oder menschlich für ein besseres Kundenerlebnis
Das Potenzial von GenAI hängt aber von der strategischen Verwaltung der unstrukturierten Daten einer Organisation ab. Sowohl GenAI und klassische KI-Anwendungsfälle basieren auf verschiedenen KI-Modellen, trainiert mit einer Mischung aus internen, firmeneigenen unstrukturierten Daten und externen offenen Daten. Neue Modelle werden vermutlich mit noch längeren Text-, Video- oder Bilddateien trainiert. Es wird daher erwartet, dass Technologieführer eine Strategie entwickeln, um alle verfügbaren unstrukturierten Daten zu identifizieren, zu klassifizieren und zu vereinheitlichen und sie KI- und Data-Science-Experten zur Verfügung zu stellen, ohne Risiko eines IP-Lecks.
Ein der größten Sorgen ist, dass firmeneigene Inhalte in die großen Sprachmodelle der GenAI-Technologieanbieter einfließen. Kritisch sehe man auch die Unklarheit über die Rechte am geistigen Eigentum im Zusammenhang mit dem von GenAI automatisch generierten neuen Inhalt. Hinzukommt das Management der Mitarbeiterwahrnehmung über die Automatisierung bestehender Jobfunktionen.
Anbieter von GenAI-Technologien versuchen diesen Bedenken mit folgenden Lösungen zu begegnen:
Verpflichtung zur Transparenz über KI-Praktiken, Technologie, Anbieter und Datenverwendung
Volle Kontrolle des Kunden über KI-Nutzung, Daten und Prozesse; Kunden können die Nutzung von KI aktivieren oder deaktivieren und entscheiden, ob KI auf ihre unstrukturierten Daten angewendet werden soll
Sicherstellung, dass keine LLMs ohne ausdrückliche Zustimmung mit Kundendaten trainiert, werden
Den Nutzern ein klares Verständnis darüber vermitteln, wie ihr KI-System funktioniert und welche Gründe hinter den KI-Ergebnissen stehen, um Kontext zu bieten
Einsatz von vertrauenswürdigen KI-Modellen, die die Genauigkeit, Zuverlässigkeit und Sicherheit von KI-Lösungen unterstützen
Sicherstellung, dass KI-Systeme denselben Kontrollen und Datenzugriffsrichtlinien unterliegen, die den Zugriff auf unstrukturierte Daten innerhalb ihrer Plattform und des gesamten Systems bestimmen: Dies beinhaltet den Schutz von Kundendaten durch die Implementierung robuster Sicherheitsprotokolle, einschließlich Verschlüsselung
Untergenutzt, Unterbewertet, Unterfinanziert
Unsere laufende Forschung weist darauf hin, dass trotz des Volumens und der Vielfalt der unstrukturierten Daten die Menge der unstrukturierten Daten ist wesentlich größer als die der strukturierten Daten, dennoch sind die Ausgaben für Technologie zur Nutzung unstrukturierter Daten geringer als für strukturierte Daten.
Fünfundfünfzig Prozent sagen, dass weniger als die Hälfte aller unstrukturierten Daten unter Mitarbeitern oder Systemen geteilt wird.
Einundvierzig Prozent sagen, dass weniger als die Hälfte aller unstrukturierten Daten wiederverwendet werden. Das heißt, nach der Erstnutzung mehr als einmal darauf zugreift.
Zudem gibt es zu viele Kopien (22%), weil Organisationen bzw. Mitarbeiter nicht wissen, was sie haben oder wie sie es finden können.
Sechsundvierzig Prozent der Befragten analysieren weniger als die Hälfte aller unstrukturierten Daten, um einen Mehrwert daraus zu extrahieren. Zudem geschieht dies oft zu manuell.
IDC sieht hier ein Potenzial für zusätzliche Automatisierung. Diese würde nicht nur die Produktivität verbessern, sondern Organisationen auch ermöglichen, den Wert unstrukturierter Daten vollständig zu nutzen.
Momentan verschwenden oder vernachlässigen Firmen, eigentlich wertvolle Ressourcen in Form von unstrukturierten Daten. Bisher erzeugen sie keine Rendite auf das Vermögen (ROA) und erlauben keinen nachgelagerten ROI.
Dennoch können nur 44 Prozent der Organisationen Finanzmittel für Projekte rechtfertigen, die sich mit der neuen oder besseren Nutzung von unstrukturierten Daten befassen.
»Basierend auf unseren Analysen zu Technologieausgaben schätzen wir, dass nur 40 Prozent der Gesamtausgaben für Datentechnologie-Projekte und Initiativen zugewiesen werden, die sich auf unstrukturierte Daten konzentrieren«, erklärt IDCs Research-Managerin Amy Machado. »Mehr Finanzmittel sind notwendig, da Organisationen sowohl durch unstrukturierte Daten herausgefordert werden als auch Chancen suchen, um Vorteile aus diesen Daten zu ziehen, zumal diese 90 Prozent aller Daten repräsentieren.« Um die Chance und den Wert unstrukturierter Daten zu ergreifen, müssen Unternehmen vier Faktoren angehen, die von unstrukturierten Daten beeinflusst werden und diese beeinflussen: Komplexität, Geschäftsrisiken, Compliance-Herausforderungen und Produktivität.
Der Finanzierungsprozess bleibt auch in Zukunft uneinheitlich: 40 Prozent der Befragten erwarten, dass die Finanzierung von unstrukturierten Datenprojekten in den nächsten ein bis drei Jahren einfacher wird. Wobei die gleiche Anzahl davon ausgeht, dass sich nicht viel verändert.
Kenne Deine Daten
Der Report von IDC und Box beschäftigt sich auch damit, ob die Befragten wissen, welche Arten von unstrukturierten Daten es in ihrer Organisation gibt, welche Anwendungsfälle und wo sich diese befinden.
Beachtliche 43 Prozent bewerteten ihre Firma in dieser Hinsicht als »sehr gut« oder »ausgezeichnet«. Von diesen Befragten verfügen fast alle über eine zentrale Datenhaltung. 32 Prozent schätzen sich als »gut« ein. Hingegen sieht sich ein Viertel als »ausreichend« oder »schlecht« aufgestellt.
»Mit anderen Worten, das Vorhandensein von Daten, die größtenteils oder vollständig zentralisiert sind, hilft Organisationen erheblich dabei, zu wissen, was sie haben und wo es gefunden werden kann«, meint Dan Vesset, Group Vice President bei IDC. »Andererseits haben die meisten Unternehmen, deren unstrukturierte Daten vollständig oder größtenteils in Silos gespeichert sind, Schwierigkeiten, die benötigten Ressourcen zu finden. Sie machen die Nichteinhaltung von Vorschriften und Sicherheitsverstöße wahrscheinlicher.«
IDC: Daten als Vermögenswert behandeln
Für die Marktforscher von IDC ist klar, um nicht nur wettbewerbsfähig zu bleiben, sondern in der Ära der KI zu florieren, müssen Organisationen ihre Daten als Vermögenswert behandeln. Bei strukturierte Daten in Datenbanken und Data-Warehouses sei dies ist bereits weitgehend der Fall.
Die Analysten sehen jedoch ein Umdenken, vor allem durch den Bedarf an Daten für die Schulung von GenAI-Modellen. Firmen, die sich mit KI beschäftigen, würden auch die Risiken und Kosten erkennen, die damit verbunden seien, nicht mehr in Technologie, Fähigkeiten und Prozesse zu investieren. Nur so sei eine Wertschöpfung aus unstrukturierten Daten möglich.
Um den ungenutzten Wert von unstrukturierten Daten zu verbessern, sollten Führungskräfte von Unternehmen und IT laut IDC folgendes in Betracht ziehen:
- Erfassung unstrukturierten Daten in der Organisation sowie den Prozesse, die darauf angewiesen sind.
- Bewertung der neuesten Technologieplattformen zur Vereinigung unstrukturierter Daten.
- Bei der Betrachtung solcher Plattformen, Bewertung von Plattformskalierbarkeit, Leistung, Verwaltbarkeit, Interoperabilität und Sicherheit.
- Datenklassifikationsschema einsetzen, um den Zugriff und die Nutzung unstrukturierter Daten zu unterstützen.
- Bewertung aktueller KI-Angebote von Anbietern von einheitlichen Datenplattformtechnologien und deren Roadmaps in der sich schnell ändernden KI-Technologie.
- Kontinuierlich mit GenAI experimentieren, um die produktive Nutzung dieser neuen Technologie zu identifizieren.
- Ein Datenkompetenzprogramm starten oder erweitern, um die bessere Interaktion von Mitarbeitern mit KI-gestützten Datenlösungen zu erleichtern.
- »Human-in-the-Loop«: Mit GenAI als Werkzeug die Mitarbeiter unterstützen, indem sie wiederholbare Schritte in ihrem Arbeitsablauf automatisieren, anstatt menschliches Fachwissen, Urteilsvermögen und zwischenmenschliche Kommunikationsfähigkeiten zu ersetzen.
- Mit GenAI die Arbeit des Compliance-Teams unterstützen und um die Auswirkungen unstrukturierter Daten auf die Einhaltung von Vorschriften zu verstehen.
- Integration von unstrukturierten und strukturierten Daten, um Prozesse zu optimieren und datengesteuerte Entscheidungen zu verbessern.
»Der Report zeigt die vielen Herausforderungen, denen Organisationen mit isolierten und stark variierenden unstrukturierten Daten gegenüberstehen«, sagt Research VP Rydning. »Wir fanden auch heraus, dass Organisationen daran interessiert sind, mehr in Initiativen für unstrukturierte Daten zu investieren, da sie den Bedarf an solchen Daten für die Schulung von GenAI-Modellen erkennen. Das heißt, inklusive der Risiken und Kosten, die damit verbunden sind, nicht mehr in Technologie, Fähigkeiten und Prozesse im Zusammenhang mit der Wertableitung aus unstrukturierten Daten zu investieren.«
Weiterführende Informationen: