Das Datenwachstum oder die Ursachen bekämpfen?

11.11.2011 Doc Storage

Das Datenwachstum oder die Ursachen bekämpfen?

Leserfrage: Im Zusammenhang mit Big Data ist die Datenintegration einer der Problemherde. Die Daten sind heterogen verstreut und müssen in riesigen Mengen verarbeitet werden. Herstellern zufolge gelte es nun seine Datenintegrationsstrategie zu überdenken und schlussendlich auf ETL(2.0)-Tools (Extraktion, Transformation, Laden) zu setzen. Angeblich lassen sich damit die Speicherkosten um bis zu 90 Prozent senken. Wie sehen Sie das, ist dies tatsächlich möglich? Wäre es nicht sinnvoller das Datenaufkommen einzuschränken und frühzeitig restriktiver zu entscheiden, welche Daten wirklich wichtig genug sind, um gespeichert zu werden?

Antwort Doc Storage:

Das Datenaufkommen in Zukunft um 90 Prozent zu senken, diese Eigenschaft schreibe ich nur der Deduplikation zu. Also der Fähigkeit, tatsächlich redundante Daten innerhalb eines geschlossenen Inertials zu reduzieren. Dies innerhalb heterogener Umgebungen, die innerhalb von ETL-Systemen bestehen, zu erwarten, ist mehr als optimistisch. In ETL-Umgebungen werden Daten zwar extrahiert, übersetzt und geladen, das heißt allerdings nicht, dass die ursprünglichen Daten nach diesem Prozess nicht mehr benötigt und dann gelöscht werden. Vielmehr kann diese Datenbasis als Quelle weiterer Übertragungen in andere Datenbanken dienen, so dass der absolute belegte Speicherplatz sogar größer als der ursprünglich benötigte sein könnte.

Es wird in Zukunft wesentlich wichtiger werden zu entscheiden, welche Daten speicherwürdig sind und welche nicht. Darüber hinaus wird es an Bedeutung zunehmen, ob die gespeicherten Informationen tatsächlich wahr sind. Im Ende werden es nicht wirklich weniger Daten werden, die auf den Speichern landen. Aber auf jeden Fall werden wir zunehmend unabhängige Institutionen benötigen, die den Informations- und vor allem Wahrheitsgehalt der vorliegenden Daten bewerten.

Gruß
Doc Storage