Wenn die Daten-Pipeline leckt

Warum Datenverfügbarkeit und -qualität gerade heute so kritisch sind

Ein Gastbeitrag von Wolfgang Kobek, Qlik3. August 2020

Viele verfügbare Informationen bleiben in der Datenanalyse außen vor – das ist verschenktes Potenzial. Besonders in unstrukturierten Daten lagert ein Schatz an Informationen, der sehr wohl gehoben werden kann.

Es tut sich etwas in den Unternehmen: War man jahrelang vor allem mit dem Sammeln von Daten beschäftigt, so geht es jetzt in immer mehr Organisationen darum, das Beste aus dem Datenschatz herauszuholen. Schließlich will man das Business datengetrieben voranbringen und es letztlich transformieren. Deutlich gewachsene Investitionen in Technologien wie Augmented Analytics und Maschinelles Lernen beweisen, dass Unternehmen die Chancen zunehmend erkennen, die im Aufbrechen von Datensilos liegen.

Fast die Hälfte aller Firmen tut sich schwer damit, die Richtigkeit der eigenen Daten zu beurteilen.

Seit das Analystenhaus Gartner Augmented Analytics 2017 zum ersten Mal in seinen Hype-Zyklus aufgenommen hat, hat sich eine rasche Akzeptanz des Konzepts eingestellt. Nun gilt Augmented Analytics als einer der „dominierenden Treiber für Investitionen in Analytics und Business Intelligence“ des Jahres 2020.

Besonders die unstrukturierten Daten bleiben außen vor

Doch während viele Unternehmen daran arbeiten, umsetzbare Erkenntnisse aus ihren Daten abzuleiten, verwenden die meisten nur einen Bruchteil der vorhandenen Informationen zur Analyse. Gerade die unstrukturierten Daten wie Texte, Bilder, Audio- oder Videodaten, die sich zu den strukturierten Data-Warehouse-Informationen in den ständig wachsenden Data-Lakes gesellen, bleiben oft noch weitgehend unbeachtet. IDC berichtet aktuell, dass bis zu 90 Prozent der unstrukturierten Daten niemals analysiert werden. Fragt sich nur: wieso?

Lesetipp

Ein Teil der Antwort zeigt sich, wenn Daten in einem kurzen Gedankenexperiment zum Beispiel mit Wasser verglichen werden: Auch eine Analytics-Lösung, die mit begrenzten Daten-Ressourcen arbeitet, kann ein einfaches Analytics-Resultat liefern – wie ein simpler Wasserhahn, aus dem sich ein (irgendwie beschaffenes) Glas Wasser einschenken lässt. Was in diesem Fall jedoch unsichtbar bleibt, ist der Weg des Wassers: Stammt es direkt aus einer Quelle? Wurde es bearbeitet oder aufbereitet? Ist es wirklich rein? Und sind die Rohre auf dem Weg zum Wasserhahn tatsächlich dicht – oder geht Wasser auf dem Weg zum Glas durch Leckstellen verloren? Und wenn ja, wie viel?

Nur vollständige Daten liefern ein komplettes Bild

Ähnlich verhält es sich mit dem Geschäftswert von Daten: Nur wenn Wissenslücken und blinde Flecken aufgedeckt werden – und wenn ein Gespür dafür entsteht, wo noch Daten fehlen oder Unschärfen in der Datenqualität liegen – kann die Daten-Pipeline ihren vollen „Wasserdruck“ aufbauen. Reines, einwandfreies Wasser von nachvollziehbarer Herkunft bedeutet im Sinn des Wasser-Beispiels daher agile, automatisierte Datenverfügbarkeit ohne Infrastrukturhürden und Lecks.

Kurz: Wer in Echtzeit über jede Cloud, jedes System, jede hybride Umgebung und jede Datenquelle hinweg arbeiten kann, erhält in der Analyse letztlich die reineren, verlässlicheren und aussagekräftigeren Einblicke für seine Geschäftsentscheidungen als jemand, dessen Analysen im Grunde nur auf Daten-Ausschnitten beruhen.

Fehlen Realtime-Möglichkeiten, Anbindungsfähigkeiten für alle Datenquellen oder auch die Leistungsfähigkeit in der Visualisierung, bleiben viele Informationen ungenutzt, die in Kombination mit weiteren Daten noch deutlich mehr Einblicke liefern könnten. Hier geht viel Potenzial verloren – denn wer weiß schon, was er alles nicht weiß?

Führungskräfte wollen trotz Krise weiter in Datenanalyse investieren, um künftig eine bessere Grundlage für Geschäftsentscheidungen zu haben. (Quelle IDC/Qlik)

Ein sehr weit verbreitetes Problem

Die neue globale IDC-Umfrage unter 1.200 Top-Führungskräften und Entscheidungsträgern zeigt jedenfalls, dass „undichte“ Daten-Pipelines ein ziemlich weit verbreitetes Problem sind – eines, das zudem alle Branchen gleichermaßen betrifft. Die Mehrheit der im Auftrag von Qlik befragten Unternehmen hat demnach Schwierigkeiten damit, unter vielen verschiedenen Daten die relevanten zu erkennen und daraus bessere Erkenntnisse und Handlungsoptionen abzuleiten. Über 60 Prozent der Führungskräfte geben in der Untersuchung an, erhebliche Herausforderungen zu sehen, wenn es zum Beispiel darum geht, wertvolle Datenquellen zu identifizieren, sie konsistent nachzuvollziehen, sie zu bewerten und mit realem Geschäftswert zu verbinden.

Nach der Identifizierung (aller!) entsprechenden Quellen stehen Unternehmen zudem vor weiteren Herausforderungen – etwa bei der Verarbeitung oder Umwandlung der Daten in ein analysetaugliches Format. Fast die Hälfte (42 Prozent) hat Schwierigkeiten, die Richtigkeit der Daten zu beurteilen, während 37 Prozent Schwierigkeiten damit haben, unterschiedliche Datensätze in eine gemeinsame Analyse-Oberfläche zu integrieren. Ebenso viele Befragte berichten zudem davon, bei der Recherche von Datenquellen immer wieder auf fehlende oder unvollständige Datensätze zu stoßen.

Solide Daten-Pipeline – bessere Geschäftszahlen

Anwenderunternehmen sehen Daten als das neue Wasser, das ihnen das Überleben sichert. Ebenso wie Wasser müssen Daten allgemein verfügbar und möglichst rein sein. (Quelle IDC/Qlik)

Die neue IDC-Studie legt ebenfalls nahe, dass die Daten-Pipeline einer der zentralen Aspekte datengetriebener Unternehmenssteuerung ist: Laut Umfrage erzielen Organisationen mit einer starken Daten-Pipeline die besten datenbasierten Entscheidungsergebnisse (87 Prozent). Die Vermutung liegt nahe, dass die entsprechenden Unternehmen mehr als andere in der Lage sind, Daten in valide Entscheidungsgrundlagen und letztlich in Business-Erkenntnisse für die Entscheidungsfindung zu transformieren.

Und das wirkt sich positiv auf die Geschäftsergebnisse aus: Von den Befragten, die bereits in eine starke Daten-Pipeline investiert haben, berichten rund drei Viertel, dass sich die betriebliche Effizienz um durchschnittlich 17 Prozent verbessert hat. Mit Blick auf den Umsatz berichten sie von einer Steigerung um durchschnittlich ebenfalls 17 Prozent – im gleichen Maß steigerte sich der Gewinn.

„Um Unternehmenssteuerung und Geschäftsergebnisse datenbasiert zu verbessern, muss die gesamte Daten-Pipeline robust sein“, so Dan Vesset, Group Vice President, Analytics and Information Management bei IDC. Im Sinne der Wasser-Metapher spiele es keine große Rolle, ob mögliche Fehler dann am Quellort, an der Pumpe, in der Filtrationsanlage, im Rohr oder erst am Wasserhahn auftreten. „Das Ergebnis ist, dass der Konsument nicht das bekommt, was er wirklich braucht.“

IDC empfiehlt, Daten in einem fünfstufigen Prozess in ein Format aufzubereiten, das aussagekräftige Analysen ermöglicht. (Quelle IDC/Qlik)

Fazit

Um die Lücken in den Daten-Pipelines von Organisationen zu schließen, empfehlen sich folgende Tipps:

Die Investition in Technologien, die nicht nur auf Analytics setzen, sondern auch hohe Datenqualität (evtl. KI-gestützt) gewährleisten.
Die Entwicklung und Förderung von Daten-Enthusiasten, die gern mit digitalen Informationen arbeiten. Datenkompetenz geht jeden an!
Das Sicherstellen von Daten-Pipelines, die zu Mitarbeitern, Teams und ganzen Abteilungen passen. Es braucht nicht jeder alle Daten – die für ihn wichtigen allerdings jederzeit und auf allen Devices.
Das Aufsetzen einer Daten-Pipeline, die Veränderungen berücksichtigt. Das heißt, dass maschinelles Lernen, kognitive Fähigkeiten und künstliche Intelligenz ebenso wie flexible Architekturen, hürdenlose Infrastrukturen und skalierbare Cloud-Technologien zu integrieren sind.