Alle 14 Tage aktuelle News aus der IT-Szene >
Gastbeitrag: Viele Unternehmen nennen sich „data driven“ oder wollen es werden. Dafür brauchen sie meist ein ganzes Team von Data Engineers, die Datenpipelines für die Datenzentralisierung bauen müssen und somit keine Zeit für wertschöpfende Arbeiten haben – sofern das Unternehmen überhaupt genug Daten-Experten hat. Dabei gibt es längst Lösungen, weiß Tobias Knieper von Fivetran.
Foto: Fivetran Tobias Knieper verantwortet als Marketing Lead DACH seit 2020 den Aufbau von Fivetran im deutschsprachigen Raum. Fivetran ist eine Plattform für automatisiertes Data Movement, die persönliche Daten anonymisiert und diese anschließend bereinigt, normalisiert und automatisiert in den Data Lake lädt. Dass sich aus Daten wertvolle Erkenntnisse gewinnen lassen, ist eine Binsenweisheit. Weniger einfach ist die Umsetzung. Auf dem Weg zum datengetriebenen Unternehmen setzen immer mehr Unternehmen auf den sogenannten Modern Data Stack. Er kombiniert Tools unterschiedlicher Anbieter, die sich ideal ergänzen. Üblicherweise sind das:
Während Unternehmen bei den Plattformen und BI-Tools in der Regel fertige Lösungen nutzen, werden die Pipelines häufig selbst entwickelt. Die Folge: Data Engineers verbringen durchschnittlich 44 Prozent ihrer Zeit ausschließlich mit der Pflege von Datenpipelines, so ein Bericht von Wakefield Research. Drei von vier Data Engineers haben das Gefühl, dass Zeit und Potential ihres Teams durch die manuelle Verwaltung der Datenpipelines verschwendet werden.
Die Ergebnisse decken sich mit unseren Erfahrungen aus der Praxis. Denn klassische Tools zur Datenintegration, die viel manuelle Arbeit benötigen, sind für die heutigen Anforderungen kaum geeignet. So braucht ein Data Engineer meist Wochen oder gar Monate, um eine Pipeline, bzw. einen Konnektor, zu erstellen. Wenn man bedenkt, dass Unternehmen in der Regel Dutzende oder sogar Hunderte an Konnektoren benötigen, wird klar, dass ein solches Projekt die Arbeitszeit mehrerer Data Engineers für lange Zeit bindet.
Doch damit ist es nicht getan: Sind die Konnektoren konfiguriert, müssen zahlreiche Schemata und Tabellen einzeln manuell eingerichtet werden, sodass die Daten im gewünschten Format ankommen. Hinzu kommt die Wartung. Jedes Mal, wenn sich die API oder Datenstruktur einer Datenquelle ändert, müssen API-Endpunkte und unterstützte Felder sowie die Pipeline-Extraktionsskripte angepasst werden. Das sorgt dafür, dass ständig Ressourcen des Data Engineering Teams gebunden sind.
Trotz des enormen Zeitaufwands ist das Ergebnis oft nicht befriedigend, weil Daten in mangelhafter Qualität vorliegen und/oder nicht aktuell sind. Das Datenteam hat die Hoheit über die Daten und bildet damit oft einen Engpass, wenn Fachabteilungen Auswertungen anfragen. In der Folge werden Unternehmensentscheidungen auf einer fragwürdigen Datenbasis getroffen. Bei der Wakefield Research Befragung gaben 69 Prozent der Data- und Analytics-Verantwortlichen an, dass sich die Geschäftsergebnisse verbessern würden, wenn ihre Teams weniger Zeit für das Management der Pipelines aufwenden müssten.
Eine Alternative ist ein automatisierter Ansatz. Er basiert auf vorkonfigurierten Datenpipelines, die sofort einsetzbar sind und vom Anbieter verwaltet und aktualisiert werden. Mit diesen Konnektoren können Unternehmen den Prozess der Datenintegration in ihr Data Warehouse oder Data Lake automatisieren und verbessern. Somit werden die Data Engineers von der laufende Pipeline-Pflege entlastet und können ihre wertvolle Zeit für die tatsächliche Datenanalyse einsetzen.
Zum Beispiel hat die Parfümeriekette Douglas im Rahmen der Modernisierung ihrer Infrastruktur und BI-relevanter Prozesse auch das Data Movement automatisiert. Rund 200 vorkonfigurierte Konnektoren zentralisieren jetzt die Daten aus unterschiedlichen Bereichen und Datenquellen. Durch die vollständige Automatisierung von Datenintegrationsprozessen konnte Douglas den Arbeitsaufwand eines Vollzeit-Data-Engineers einsparen, der zuvor für die manuelle Berichterstellung anhand von Tabellen investiert werden musste. Zudem stehen aktuelle und vollständige Daten aus den verstreuten Systemen zeitnah für Market-Intelligence-Analysen zur Verfügung. Neben der Zeitersparnis profitiert das Unternehmen zudem von der Möglichkeit umfangreicher Auswertung von digitalen Kampagnen und detaillierteren Einblicken in Produkt- und Preistrends.
Die Automatisierung der Datenintegration wird immer wichtiger aufgrund von verschiedenen Entwicklungen:
Mit der Automatisierung geht meist Datendemokratisierung im Unternehmen einher. Denn Daten sind damit jederzeit in nutzbarer Form verfügbar und mit modernen BI-Tools lassen sich relativ einfach Analysen jeglicher Art durchführen. Dadurch können Fachabteilungen diese in der Regel selbst erstellen, ohne auf die Unterstützung durch das Datenteam angewiesen zu sein. Sie haben schnellere Ergebnisse und das Datenteam wird zusätzlich entlastet – eine klassische Win-win-Situation.
So ist es zum Beispiel auch beim Immobilienmakler-Unternehmen Engel & Völkers. Hier ist der Anteil der Mitarbeitenden, die mit Reports arbeiten, innerhalb von sechs Monaten um über 100 Prozent angestiegen. Gleichzeitig führten die Echtzeit-Einsichten in allen Teams zu einer höheren Produktivität.