Data Science & KI

Der Aufstieg von Data Mesh: Wie Unternehmen ihre Datenorganisation revolutionieren

VonMH - Analytics & Insights Redaktion·12 Minuten Lesezeit

Wir erklären das Konzept von Data Mesh, mit dem Daten nach einem demokratischen Prinzip aufgebaut, verwaltet und genutzt werden können.

Was ist Data Mesh?

Data Mesh betrachtet Daten als ein Produkt. Wer verfügt über das tiefste Verständnis für fachspezifische Daten? Natürlich der dazugehörige Fachbereich. Warum also nicht die Experten mit Rechten versehen, ihre Daten zu pflegen und als ein Produkt auf einer internen Plattform anzubieten bzw. mit den anderen Experten-Teams auszutauschen? Data Mesh dient genau diesem Zweck.

Data Mesh ist ein Architekturkonzept, das darauf abzielt, die Effizienz und Skalierbarkeit der Datenverwaltung in großen Organisationen zu verbessern. Es stellt einen Paradigmenwechsel dar, indem es Daten nicht mehr zentralisiert verwaltet, sondern als dezentrale Produkte betrachtet, die von den jeweiligen Domänenbesitzern verantwortet werden. Dies fördert eine schnellere Datenverarbeitung, erhöht die Fachkompetenz und ermöglicht eine effektivere Zusammenarbeit innerhalb des Unternehmens.

Wie ist Data Mesh entstanden?

Der Begriff "Data Mesh" wurde 2019 von Zhamak Dehghani geprägt und erstmals verwendet, um die Prinzipien einer domänenorientierten, dezentralen Architektur für analytische Daten zu beschreiben. Zhamak Dehghani ist eine angesehene Expertin im Bereich der Datenarchitektur und hat maßgeblich dazu beigetragen, das Konzept des Data Mesh zu definieren und bekannt zu machen. Ihr Buch "Data Mesh: Delivering Data-Driven Value at Scale" stellt ihre Ideen vor und erläutert den wirtschaftlichen Nutzen.

Während Skalierbarkeit, diverse Datenformate, Governance und Sicherheit bereits durch verschiedene technische und architektonische Ansätze adressiert wurden, rückten Datenzugriff, Datenzuverlässigkeit und Performance immer stärker in den Fokus. Data Mesh entstand als Lösung für Entscheidungsträger, die Zeit und Geld als gleichwertig betrachten, wobei Zeit überlebenswichtig für die Wettbewerbsfähigkeit ihres Teams und ihres Unternehmens ist.

Welche Probleme löst Data Mesh?

Viele Unternehmen haben in einen zentralen Data Lake oder ein Data Warehouse sowie in ein Datenanalyse-Team investiert, um ihre Daten schneller auswerten zu können und Umsätze oder Expansion voranzutreiben. Jedoch stellen sich nach anfänglichen Erfolgen die Datenanalyse-Experten oft als Engpass heraus. Das Team kann nicht alle Fragen oder ad hoc Analysen schnell genug beantworten, was zu Problemen führt. Zeitnahe und datengetriebene Entscheidungen sind jedoch entscheidend für positive Bilanzen und Wettbewerbsfähigkeit.

Beispiele für solche Fragen sind beispielsweise Vertriebsstrategien: Ist es sinnvoll, am Black Friday kostenlosen Versand anzubieten? Sind Kunden bereit, längere, aber genauere und zuverlässigere Lieferzeiten zu akzeptieren? Wie wirkt sich das Produktdesign auf die Verkaufs- und Retourenquote aus?

Die Strukturierung großer Datenmengen und schneller Zugriff sind die Kernherausforderungen, denen Data Mesh begegnet. Der Architekturansatz sorgt dafür, dass bestimmte Daten allgemeinzugänglich und leicht auffindbar bleiben. Dies ermöglicht einfachere Analysen und schnellere Auswertungen, was wiederum die Wertschöpfung erleichtert. Insgesamt führt dies zu einer effektiveren und skalierbaren Datenverwaltung in einer Organisation und trägt zu besseren Geschäftsergebnissen bei.

Lassen Sie uns ein weiteres Beispiel betrachten: Das Data & Analytics Team hat die anspruchsvolle Aufgabe, Daten zu analysieren, um aussagekräftige Antworten zu liefern, jedoch ist die Zeit knapp bemessen. Zudem treten immer wieder Probleme mit defekten Datenpipelines auf, die aufgrund von Änderungen in der Quelldatenbank häufig nicht mehr einwandfrei funktionieren. Innerhalb des verbleibenden Zeitfensters muss das Team Informationen aus verschiedenen Domänen zusammentragen und verstehen. Das stellt eine immense Herausforderung dar und erfordert auch fundiertes Fachwissen, um die gestellte Aufgabe zu erfassen und die Frage korrekt zu beantworten.

Zhamak Dehghani argumentiert in diesem Zusammenhang, dass herkömmliche zentralisierte und monolithische Datenverwaltungsplattformen bei großen Unternehmen mit vielen unterschiedlichen Datenquellen und -nutzern versagen, da sie keine klaren Domänengrenzen und klare Zuständigkeiten für die Domänendaten aufweisen.

Die Lösung besteht daher darin, die Verantwortung für die Daten auf die jeweiligen Domänenbesitzer zu übertragen und ihnen die Möglichkeit zugeben, ihre eigenen Lösungsansätze zu präsentieren. Dies ist der Grundgedanke des Data Mesh-Konzepts.

Was sind die Vorteile von Data Mesh?

Auf den Punkt gebracht bietet Data Mesh die folgenden Vorteile für Ihr Unternehmen:

Dezentralisierung und Domänenverantwortung: Data Mesh ermöglicht die Dezentralisierung der Datenverantwortung auf die einzelnen Domänen oder Teams. Dadurch werden die Domänenbesitzer zu Experten für ihre spezifischen Daten und können diese effektiv verwalten. Dies führt zu einer verbesserten Datenqualität und -integrität.
Skalierbarkeit und Agilität: Durch die dezentrale Datenverwaltung in Data Mesh können Organisationen besser auf wachsende Datenmengen und Anforderungen reagieren. Neue Domänen können nahtlos integriert werden, ohne dass die gesamte Datenarchitektur umgestaltet werden muss. Dies ermöglicht eine schnellere Skalierung und Agilität in der Datenverarbeitung.
Verbesserte Datenzugänglichkeit und Zusammenarbeit: Data Mesh fördert die Zusammenarbeit und den Austausch von Daten zwischen den Domänen. Durch klare Schnittstellen und Datenkataloge wird der Zugriff auf Daten erleichtert, was zu einer verbesserten Zusammenarbeit und besseren Entscheidungsfindung führt.
Datenautonomie und Innovation: Durch die dezentrale Datenverantwortung werden die einzelnen Domänen befähigt, autonom Entscheidungen zu treffen und Innovationen voranzutreiben. Sie haben die Kontrolle über ihre eigenen Datenprodukte und können diese nach ihren spezifischen Anforderungen weiterentwickeln.
Reduzierte Abhängigkeit von zentralen Ressourcen: Data Mesh reduziert die Abhängigkeit von zentralisierten Datenmanagement-Teams und -Infrastrukturen. Dies entlastet diese Teams und ermöglicht es ihnen, sich auf strategischere Aufgaben zu konzentrieren, während die Domänenbesitzer die Verantwortung für ihre eigenen Daten tragen.

Die vier Säulen von Data Mesh

Die vier Säulen von Data Mesh bilden gemeinsam das Fundament einer effizienten und skalierbaren Datenarchitektur. Durch die Betonung der Domänenorientierung, Selbstbedienung, föderierten Governance und der Sichtweise von Daten als Produkt ermöglichen sie eine dezentrale Datenverantwortung und fördern die Zusammenarbeit, Autonomie und Innovation bei der Datenverarbeitung.

Domänenorientierung: Daten werden den jeweiligen Domänen zugeordnet und von Domänenbesitzern verwaltet.
Daten als Produkt: Durch die Betrachtung von Daten als eigenständige Produkte wird die Wertschöpfung aus den Daten maximiert und entsprechende Verantwortung geschaffen.
Föderierte Governance: Domänen arbeiten zusammen, um gemeinsame Datenstandards und -richtlinien festzulegen.
Selbstbedienung: Domänenbesitzer haben einfachen Zugriff auf Daten und können sie selbstständig verwalten und nutzen.

Wie funktioniert Data Mesh?

Um Data Mesh optimal im Unternehmen umzusetzen, empfiehlt sich ein schrittweises Vorgehen:

1. Zusammenstellung der jeweiligen Domänenteams

Im Fokus steht die Domäne mit einem verantwortlichen Team und ihren operativen und analytischen Daten.
Das Domänenteam nimmt operative Daten auf und erstellt analytische Datenmodelle als Datenprodukte, um eigene Analysen durchzuführen.
Das Team kann sich auch dafür entscheiden, Datenprodukte zu veröffentlichen, um den Datenbedarf anderer Domänen-Teams zu decken.

2. Übertragung und Bereinigung der Daten

Die jeweiligen Teams stellen die Daten zusammen und fügen sie in die Architektur ein.
Anschließend erfolgt die Bereinigung der Daten. Z.B. werden mögliche Duplikate entfernt, um eine saubere Analyse der Daten zu ermöglichen

3. Einsatz von Tools

Der Einsatz von Data Mesh in Kombination mit Visualisierungstools ermöglicht umfangreiche und zuverlässige Reports und Analysen und die Optimierung des Datenzugriffs

4. Bereitstellung

Daten werden für verschiedene Teams zur Verfügung gestellt.
Hier ist es hilfreich dafür zu sorgen, dass Anpassungen oder Veränderungen der Datensätze einfach dokumentiert werden können.

Das Data-Mesh-Konzeptbezieht im Gegensatz zu den anderen Datenarchitektur-Paradigmen die Datenquellen in die Betrachtung mit ein. Operative Daten werden über operative Datenprodukte (beziehungsweise deren Schnittstellen) bedient, genauso wie analytische Datenprodukte.

Data Mesh vs. Data Fabric

Die Kombination verschiedener Techniken zur Datenspeicherung und Integration, ohne sich auf spezifische Architektur-Archetypen wie Data Lake oder Data Warehouse zu beschränken, spiegelt sich im Begriff "Data Fabric" wider. Dieser Begriff wurde ursprünglich im Jahr 2015 von George Kurian von NetApp geprägt und wurde später im Jahr 2019 von Gartner aufgegriffen.

Die Datenarchitektur von Data Fabric beinhaltet die Verknüpfung von Datenquellen, ML-Tools und Data Governance. Data Mesh und Data Fabric bieten beide Anwendungsfälle für "Data as a Product" und arbeiten mit Datenkatalogen. Die gespeicherten Datenformate umfassen strukturierte und semi-strukturierte Daten.

Was unterscheidet diese Paradigmen? Data Fabric ermöglicht nahezu Echtzeit-Daten durch Daten-Virtualisierung, während bei Data Mesh keine festen Regeln für die Datenaktualität existieren, da dies von der technischen Umsetzung abhängt.

1. Data Mesh

Datenarchitektur, die sich auf die Verteilung und Anordnung von Daten nach Bereichen konzentriert
Ziel: Vereinfachter Zugang zu Daten innerhalb des Unternehmens
Ähnlich wie bei Data Fabric: Schwerpunkt auf Metadaten und Datenkatalog fungiert als domänenübergreifendes Inventar der verfügbaren Datenprodukte
Im Gegensatz zum Data Warehouse (DWH) stehen Berichts- und Analyse-Tools nicht im Fokus

2. Data Fabric

Fokus auf Metadaten
Metadatenbestehen aus Datenkatalog und Knowledge-Graph mit semantisch verknüpften Metadaten
Gartner: Einsatz von Künstlicher Intelligenz bzw. maschinellem Lernen zur teilweisen Automatisierung der Metadatenerstellung als "aktive Metadaten"
"Aktive Metadaten" ist zweiter wichtiger Kerngedanke des Data Fabric-Konzepts
Daten werden als Dienste betrachtet:
- Transaktionale Dienste mit klassischen datensatzbasierten APIs
- Analytische Dienste mit Unterstützung von SQL-Anfragen, für die Datenvirtualisierung geeignet
Reporting- und Analyse-Werkzeuge sind Verantwortung der Datenkonsumenten
Reporting- und Analyse-Werkzeuge sind nicht Hauptzweck des Architekturkonzepts

Data Mesh vs. Data Lake

Der Hauptunterschied zwischen Data Mesh und Data Lake besteht darin, dass Data Mesh ein Konzept und eine Design-Strategie für die Architektur einer Datenplattform verkörpert, während ein Data Lake ein zentrales Repositorium ist, das Daten in einem Rohformat speichert, sowohl strukturiert als auch unstrukturiert.

Data Mesh befürwortet die Dezentralisierung von gespeicherten Daten, während ein Data Lake eine skalierbare und kostengünstige Lösung bietet, um große Datenmengen zu speichern. Zum Beispiel können Öl- und Gasplattformen täglich große Mengen an Daten generieren, die in einem zentralen Data Lake gespeichert werden können, um von Datenexperten und Geologen für Optimierungen und Analysen genutzt zu werden.

Das zentralisierte Modell eines Data Lakes kann für Organisationen mit wenigen Anwendungsfällen funktionieren. Jedoch besteht bei einer steigenden Anzahl von Datenquellen und einer diversen und wachsenden Nutzerbasis die Gefahr, dass dieses Modell an seine Grenzen stößt.

Zhamak Dehghani beschreibt diese Herausforderung wie folgt: "Die hochspezialisierten Datenplattformingenieure müssen Daten für eine Vielzahl von Anwendungsfällen bereitstellen, sowohl für operative als auch für analytische Aufgaben, ohne ein klares Verständnis für die Anwendung der Daten und den Zugang zu den Experten der jeweiligen Domäne zu haben."

"Erfolgreiche Ergebnisse der Data-Lake-Einführung gibt es aber trotzdem. Das bekannteste Beispiel ist Zalando. Adidas dagegen war mit ihrem Data Lake unzufrieden."

Data Mesh UND Data Lake

Viel interessanter sind die Verschmelzungsfälle, weil die Domänen bei Data Mesh ihre Datenprodukte weiterhin irgendwo speichern müssen. Warum diese nicht auf einer kostengünstigen, Cloud-basierten, skalierbaren Plattform wie Data Lake unterzubringen?

Als beispielsweise JP Morgan Chase das Data-Mesh-Design für sein Datenökosystem implementierte, verfügte jedes Datenprodukt über einen produktspezifischen Data Lake. Die Data Lakes wurden miteinander verbunden und tauschten Daten über eine Reihe von AWS-Cloud-Services für die Katalogisierung, Abfrage und gemeinsame Nutzung von Daten aus.

Fazit

Mit Data Mesh als Datenarchitektur haben Sie die Möglichkeit, innerhalb einer Struktur Daten verschiedenen Gruppen zuzuordnen und den Teilnehmern dieser Gruppen die Daten einfach und schnell zur Verfügung zu stellen. Experten agieren mit anderen Experten und tauschen qualitative Daten aus, ohne an ein zentrales Daten-Team angewiesen zu sein.

Data Mesh beinhaltet einen kulturellen und technologischen Wandel, der das Denken über Daten verändert und eine klare Verteilung der Verantwortung ähnlich einer Demokratie fordert. Weiterhin ist Data Lake nicht nur ein wichtiges Hilfsmittel zur Datenspeicherung, sondern auch ein Mittel zur Implementierung der vielen Elemente, aus denen die Mesh-Infrastruktur besteht.

Wenn Sie den Data-Mesh-Ansatz in Betracht ziehen, sollten Sie sich darauf konzentrieren, den Datenfluss durch Ihr Unternehmen neu zu gestalten. Die technische Seite, einschließlich Data Lakes, Warehouses und Pipelines, sollte als "ein Implementierungsdetail" zweitrangig betrachtet werden.