Wir erklären das Konzept von Data Mesh, mit dem Daten nach einem demokratischen Prinzip aufgebaut, verwaltet und genutzt werden können.
Data Mesh betrachtet Daten als ein Produkt. Wer verfügt über das tiefste Verständnis für fachspezifische Daten? Natürlich der dazugehörige Fachbereich. Warum also nicht die Experten mit Rechten versehen, ihre Daten zu pflegen und als ein Produkt auf einer internen Plattform anzubieten bzw. mit den anderen Experten-Teams auszutauschen? Data Mesh dient genau diesem Zweck.
Data Mesh ist ein Architekturkonzept, das darauf abzielt, die Effizienz und Skalierbarkeit der Datenverwaltung in großen Organisationen zu verbessern. Es stellt einen Paradigmenwechsel dar, indem es Daten nicht mehr zentralisiert verwaltet, sondern als dezentrale Produkte betrachtet, die von den jeweiligen Domänenbesitzern verantwortet werden. Dies fördert eine schnellere Datenverarbeitung, erhöht die Fachkompetenz und ermöglicht eine effektivere Zusammenarbeit innerhalb des Unternehmens.
Der Begriff "Data Mesh" wurde 2019 von Zhamak Dehghani geprägt und erstmals verwendet, um die Prinzipien einer domänenorientierten, dezentralen Architektur für analytische Daten zu beschreiben. Zhamak Dehghani ist eine angesehene Expertin im Bereich der Datenarchitektur und hat maßgeblich dazu beigetragen, das Konzept des Data Mesh zu definieren und bekannt zu machen. Ihr Buch "Data Mesh: Delivering Data-Driven Value at Scale" stellt ihre Ideen vor und erläutert den wirtschaftlichen Nutzen.
Während Skalierbarkeit, diverse Datenformate, Governance und Sicherheit bereits durch verschiedene technische und architektonische Ansätze adressiert wurden, rückten Datenzugriff, Datenzuverlässigkeit und Performance immer stärker in den Fokus. Data Mesh entstand als Lösung für Entscheidungsträger, die Zeit und Geld als gleichwertig betrachten, wobei Zeit überlebenswichtig für die Wettbewerbsfähigkeit ihres Teams und ihres Unternehmens ist.
Viele Unternehmen haben in einen zentralen Data Lake oder ein Data Warehouse sowie in ein Datenanalyse-Team investiert, um ihre Daten schneller auswerten zu können und Umsätze oder Expansion voranzutreiben. Jedoch stellen sich nach anfänglichen Erfolgen die Datenanalyse-Experten oft als Engpass heraus. Das Team kann nicht alle Fragen oder ad hoc Analysen schnell genug beantworten, was zu Problemen führt. Zeitnahe und datengetriebene Entscheidungen sind jedoch entscheidend für positive Bilanzen und Wettbewerbsfähigkeit.
Beispiele für solche Fragen sind beispielsweise Vertriebsstrategien: Ist es sinnvoll, am Black Friday kostenlosen Versand anzubieten? Sind Kunden bereit, längere, aber genauere und zuverlässigere Lieferzeiten zu akzeptieren? Wie wirkt sich das Produktdesign auf die Verkaufs- und Retourenquote aus?
Die Strukturierung großer Datenmengen und schneller Zugriff sind die Kernherausforderungen, denen Data Mesh begegnet. Der Architekturansatz sorgt dafür, dass bestimmte Daten allgemeinzugänglich und leicht auffindbar bleiben. Dies ermöglicht einfachere Analysen und schnellere Auswertungen, was wiederum die Wertschöpfung erleichtert. Insgesamt führt dies zu einer effektiveren und skalierbaren Datenverwaltung in einer Organisation und trägt zu besseren Geschäftsergebnissen bei.
Lassen Sie uns ein weiteres Beispiel betrachten: Das Data & Analytics Team hat die anspruchsvolle Aufgabe, Daten zu analysieren, um aussagekräftige Antworten zu liefern, jedoch ist die Zeit knapp bemessen. Zudem treten immer wieder Probleme mit defekten Datenpipelines auf, die aufgrund von Änderungen in der Quelldatenbank häufig nicht mehr einwandfrei funktionieren. Innerhalb des verbleibenden Zeitfensters muss das Team Informationen aus verschiedenen Domänen zusammentragen und verstehen. Das stellt eine immense Herausforderung dar und erfordert auch fundiertes Fachwissen, um die gestellte Aufgabe zu erfassen und die Frage korrekt zu beantworten.
Zhamak Dehghani argumentiert in diesem Zusammenhang, dass herkömmliche zentralisierte und monolithische Datenverwaltungsplattformen bei großen Unternehmen mit vielen unterschiedlichen Datenquellen und -nutzern versagen, da sie keine klaren Domänengrenzen und klare Zuständigkeiten für die Domänendaten aufweisen.
Die Lösung besteht daher darin, die Verantwortung für die Daten auf die jeweiligen Domänenbesitzer zu übertragen und ihnen die Möglichkeit zugeben, ihre eigenen Lösungsansätze zu präsentieren. Dies ist der Grundgedanke des Data Mesh-Konzepts.
Auf den Punkt gebracht bietet Data Mesh die folgenden Vorteile für Ihr Unternehmen:
Die vier Säulen von Data Mesh bilden gemeinsam das Fundament einer effizienten und skalierbaren Datenarchitektur. Durch die Betonung der Domänenorientierung, Selbstbedienung, föderierten Governance und der Sichtweise von Daten als Produkt ermöglichen sie eine dezentrale Datenverantwortung und fördern die Zusammenarbeit, Autonomie und Innovation bei der Datenverarbeitung.
Um Data Mesh optimal im Unternehmen umzusetzen, empfiehlt sich ein schrittweises Vorgehen:
1. Zusammenstellung der jeweiligen Domänenteams
2. Übertragung und Bereinigung der Daten
3. Einsatz von Tools
4. Bereitstellung
Das Data-Mesh-Konzeptbezieht im Gegensatz zu den anderen Datenarchitektur-Paradigmen die Datenquellen in die Betrachtung mit ein. Operative Daten werden über operative Datenprodukte (beziehungsweise deren Schnittstellen) bedient, genauso wie analytische Datenprodukte.
Die Kombination verschiedener Techniken zur Datenspeicherung und Integration, ohne sich auf spezifische Architektur-Archetypen wie Data Lake oder Data Warehouse zu beschränken, spiegelt sich im Begriff "Data Fabric" wider. Dieser Begriff wurde ursprünglich im Jahr 2015 von George Kurian von NetApp geprägt und wurde später im Jahr 2019 von Gartner aufgegriffen.
Die Datenarchitektur von Data Fabric beinhaltet die Verknüpfung von Datenquellen, ML-Tools und Data Governance. Data Mesh und Data Fabric bieten beide Anwendungsfälle für "Data as a Product" und arbeiten mit Datenkatalogen. Die gespeicherten Datenformate umfassen strukturierte und semi-strukturierte Daten.
Was unterscheidet diese Paradigmen? Data Fabric ermöglicht nahezu Echtzeit-Daten durch Daten-Virtualisierung, während bei Data Mesh keine festen Regeln für die Datenaktualität existieren, da dies von der technischen Umsetzung abhängt.
Der Hauptunterschied zwischen Data Mesh und Data Lake besteht darin, dass Data Mesh ein Konzept und eine Design-Strategie für die Architektur einer Datenplattform verkörpert, während ein Data Lake ein zentrales Repositorium ist, das Daten in einem Rohformat speichert, sowohl strukturiert als auch unstrukturiert.
Data Mesh befürwortet die Dezentralisierung von gespeicherten Daten, während ein Data Lake eine skalierbare und kostengünstige Lösung bietet, um große Datenmengen zu speichern. Zum Beispiel können Öl- und Gasplattformen täglich große Mengen an Daten generieren, die in einem zentralen Data Lake gespeichert werden können, um von Datenexperten und Geologen für Optimierungen und Analysen genutzt zu werden.
Das zentralisierte Modell eines Data Lakes kann für Organisationen mit wenigen Anwendungsfällen funktionieren. Jedoch besteht bei einer steigenden Anzahl von Datenquellen und einer diversen und wachsenden Nutzerbasis die Gefahr, dass dieses Modell an seine Grenzen stößt.
Zhamak Dehghani beschreibt diese Herausforderung wie folgt: "Die hochspezialisierten Datenplattformingenieure müssen Daten für eine Vielzahl von Anwendungsfällen bereitstellen, sowohl für operative als auch für analytische Aufgaben, ohne ein klares Verständnis für die Anwendung der Daten und den Zugang zu den Experten der jeweiligen Domäne zu haben."
"Erfolgreiche Ergebnisse der Data-Lake-Einführung gibt es aber trotzdem. Das bekannteste Beispiel ist Zalando. Adidas dagegen war mit ihrem Data Lake unzufrieden."
Viel interessanter sind die Verschmelzungsfälle, weil die Domänen bei Data Mesh ihre Datenprodukte weiterhin irgendwo speichern müssen. Warum diese nicht auf einer kostengünstigen, Cloud-basierten, skalierbaren Plattform wie Data Lake unterzubringen?
Als beispielsweise JP Morgan Chase das Data-Mesh-Design für sein Datenökosystem implementierte, verfügte jedes Datenprodukt über einen produktspezifischen Data Lake. Die Data Lakes wurden miteinander verbunden und tauschten Daten über eine Reihe von AWS-Cloud-Services für die Katalogisierung, Abfrage und gemeinsame Nutzung von Daten aus.
Mit Data Mesh als Datenarchitektur haben Sie die Möglichkeit, innerhalb einer Struktur Daten verschiedenen Gruppen zuzuordnen und den Teilnehmern dieser Gruppen die Daten einfach und schnell zur Verfügung zu stellen. Experten agieren mit anderen Experten und tauschen qualitative Daten aus, ohne an ein zentrales Daten-Team angewiesen zu sein.
Data Mesh beinhaltet einen kulturellen und technologischen Wandel, der das Denken über Daten verändert und eine klare Verteilung der Verantwortung ähnlich einer Demokratie fordert. Weiterhin ist Data Lake nicht nur ein wichtiges Hilfsmittel zur Datenspeicherung, sondern auch ein Mittel zur Implementierung der vielen Elemente, aus denen die Mesh-Infrastruktur besteht.
Wenn Sie den Data-Mesh-Ansatz in Betracht ziehen, sollten Sie sich darauf konzentrieren, den Datenfluss durch Ihr Unternehmen neu zu gestalten. Die technische Seite, einschließlich Data Lakes, Warehouses und Pipelines, sollte als "ein Implementierungsdetail" zweitrangig betrachtet werden.