QUNIS-Blog | Massive Parallelität und das Lakehouse

Expertenmeinung

Massive Parallelität und das Lakehouse

Mittwoch, 27. September 2023

Hinter einer massiv parallelen Architektur steckt das Prinzip, dass Daten nicht mehr nur auf einer Maschine liegen, sondern auf beliebig vielen.

Die Idee dahinter: Wollen mehrere Klienten auf die selben Daten zugreifen, werden die Daten entsprechend repliziert. Eine aktuelle massiv parallele Architektur ist das Lakehouse. Es verteilt die Daten nicht nur auf mehreren Maschinen, sondern erlaubt auch den direkten Zugriff auf die Daten. Voraussetzung dafür ist, dass die Klienten ihre eigene Rechenleistung beitragen.

Jeder bringt seine Rechenleistung mit

In einem massiv parallelen System gibt es statt einer Datenbank, über die die gesamte Arbeit komplett mit teurer Rechenleistung abgewickelt wird, nur noch einen Data Lake als reinen und äußerst kostengünstigen Speicherplatz. In dieser neuen Architektur kann jeder Klient selbst in einem zentralen Register nach seinen Daten suchen und bringt die jeweils für die Abfrage notwendige Rechenleitung einfach mit. Daher verkraftet es das System sogar, wenn mehrere hundert Data Scientisten gleichzeitig darauf zugreifen.

In einem solchen Lakehouse können zudem problemlos polystrukturierte Daten gespeichert werden. Es stellt darüber hinaus mithilfe von Analytischen Tabellenformaten wie beispielsweise Apache Iceberg durchgängig sicher, dass diese stets konsistent sind. Auch wenn mehrere Klienten gleichzeitig auf dieselben Daten zugreifen, sie lesen oder ändern, besteht somit keine Gefahr eines korrupten Datenbestands. Zum Vergleich: Dies konnte der Bibliothekar nur garantieren, indem er darauf achtete, dass erst der eine liest und danach erst der andere eine Änderung vornimmt.

Für den Fall, dass ein Anwender nicht in der Lage ist, eigene Rechenleistung mitzubringen, oder Unterstützung für die Datenabfrage braucht, gibt es Dienste wie der des QUNIS-Partners Dremio. Sie stellen über eine Data Lake Engine bereits fertige Cluster zur Verfügung. Darüber kann beispielsweise ein Controller in seiner gewohnten Umgebung und auf einer anwenderfreundlichen Oberfläche so arbeiten, als würde er direkt auf die Datenbank zugreifen. Da diese Struktur ebenfalls massiv parallel aufgebaut ist, sind auch hier mehrere Zugriffe gleichzeitig möglich, ohne dass es zu Konflikten kommen kann.

Aus homogen wird heterogen

Die massive Parallelität geht unbestritten mit einer gewissen Komplexität einher. Vorher war die Welt homogen und dadurch relativ einfach: Es gab eine Lösung, eine Technologie, eine Datenbank und darüber ließen sich alle Probleme lösen. In massiv parallelen Strukturen hingegen muss sich jeder selbst um den Data Lake kümmern und zudem jedes Mal eigene Rechenleistung beisteuern.

Das kann man natürlich grundsätzlich als Nachteil ansehen. Heterogenität und Offenheit für unterschiedliche Technologien bieten aber auch Vorteile, wenn etwa mehrere Anwender im Zugriff auf dieselbe Datenbank problemlos völlig verschiedene Programmiersprachen nutzen können. In modernen datengetriebenen Unternehmen, in denen möglichst jeder Mitarbeiter mit Daten arbeiten soll, die in großer Zahl vorliegen, kommt man an einer solch hochskalierbaren Architektur ohnehin kaum mehr vorbei.

Die Cloud macht‘s erschwinglich

Massiv parallele Datenarchitekturen und Datenbanken gibt es übrigens schon seit den 1990er Jahren. Allerdings handelte es sich damals noch um rein proprietäre und dadurch sehr teure Technologien. Als Gamechanger zeigte sich die Mitte der 2010er Jahre die Entwicklung nichtproprietärer Technologien mit offeneren Architekturen. Jedoch waren diese für die meisten Unternehmen damals noch nicht so wichtig, weil häufig nur eine kleine Abteilung überhaupt mit Daten gearbeitet hat und auch die Datenmenge noch nicht annähernd so hoch war wie heute.

In den letzten Jahren hat sich dies enorm gewandelt: Mittlerweile will nahezu jeder Unternehmensbereich permanent Zugriff auf alle Daten sowie eigene Datenprodukte erstellen, selbstständig veröffentlichen und mit anderen teilen. Durch den stetig steigenden Bedarf waren die alten Architekturen daher ab einem gewissen Punkt nicht mehr tragfähig. Mit der Ablösung der teuren proprietären Systeme durch moderne Cloud-Architekturen, ist die Einstiegshürde naturgemäß deutlich niedriger.

So kann man zum Beispiel über ein Cloud-basiertes Pay-as-you-go-Modell sehr komfortabel und dazu kostengünstig mächtige Technologien nutzen und muss nicht erst Millionen-Euro-Beträge in technologisch aufgerüstete Serverschränke investieren. Stattdessen greifen die Anwender einfach on-demand auf die Daten zu, wenn sie sie brauchen, fahren dann entsprechend die Rechenleistung hoch und zahlen auch nur genau dafür.

Mag die massive Parallelität als Konzept relativ statisch sein, ist doch der Markt überaus dynamisch. Das Konzept wird in allen Bereichen kontinuierlich weiterentwickelt – so entstehen immer wieder neue Angebote und damit spannende Möglichkeiten, die es bislang nicht gab und die die Unternehmen in Zeiten von Big Data gewinnbringend nutzen können.

Data Lakehouse mit dem Modern Data Stack

Auch SENEC als einer der führenden Solarstromspeicheranbieter in Deutschland setzt auf einen Modern Data Stack und hat zusammen mit QUNIS ein Data Lakehouse aufgesetzt.

Die IT-Architektur ist ein Data Lakehouse auf Basis von Azure Databricks, das Elemente eines Data Warehouse mit einem Data Lake in der zentralen Plattform kombiniert. Die mit einer Staging und Cleansing Area, dem Core und einem Data Mart angelegte Lakehouse-Architektur ist in der Lage, Funktionen von Streaming Analytics, BI und maschinellem Lernen auf einer einzigen Plattform bereitzustellen.
Als Datenquellen sind u.a. eine Time Series Datenbank, eine Log-Datenbank, diverse relationale Datenbanken, SharePoint und klassische Business Systeme wie ERP, CRM usw. eingebunden. Zur Integration und Orchestrierung der Daten sind die Open-Source-Lösungen Airbyte und Airflow auf Kubernetes im Einsatz, zur Transformation von Daten im Lakehouse die Open-Source-Software dbt. Mit der kontinuierlichen Umsetzung neuer Use Cases werden schrittweise weitere Datenquellen angebunden. Die Anwender greifen über Microsoft Power BI auf die aufbereiteten Daten zu.
Power BI ist als strategisches Frontend für alle User im Einsatz. Das vielseitige Frontend unterstützt und visualisiert verschiedenste Use Cases in den Bereichen Unternehmens- und Marktinformationen sowie Produkt- und Qualitätskontrolle. Derzeit arbeiten von rund 550 Mitarbeitenden in Leipzig ca. 150 Konsumenten und Power User mit der BI-Lösung. Die Anzahl von aktuell 10 Designern soll kontinuierlich erhöht werden.

Mein Tipp: Wenn Sie mehr über Data Lakehouse und Parallele Architekturen wissen wollen, folgen Sie uns auf LinkedIn und Xing oder abonnieren Sie einfach unseren Newsletter. Oder kontaktieren Sie uns und schreiben Sie mir direkt über KONTAKT ich freue mich über den Austausch mit Ihnen!

« SENEC: Implementierung einer Data & Analytics-Plattform im Bereich Erneuerbare Energien

Schreiner Group: Implementierung eines Data Warehouse in der Cloud »

AUTOR(EN)

Christian Thiel

Senior Consultant Data Architecture, Data Engineering, Data Science, QUNIS GmbH