Hinter einer massiv parallelen Architektur steckt das Prinzip, dass Daten nicht mehr nur auf einer Maschine liegen, sondern auf beliebig vielen.
Die Idee dahinter: Wollen mehrere Klienten auf die selben Daten zugreifen, werden die Daten entsprechend repliziert. Eine aktuelle massiv parallele Architektur ist das Lakehouse. Es verteilt die Daten nicht nur auf mehreren Maschinen, sondern erlaubt auch den direkten Zugriff auf die Daten.
Voraussetzung dafür ist, dass die Klienten ihre eigene Rechenleistung beitragen. In diesem System gibt es nämlich statt einer Datenbank, über die die gesamte Arbeit komplett mit teurer Rechenleistung abgewickelt wird, nur noch einen Data Lake als reinen und äußerst kostengünstigen Speicherplatz. In dieser neuen Architektur kann jeder Klient selbst in einem zentralen Register nach seinen Daten suchen und bringt die jeweils für die Abfrage notwendige Rechenleitung einfach mit. Daher verkraftet es das System sogar, wenn mehrere hundert Data Scientisten gleichzeitig darauf zugreifen.
In einem solchen Lakehouse können zudem problemlos polystrukturierte Daten gespeichert werden. Es stellt darüber hinaus mithilfe von Analytischen Tabellenformaten wie beispielsweise Apache Iceberg durchgängig sicher, dass diese stets konsistent sind. Auch wenn mehrere Klienten gleichzeitig auf dieselben Daten zugreifen, sie lesen oder ändern, besteht somit keine Gefahr eines korrupten Datenbestands. Zum Vergleich: Dies konnte der Bibliothekar nur garantieren, indem er darauf achtete, dass erst der eine liest und danach erst der andere eine Änderung vornimmt.
Für den Fall, dass ein Anwender nicht in der Lage ist, eigene Rechenleistung mitzubringen, oder Unterstützung für die Datenabfrage braucht, gibt es Dienste wie der von QUNIS-Partner Dremio. Sie stellen über eine Data Lake Engine bereits fertige Cluster zur Verfügung. Darüber kann beispielsweise ein Controller in seiner gewohnten Umgebung und auf einer anwenderfreundlichen Oberfläche so arbeiten, als würde er direkt auf die Datenbank zugreifen. Da diese Struktur ebenfalls massiv parallel aufgebaut ist, sind auch hier mehrere Zugriffe gleichzeitig möglich, ohne dass es zu Konflikten kommen kann.
Aus homogen wird heterogen
Die massive Parallelität geht unbestritten mit einer gewissen Komplexität einher. Vorher war die Welt homogen und dadurch relativ einfach: Es gab eine Lösung, eine Technologie, eine Datenbank und darüber ließen sich alle Probleme lösen. In massiv parallelen Strukturen hingegen muss sich jeder selbst um den Data Lake kümmern und zudem jedes Mal eigene Rechenleistung beisteuern.
Das kann man natürlich grundsätzlich als Nachteil ansehen. Heterogenität und Offenheit für unterschiedliche Technologien bieten aber auch Vorteile, wenn etwa mehrere Anwender im Zugriff auf dieselbe Datenbank problemlos völlig verschiedene Programmiersprachen nutzen können. In modernen datengetriebenen Unternehmen, in denen möglichst jeder Mitarbeiter mit Daten arbeiten soll, die in großer Zahl vorliegen, kommt man an einer solch hochskalierbaren Architektur ohnehin kaum mehr vorbei.
Schon länger bekanntes Prinzip
Massiv parallele Datenarchitekturen und Datenbanken gibt es übrigens schon seit den 1990er Jahren. Allerdings handelte es sich damals noch um rein proprietäre und dadurch sehr teure Technologien. Als Gamechanger zeigte sich die Mitte der 2010er Jahre die Entwicklung nichtproprietärer Technologien mit offeneren Architekturen. Jedoch waren diese für die meisten Unternehmen damals noch nicht so wichtig, weil häufig nur eine kleine Abteilung überhaupt mit Daten gearbeitet hat und auch die Datenmenge noch nicht annähernd so hoch war wie heute.
In den letzten Jahren hat sich dies enorm gewandelt: Mittlerweile will nahezu jeder Unternehmensbereich permanent Zugriff auf alle Daten sowie eigene Datenprodukte erstellen, selbstständig veröffentlichen und mit anderen teilen. Durch den stetig steigenden Bedarf waren die alten Architekturen daher ab einem gewissen Punkt nicht mehr tragfähig. Mit der Ablösung der teuren proprietären Systeme durch moderne Cloud Architekturen, ist die Einstiegshürde naturgemäß deutlich niedriger.
So kann man zum Beispiel über ein Cloud-basiertes Pay-as-you-go-Modell sehr komfortabel und dazu kostengünstig mächtige Technologien nutzen und muss nicht erst Millionen-Euro-Beträge in technologisch aufgerüstete Serverschränke investieren. Stattdessen greifen die Anwender einfach on-demand auf die Daten zu, wenn sie sie brauchen, fahren dann entsprechend die Rechenleistung hoch und zahlen auch nur genau dafür.
Mag die massive Parallelität als Konzept relativ statisch sein, ist doch der Markt überaus dynamisch. Das Konzept wird in allen Bereichen kontinuierlich weiterentwickelt – so entstehen immer wieder neue Angebote und damit spannende Möglichkeiten, die es bislang nicht gab und die die Unternehmen in Zeiten von Big Data gewinnbringend nutzen können.