Archiv für die Kategorie Advanced Analytics

Data Governance: Schon mal drüber nachgedacht?

Erstellt am: Freitag, 5. Juni 2020 von Monika Düsterhöft

So wichtig für erfolgreiche Data & Analytics Projekte

Daten gelten als Herzstück jedes Unternehmens. Und so gut wie bei jedem steht, nicht zuletzt getrieben durch die aktuellen Entwicklungen, das Thema Digitalisierung ganz weit oben auf der Agenda. Das Regeln von Verfügbarkeit, Integrität und Sicherheit der verwendeten Daten, die sogenannten Data Governance, wird in diesem Zuge jedoch oftmals eher stiefmütterlich behandelt.

Dass dem so ist, mag zum einen daran liegen, dass es sich um ein vergleichsweises neues Thema handelt. Zum anderen ist Data Governancen sehr rechtslastig, wird mit Disziplin, Verwaltung und Aufwand konnotiert und gilt gemeinhin als „trocken und unattraktiv“. Und wie wir alle wissen: Um solche Themen kümmert man sich nicht wirklich gern.

Ein fehlerhafter Umgang mit Daten jedoch kann schnell zu erheblichen Wirtschafts- und Imageschäden führen. Rechtliche Konsequenzen, Bußgelder, Strafen und empfindliche Schadensersatzansprüchen drohen.

Wegducken gilt nicht – Data Governance geht jeden an!

Auf der Hand liegt, wo immer es zu Problemen mit Daten kommt, weißt sich die Gesamtverantwortung direkt der Geschäftsführung und dem Vorstand zu; unter Umständen greift deren Haftungsrisiko sogar bis aufs Privatvermögen durch. Schon allein deswegen sollten das Vorhandensein und konsequente Leben einer Data Governance ein ganz persönliches Anliegen des Top-Managements sein.

Im Gegensatz zur Top-Führungsriege steht der Mitarbeiter, der als ausführendes Organ nach bestem Wissen und Gewissen handelt, bei einer Datenpanne nicht in legaler Verantwortung. Nichtsdestotrotz ist auch sein Handeln oder Nichthandeln von unliebsamen persönlichen Konsequenzen bedroht. Denn selbst eine Panne, die auf Motivation und Engagement basiert kann zu Arbeitsplatzverlust oder zumindest internen Problemen führen. Um diesem Konflikt aus dem Weg zu gehen, kann es sein, dass Mitarbeiter lieber nichts tun bevor sie etwas tun, von dem sie nicht recht wissen, ob sie es dürfen oder nicht. Ineffizienz bis hin zum vollständigen Stillstand von Initiativen sind die Folge für das Unternehmen.

Unbenommen wäre es also förderlich zu wissen, was man am Arbeitsplatz mit welchen Daten tun darf und was nicht. Und zwar sowohl für den normalen Mitarbeiter, als auch für die Führungskräfte. Letzteren fällt in diesem Zusammenhang wohl der undankbarste Part zu: Sie stehen im Kreuzfeuer von Management und Mitarbeitern, müssen delegierte Aufgabenstellungen weitertragen und auf deren Umsetzung bedacht sein.

Kein Data & Analytics Projekt ohne Governance

Betrachtet man Chancen, Möglichkeiten, Risiken und in Zeiten des War of Talents und Fachkräftemangels auch die hohe Notwendigkeit im Hinblick auf Mitarbeiter-Sicherung und Motivation, so sollte keine Data & Analytics Initiative auf- bzw. umgesetzt werden ohne nicht parallel eine entsprechenden Data-Governance-Initiative zu betreiben.

Die gute Nachricht: Das Ganze hört sich schlimmer an als es ist. Vielmehr, eine Data & Analytics Governance ist in überschaubaren und leicht verdaubaren Schritten machbar. Einzige Voraussetzung, die Etappenziele müssen sauber definiert und ein dazu passender Methoden- und Maßnahmenkatalog erstellt worden sein. Auf diesem soliden Fundament lässt sich eine passende Data & Analytics Governance in die Organisation und Prozesse integrieren und die letztlich nachhaltige Umsetzung wird möglich.

QUNIS-Vorgehenskonzept bringt Durchblick, Struktur und Effizienz

Basierend auf Praxis-Erfahrung und Know-how hat QUNIS ein dreistufiges Framework mit insgesamt acht Handlungsfeldern entwickelt, das für Business-Intelligence- und Andvanced-Analytics-Initiativen eine verlässliche Orientierungshilfe für den Aufbau und die Etablierung einer Data Governance stellt.

Auf der ersten Stufe geht es darum, die Zielsetzung festzulegen: Welche Daten gibt es und in welchem Bezug stehen diese zu den rechtlichen Vorgaben bzw. welche Maßnahmen sind konkret daraus abzuleiten? Hier geht es um so wichtige Dinge wie ein gut funktionierendes Risikomanagement und den Blick auf sensible Datenschnittstellen zu Externen. Zudem werden aber auch ganz generell Fragen etwa zur Gewährleistung der Datenqualität behandelt.

Im darauf aufbauenden Bereich von Methoden und Maßnahmen werden rechtliche Vorgaben geklärt: Welche Daten und Prozesse korrespondieren mit welchen rechtlichen Normen wie GDPdU oder DSGVO? Im Fokus stehen Datenzugriffs- und Datenberechtigungskonzepte oder Back-Up-Strategien zur durchgängigen Gewährleistung der Datenverfügbarkeit. Im Sinne des Projektmanagements werden zudem die Vorgehensweisen erarbeitet, also beispielsweise Dokumentationsrichtlinien festgelegt, Guidelines für die Mitarbeiter erarbeitet, Recovery-Pläne und Definition von Messpunkten.

Zu guter Letzt geht es darum, das Erarbeitete in die Organisation und die laufenden Prozesse zu integrieren. Um klare Verantwortlichkeiten definieren zu können, wird das bewährte QUNIS-Rollenmodell herangezogen als Basis für den individuellen Zuschnitt auf konkrete Rahmenbedingungen und Bedürfnisse des jeweiligen Unternehmens. Darauf aufbauend lassen sich schließlich trennscharfe Strukturen herausarbeiten, die jedem betroffenen Teilbereich Verantwortlichkeiten und Zuständigkeiten zuordnen

Denken Sie die Data Governance immer gleich mit!

Es gibt viele gute Gründe dafür, seine Daten im Unternehmen zu schützen bzw. zu sichern und dabei rechtskonform und werteorientiert zu handeln. QUNIS unterstützt Sie dabei, eine ganz individuelle Governance für die Data & Analytics Initiativen in Ihrem Unternehmen umzusetzen und erfolgreich zu steuern. Alles was Sie tun müssen ist uns kontaktieren. Beim Rest begleiten wir Sie kompetent.

Mein Tipp: Besuchen Sie unser kostenfreies QUNIS-Webinar „Data Governance – so machen Sie Ihre BI-, Big-Data- und Advanced-Analytics-Lösung rechtlich und organisatorisch sicher.“ TERMINE UND ANMELDUNG

the factlights 2020: Die zentrale Erhebung zum Stand von Data & Analytics

Erstellt am: Mittwoch, 18. März 2020 von Monika Düsterhöft

Die Digitalisierung verändert unsere Arbeitswelt in einer rasanten Geschwindigkeit. Und auch die aktuelle Krise zeigt, was Digitalisierung und Datenarbeit zu leisten vermögen. Doch wo stehen wir aktuell? Welche Prozesse und Geschäftsmodelle wandeln sich im Unternehmen? Was bedeutet dies für unseren Arbeitsalltag? Digitalisierung ohne Wenn und Aber? Diese und weitere Fragen möchten wir im Rahmen einer Studie klären und die daraus resultierenden Erkenntnisse und Empfehlungen mit Ihnen teilen.

Machen Sie mit bei the factlights 2020 – die zentrale Erhebung zum Stand von Data & Analytics im deutschsprachigen Raum. 


Alle Teilnehmer der ONLINE-UMFRAGE erhalten ein exklusives Management Summary und die Möglichkeit auf attraktive Gewinne, wie einen E-Scooter, Taschen von ‚The North Face‘ oder einen 10 Euro Amazon-Gutschein als Sofort-Dankeschön.

Die Studie hinterfragt: Welche Prozesse und Geschäftsmodelle wurden umgestaltet? Was ist noch pure Vision, was in der Planung und was bereits gelebte Praxis? Was passiert bewusst und was eher unterbewusst? Welche Umstände halten Unternehmen und Mitarbeiter davon ab, die Möglichkeiten moderner Datenarbeit auszuschöpfen? Wo liegen Ängste, Sorgen und Nöte? Wie wird diesen begegnet? Was wird vorausgesetzt und was erwartet? Und wie soll es idealerweise weitergehen?

the factlights 2020 ist eine Initiative der QUNIS

Gemeinsam mit den Partnern CA Controller Akademie, HEUSSEN, Liebich & Partner, QUNIS und WTS ITAX wird im Zeitraum von März bis Mitte Juni 2020 die großangelegte Online-Umfrage the factlights 2020 – About Datat & Analytics Reality durchgeführt. Es geht um eine Bestandsaufnahme dazu, ob und wo Digitalisierung & Co. im Arbeitsalltag der Fachbereiche angekommen sind. In mittelständischen und Großunternehmen. Befragt werden sowohl Leitungsebene als auch Mitarbeiter aus allen Branchen und Bereichen. Angefangen von Finance, Accounting, Controlling, Sales und Marketing bis hin zu IT, Logistik und HR.

Trend-Artikel, Fachbeiträge, Tipps, Studien, Downloads und mehr

Auf the factlights informieren führende Unternehmen verschiedenster Disziplinen und Branchen zu aktuellen Herausforderungen, Stand von Forschung, Lehre, Markt und Technologie. Ganzjährig und aus den verschiedensten Blickwinkeln des Marktes. Hier geht‘s zu WWW.THE-FACTLIGHTS.DE

PUREN Pharma: Effiziente Prozesse und Datenanalysen im Web-Portal mit QUNIS

Erstellt am: Donnerstag, 12. März 2020 von Monika Düsterhöft

Das erfolgreiche Pharmaunternehmen PUREN Pharma hat mit Hilfe der QUNIS digitale End-to-End Geschäftsprozesse umgesetzt, zu denen auch fortgeschrittene Analysen mit zahlreichen internen und externen Datenarten gehören. Das spart viel Zeit und sichert die hohe Qualität von Prozessen und Informationen.

Wir haben mit QUNIS unsere komplexen Geschäftsprozesse unternehmensweit standardisiert und automatisiert. Basis ist ein zentrales Informations- und Analyse-Portal, in das wir jederzeit weitere Nutzer und Datenquellen oder neue On-Premise- und Cloud-Technologien einbinden können.


Christoph Gmeiner,
Teamlead Data Science & Business Intelligence,
PUREN Pharma GmbH & Co. KG

Die Anforderung: Umfangreiche Rechnungsbearbeitung

Generika von PUREN tragen entscheidend dazu bei, dass hochwertige Arzneimittel für jeden bezahlbar bleiben. In diesem Rahmen hat PUREN zudem zahlreiche Rabattverträge mit Krankenkassen abgeschlossen. Die Verwaltung der Verträge und der einzelnen Abschlagszahlungen an die Krankenkassen wurde für das erfolgreiche Pharmaunternehmen jedoch immer komplizierter.

Problematisch war vor allem, dass in einzeln geführten Excel-Listen der direkte Bezug zwischen den in den Apotheken getätigten Umsätzen und den monatlich, quartalsweise oder jährlich verrechneten Abschlagszahlungen an die Krankenkassen fehlte. Bei bundesweiten Verträgen mit rund 150 Krankenkassen, in denen u.a. unterschiedliche Abrechnungs-Zyklen, Rabatte und Dateiformate der Kassen zu berücksichtigen waren, entstand erheblicher manueller Aufwand für die Erfassung und Bearbeitung der Daten in einer Vielzahl von Excel-Dateien.

Das zuständige Team Data Science & Business Intelligence wollte den Prozess daher automatisieren und suchte nach einer Lösung, die einen einfach steuerbaren Freigabeworkflow für die Rechnungsbearbeitung mit einer zentralen Datenhaltung und Rechnungsprüfung im Backend verbindet. Die Systemlösung sollte flexibel und nach Bedarf skalierbar sein, um die wachsenden Anforderungen des Pharmaunternehmens dauerhaft abdecken zu können.

Die Lösung: Einfach steuerbare Prozess und Analyseplattform

Mit der Unterstützung von QUNIS hat PUREN seine ideale Lösung für anspruchsvolle Geschäftsprozesse gefunden und implementiert. Das Projektteam hat im ersten Schritt eine prozessorientierte BI-Plattform für die Bearbeitung der Abschlagsrechnungen realisiert und diese dann in Folgeprojekten systematisch zum umfassenden Portal für alle Fachbereiche ausgebaut.

Grundlage der umgesetzten Informations- und Analyseprozesse ist ein zentrales Data Warehouse auf Basis des Microsoft SQL Servers. Für die Auswertung der Daten werden je nach Bedarf OLAP-Analysen mit den Microsoft Analysis Services und Power BI sowie ML-Funktionalität (Machine Learning) aus der Cloud genutzt.

Als wesentlicher Erfolgsfaktor des Projekts hat sich der Einsatz eines anwenderfreundlichen Web-Frontends basierend  auf GAPTEQ erwiesen. Durch das einfache Handling der Software konnte das interne Projektteam von PUREN nach der anfänglichen Unterstützung durch QUNIS schnell eigenständig weitere Module umsetzen. Inzwischen sind neben einigen Detail-Anwendungen vor allem drei zentrale Geschäftsprozesse in GAPTEQ abgebildet:

1. Transparenter Prüf- und Freigabeworkflow für Abschlagsrechnungen

Was die Sachbearbeiter in der Buchhaltung früher einzeln in Excel und auf Papier erledigen mussten, läuft heute größtenteils automatisiert. Abschlagsrechnungen der Krankenkassen in verschiedensten Dateiformaten werden maschinell in GAPTEQ eingelesen und vom System geprüft. Die integrierte Power BI-Datenbank gleicht dafür Umsatz- und Absatzdaten sowie bereits geleistete Abschlagszahlungen, die per Schnittstelle aus dem ERP-System importiert werden, mit den Rechnungsdaten ab.

Automatisierte Datenströme sorgen für zuverlässige Ergebnisse, auf deren Basis dann der Workflow in GAPTEQ angesteuert wird. Gemäß der hinterlegten Matrix, z.B. je nach Höhe der Zahlungssumme, gelangt die Rechnung nach Freigabe durch die Sachbearbeiter oder ihre Vorgesetzten zur Zahlung an die Abteilungen Customer Service und die Finanzbuchahltung. Das Tracking und die Bearbeitung der zahlreichen Rabattverträge konnte PUREN so in einem übersichtlichen Standard-Workflow mit den Aktionen „Eingabe, Prüfung, Signatur, Zahlung“ umsetzen. Die Mitarbeiter der verschiedenen Abteilungen werden im anwenderfreundlichen Web-Portal sicher durch ihr Tagesgeschäft geführt, während aufwändige Arbeitsroutinen wie Datenimport, Berechnungen, Datenabgleich und Validierung automatisch im leistungsstarken Backend ablaufen.

2. Präziser Forecast für langwierige Bestell- und Lieferketten

Arzneimittel müssen für die Patienten jederzeit in ausreichender Menge verfügbar sein – in der globalisierten Pharmabranche sind jedoch lange Bestell- und Lieferketten üblich. So sind für Produkte, die PUREN Pharma von seiner indischen Muttergesellschaft bezieht, Vorlaufzeiten von bis zu sechs Monaten einzuplanen. Ein möglichst präziser Forecast der erwarteten Absatzzahlen als Grundlage für punktgenaue Besellungen ist daher erfolgsentscheidend.

Im Rahmen des „Tender Managements“ hat das interne BI-Team dafür eine Plattform für Planung und Forecast realisiert, die sich vom Vertrieb über das Bestands und Produkmanagement bis zum Einkauf durchzieht. Durch maschinell erzeugte Vorschlagswerte erreicht PUREN dabei eine sehr hohe Forecast-Genauigkeit. Die Vorschlagswerte werden mit Machine-Learning-Funktionalität aus der Cloud in drei verschiedenen Algorithmen berechnet.

Neben den historischen ERP-Daten fließen u.a. auch externe Marktdaten aus den Apotheken in die Kalkulationen ein. Die Planer können die Vorschlagswerte in ihren Planmasken dann übernehmen oder manuell anpassen. Durch übersichtlich visualierte Berichte, die z.B. die Entwicklung der Umsatzdaten und Marktanteile zeigen, werden sie bei ihrer Entscheidungsfindung unterstützt und können gegebenfalls Abweichungen vom Vorschlag fundiert herleiten und begründen.

Während früher Produktprognosen in Tausenden von Excel-Dateien gepflegt wurden, wird der Forecast heute in der leistungsfähigen Systemumgebung effizient und zuverlässig erstellt und täglich aktualisiert. Das Supply Chain Management kann für seine monatlichen Bestellungen auf sehr präzise Verkaufsprognosen im Portal zugreifen.

3. Strategische und operative Steuerung der Produktlaunches

Die Lösung unterstützt zudem sämtliche Prozesse rund um die Portfolio-Planung und die Einführung neuer Produkte. Sowohl die Entscheidungsfindung als auch die Umsetzung von Produkt-Launches wird dabei mit allen involvierten Fachbereichen in der einheitlichen Systemumgebung gesteuert. Da es sich um langfristige Projekte handelt, sind hier vor allem der hohe Standardisierungsgrad und die nachvollziehbare systemgestützte Dokumentation entscheidende Vorteile. Die Systemlösung reduziert damit die Risiken durch Spezialwissen, das an einzelne Mitarbeiter gebunden ist, und fördert
stattdessen die unternehmensweite Zusammenarbeit im mehrjährigen Projekt durch standardisierte Prozesse und klar definierte Workflows.

Der Launching-Prozess startet bei PUREN mit dem Monitoring auslaufender Patente. Der Zeithorizont bis zum Patent-Verfall der überwachten Produkte beträgt im Schnitt fünf bis sechs Jahre. Um erfolgsversprechende Kandidaten für die eigene Generika-Produktpalette zu ermitteln, werden dabei im System Business Cases durchgespielt und Szenarien mit vielfältigen Annahmen gebildet. Typische Parameter sind beispielsweise Marktdaten zu Absatz und Umsatz in den Apotheken, mögliche Verpackungsgrößen, verschiedene Rabattverträge, Zertifizierungs- und QM-Kosten, usw. Durch die mächtige Analyse-Power im Backend können die Fachanwender im Verlauf der Zeit auch jederzeit Szenarien mit veränderten Rahmenbedingungen oder Auswertungen der „Pipeline“ auf Knopfdruck erstellen.

Die Entscheidung für einen Produktlaunch fällt so auf der Basis genauer Zahlen und Fakten. Die operative Umsetzung eines Launches, der sich wiederum über rund 18 Monate ziehen kann, wird dann ebenfalls in der Systemlösung gesteuert und dokumentiert. Ab diesen Zeitpunkt wird das Projekt zu einem unternehmensweiten Workflow- Thema. GAPTEQ sorgt als Arbeitsumgebung mit transparenten Abläufen und Alerts für die sichere und effiziente Abwicklung des komplexen Prozesses. Alle Abteilungen arbeiten dabei mit einheitlichen Material- Stammdaten aus dem zugrundeliegenden Data Warehouse.

Die Vorteile: Transparenz, Effizienz und Qualität gesteigert

PUREN Pharma hat mit seiner flexiblen BI-Lösung zentrale Geschäftsprozesse automatisiert. Durch die Gestaltung digitalisierter End-to-End-Prozesse und die Integration unterschiedlichster Datenformen wurden die Effizienz und Qualität von Abläufen und Informationen erheblich gesteigert. Individuelle Anforderungen des Pharmaunternehmens konnten dabei flexibel in einem standardisierten Microsoft-Umfeld abgebildet werden. Entstanden ist ein unternehmensweites Portal für alle Nutzergruppen und verschiedene Themen.

Ein wesentlicher Vorteil ist die anwenderorientierte Nutzeroberfläche. GAPTEQ dient sowohl als einfach bedienbares Web-Frontend für die leistungsstarke Analyse-Architektur und unterstützt zugleich mit dezidierter Workflow- Funktionalität die unternehmensweite Zusammenarbeit und Kommunikation. Sämtliche Nutzer arbeiten dabei auf einer zentralen Datenbasis, und sämtliche Eingaben sind nachvollziehbar im System dokumentiert.

Das Projektteam von PUREN kann die Systemlösung jederzeit selbst weiter ausbauen, verschiedenste Daten integrieren, Eingabe-Formulare und Reports gestalten und Workflows mit dezidierten User-Berechtigungen definieren. Im nächsten Schritt sollen Pozesse für die Vertragsverwaltung, die Einkaufspreis-Steuerung und das Qualitätsmanagement umgesetzt werden. Die Microsoft Standardlösung, die bereits heute On-premise- und Cloud-Produkte in einer Hybrid-Architektur kombiniert, gewährleistet dabei einen jederzeit bedarfsgerecht skalierbaren und kosteneffizienten Systemausbau.

Die Projekt-Highlights

  • Komplexe Geschäftsprozesse digitalisiert, automatisiert und standardisiert
  • Transparente Workflows, aktive Nutzerführung mit Warnfunktionen
  • Anwenderfreundliche Nutzeroberfläche für ausgefeilte BI- und MLArchitektur
  • Schnelle Analyse und übersichtliche Visualisierung von Daten
  • Flexible Integration diverser Vorsysteme und Dateiformen
  • Effiziente und sichere Rechnungsprüfung und -Bearbeitung
  • Präziser Forecast mit maschinellen Vorschlagswerten
  • Sichere stragische und operative Steuerung mehrjähriger Launching-Projekte
  • Einheitliches Web-Portal mit zentraler Datenbasis für alle Fachbereiche
  • Valide Daten und Ergebnisse durch Automatisierung
  • Excel-Insellösungen reduziert
  • Investitionssichere, einfach skalierbare Standardsoftware

Mehr zu PUREN Pharma: Als deutsches Traditionsunternehmen mit einem über Jahrzehnte gewachsenen Produktportfolio für Praxis, Klinik und Selbstmedikation stellt PUREN die Weichen als ein zukunftsorientierter Partner im Gesundheitswesen. Mit über 120 kostengünstigen Produkten in Topqualität für den Einsatz in der Praxis, Klinik und Selbstmedikation bietet PUREN ein umfassendes, etabliertes Spektrum für fast alle relevanten Therapieoptionen. Durch umfassende Rabattverträge ist PUREN dabei ein starker Partner für Ärzte, Apotheken, Krankenkassen und Patienten zum Erhalt der Ökonomie im Gesundheitswesen. Es ist das erklärte Ziel von PUREN, durch hochwertige, preisgünstige Arzneimittel zur Gesunderhaltung aller Menschen beizutragen.

Was Data & Analytics Verantwortliche bewegt – vier Themen, die Sie dieses Jahr beachten sollten.

Erstellt am: Dienstag, 18. Februar 2020 von Monika Düsterhöft

I. Voraussetzungen für den Business Value schaffen

Der Hype um BI ist abgeflacht, keiner stellt ihre Bedeutung mehr in Frage. Man weiß, die Technologien funktionieren. Die Unternehmen sind gerüstet, Budgets sind eingestellt. Genügend Erfahrungswerte und Best Practices sind vorhanden. Die große Herausforderung liegt jetzt darin, die vorhandenen Konzepte in Projekte zu gießen, die tatsächlich den größten und nachhaltigsten Nutzen stiften. Doch wo investiert man? Wie geht man vor? Was muss man beachten? Ein Patentrezept gibt es nicht. Was jedoch für alle Unternehmen gilt, es müssen die drei folgenden Fragen, und zwar besser gestern als heute, bearbeitet und geklärt werden:

Wer managt das Asset Daten? Als ersten und zentralsten Punkt gilt es zu defiinieren: Wer hat den Hut für die Daten und die analytischen Ergebnisse auf? Diese ist grundlegend und entscheidend, denn auswertungsrelevante Daten folgen häufig weder einem etablierten Unternehmensprozess noch der organisatorischen Linie. Vielmehr werden Daten cross-funktional erzeugt und an verschiedensten Stellen angereichert. Analytische Szenarien haben sehr häufig die Eigenschaft, diese Daten kombiniert auszuwerten.

Zudem gibt es im Gegensatz zu vielen traditionellen Bereichen wie der HR, die ein Talent- und Personal-Management kennt, oder dem Anlagenmanagement mit seinen Investitionsspiegeln und -plänen für die Datenwelt bis dato so gut wie keine, allenfalls rudimentäre Managementstrategien. Die Strukturen für unternehmensweites Datenmanagement und Analytics müssen daher in nahezu allen Unternehmen erst geschaffen werden. Und je nach Data-Driven-Business-Modell werden dabei Daten aus völlig verschiedenen Quellen, Bereichen und von unterschiedlichster Art benötigt.

Das alles unter eine Managementstrategie zu bringen, fordert also vor allem den Mut, vorhandene Organisationsstrukturen aufzubrechen. Denn, so hat sich gezeigt: Aus dem Boden gestampfte Sonderabteilungen sind nicht die Lösung! Vielmehr geht es darum, eine unternehmensübergreifende Datamanagementkultur zu schaffen und eine Organisationsform, die nicht aneckt und keine Flaschenhälse schafft. Immer mehr Unternehmen erkennen dies und setzen sich damit proaktiv auseinander.

Welchen Business Value bedient ein Use-Case? Der zweite wesentliche Aspekt auf dem Weg zum Business-Value liegt in der Betrachtung seiner selbst. Dabei geht es nicht um eine reine ROI-Berechnung, sondern um die Beantwortung der Frage, auf welchen betrieblichen Mehrwert die BI-, Big-Data- oder Analytics-Initiative einzahlen soll. Geht es beispielsweise darum, Prozesse besser zu analysieren, um damit Kosten zu sparen? Ist man auf mehr Umsatz oder bessere Qualität aus? Zielt die Initiative auf das Erreichen höherer Effizienz ab oder steht Risikominimierung im Vordergrund?

Wie werden Daten nachhaltig zugänglich gemacht? Der dritte nicht zu unterschätzende Punkt, den es bei BI und Analytics im Hinblick auf Nutzen und Value zu beachten gilt, ist das Thema Dokumentation. Gerade der Data Catalog erhält hier aufgrund der zunehmenden Komplexität und Heterogenität der Datenlandschaften als verlässlicher Wegweiser durch die Datenwelt eine wachsende Bedeutung. Um den Zugang zu Daten nachhaltig zu gewährleisten, müssen relevante Daten quellenübergreifend dokumentiert sein. Geeignete Data-Catalog-Tools sind am Markt gefragt und werden gesucht. Aber auch methodische Aspekte sind zu klären: Was soll drinstehen, wo findet man die relevanten Daten im Unternehmen und wer ist zuständig für die Datenqualität?

Auch wenn klassische Data-Warehousing-Konzepte im Sinne von Daten zusammenführen und harmonisieren weiterhin ihre Berechtigung behalten werden, ist ein Trend weg vom physischen Vorhalten aller Daten an einer zentralen Stelle bereits Realität. Der Weg geht hin zum Entwurf von Datenlandkarten, über die die Zugriffe realisiert werden. Das spart Zeit und Geld. Vor dem Hintergrund ständig wachsender Datenmengen entstehen so Datenarchitekturen, die den Geschwindigkeiten und Flexibilitätsanforderungen heutiger Geschäftsmodelle entsprechen. Es entstehen Data Landscapes und Data Oceans. Den Begriffsneuschöpfungen scheinen hier keine Grenzen und kein Ende gesetzt.

II. Cloud-Frontends setzen sich durch

Was in der Analytics-Welt am Backend schon eine Zeit lang gang und gäbe ist, gilt verstärkt nun auch für die Frontend-Welt: Moderne Cloud-basierte Frontends sind verfügbar und werden zunehmend diskussionsloser genutzt. Die Unternehmen scheinen ihre Skepsis und Furcht vor Cloud-Computing immer weiter abzulegen, gerade in unkritischeren Bereichen wie Vertrieb und Finance; allenfalls in sensibleren IP-nahen Bereichen mag das noch anders sein, etwa bei Rezepturen und Bauplänen. Die Öffnung hin zur Cloud ist dabei auf den generellen technologischen Fortschritt zurückzuführen, aber auch auf die naturgemäße „Ver-Rentung“ von Bedenkenträgern mit ihrer „alten Denke“ im Gepäck. So oder so ist der Trend hin zur Cloud nicht mehr zu stoppen: On-Premise-Systeme werden immer mehr zu Insellösungen.

III. Query-Engines verbinden Welten

War es im letzten Jahr an gleicher Stelle noch reine Prognose, wird es jetzt zur Realität: Es gibt immer mehr Query- Engines am Markt, die strukturierte und unstrukturierte Datenwelten miteinander verbinden, ohne dass man hierfür Technologiewechsel in den Architekturen benötigt. Insofern wird es eine Orientierung auf nur eine Seite nicht mehr geben. Denn egal, was man an Quellen darunterpackt: Jegliche Formate lassen sich künftig über ein und denselben Dienst kombinieren und das unbegrenzt in beliebigem Ausmaß. Anbieter wie Azure Synapse Analytics verbinden Data Warehousing und Big Data. Dadurch wachsen die Welten im Sinne einer „Single Source of Truth for Enterprise Analytics” konzeptionell zusammen. Data Engineers, Data Scientisten und Analysten können so kollaborativ den gesamten Daten-Fundus abfragen, ohne dafür irgendwelche Daten bewegen zu müssen.

IV. Zusammenspiel von Data Science, Data Engineering und Data Governance bewusst fördern

Apropos Data Scientist: Der bleibt auch weiterhin wichtig, muss aber zunehmend zu den Business Values beitragen, um seine Bedeutung und Daseinsberechtigung im Unternehmen zu bewahren. Zu oft nämlich konnte er in der Vergangenheit das Delivery-Versprechen mangels verfügbarer Daten nicht einlösen und die damit verbundenen Erwartungshaltungen nicht erfüllen. An der Schnittstelle von Architektur und Datenmanagement wird gleichzeitig die Stellung des Data Engineers mit entsprechend großem Potenzial massiv nach oben gehen. Zu seiner strategischen Schlüsselposition als Garant für das zuverlässige Funktionieren der Analytics Infrastruktur gehört dabei auch das Thema Data Governance. Dieses ist 2020 ein absolutes Top-Thema und schließt nicht zuletzt wieder den Kreis zur Schaffung einer Data-Management-Organisation, Quelldokumentation und letztendlich damit der Grundlage zur Erzielung von Business Value.

Mein Tipp: QUNIS hat ein Klassifizierungsschema entwickelt, das Ihnen hilft, Analytics-Use-Cases einzuordnen und zu identifizieren, an welcher Stelle Sie mit Ihrem B-I und Analytics-Projekt welchen Business-Value erzielen können und womit gegebenenfalls nicht.  Mehr zum QUNIS BUSINESS CLASSIFICATION FRAMEWORK erfahren.

Hilfe im Dschungel der Analytics Tools. Wir haben den Markt für Sie sondiert.

Erstellt am: Dienstag, 16. Juli 2019 von Monika Düsterhöft

Kaum ein Segment im Softwaremarkt unterliegt derzeit so vielen Veränderungen wie das der analytischen Werkzeuge.

Jedes Jahr sprudeln neue Produkte auf den Markt: branchenspezifische Nischenprodukte, Produkte für spezielle Aufgabenstellungen wie Textanalysen, Produkte für spezielle Fachabteilungen wie das Marketing, und, und, und…. Hinzu kommen noch umfangreiche Analytics-Plattformen, die versuchen, viele Anwendungsbereiche abzudecken oder Nutzer verschiedenster Kompetenzstufen anzusprechen.

Manche Tools setzen zudem auf einfache Zusammenarbeit in Teams, andere auf automatisiertes Reporting oder auf gute Visualisierungsmöglichkeiten. Jedes Produkt hat seine Vor- und Nachteile und ist beim heutigen Entwicklungs- und Innovationsdruck sicher noch nicht am Ende seiner Fähigkeiten angekommen. Nicht alle Produkte werden sich auf Dauer am Markt durchsetzen können – alle Produkte werden sich aber mit Sicherheit weiterentwickeln.

Man muss nicht zwingend Data-Science-Profi sein.

Der derzeitige Markttrend geht in Richtung Augmented Analytics. Dies bedeutet, mit den entsprechenden Werkzeugen können auch mathematisch und statistisch versierte Fachanwender und Citizen Data Scientisten Künstliche Intelligenz für Ihre Datenauswertung nutzen. Denn mittels Artificial Intelligence (AI) und Machine Learning werden Analyseschritte wie die Auswahl des richtigen Algorithmus von den Tools automatisiert, so dass der Nutzer kein Data-Science-Profi sein muss, um bestimmte Data-Science-Analysen durchführen zu können.

Es werden zum Beispiel Daten mit einer Clusteranalyse gruppiert, ohne dass der Nutzer verstehen muss, was im Hintergrund passiert. Ebenso können mit einem Klick Umsätze oder ähnliche geschäftsrelevante Daten mittels Zeitreihenanalysen vorhergesagt werden. In manchen Tools kann zudem durch die Einbettung von AI die Suche nach relevanten Daten mittels Sprachsteuerung oder Google-ähnlicher Suchfunktionen erleichtert werden. All das rangiert unter Augmented Analytics und gibt einen Eindruck davon, wie sich der Markt an Analytics-Werkzeugen weiter wandeln wird.

Welches Tool passt zu mir?

Bei der Vielzahl an Produkten und dem stetigen Wandel ist es schwer, den Überblick zu behalten. Wir haben den Markt gescannt und die Tools anhand typischer Nutzeranforderungen segmentiert.

  • Marktsegment 1: Reportingwerkzeuge
  • Marktsegment 2: BI & Analytics Suiten
  • Marktsegment 3:  Machine Learning (ML) & Data Science (DS) Plattformen
  • Marktsegment 4: Integrierte Entwicklungsumgebungen (IDEs) und Notebooks

Diese Segmentierung soll Ihnen helfen, das für Sie passende Tool zu finden. Um nun die für Sie passende Zuordnung zu identifizieren machen Sie sich bewusst, was Sie von dem Analysewerkzeug erwarten. Folgende Fragen unterstützen Sie dabei:

  • Reichen starre und einfache Visualisierungen von Daten, die sich als Bilddatei oder Tabelle abspeichern können?
  • Sollen mehrere Nutzer in einer explorativen Analyse zusammenarbeiten können?
  • Wenn ja, inwiefern soll die Zusammenarbeit unterstützt werden?
  • Nutzer welcher Fähigkeitsstufen sollen kollaborieren?
  • Wie ist deren Aufgabenverteilung?
  • Welche Anforderungen bestehen bezüglich Visualisierungen, statistischen und Machine-Learning-Funktionalitäten?
  • Inwiefern soll das Tool Data-Science-Prozesse wie das Trainieren von ML-Modellen unterstützen?

Mit Antworten auf diese Fragen sehen Sie schnell, in welchem Marktsegment sich das zu Ihren Anforderungen passende Tool befindet. Reicht Ihnen ein Reportingwerkzeug (Marktsegment 1) oder suchen Sie eher ein Tool für einen Power User (Marktsegment 2)? Oder gehen die Nutzer schon einen Schritt weiter in Richtung Data Science (Marktsegment 3)? Oder wollen Ihre Nutzer vollste Flexibilität und scheuen sich nicht vor anspruchsvoller Programmierung in Entwicklungsumgebungen (Marktsegment 4).

Marktsegmentierung von Analyse-Werkzeugen 

Sie fallen in mehrere Segmente? Kein Problem.

Die Anforderungen und Fähigkeiten der Nutzer in Ihrem Unternehmen gehen weit auseinander, so dass Sie nicht nur EIN relevantes Marktsegment für sich identifizieren? Keine Angst, das ist normal. Mit der richtigen Strategie und einem durchdachten Datenmanagementkonzept können diverse Tools auch problemlos miteinander kombiniert werden. Gerne unterstützen wir Sie hier bei der Auswahl und Implementierung, so dass Sie in Ihrem Unternehmen die datenbasierte Entscheidungsfindung mit Technologie der neuesten Generation schnellstens vorantreiben können.

Mein Tipp: Denken Sie zudem daran, dass die Nutzer mit dem Werkzeug gerne arbeiten und beziehen Sie diese in die Auswahl mit ein. Ich als Data Scientistin kann Ihnen sagen: „Nichts erschwert die Kreativität bei der explorativen Analyse mehr als eine Software, mit der man sich nicht wohl fühlt.“

In diesem Sinne, nutzen Sie unsere Segmentierung zur Orientierung und sprechen Sie uns gerne an. Ich freue  mich auf den Austausch mit Ihnen!

Übrigens – unsere beliebtesten Data Science Algorithmen haben wir ebenfalls übersichtlich für Sie zusammengestellt. Sie finden diese direkt hier auf unserem kostenfreien QUNIS MACHINE LEARNING CHEAT SHEET

AI, Advanced Analytics, Big Data und ihre Bedeutung für die BI

Erstellt am: Mittwoch, 1. Mai 2019 von Monika Düsterhöft

Artificial Intelligence (AI) nutzt Machine Learning

Artificial Intelligence ist ein Begriff, der sofort sehr stark mit Innovation assoziiert wird und gleichermaßen eine große Faszination wie diffuse Ängste auslösen kann, obwohl oder vielleicht auch gerade weil es bis dato keine generell akzeptierte oder allgemeingültige Definition dessen gibt.

Sprach Richard Bellman 1978 beispielsweise von „der Automatisierung von Aktivitäten, die wir mit menschlichem Denken assoziieren, also dem Fällen von Entscheidungen, Problemlösung, Lernen …“, definierte Patrick Henry Winston 1992 die AI als „das Studium von Berechnungen, die es möglich machen, wahrzunehmen, schlusszufolgern und zu agieren“. Eine weitere Definition aus dem Jahre 1990 von Ray Kurzweil trifft es ebenso im Kern: „Die Kunst, Maschinen zu entwickeln, die Funktionen ausüben, welche Intelligenz erfordern, wenn sie vom Menschen ausgeführt werden.“

Ein Großteil der Methoden, mit denen Artificial Intelligence (AI) realisiert wird, fasst man unter dem Oberbegriff des Machine Learning (ML) zusammen. Maschinelles Lernen ist sehr stark der Art nachempfunden, wie wir Menschen lernen – so werden der Maschine in immer wiederkehrenden Schleifen Beispiele vorgelegt, anhand derer ein Sachverhalt gelernt wird, nur um das Gelernte anschließend verallgemeinern zu können.

Beispielsweise zeigt man der Maschine zahlreiche verschiedene Bilder von Katzen, auf dass sie danach das Prinzip „Katze“ verinnerlicht hat und solche auch auf Bildern erkennen kann, die sie vorher noch nicht zu sehen bekommen hat. Wie auch beim Menschen wird beim maschinellen Lernen nach der Lernmethode unterschieden – so unterscheiden wir zwischen dem überwachten Lernen (Supervised Learning), also dem Lernen anhand vordefinierter Beispiele, dem unüberwachten Lernen (Unsupervised Learning), was das automatische Erkennen von Mustern oder Merkmalen zum Inhalt hat, sowie dem bestärkenden Lernen (Reinforcement Learning), das auf dem Prinzip des Belohnens und Bestrafens basiert.

Advanced Analytics nutzt AI

Bei der Advanced Analytics kommen maschinelles Lernen sowie andere mathematisch-statistische Verfahren und Modelle zur Anwendung. Hierunter verstehen wir das methodische Analysieren und Interpretieren von Daten beliebiger Strukturen mit Ziel einer möglichst automatischen Erkennung von Bedeutungen, Mustern und Zusammenhängen und/oder der Prognose bestimmter Eigenschaften oder Kennzahlen.

Die Advanced Analytics kann somit auch als nächste Evolutionsstufe der Business Intelligence gelten. Während die traditionelle Business Intelligence den Blick vorrangig in die Vergangenheit richtet, um den Manager zu ermächtigen, die richtigen Rückschlüsse und bestmöglichen Entscheidungen für die künftige Ausrichtung des Unternehmens zu treffen, versucht die Advanced Analytics, diesen Prozess weitestgehend der Maschine zu überlassen, also zu automatisieren und selbst in die Zukunft zu schauen. Dies erfolgt in zwei aufeinanderfolgenden Schritten – im ersten werden durch die Predictive Analytics Vorhersagen über zu erwartende Entwicklungen gemacht, im zweiten zeigt die Prescriptive Analytics potenzielle Maßnahmen auf, gezielt wünschenswerte Ergebnisse zu erreichen.

Big Data erweitert BI

Wie auch in des Managers Entscheidungsprozess weitere relevante Zusatzinformationen neben den reinen Geschäftsergebnissen einfließen, beispielsweise Wetterdaten, geolokale Informationen oder Markttrends, so ist dies analog gültig für die Advanced Analytics. So beschafft man sich neben den strukturierten Daten aus ERP-, CRM- oder anderen Systemen wie beispielsweise dem zentralen Data Warehouse weitere Informationsquellen, die in die Analytics mit eingebunden werden. Dies können nicht selten Datenbestände sein, die man im Allgemeinen dem Begriff Big Data zuordnet.

Konkret bezeichnet Big Data eine bestimmte Art und Beschaffenheit von Daten plus dazu passende Methoden und Technologien für die hochskalierbare Erfassung, Speicherung und Analyse. Gerne wird in dem Zusammenhang auch von den drei Vs gesprochen:

  • Variety oder die Datenvielfalt: Immer mehr Daten liegen in unstrukturierter und semistrukturierter Form vor, beispielsweise aus den sozialen Netzwerken oder auch Geräten und Sensoren.
  • Volume oder die Datenmenge: Immer größere Datenvolumina werden angesammelt – Größenordnungen von mehreren Petabytes sind keine Seltenheit mehr.
  • Velocity oder die Geschwindigkeit: Riesige Datenmengen müssen immer schneller ausgewertet werden, bis hin zur Echtzeit. Die Verarbeitungsgeschwindigkeit muss mit dem wachsenden Datenvolumen Schritt halten.

Bezieht man also neben strukturierten Daten auch unstrukturierte, polystrukturierte und Massendaten, idealerweise realtime in die Analyse mit ein und bedient sich dafür unter anderem der Methoden des Machine Learnings, erweitert man die BI durch Big Data und den Einsatz von AI hin zur Advanced Analytics.

Viele spannende Informationen warten darauf, auf diese Art von Ihnen entdeckt zu werden!

Mein Tipp: Sie wollen den Machine Learning Algorithmen auf den Grund gehen? Holen Sie sich das kostenfreie QUNIS Machine Learning Cheat Sheet als PDF, im Pocket-Format oder als Poster für die Wand. Hier direkt QUNIS MACHINE LEARNING CHEAT SHEET holen.

CDS – der Citizen Data Scientist als Weg aus dem Analytics-Ressourcen-Engpass

Erstellt am: Montag, 18. März 2019 von Monika Düsterhöft

Für die Umsetzung von Advanced-Analytics-Vorhaben ist eine durchdachte Datenstrategie unverzichtbar. Sie regelt alle Fragen rund um die technische Systemintegration, die Data Governance und das unternehmensweite Data Quality Management (DQM).

Darüber hinaus gibt es neue fachliche Anforderungen und Aufgabenfelder wie die Definition komplexer Algorithmen für das Heben wirtschaftlicher Potenziale oder das Deployment der entstandenen Data-Science-Services. Der Data Scientist nimmt bei diesen Aufgaben eine der zentralen Schlüsselrollen ein. 

Neue Advanced-Analytics-Aufgaben benötigen Data Scientisten mit vielfältigen mathematischen, technischen und prozessualen Skills.

Mit seinem tiefen Einblick in die Fachbereiche formuliert der Data Scientist die Projektanforderungen, kümmert sich um die Themen Datenmanagement und Data Quality Management unter Beachtung der Data Governance und übernimmt die Definition von Datenmodellen und Algorithmen. Er hat tiefe mathematisch-statistische Kenntnisse, kann programmieren, kennt sich mit Datenschutz und sonstigen Compliance-Regeln aus und verfügt über umfangreiches Business-Know-how.

Kurzum, der Data Scientist ist ein Allrounder mit viel Spezialwissen und umfassender Erfahrung. Kein Wunder daher, dass diese Fachkräfte äußerst gefragt und ziemlich rar sind und dass viele Digitalisierungsvorhaben schlichtweg wegen dieser fehlenden Skills und Ressourcen stagnieren.

Arbeitsteilung, Tools und das Konzept des Citizen Data Scientist (CDS) können Abhilfe aus dem Ressourcen-Dilemma schaffen.

Ein Ansatzpunkt ist die Entlastung des Data Scientists von Routinen im Datenmanagement. Speziell bei der Datenakquisition können technisch versierte Experten, die sogenannten Data Engineers, den Data Scientist gut unterstützen. Ein zweiter Ansatzpunkt, der sich derzeit am Markt für analytische Applikationen abzeichnet, ist die zunehmende Verlagerung von analytischem Know-how in die Systemwelt.

Etablierte BI-Anbieter beispielsweise erweitern ihr Portfolio um Datenvisualisierungstools, die Visual Analytics ohne Programmieraufwand unterstützen. Per Drag-and-drop können hier Datenströme hinzugefügt, verbunden und analysiert werden, und im Hintergrund laufen die neuesten Algorithmen für die fortgeschrittene Datenanalyse. Auch die Branche der AI-Spezialisten liefert unter der Bezeichnung „Augmented Analytics“ anwenderorientierte Werkzeuge, die Funktionen zur Automatisierung der Datenaufbereitung, Erkenntnisfindung und Datenanalyse enthalten.

Mithilfe solcher anwenderorientierten Frontends können geübte BI Power User, die ein mathematisch-statistisches Grundverständnis sowie Interesse an Analytics mitbringen, bestimmte Aufgabenfelder der Data Science übernehmen und so neben den Data Engineers ebenfalls ihren Teil dazu beitragen, das begehrte Skillset des Data Scientists zu erfüllen. Es kristallisiert sich ein neues Rollenbild heraus. Wir sprechen vom Citizen Data Scientist (CDS), der mit den richtigen Tools in der Lage ist, analytische Aufgaben auszuführen und auch selbst Modelle zu erstellen, die fortgeschrittene Analysen, Vorhersagen und präskriptive Funktionen enthalten.

Die Ausbildung von CDS ist ein aussichtsreicher Ansatzpunkt, um analytische Kompetenzen im Unternehmen aufzubauen.

Im Grunde kann jeder Fachanwender oder IT-Spezialist, der ein Grundverständnis für Datenarbeit sowie statistisches und mathematisches Know-how mitbringt, den Umgang mit Self-Service-Data-Science-Werkzeugen erlernen. Besonders geeignet sind BI Power User, die lernbereit und neugierig darauf sind, Data Science und vorhersagende Algorithmen für ihre Geschäftsprozesse zu erkunden.

Im Gegensatz zum klassischen BI-Anwender, der auf der Basis vorgefertigter Daten-Cubes arbeitet, bewegt sich der CDS dabei jedoch auch auf der Ebene der Rohdaten, um explorativ neue Erkenntnisse zu generieren. Weitere aussichtsreiche Kandidaten für Citizen Data Science sind Ingenieure mit Hintergrundwissen aus Mathematik, Statistik und Modellierung.

Die neuen Data-Science-Experten benötigen Rückendeckung und Unterstützung für ihr Tätigkeitsfeld.

Für ihre Aufgabenfelder bringen unternehmensintern ausgebildete CDS neben ihren analytischen Fähigkeiten auch ihr bereits vorhandenes Markt- und Branchen-Know-how sowie das Wissen um interne Prozessen in die Datenanalysen mit ein. Ein wesentlicher und nicht zu unterschätzender Vorteil. Sie brauchen aber auch Rückendeckung durch das Management sowie Unterstützung durch die interne IT.

CDS benötigen mehr Daten, zum Teil auch mehr ungefilterte Daten und sie brauchen IT-Umgebungen, in denen sie mithilfe aktueller Tools und Technologien experimentieren und Prototypen von Modellen und Applikationen bauen können. Zudem müssen sie den zeitlichen Freiraum für ihre Datenrecherchen erhalten.

Ein versierter Partner an der Seite, der neben der expliziten Data-Science-Expertise auch Erfahrung aus anderen Projekten mit einbringt und die neuen CDS auf ihrem Weg begleitet, ist eine weitere äußerst wertvolle Hilfe und ein wichtiger Baustein für den Erfolg einer Advanced-Analytics-Initiative.

Wenn die Rahmenbedingungen stimmen, können sich Unternehmen auf diese Weise pragmatisch wertvolle Personalressourcen aus den eigenen Reihen erschließen und richtig Schubkraft in ihre Digitalisierungsprojekte bringen.

Mein Tipp: Besuchen Sie das CA-Seminar – Deep Dive Advanced Analytics – Machine Learning in der Praxis mit „R“ – und lernen Sie das Tagesgeschäft eines Data Scientist besser kennen. Das Seminar wird von und mit QUNIS Experten durchgeführt und findet im Rahmen der Kooperation mit der CA Controller Akademie und des Ausbildungsprogramms zum Information Manager statt. Mehr zu allen CA-Seminaren finden Sie hier.

Data-Science-Services einfach und stabil bereitstellen mit dem AHUB Deployment Framework.

Data Science liebt Docker

Erstellt am: Freitag, 1. März 2019 von Monika Düsterhöft

Moderne Verfahren zur Datenanalyse dringen immer mehr in den Unternehmensalltag ein. Als Experte für das Erkennen von Strukturen in großen Datentöpfen und daraus abzuleitenden Vorhersagen spielt der Data Scientist eine bedeutende Rolle. Er leitet und begleitet die Entwicklung des Data-Science-Services von der Modellierung bis zur Bereitstellung an die Nutzer und hat es dabei typischerweise mit folgenden Herausforderungen zu tun:

Erstellung eines Modells in R oder Python inklusive einer REST API für webbasierte Aufrufe zum Modelltraining und Scoring

Im ersten Schritt, der explorativen Phase, befasst sich der Data Scientist mit dem Erstellen eines Modells mit Hilfe von Skripten. Diese trainieren das Modell mit historischen Daten und rufen Vorhersagen auf Basis neuer Datensätze ab. Die Umsetzung der Skripte erfolgt meist in Umgebungen wie R oder Python, die sich dank ihrer umfangreichen Bibliotheken aus dem Bereich der Statistik und des Machine Learning sowie einer sehr aktiven Entwickler-Community zum Quasi-Standard erhoben haben.

Für die Modell-Findung arbeitet der Data Scientist gerne in einer „Sandkasten-Umgebung“. Das kann eine virtuelle Maschine, ein lokaler Rechner oder auch ein Cloud-gehostetes „Notebook“ mit browserbasierter Entwicklungsumgebung sein. Das fertige Modell sollte über eine webbasierte Schnittstelle (REST-API) für andere Services ansprechbar sein. Hierfür haben sich die Bibliotheken Flask (Python) und Plumber (R) bewährt.

Definition der Code-Abhängigkeiten und Aufbau eines Images über Dockerfiles sowie Start der Container auf einem Cloud- oder On-Premise-Server

Ist ein Vorhersagemodell mit hoher Güte entstanden, gilt es dieses dem Nutzer zur Verfügung zu stellen. Wir sprechen vom Deployment des Data-Science-Services. Für diesen Zweck hat sich in den letzten Jahren die Docker-Container-Technologie als extrem flexibles und einfach handhabbares Werkzeug erwiesen. Denn Docker-Container lassen sich durch eine simple Konfigurationsdatei (das Dockerfile) in Minutenschnelle bauen und auf einem beliebigen System zur Ausführung bringen. Es gilt das große Docker-Versprechen: Wenn ein Container im Sandkasten läuft, lässt er sich auf jeder anderen Infrastruktur gleichermaßen betreiben.

Ein Container ist dabei ein gekapselter Prozess in dem sowohl der auszuführende Code, als auch alle dafür benötigten Abhängigkeiten (Laufzeitumgebung, Bibliotheken) untergebracht sind. Die Hardware-Ressourcen wie CPU und RAM werden dem Container vom Docker-Daemon, der auf dem Host-Betriebssystem läuft, zugewiesen. Container lassen sich so als ressourcenschonendere Variante einer dedizierten virtuellen Maschine sehen, da im Gegensatz zur VM nicht für jeden gekapselten Prozess ein eigenes Betriebssystem ausgeführt werden muss.

Fragestellungen rund um GUI, Sicherheit, Betrieb bedenken und lösen

Wer den Deployment-Prozess für einen Data-Science-Service einmal durchlaufen hat, wird feststellen, dass neben der reinen Data Science auch noch folgende Fragestellungen bedacht werden müssen:

  • Wie kann ein technisch weniger versierter Nutzer die Modellvorhersage abrufen? Welche GUI braucht er?
  • Wie kann der Zugriff auf das Modell nur berechtigten Personen erlaubt werden? Welche Sicherheitsthemen sind zu beachten?
  • Wie ist der fortdauernde Betrieb und die Nachvollziehbarkeit im Fehlerfall gewährleistet? Wie ist ein stabiler Betrieb und Governance möglich?

Da diese übergeordneten Fragestellungen bei jedem Deployment auftauchen, bietet es sich an, diese in standardisierter Form zu adressieren. Aus dieser Überlegung heraus ist bei QUNIS im Rahmen eines Forschungsprojektes das AHUB Deployment Framework entstanden.

Schnelle und stabile Bereitstellung mit Docker-basiertem Deployment-Framework

AHUB ist Docker-basiert und bietet eine orchestrierte Container-Landschaft aus standardisierten Modulen, die sich den obigen Fragestellungen annehmen. Mithilfe des Frameworks lassen sich beliebig viele analytische Teil-Applikationen mit minimalem Aufwand von der Sandbox-Umgebung in ein professionelles, produktives Setup und schlussendlich in einen stabilen Betrieb überführen.

Das ganze Framework ist als Open-Source-Projekt konzipiert. Der Quellcode und eine Demo-Applikation stehen über GitHub für jedermann zur Verfügung. Eine wirkliche Wohltat für jeden Data Scientisten. DIREKT ZU AHUB AUF GITHUB

Mehr zu AHUB erfahren.

Die Blockchain – ist das was oder kann das weg?

Erstellt am: Montag, 18. Februar 2019 von Monika Düsterhöft

Kryptowährungen sind nichts für mich, also warum sollte ich mich mit der Blockchain auseinandersetzen? So oder so ähnlich könnte man denken, wenn das Gespräch auf den mittlerweile nicht mehr gar so neuen Hype-Begriff kommt. Dass sich diese hochinteressante Technologie jedoch nicht nur für das Abbilden von Zahlungstransaktionen eignet, sondern auch anderen Anwendungsfällen eine solide und sehr sichere Plattform bieten kann, versteht man, wenn man sich mit dem Verfahren näher auseinandersetzt.

Wie funktioniert die Blockchain?

Rein technisch ist die Blockchain zunächst einmal eine Datenbank. Allerdings handelt es sich hier nicht um eine relationale Datenbank, wie wir sie vom SQL Server, Oracle, DB2 oder den vielen anderen namhaften Systemen kennen. Die Datenbank besteht vielmehr aus einer verketteten Liste von in Blöcken zusammengefassten Daten.


Verkettungen und Kopien machen die Blockchain einzigartig sicher

Die Verkettung definiert den Kern des Verfahrens

Diese Verkettung ist auch gleichzeitig das Spannende. Jeder der Blöcke „zeigt“ auf den jeweils vorigen Datenblock mittels eines sogenannten „Hashwertes“, der durch kryptografische Verschlüsselung jenes Vorgängerblocks mitsamt dessen Zeiger auf wiederum seinen Vorgängerblock entstanden ist.

Dieses Verfahren macht einen guten Teil dessen aus, was die Blockchain einzigartig und sicher macht: Würde man einzelne Daten innerhalb eines Blockes manipulieren, würde der Hashwert des Blockes damit verändert, was zur Folge hätte, dass man den nachfolgenden Block ebenfalls modifizieren müsste, sodann den nächstfolgenden, da auch dieser in Mitleidenschaft gezogen wäre, und so weiter und so fort.

Das Prinzip der Kopie sichert das Verfahren

Anders als in üblichen Systemen befindet sich die Blockchain-Datenbank nicht auf einem einzelnen zentralen Server, auf den die Teilnehmer des Netzwerkes zugreifen. Vielmehr verfügt jeder einzelne der teilnehmenden Rechner über eine vollständige Kopie der Blockchain. Durch vereinbarte Konsensregeln wird permanent überprüft, dass der Löwenanteil aller Teilnehmer das Gleiche gespeichert hat.

Ein betrügender Teilnehmer müsste also nicht nur seine eigene Kopie der Blockchain verändern, sondern dies insgesamt bei mehr als der Hälfte der Rechner tun, um seine Manipulation der Datenbank als die neue gültige Version durchbringen zu können. Dies jedoch ist wiederum durch das Verfahren selbst weitgehend ausgeschlossen.

Das Verfahren organisiert sich selbst

Jedes Mal, wenn ein Blockchain-Teilnehmer eine neue Transaktion, also einen neuen Datensatz meldet, schreiben alle beteiligten Rechner ihre Version der Blockchain eigenständig fort. Eine gewisse aufgelaufene Anzahl dieser neuen Datensätze wird sodann durch einen der teilnehmenden Rechner in einem neuen Block gebündelt, der dann wiederum mittels des Hashwert-Zeigers an die Kette angehängt wird.

Wer dieser Teilnehmer, der den neuen Block vorgibt, jeweils ist, wird durch einen vereinbarten Algorithmus, auch das Protokoll der Blockchain genannt, entschieden. Hierzu gibt es eine Vielzahl gängiger Methoden. Eine der bekanntesten nennt sich „Proof of Work“. Daneben gibt es aber auch den „Proof of Stake“ Algorithmus, „Proof of Authority“ und einige mehr.

Durch dieses Verfahren, das ein Beispiel der sogenannten Distributed Ledger Technologie darstellt, ist eine zentrale Instanz im Netzwerk überflüssig. Dies macht die Blockchain so spannend, denn damit ist es nunmehr erstmalig denkbar, dass es möglich sein könnte, auf zentralisierte Services wie zum Beispiel Banken zu verzichten, deren Servertechnologie und Programmen wir ja Stand heute quasi bedingungslos vertrauen müssen.

Kryptowährung, Smart Contracts, IoT – wo kommt die Blockchain zum Einsatz?

Am weitesten verbreitet und bekannt sind die sogenannten Kryptowährungen, also digitale Zahlungsmittel, deren Transaktionen auf einer Blockchain gespeichert werden. Bitcoin ist hierbei die älteste Währung, quasi die Mutter aller Blockchain-basierten Geldmittel.

Daneben ist Ethereum eine weitere sehr verbreitete Blockchain Technologie. Besonders bekannt geworden ist diese durch die Möglichkeit der Integration vollautomatischer dynamischer Verträge, sogenannter Smart Contracts.

Diese Programme, die ebenso unveränderlich und fälschungssicher wie alle übrigen Daten auf der Blockchain gespeichert sind und dort zur Ausführung kommen, eröffnen neue Möglichkeiten, die Blockchain im Unternehmensumfeld zu nutzen.

DAPPs für Versicherungen, Logistik, Hotellerie und mehr

Mit Smart Contracts ist es beispielsweise möglich, vertragliche Abkommen beliebiger Art vollautomatisch und unbestechlich zur Ausführung zu bringen, was ein enormes Potenzial an Möglichkeiten eröffnet, auch komplexe Prozesse auf sehr verlässliche Weise zu automatisieren. Man spricht hierbei auch von dezentralisierten Applikationen, sogenannten DAPPs.

So ist großes Automatisierungspotenzial beispielsweise bei Versicherungen denkbar – die Blockchain ermöglicht die verlässliche Sammlung aller Kundenzahlungen mit automatischer Auszahlung bei Eintritt eines im Smart Contract definierten Versicherungsfalls.
Ein weiteres großes Anwendungsfeld ist in der Logistik angesiedelt, lassen sich doch durch die Blockchain ganze Lieferketten mit allen Zwischenstationen zuverlässig dokumentieren.

Auch in IoT (Internet of Things)-Szenarien bieten Smart Contracts, neben der sich unter dem Namen IOTA etablierenden Blockchain, die sich durch eine ganz besonders hohe Transaktionsrate auszeichnet, hervorragende Optionen. So könnte beispielsweise ein Hotel enorme Einsparungen durch vollautomatische Services erzielen. Ein denkbares Szenario wäre: Bei Zahlung einer 24-Stunden-Gebühr werden für den Hotelgast Licht, Wasser sowie Strom aktiviert und das Türschloss automatisch geöffnet – was Schlüsselkarten oder ähnliches überflüssig macht.

Es ist noch nicht alles gedacht!

Bei all diesen vielen Möglichkeiten besteht zum aktuellen Zeitpunkt neben dem großen Hype um das Thema Blockchain noch einige Unsicherheit, was die Zukunft dieser Technologie betrifft. In einigen Aspekten gibt es auch noch Entwicklungsbedarf, um bestehende Schwachstellen zu beseitigen.

Dennoch lassen die Vielzahl der bereits umgesetzten Anwendungsfälle und die Möglichkeiten, die die Technologie in sich birgt, erahnen, dass das System Blockchain von dauerhaftem Bestand sein wird. Auch in der BI und Analytics tun sich spannende Einsatzfelder wie Echtzeitanalyse zur Anomalie- oder Betrugserkennung, eine Überwachung von Lieferketten oder einer Rückverfolgung von Produkten auf, die wir weiterverfolgen werden.

In Summe lässt sich also festhalten: Blockchain ist zwar nicht von Beuys, man sollte sie aber trotzdem nicht entsorgen. Vielmehr sollte man wachsam sein und bei Szenarien und Initiativen, bei denen es um sichere, nachvollziehbare Datenströme geht, immer auch mal ein Auge auf die Technologien und Plattformen der Blockchain werfen und untersuchen, wo sich ein Einsatz ausprobieren ließe oder gar lohnen könnte.

Vielleicht wollen Sie ja ein Vorreiter sein?

Sprechen Sie mit uns, wir bringen gerne unsere Erfahrung und Know-how mit ein KONTAKT

Datenqualität in BI und Big Data – wo liegt der Unterschied und wie funktioniert es zusammen?

Erstellt am: Freitag, 4. Januar 2019 von Monika Düsterhöft

In einer klassischen BI-Umgebung lagern typischerweise strukturierte Daten aus internen Vorsystemen wie Enterprise Resource Planning (ERP), Customer Relationship Management (CRM) oder der Buchhaltung. Für die Qualitätssicherung gibt es Best Practices und erprobte Technologien – man weiß genau, wie und wo man bei der Optimierung ansetzen kann, wenn der Bedarf da ist.

Unklar ist hingegen die Qualitätssicherung bei den für Predictive Analytics nötigen Big-Data-Quellen. Nutzen und Wertschöpfung der anvisierten Vorhersagemodelle hängt auch hier maßgeblich von der Qualität der zugrundeliegenden Daten ab. Systemarchitekten diskutieren nun, wie sie die Qualität von riesigen semi- und polystrukturierten Daten bewerten und sichern, welche Systemarchitekturen dabei ins Spiel kommen und wie das Datenmanagement funktioniert.

Das Data Warehouse bleibt der Single Point of Truth

Das klassische Data Warehouse hat als Kern einer typischen BI-Umgebung auch in der Welt der fortgeschrittenen Analysen seine Daseinsberechtigung. Es ist die beste Grundlage für standardisierte Berichts- und Analyseprozesse mit den unverzichtbaren Finanz- und Steuerungskennzahlen. Geht es um vorausschauende Unternehmenssteuerung, so sind diese Berichtsstandards um Trendanalysen und Prognosen aus der Big-Data-Welt zu ergänzen. In der Praxis erweist sich der sogenannte Data Lake als pragmatischer Implementierungsansatz, um hochstrukturierte Daten aus Transaktionssystemen und wenig strukturierte Big Data zusammenzuführen.

Ausgehend von der bewährten BI-Architektur mit offenen Schnittstellen lassen sich damit Big-Data-Komponenten in eine vorhandene Informationsplattform integrieren. Wichtig dabei ist, dass das zentrale Data Warehouse seinen Anspruch als Single Point of Truth im Unternehmen behält. Will man das Datenmanagement und die Qualität der Datenbasis für Advanced Analytics optimieren, ist es daher eine gute Idee, mit dem meist vorhandenen Data Warehouse zu starten.

Wie die Projektpraxis zeigt, besteht hier nämlich oft noch Handlungsbedarf. Abgesehen von Qualitätsmängeln und inkonsistenten Datenstrukturen wird mit dem Trend zu Self-Service-BI auch das bekannte Problem von Insellösungen und Datensilos wieder akut, das früher durch diverse Excel-Lösungen der Fachabteilungen verursacht wurde. Self-Service im Fachbereich ist praktisch und hat seine Berechtigung, aber das zentrale Business Intelligence Competence Center oder der BI-Verantwortliche müssen die Datenströme unter Kontrolle halten und darauf achten, dass der Single Point of Truth nicht ausgehebelt wird.

Data Warehouse Automation sichert die Datenqualität

Sind die Datenströme gut modelliert, bestehen große Chancen für eine dauerhaft hohe Datenqualität im BI-System. Durchweg strukturierte Daten von der operativen bis zur dispositiven Ebene, standardisierte Auswertungsverfahren und mächtige ETL-Werkzeuge (Extraktion, Transformation, Laden) mit integrierten Prüffunktionen ermöglichen eine hohe Automatisierung der Datenauswertung.

Für den effizienten Aufbau, die Anpassung und die Optimierung von Data Warehouses gibt es inzwischen ausgereifte Verfahren, die Standardisierung und Automatisierung erhöhen und damit die Fehlerrisiken auf ein Minimum senken. Diese Data Warehouse Automation beruht auf Frameworks, die bereits Best Practices für ETL nach etablierten Verfahren sowie Prüflogiken zur Sicherung der Datenqualität enthalten beziehungsweise deren Modellierung auf Meta-Ebene unterstützen. Neben einer effizienten Entwicklung und Administration vermeidet dieser lösungsorientierte Ansatz Konstruktionsfehler und sorgt dafür, dass für eine saubere Datenverarbeitung Best Practices zum Einsatz kommen.

Da Business Intelligence die Business-Realität möglichst genau abbilden will, ist ein hohe Datenqualität unverzichtbar. Klassische Kriterien wie Exaktheit und Vollständigkeit sind dabei zentrale Anforderungen. Schon ein Datenfehler oder eine Lücke im operativen Bestand kann das Ergebnis einer aggregierten Kennzahl verfälschen. Im Rahmen des internen und externen Berichtswesens stehen damit schnell falsche Entscheidungen oder Compliance-Verstöße im Raum.

Bei Big Data steuert der Business Case die Governance

In der Big-Data-Welt gestaltet sich die Datenqualität anders. Hier geht es zunächst darum, die relevanten Datenquellen zu bestimmen, die Daten abzuholen und zu speichern. Das ist nicht immer trivial angesichts einer Bandbreite von Daten aus dem Internet of Things, unstrukturierten Informationen aus Blogs und Social Networks, Sensordaten aus Kassensystemen und Produktionsanlagen, Messdaten aus Leitungsnetzen bis zu Datensätzen aus Navigationssystemen.

Im Gegensatz zur BI-Welt bestehen hier für die interne Datenarbeit keine allgemeingültigen Geschäftsregeln und Standards. Da es um die statistische Auswertung von Massendaten geht, sind die BI-typischen Qualitätskriterien Vollständigkeit und Exaktheit weniger wichtig. Im Rahmen der statistischen Verfahren fallen einzelne Fehler und Lücken nicht ins Gewicht, und Ausreißer lassen sich regelbasiert eliminieren. Wie groß die kritische Masse für belastbare Ergebnisse ist, wie genau, vollständig oder aktuell die Datenbasis sein muss und in welcher Form Informationen nutzbar gemacht werden, das ist für Big-Data-Analysen fallbezogen zu klären.

Die Vielfalt der Einsatzbereiche und damit die Rahmenbedingungen für die Bewertung und Bearbeitung von Daten sind nahezu unbegrenzt. Geht es etwa beim Internet of Things um die grobe Ressourcenplanung von Wartungsarbeiten für angebundene Geräte, sind Ausfälle einzelner Geräte-Meldesysteme irrelevant, da die Ermittlung von Peaks ausreicht. Im Rahmen von Predictive Maintenance ist dagegen jede konkrete Ausfallmeldung eines Gerätes wichtig. Für Kundenzufriedenheitsindizes auf Basis von Weblog-Analysen kommt es nicht auf jeden Beitrag an. Vielmehr geht es darum, Trends abzuleiten und diese in sinnvoll definierte Kennzahlen zu überführen.

Bei Big-Data-Anwendungen fallen also Datenqualitätsmanagement und Governance ebenso individuell aus wie das Analyseszenario des jeweiligen Business Case. In hoch automatisierten Anwendungen wie Autonomes Fahren oder Predictive Maintanance, in denen ausschließlich Maschinen über die Ergebnisse und Auswirkungen von Datenanalyen entscheiden, ist die Data Governance besonders wichtig. Die Quellen von Big Data liegen häufig außerhalb des Einflussbereichs der internen Prozesse: Maschinen-Output, Nutzereingaben oder Internet-Datenströme lassen sich nicht über interne organisatorische Maßnahmen kontrollieren. Bei permanent fließenden, unstrukturierten Datenquellen wie Chatforen greifen auch die klassischen ETL-Methoden nicht, und Störungen wie etwa eine Leitungsunterbrechung können nicht durch Wiederholung oder das Wiederherstellen des Datenbestands ausgeglichen werden.

Eine profunde Konzeption sichert den Projekterfolg

Das Potenzial von Predictive Analytics ist riesig, und viele Unternehmen erschließen sich gerade neue Dimensionen der Informationsgewinnung. Durch Cloud-Betriebsmodelle lassen sich neue Anwendungen schnell und kosteneffizient umsetzen. Voraussetzung dafür ist eine profunde Konzeption, die den kompletten Wertschöpfungsprozess der Daten mit Blick auf ein präzise formuliertes Projektziel abdeckt. Für ein erfolgreiches Projekt müssen anspruchsvolle Fragen der Fachlichkeit, Technik und Organisation geklärt werden. Hier empfiehlt es sich, die Erfahrung eines ganzheitlich orientierten Beratungsunternehmens hinzuzuziehen, um sich zeitraubende Umwege und schmerzhafte Lernzyklen zu ersparen.

Mehr zum QUNIS Data Lake Konzept erfahren.