Archiv für die Kategorie Predictive Analytics

Datenqualität in BI und Big Data – wo liegt der Unterschied und wie funktioniert es zusammen?

Erstellt am: Freitag, 4. Januar 2019 von Monika Düsterhöft

In einer klassischen BI-Umgebung lagern typischerweise strukturierte Daten aus internen Vorsystemen wie Enterprise Resource Planning (ERP), Customer Relationship Management (CRM) oder der Buchhaltung. Für die Qualitätssicherung gibt es Best Practices und erprobte Technologien – man weiß genau, wie und wo man bei der Optimierung ansetzen kann, wenn der Bedarf da ist.

Unklar ist hingegen die Qualitätssicherung bei den für Predictive Analytics nötigen Big-Data-Quellen. Nutzen und Wertschöpfung der anvisierten Vorhersagemodelle hängt auch hier maßgeblich von der Qualität der zugrundeliegenden Daten ab. Systemarchitekten diskutieren nun, wie sie die Qualität von riesigen semi- und polystrukturierten Daten bewerten und sichern, welche Systemarchitekturen dabei ins Spiel kommen und wie das Datenmanagement funktioniert.

Das Data Warehouse bleibt der Single Point of Truth

Das klassische Data Warehouse hat als Kern einer typischen BI-Umgebung auch in der Welt der fortgeschrittenen Analysen seine Daseinsberechtigung. Es ist die beste Grundlage für standardisierte Berichts- und Analyseprozesse mit den unverzichtbaren Finanz- und Steuerungskennzahlen. Geht es um vorausschauende Unternehmenssteuerung, so sind diese Berichtsstandards um Trendanalysen und Prognosen aus der Big-Data-Welt zu ergänzen. In der Praxis erweist sich der sogenannte Data Lake als pragmatischer Implementierungsansatz, um hochstrukturierte Daten aus Transaktionssystemen und wenig strukturierte Big Data zusammenzuführen.

Ausgehend von der bewährten BI-Architektur mit offenen Schnittstellen lassen sich damit Big-Data-Komponenten in eine vorhandene Informationsplattform integrieren. Wichtig dabei ist, dass das zentrale Data Warehouse seinen Anspruch als Single Point of Truth im Unternehmen behält. Will man das Datenmanagement und die Qualität der Datenbasis für Advanced Analytics optimieren, ist es daher eine gute Idee, mit dem meist vorhandenen Data Warehouse zu starten.

Wie die Projektpraxis zeigt, besteht hier nämlich oft noch Handlungsbedarf. Abgesehen von Qualitätsmängeln und inkonsistenten Datenstrukturen wird mit dem Trend zu Self-Service-BI auch das bekannte Problem von Insellösungen und Datensilos wieder akut, das früher durch diverse Excel-Lösungen der Fachabteilungen verursacht wurde. Self-Service im Fachbereich ist praktisch und hat seine Berechtigung, aber das zentrale Business Intelligence Competence Center oder der BI-Verantwortliche müssen die Datenströme unter Kontrolle halten und darauf achten, dass der Single Point of Truth nicht ausgehebelt wird.

Data Warehouse Automation sichert die Datenqualität

Sind die Datenströme gut modelliert, bestehen große Chancen für eine dauerhaft hohe Datenqualität im BI-System. Durchweg strukturierte Daten von der operativen bis zur dispositiven Ebene, standardisierte Auswertungsverfahren und mächtige ETL-Werkzeuge (Extraktion, Transformation, Laden) mit integrierten Prüffunktionen ermöglichen eine hohe Automatisierung der Datenauswertung.

Für den effizienten Aufbau, die Anpassung und die Optimierung von Data Warehouses gibt es inzwischen ausgereifte Verfahren, die Standardisierung und Automatisierung erhöhen und damit die Fehlerrisiken auf ein Minimum senken. Diese Data Warehouse Automation beruht auf Frameworks, die bereits Best Practices für ETL nach etablierten Verfahren sowie Prüflogiken zur Sicherung der Datenqualität enthalten beziehungsweise deren Modellierung auf Meta-Ebene unterstützen. Neben einer effizienten Entwicklung und Administration vermeidet dieser lösungsorientierte Ansatz Konstruktionsfehler und sorgt dafür, dass für eine saubere Datenverarbeitung Best Practices zum Einsatz kommen.

Da Business Intelligence die Business-Realität möglichst genau abbilden will, ist ein hohe Datenqualität unverzichtbar. Klassische Kriterien wie Exaktheit und Vollständigkeit sind dabei zentrale Anforderungen. Schon ein Datenfehler oder eine Lücke im operativen Bestand kann das Ergebnis einer aggregierten Kennzahl verfälschen. Im Rahmen des internen und externen Berichtswesens stehen damit schnell falsche Entscheidungen oder Compliance-Verstöße im Raum.

Bei Big Data steuert der Business Case die Governance

In der Big-Data-Welt gestaltet sich die Datenqualität anders. Hier geht es zunächst darum, die relevanten Datenquellen zu bestimmen, die Daten abzuholen und zu speichern. Das ist nicht immer trivial angesichts einer Bandbreite von Daten aus dem Internet of Things, unstrukturierten Informationen aus Blogs und Social Networks, Sensordaten aus Kassensystemen und Produktionsanlagen, Messdaten aus Leitungsnetzen bis zu Datensätzen aus Navigationssystemen.

Im Gegensatz zur BI-Welt bestehen hier für die interne Datenarbeit keine allgemeingültigen Geschäftsregeln und Standards. Da es um die statistische Auswertung von Massendaten geht, sind die BI-typischen Qualitätskriterien Vollständigkeit und Exaktheit weniger wichtig. Im Rahmen der statistischen Verfahren fallen einzelne Fehler und Lücken nicht ins Gewicht, und Ausreißer lassen sich regelbasiert eliminieren. Wie groß die kritische Masse für belastbare Ergebnisse ist, wie genau, vollständig oder aktuell die Datenbasis sein muss und in welcher Form Informationen nutzbar gemacht werden, das ist für Big-Data-Analysen fallbezogen zu klären.

Die Vielfalt der Einsatzbereiche und damit die Rahmenbedingungen für die Bewertung und Bearbeitung von Daten sind nahezu unbegrenzt. Geht es etwa beim Internet of Things um die grobe Ressourcenplanung von Wartungsarbeiten für angebundene Geräte, sind Ausfälle einzelner Geräte-Meldesysteme irrelevant, da die Ermittlung von Peaks ausreicht. Im Rahmen von Predictive Maintenance ist dagegen jede konkrete Ausfallmeldung eines Gerätes wichtig. Für Kundenzufriedenheitsindizes auf Basis von Weblog-Analysen kommt es nicht auf jeden Beitrag an. Vielmehr geht es darum, Trends abzuleiten und diese in sinnvoll definierte Kennzahlen zu überführen.

Bei Big-Data-Anwendungen fallen also Datenqualitätsmanagement und Governance ebenso individuell aus wie das Analyseszenario des jeweiligen Business Case. In hoch automatisierten Anwendungen wie Autonomes Fahren oder Predictive Maintanance, in denen ausschließlich Maschinen über die Ergebnisse und Auswirkungen von Datenanalyen entscheiden, ist die Data Governance besonders wichtig. Die Quellen von Big Data liegen häufig außerhalb des Einflussbereichs der internen Prozesse: Maschinen-Output, Nutzereingaben oder Internet-Datenströme lassen sich nicht über interne organisatorische Maßnahmen kontrollieren. Bei permanent fließenden, unstrukturierten Datenquellen wie Chatforen greifen auch die klassischen ETL-Methoden nicht, und Störungen wie etwa eine Leitungsunterbrechung können nicht durch Wiederholung oder das Wiederherstellen des Datenbestands ausgeglichen werden.

Eine profunde Konzeption sichert den Projekterfolg

Das Potenzial von Predictive Analytics ist riesig, und viele Unternehmen erschließen sich gerade neue Dimensionen der Informationsgewinnung. Durch Cloud-Betriebsmodelle lassen sich neue Anwendungen schnell und kosteneffizient umsetzen. Voraussetzung dafür ist eine profunde Konzeption, die den kompletten Wertschöpfungsprozess der Daten mit Blick auf ein präzise formuliertes Projektziel abdeckt. Für ein erfolgreiches Projekt müssen anspruchsvolle Fragen der Fachlichkeit, Technik und Organisation geklärt werden. Hier empfiehlt es sich, die Erfahrung eines ganzheitlich orientierten Beratungsunternehmens hinzuzuziehen, um sich zeitraubende Umwege und schmerzhafte Lernzyklen zu ersparen.

Mehr zum QUNIS Data Lake Konzept erfahren.

Trends bei Nutzung von Big Data

Erstellt am: Dienstag, 6. März 2018 von Monika Düsterhöft

Nach Einschätzung der Marktforscher von IDC wird der weltweite Umsatz mit Software, Hardware und Services für Big Data und Big Data Analytics in den kommenden zwei Jahren auf 203 Milliarden US-Dollar steigen. Das jährlich zu den bereits vorhandenen Datenbergen hinzukommende Datenvolumen könnte laut der Auguren im Jahr 2025 bereits bei 180 Zetabyte liegen. Gewaltige Datenmengen und viele Chancen für Unternehmen, neue oder detailliertere Informationen zu extrahieren und für die Unternehmens- und Prozesssteuerung, Planung oder Produktentwicklung einzusetzen.

Prescriptive Analytics

Unter den vielen Aspekten, die im Zusammenhang mit der Nutzung von Big Data und Advanced Analytics diskutiert werden, finden sich einige Entwicklungen, die laut Marktbeobachtern in den kommenden zwölf Monaten besondere öffentliche Aufmerksamkeit erfahren werden.
So wird erwartet, dass das Interesse an Prescriptive Analytics steigt. Es vereint Verfahren des Machine Learning, Simulationen und mathematische Berechnungen, um bei einer bestimmten Fragestellung die optimale Lösung oder das beste Ergebnis unter verschiedenen zur Auswahl stehenden Möglichkeiten zu ermitteln. Praktisch werden also beispielsweise kontinuierlich und automatisch neue Daten verarbeitet, um die Genauigkeit von Vorhersagen zu erhöhen und bessere datengetriebene Entscheidungsoptionen zu bieten. Prescriptive Analytics könnte so neben Cognitive Computing den Mehrwert bei der Analyse von Big Data künftig erheblich steigern helfen.

ECM und Big Data

Big Data ist ein Sammelbegriff, der in der Praxis sowohl vorhandenen Daten, etwa aus einem Data Warehouse oder ERP-System, als auch neue Datenquellen einbezieht. Diese können dabei durchaus auch innerhalb der eigenen Unternehmensgrenzen liegen. So wird für 2018 erwartet, dass sich Organisationen mehr für historische Daten und Dokumente interessieren werden, die bislang nicht in einer digitalen Form vorliegen. In diesen können wichtige Informationen liegen, die zum Beispiel für Voraussagen hilfreich sein können. Damit zeichnet sich hier eine Entwicklung ab, die wir auch bei QUNIS sehen, nämlich der Annäherung und Kombination von Enterprise Content Management und Analyseumgebungen.

Datenqualität statt Datenquantität

Angesichts der wachsenden Datenberge ist es trotz sinkender Hardwarepreise, Cloud und Konzepten wie dem Data Lake auf Dauer nicht wirtschaftlich, schlicht alle erreichbaren Daten zu speichern. Unternehmen müssen sich daher in den kommenden Monaten strategisch damit beschäftigen, auf welche Datensätze sie es besonders abgesehen haben bzw. welche ihnen Ansätze für bessere Analysen bieten können. Ebenso wird es um Wege zur Verbesserung der Datenqualität gehen, denn Datensätze können irrelevant, ungenau oder gar beschädigt sein. Qualität statt Quantität, heißt also die Parole für 2018.

Machine Learing hilft beim Datenschutz

Herzstück einer Big-Data-Analyse sind Verfahren der Künstlichen Intelligenz. Diese müssen in 2018 verstärkt für Auswertungen im Bereich der Datensicherung und Datensicherheit zum Einsatz kommen, da auf diesem Anwendungsgebiet laut Marktbeobachtern Nachholbedarf herrscht. So werden Maschinen beispielsweise schon bald in der Lage sein, mit Hilfe von Machine Learning menschliches Verhalten „vorherzusagen“ und automatisiert „unlabeled data“ zu verwenden. Dadurch wird sich Künstliche Intelligenz zu einem zentralen Instrument für Datenschutz und Abwehr unerlaubter Zugriff entwickeln.

Neue Rollen und viele Stellenangebote

Aber nicht nur die Vielfalt und Nutzungsformen von Big Data werden sich in der nächsten Zeit weiterentwickeln, sondern auch die Menschen, die damit arbeiten. So entstehen neben dem viel zitierten Data Scientist weitere Rollen in den Organisationen, welche die Erfassung, Auswertung und Operationalisierung von Big Data überhaupt erst strukturiert möglich machen. Auch die QUNIS hat hierzu bereits im Rahmen ihrer Big Data Methodik ein modernes Rollenmodell entwickelt, das detailliert die Aufgaben und Kombinationen diskutieren und definieren hilft. Zugleich wächst im Markt die Sorge, dass sich nicht ausreichend Spezialisten für diese oft sehr anspruchsvollen Aufgaben und Rollen rund um Big Data finden lassen. So schätz beispielsweise IBM, dass allein in den USA das Stellenangebot für Big-Data-Experten im weitesten Sinne von 364.000 offenen Stellen in 2018 auf 2,72 Millionen bis 2020 ansteigen wird.

Die Unternehmensplanung verändert sich

Erstellt am: Freitag, 17. November 2017 von Monika Düsterhöft

Schon lange wird von Experten eine integrierte Planung gefordert, doch bleibt es in der Praxis häufig noch bei den alten Abläufen und Vorgehensweisen, die seit vielen Jahren eher kosmetisch angepasst werden. Es dominieren weiterhin Insellösungen, während schätzungsweise erst ein Drittel aller Unternehmen hierzulande schon moderne Planungslösungen im Einsatz hat. Dieser Nachholbedarf bremst auch die Einführung neuer Verfahren und Techniken wie Advanced Analytics. Zu viele Hausaufgaben sind im Zusammenhang mit der Planung noch zu erledigen. So etwa die Bereinigung und Harmonisierung von Datenmodellen. Auch scheuen Unternehmen die Kosten für den Umbau in Richtung integrierte Planung, da es sich um keine kurzfristigen und billigen Vorhaben handelt.

Planungsumgebungen, Simulationen und Predictive Analytics

Dennoch ist die Entwicklung nicht stehengeblieben. Vielmehr zeigen sich deutlich drei Entwicklungen bei der Modernisierung der Planungsumgebung. So existieren in manchen Unternehmen mittlerweile große Planungsplattformen mit neuen Tools und leistungsstarken Datenbanken, über die verschiedene Planungsprozesse integriert und automatisiert werden. Ferner werden häufiger Szenarien modelliert und simuliert. Dadurch wird das bisher dominierende Einsammeln von Plandaten (Bottom up) zurückgedrängt zugunsten einer Top-down-Planung.
Und schließlich kommen auch Lösungen für Advanced Analytics mittlerweile zum Einsatz. Mit ihnen lassen sich laut Finanzexperten schon heute besonders für kurzfristige Prognosen (Predictive Analytics) und für operative Größen gute Ergebnisse erzielen. Aggregierte Größen wie zum Beispiel der EBIT ließen sich hingegen bislang noch nicht so gut berechnen. Doch dies sei nur eine Frage der Zeit. Auch die wachsenden Datenmengen seien in diesem Zusammenhang weniger das Problem, sondern vielmehr die Verfügbarkeit und Qualität der Daten. Aktuell haben 20 Prozent aller Unternehmen eine Planungsumgebung mit automatisierten Analysen, so eine Schätzung.

Weitere Beiträge zum Thema Planung: