Archiv für die Kategorie Data Science

AI, Advanced Analytics, Big Data und ihre Bedeutung für die BI

Erstellt am: Mittwoch, 1. Mai 2019 von Monika Düsterhöft

Artificial Intelligence (AI) nutzt Machine Learning

Artificial Intelligence ist ein Begriff, der sofort sehr stark mit Innovation assoziiert wird und gleichermaßen eine große Faszination wie diffuse Ängste auslösen kann, obwohl oder vielleicht auch gerade weil es bis dato keine generell akzeptierte oder allgemeingültige Definition dessen gibt.

Sprach Richard Bellman 1978 beispielsweise von „der Automatisierung von Aktivitäten, die wir mit menschlichem Denken assoziieren, also dem Fällen von Entscheidungen, Problemlösung, Lernen …“, definierte Patrick Henry Winston 1992 die AI als „das Studium von Berechnungen, die es möglich machen, wahrzunehmen, schlusszufolgern und zu agieren“. Eine weitere Definition aus dem Jahre 1990 von Ray Kurzweil trifft es ebenso im Kern: „Die Kunst, Maschinen zu entwickeln, die Funktionen ausüben, welche Intelligenz erfordern, wenn sie vom Menschen ausgeführt werden.“

Ein Großteil der Methoden, mit denen Artificial Intelligence (AI) realisiert wird, fasst man unter dem Oberbegriff des Machine Learning (ML) zusammen. Maschinelles Lernen ist sehr stark der Art nachempfunden, wie wir Menschen lernen – so werden der Maschine in immer wiederkehrenden Schleifen Beispiele vorgelegt, anhand derer ein Sachverhalt gelernt wird, nur um das Gelernte anschließend verallgemeinern zu können.

Beispielsweise zeigt man der Maschine zahlreiche verschiedene Bilder von Katzen, auf dass sie danach das Prinzip „Katze“ verinnerlicht hat und solche auch auf Bildern erkennen kann, die sie vorher noch nicht zu sehen bekommen hat. Wie auch beim Menschen wird beim maschinellen Lernen nach der Lernmethode unterschieden – so unterscheiden wir zwischen dem überwachten Lernen (Supervised Learning), also dem Lernen anhand vordefinierter Beispiele, dem unüberwachten Lernen (Unsupervised Learning), was das automatische Erkennen von Mustern oder Merkmalen zum Inhalt hat, sowie dem bestärkenden Lernen (Reinforcement Learning), das auf dem Prinzip des Belohnens und Bestrafens basiert.

Advanced Analytics nutzt AI

Bei der Advanced Analytics kommen maschinelles Lernen sowie andere mathematisch-statistische Verfahren und Modelle zur Anwendung. Hierunter verstehen wir das methodische Analysieren und Interpretieren von Daten beliebiger Strukturen mit Ziel einer möglichst automatischen Erkennung von Bedeutungen, Mustern und Zusammenhängen und/oder der Prognose bestimmter Eigenschaften oder Kennzahlen.

Die Advanced Analytics kann somit auch als nächste Evolutionsstufe der Business Intelligence gelten. Während die traditionelle Business Intelligence den Blick vorrangig in die Vergangenheit richtet, um den Manager zu ermächtigen, die richtigen Rückschlüsse und bestmöglichen Entscheidungen für die künftige Ausrichtung des Unternehmens zu treffen, versucht die Advanced Analytics, diesen Prozess weitestgehend der Maschine zu überlassen, also zu automatisieren und selbst in die Zukunft zu schauen. Dies erfolgt in zwei aufeinanderfolgenden Schritten – im ersten werden durch die Predictive Analytics Vorhersagen über zu erwartende Entwicklungen gemacht, im zweiten zeigt die Prescriptive Analytics potenzielle Maßnahmen auf, gezielt wünschenswerte Ergebnisse zu erreichen.

Big Data erweitert BI

Wie auch in des Managers Entscheidungsprozess weitere relevante Zusatzinformationen neben den reinen Geschäftsergebnissen einfließen, beispielsweise Wetterdaten, geolokale Informationen oder Markttrends, so ist dies analog gültig für die Advanced Analytics. So beschafft man sich neben den strukturierten Daten aus ERP-, CRM- oder anderen Systemen wie beispielsweise dem zentralen Data Warehouse weitere Informationsquellen, die in die Analytics mit eingebunden werden. Dies können nicht selten Datenbestände sein, die man im Allgemeinen dem Begriff Big Data zuordnet.

Konkret bezeichnet Big Data eine bestimmte Art und Beschaffenheit von Daten plus dazu passende Methoden und Technologien für die hochskalierbare Erfassung, Speicherung und Analyse. Gerne wird in dem Zusammenhang auch von den drei Vs gesprochen:

  • Variety oder die Datenvielfalt: Immer mehr Daten liegen in unstrukturierter und semistrukturierter Form vor, beispielsweise aus den sozialen Netzwerken oder auch Geräten und Sensoren.
  • Volume oder die Datenmenge: Immer größere Datenvolumina werden angesammelt – Größenordnungen von mehreren Petabytes sind keine Seltenheit mehr.
  • Velocity oder die Geschwindigkeit: Riesige Datenmengen müssen immer schneller ausgewertet werden, bis hin zur Echtzeit. Die Verarbeitungsgeschwindigkeit muss mit dem wachsenden Datenvolumen Schritt halten.

Bezieht man also neben strukturierten Daten auch unstrukturierte, polystrukturierte und Massendaten, idealerweise realtime in die Analyse mit ein und bedient sich dafür unter anderem der Methoden des Machine Learnings, erweitert man die BI durch Big Data und den Einsatz von AI hin zur Advanced Analytics.

Viele spannende Informationen warten darauf, auf diese Art von Ihnen entdeckt zu werden!

Mein Tipp: Sie wollen den Machine Learning Algorithmen auf den Grund gehen? Holen Sie sich das kostenfreie QUNIS Machine Learning Cheat Sheet als PDF, im Pocket-Format oder als Poster für die Wand. Hier direkt Cheat Sheet holen.

CDS – der Citizen Data Scientist als Weg aus dem Analytics-Ressourcen-Engpass

Erstellt am: Montag, 18. März 2019 von Monika Düsterhöft

Für die Umsetzung von Advanced-Analytics-Vorhaben ist eine durchdachte Datenstrategie unverzichtbar. Sie regelt alle Fragen rund um die technische Systemintegration, die Data Governance und das unternehmensweite Data Quality Management (DQM).

Darüber hinaus gibt es neue fachliche Anforderungen und Aufgabenfelder wie die Definition komplexer Algorithmen für das Heben wirtschaftlicher Potenziale oder das Deployment der entstandenen Data-Science-Services. Der Data Scientist nimmt bei diesen Aufgaben eine der zentralen Schlüsselrollen ein. 

Neue Advanced-Analytics-Aufgaben benötigen Data Scientisten mit vielfältigen mathematischen, technischen und prozessualen Skills.

Mit seinem tiefen Einblick in die Fachbereiche formuliert der Data Scientist die Projektanforderungen, kümmert sich um die Themen Datenmanagement und Data Quality Management unter Beachtung der Data Governance und übernimmt die Definition von Datenmodellen und Algorithmen. Er hat tiefe mathematisch-statistische Kenntnisse, kann programmieren, kennt sich mit Datenschutz und sonstigen Compliance-Regeln aus und verfügt über umfangreiches Business-Know-how.

Kurzum, der Data Scientist ist ein Allrounder mit viel Spezialwissen und umfassender Erfahrung. Kein Wunder daher, dass diese Fachkräfte äußerst gefragt und ziemlich rar sind und dass viele Digitalisierungsvorhaben schlichtweg wegen dieser fehlenden Skills und Ressourcen stagnieren.

Arbeitsteilung, Tools und das Konzept des Citizen Data Scientist (CDS) können Abhilfe aus dem Ressourcen-Dilemma schaffen.

Ein Ansatzpunkt ist die Entlastung des Data Scientists von Routinen im Datenmanagement. Speziell bei der Datenakquisition können technisch versierte Experten, die sogenannten Data Engineers, den Data Scientist gut unterstützen. Ein zweiter Ansatzpunkt, der sich derzeit am Markt für analytische Applikationen abzeichnet, ist die zunehmende Verlagerung von analytischem Know-how in die Systemwelt.

Etablierte BI-Anbieter beispielsweise erweitern ihr Portfolio um Datenvisualisierungstools, die Visual Analytics ohne Programmieraufwand unterstützen. Per Drag-and-drop können hier Datenströme hinzugefügt, verbunden und analysiert werden, und im Hintergrund laufen die neuesten Algorithmen für die fortgeschrittene Datenanalyse. Auch die Branche der AI-Spezialisten liefert unter der Bezeichnung „Augmented Analytics“ anwenderorientierte Werkzeuge, die Funktionen zur Automatisierung der Datenaufbereitung, Erkenntnisfindung und Datenanalyse enthalten.

Mithilfe solcher anwenderorientierten Frontends können geübte BI Power User, die ein mathematisch-statistisches Grundverständnis sowie Interesse an Analytics mitbringen, bestimmte Aufgabenfelder der Data Science übernehmen und so neben den Data Engineers ebenfalls ihren Teil dazu beitragen, das begehrte Skillset des Data Scientists zu erfüllen. Es kristallisiert sich ein neues Rollenbild heraus. Wir sprechen vom Citizen Data Scientist (CDS), der mit den richtigen Tools in der Lage ist, analytische Aufgaben auszuführen und auch selbst Modelle zu erstellen, die fortgeschrittene Analysen, Vorhersagen und präskriptive Funktionen enthalten.

Die Ausbildung von CDS ist ein aussichtsreicher Ansatzpunkt, um analytische Kompetenzen im Unternehmen aufzubauen.

Im Grunde kann jeder Fachanwender oder IT-Spezialist, der ein Grundverständnis für Datenarbeit sowie statistisches und mathematisches Know-how mitbringt, den Umgang mit Self-Service-Data-Science-Werkzeugen erlernen. Besonders geeignet sind BI Power User, die lernbereit und neugierig darauf sind, Data Science und vorhersagende Algorithmen für ihre Geschäftsprozesse zu erkunden.

Im Gegensatz zum klassischen BI-Anwender, der auf der Basis vorgefertigter Daten-Cubes arbeitet, bewegt sich der CDS dabei jedoch auch auf der Ebene der Rohdaten, um explorativ neue Erkenntnisse zu generieren. Weitere aussichtsreiche Kandidaten für Citizen Data Science sind Ingenieure mit Hintergrundwissen aus Mathematik, Statistik und Modellierung.

Die neuen Data-Science-Experten benötigen Rückendeckung und Unterstützung für ihr Tätigkeitsfeld.

Für ihre Aufgabenfelder bringen unternehmensintern ausgebildete CDS neben ihren analytischen Fähigkeiten auch ihr bereits vorhandenes Markt- und Branchen-Know-how sowie das Wissen um interne Prozessen in die Datenanalysen mit ein. Ein wesentlicher und nicht zu unterschätzender Vorteil. Sie brauchen aber auch Rückendeckung durch das Management sowie Unterstützung durch die interne IT.

CDS benötigen mehr Daten, zum Teil auch mehr ungefilterte Daten und sie brauchen IT-Umgebungen, in denen sie mithilfe aktueller Tools und Technologien experimentieren und Prototypen von Modellen und Applikationen bauen können. Zudem müssen sie den zeitlichen Freiraum für ihre Datenrecherchen erhalten.

Ein versierter Partner an der Seite, der neben der expliziten Data-Science-Expertise auch Erfahrung aus anderen Projekten mit einbringt und die neuen CDS auf ihrem Weg begleitet, ist eine weitere äußerst wertvolle Hilfe und ein wichtiger Baustein für den Erfolg einer Advanced-Analytics-Initiative.

Wenn die Rahmenbedingungen stimmen, können sich Unternehmen auf diese Weise pragmatisch wertvolle Personalressourcen aus den eigenen Reihen erschließen und richtig Schubkraft in ihre Digitalisierungsprojekte bringen.

Mein Tipp: Besuchen Sie das CA-Seminar – Deep Dive Advanced Analytics – Machine Learning in der Praxis mit „R“ – und lernen Sie das Tagesgeschäft eines Data Scientist besser kennen. Das Seminar wird von und mit QUNIS Experten durchgeführt und findet im Rahmen der Kooperation mit der CA Controller Akademie und des Ausbildungsprogramms zum Information Manager statt. Mehr zu allen CA-Seminaren finden Sie hier.

Data-Science-Services einfach und stabil bereitstellen mit dem AHUB Deployment Framework.

Data Science liebt Docker

Erstellt am: Freitag, 1. März 2019 von Monika Düsterhöft

Moderne Verfahren zur Datenanalyse dringen immer mehr in den Unternehmensalltag ein. Als Experte für das Erkennen von Strukturen in großen Datentöpfen und daraus abzuleitenden Vorhersagen spielt der Data Scientist eine bedeutende Rolle. Er leitet und begleitet die Entwicklung des Data-Science-Services von der Modellierung bis zur Bereitstellung an die Nutzer und hat es dabei typischerweise mit folgenden Herausforderungen zu tun:

Erstellung eines Modells in R oder Python inklusive einer REST API für webbasierte Aufrufe zum Modelltraining und Scoring

Im ersten Schritt, der explorativen Phase, befasst sich der Data Scientist mit dem Erstellen eines Modells mit Hilfe von Skripten. Diese trainieren das Modell mit historischen Daten und rufen Vorhersagen auf Basis neuer Datensätze ab. Die Umsetzung der Skripte erfolgt meist in Umgebungen wie R oder Python, die sich dank ihrer umfangreichen Bibliotheken aus dem Bereich der Statistik und des Machine Learning sowie einer sehr aktiven Entwickler-Community zum Quasi-Standard erhoben haben.

Für die Modell-Findung arbeitet der Data Scientist gerne in einer „Sandkasten-Umgebung“. Das kann eine virtuelle Maschine, ein lokaler Rechner oder auch ein Cloud-gehostetes „Notebook“ mit browserbasierter Entwicklungsumgebung sein. Das fertige Modell sollte über eine webbasierte Schnittstelle (REST-API) für andere Services ansprechbar sein. Hierfür haben sich die Bibliotheken Flask (Python) und Plumber (R) bewährt.

Definition der Code-Abhängigkeiten und Aufbau eines Images über Dockerfiles sowie Start der Container auf einem Cloud- oder On-Premise-Server

Ist ein Vorhersagemodell mit hoher Güte entstanden, gilt es dieses dem Nutzer zur Verfügung zu stellen. Wir sprechen vom Deployment des Data-Science-Services. Für diesen Zweck hat sich in den letzten Jahren die Docker-Container-Technologie als extrem flexibles und einfach handhabbares Werkzeug erwiesen. Denn Docker-Container lassen sich durch eine simple Konfigurationsdatei (das Dockerfile) in Minutenschnelle bauen und auf einem beliebigen System zur Ausführung bringen. Es gilt das große Docker-Versprechen: Wenn ein Container im Sandkasten läuft, lässt er sich auf jeder anderen Infrastruktur gleichermaßen betreiben.

Ein Container ist dabei ein gekapselter Prozess in dem sowohl der auszuführende Code, als auch alle dafür benötigten Abhängigkeiten (Laufzeitumgebung, Bibliotheken) untergebracht sind. Die Hardware-Ressourcen wie CPU und RAM werden dem Container vom Docker-Daemon, der auf dem Host-Betriebssystem läuft, zugewiesen. Container lassen sich so als ressourcenschonendere Variante einer dedizierten virtuellen Maschine sehen, da im Gegensatz zur VM nicht für jeden gekapselten Prozess ein eigenes Betriebssystem ausgeführt werden muss.

Fragestellungen rund um GUI, Sicherheit, Betrieb bedenken und lösen

Wer den Deployment-Prozess für einen Data-Science-Service einmal durchlaufen hat, wird feststellen, dass neben der reinen Data Science auch noch folgende Fragestellungen bedacht werden müssen:

  • Wie kann ein technisch weniger versierter Nutzer die Modellvorhersage abrufen? Welche GUI braucht er?
  • Wie kann der Zugriff auf das Modell nur berechtigten Personen erlaubt werden? Welche Sicherheitsthemen sind zu beachten?
  • Wie ist der fortdauernde Betrieb und die Nachvollziehbarkeit im Fehlerfall gewährleistet? Wie ist ein stabiler Betrieb und Governance möglich?

Da diese übergeordneten Fragestellungen bei jedem Deployment auftauchen, bietet es sich an, diese in standardisierter Form zu adressieren. Aus dieser Überlegung heraus ist bei QUNIS im Rahmen eines Forschungsprojektes das AHUB Deployment Framework entstanden.

Schnelle und stabile Bereitstellung mit Docker-basiertem Deployment-Framework

AHUB ist Docker-basiert und bietet eine orchestrierte Container-Landschaft aus standardisierten Modulen, die sich den obigen Fragestellungen annehmen. Mithilfe des Frameworks lassen sich beliebig viele analytische Teil-Applikationen mit minimalem Aufwand von der Sandbox-Umgebung in ein professionelles, produktives Setup und schlussendlich in einen stabilen Betrieb überführen.

Das ganze Framework ist als Open-Source-Projekt konzipiert. Der Quellcode und eine Demo-Applikation stehen über GitHub für jedermann zur Verfügung. Eine wirkliche Wohltat für jeden Data Scientisten. DIREKT ZU AHUB AUF GITHUB

Mehr zu AHUB erfahren.