Der Verwendung von Testdaten für Big-Data-Analysen stehen häufig der Datenschutz und strategische Bedenken entgegen. Auch sind Daten unterschiedlicher Provenienz und Struktur nicht immer verfügbar oder müssen eventuell aufwändig bereitgestellt werden. Ebenso können beispielsweise Marktzahlen die eigene Analysebasis sinnvoll erweitern.
Umso erfreulicher ist es für Teams, die sich mit Big Data und Advanced Analytics vertraut machen wollen, dass es heute viele, meist öffentlich zugängliche Datenquellen im Internet gibt. Dabei handelt es sich beispielsweise um Daten öffentlicher Einrichtungen. Hier haben die Bemühungen um „Open Data“ Vieles in Bewegung gesetzt. Ebenso stellen Unternehmen zunehmend Daten über REST-Schnittstellen kostenfrei zur Verfügung, in der Hoffnung, dass sich aus der Nutzung Folgegeschäfte ergeben können. Die Testdaten können dabei durchaus ein erhebliches Volumen von bis zu mehreren Hundert Terabytes haben. Nachfolgend stellen wir Ihnen einige dieser Quellen kurz vor:
QUNIS
QUNIS arbeitet bei Big-Data-und Advanced-Analytics-Vorhaben mit Testdaten, um Aufgabenstellungen zu veranschaulichen. So verwenden wir Datasets von Kaggle, einer Online-Plattform, die rund 260 Datensätze anbietet. Zudem haben wir ergänzend mit unserer Lösungsbibliothek zahlreiche Big-Data-Anwendungsbeispiele aus allen Branchen vereint, die Ihnen bei der Auswahl und Priorisierung von Use Cases gute Dienste leisten.
Bund
Die Geschäfts- und Koordinierungsstelle GovData arbeitet seit Herbst 2015 an dem EU-konformen Metadatenstandard für offene Verwaltungsdaten in Deutschland „DCAT-AP.DE“. Über das Datenportal stellen teilnehmende öffentliche Stellen Informationen zu vorhandenen Datensätze aus verschiedenen Bereichen (z.B. Umwelt, Bildung, Statistik) zur Verfügung. Es ist eine Vielzahl an unterschiedlichen Daten vorhanden. So finden Sie über GovData neben Statistiken und Jahresberichten, beispielsweise auch Karten, Wahlergebnisse oder Datenbanken, die es Ihnen ermöglichen, über Suchkriterien passende Einrichtungen zu finden.
https://www.govdata.de/
Die Geschäfts- und Koordinierungsstelle GovData arbeitet seit Herbst 2015 an dem EU-konformen Metadatenstandard für offene Verwaltungsdaten in Deutschland „DCAT-AP.DE“. Über das Datenportal stellen teilnehmende öffentliche Stellen Informationen zu vorhandenen Datensätze aus verschiedenen Bereichen (z.B. Umwelt, Bildung, Statistik) zur Verfügung. Es ist eine Vielzahl an unterschiedlichen Daten vorhanden. So finden Sie über GovData neben Statistiken und Jahresberichten, beispielsweise auch Karten, Wahlergebnisse oder Datenbanken, die es Ihnen ermöglichen, über Suchkriterien passende Einrichtungen zu finden.
https://www.govdata.de/
US-Regierung
Hier findet sich Open Data zu Themen wie “Landwirtschaft”, “Finanzen”, “Wirtschaft”. Insgesamt über 180tausend Datensätze.
https://www.data.gov/
Hier findet sich Open Data zu Themen wie “Landwirtschaft”, “Finanzen”, “Wirtschaft”. Insgesamt über 180tausend Datensätze.
https://www.data.gov/
Eurostat
Das Statistische Amt der Europäischen Union, kurz Eurostat genannt, bietet ein umfängliches Open-Data-Repository. Hier finden sich beispielsweise Daten zu Themen zur Bevölkerung, Unternehmensdaten, Wirtschaftsdaten, Landwirtschaft oder dem Gesundheitswesen.
http://ec.europa.eu/eurostat/data/database
Das Statistische Amt der Europäischen Union, kurz Eurostat genannt, bietet ein umfängliches Open-Data-Repository. Hier finden sich beispielsweise Daten zu Themen zur Bevölkerung, Unternehmensdaten, Wirtschaftsdaten, Landwirtschaft oder dem Gesundheitswesen.
http://ec.europa.eu/eurostat/data/database
Amazon Datasets
Amazon bietet mit den „AWS Public Data Sets“ eine Vielzahl von Daten, die der Konzern in seiner S3-Cloud-Plattform vorhält. Die Daten sind frei, es fallen aber Prozessgebühren an, wenn Rechner zur Analyse die AWS-Plattform verwenden. Zu den angebotenen Daten gehören untern anderem die täglich aktualisierten NASA-Daten, Klimadaten, Musikdaten („The Millionen Song Collection“), Social-Media-Daten, Daten aus der Wikipedia oder vom „Human Genome Project“.
http://aws.amazon.com/datasets/
Amazon bietet mit den „AWS Public Data Sets“ eine Vielzahl von Daten, die der Konzern in seiner S3-Cloud-Plattform vorhält. Die Daten sind frei, es fallen aber Prozessgebühren an, wenn Rechner zur Analyse die AWS-Plattform verwenden. Zu den angebotenen Daten gehören untern anderem die täglich aktualisierten NASA-Daten, Klimadaten, Musikdaten („The Millionen Song Collection“), Social-Media-Daten, Daten aus der Wikipedia oder vom „Human Genome Project“.
http://aws.amazon.com/datasets/
CERN
Das CERN, die Europäische Organisation für Kernforschung, stellt aus seinen Projekten ebenfalls Daten zur Verfügung. So etwa Proben aus der Arbeit mit dem “Large Hadron Collider”. Unter diesen insgesamt über 300 Terabyte sind nicht nur Rohdaten, sondern auch aufbereitete Daten, die sich etwa in Universitäten nutzen lassen.
http://opendata.cern.ch/?ln=de
Das CERN, die Europäische Organisation für Kernforschung, stellt aus seinen Projekten ebenfalls Daten zur Verfügung. So etwa Proben aus der Arbeit mit dem “Large Hadron Collider”. Unter diesen insgesamt über 300 Terabyte sind nicht nur Rohdaten, sondern auch aufbereitete Daten, die sich etwa in Universitäten nutzen lassen.
http://opendata.cern.ch/?ln=de
Weltbank
Die Finanzorganisation bietet eine Fülle an Daten über die weltweite Entwicklung und Wirtschaft. Statt eines Downloads lässt sich auch über einfach zu bedienende Benutzeroberflächen auf die Daten zugreifen.
http://data.worldbank.org/
Die Finanzorganisation bietet eine Fülle an Daten über die weltweite Entwicklung und Wirtschaft. Statt eines Downloads lässt sich auch über einfach zu bedienende Benutzeroberflächen auf die Daten zugreifen.
http://data.worldbank.org/
OECD
Die Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD) stellt ein Vielzahl statistischer Daten zu allen 30 OECD-Ländern, der EURO-Zone und der Gesamtorganisation zur Verfügung. Die Daten sind nach Themengruppen organisiert, wie beispielsweise Internationaler Handel, Preise, Public Management oder zum Arbeitsmarkt.
http://www.oecd.org/statistics/
Die Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD) stellt ein Vielzahl statistischer Daten zu allen 30 OECD-Ländern, der EURO-Zone und der Gesamtorganisation zur Verfügung. Die Daten sind nach Themengruppen organisiert, wie beispielsweise Internationaler Handel, Preise, Public Management oder zum Arbeitsmarkt.
http://www.oecd.org/statistics/
Ein Verzeichnis weitere Datenquellen bietet beispielsweise die Website Quora.
Praktische Informationen zu Big Data und Advanced Analytics für Ihre Projekte sowie Analysen und Neuigkeiten aus dem Markt bietet Ihnen auch unser Seite Big Data Factory!