28.03.2022

Probieren Sie Big Data einfach aus!

Proof of Concept - Spielwiese

Sie wissen, dass in Ihren Daten Informationen und Erkenntnisse schlummern. Sie wissen aber nicht, wie Sie diese heben können und was Sie dafür benötigen: Big-Data-Plattform, ML, KI, Data Science…?

Doch wie anfangen? Die Komplexität der Technik und die Komplexität der Daten sind sehr hoch. Der Aufbau des erforderlichen Know-hows und der technischen Plattform bedeuten eine hohe Investition.

Vor der gleichen Situation standen auch viele unserer Kunden. Daraus ist unser Proof-of-Concept-Ansatz entstanden: Probieren Sie Big Data doch einfach auf einer Spielwiese aus!

Wie kann so eine Spielwiese aussehen?

Es gibt die Möglichkeit, ein Big-Data-Cluster auf einem Laptop mittels Technologien wie docker aufzusetzen. Ein solches Cluster im Kleinen ist ein guter erster Schritt, um sich mit einzelnen Werkzeugen vertraut zu machen.

Viele Erkenntnisse offenbaren sich allerdings erst, wenn die Spielwiese keine Miniaturlandschaft ist, sondern tatsächlich auf der Infrastruktur einer echten Big-Data-Landschaft aufsetzt. Eine Big-Data-Infrastruktur ist für Skalierung ausgelegt. Diese lässt sich nur in einem echten Cluster erfahren.

Dazu haben wir bei einem Infrastrukturanbieter mehrere Linux-Server gemietet und die Big-Data-Werkzeuge installiert. So ist unsere Testcloud entstanden; ein echtes Big-Data-Cluster, um das Zusammenspiel der Big-Data-Komponenten auszuprobieren.

Wir sammeln Daten und füllen den Data Lake.

Es beginnt immer mit den Datenquellen. Welche Quellen haben Sie und wie können die Daten in das Big-Data-Cluster importiert werden? Verteilte Dateisysteme wie HDFS (Hadoop Distributed File System) unterscheiden sich maßgeblich von hergebrachten Systemen wie relationalen Datenbanken. Big Data geht mit wirklich großen Mengen an Daten in unterschiedlicher Qualität und Strukturierung um. All diese Daten werden nicht bereinigt und nicht strukturiert. So wie die Daten in den Data Lake fließen, so werden diese auch abgelegt.

Jetzt arbeiten wir mit Daten.

Wenn noch kein konkreter Anwendungsfall vorliegt, dann gehen wir explorativ vor. Um einen Eindruck über den Zusammenhang der Daten zu bekommen, ist eine Exploration ein erster Schritt dahin. Eine graphische Analyse hilft, Beziehungen und Muster zu erkennen, aus denen sich eine konkrete Fragestellung ableiten lässt. Um diese Fragestellung dann zu untersuchen, müssen die Daten bereinigt, transformiert und schließlich analysiert und visualisiert werden.

Diese Schritte sind nicht neu, sondern sind bereits durch bekannte Business-Intelligence-Prozesse beschrieben.
Die Anforderungen an Menge und Qualität der Daten haben allerdings eine völlig neue Familie an Werkzeugen entstehen lassen. Mit dieser neuen Art an Werkzeugen werden in Big Data die verborgenen Schätze aus dem Data Lake gehoben. Hierzu setzen wir je nach Anwendungsfall Werkzeuge wie Hadoop, Spark, Hive oder Kafka ein.

Die Herausforderung besteht darin, die einzelnen Werkzeuge optimal zu kombinieren und auf diese Weise einen Gesamtprozess zu entwickeln, die sogenannte data pipeline. Es gibt nicht die eine data pipeline, sondern je nach Art der Daten und Anforderung an die Datenanalyse entstehen unterschiedliche Werkzeugkombinationen.

BI-Tools wie Power BI oder Tableau haben spezielle Adapter, die die Ergebnisse der data pipeline visualisieren können.

Spielen, ausprobieren und Erfahrungen sammeln.

Die Welt der Daten steht Ihnen jetzt offen. Auf dieser voll funktionsfähigen, cloudbasierten Big-Data-Plattform können Sie Ihre Daten einspielen, analysieren und visualisieren. Sie können Vorhersagen treffen und erste Erfahrungen mit ML sammeln.

Auf dieser Spielwiese sammeln Sie in kurzer Zeit und zu überschaubaren Kosten erste Erkenntnisse und schaffen damit eine solide Grundlage für weitere Entscheidungen und das weitere Vorgehen im Unternehmen.

Christoph Schmidt-Casdorff

Jetzt teilen:

Zurück zur Übersicht