Diese Schritte sind nicht neu, sondern sind bereits durch bekannte Business-Intelligence-Prozesse beschrieben.
Die Anforderungen an Menge und Qualität der Daten haben allerdings eine völlig neue Familie an Werkzeugen entstehen lassen. Mit dieser neuen Art an Werkzeugen werden in Big Data die verborgenen Schätze aus dem Data Lake gehoben. Hierzu setzen wir je nach Anwendungsfall Werkzeuge wie Hadoop, Spark, Hive oder Kafka ein.
Die Herausforderung besteht darin, die einzelnen Werkzeuge optimal zu kombinieren und auf diese Weise einen Gesamtprozess zu entwickeln, die sogenannte data pipeline. Es gibt nicht die eine data pipeline, sondern je nach Art der Daten und Anforderung an die Datenanalyse entstehen unterschiedliche Werkzeugkombinationen.
BI-Tools wie Power BI oder Tableau haben spezielle Adapter, die die Ergebnisse der data pipeline visualisieren können.