In erster Linie geht es um Daten. Daten in sehr großer Menge, aus unterschiedlichen Quellen, in verschiedenen Formaten und mit variierender Eintreffgeschwindigkeit sollen beherrscht werden. Für herkömmliche Datenbanken oder BI-System ist die Datenmenge oft zu groß oder zu heterogen. Jetzt kommt Big Data ins Spiel.
Horizontale Skalierung und Clustering
Aber was macht Big Data anders?
Big Data basiert auf horizontaler Skalierung.
Die 'horizontale Skalierung' ist der entscheidende Begriff zum Verständnis der Architektur. Um die Kapazität der Ressourcen wie CPU, Hauptspeicher oder Festplatte zu erhöhen, schließen sich mehrere Knoten (Rechner/VMs) zu einem Verbund zusammen (Cluster). Die Ressourcen eines Clusters lassen durch neue Knoten beliebig vergrößern. Das ist horizontale Skalierung.
Die Ressourcen des Clusters sind die Summe der Ressourcen der einzelnen Knoten.
Ok, ein Cluster verhält sich wie ein großer Rechner. Aber wo ist das Betriebssystem, welches den Prozessen die Ressourcen zuteilt? Leider gibt es kein dezidiertes Cluster-Betriebssystem. Aber es gibt Systeme, die sich mit Ressourcenverteilung beschäftigen oder andere Aufgaben eines Betriebssystems übernehmen (Clustermanagement).