3 Big-Data-Herausforderungen (und wie man sie überwindet)
Big Data hat viele Eigenschaften: Es ist unstrukturiert, dynamisch und komplex. Aber was vielleicht das Wichtigste ist: Big Data ist groß. Menschen und IoT-Sensoren produzieren jedes Jahr Billionen von Gigabytes an Daten. Aber das sind keine Daten von gestern, sondern moderne Daten in immer mehr unterschiedlichen Formaten und aus immer mehr unterschiedlichen Quellen.
Dies verursacht eine Kluft zwischen den Daten von heute und den Systemen von gestern. Die schiere Größe und der Umfang sowie die Geschwindigkeit und die Komplexität der Daten stellen herkömmliche Daten-Storage-Systeme vor eine neue Herausforderung. Viele sind schlichtweg schlecht ausgerüstet, und Organisationen, die diese Goldgrube an Daten nutzen wollen, stoßen auf Blockaden.
Warum passiert das? Was sind die wichtigsten Herausforderungen im Zusammenhang mit Big Data, die Sie kennen sollten? Wenn Sie das Potenzial von Big Data nutzen wollen, werden Ihre Storage-Lösungen ausreichen, um sie zu bewältigen?
1. Big Data ist zu groß für herkömmlichen Storage
Die vielleicht offensichtlichste Herausforderung im Zusammenhang mit Big Data ist der enorme Umfang dieser Daten. Üblicherweise wird dieser in Petabyte gemessen (das sind 1.024 Terabyte oder 1.048.576 Gigabyte).
Um Ihnen eine Vorstellung davon zu geben, wie groß Big Data werden kann, hier ein Beispiel: Facebook-Nutzer laden mindestens 14,58 Millionen Fotos pro Stunde hoch. Zu jedem Foto werden Interaktionen, wie Likes und Kommentare, gespeichert. Nutzer haben mindestens eine Billion Beiträge, Kommentare und andere Datenpunkte „gelikt“.
Aber es sind nicht nur Tech-Giganten wie Facebook, die riesige Datenmengen speichern und auswerten. Selbst ein kleines Unternehmen, das einen Teil der Informationen aus sozialen Medien auswertet, um beispielsweise zu sehen, was Leute über seine Marke sagen, benötigt eine leistungsstarke Daten-Storage-Architektur.
Herkömmliche Daten-Storage-Systeme sind theoretisch in der Lage, große Datenmengen zu verarbeiten. Doch wenn es darum geht, die benötigte Effizienz und die benötigten Einblicke zu liefern, können viele von ihnen einfach nicht mit den Anforderungen moderner Daten mithalten.
Das Problem mit relationalen Datenbanken
Relationale SQL-Datenbanken sind zuverlässige, altbewährte Methoden zum Speichern, Lesen und Schreiben von Daten. Diesen Datenbanken fällt es jedoch schwer, effizient zu arbeiten, selbst wenn sie ihre maximale Kapazität noch nicht erreicht haben. Eine relationale Datenbank, die große Datenmengen enthält, kann aus vielen Gründen langsam werden. So muss zum Beispiel jedes Mal, wenn Sie einen Datensatz in eine relationale Datenbank einfügen, der Index aktualisiert werden. Dieser Vorgang dauert umso länger, je größer die Anzahl der Datensätze ist. Das Einfügen, Aktualisieren, Löschen und Ausführen anderer Vorgänge kann je nach der Anzahl der Beziehungen zu anderen Tabellen länger dauern.
Einfach ausgedrückt: Je mehr Daten sich in einer relationalen Datenbank befinden, desto länger dauert jeder Vorgang.
Scale-up versus Scale-out
Es ist auch möglich, herkömmliche Daten-Storage-Systeme zu skalieren, um die Performance zu verbessern. Da herkömmliche Daten-Storage-Systeme jedoch zentralisiert sind, sind Sie gezwungen, aufwärts zu skalieren (Scale-up) statt horizontal (Scale-out).
Das Scale-up ist weniger ressourceneffizient als das Scale-out, da Sie neue Systeme hinzufügen, Daten migrieren und dann die Last auf mehrere Systeme verteilen müssen. Herkömmliche Daten-Storage-Architekturen werden schnell zu umfangreich und unhandlich, um richtig verwaltet werden zu können.
Der Versuch, eine herkömmliche Storage-Architektur für Big Data zu verwenden, ist zum Teil deshalb zum Scheitern verurteilt, weil die Menge der Daten ein ausreichendes Scale-up unrealistisch macht. Dadurch wird das Scale-out zur einzig realistischen Option. Bei einer verteilten Storage-Architektur können Sie neue Knoten zu einem Cluster hinzufügen, sobald Sie eine bestimmte Kapazität erreicht haben – und zwar im Grunde unbegrenzt.