Skip to Content

Was ist Delta Lake? Ein Überblick

Delta Lake ist ein Open-Source-Daten-Storage-Framework, das entwickelt wurde, um die Zuverlässigkeit und Performance von Data Lake zu optimieren. Sie behebt einige der häufigen Probleme, mit denen Data Lakes konfrontiert sind, wie z. B. Datenkonsistenz, Datenqualität und mangelnde Transaktionsfähigkeit. Ziel ist es, eine Daten-Storage-Lösung bereitzustellen, die skalierbare Big-Data-Workloads in einem datengesteuerten Unternehmen verarbeiten kann. 

Delta Lake – Ursprünge

Delta Lake wurde 2019 von Databricks, einem Apache Spark-Unternehmen, als Cloud-Tabellenformat auf Basis offener Standards und teilweise Open Source eingeführt, um häufig angeforderte Funktionen moderner Datenplattformen wie ACID-Garantien, gleichzeitige Umschreibevorgänge, Datenveränderbarkeit und mehr zu unterstützen. 

Was ist der Zweck oder die Hauptnutzung von Delta Lake?

Delta Lake wurde entwickelt, um die Nutzung von Data Lakes zu unterstützen und zu verbessern, die riesige Mengen sowohl strukturierter als auch unstrukturierter Daten enthalten. 

Datenwissenschaftler und Datenanalysten nutzen Data Lakes, um wertvolle Erkenntnisse aus diesen riesigen Datensätzen zu bearbeiten und zu gewinnen. Während Data Lakes die Art und Weise, wie wir Daten verwalten, revolutioniert haben, bringen sie auch einige Einschränkungen mit sich, darunter Datenqualität, Datenkonsistenz und, das primäre, einen Mangel an durchgesetzten Schemata, was es schwierig macht, maschinelles Lernen und komplexe Analysevorgänge an Rohdaten durchzuführen. 

Im Jahr 2021 argumentierten Datenwissenschaftler aus Wissenschaft und Technologie, dass Datenpools aufgrund dieser Einschränkungen bald durch „Lakehouses“ ersetzt werden würden, bei denen es sich um offene Plattformen handelt, die Data Warehousing und erweiterte Analysen vereinen.

Data Lakehouse-Systemdesign

Abbildung 1: Beispiel für ein Data Lakehouse-Systemdesign aus dem Paper von Michael Armbrust, Ali Ghodsi, Reynold Xin und Matei Zaharia. Delta Lake fügt Transaktionen, Versionierung und Hilfsdatenstrukturen über Dateien in einem offenen Format hinzu und kann mit verschiedenen APIs und Engines abgefragt werden. 

Delta Lake ist ein wichtiger Bestandteil jeder Lakehouse-Infrastruktur, da es eine wichtige Daten-Storage-Ebene bereitstellt. 

Delta Lake ist definiert durch: 

  • Offenheit: Es handelt sich um ein schnell wachsendes Integrationsökosystem, das Community-gesteuert ist.
  • Einfachheit: Es bietet ein einziges Format, um Ihre ETL, Ihr Data Warehouse und Ihr maschinelles Lernen in Ihrem Lakehouse zu vereinheitlichen.
  • Produktionsfähig: Es wurde in mehr als 10.000 Produktionsumgebungen getestet.
  • Plattformunabhängig: Sie können sie mit jeder Abfrage-Engine in jeder Cloud, lokal oder lokal verwenden.


Delta Lake vs. Data Lake vs. Data Warehouse vs. Data Lakehouse

Ein Delta Lake ist am besten im breiteren Kontext des Rechenzentrums zu verstehen, insbesondere wie er neben Data Lakes, Data Warehouses und Data Lake Houses passt. Werfen wir einen genaueren Blick: 

Delta Lake

Delta Lake ist eine Open-Source-Storage-Ebene, die die Integrität Ihrer ursprünglichen Daten bewahrt, ohne auf die Performance und Agilität zu verzichten, die für Echtzeitanalysen, KI-Anwendungen (AI) und ML-Anwendungen (ML) erforderlich sind.

Data Lake

Ein Data Lake ist ein Repository von Rohdaten in verschiedenen Formaten. Die Menge und Vielfalt der Informationen in einem Data Lake kann die Analyse erschweren und die Datenqualität und -zuverlässigkeit beeinträchtigen. 

Data Warehouse

Ein Data Warehouse sammelt Informationen aus mehreren Quellen, formatiert sie dann neu und organisiert sie in einer großen, konsolidierten Menge strukturierter Daten, die für Analysen und Berichte optimiert sind. Proprietäre Software und die Unfähigkeit, unstrukturierte Daten zu speichern, können ihren Nutzen einschränken.

Data Lakehouse

Ein Data Lakehouse ist eine moderne Datenplattform, die die Flexibilität und Skalierbarkeit eines Data Lake mit den Struktur- und Verwaltungsfunktionen eines Data Warehouse in einer einfachen, offenen Plattform kombiniert.

FlashBlade selbst testen

Erleben Sie eine Self-Service-Instanz von Pure1® zum Verwalten von Pure FlashBlade™, der fortschrittlichsten Lösung der Branche, die nativen skalierbaren Datei- und Objekt-Storage liefert.

Test anfordern

Wie funktioniert Delta Lake?

Delta Lake arbeitet, indem es eine zusätzliche Abstraktionsebene zwischen den Rohdaten und den Verarbeitungsengines schafft. Es befindet sich auf einem Data Lake und verwendet sein Storage-System. Sie teilt Daten in Batches auf und fügt dann ACID-Transaktionen zusätzlich zu den Batches hinzu. Delta Lake ermöglicht auch die Schemadurchsetzung für die Datenvalidierung, bevor es dem See hinzugefügt wird.

Delta Lake speichert Daten im Parquet-Format und verwendet das Hadoop Distributed File System (HDFS) oder Amazon S3 als Storage-Ebene. Die Storage-Ebene speichert Daten in unveränderlichen Parquet-Dateien, die zur Schemaentwicklung versioniert sind.

Wie verbessert Delta Lake die Datenperformance durch Indexierung?

Delta Lake verbessert die Datenperformance, indem es zusätzlich zu häufig aufgerufenen Daten Indizes erstellt. Diese Indizes ermöglichen eine schnellere Datenabrufzeit und helfen bei der Optimierung der Performance. Während jede Datenbank Indexierung verwendet, ist Delta Lake einzigartig, da sie eine Kombination aus automatischem Metadaten-Parsing und physischem Datenlayout verwendet, um die Anzahl der gescannten Dateien zu reduzieren, um eine Abfrage zu erfüllen.

Delta Lake-Architektur

Delta Lake ist eine zusätzliche Datenschicht und stellt eine Weiterentwicklung der Lambda-Architektur dar, bei der Streaming und Batch-Verarbeitung parallel erfolgen und die Ergebnisse zu einer Abfrageantwort zusammengeführt werden. Diese Methode erhöht die Komplexität und die Schwierigkeiten bei der Wartung und beim Betrieb der Streaming- und Batch-Prozesse.

Delta Lake verwendet eine kontinuierliche Datenarchitektur, die Streaming- und Batch-Workflows in einem gemeinsamen Datei-Store über eine verbundene Pipeline kombiniert. Die gespeicherte Datendatei hat drei Schichten, die als „Multi-Hop-Architektur“ bezeichnet werden, und die Daten werden verfeinert, wenn sie im Datenfluss nachgeschaltet werden:

  • Bronze-Tabellen enthalten die Rohdaten, die aus mehreren Quellen wie IoT-Systemen (Internet of Things), CRM-, RDBMS- und JSON-Dateien aufgenommen werden.
  • Silver-Tabellen enthalten eine verfeinerte Ansicht unserer Daten nach der Transformation und den Feature-Engineering-Prozessen.
  • Gold-Tabellen sind für Endbenutzer für BI-Berichte, Analysen oder maschinelle Lernprozesse bestimmt.
Delta Lake-Architektur

Abbildung 2: Delta Lake-Architektur.

Vorteile von Delta Lake

Delta Lake kann jedem Unternehmen zugutekommen, das sich auf robuste Big-Data-Lösungen verlässt, einschließlich solcher in den Bereichen Finanzen, Gesundheitswesen und Einzelhandel.

Zu den Hauptvorteilen von Delta Lake gehören:

  • Bessere Datenzuverlässigkeit: Delta Lake bietet Transaktionsgarantien und Snapshot-Isolierung, wodurch die Datenzuverlässigkeit verbessert wird. Darüber hinaus können Benutzer ausgefallene Transaktionen rückgängig machen, ohne andere erfolgreiche Transaktionen zu beeinträchtigen. Delta Lake verwendet Versionskontrollmechanismen, um neue Daten in den Data Lake hinzuzufügen, ohne bestehende Daten zu beeinträchtigen.
  • Unterstützung der Schemaentwicklung: Delta Lake kann die Schemaentwicklung in Datensätzen unterstützen. Es verarbeitet Schemaänderungen, indem es einen Versionsverlauf des Datenschemas speichert und es Benutzern ermöglicht, das Schema vor dem Schreiben der Daten zu aktualisieren. Delta Lake prüft außerdem vor dem Schreiben der Daten auf die Validierung des Datenschemas.
  • Kompatibilität: Delta Lake ist mit verschiedenen Big-Data-Verarbeitungs-Engines kompatibel, darunter Apache Spark, Hadoop und Amazon EMR. Delta Lake ist auch in SQL-ähnliche Abfragen integriert, sodass Benutzer Erkenntnisse aus den Datensätzen bearbeiten und extrahieren können.

All diese Vorteile tragen dazu bei, Delta Lake zu einer wichtigen Daten-Storage-Lösung zu machen.

Nachteile von Delta Lake

Delta Lake hat zwar viele Vorteile, hat aber auch einige Nachteile, darunter:

  • Nicht ideal für unstrukturierte Daten: Wenn Sie keine großen Mengen an unstrukturierten Daten verarbeiten oder einen kleinen Daten-Storage-Bedarf haben, ist Delta Lake möglicherweise nicht die beste Lösung für Sie. Herkömmliche Daten-Storage-Lösungen können einfacher zu implementieren und kostengünstiger sein.
  • Nicht einfach zu erlernen: Delta Lake ist zwar eine hervorragende Lösung für Big-Data-Workloads, erfordert jedoch möglicherweise zusätzliche Entwicklungsressourcen und Zeit für die Implementierung. Darüber hinaus gibt es eine steile Lernkurve für Benutzer, die neu auf der Plattform sind.

So erhalten und implementieren Sie Delta Lake

Sie können Delta Lake aus verschiedenen möglichen Quellen beziehen, darunter Apache Spark-Repositorys von GitHub, die Delta Lake-Website und beliebte Drittanbieteranwendungen wie Databricks. Delta Lake wird implementiert, indem es als Verarbeitungsmaschine zu einem bestehenden Big-Data-Cluster wie Apache Spark, Hadoop oder Amazon EMR hinzugefügt wird.

Fazit

Delta Lake ist eine hervorragende Lösung für Big-Data-Workloads, mit denen Benutzer unstrukturierte Datensätze zuverlässig verwalten können. Sie bietet Funktionen wie ACID-Transaktionen, Schemavalidierung und API-Integration. Delta Lake hat zwar einige Overhead-Storage-Anforderungen, kann aber die Skalierung eines datengesteuerten Unternehmens effektiv bewältigen. Delta Lake bietet ein robustes Framework zur Verbesserung der Datenqualität und -zuverlässigkeit und ist eine nützliche Ergänzung zu jeder Big-Data-Plattform.

Suchen Sie nach einer Storage-Infrastruktur mit Objekt-Storage, die schnell genug ist, um Ihren Delta Lake zu unterstützen? Lesen Sie weiter, um zu erfahren, wie Sie mit Delta Lake und FlashBlade ® ein Open Data Lakehouse bauen können.

11/2024
Pure Storage FlashBlade and Ethernet for HPC Workloads
NFS with Pure Storage® FlashBlade® and Ethernet delivers high performance and data consistency for high performance computing (HPC) workloads.
White Paper
7 Seiten
KONTAKTIEREN SIE UNS
Fragen, Kommentare?

Haben Sie eine Frage oder einen Kommentar zu Produkten oder Zertifizierungen von Pure?  Wir helfen Ihnen gerne!

Termin für Demo vereinbaren

Vereinbaren Sie einen Termin für eine Live-Demo und sehen Sie selbst, wie Pure Ihnen helfen kann, Ihre Daten in überzeugende Ergebnisse zu verwandeln. 

Rufen Sie uns an: +49 89 26200662
Presse:
 pr@purestorage.com

 

Pure Storage Germany GmbH

Mies-van-der-Rohe-Straße 6

80807 München

Deutschland

info@purestorage.com

SCHLIESSEN
Ihr Browser wird nicht mehr unterstützt!

Ältere Browser stellen häufig ein Sicherheitsrisiko dar. Um die bestmögliche Erfahrung bei der Nutzung unserer Website zu ermöglichen, führen Sie bitte ein Update auf einen dieser aktuellen Browser durch.