Skip to Content

Qu’est-ce que Delta Lake ? vue d’ensemble

Delta Lake est un cadre de stockage de données open source conçu pour optimiser la fiabilité et les performances des lacs de données. Il traite certains des problèmes courants auxquels sont confrontés les lacs de données, tels que la cohérence des données, la qualité des données et le manque de transactionnalité. Son objectif est de fournir une solution de stockage de données capable de gérer des charges de travail Big Data évolutives dans une entreprise axée sur les données. 

Delta Lake Origins

Delta Lake a été lancé par Databricks, une société Apache Spark, en 2019 sous la forme d’un format de table cloud basé sur des normes ouvertes et partiellement open source pour prendre en charge les fonctionnalités demandées par les plateformes de données modernes, telles que les garanties ACID, les réécritures simultanées, la mutabilité des données, etc. 

Quel est l’objectif ou l’utilisation principale de Delta Lake ?

Delta Lake a été conçu pour prendre en charge et améliorer l’utilisation des lacs de données, qui contiennent d’énormes quantités de données structurées et non structurées. 

Les spécialistes des données et les analystes de données utilisent des lacs de données pour manipuler et extraire des informations précieuses de ces ensembles de données massifs. Bien que les lacs de données aient révolutionné la façon dont nous gérons les données, ils s’accompagnent également de certaines limites, notamment la qualité des données, la cohérence des données et, le premier, un manque de schémas appliqués, ce qui rend difficile l’apprentissage machine et les opérations d’analytique complexes sur les données brutes. 

En 2021, des spécialistes des données du monde universitaire et de la technologie ont fait valoir que, en raison de ces limitations, les lacs de données seraient bientôt remplacés par des « lacs », des plateformes ouvertes qui unifient l’entreposage de données et l’analytique avancée.

Conception du système Data Lakehouse

Figure 1 : Exemple de conception de système data lakehouse tiré de l’article de Michael Armbrust, Ali Ghodsi, Reynold Xin et Matei Zaharia. Delta Lake ajoute des transactions, des versions et des structures de données auxiliaires sur des fichiers dans un format ouvert et peut être interrogé avec diverses API et différents moteurs. 

Delta Lake est un élément important de toute infrastructure Lakehouse en fournissant une couche de stockage de données clé. 

Delta Lake se définit par : 

  • Ouverture : Il s’agit d’un écosystème d’intégration en pleine expansion, axé sur la communauté.
  • Simplicité : Il fournit un format unique pour unifier votre ETL, votre data warehouse et votre machine learning dans votre lac.
  • Prêt pour la production : Il a été testé dans plus de 10 000 environnements de production.
  • Indépendant de la plateforme : Vous pouvez l’utiliser avec n’importe quel moteur de requête sur n’importe quel cloud, sur site ou localement.


Delta Lake vs Data Lake vs Data Warehouse vs Data Lakehouse

Un lac Delta est mieux compris dans le contexte plus large du datacenter, en particulier dans sa manière de s’intégrer aux lacs de données, entrepôts de données et maisons de lacs de données. Regardons de plus près : 

Delta Lake

Delta Lake est une couche de stockage open source qui préserve l’intégrité de vos données d’origine sans sacrifier les performances et l’agilité requises pour les applications d’analytique en temps réel, d’intelligence artificielle (AI et d’apprentissage machine (ML).

Lac de données

Un lac de données est un référentiel de données brutes dans plusieurs formats. Le volume et la variété des informations d’un lac de données peuvent compliquer l’analyse et compromettre la qualité et la fiabilité des données. 

Data warehouse

Un data warehouse collecte des informations provenant de plusieurs sources, puis les reformate et les organise en un volume important et consolidé de données structurées, optimisé pour l’analyse et le reporting. Les logiciels propriétaires et l’incapacité à stocker des données non structurées peuvent limiter leur utilité.

Data Lakehouse

Un data lakehouse est une plateforme de données moderne qui associe la flexibilité et l’évolutivité d’un data lake à la structure et aux fonctionnalités de gestion d’un data warehouse dans une plateforme simple et ouverte.

Essayez FlashBlade

Essayez une instance de Pure1® en libre-service pour gérer Pure FlashBlade™, la solution native scale-out la plus avancée du secteur pour le stockage de fichiers et d’objets.

Demander un essai

Comment fonctionne Delta Lake ?

Delta Lake crée une couche supplémentaire d’abstraction entre les données brutes et les moteurs de traitement. Il se trouve au-dessus d’un lac de données et utilise son système de stockage. Il divise les données en lots, puis ajoute des transactions ACID au-dessus des lots. Delta Lake permet également l’application de schémas pour la validation des données avant qu’elles ne soient ajoutées au lac.

Delta Lake stocke les données au format Parquet et utilise le Hadoop Distributed File System (HDFS) ou Amazon S3 comme couche de stockage. La couche de stockage stocke les données dans des fichiers Parquet immuables, qui sont versionnés pour permettre l’évolution du schéma.

Comment Delta Lake améliore-t-il les performances des données grâce à l’indexation ?

Delta Lake améliore les performances des données en créant des index en plus des données fréquemment consultées. Ces index accélèrent la récupération des données et contribuent à optimiser les performances. Bien que chaque base de données utilise l’indexation, Delta Lake est unique en ce sens qu’elle utilise une combinaison d’analyse automatique des métadonnées et de mise en page des données physiques pour réduire le nombre de fichiers analysés afin de répondre à n’importe quelle requête.

Architecture Delta Lake

Delta Lake est une couche de données supplémentaire qui représente une évolution de l’architecture lambda, dans laquelle le streaming et le traitement par lots se produisent en parallèle et les résultats fusionnent pour fournir une réponse à la requête. Cette méthode complique et complique la maintenance et l’exploitation des processus de streaming et de traitement par lots.

Delta Lake utilise une architecture de données continue qui combine les flux de travail en streaming et par lots dans un magasin de fichiers partagé via un pipeline connecté. Le fichier de données stocké comporte trois couches, appelées « architecture multi-sauts », et les données sont plus affinées à mesure qu’elles se déplacent en aval dans le flux de données :

  • Les tables bronze contiennent les données brutes ingérées à partir de plusieurs sources telles que les systèmes IoT (IoT des objets), CRM, RDBMS et les fichiers JSON.
  • Les tableaux Silver offrent une vue plus précise de nos données après transformation et intègrent des processus d’ingénierie.
  • Les tableaux Gold sont destinés aux utilisateurs finaux pour les processus de reporting, d’analyse ou d’apprentissage machine BI.
Architecture Delta Lake

Figure 2 : Architecture Delta Lake.

Avantages de Delta Lake

Delta Lake peut profiter à n’importe quelle entreprise qui s’appuie sur des solutions de Big Data robustes, y compris celles des secteurs de la finance, de la santé et de la grande distribution.

Les principaux avantages de Delta Lake sont les suivants :

  • Meilleure fiabilité des données : Delta Lake offre des garanties transactionnelles et une isolation des snapshots, améliorant ainsi la fiabilité des données. De plus, les utilisateurs peuvent annuler les transactions qui ont échoué sans affecter les autres transactions réussies. Delta Lake utilise des mécanismes de contrôle de version pour ajouter de nouvelles données au lac de données sans affecter les données existantes.
  • Prise en charge de l’évolution du schéma : Delta Lake peut prendre en charge l’évolution des schémas dans les ensembles de données. Il gère les modifications apportées au schéma en sauvegardant l’historique des versions du schéma de données et permet aux utilisateurs de mettre à jour le schéma avant d’écrire les données. Delta Lake vérifie également la validation du schéma de données avant d’écrire les données.
  • Compatibilité : Delta Lake est compatible avec divers moteurs de traitement du Big Data, notamment Apache Spark, Hadoop et Amazon EMR. Delta Lake est également intégré à des requêtes de type SQL, ce qui permet aux utilisateurs de manipuler et d’extraire des informations stratégiques des ensembles de données.

Tous ces avantages contribuent à faire de Delta Lake une solution de stockage de données importante.

Inconvénients de Delta Lake

Bien que Delta Lake présente de nombreux avantages, il présente également quelques inconvénients, notamment :

  • Ne convient pas aux données non structurées : Si vous ne traitez pas de grandes quantités de données non structurées ou si vous avez besoin d’un stockage de données de petite taille, Delta Lake n’est peut-être pas la meilleure solution pour vous. Les solutions de stockage de données traditionnelles peuvent être plus simples à mettre en œuvre et plus économiques.
  • Pas facile à apprendre : Bien que Delta Lake soit une excellente solution pour les charges de travail de Big Data, il peut nécessiter des ressources de développement supplémentaires et du temps de mise en œuvre. De plus, il existe une courbe d’apprentissage raide pour les utilisateurs qui découvrent la plateforme.

Comment obtenir et mettre en œuvre Delta Lake

Vous pouvez obtenir Delta Lake auprès de plusieurs sources possibles, notamment les référentiels Apache Spark de GitHub , le site Web Delta Lake et les applications tierces populaires telles que Databricks. Delta Lake est mis en œuvre en l’ajoutant comme moteur de traitement à un cluster de Big Data existant, tel qu’Apache Spark, Hadoop ou Amazon EMR .

Conclusion

Delta Lake est une excellente solution pour les charges de travail de Big Data qui permet aux utilisateurs de gérer des ensembles de données non structurées de manière fiable. Il offre des fonctionnalités telles que les transactions ACID, la validation de schémas et l’intégration d’API. Bien que Delta Lake ait certaines exigences en matière de stockage en hauteur, il peut gérer efficacement l’évolution d’une entreprise axée sur les données. Delta Lake offre un cadre solide pour améliorer la qualité et la fiabilité des données et s’ajoute utilement à n’importe quelle plateforme de Big Data.

Vous recherchez une infrastructure de stockage avec un stockage d’objets suffisamment rapide pour prendre en charge votre lac Delta ? Lisez la suite pour découvrir comment construire un lac de données ouvert avec Delta Lake et FlashBlade ®.

11/2024
Pure Storage FlashBlade and Ethernet for HPC Workloads
NFS with Pure Storage® FlashBlade® and Ethernet delivers high performance and data consistency for high performance computing (HPC) workloads.
Livre blanc
7 pages
CONTACTEZ-NOUS
Des questions, des commentaires ?

Vous avez des questions ou des commentaires concernant des produits ou certifications Pure ?  Nous sommes là pour vous aider.

Planifier une démo

Planifiez une démo en direct et découvrez comment Pure peut vous aider à transformer vos données. 

Tél. : +33 1 89 96 04 00

Services Médias : pr@purestorage.com

 

Pure Storage France

32 rue Guersant

75017 Paris

info@purestorage.com

 

FERMER
Votre navigateur n’est plus pris en charge !

Les anciens navigateurs présentent souvent des risques de sécurité. Pour profiter de la meilleure expérience possible sur notre site, passez à la dernière version de l’un des navigateurs suivants.