Skip to Content

Qu’est-ce que l’ETL ?

L’extraction, la transformation et la charge (ETL) est un processus important dans l’entreposage de données lorsque les entreprises doivent extraire des données de plusieurs sources et les stocker dans un emplacement centralisé. La logique du processus et la conception de l’infrastructure dépendront des besoins métier, des données stockées et du caractère structuré ou non structuré du format.

Qu’est-ce que l’ETL ?

Les données extraites de différentes sources doivent être stockées sous une forme spécifique pour permettre aux applications, à l’apprentissage machine, à l’intelligence artificielle et à l’analytique de fonctionner avec elles. Le processus ETL est un groupe de règles métier qui déterminent les sources de données utilisées pour extraire des données, les transformer dans un format spécifique, puis les charger dans une base de données. Les données peuvent être structurées ou non, ou les deux.

Après le processus ETL, les données sont stockées dans un data warehouse où les administrateurs peuvent les gérer davantage. Les administrateurs responsables des bases de données stockant les données ETL gèrent la journalisation, l’audit et les sauvegardes. Les données de journal pour les événements ETL peuvent également passer par son propre pipeline de données avant d’être stockées dans un entrepôt de données à des fins d’analytique administrative.

Le processus ETL

L’ETL se compose de trois étapes : extraire, transformer et charger. Les administrateurs de bases de données, les développeurs et les architectes cloud conçoivent généralement le processus ETL à l’aide de règles métier et d’exigences applicatives. La conception d’un processus ETL se déroule en trois étapes :

  • Extraire : Les données brutes à extraire peuvent provenir d’une ou plusieurs sources. Les sources peuvent provenir d’une API, d’un site Web, d’une autre base de données, de journaux IoT, de fichiers, d’e-mails ou de tout autre format de données ingérable. Comme les sources peuvent avoir différents formats, la première étape de l’ETL extrait les données d’une source pour l’étape suivante.
  • Transformer : Les règles métier et l’emplacement de stockage de destination définissent la conception de la transformation. Les données doivent être formatées, filtrées et validées avant de pouvoir être envoyées au data warehouse. Les données en double peuvent fausser les résultats analytiques, de sorte que les éléments en double sont supprimés avant de les stocker. Les données sont formatées pour pouvoir être stockées. Par exemple, un numéro de téléphone peut être stocké avec ou sans tirets, de sorte que le processus de transformation ajoute ou supprime des tirets avant d’être envoyé au stockage.
  • Charger : Après la transformation, les données sont envoyées au data warehouse pour y être stockées. Les données doivent être conservées et les doublons évités. L’étape de chargement doit donc prendre en compte les modifications incrémentielles à chaque exécution du processus ETL. L’ETL s’exécute souvent plusieurs fois par jour pour les grandes entreprises, de sorte que seules de nouvelles données sont ajoutées sans affecter les données d’application actuelles déjà stockées dans la base de données.

Avantages de l’ETL

Une fois qu’un processus ETL est conçu, il s’exécute automatiquement tout au long de la journée. Certains processus ETL peuvent être hebdomadaires ou mensuels, et la plupart des moteurs de base de données proposent un planificateur qui s’exécute sur le serveur pour exécuter des tâches à un moment défini. Un processus ETL bien conçu ne nécessite pas beaucoup de modifications et peut importer des données provenant de diverses sources sans interaction manuelle.

Les données brutes sans aucune transformation sont généralement inutiles pour l’analytique, en particulier si votre entreprise utilise des données similaires provenant de plusieurs sources. Par exemple, une entreprise qui travaille sur l’analyse du trafic peut extraire des données de différentes sources gouvernementales. Il est fort probable que toutes les sources créent des enregistrements en double, mais un processus ETL récupère les données, supprime les doublons et formate les données pour les applications analytiques internes. Les entreprises peuvent extraire des données de nombreux sites et les préparer automatiquement à l’analytique interne, ce qui alimente également les décisions commerciales futures et les lancements de produits.

ETL accélère la mise à jour des données, ce qui profite aux entreprises qui ont besoin de travailler avec des données actuelles ou en temps réel. Traditionnellement, les importations de données étaient groupées et ETL était lent. Les entreprises peuvent ne pas constater de modifications des données pendant plusieurs heures, mais la technologie ETL actuelle fournit des mises à jour des données afin que l’analytique puisse refléter les changements récents des tendances.

Outils et technologies ETL

Pour les pipelines de données volumineux, la plupart des organisations utilisent des outils et des scripts personnalisés pour ETL. Les moteurs de base de données sont souvent dotés de leurs propres fonctionnalités ETL, ce qui permet aux entreprises d’importer des données. La manière dont vous stockez les données dépend de votre besoin de données non structurées ou structurées. Les données structurées nécessitent davantage de formatage que les données non structurées, de sorte que tous les outils prêts à l’emploi doivent s’intégrer à la plateforme de base de données que vous avez choisie.

Quelques outils pour ETL :

  • Talend : Offre une interface graphique open source pour l’intégration de pipelines de données par glisser-déposer
  • Informatica PowerCenter : Donne aux utilisateurs finaux les outils nécessaires pour importer des données et concevoir leurs propres pipelines de données pour les projets commerciaux
  • AWS Glue : Vous permet de concevoir ETL à partir de données non structurées et structurées pour le stockage sur des compartiments S3
  • Flux de données Google Cloud : Vous permet de créer des processus ETL sans serveur pour stocker des données sur Google Cloud Platform (GCP)

Bonnes pratiques pour la mise en œuvre d’ETL

La clé d’une bonne conception ETL réside dans les performances et la précision. Les performances reposent souvent sur une infrastructure sous-jacente. Il est donc important de disposer d’un data warehouse capable d’évoluer et de s’adapter à l’augmentation des charges. Les données structurées prennent souvent plus de temps à se transformer en raison des nombreuses contraintes liées aux tables, mais les solutions telles que FlashArray™ sont conçues pour les importations de données volumineuses et garantissent le bon fonctionnement des pipelines sur site.

Concevez toujours des processus ETL adaptés à l’évolution et à l’inconnu. Il est fort possible que vous importiez un enregistrement qui ne peut pas être transformé. Toutes les erreurs doivent être consignées et les enregistrements stockés pour un examen plus approfondi. Cela peut signifier qu’il y a un bogue dans votre ETL ou que la conception manque un cas de périphérie qui peut être corrigé en modifiant le code ETL.

Tous les processus ETL ne fonctionnent pas avec des serveurs physiques, c’est pourquoi les solutions telles que Portworx® gèrent les bases de données et les analyses virtualisées et conteneurisées. Les services conteneurisés doivent évoluer au fur et à mesure que de plus en plus de données sont importées et fonctionner avec des outils d’orchestration courants. Portworx s’intègre aux outils d’orchestration, notamment Kubernetes, pour des pipelines dynamiques et mis à jour de manière cohérente.

Les défis et les solutions de l’ETL

Comme les sources de données et les besoins métier évoluent en permanence, les administrateurs chargés de concevoir l’ETL rencontrent des difficultés en matière d’évolutivité, de mises à jour et de contrôle qualité. Les difficultés liées à l’évolution sont généralement dues aux limitations de l’espace de stockage, ce qui permet aux administrateurs de résoudre ce problème avec un stockage qui évolue avec l’augmentation des besoins en stockage de données.

Les difficultés liées à l’évolution des exigences métier relèvent souvent de la maintenance. Une source de données peut modifier la façon dont les données sont stockées, ou les développeurs peuvent apporter des modifications à une application nécessitant des modifications à la transformation ou aux structures de charge. Sans documentation provenant de sources de données tierces pour alerter les administrateurs, les modifications apportées au stockage de données ou aux exigences de charge ne se présentent pas tant que le processus ETL n’est pas erroné. La journalisation et les alertes aident les administrateurs à identifier rapidement les problèmes afin qu’ils puissent apporter des modifications au codage ETL. Les changements précoces réduisent l’impact des erreurs sur la productivité et le chiffre d’affaires de l’entreprise.

La conception d’un processus ETL est l’une des tâches les plus difficiles, mais il peut être plus facile pour les administrateurs de parler aux parties prenantes et de s’assurer que les règles métier sont incluses. La refonte et le remaniement d’une conception ETL peuvent retarder le déploiement et ajouter des frais inutiles. Documentez toutes les règles métier afin que chaque cas puisse être inclus dans une conception ETL pour éviter des réécritures excessives.

Gardez différents processus ETL séparés et indépendants les uns des autres. Cette solution garantit que l’ensemble du processus ETL ne tombe pas en panne en cas de défaillance d’un composant. Par exemple, si une API externe tombe en panne, l’extraction des données de toutes les autres sources se poursuit jusqu’à ce que l’API soit à nouveau disponible. Il est également possible de créer plusieurs planifications ETL si nécessaire. Si vous travaillez avec plusieurs plateformes cloud, le stockage cloud Pure Storage prend en charge AWS , Azure , GCP et d’autres plateformes majeures.

ETL ou ELT 

Il est important de noter que l’ETL peut nécessiter beaucoup de ressources et introduire une certaine latence dans la disponibilité des données, en particulier lorsqu’il s’agit de jeux de données volumineux. Si le traitement des données en temps réel ou quasi réel est une exigence critique, d’autres méthodes d’intégration des données, comme la capture des données modifiées (CDC) ou les pipelines de données en streaming, peuvent être plus adaptées.

De plus, ces dernières années, l’ELT (extraction, chargement, transformation) est devenue une alternative populaire à l’ETL, en particulier dans les environnements de données basés sur le cloud où la transformation des données peut être effectuée dans le système de stockage de données cible. L’ELT peut être plus économique et évolutive pour certains cas d’utilisation, mais le choix entre ETL et ELT dépend de vos besoins spécifiques et des technologies que vous utilisez.

Conclusion

La conception d’une solution ETL prend du temps, mais n’oubliez pas de créer un système qui évolue avec l’augmentation du stockage de données. L’un des défis les plus simples à résoudre est la capacité de stockage de données, et les solutions Pure Storage sont conçues pour l’entreposage de données pour les données non structurées et structurées.

D’autres défis peuvent être résolus grâce à des normes de conception, une documentation et des tests d’assurance qualité de bonne qualité. Vous constaterez peut-être que certains outils peuvent faciliter la conception, mais l’ETL est souvent personnalisé pour l’entreprise. Testez un petit échantillon de données dans un environnement de préproduction, et prévoyez de maintenir en permanence le codage ETL à mesure que de nouvelles exigences commerciales seront introduites.

12/2024
Portworx on Red Hat OpenShift Bare Metal Reference Architecture
A validated architecture and design model to deploy Portworx® on Red Hat OpenShift running on bare metal hosts for use with OpenShift Virtualization.
Architecture de référence
33 pages
CONTACTEZ-NOUS
Des questions, des commentaires ?

Vous avez des questions ou des commentaires concernant des produits ou certifications Pure ?  Nous sommes là pour vous aider.

Planifier une démo

Planifiez une démo en direct et découvrez comment Pure peut vous aider à transformer vos données. 

Tél. : +33 1 89 96 04 00

Services Médias : pr@purestorage.com

 

Pure Storage France

32 rue Guersant

75017 Paris

info@purestorage.com

 

FERMER
Votre navigateur n’est plus pris en charge !

Les anciens navigateurs présentent souvent des risques de sécurité. Pour profiter de la meilleure expérience possible sur notre site, passez à la dernière version de l’un des navigateurs suivants.