Skip to Content

Les raisons de l’incapacité des systèmes de stockage traditionnels à prendre en charge le Big Data

Trois grands défis du Big Data (et comment les relever)

Le Big Data présente de nombreuses qualités : il se compose de données non structurées, dynamiques et complexes. Mais surtout, le Big Data, comme son nom l’indique, est volumineux. Les humains et les capteurs IoT produisent chaque année des billions de gigaoctets de données. Et il s’agit bien de données modernes, dans des formats de plus en plus divers, et provenant de sources toujours plus variées. 

Mais de ce fait, le fossé entre les données actuelles et les systèmes d’hier ne cesse de s’agrandir. Par leur volume et leur étendue, mais aussi par leur rapidité et leur complexité, les données exercent une pression croissante sur les systèmes traditionnels de stockage des données. Souvent mal équipées, les organisations qui souhaitent exploiter cette mine de données foncent dans le mur. 

Pourquoi ? Quels sont les principaux défis liés au Big Data ? Si vous souhaitez tirer profit du Big Data, vos solutions de stockage seront-elles capables de faire face ?

1. Le Big Data est trop volumineux pour le stockage traditionnel

Le défi le plus évident du Big Data tient sans doute à son gigantisme. Le Big Data se mesure généralement en pétaoctets (un pétaoctet correspond à 1024 téraoctets ou 1 048 576 gigaoctets).

Pour avoir une idée des volumes que peut atteindre le Big Data, sachez que les utilisateurs de Facebook téléchargent au moins 14,58 millions de photos toutes les heures. Chaque photo génère des interactions qui seront également stockées avec elle, par exemple des « J’aime » et des commentaires. Les utilisateurs en sont déjà à plus d’un billion de posts, de commentaires et autres points de données « aimés ». 

Mais les « Big Tech » comme Facebook ne sont pas les seuls à stocker et analyser d’énormes volumes de données. Même une petite entreprise qui collecte quelques informations sur les réseaux sociaux, par exemple pour savoir ce qui se dit sur sa marque, a besoin d’une architecture de stockage de données de grande capacité.

Les systèmes de stockage de données traditionnels peuvent, en théorie, gérer de gros volumes de données. Mais pour ce qui est de l’efficacité et des insights, beaucoup sont incapables de faire face aux exigence des données modernes.

Le casse-tête des bases données relationnelles

Les bases de données relationnelles SQL sont des méthodes utilisées de longue date pour héberger, lire et enregistrer des données. Mais ces bases de données ont parfois du mal à fonctionner avec efficacité, même sans avoir atteint leur capacité maximale. Plusieurs raisons peuvent expliquer qu’une base de données relationnelle contenant de gros volumes de données ralentisse. Par exemple, chaque fois que l’une de ces bases de données reçoit un nouvel enregistrement, l’index doit se mettre à jour. Et l’opération prend de plus en plus de temps à mesure que le nombre d’enregistrements augmente. L’insertion, la mise à jour, la suppression et l’exécution d’autres opérations peuvent demander davantage de temps, selon le nombre de relations avec d’autres tables. 

Pour dire les choses simplement, plus le nombre de données dans une base de données relationnelle est élevé, plus il faut de temps pour chaque opération.

Scale-up et scale-out

Il est également possible de faire évoluer des systèmes de stockage de données traditionnels pour en améliorer les performances. Mais comme ces systèmes sont centralisés, l’évolution ne peut être que de type « scale-up » et non « scale-out ».

L’évolution « scale-up » ne permet pas d’utiliser les ressources aussi efficacement que le « scale-out », car elle oblige à ajouter de nouveaux systèmes, à migrer les données, puis à gérer la charge sur plusieurs systèmes. L’architecture traditionnelle de stockage de données devient vite tentaculaire et difficile à gérer correctement.

Toute tentative d’utilisation d’une architecture de stockage traditionnelle pour du Big Data est vouée à l’échec, notamment parce que la quantité de données ne permet pas une évolutivité suffisante en mode scale-up. Une opération de « scale-out » devient alors la seule option réaliste. Avec une architecture de stockage distribuée, vous pouvez ajouter de nouveaux nœuds à un cluster lorsqu’une certaine capacité est atteinte, et vous pouvez recommencer cette opération presque indéfiniment.

2. Le Big Data est trop complexe pour le stockage traditionnel

Un deuxième grand défi s’oppose à l’utilisation d’un système de stockage traditionnel pour le Big Data : la complexité des types de données. Les données traditionnelles sont « structurées ». Elles peuvent être rangées dans des tables composées de lignes et de colonnes liées par des relations simples.

Une base de données relationnelle (de celles où sont enregistrées les données classiques) se compose d’enregistrements contenant des champs bien définis. Ce type de base de données est accessible à l’aide d’un système de gestion de base de données relationnelle (RDBMS) comme MySQL, Oracle DB ou SQL Server.

Une base de données relationnelle peut être relativement volumineuse et complexe, avec des milliers de lignes et de colonnes. Mais surtout, avec une base de données relationnelle, il est possible d’accéder à un élément de données en faisant référence à sa relation avec une autre donnée.

Le Big Data ne s’intègre pas toujours bien aux lignes et aux colonnes relationnelles d’un système de stockage de données traditionnel. Il est majoritairement non structuré et composé d’une multitude de types de fichiers qui intègrent souvent des images, du contenu vidéo ou audio et du contenu de médias sociaux. Voilà pourquoi les solutions de stockage traditionnelles ne conviennent pas au Big Data : elles ne sont pas capables de le ranger dans la bonne catégorie.

Les applications conteneurisées modernes créent également de nouvelles difficultés de stockage. Les applications Kubernetes, par exemple, sont plus complexes que les applications classiques. Elles contiennent de nombreux éléments (des pods, des volumes et des objets configmap) et nécessitent des mises à jour fréquentes. Le stockage traditionnel n’offre pas les fonctionnalités nécessaires pour que Kubernetes s’exécute efficacement.

Le recours à une base de données non relationnelle (NoSQL) comme MongoDB, Cassandra ou Redis peut vous permettre d’obtenir des insights précieux sur des jeux complexes et variés de données non structurées.

3. Le Big Data est trop rapide pour le stockage traditionnel

Les systèmes de stockage de données traditionnels sont faits pour conserver des données stables. Il est possible d’ajouter des données régulièrement et de réaliser des analyses sur un nouveau jeu de données. Mais le Big Data grossit presque instantanément et les analyses doivent souvent être effectuées en temps réel. Le RDBMS n’est pas conçu pour des changements rapides.

Prenons par exemple les données d’un capteur. Les périphériques IoT doivent traiter de grandes quantités de données issues des capteurs, avec une latence minimale. Les capteurs transmettent les données réelles à un rythme quasiment incessant. À cette vitesse, les systèmes de stockage traditionnels ont du mal à stocker et analyser les données.

On peut aussi prendre l’exemple de la cybersécurité. Les services informatiques doivent inspecter chaque paquet de données qui passe par le firewall de la société pour vérifier qu’il ne contient pas de code suspect. Le trafic quotidien sur le réseau peut se compter en gigaoctets. Pour éviter une cyberattaque, l’analyse doit être instantanée : impossible de stocker l’ensemble des données dans une table jusqu’à la fin de la journée.

Les systèmes de stockage traditionnels s’accordent mal avec l’extrême rapidité du Big Data, ce qui peut entraîner l’échec de certains projets ou la réalisation du ROI attendu.

4. Pour les défis du Big Data, il faut des solutions de stockage modernes

Les architectures de stockage traditionnelles sont adaptées à la prise en charge de données structurées. Mais pour du Big Data non structuré, caractérisé par son volume, sa complexité et sa rapidité, les entreprises doivent chercher d’autres solutions plus performantes.

Les systèmes de stockage non relationnel distribués et évolutifs sont capables de traiter en temps réel de gros volumes de données. Avec ces systèmes, les organisations pourront facilement relever les défis du Big Data et obtenir des informations stratégiques qui mèneront à de grandes avancées.

Si votre architecture de stockage a du mal à assurer les besoins de votre entreprise, ou si vous souhaitez bénéficier des avantages concurrentiels qu’apporte la maturité en matière de données, la mise à niveau vers une solution de stockage moderne capable d’exploiter la puissance du Big Data peut avoir du sens. 

Pure propose une gamme de solutions de stockage à la demande (STaaS) simples et fiables, qui peuvent être dimensionnées en fonction de vos opérations et qui s’adaptent à tous les cas d’utilisation. En savoir plus ou démarrer sans attendre.

11/2020
VMware Hybrid Cloud Solution Brief | Solution Brief
Hybrid cloud and container adoption are growing rapidly. Advance to an effortless, optimized VMware environment.
Présentation
3 pages
CONTACTEZ-NOUS
Des questions, des commentaires ?

Vous avez des questions ou des commentaires concernant des produits ou certifications Pure ?  Nous sommes là pour vous aider.

Planifier une démo

Planifiez une démo en direct et découvrez comment Pure peut vous aider à transformer vos données. 

Tél. : +33 1 89 96 04 00

Services Médias : pr@purestorage.com

 

Pure Storage France

32 rue Guersant

75017 Paris

info@purestorage.com

 

FERMER
Votre navigateur n’est plus pris en charge !

Les anciens navigateurs présentent souvent des risques de sécurité. Pour profiter de la meilleure expérience possible sur notre site, passez à la dernière version de l’un des navigateurs suivants.