Skip to Content

Perché i sistemi di storage tradizionali non sono in grado di supportare i Big Data

I 3 problemi principali dei Big Data (e le relative soluzioni)

I Big Data hanno tante buone qualità, poiché sono dinamici, complessi e non strutturati. Ma soprattutto sono tantissimi. Gli esseri umani e i sensori IoT generano trilioni di gigabyte di dati l'anno. Ma non sono più i dati di una volta, sono dati moderni, che si presentano in una gamma di formati sempre più ampia e provengono da origini sempre più numerose. 

Questo crea un abisso fra i sistemi di gestione dati legacy e quelli di oggi. Le dimensioni e la scalabilità, insieme alla velocità e alla complessità, stanno mettendo a dura prova i sistemi di archiviazione dei dati tradizionali. Molti sono semplicemente inadeguati, e finiscono per ostacolare le aziende che vogliono attingere al patrimonio di dati a disposizione. 

A cosa si deve tutto questo? Quali sono le principali problematiche dei Big Data a cui prestare attenzione? Se state cercando di sfruttare la potenza dei big data, le vostre soluzioni di storage saranno sufficienti per superarli?

 

1. I Big Data sono veramente troppi per lo storage tradizionale

Forse la più ovvia delle sfide dei Big Data è la loro enorme scalabilità, che solitamente viene misurata in petabyte (1 petabyte corrisponde a 1024 terabyte o 1.048.576 gigabyte).

Per farti un'idea di quanto possono essere grandi i volumi dei Big Data, pensa che, ogni ora, gli utenti di Facebook caricano almeno 14,58 milioni di foto, insieme alle quali vengono memorizzate anche interazioni, quali "Mi piace" e commenti. Fino ad oggi, gli utenti hanno messo "Mi piace" ad almeno un trilione di post, commenti e altri dati singoli. 

Ma non sono solo i colossi della tecnologia come Facebook a memorizzare e analizzare queste enormi quantità di dati. Ogni piccola azienda che attinge alle informazioni disponibili nei social media, ad esempio per scoprire cosa dice la gente del suo brand, ha bisogno di un'architettura di data storage ad alta capacità.

In teoria, i sistemi di data storage tradizionali possono gestire grandi quantità di dati, ma quando si tratta di fornire l'efficienza e gli insight di cui abbiamo bisogno, molti non riescono a stare al passo con le esigenze dei dati moderni.

Il dilemma dei database relazionali

I database SQL relazionali offrono un metodo affidabile e ampiamente collaudato per ospitare, leggere e scrivere i dati. Tuttavia, in genere questi database presentano problemi di efficienza, anche molto prima di raggiungere la capacità massima. Un database relazionale contenente grandi quantità di dati può risultare lento per diversi motivi. Ad esempio, ogni volta che si inserisce un record in un database relazionale, l'indice si aggiorna automaticamente, e, con l'aumento del numero dei record, questa operazione richiede sempre più tempo. L'inserimento, l'aggiornamento, l'eliminazione e l'esecuzione delle altre operazioni possono richiedere ancora più tempo, a seconda del numero delle relazioni con le altre tabelle. 

In pratica: più dati contiene il database relazionale, più tempo richiedono le singole operazioni.

Scale-up e scale-out

Per aumentare le performance dei sistemi di data storage tradizionali, è possibile sfruttarne la scalabilità. Tuttavia, poiché i sistemi di data storage tradizionali sono centralizzati, consentono solamente lo scale-up e non lo scale-out.

Rispetto allo scale-out, lo scale-up utilizza la risorse in modo meno efficiente, perché richiede l'aggiunta di nuovi sistemi, la migrazione dei dati e la gestione del carico fra sistemi diversi. Ben presto, una tradizionale architettura di data storage comincia a proliferare e diventa impossibile da gestire correttamente.

I tentativi di utilizzare le tradizionali architetture storage per i Big Data sono inevitabilmente destinati a fallire, in parte perché non è realisticamente possibile garantire uno scale-up sufficiente a tenere il passo con i volumi di dati. Di conseguenza, l'unica opzione possibile è costituita dallo scale-out. Quando si raggiunge una determinata capacità, un'architettura storage distribuita consente di aggiungere nuovi nodi a un cluster, e questa operazione può essere ripetuta praticamente all'infinito.

2. I Big Data sono troppo complessi per lo storage tradizionale

La seconda, grave problematica creata dai Big Data allo storage tradizionale è associata alla complessità e alle diverse tipologie di dati. I dati tradizionali sono "strutturati". Possono essere organizzati in tabelle con righe e colonne legate fra loro da relazioni intuitive.

Un database relazionale (un tipo di database utilizzato per la memorizzazione dei dati tradizionali) è formato da record che contengono campi chiaramente definiti. Per accedere a questo tipo di database è possibile utilizzare un sistema di gestione dei database relazionali (RDBMS, Relational Database Management System), come MySQL, Oracle DB o SQL Server.

I database relazionali possono essere relativamente grandi e complessi, con migliaia di righe e colonne. Ma, cosa fondamentale, un database relazionale consente di accedere a un dato specifico sfruttando la sua relazione con un altro dato.

I Big Data non possono essere sempre inseriti nelle tipiche righe e colonne dei sistemi di data storage tradizionali, perché sono altamente non strutturati, formati da moltissimi tipi di file diversi, inclusi video, immagini, audio e contenuti dei social media. Le soluzioni di storage tradizionali non sono adatte alla gestione dei Big Data proprio perché non hanno la capacità di classificarli correttamente.

Anche le moderne applicazioni containerizzate introducono nuove problematiche di storage. Ad esempio, le applicazioni Kubernetes sono più complesse di quelle tradizionali, poiché sono formate da diverse parti, come pod, volumi e ConfigMap che richiedono aggiornamenti continui. Lo storage tradizionale non è in grado di fornire tutte le funzionalità necessarie per eseguire Kubernetes efficacemente.

Utilizzando un database non relazionale (NoSQL), come MongoDB, Cassandra o Redis, è possibile ottenere preziosi insight su vari tipi di set di dati non strutturati e complessi.

 

3. I Big Data sono troppo veloci per lo storage tradizionale

I tradizionali sistemi di data storage sono concepiti per la conservazione di dati stazionari. È possibile aggiungere nuovi dati regolarmente e quindi eseguire l'analisi dei nuovi dataset. Ma i Big Data si espandono quasi istantaneamente e spesso le analisi devono essere eseguite in tempo reale. Gli RDBMS non sono progettati per queste fluttuazioni rapide.

Considera ad esempio i dati dei sensori. I dispositivi IoT (Internet of Things) devono elaborare grandi quantità di dati dei sensori con una latenza minima. I sensori trasmettono dati sull'ambiente fisico con una frequenza quasi costante e i sistemi di storage tradizionali faticano a memorizzare e analizzare dati che arrivano a tale velocità.

Un altro esempio è costituito dalla sicurezza informatica. I reparti IT devono ispezionare ogni singolo pacchetto di dati che attraversa il firewall aziendale, per verificare se contiene codice sospetto. Sulla rete possono essere trasmessi diversi gigabyte di dati al giorno. Per evitare di subire un attacco, è necessario eseguire queste analisi all'istante, pertanto, non si può pensare di conservare tutti i dati in una tabella fino a fine giornata.

L'alta velocità è una caratteristica intrinseca dei Big Data che crea notevoli problemi ai sistemi di storage tradizionale, determinando il fallimento dei progetti e impedendo di realizzare il ROI.

 

Soluzioni di storage moderne per le problematiche dei Big Data

Le architetture storage tradizionali sono concepite per i dati strutturati, ma per ottenere risultati concreti da enormi quantità di complessi Big Data non strutturati, che vengono scambiati a velocità elevatissime, è necessario trovare soluzioni alternative.

I sistemi di storage distribuiti, scalabili e non relazionali sono in grado di elaborare enormi quantità di dati complessi in tempo reale. Questo approccio può aiutare le aziende a risolvere agevolmente le problematiche dei Big Data, per iniziare a raccogliere le informazioni approfondite necessarie alla trasformazione.

Se la tua architettura storage non riesce a stare al passo con le esigenze di business, o se desideri ottenere i vantaggi competitivi garantiti da una strategia di gestione dati matura, può valere la pena passare a una soluzione di storage moderna, capace di sfruttare tutto il potenziale dei Big Data. 

Pure offre una vasta gamma di soluzioni Storage-as-a-Service (STaaS) semplici e affidabili, scalabili per operazioni di ogni tipo e adatte a qualunque scenario di utilizzo. Scopri di più o comincia oggi stesso.

11/2020
VMware Hybrid Cloud Solution Brief | Solution Brief
Hybrid cloud and container adoption are growing rapidly. Advance to an effortless, optimized VMware environment.
Solution brief
3 pagine
CONTATTACI
Domande?

Hai domande o commenti sui prodotti o sulle certificazioni di Pure?  Siamo qui per aiutarti.

Prenota una demo

Prenota una demo per vedere come puoi trasformare i tuoi dati in risultati concreti con Pure. 

Telefono: +39 02 9475 9422

Media: pr@purestorage.com

 

Pure Storage Italia

Spaces c/o Bastioni di Porta Nuova, 21

Milano, 20121

+39 02 9475 9422

italia@purestorage.com

CHIUDI
Il browser che stai usando non è più supportato.

I browser non aggiornati spesso comportano rischi per la sicurezza. Per offrirti la migliore esperienza possibile sul nostro sito, ti invitiamo ad aggiornare il browser alla versione più recente.