Knowledge base di Pure
What Is A Data Pipeline

Che cos'è una pipeline dei dati?

La pipeline dei dati è il mezzo su cui viaggiano i dati mentre si spostano da una posizione all'altra nell'ambito dello stack tecnologico di un'azienda e può includere qualunque blocco costitutivo e di elaborazione coinvolto nel trasferimento.

In genere, una pipeline dei dati è formata da:

Origini, come database e applicazioni SaaS.
Operazioni di elaborazione, ovvero tutto quello che succede ai dati mentre si spostano da una posizione all'altra lungo la pipeline, come la trasformazione (standardizzazione, ordinamento, deduplica e convalida), la verifica, l'arricchimento, il filtraggio, il raggruppamento e l'aggregazione.
Destinazioni, solitamente costituite da datastore, come data warehouse e data lake.

I tipici scenari di utilizzo della pipeline dei dati includono:

Predictive analytics
Dashboards e report in tempo reale
Memorizzazione, arricchimento, spostamento o trasformazione dei dati

Anche se le pipeline dei dati possono essere create internamente, oggi vengono solitamente create nel cloud a causa dei suoi livelli superiori di elasticità e flessibilità.

Vantaggi di una pipeline dei dati

Una pipeline dei dati consente di ottimizzare i dati di un'azienda e massimizzarne il valore, manipolandoli con modalità vantaggiose per il business. Ad esempio, un'azienda che sviluppa e vende un'applicazione per l'automazione dei semafori nelle grandi città può utilizzare la sua pipeline dei dati durante l'addestramento dei dataset per il machine learning, in modo da garantire il funzionamento ottimale dell'applicazione nelle città e consentire ai semafori di gestire la viabilità con la massima efficienza.

I principali vantaggi di una pipeline dei dati sono i seguenti:

Analisi dei dati: le pipeline dei dati consentono alle aziende di analizzare i dati che raccolgono da diverse origini e concentrarli in una singola posizione. In teoria, per estrarre il massimo valore dai dati, questa analisi dovrebbe avvenire in tempo reale.
Eliminazione dei colli di bottiglia: le pipeline dei dati garantiscono un flusso di dati regolare da una posizione all'altra, evitando il problema dei data silo ed eliminando i colli di bottiglia che determinano una rapida perdita di valore dei dati o li danneggiano in altri modi.
Decisioni di business più efficaci: agevolando l'analisi dei dati ed eliminando i colli di bottiglia, le pipeline dei dati offrono alle aziende la possibilità di sfruttare i dati disponibili per ottenere velocemente utilissimi insight di business.

Importanza dell'automazione e dell'orchestrazione delle pipeline dei dati

L'automazione e l'orchestrazione sono aspetti critici delle pipeline dei dati. L'automazione della pipeline dei dati offre la possibilità di eseguire qualsiasi componente della pipeline dei dati nel momento e con la velocità necessari. L'orchestrazione della pipeline dei dati è il processo di esecuzione coordinata di tutti i componenti.

Una pipeline dei dati completamente automatizzata consente di integrare in modo trasparente dati provenienti da diverse origini per alimentare le applicazioni aziendali e gli analytics, analizzare rapidamente i dati in tempo reale per prendere decisioni aziendali migliori e semplificare la scalabilità delle soluzioni basate sul cloud.

L'orchestrazione permette ai team DataOps di centralizzare la gestione e il controllo delle pipeline dei dati end-to-end, grazie alle funzioni di monitoraggio e report, a cui si aggiungono gli avvisi proattivi.

Confronto tra pipeline dei dati e sistemi ETL

Come le pipeline dei dati, i sistemi ETL (Extract, Transform, and Load, Estrazione, trasformazione e caricamento), o pipeline ETL, trasportano i dati da una posizione all'altra

ma, a differenza delle pipeline dei dati, per definizione le pipeline ETL:

Comportano sempre qualche tipo di trasformazione dei dati, mentre nel caso delle pipeline dei dati ciò può anche non avvenire.
Vengono eseguite in batch che spostano i dati in blocchi, mentre le pipeline dei dati vengono eseguite in tempo reale.
Terminano sempre con il caricamento dei dati in un database o in un data warehouse, mentre una pipeline dei dati non finisce sempre con un'operazione di caricamento, ma può terminare con l'avvio di un nuovo processo o di un nuovo flusso attivato tramite webhook.

In genere, i sistemi ETL sono un sottoinsieme delle pipeline dei dati.

Come ottenere il massimo da una pipeline dei dati

L'efficienza di una pipeline dei dati è determinata da quella dei suoi componenti. Un singolo collegamento debole o interrotto può interrompere l'intera pipeline, determinando gravi perdite di tempo e di investimenti.

Proprio per questo, oggi le aziende sono alla ricerca di soluzioni che consentano di ottenere il massimo dai loro dati senza aumentare eccessivamente i costi.

Una soluzione di data storage, come una piattaforma di storage UFFO (Unified Fast File and Object), consolida tutti i dati, sia strutturati che non, in un livello dati accessibile e centralizzato. A differenza dei data warehouse, questo tipo di piattaforma è in grado di gestire i dati operativi e, a differenza dei data lake, può presentare i dati in diversi formati.

Una piattaforma di storage UFFO permette anche di consolidare i data lake e i data warehouse in un singolo livello di accesso e fornisce le funzioni di governance necessarie per semplificare la condivisione dei dati fra gruppi di endpoint diversi. Con un data hub, l'elaborazione dei dati viene astratta, offrendo all'azienda una posizione centralizzata dove estrarre insight di business intelligence.

Pure Storage® FlashBlade® è la piattaforma di storage UFFO leader del settore. Oltre a gestire i workload per gli analytics e i report di un data warehouse, FlashBlade offre:

Condivisione dei dati fluida tra tutti gli endpoint di dati
File storage e object storage unificati
Possibilità di gestire in tempo reale i dati operativi
Scalabilità e agilità
Performance multidimensionali per qualsiasi tipo di dati
Livelli di parallelismo elevatissimi, dal software all'hardware

Inizia a utilizzare FlashBlade.

Scopri risorse chiave ed eventi

Storie dei clienti

AC Milan, innovazione dentro e fuori dal campo di gioco

L'AC Milan sta rivoluzionando il proprio ecosistema digitale grazie a Pure Storage.

Scopri di più

THOUGHT LEADERSHIP

La corsa per l'innovazione

Le più recenti informazioni approfondite e opinioni di leader di settore che sono all'avanguardia nell'innovazione dello storage.

Maggiori informazioni

REPORT DEGLI ANALISTI

Pianifica il tuo futuro cyber-resiliente

Scopri le strategie di collaborazione per sfruttare appieno gli investimenti in sicurezza informatica e garantire una risposta e un ripristino rapidi.

Leggi il report

RISORSA

Il futuro dello storage: nuovi principi per l'epoca dell'AI

Scopri come le sfide emergenti come l'IA stanno rivoluzionando le esigenze di archiviazione dati, necessitando di un nuovo pensiero e di un approccio moderno per ottenere successo.

Scarica l'eBook

Vedi tutte le risorse

CONTATTACI

Domande?

Hai domande o commenti sui prodotti o sulle certificazioni di Pure? Siamo qui per aiutarti.

Contattaci Chat live

Prenota una demo

Prenota una demo per vedere come puoi trasformare i tuoi dati in risultati concreti con Pure.

Richiedi una demo

Telefono: +39 02 9475 9422

Media: pr@purestorage.com

Pure Storage Italia

Spaces c/o Bastioni di Porta Nuova, 21

Milano, 20121

+39 02 9475 9422

italia@purestorage.com

CHIUDI

Il browser che stai usando non è più supportato.

I browser non aggiornati spesso comportano rischi per la sicurezza. Per offrirti la migliore esperienza possibile sul nostro sito, ti invitiamo ad aggiornare il browser alla versione più recente.