Data lake vs data warehouse: come e quando utilizzarli

pittogramma Zerouno

TechTargetTechInDepth

Data lake vs data warehouse: come e quando utilizzarli

Anche se entrambi archiviano big data, data lake e data warehouse non sono due opzioni equivalenti e ugualmente opportune in ogni situazione. Per compiere la scelta giusta, diventa essenziale acquisire la capacità di comprenderne le dell’una e dell’altra che, di volta in volta, posso risultare vincenti. L’aspetto dei costi risulta spesso quello che muove l’ago della bilancia, ma sono da considerare anche insights e data analytics ottenibili dai dati a disposizione.

Pubblicato il 19 Gen 2023

di Marta Abbà - Fonte TechTarget

Approfondendo le differenze tra data lake e data warehouses, emergono casi d’uso molto diversi, nonostante entrambi memorizzino dati. Proprio osservandoli e studiandoli, è possibile comprendere quale delle due opzioni può supportare al meglio la crescita o la scalabilità di un data center.

Sono ancora molte le organizzazioni che utilizzano in modo indifferenziato le due strutture, convinte di ottenere dai propri dati insights simili. È, però, sempre più evidente che non sono soluzioni di storage interscambiabili: la scelta comporta un impatto importante anche sul business. Va compiuta con grande attenzione. Si deve sempre partire dalle specificità di ogni singolo caso d’uso: in generale, i data lake rispondono meglio al bisogno di flessibilità, i data warehouse, invece, a esigenze più precise e note a priori.

Che cos’è un data lake?

Un data lake è uno storage che contiene dati sia strutturati che non strutturati, all’interno di un’architettura piatta che regala flessibilità nella gestione dei dati. In genere, archivia vari insiemi di big data e supporta diversi schemi, per poter gestire dati in più formati.

INFOGRAFICA
Guida per CFO: monetizzazione dei dati di produzione, scopri i vantaggi anticrisi
Big Data
Manifatturiero/Produzione

Per i data scientist, sono un’ottima piattaforma per preparare e analizzare i dati con cui alimentano applicazioni di big data analytics e data science. L’apprezzata flessibilità dei data lake concretamente consiste nella possibilità di archiviare dati provenienti da diverse fonti, abbattendo silos e radunando in un unico luogo data set provenienti da sistemi diversi. Un’opportunità che si rivela sempre più decisiva, soprattutto per realtà data-driven all’avanguardia.

A volte la traduzione letterale è fuorviante o poco significativa, stavolta no. L’espressione “lago di dati” rende bene l’idea di ciò con cui si ha a che fare. Un lago può contenere una grande quantità d’acqua proveniente da diversi punti e tipologie di fonti, proprio come un data lake costituisce un unico luogo per archiviare tanti dati grezzi di qualsiasi tipo (strutturati, semi strutturati e oltre). Il vantaggio consiste nell’avere tutti i propri dati in una posizione centralizzata, ma se serve estrarne di specifici, il modello “a lago” ha performance carenti per via della mancanza di uno schema rigido.

Che cos’è un data warehouse?

Un data warehouse è uno storage di dati che può contenere quelli generati ed estratti sia internamente, che esternamente. L’architettura stavolta ha più livelli: il primo estrae i dati dai sistemi operativi per integrarli, il successivo li organizza e il terzo allarga la platea di beneficiari, andando oltre ai data scientist.

Il punto di forza, in questo caso, è l’organizzazione dei dati. Quando un data warehouse archivia dati provenienti da più fonti, diversamente dal data lake, utilizza schemi predefiniti. Ciò facilita sia l’accesso ai dati che la loro consultazione, rendendo questa opzione più adatta a chi utilizza quelli strutturati. Senza sminuire i vantaggi del poter raggruppare qualsiasi dato grezzo in un data lake, va riconosciuto che i data warehouse garantiscono una migliore coerenza e qualità dei dati. In alcuni contesti, questo aspetto rappresenta un vantaggio decisivo, anche lato business: rende gli analytics più veloci e accurati, quindi più comodi da usare nelle applicazioni.

I punti deboli dei data warehouse riguardano i limiti sul numero e sui tipi di tool di analisi o di software di business analytics utilizzabili. Se un’organizzazione ha ben chiare le proprie esigenze, non subisce un grosso impatto da questo punto di vista, anzi, gode di una buona accelerazione nel processo di analisi. In caso contrario, la necessità di definire, a uno a uno, tutti gli schemi necessari, rallenta notevolmente il business, rendendo i data warehouse una scelta perdente.

Modelli di storage per data center: casi d’uso

Tra tutti i fattori da considerare nello scegliere tra data lake e data warehouse, quello decisivo sono le esigenze della specifica azienda. La tecnologia gioca sì un ruolo importante, ma impatta meno, nel complesso, eccezion fatta per grandi balzi in avanti, non certo all’ordine del giorno.

Quando la priorità è accedere a un bacino di dati più ampio possibile per effettuare real time analytics, si deve puntare sui data lake. Quando è più importante, invece, mantenere i dati altamente organizzati, per esempio, per soddisfare i requisiti normativi, sono i data warehouse a fornire la struttura adatta, anche per una buona visualizzazione dati.data lake vs. data warehouse uses

Strutture di dati

  • data lake: adatti all’elaborazione dei dati memorizzati nel loro formato nativo e quando lo scopo dei data analytics non è determinato a priori.
  • data warehouse: adatti in presenza di dati strutturati, estratti da sistemi transazionali e schemi predefiniti.

Costi

  • data lake: ridotti, grazie a una gestione meno esigente e alle spese per lo storage utilizzato
  • data warehouse: elevati, per via di una gestione più impegnativa, spesso basata sull’utilizzo di maggiori risorse computazionali

Elaborazione dati

  • data lake: i dati vengono strutturati dopo l’estrazione dallo storage, seguendo il processo ELT
  • data warehouse: i dati vengono strutturati prima dell’estrazione, sempre secondo il processo ELT

Schemi

  • data lake: schema definito dopo la memorizzazione dei dati
  • data warehouse: schema viene definito prima della memorizzazione dei dati.

Utenti ideli

  • data lake: data scientist o data engineer, in grado di ottenere preziosi insights per il business, direttamente da dati in formato grezzo
  • data warehouse: top manager e workforce operativa, strettamente interessati solo ai KPI

Guida alla scelta dello storage. Ma bisogna scegliere?

Tirando le fila dell’overview presentata finora, si può schematizzare e dividere i casi d’uso più performanti per entrambe le opzioni.

I data lake sono ideali per

  • analisi real time
  • predictive analysis
  • analisi personalizzate
  • big data analytics
  • progetti di machine learning
  • analisi approfondite per risalire alla fonte di problemi di difficile interpretazione

I data warehouse sono ideali per

  • analisi ad hoc
  • reporting transazionale
  • visualizzazione delle dimensioni gerarchiche dei dati
  • presentazione di dati e insights a top management o utenti operativi privi di un back ground di data science specifico
  • data mining per individuare modelli nei dati

Continuando a contrapporre data lake e data warehouse, potrebbe essere emersa l’errata convinzione di dover per forza “schierarsi”. Non è così. Si possono implementare entrambi, per soddisfare diverse esigenze aziendali. Solitamente si parte dai data lake, più facili ed economici, per poi aggiungere nel tempo varie funzionalità di data warehouse. Un’ulteriore opzione da considerare è la realizzazione di un data lakehouse con un’architettura ibrida, per affrontare sia le sfide dei data lake che dei warehouse, in una sola mossa.

Valuta questo articolo

La tua opinione è importante per noi!

A

Marta Abbà - Fonte TechTarget

Articolo 1 di 5