Tecnologie per Big data analytics: quali sono le scelte delle aziende italiane

Utilizzo di tecnologie open source. DBMS, NoSQL, NewSQL. Dall’analisi batch a quella in streaming. Dal Data Warehouse al Data Lake. Qual è l’orientamento delle aziende italiane nell’adozione delle tecnologie per la gestione e l’analisi dei big data? Ecco l’approfondimento su questa tematica dai dati dell’Osservatorio Big Data Analytics & Business Intelligence del Politecnico di Milano

Quantità, complessità ed eterogenità sono le caratteristiche dei big data che, accompagnate alla necessità di essere analizzati in real time, rendono obsolete le vecchie tecnologie di data warehousing e impongono nuovi approcci architetturali. L’Osservatorio Big Data Analytics & Business Intelligence del Politecnico di Milano parte da questa considerazione per riassumere l’evoluzione tecnologica nell’ambito della raccolta, elaborazione e analisi dei dati.

In estrema sintesi questo significa:

disporre di un’infrastruttura scalabile in grado di processare grandi moli di dati in real time nella fase di raccolta dei dati;
fare affidamento su architetture in grado di coniugare elaborazione real time e batch nella fase di analisi;
implementare soluzioni in grado di gestire le più svariate fonti informative e garatirne l’immediata disponibilità al bisogno nella fase di conservazione dei dati.

L’integrazione fra i dati raccolti da sistemi diversi (da quelli strutturati dei system of records a quelli destrutturati dei system of engagement che siano fruiti on premise o in cloud o in ambienti ibridi) è un elemento cardine di questo disegno.

Ma sono necessarie anche soluzioni di data management specificatamente studiate per gestire dati in uno o più database, progettate e ottimizzate per il supporto dei processi analitici, compresi, appunto, processi relazionali e non relazionali, machine learning o linguaggi di programmazione come Python (linguaggio dinamico orientato agli oggetti) o R (ambiente di sviluppo specifico per l’analisi statistica dei dati). E ovviamente nuove piattaforme di business intelligence e analytics che hanno subìto negli ultimi anni una radicale trasformazione con nuovi strumenti visuali di analisi ed esplorazione dei dati, interfacce più facili da utilizzare anche in self-service e un generale orientamento a soluzioni agili e centrate sul business e sugli utenti non-IT.

Viene ridefinito il concetto di data warehouse, per parlare di Big Data Warehouse, ben definito da Forrester: “Un insieme specializzato e coerente di data repository e piattaforme in grado di sostenere un’ampia varietà di analisi eseguibili on-premises, via cloud o in un ambiente ibrido ed in grado di sfruttare sia le tradizionali tecnologie sia quelle nuove specificamente relative ai big data, come Hadoop, Spark, data warehouse colonnari e row-based, ETL, streaming e framework elastici di elaborazione in memory e di storage”.

Vediamo quindi, rispetto ai diversi trend tecnologici, qual è stato nel 2017 l’orientamento delle aziende italiane (sulla base della rilevazione effettuata su un campione di 159 organizzazioni italiane con più di 249 addetti) dopo che nell’articolo Big data: il momento è ora! abbiamo visto quali sono i principali trend che caratterizzeranno questo mercato nei prossimi anni e nell’articolo Big Data Analytics: aumenta la maturità delle aziende italiane i principali ambiti di investimento.

Indice degli argomenti

La stretta relazione tra open source e big data

Quando si parla di big data, non si può prescindere da Hadoop, framework open source di supporto alle applicazioni distribuite che consente di semplificare le operazioni di storage e gestione dei big data, che, come scrivono gli analisti nel report dell’Osservatorio “è considerato uno dei fattori abilitanti la diffusione dei big data”.

La community open source ha nel tempo sviluppato numerose tecnologie per la gestione, analisi e conservazione dei big data, a partire da tutte quelle sviluppate dal movimento NoSQL. Inoltre, come sottolineano gli estensori del rapporto del Politecnico, sono ormai numerosi i vendor che sfruttano queste tecnologie open per sviluppare proprie proposte commerciali. L’Osservatorio rileva che il 70% dei rispondenti alla ricerca utilizza solo soluzioni tecnologiche tramite licenze proprietarie (ma non dimentichiamo quanto appena scritto, ossia che in questi prodotti possono trovarsi componenti open source) mentre il 30% utilizza tipologie di software anche provenienti dal mondo open source.

Capacità e velocità di analisi dei big data

Il report dell’Osservatorio sottolinea che non tutti i problemi di business richiedono un’analisi in tempo reale, ma vi sono molte situazioni nelle quali sono invece utili analisi batch o near real time. Bisogna dunque tener conto di questa affermazione prendendo visione della percentuale di aziende presente in ciascuno dei quattro livelli identificati dal Politecnico e che si differenziano per la frequenza con cui il sistema mette a disposizione i dati raccolti:

il 74% delle analisi viene effettuata in modalità batch con un aggiornamento del sistema che prende in carico i dati raccolti a intervalli regolari predefiniti; tipicamente i dati vengono raccolti nella giornata lavorativa ed elaborati la notte;
il 14% avviene in modalità near real time dove il sistema effettua le analisi con una frequenza di aggiornamento su intervalli di tempo in ore o minuti;
il 3% è alimentato con dati raccolti in tempo reale che possono essere interrogati quando se ne ha l’esigenza;
il 9% è in streaming, ossia con un flusso continuo di raccolta dei dati che vengono analizzati con continuità: è un tipo di analisi tipicamente abbinata alla presenza di sensori sul campo che identificano valori che variano in maniera continua.

Come vengono organizzati i dati

Prima della diffusione dei big data, i dati venivano normalmente gestiti da sistemi di gestione dei dati di tipo relazionale (dove le informazioni sono rappresentate da valori inseriti in relazioni, espresse in tabelle). La memorizzazione secondo schemi tabellari presenta però delle rigidità che rendono difficile il suo utilizzo nel caso di big data; da questa criticità è nato il movimento NoSQL (che, è sempre bene ricordarlo, significa NotOnlySQL e quindi non è pregiudizialmente contrario ai database relazionali, con il linguaggio di interrogazione SQL preso a paradigma, ma ritiene che in tanti casi sia meglio non utilizzare uno schema fisso tipico dei modelli relazionali appunto) con sistemi che consentono di scalare in modo orizzontale (e non più solo verticale). “A questo fenomeno – si legge nel Report dell’Osservatorio – si è aggiunto anche lo sviluppo recente di una nuova classe di database, noti come NewSQL, che, nonostante implementino il modello relazionale, garantiscono performance di scalabilità comparabili a quelle offerte dai sistemi NoSQL”.

Dalla ricerca risulta che il 67% delle aziende utilizza soltanto database relazionali di tipo tradizionale mentre il 33% utilizza nuovi database, NoSQL o NewSQL, per poter gestire i big data.

Come garantire l’integrazione dei dati

Tradizionalmente nelle aziende si sono creati nel tempo numerosi silos che raccolgono sotto insiemi di dati aziendali per specifiche necessità. Oggi è necessario poter integrare tutti i dati a disposizione dell’azienda, anche quelli tradizionalmente ritenuti non di interesse, per identificare pattern nascosti e scoprire correlazioni altrimenti difficilmente riconoscibili. Si è quindi diffuso il concetto di data lake, architettura di archiviazione dei dati nel loro formato nativo. Sulla base di queste considerazioni, l’Osservatorio ha identificato quattro modalità di archiviazione dei dati che possono rappresentare altrettanti livelli progressivi di maturità:

Silos: approccio tradizionale, nasce nelle organizzazioni dove ogni linea di business raccoglie i propri dati per finalità e utilizzi differenti; lo storage è organizzato secondo repository suddivisi per dipartimento aziendale con ambienti isolati tra loro e dati non integrati;
Data Warehouse: vi è un archivio informatico che raccoglie i dati dai sistemi operazionali aziendali integrandoli con i dati provenienti dalle fonti esterne; si tratta dei classici database per dati strutturati;
Data Lake: ambiente di archiviazione dei dati nel loro formato nativo, fin quando non è necessario dar loro una struttura; è così possibile avere l’integrazione di elevate quantità di dati di qualsiasi formato e provenienti da qualsiasi fonte;
Modello Integrato: l’organizzazione ha a disposizione sia un data lake sia un data warehouse che lavorano in modalità integrata per rispondere alle differenti esigenze di storage, gestione e analisi di qualsiasi tipologia di dato.

Dalla Ricerca risulta che nel 74% delle realtà prevalgono le prime due modalità; nel 26% è stato implementato un data lake; nell’8% al tradizionale data warehouse è stato affiancato un data lake per analisi “esplorative”; nel 18% dei casi abbiamo un modello integrato.

Quale modello di sourcing viene adottato

L’Osservatorio ha quindi cercato di capire quanto le aziende si avvalgano del supporto esterno per le attività di analisi, identificando tre modalità di sourcing (che rappresentano livelli crescenti di maturità):

outsourced: è il livello più semplice, nel quale l’azienda si rivolge all’esterno cercando un fornitore che offra servizi di gestione dell’interno processo di analytics oppure scelga soluzioni SaaS di analisi dei dati;
on premises: l’azienda realizza un’infrastruttura di proprietà completamente in casa;
cloud: si sceglie di sfruttare l’erogazione, in modalità IaaS o PaaS, di tutta o parte dell’infrastruttura tecnologica per fruire della potenza di calcolo necessaria.

La Ricerca ha fotografato la seguente situazione: il 64% delle grandi organizzazioni italiane fa uso oggi di servizi cloud, declinandolo nel seguente modo: servizi Infrastructure as a Service (IaaS) per capacità di calcolo e storage (30%), servizi di Platform as a Service (PaaS) per database, data service (17%) e piattaforme abilitanti (10%) e servizi di Software as a Service (SaaS) con applicazioni già pronte all’uso (24%).

Big data analytics: quali sono le scelte tecnologiche delle aziende italiane

La stretta relazione tra open source e big data

Capacità e velocità di analisi dei big data

Come vengono organizzati i dati

Come garantire l’integrazione dei dati

Quale modello di sourcing viene adottato

Articoli correlati

Big data analytics: quali sono le scelte tecnologiche delle aziende italiane

La stretta relazione tra open source e big data

Capacità e velocità di analisi dei big data

Come vengono organizzati i dati

Come garantire l’integrazione dei dati

Quale modello di sourcing viene adottato

Articoli correlati

Big Data Analytics: aumenta la maturità delle aziende italiane

Big data: il momento è ora! <br>Dati novembre 2017 dell'Osservatorio Big Data Analytics

Data Integration: ecco le migliori soluzioni secondo Gartner

Codice Rss

Codice Rss