Big Data: cosa fare, come fare e perché

Vediamo, anche attraverso l’esperienza del mondo dell’offerta, gli aspetti del fenomeno big data che vengono più percepiti dalle aziende utenti come problemi e come opportunità. Analizziamo come affrontare la realizzazione di un sistema di gestione e analisi dei dati che possa  supportare una capacità di data management adatta alle sfide che i big data propongono al business e all’IT

Pubblicato il 02 Ott 2011

Come spiegato nell’articolo precedente, si deve parlare di big data nel momento in cui l’insieme dei dati di cui un’impresa dispone oppure ritiene sia utile disporre, supera le capacità degli strumenti informatici preposti alla loro cattura, archiviazione, gestione e analisi. I sistemi transazionali lavorano bene con dati altamente strutturati e organizzati secondo schemi di database prestabiliti e, in queste condizioni, possono gestire centinaia di gigabyte ed eseguire migliaia di transazioni al minuto. I sistemi di Data warehouse e le applicazioni di business intelligence che adottano i cosiddetti Vldb (very large database) usano strutture dati meno normalizzate e sono in grado di gestire volumi dell’ordine dei terabyte arrivando anche a qualche petabyte. Oltre questa soglia, i sistemi devono poter scalare orizzontalmente per distribuire i carichi di lavoro su nuove risorse di data processing e quando la richiesta di tali risorse supera la disponibilità dell’infrastruttura oppure la capacità di gestione della tecnologia di database adottata (o entrambe le cose), allora i big data diventano un problema.
Prima di vedere quali siano gli approcci, le architetture e le soluzioni tecnologiche che permettono di superare i limiti del sistema di data management di un’organizzazione, pensiamo però sia utile tornare sui temi dell’articolo precedente per comprendere meglio lo scenario dei ‘big data’ presso le nostre imprese. Abbiamo quindi chiesto ad alcuni esponenti del mondo dell’offerta It, quali siano, dal loro punto di vista, le dinamiche del fenomeno che più impattano sulle aziende utenti e come queste siano percepite nel loro duplice aspetto di problema e di opportunità.

Social Analysis e Real Time tra le spinte principali

Massimo Pellegrino (nella foto), Vp Enterprise Information Solutions di Hp, pone l’accento sui social network evidenziando come “il rischio connesso a queste attività è dato dal notevole aumento di complessità di un ambiente informativo già di per sé complesso e non predisposto a trattare questo tipo di dati, ma – osserva Pellegrino – questa nuova fonte di conoscenza offre la possibilità di identificare rapidamente la qualità di un prodotto, eventuali problemi nell’assistenza ai clienti, l’efficacia di una campagna, gli influencer di mercato e soprattutto le abitudini e ciò che pensa realmente il mercato”. Le informazioni ottenute dalle applicazioni di social media listening, che vanno inserite nei processi di business per migliorare la conoscenza dei clienti e attivare un ciclo virtuoso di customer intelligence, sono tuttavia solo uno dei componenti di un approccio di social intelligence. “Per sfruttarne a pieno il potenziale – conclude Pellegrino – le aziende devono sviluppare un ampio programma di analisi e gestione delle informazioni collegato a una strategia di business completa”.

La ‘sentiment analysis’, è oggi l’applicazione principale connessa all’uso dei big data anche per Raffaele Bella (nella foto), Ibm SwG Information Management, Business Analytics & Process Optimization manager, e oltre che alle aziende commerciali, dove “… si va a sostituire all’analisi per campione quella dell’intero bacino d’utenza”, interessa anche al settore pubblico. Per il manager Ibm è molto importante però anche l’aspetto velocità: “Nelle banche prima di tutto, ma anche nelle società di Tlc e di utility, l’analisi dei dati in tempo reale permette di capire subito quali sono le informazioni utili e quali no”.

Sulla velocità si concentra l’attenzione anche di Angelo Tenconi (nella foto), Analytics & Technology Development director di Sas. “La prima cosa necessaria è disporre di un’infrastruttura tecnologica capace d’essere veloce e facilmente scalabile; poi viene la capacità di trattare fonti di dati diversificate. L’unione delle funzionalità di high performance computing con le soluzioni di data management costituisce per noi la base di partenza per trattare basi dati sempre più grandi in tempi sempre più rapidi. Presso i clienti – prosegue Tenconi – si arriva infatti sempre più spesso a parlare di real-time, cioè di lanciare processi di analisi anche complessi per produrre indicatori in tempo reale”. Un bisogno che pure per Sas riguarda soprattutto banche e Tlc, ma

anche i settori energy e retail. Marco Fanizzi (nella foto), Country Manager di Emc Italia, raccomanda che per estrarre valore dall’universo digitale “occorre, prima di tutto, presentare al Ceo un business case specifico, per investire nella tecnologia della quale si ha bisogno al fine di automatizzare il procedimento di acquisizione, trattamento e conservazione dei dati; in seguito – prosegue Fanizzi – bisogna pianificare una strategia progressiva di business intelligence che permetta alla propria azienda di comprendere e interpretare i dati che processa, con conseguenti benefici tangibili a livello di business”.

Nuovi database per nuove analisi
Sappiamo però che oltre ai volumi e alla velocità, i big data presentano altre dimensioni da considerare, tra le quali primeggia la concorrenza di dati strutturati e destrutturati. Questo comporta la necessità di estendere le capacità funzionali del database relazionale a nuovi tipi

di dati e di relazioni. “Un tempo – ricorda Enrico Proserpio (nella foto), Senior Director Technology Pre-sales di Oracle – si gestivano dati facilmente incasellabili in tabelle, poi si è passati ai dati dei call center e oggi ci si confronta con una marea di dati non strutturati, documenti prima e immagini e video poi”. Per il Dbms è un rinnovarsi continuo: “Il primo elemento che è stato aggiunto alle funzioni classiche è l’analisi dei testi, che possono essere inseriti nel database per essere oggetto di query integrate: per esempio analizzando contestualmente l’anagrafica dei dipendenti e i loro curricula, poi si è passati ai dati geografici e alle analisi sui grafi [le topologie di rete – ndr] scoprendo che i modelli elaborati per i grafi e le analisi spaziali si adattano inaspettatamente alla ricerca semantica”.

La necessità di correlare le analisi di dati strutturati e non strutturati viene evidenziata anche da Fabrizio Fantasia (nella foto), Business Developer di Sybase. Un’esigenza che, aggiunge Fantasia, “crea un problema prestazionale dalla convenienza di svolgere le analisi su dati per quanto possibile disaggregati, per non rischiare di perdere, aggregandoli, eventuali correlazioni nascoste”. Nel caso di Sybase questo problema è superato dalla peculiare architettura a colonne di Sybase IQ, (vedi articolo), ma, aggiunge Fantasia, si può anche concretizzare con altre due soluzioni tecnologiche: “Una è portare il data mining all’interno del motore analitico, cosa che in un contesto di big data più che un’opzione è un’esigenza; l’altra è avere routine che

portino l’analisi dei dati non strutturati all’interno dello stesso storage”. Anche Vincenzo Costantino (nella foto), Senior manager Technical Sales Organization di Symantec, affronta il problema delle esigenze prestazionali relative ai big data, ma con un approccio del tutto opposto, che parte cioè non dall’utilizzo ma dalla generazione dei dati. “È vero che i dati sono aumentati per tutta una serie di fattori, ma è altrettanto vero che spesso vengono creati artificialmente. Per la falsa idea di avere una maggior protezione si eccede in repliche e duplicazioni creando un’accumulo d’informazione incontrollato. A questo – prosegue Costantino – si aggiunge la retention del dato stesso”. Insomma, vuoi creando dati nuovi, vuoi replicando quelli creati, vuoi non cancellando mai quelli replicati si crea una montagna di materiale che rallenta l’intero data management. Una gestione degli archivi basata su criteri di selezione e classificazione dei dati per importanza ai fini del business e dotata degli opportuni strumenti di backup e recupero ‘intelligente’, dovrebbe far parte della struttura di ogni Data center.

Vogliamo chiudere questa rassegna con la voce di Romeo Scaccabarozzi (nella foto), presidente di Axiante, che oltre a parlare degli aspetti tecnologici e metodologici di un approccio ai big data ha concluso il discorso con un’osservazione che introduce un problema nuovo e diverso: quello delle risorse umane. “Per noi la tecnologia non è un problema, ma ci sono invece problemi di skill e know-how che dovranno essere creati sia sul lato dell’It aziendale sia su quello dei fornitori e degli integratori di sistema”. E la ricerca o la formazione di questi skill è proprio il punto sul quale l’It deve partire da subito. Salvo il fatto che dovrà prima creare una maggiore sinergia con le funzioni business, “perché l’analisi dei big data non potrà essere fatta direttamente dall’utente”, che va aiutato in tal senso in quanto, conclude Scaccabarozzi “spesso la tecnologia è più avanti delle reali necessità”.

Un’architettura per i Big data
Per coniugare velocità e capacità di analisi di grandi volumi di dati di diverso tipo, il big data processing comprende diverse tecnologie. Esiste però, secondo Forrester Research che vi ha recentemente dedicato uno studio, un comune denominatore, che è il ricorso all’elaborazione parallela per distribuire i compiti di gestione e storage dei dati tra risorse hardware virtualizzate e anche eventuali risorse cloud. Un sistema concepito per la gestione e l’analisi dei big data dovrebbe quindi, secondo Forrester, avere un’architettura a tre livelli (figura 1).

Figura 1 – L’architettura a tre livelli di un sistema concepito per la gestione e l’analisi dei big data
(Cliccare sull’immagine per visualizzarla correttamente)

– Primo livello – è dato dai servizi infrastrutturali. Questi devono assicurare il supporto hardware per lo storage e per i server e la gestione dei carichi di lavoro. Stante la natura variabile in volume e struttura dei big data, è decisamente preferibile, anche se non tecnicamente indispensabile, che i servizi infrastrutturali siano forniti da macchine virtuali basate su hardware standardizzato. Gli strumenti di workload management disponibili per gli ambienti virtuali consentono infatti di scalare una tale infrastruttura in modo elastico a seconda della domanda.
– Secondo livello – prevede servizi di data management distribuiti e che offrano, con l’aggiunta di altri servizi in distribuzione di carico, una scalabilità orizzontale. Secondo Forrester questo livello dovrebbe comprendere tre tecnologie necessarie per gestire i big data: 1) elaborazione in data streaming; 2) sistema di file management distribuito e 3) dei database non-relazionali progettati per una scalabilità teoricamente illimitata.
– Terzo livello – contiene strumenti di elaborazione e di analisi distribuita, ottimizzati per operazioni in cloud computing. Si tratta di una classe di middleware che fa leva sul distributed data management per svolgere query, analisi e alcuni processi transazionali.

Lo stato delle cose
Le caratteristiche dell’elaborazione distribuita peculiari dell’analisi dei big data, se attuate su grande scala, presentano rischi (latenza, errori, consistenza e altro) che le tecnologie disponibili e in sviluppo cercano di superare. Premesso che si tratta di un campo in rapidissima evoluzione, al momento dell’analisi Forrester (maggio 2011) la situazione si può sintetizzare come segue (figura 2).

Figura 2 – Sistema per la gestione e l’analisi dei Big Data
(Cliccare sull’immagine per visualizzarla correttamente)

In uno studio sui big data recentemente pubblicato da Forrester, viene presentato un interessante schema ideale relativo ad un sistema concepito per la gestione e l’analisi dei big data. Si tratta di un sistema caratterizzato da un’architettura a tre livelli. Il primo livello è dato dai servizi infrastrutturali. Questi devono assicurare il supporto hardware per lo storage e per i server e la gestione dei carichi di lavoro. Stante la natura variabile in volume e struttura dei big data, è decisamente preferibile, anche se non tecnicamente indispensabile, che i servizi infrastrutturali siano forniti da macchine virtuali basate su hardware standardizzato.
Il secondo livello prevede servizi di data management distribuiti e che offrano, con l’aggiunta di altri servizi in distribuzione di carico, una scalabilità orizzontale. Secondo Forrester questo livello dovrebbe comprendere tre tecnologie necessarie per gestire i big data: 1) elaborazione in data streaming; 2) sistema di file management distribuito e 3) un database non-relazionale progettato per una scalabilità teoricamente illimitata.
Il terzo livello infine contiene strumenti di elaborazione e di analisi distribuita, ottimizzati per operazioni in cloud computing.


– Le infrastrutture virtualizzate sono disponibili e largamente adottate. Si tratta di soluzioni decisamente mature per la parte hardware e supervisor; un po’ meno per i tool di workload management, ma comunque decisamente affidabili. Sono anche disponibili servizi IaaS (Infrastructure-as-a-Service) tramite cloud pubblico e si possono creare servizi analoghi in grado di affiancare da un cloud privato le risorse del Data center.
– Le tecnologie di data management incominciano solo ora ad essere disponibili. Si tratta di soluzioni di provata efficacia e delle quali esistono varie implementazioni, ad esempio in appliance per Data warehouse che offrono anche tool Vldb (Very large database). Oggi il sistema di file management distribuito più maturo è Apache Hadoop, progetto open source sul quale si basa tra l’altro la nuova soluzione BigInsights di Ibm (vedi riquadro a pag. 40).
– I componenti di application processing, cioè strumenti e framework in grado sia di fornire nuovi modi di elaborare i big data sia di trasportare tecniche di analisi tradizionali nei nuovi ambienti distribuiti, sono i meno maturi. Oltre al già citato Hadoop, Forrester ricorda il progetto Boom (Berkley Orders Of Magnitude) per un linguaggio di programmazione dichiarativo per i big data.
Con il maturare dell’offerta, i rischi cui si è accennato ovviamente diminuiranno, facilitando ai Cio l’avvio di progetti e investimenti. Ma come hanno sottolineato anche gli intervistati (specialmente Bella di Ibm e Scaccabarozzi di Axiante) per partire presto e bene bisogna che le idee siano ben chiare su almeno due cose. La prima e più importante è che il top management smetta di vedere la gestione dei dati come un costo (attitudine ancora diffusa) e incominci a pensarla come un investimento. La seconda è che l’It eviti di vedere i big data come un problema/soluzione a se stante, creando un nuovo silos di strutture e competenze adeguate. Ciò che chi ha il potere di farlo deve fare è invece:
1 – Aiutare il business a indagare le opportunità dei big data. Attività che può essere svolta, per esempio, descrivendo possibili scenari che comprendano i cambiamenti da attuare riguardo le persone, i processi e le tecnologie, per portare il business dallo stato attuale a dove vuole arrivare.
2 – Avere un approccio olistico all’architettura informativa. Definendo i metadata in base alle necessità di analisi, prevedendo da dove i dati potranno arrivare (per crescita o per acquisizioni), con che velocità si dovranno analizzare, dove e quanto a lungo archiviarli, quali esigenze di sicurezza, disponibilità, privacy e proprietà intellettuale rispettare e così via.
3 – Valutare l’integrazione dei big data nei sistemi di BI e PA (performance analysis). Si tratta di sviluppare modelli d’integrazione che portino i grandi data set al servizio dei sistemi di business intelligence e performance analysis secondo i principi e le capacità di un’architettura service-oriented. Ciò comprende anche lo studio, per i dati che si possono far gestire all’esterno della propria azienda, delle proposte IaaS e PaaS (Platform-as-a-Service) del mercato.
4 – Aggiornare le tecnologie con grande attenzione all’offerta. Stabilita una roadmap di massima, bisogna seguirla avendo sott’occhio l’evoluzione delle possibili soluzioni. Se le risorse infrastrutturali virtualizzate si possono mettere in opera quando occorre, lo sviluppo delle soluzioni di data management andrà monitorato avendo presenti validi scenari di business e provato in test proof-of-concept studiati a supporto di tali scenari.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati

Articolo 1 di 3