Big Data: dall’infrastruttura alle analisi

Molto differenti tra loro, per tecnologie e modelli organizzativi, sono gli approcci possibili alla gestione dei Big Data. Bisogna comunque partire sempre dalla strategia di intelligence che si è scelta, disegnata, si spera, sui reali bisogni dell’impresa.

Nel 2010 il volume dei dati digitalizzati generati, nel complesso, sia dalle attività di business sia dai singoli utenti è stato stimato, da Idc, di circa 1,2 zettabyte (o se preferite 1,2 triliardi), cioè 1 seguito da 2 e 20 zeri. Nel 2011 gli zettabyte sono stati più di 1,8 e quest’anno, se la crescita prosegue al ritmo del 59% anno su anno previsto da Gartner (è non c’è motivo di credere che rallenti), il volume dei dati generati espresso in byte sarà più vicino ai 3 che ai 2,9 triliardi. Sono cifre impressionanti, soprattutto perché Gartner, Idc e altri analisti di mercato tengono conto, dicevamo, dei dati complessivi (business e privati); ma è normale che sia così. Se qualcuno pensa di poter escludere dal computo complessivo il volume dei dati prodotti dalle attività individuali, basta ricordare come queste siano in molti casi connesse al business, anzi, per certi settori d’industria (servizi, Gdo, articoli di consumo, solo per citarne alcuni) ne siano alla base.
Ma il volume è solo la prima delle tre ‘V’ che identificano la problematica dei ‘big data’; le altre due sono la variabilità dei fenomeni che i dati rappresentano e la velocità con la quale vanno analizzati per estrarne delle informazioni utili e significative. È fin troppo ovvio dire che le informazioni, controllate nella loro completezza e veridicità e presentate in modo oggettivo, in tempo utile e alle persone giuste, sono la linfa vitale di ogni impresa. Ma è proprio nello svolgere un compito che fa la differenza nella capacità di competere e di essere performante di un’impresa che i big data diventano una sfida per il Cio e l’It aziendale.
Gli strumenti tecnologici sui quali l’It può contare per gestire i big data devono rispondere a tre tipi di necessità: 1) la capacità di raccogliere e memorizzare i dati; 2) quella di organizzarli in modo da trovare i dati che occorrono e di trovarli subito; 3) quella di analizzarli in modo da trarne le informazioni che servono al business. Sono i bisogni di sempre, anche quando i dati non erano ‘big’. La differenza è che dai primi anni 2000, quando la curva di crescita dei dati si è impennata, fino a poco fa ci ha pensato la legge di Moore a darci una mano, rendendo disponibili risorse di storage e di calcolo sempre più potenti, veloci e ‘intelligenti’ a costi sempre più accessibili. La legge di Moore è ancora valida e continua a funzionare (si pensi, ad esempio, ai processori multicore e ai dischi a stato solido, che, a costi oggi accessibili, hanno moltiplicato di più ordini di grandezza la velocità di accesso ai dati e le prestazioni dei Dbms), ma da sola non basta.
Ciò che rende i ‘big data’ tali è il fatto di superare la tecnologia disponibile, hardware e software. Occorrono quindi soluzioni speciali. Sul lato delle infrastrutture la risposta viene da due fronti. Il primo è una nuova generazione di sistemi che pur inserendosi in un’architettura di data center tradizionale (con application server, Dbserver e sistemi storage interconnessi ma residenti su sistemi separati) offre prestazioni superiori e incorpora funzioni come la gestione gerarchica dei dati e la loro deduplicazione e compressione ottimizzate e automatizzate. Il secondo è dato dalle nuove e sempre più diffuse soluzioni di appliance, che affidano l’archiviazione, l’organizzazione e talvolta anche l’analisi dei dati a sistemi che incorporano e ottimizzano reciprocamente hardware e software. E possono quindi sfruttare bene tecnologie particolari sia nell’uno come nell’altro campo, come l’elaborazione parallela nella Cpu e la struttura a colonne nel Dbms.

Arrivano le big data analytic
Ma sebbene, come ovvio, un’infrastruttura efficiente sia essenziale, la vera risposta al problema dei big data, cioè come servirsene per il successo dell’impresa, viene sul lato software. Dbms, come si è detto, ma soprattutto applicazioni di analisi. Dei big data, infatti, sono parte essenziale classi di dati affatto nuove, provenienti da Web application, social media, sensori, dispositivi mobili, fornitori terze parti.
Che richiedono strumenti altrettanto nuovi.
Secondo i dati emersi da una recente indagine condotta da Tdwi Research (su un bacino di 360 intervistati tra professionisti It e responsabili di data e information management in aziende sia degli Stati Uniti, per il 56%, sia di altri Paesi – il 17% in Europa), il 40% delle aziende svolge già analisi di tipo avanzato sui dati, ma non applica queste metodologie e soluzioni sui big data. La percentuale di chi applica strumenti di analisi avanzata anche sui big data scende al 34% (figura 1), questo perché, come dicevamo, i big data richiedono strumenti di analisi nuovi rispetto al passato, anche recente (scarica la ricerca Big Data Analytics di Tdwi Research).

Figura 1: Adozione della advanced analytic e loro applicazione sulle analisi dei big data
(cliccare sull'immagine per visualizzarla correttamente)
Fonte: Tdwi Research

Le ‘big data analytic’ nascono dalla integrazione di due classi di strumenti: la prima è quella che è in grado di svolgere analisi per estrarre informazioni da una grande massa di dati, la seconda è quella che analizza fonti dati nuove, soprattutto non strutturate, come testi, pagine Web, in qualche caso anche suoni e immagini. Nell’organizzare questi due strumenti (la cui proporzione d’uso, ovviamente, varia in funzione del settore d’attività e dello specifico business dell’impresa) si possono seguire due approcci. Uno è quello di gestire i dati all’interno di un Enterprise Data Warehouse ed eseguirvi la maggioranza dei processi di analisi; l’altro è quello di spostare le analisi su una piattaforma secondaria, alla quale inviare i dati estratti dopo un primo screening operato sul Dbms. Come sempre, si possono però seguire approcci ibridi, destinando per esempio all’Edw le analisi applicabili a dati strutturati e che privilegiano la rapidità di esecuzione e agli strumenti specializzati di analisi semantica quelle che richiedono l’estrazione di informazioni da testi e altri dati non strutturati. Indipendentemente dall’approccio prescelto si tratta comunque di riconsiderare il parco delle applicazioni analitiche (attuali e future) e di confrontarlo con la strada (e con la spesa) che si è scelta per lo sviluppo dell’infrastruttura. Partendo come sempre dallo studio, di concerto con il business, dei reali bisogni dell’impresa. Purtroppo, nell’It non ci sono soluzioni buone per tutte le stagioni.

Big Data: dall’infrastruttura alle analisi

Articoli correlati

Big data, la nuova sfida

Accelerare la creazione dei modelli analitico-predittivi

Codice Rss

Codice Rss