Teradata: gestire lo ‘tsunami’ di nuovi dati

Al Teradata Partners 2010 in evidenza la ‘socialization of data’, cioè la necessità di integrare le fonti tradizionali di informazioni con quelle nuove come sensori e social network. “Occorre mettere in parallelo data warehouse e tecnologie di frontiera”

Con quasi 3.200 iscritti, il Teradata Partners 2010 di fine ottobre a San Diego è stato definito dal Ceo di Teradata Mike Koehler “il più grande evento mondiale sul data warehouse”. Il tema centrale di questa edizione è stato il concetto di ‘socialization of data’. Un vero ‘tsunami’ di dati e informazioni – hanno spiegato executive di Teradata e analisti – sta per investire aziende e organizzazioni, proveniente da nuove fonti come social network, sensori, dispositivi mobili, Gps, e-mail, call center, Rfid e così via. Questi flussi richiedono tecnologie nuove per essere gestiti, analizzati e integrati con le informazioni ‘tradizionali’ da fonti come l’Erp aziendale e le ricerche di mercato. E la ‘socialization of data’ – ha detto l’executive vice president marketing di Teradata Darryl Mc Donald -, è proprio l’analisi integrata di dati tradizionali e ‘nuovi’ per fotografare in modo più preciso il posizionamento di un’organizzazione nel mercato. “Molte aziende usano solo i dati di vendita, oggi invece occorre raccogliere molti più dati ‘intorno’ alla vendita: cosa spinge all’acquisto, le impressioni sul funzionamento e sull’assistenza. Insomma, non solo i dati sulla transazione, ma sull’intera ‘esperienza d’uso’”.

Socialization of data: volumi pazzeschi
Fondamentale, in quest’ottica, è l’importanza dei social network: “Soltanto i 3.200 iscritti a quest’evento hanno 2,3 milioni di connessioni tra Facebook, LinkedIn e Twitter – ha detto Mc Donald -. L’89% delle persone racconta le esperienze negative con prodotti o servizi, e il 78% si fida dei consigli degli amici: quel che si dice sui social media di un’azienda è molto più influente sul suo business di quello che essa scrive sul suo sito web”.
La ‘socialization of data’ però comporta volumi di dati (detti ‘big data’) che gli strumenti software oggi più diffusi non sono in grado di gestire e analizzare in tempi accettabili. Oggi ‘big data’ significa da qualche decina di terabyte a qualche petabyte, ma tra un anno sarà già aumentato. “In questi casi oggi si usano tecnologie più o meno ‘di frontiera’, come MapReduce, Hadoop [MapReduce è un insieme di algoritmi di elaborazione in parallelo che possono sfruttare migliaia di server, Hadoop è la piattaforma open source che ‘distribuisce’ i job MapReduce, ndr], distributed file systems, cloud computing e in-database processing”, ha spiegato Stephen Brobst, chief technology officer di Teradata. “I tre trend più importanti per la business intelligence oggi sono proprio la proliferazione di dati da fonti non tradizionali, l’apertura della BI agli operatori di front-end, come addetti call center, venditori, tecnici di assistenza, e l’in-database processing, che accelera l’analisi tenendone alcune parti entro il data warehouse invece di delegarle tutte ad applicazioni esterne”.
Molti recenti annunci di Teradata riguardano questi temi. A settembre si è alleata con Cloudera, il ‘braccio’ commerciale di Hadoop, per affiancare elaborazioni parallele di data warehouse e di Hadoop appunto, mentre a San Diego ha presentato l’accordo con Karmasphere sullo sviluppo di applicazioni MapReduce per orchestrare elaborazioni tra Hadoop e i sistemi Teradata.
Altri annunci importanti del Teradata Partners sono le nuove versioni del database e della famiglia di applicazioni data warehouse. Il primo (versione 13.10) introduce la capacità di ricostruire esattamente la situazione aziendale in qualsiasi momento del passato (time-aware database), e l’Open Parallel Framework per l’in-database analytics. La seconda comprende tra le altre Extreme Performance Appliance 4600, la prima basata solo su tecnologie SSD, ed Extreme Data Appliance 1650, capace di scalare fino a 187 petabyte.

“Nessun dato va scartato”: parola di eBay
Un caso interessante del Teradata Partners 2010 è eBay, che nel data warehouse aziendale conserva oltre 6 petabyte di dati: “Non tracciamo solo aste e transazioni – spiega Oliver Ratzesberger, senior director analytic platforms di eBay -, ma ogni click, percorso e ricerca fatti nel nostro sito: poi ci lavoriamo per capire i comportamenti d’acquisto, individuare le frodi, migliorare la nostra efficienza”. In ogni momento eBay ha in corso 100 progetti di analisi sui dati. “Nell’abbigliamento per esempio abbiamo oltre 700mila modelli; la gente si perdeva. Abbiamo studiato e risolto il problema con icone colorate che restringono la ricerca per colore, tipo di capo, misura e così via”. I benefici sono enormi, dice Ratzesberger, ma il problema è che i dati servono tutti: “Conserviamo tutto, non possiamo sapere quale query ci servirà domani”. Vari interventi di utenti e analisti all’evento confermano il concetto: il problema non è più capire quali dati salvare, ma trovare un modo economicamente sostenibile di archiviarli tutti.

L’esplosione degli Zetta byte e la nuova business intelligence
di Nicoletta Boldrini

La nuova business intelligence fa i conti con la crescente e incessabile esplosione di una mole sempre maggiore di dati, il cui valore va ricercato sempre più in fonti destrutturate. Real time e prestazioni dei sistemi di archiviazione sono i nuovi must. “C’è fame di dati nel mondo: le aziende che riusciranno a leggere meglio la situazione del proprio business lo potranno governare con maggior facilità. Passeremo dall’era degli Exabyte (1 trilione di byte) a quella degli Zettabyte (1 triliardo di byte), già nel 2011 [fonte: Idc ndr] e la business intelligence assumerà quindi un ruolo sempre più importante, insieme all’evoluzione del data warehouse che va verso la costruzione di soluzioni hardware per l’archiviazione e la gestione delle immense moli di dati create dalle aziende”. Così Stephen

Brobst (a sinistra), Cto di Teradata, illustra lo scenario che vede prospettarsi nei prossimi mesi: “Dopo decenni di focalizzazione sui dati strutturati, seguiti da una maggior consapevolezza dell’importanza dei dati non strutturati, il panorama della business intelligence sta profondamente mutando – osserva Brobst -. Oggi l’obiettivo primario delle aziende è il monitoraggio dei dati in tempo reale per capire e poter agire quando gli eventi accadono (e non più facendo analisi a posteriori)”.

Dati che, tuttavia, sono in crescita costante e che costringono le aziende non solo a prevedere nuovi sistemi di storage, ma anche nuovi strumenti di analisi, più approfonditi e, soprattutto, più efficaci. “La corretta classificazione dei dati è il primo passo verso un efficiente approccio alla business intelligence – osserva Brobst – ma non vanno trascurati i problemi legati alle prestazioni dei sistemi. La velocità di elaborazione dei chip è cresciuta maggiormente rispetto a quella di trasferimento verso lo storage e questo può rappresentare un serio problema”.
Problema risolvibile con soluzioni che focalizzano l’attenzione sulla compressione dei dati che oggi, spiega Brobst, “viene usata in una percentuale intorno al 50-60%, ma in un prossimo futuro si spera di raggiungere il 95%”. Ma non basta. “Negli ultimi 30 anni – continua il Cto di Teradata – le prestazioni delle Cpu sono cresciute di un fattore superiore al milione di volte. Le dimensioni dei dischi solo di mille, il transfer rate addirittura appena di 10. Troppo poco per far fronte all’esplosione di informazioni che il Web genera”.
“Nei prossimi anni, dunque, ci si dovrà focalizzare anche sui dispositivi di archiviazione hardware che devono però fare un balzo in avanti in termini di prestazioni e velocità di trasferimento”, conclude Brobst. “Le aziende dovranno trovare un equilibrio ottimale nella gestione dei sistemi di archiviazione hardware e software, con conseguente efficiente capacità di analisi dei dati (per identificare quali dati archiviare, come e in quale sistema)”.

Teradata: gestire lo ‘tsunami’ di nuovi dati

Articoli correlati

Teradata acquisisce Aprimo

Teradata alza la posta sulla Business Intelligence

Codice Rss

Codice Rss