Information management: la sfida della qualità del dato

Le aziende si stanno riempiendo di una quantità di dati e informazioni enorme e in continua crescita, ma sempre più spesso sorgono dubbi sulla loro qualità, con conseguenti incertezze sulle analisi che su questi dati si basano. Quali sono i fattori fondamentali che un’azienda deve considerare per dotarsi di un’infrastruttura informativa in grado di utilizzare in modo coerente i dati a disposizione e garantire la qualità di questo patrimonio? Lo abbiamo chiesto a Carlo Vercellis del Politecnico di Milano e a Paolo Pasini di Sda Bocconi

Consentire di interpretare la realtà, simulando scenari sulla base dei quali decidere le azioni da intraprendere, il tutto in un tempo sempre più prossimo al reale: è questo il fine ultimo per cui oggi si raccolgono e gestiscono dati e informazioni. È ovvio che più questi dati sono corretti e rappresentativi di un determinato contesto e migliore sarà il supporto offerto a chi deve decidere l’azione da intraprendere. Come tutti sappiamo oggi, grazie alla digitalizzazione dei processi, a Internet, alla mobility e ai social networks disponiamo di una quantità di informazioni enorme e in continua crescita. Proprio qui sta il problema: la quantità è spesso scambiata per rappresentatività, ma nella grande accumulazione di dati che ha contraddistinto questi ultimi anni non ci si è adeguatamente preoccupati della loro qualità, con la conseguenza che le aziende si sono riempite di informazioni sulla cui attendibilità sorgono sempre più dubbi. Si ha la percezione di avere tra le mani un grande patrimonio, ma è un patrimonio dal quale risulta sempre più difficile estrarre valore. Inoltre Gartner sostiene che nei prossimi 3-5 anni un terzo delle aziende a livello mondiale sarà in grado di monetizzare gli asset informativi, vendendoli o scambiandoli, direttamente o indirettamente. Ma nell’era del “tutto interconnesso”, dove le informazioni viaggiano alla velocità della luce, quali prospettive ha un’azienda che mette in vendita dati che si rivelano di dubbia qualità?

L’equilibrio tra quantità e qualità
Siamo partiti quindi proprio da questo tema per intervistare Carlo Vercellis, Professore Ordinario di Computer Science del Politecnico di Milano e Responsabile Scientifico dell’Osservatorio Big Data Analytics & Business Intelligence della School of Management del Politecnico di Milano, e Paolo Pasini, Direttore Unit Sistemi Informativi e Responsabile Scientifico dell’Osservatorio Business Intelligence di Sda Bocconi.

Carlo Vercellis Professore Ordinario di Computer Science del Politecnico di Milano e Responsabile Scientifico dell’Osservatorio Big Data Anlytics & Business Intelligence della School of Management del Politecnico di Milano

La prima essenziale differenziazione che entrambi i docenti sottolineano riguarda quella tra i dati che provengono dall’interno delle aziende (strutturati e non) e quelli che giungono dall’esterno: “Il livello di qualità che si chiede su questi due tipi di dati è diverso: mentre dobbiamo pretendere la qualità sui dati interni, che in molti casi non è ancora stata raggiunta, su quelli esterni possiamo essere più tolleranti”, dice Vercellis, che specifica: “Tipicamente appartengono a questa seconda categoria i dati social, che possono essere utilizzati in due modi: il primo è raccogliere umori, tendenze, sentiment; in questo caso la qualità puntuale del dato è meno rilevante, operiamo su grandi numeri e su una base statistica così massiva che non abbiamo la necessità di una qualità del dato diffusa. L’altro uso – prosegue Vercellis – è il cosiddetto extended Crm, ossia il tentativo di integrare i dati social con il profilo interno del cliente; a prescindere dalle questioni di privacy che questa integrazione solleva, più che la qualità del dato in sé è indispensabile che la combinazione tra profilo interno e interlocutore esterno sia corretta”. Vercellis ci tiene però a tornare sulla qualità dei dati interni perché questo tema sottende un problema concettuale, non tecnologico, che se non attentamente affrontato inquina i risultati di ogni analisi: “Non mi riferisco a date sbagliate o errori di questo tipo, perché la tecnologia ci supporta da tempo nell’avere sistemi sempre più sintatticamente corretti. Il problema sta nel definire con chiarezza, in stretta relazione con il business owner del processo che genererà un determinato dato, quali sono gli elementi che caratterizzano il dato stesso. In un progetto di loyalty – porta come esempio Vercellis – possono esserci molte ambiguità nella definizione di cliente infedele: se non conosco bene il processo di business, se non definisco con precisione cosa caratterizza il cliente infedele, l’analisi che ne deriverà non potrà essere corretta. La vera sfida, in ogni progetto di questo tipo, sta nella concettualizzazione del business; il problema dell’analisi dei dati, di trovare un modello predittivo lo risolviamo, le tecnologie a supporto ci sono, la vera sfida è definire bene un concetto. Insomma, non dobbiamo mai smettere di pensare”.

Paolo Pasini Direttore Unit Sistemi Informativi e Responsabile Scientifico dell’Osservatorio Business Intelligence, Sda Bocconi

Riguardo ai dati che derivano dal web e dai canali social, Pasini fornisce due suggerimenti: “Da un lato non bisogna perdere di vista i basic statistici e, quindi, si deve fare attenzione a non dare a queste informazioni maggiore valore di quanto oggettivamente rappresentino; dobbiamo sempre far riferimento a un campione rappresentativo del fenomeno che andiamo a studiare. Dall’altro è indispensabile contestualizzare molto bene queste informazioni: se voglio analizzare l’andamento, per esempio, di una fiera, una cosa è la dichiarazione di un ministro, un’altra quella di un esperto del settore. Chi fa sentiment analysis a volte mischia tutto senza contestualizzare l’informazione raccolta; in questo modo si fanno solo danni”.

HAL rimane… “roba da cinema”
Accanto alle più tradizionali analisi descrittive e predittive, la combinazione di esplosione dei big data ed evoluzione delle tecnologie di analisi consente di spingersi verso l’analisi prescrittiva che, guardando oltre la previsione dei risultati futuri, fornisce raccomandazioni in maniera automatica sulle azioni da intraprendere. E addirittura si parla di analisi preventiva che dovrebbe consentire di definire azioni da intraprendere per anticipare determinate problematiche ed evitare risultati negativi. Quali sono le tecnologie che abilitano questo tipo di analisi, e, soprattutto, quale la loro attendibilità?
Anche in questo c’è una sostanziale comunanza di vedute tra i due docenti: “Non credo in Hal [il computer di bordo di 2001 Odissea nello spazio, la macchina “incapace di commettere errori” che, quando invece ne commette uno gravissimo, temendo di venire disinserito tenta di eliminare l’intero equipaggio. ndr] mentre mi sembra di cogliere in circolazione questa illusione”, afferma Vercellis. “Credo si possa fare analisi preventiva in quei casi dove un algoritmo che analizza una serie storica per individuare pattern ricorrenti o correlazioni nascoste sia applicato a processi rapidi, facilmente automatizzabili, di natura operativa: la predictive maintenance è un esempio. Ma attenzione, stiamo parlando di macchine, non del comportamento umano. E anche quando parliamo di decisioni di business che si basano su analisi di questo tipo, sono sempre decisioni di basso profilo: per esempio il pricing dinamico di offerte turistiche su alcuni siti web che, al variare della disponibilità dell’offerta e della domanda, determinano il prezzo ottimale di una camera o di un volo. Ma laddove la creatività umana è forte, non ci sarà mai un Hal che potrà sostituire certe decisioni”.
“Bisogna distinguere – conferma Pasini – tra mondo fisico e mondo manageriale. Nel primo caso, come per la manutenzione preventiva, è facile immaginare applicazioni che prevengono determinate azioni; di tecnologie in questo ambito ce ne sono veramente di tutti i generi. Molto diversa è la situazione quando ci si sposta sul mondo manageriale; anche quando si fa pricing dinamico in tempo reale affidarsi a un automatismo è un tema molto delicato, bisogna inserire business rules in grado di prevedere tutte le casistiche. I giganti del web come Amazon o Google fanno un grande uso dei Recommendation Engines che identificano e capiscono il comportamento dei navigatori, ma anche questi si limitano a fornire raccomandazioni e inviti, non prendono decisioni più impegnative. È vero che la sfida oggi è inserire quanti più automatismi possibile nel processo decisionale, ma bisogna essere molto accorti e definire business rules molto precisi”.

La curva del valore della BI Analytics – fonte: Sda Bocconi

Il framework per l’information management
Una moderna infrastruttura informativa dovrebbe consentire di astrarre le informazioni dalle applicazioni per supportare il “riuso” dell’informazione stessa, eppure spesso, sostiene Gartner, l’informazione è “prigioniera” dell’app che l’ha generata e utilizzarla anche per un’altra app può risultare uno sforzo costoso. Gartner propone da tempo l’Information Capabilities Framework (vedi articolo Information Capabilities Framework, il modello concettuale su www.zerounoweb.it), un modello per arrivare a riutilizzare e condividere realmente le informazioni provenienti dalle diverse applicazioni. Questo è solo un esempio, ma è possibile definire un framework di riferimento per l’information management che consenta alle aziende di sfruttare correttamente la mole di informazioni disponibile?
Pur ritenendolo molto completo e omnicomprensivo dal punto di vista It, Pasini solleva qualche dubbio sul framework proposto da Gartner: “È molto complesso e focalizzato sull’It mentre quello che ritengo sia necessario fare è partire dai processi aziendali, cercando di incrociare le applicazioni e le basi dati che li fanno funzionare. È questa mappatura che, ad un certo livello di dettaglio, può aiutare l’azienda a comprendere il grado di integrazione applicativa e di consolidamento dei dati che è possibile ottenere. Il problema è che un framework di questo tipo è molto buono, ma è difficile da generalizzare”. Neanche per settore? “Questo potrebbe essere un buon compromesso – risponde Pasini – ma il rischio è di avere un framework generico che non tiene conto delle specificità aziendali e di eventuali processi particolarmente innovativi che impiegano dati originali e differenzianti”. Quello che invece Pasini esclude con convinzione è il censimento e la mappatura di tutti i dati e le informazioni aziendali per capire, per esempio, ridondanze o periodicità di utilizzo ecc.: “Per parecchio tempo le aziende hanno inseguito la chimera di mappare tutti i database anche individuali o di team o di ufficio, i fogli Excel, i database Notes o Access ecc. presenti in azienda, per sistematizzare e comprendere le elaborazioni che ne scaturivano, ma si tratta di una chimera appunto perché una volta finita la mappatura il mondo era completamente cambiato, senza contare che poi queste sistematizzazioni vanno manutenute. Quindi non serve perdersi nei mille rivoli in cui i dati vengono rielaborati in periferia; quello che bisogna fare è garantire che ci sia un’unica fonte ufficiale dei dati soprattutto sugli oggetti fondamentali di business (come clienti, prodotti, fornitori, dipendenti ecc.) e definirla bene, anche con buone regole di semantica”. È quindi indispensabile delineare regole di attendibilità dei dati che vengono importati, soprattutto dal web. Ammonisce Pasini: “Bisogna stare attenti ai progetti che partono come schegge impazzite, dove l’azienda si affida a volte eccessivamente a partner esterni che magari padroneggiano bene le tecnologie come delle Black box per il cliente, ma non hanno competenze contestualizzate nel business dell’azienda. Una delle risposte organizzative per il mondo dei dati che arriva dal web, per esempio, è quella di creare un presidio mirato su questo aspetto. Il Digital Officer o il Data Officer dovrebbe proprio avere la missione di replicare un’analisi delle problematiche di qualità e sicurezza dei dati tradizionali in un mondo che è totalmente diverso da quello dei classici sistemi aziendali”.

I trend tecnologici
Abbiamo poi chiesto ai due esperti di Business Intelligence e advanced analytics quali ritengono siano i principali trend tecnologici che avranno in un prossimo futuro il maggiore impatto su queste tematiche.
“Naturalmente tutto quello che riguarda l’Internet of Things è un mondo che avrà importanti evoluzioni, ma quello che non ha ancora finito di stupirci – sostiene Vercellis – è lo storage. Ogni informazione deve essere conservata perché ha un valore potenziale; bisogna tenere tutto e quindi c’è un grande bisogno di storage che deve essere sempre più performante e intelligente. Ritengo che anche gli advanced analytics applicati ai big data si imporranno con sempre maggiore forza, mentre una tecnologia sulla quale siamo ancora molto indietro, ma che penso sia molto importante, è la presentazione visuale dei dati. Gli algoritmi sono capaci di trovare i pattern regolari nelle grandi moli di dati là dove l’occhio umano non è in grado di farlo, però l’occhio umano ha una capacità spaventosa di intercettare gli elementi visuali e quindi dobbiamo essere capaci di restituire i risultati delle analisi in una maniera adeguata, possibilmente su device mobili”.
“Un tema sul quale stiamo lavorando da decenni, ma che non abbiamo ancora risolto – afferma Pasini – è quello di far realmente usare queste tecnologie ai decision maker; si è parlato di self service BI, di democratizzazione della BI, ma solo ora per la prima volta qualcosa mi sembra stia colmando questo gap grazie a tencologie che lavorano sul cognitivo e che stanno avendo derive interessanti in questo ambito. Un altro tema importante – aggiunge il professore di Sda Bocconi – è quello della collaborazione. Uno dei principali problemi dell’information management in azienda è che le funzioni non collaborano, quindi avere delle soluzioni che aiutano a lavorare insieme è sicuramente interessante”. Un ultimo ambito sul quale si focalizza Pasini è quello di “tutte le tecnologie che aiuteranno a gestire il binomio velocità-grandi volumi. Non mi riferisco in questo caso all’in-memory, che ha ancora limiti su grandissimi volumi, ma alla capacità di clusterizzare i server, a sistemi multiprocessore che oggi vengono utilizzati, per esempio, nella difesa o nella meteorologia; penso che gradualmente ci sarà un trasferimento di queste tecnologie anche in altri settori”.

Il “solito” problema delle competenze
Il tema dell’analisi della complessità apre una problematica non banale sul piano delle competenze, sia sotto il profilo degli skill tecnologici sia rispetto alle capacità di analisi e interpretazione dei dati. Si parla tanto di data scientist, ma può una figura di questo tipo “risolvere il problema”? “La figura del data scientist è stata sicuramente un po’ mitizzata, ma è anche vero che su questo fronte il nostro paese, a parte alcune realtà molto avanzate dell’energy o delle utility, è ancora molto indietro. Però non bisogna pensare che un solo esperto possa risolvere il problema; in realtà dovremmo pensare a team che comprendano almeno tre figure: l’esperto del business, il data scientist e l’It che ha il presidio dei dati”, afferma Vercellis.
“Se il data scientist è inteso come colui che ha grandi competenze statistiche e basta – dice da parte sua Pasini – non serve a molto, è un developer con inclinazione statistica. Quello che vediamo, analizzando la presenza reale nelle aziende, sono profili che hanno almeno quattro sfaccettature: abbiamo data scientist che provengono dal mondo tradizionale della BI e padroneggiano i modelli dati dell’azienda; un profilo più “developer”, ma più ricco dell’accezione americana; un profilo più professional statistico, che però conosce anche le problematiche di modellizzazione dell’azienda; e c’è il business analyst evoluto che compie analisi per i sistemi di BI”.
Infine quali sono le proposte di istituzioni universitarie come la School of management del Politecnico di Milano e SdaBocconi per colmare queste lacune? “Il Politecnico di Milano, unendo tre dipartimenti (School of Management, dipartimento di Matematica e dipartimento di Elettronica Informatica) ha definito degli orientamenti rivolti a formare figure che integrino aspetti di business, It e modellistici; inoltre il Politecnico è un Centro di Eccellenza sui Big Data in base a un accordo quadro con Ibm”, spiega Vercellis. A livello post laurea, invece, la School of Management ha avviato due iniziative di master: una, già in corso e supportata dalla Regione Lombardia, è rivolta a formare la figura del data scientist; l’altra, di cui Vercellis sarà il direttore, riguarda un Master internazionale in Business Analytics e Big Data che verrà lanciato ufficialmente il prossimo settembre per partire nel settembre 2016. “La sfida – comnclude Vercellis – è quella di metterci in competizione con i grandi master europei e americani su questi temi”.
Sda Bocconi, invece, sta per avviare un’inziativa rivolta a chi ha già esperienze di lavoro: BI Analytics Academy, il cui obiettivo è di iniziare già nel prossimo semestre accademico. Si tratta di una Academy che si struttura su due livelli: uno rivolto agli specialisti della BI, dei datawarehouse; l’altro specifico per i business manager. “È un programma di formazione importante che ha una parte di progetto sul campo ed è composto da quattro moduli rispettivamente dedicati a: BI analytics governance, processi più critici delle aziende, statistica avanzata e tecnologie”, conclude Pasini.

Big Data Analytics in Italia + 25%

Cresce del 25% il mercato Big Data Analytics in Italia. Nonostante l’83% della spesa sia focalizzato su soluzioni di Performance Management & Basic Analytics e solo il 17% sul segmento Advanced Analytics, quest’ultimo cresce (+34%) più del primo (+23%). Per quanto riguarda le aree di maggiore interesse in ambito Big Data Analytics risultano ai primi due posti l’accessibilità in mobility (57%) e le tecnologie di analytics in memory (49%) (vedi figura). Sono alcuni dei dati della survey, compiuta su 155 C level di aziende di medie e grandi dimensioni, presentati lo scorso dicembre dall’Osservatorio Big Data Analytics & Business Intelligence della School of Management del Politecnico di Milano. Si evidenzia poi che i dati interni utilizzati ai fini di analisi sono l’83% mentre solo il 16% deriva da web e social media. Tabelle, record, documentazioni di office automation sono i più utilizzati nei sistemi di Big Data Analytics (95% dei casi), seguono dati Xml e standard simili (41%), e-mail e file di testo (24%), dati correlati a eventi come messaggi real-time (17%). Meno utilizzati, invece, sono i dati geografici (19%), log web e clickstream (14%), dati di telecomunicazione quali traffico voce (12%), social media data (12%), dati generati da sensori (10%) e dati audio, video o immagini (8%). La funzione marketing risulta essere il principale fruitore di soluzioni Big Data Anlytics in azienda e le motivazioni che spingono le organizzazioni a intraprendere iniziative di Marketing Analytics sono soprattutto il miglioramento delle azioni per l’acquisizione di nuovi clienti (65%) e una migliore gestione della relazione con i clienti attuali e la loro fidelizzazione (85%).
Rimane infine il problema delle competenze: solo il 17% delle imprese si è dotata di un Chief Data Officer e appena il 13% di un Data Scientist.

Le aree di evoluzione dei sistemi BDA & BI – fonte: Osservatorio Big Data Analytics & Business Intelligence della School of Management del Politecnico di Milano