Big Data: qual è il livello di maturità delle aziende italiane

Solo l’8% delle aziende si colloca a un livello elevato di maturità e il 26% è ancora all’inizio del percorso: sono alcuni tra i dati che emergono dall’ Osservatorio Big Data Analytics & Business Intelligence della School of Management del Politecnico di Milano. In questo articolo approfondiamo competenze, modelli organizzativi e framework tecnologici che contribuiscono a valutare la maturità delle aziende verso una vera data driven enterprise

Pensare all’evoluzione di un’azienda in ottica data driven significa porre attenzione a diversi aspetti, tra i quali quello delle tecnologie non solo non è il principale, ma soprattutto non è quello più complesso da affrontare. L’Osservatorio Big Data Analytics & Business Intelligence della School of Management del Politecnico di Milano, infatti, oltre a indagare il livello di penetrazione delle tecnologie di analytics presenti, e di prossima implementazione, nelle aziende in Italia sia per dimensione e aree aziendali sia per settore, ha posto l’attenzione sul livello di maturazione complessivo delle imprese nel raggiungimento dell’obiettivo della trasformazione verso una data driven enterprise.

L’Osservatorio ha sviluppato un modello, il Big Data Journey, che, da un lato, definisce gli elementi da considerare e i passi necessari da compiere per raggiungere questo obiettivo, dall’altro rileva qual è il livello medio di maturità raggiunto dalle aziende italiane in questo ambito.

Indice degli argomenti

Big Data Journey: un percorso ancora tutto da compiere

Premettiamo che la definizione del modello è nata dal confronto che l’Osservatorio ha avuto negli anni con aziende del mondo dell’offerta e della domanda nonché dalle rilevazioni sul campo; per quanto riguarda i dati puntuali relativi al 2016, la rilevazione ha coinvolto 149 grandi imprese (sopra i 249 addetti) e 803 Pmi (tra 10 e 249 addetti).

I parametri che vanno a comporre il Big Data Journey e consentono di definire il livello di maturità delle aziende afferiscono a 4 dimensioni analizzate dall’Osservatorio:

strategia: bisogna capire qual è l’approccio dell’azienda o della pubblica amministrazione alla gestione degli analytics e se questo si inserisce in un piano strategico;
modalità di gestione dei dati: si tratta di un parametro essenziale (e che in parte rappresenta la cartina di tornasole del precedente) e riguarda la gestione del dato all’interno dell’organizzazione ossia la modalità con cui i dati vengo immagazzinati nei sistemi aziendali e vengono resi disponibili ai vari applicativi;
competenze e governance: comprendere quali sono le competenze presenti in azienda relativamente alla gestione e analisi del dato e come si configura la governance dei sistemi di analytics;
tecnologia: valutare il framework tecnologico adottato per quanto riguarda gestione dei dati e loro analisi.

Quello che emerge dalla rilevazione 2016 è che solo l’8% delle organizzazioni si colloca a un livello elevato di maturità mentre il 26% è ancora all’inizio del percorso. Situazione intermedia, dove alcuni parametri sono privilegiati rispetto ad altri, per il 66% delle aziende analizzate: “Ciò che emerge con chiarezza – ha detto Carlo Vercellis, Responsabile scientifico dell’Osservatorio – è un ritardo nella creazione di competenze e modelli di governo delle iniziative di analytics e una limitata conoscenza delle opportunità derivanti dalle nuove tecnologie legate alla gestione dei big data”.

Data scientist: situazione in Italia e confronto internazionale

Il Data scientist, negli ultimi anni sempre più presentato come la panacea che può traghettare le aziende dal vecchio al nuovo mondo, è una di quelle “etichette” che rischia di essere priva di reale significato se non si definiscono bene le aree di competenza cui fare riferimento. Che si tratti di una figura multidisciplinare che deve coprire uno spettro eterogeneo di competenze è ormai chiaro a tutti, ma, come illustrato nell’articolo Estrarre valore dai dati: modelli predittivi e competenze necessarie, l’Osservatorio ha delineato con chiarezza gli ambiti sui quali il data scientist deve sapersi muovere e che rappresentano il riferimento per definire il livello di maturità di queste figure:

Knowledge Deployment: creare interessanti rappresentazioni di dati (data visualization) e consentire quindi una miglior interpretazione dei dati stessi;
Technology: saper gestire dati strutturati e non, estrarre dati da fonti esterne tramite metodologie e tool specialistici e infine manipolare e distribuire grandi quantità di dati;
Programming: conoscenza informatica e programmazione;
Machine Learning/Analytics: conoscenza di modelli e tecniche matematiche (analisi di apprendimento supervisionato e non supervisionato) e di tool e linguaggi in grado di effettuare analisi;
Business: conoscenza di aspetti di business (conoscenza di effetti di micro e macro-economia, processi funzionali come il marketing, finance produzione o distribuzione) e di industry.

Figura 1: Le competenze del data scientist
Fonte: Osservatorio Big Data Analytics & Business Intelligence della School of Management del Politecnico di Milano

L’Osservatorio monitora da tre anni l’evoluzione di queste figure all’interno delle aziende italiane e nel 2016, per indagare l’affermarsi di questa professionalità a livello globale, ha condotto una survey internazionale (che ha coinvolto 280 professionisti della data science così distribuiti: 28% Nord America; 25% in Italia; 23% resto d’Europa; 15% Asia; 9% nelle altre aree geografiche).

In primo luogo emerge subito che si tratta figure giovani, con un’età anagrafica media di 35 anni, con un background accademico estremamente qualificato (25% ha conseguito un titolo di Dottorato di Ricerca (PhD); il 50% un master degree; il 25% un bachelor degree), al quale si affiancano numerosi corsi di specializzazione (63% corsi di statistica; 57% di informatica; 35% di management; 27% di matematica; 15% corsi di vario tipo legati alla data science).

Figura 2: Il posizionamento organizzativo del data scientist
Fonte: Osservatorio Big Data Analytics & Business Intelligence della School of Management del Politecnico di Milano

Dalla survey emerge poi come i data scientist mostrino un livello avanzato di competenze in ambito di knowledge deployment (72% dei rispondenti), machine learning/analytics (62%), mentre appare più limitata la conoscenza negli ambiti technology (50%), business (47%) e programming (39%) (figura 1).

Molto diversificata la collocazione organizzativa di queste figure: il 27% fa capo all’It; il 26% afferisce a un’area funzionale (marketing, operation, finance o R&D); è interessante notare come il 26% operi invece in una struttura autonoma, specificatamente pensata per le attività di gestione dei big data mentre il 15% lavora come consulente esterno, dato che evidenzia come per le aziende sia spesso difficile riuscire a internalizzare queste competenze (figura 2).

Figura 3: La diffusione a livello di settore del data scientist
Fonte: Osservatorio Big Data Analytics & Business Intelligence della School of Management del Politecnico di Milano

Per quanto riguarda la diffusione a livello di settore si veda la figura 3. Difficile, nonostante sia una dimensione indagata, derivare valutazioni dall’analisi del livello retributivo perché si tratta di un fattore troppo fortemente influenzato da elementi macroeconomici e specificità settoriali, di paese ecc. ma l’Osservatorio rileva che laddove questa figura è più diffusa da tempo, come negli Usa, le retribuzioni superano facilmente i 100.000 dollari annui.

Quale organizzazione per la data driven company

Sulla base di casi analizzati nel corso di anni di attività nonché della letteratura disponibile, l’Osservatorio identifica quattro approcci principali alla governance degli analytics, dei quali riassumiamo brevemente le caratteristiche:

Centralizzato: struttura dedicata alla data science, con l’identificazione formale di un Chief Data Scientist, che raccoglie le richieste del business.
- Pro: struttura efficiente e riconfigurabile con sviluppo di prassi consolidate di gestione dei progetti di data science e di competenze eterogenee nel team.
- Contro: si genera competizione all’interno dell’organizzazione per accedere alle risorse di data science e diventa complesso il coinvolgimento di business unit più tradizionali.
Matriciale: esiste una figura di Chief Data Scientist che ha il ruolo di coordinare le progettualità in modo cross rispetto alle funzioni di business, ma il team di data scientist è diluito all’interno delle diverse funzioni di business, ed è caratterizzato da un riporto duplice, nei confronti del proprio referente di business e del Chief Data Scientist.
- Pro: le scelte tecnologiche e gli approcci progettuali sono maggiormente armonizzati e i data scientist, grazie al loro posizionamento, sono nativamente agevolati a sviluppare conoscenza verticale di business.
- Contro: la presenza di un duplice coordinamento sulle risorse rende la struttura più complessa da gestire, così come la prioritizzazione dei progetti. Non è infine semplice l’inserimento organizzativo dei data scientist.
Business Driven: non esiste una figura di coordinamento dei data scientist, che sono collocati a livello organizzativo direttamente nelle funzioni di business di riferimento.
- Pro: tempi di risposta veloci, un controllo maggiore dei dati da parte della business line e una conoscenza verticale del business (come nel modello precedente).
- Contro: le scelte tecnologiche possono rilevarsi spesso disomogenee e contrastanti, la visione dei dati può risultare parziale e verticale, i profili di data scientist sono molto specializzati, ma hanno una limitata visibilità cross funzionale.
Ibrido: rappresenta una composizione dei precedenti, con la coesistenza di una struttura organizzativa indipendente e la presenza di unità di data science nelle singole linee di business. Questo approccio richiede la progettazione di dettaglio di ruoli organizzativi, competenze e attività delle varie anime organizzative e del coordinamento tra struttura indipendente ed unità di business. In questa progettazione bisogna tener conto dei pro e dei contro dei modelli precedenti al fine di delineare un’organizzazione che, ovviamente, ne ottimizzi i vantaggi.

I framework tecnologici di riferimento

Quali sono le caratteristiche principali che oggi le tecnologie di gestione del ciclo di vita del dato e di analisi devono avere e come si stanno muovendo le aziende italiane nell’approvvigionamento delle tecnologie adeguate?

Prima di tutto, ricorda l’Osservatorio, le caratteristiche intrinseche dei big data (riassumibili nelle 5 V: volume, velocità, varietà, veridicità e variabilità) richiedono framework tecnologici nuovi rispetto al passato: nella fase di raccolta dei dati è necessario disporre di un’infrastruttura scalabile in grado di processare anche grandi moli di dati in real time, minimizzando le possibili perdite informative; la fase di analisi richiede la valutazione di architetture complesse che coniugano capacità di elaborazione real time e batch; nella conservazione dei dati è indispensabile l’impiego di tecnologie in grado di superare i tradizionali database relazionali per gestire nuove fonti informative; diventa basilare favorire l’integrazione tra i dati provenienti dai sistemi di business tradizionali (Erp, Crm) con quelli derivanti dai sensori e dai social. Senza dimenticare la fruibilità delle tecnologie di analisi da parte delle linee di business e una visualizzazione sempre più user oriented.

Figura 4: La maturità tecnologica nelle grandi imprese
Fonte: Osservatorio Big Data Analytics & Business Intelligence della School of Management del Politecnico di Milano

Dall’indagine realizzata dall’Osservatorio sulle grandi imprese risultano anche in questo caso livelli di maturità differenti, come si vede in figura 4, dove solo il 12% mostra un approccio maturo con un sistema in grado di far dialogare tecnologie tradizionali ed innovative secondo le esigenze degli specifici casi d’uso.

Entrando più nel dettaglio si evidenzia che: il 10% utilizza in modo esclusivo l’analisi esplorativa per la ricerca di pattern nascosti su grandi moli di dati; il 60% realizza un proof of concept su un sottoinsieme esplorativo di dati e una successiva estensione; il 30% utilizza entrambi gli approcci a seconda della situazione. Nelle organizzazioni più avanzate, dove sono analizzate fonti di dati eterogenee, vengono utilizzati modelli tecnologici differenti per l’analisi dei dati.

La ricerca riporta che vengono utilizzate appliance on premises (30%), cloud PaaS (27%), cloud IaaS (19%), commodity server (14%) e infrastrutture ibride (7%). Infine un capitolo a parte è dedicato alle nuove tipologie di database, che si differenziano da quelli tradizionali di tipo relazionale per la possibilità di trattare in modo efficiente anche dati di tipo destrutturato; la survey rileva che nelle grandi imprese del campione sono presenti database di tipo: column oriented (20%), document-oriented/key value (14%), ibridi (11%), real time (9%), a grafo (5%) e time series (4%).

Ricordiamo infine che sul sito degli Osservatori Digital Innovation è disponibile il report completo dell’indagine nel quale sono illustrati numerosi casi di utilizzo di tecnologie di analytics da parte di aziende in Italia.