Quantità vs qualità delle informazioni nella Advanced Analytics

Il percorso verso la data-driven company non è affrontabile senza dati in quantità e di qualità. Tuttavia, sia la dimensione quantitativa che quella qualitativa implicano sfide da affrontare per ottenere risultati soddisfacenti.

Andare oltre le capacità della Business Intelligence tradizionale è una grande sfida per le aziende che hanno intrapreso il percorso verso la data-driven company. Adottare modelli avanzati di analisi permette infatti alle organizzazioni di comprendere meglio il proprio business e, soprattutto, di proiettare tendenze future e prevedere risultati potenziali, con tutte le conseguenze sui processi decisionali strategici e operativi. La capacità predittiva, tipica dell’Intelligenza Artificiale, diventa così un fattore di differenziazione e un vantaggio competitivo; e ciò spiega le previsioni rosee del mercato degli Advanced Analytics, che dai 33,8 miliardi di dollari del 2021 potrebbe posizionarsi a 89,8 miliardi nel 2026, corrispondenti a un CAGR del 21,6% (Fonte: MarketsandMarkets™).

Posto che ogni ambito di applicazione ha peculiarità, esigenze e anche un livello di maturità differente, nel 2022 i dati sono pervasivi, e questo sta estendendo gli Advanced Analytics da contesti e applicazioni più circoscritte – come la manutenzione predittiva nel manufacturing – a scenari più ampi e pervasivi: si consideri, a titolo d’esempio, il successo delle customer data platform con cui le aziende B2C cercano la massima personalizzazione del rapporto con il cliente.

A prescindere dal settore e dello use case, l’attendibilità e l’efficacia degli Advanced Analytics dipendono fortemente sia dalla quantità che dalla qualità dei dati che alimentano i modelli di analisi. In questa sede, con l’aiuto di Roberto Verdelli, Advanced Analytics Practice Manager, ci soffermiamo proprio sulle dimensioni quantitativa e qualitativa dei dati, evidenziandone l’impatto sulla capacità predittiva degli Advanced Analytics e cercando quel bilanciamento perfetto in grado di garantire risultati di qualità e costi sotto controllo.

Indice degli argomenti

Impossibile fare previsioni senza grandi volumi di dati

La quantità di dati è un fattore fisiologico. I volumi, che sono centrali nel paradigma Big Data, aumentano in modo direttamente proporzionale alla crescita del business, delle sorgenti dati, dei clienti, dei prodotti, dei fornitori e via dicendo. Grandi volumi di dati sono fondamentali per il training dei modelli, e quindi la “quantità” è il punto di partenza su cui costruire una capacità analitica in grado di raggiungere l’approccio predittivo.

Tuttavia, la quantità è un fattore da controllare con attenzione, poiché non necessariamente – o non da sola – garantisce risultati, ma di sicuro garantisce un costo. Per prima cosa, Verdelli ci fa notare quanto una base dati ampia non significhi poter prevedere qualsiasi fenomeno. L’esempio è quello dell’emergenza sanitaria: “La pandemia ci ha consegnato enormi volumi di dati e informazioni relative al Covid. Ognuno si aspetterebbe di poter fare previsioni molto attendibili miscelando semplicemente alcuni parametri, ma in realtà questo non accade. Il fatto di non poter fare determinati tipi di previsioni quando tutto il mondo sta studiando questi dati è indicativo del fatto che oggi, per ottenere previsioni attendibili, la prima cosa da fare è circoscrivere il tema e l’obiettivo dell’analisi”.

Traslando il discorso nell’universo aziendale, le organizzazioni devono quindi capire fin dove si possono spingere con le analisi predittive: il fatto che aumentino i dati, così come la potenza di calcolo e le capacità analitiche non significa che si possa prevedere qualsiasi fenomeno o esito rilevante per il business.

Inoltre, ragionare puramente in termini di quantità solleva un tema economico. Le aziende, infatti, adottano ambienti cloud ed è fondamentale che valutino i costi non tanto sulla quantità di dati in senso assoluto, ma sui volumi che vengono continuamente elaborati e gestiti. In altri termini, eseguire continue query su immensi volumi di dati può avere un forte impatto sui costi e, soprattutto, sulla capacità di governarli.

La qualità è più rilevante della quantità

“La qualità dei dati è certamente più rilevante della quantità – sostiene Verdelli –. Nell’era pionieristica dei Big Data abbiamo visto raccogliere immensi volumi che alla fine non sono risultati utili, proprio perché a monte non era prevista una progettazione in grado di comprendere la qualità del dato e la rispondenza all’uso che se ne voleva fare”.

Il tema della data quality assume quindi un ruolo primario negli Advanced Analytics, poiché – va da sé – lasciare attività previsionali a un sistema basato su dati di scarsa qualità può avere conseguenze devastanti per qualsiasi organizzazione. Eppure, ci spiega Verdelli, le informazioni provenienti dagli Stati Uniti non sono positive, poiché parrebbe che il 59% delle aziende non misuri la data quality e quindi ci sia ancora molto da lavorare in tal senso.

Le aziende sono incentivate a intraprendere un approccio strutturato per la data quality non soltanto per gli esiti del percorso stesso, ma anche per i costi. “Concentrandoci sulla qualità otteniamo un’ottimizzazione dei costi perché, per definizione, il dato di qualità ha meno ridondanze, errori e duplicazioni. Indirettamente, l’attenzione alla qualità finisce per essere attenzione alla quantità”.

Il tema diventa quindi un altro, più complesso: come si misura la data quality? Secondo Verdelli, tutto passa da dalla capacità di definire e adottare un approccio strutturato per la qualità del dato, che logicamente comprende alcune fasi. Prima fra tutte è la definizione delle direttrici, cioè la scelta delle metriche che descrivono la data quality. Questa, infatti, si misura su una serie molto ampia di dimensioni e attributi, ma non tutti sono significativi per il business: precisione del dato, consistenza (assenza di conflitti tra gli stessi dati presenti in sistemi o dataset diversi) e completezza, ma anche parametri più legati al business come la rilevanza o fattori maggiormente operativi come l’accessibilità e l’aggiornamento del dato.

Selezionate le metriche più significative (che non devono essere tutte), occorre poi effettuare attività di profilazione del dato di modo tale che diventi omogeneo con le metriche identificate e permetta di analizzare i risultati che ne derivano.

Oltre alla misurazione della qualità, per quanto complessa essa sia, Verdelli pone l’accento su altri temi che le aziende devono affrontare nel percorso verso la data-driven company: innanzitutto, come migliorare la qualità degli immensi volumi di dati esistenti evitando di aggiungere debito su debito, e poi come definire un processo di mantenimento della qualità del dato, comprensivo di attività scadenzate e di indicatori precisi cui riferirsi.

Tutto ciò crea un vero e proprio ecosistema di sfide tecniche e manageriali, da cui l’azienda non può sottrarsi e che in qualche modo – da sé o con l’ausilio di partner di riferimento – deve vincere. Un suggerimento? Valutare la presenza in azienda di tutte le professionalità adeguate, partendo dal Chief Data Scientist.