how to

Senza qualità del dato non c’è AI: una guida alla data strategy

L’80% di un progetto di data science riguarda la preparazione dei dati. Come affrontare assessment, pulizia, superamento dei silos e definizione di KPI per un’AI sostenibile e misurabile.

Pubblicato il 28 feb 2026

Giancarlo Nugnes

Valutare la maturità dei dati e garantire la qualità del dato come prerequisito: data cleaning, standardizzazione e gestione dei dati non strutturati sono fondamentali prima di qualsiasi progetto di AI.
Progettare architetture abilitanti e scalabili (es. data lake house) e adottare un modello di cloud ibrido per bilanciare performance, costi, sicurezza e abbattere i silos informativi.
Istituire governance e tracciabilità (data lineage), definire ruoli chiari come Data Owner e Data Steward, promuovere competenze data-driven e misurare l’impatto con KPI e progetti pilota.

Riassunto generato con AI

Prima di lanciare iniziative complesse di AI, è fondamentale effettuare un’analisi onesta e approfondita della propria maturità dei dati. Questo processo di assessment permette di identificare punti di forza, debolezze e aree prioritarie di intervento.

Molte organizzazioni sovrastimano la loro preparazione, scoprendo solo in fase di implementazione che i loro dati non sono adeguati allo scopo. Una valutazione preventiva aiuta a definire un percorso realistico, stabilendo le basi necessarie per supportare algoritmi di machine learning e altre applicazioni di intelligenza artificiale.

Indice degli argomenti

Qualità del dato come prerequisito tecnologico

Un vecchio mantra dell’informatica, “garbage in – garbage out”, è oggi più attuale che mai. Non è importante quanto sia sofisticata la macchina o l’algoritmo; tutto dipende dalla qualità e dalla sicurezza scientifica dei dati di ingresso. Dati scorretti producono risultati di nessun valore, a volte perfino pericolosi se portano a processi decisionali errati.

La qualità del dato non è un aspetto secondario da considerare a valle, ma il vero e proprio prerequisito tecnologico su cui si fonda l’intera impalcatura dell’AI. Il che pone l’accento su varie questioni.

Data quality e cultura del dato: il data manager al centro della trasformazione AI

Pulizia e standardizzazione dei dataset

La preparazione dei dati è un’attività che può richiedere fino all’80% del tempo in un progetto di data science. Questo processo, noto come data cleaning e standardizzazione, è fondamentale per garantire che gli algoritmi operino su una base informativa solida. Include attività come la correzione di errori e imprecisioni, la gestione dei valori mancanti, la rimozione di duplicati e l’armonizzazione dei formati. Standardizzare i dati significa assicurarne la coerenza e la comparabilità, elementi essenziali perché i modelli di AI possano identificare pattern significativi e generalizzare correttamente.

In questo senso, il metodo LIMA (Less Is More for Alignment) sta diventando un’alternativa interessante a RLHF (Reinforcement Learning from Human Feedback) per allineare i modelli linguistici al comportamento desiderato. Al contrario di RLHF che si basa su un dataset di enormi dimensioni (è lo standard usato da ChatGPT, Claude, ecc), LIMA parte da un modello già pre-addestrato con 1.000 esempi supervisionati di alta qualità. Secondo alcuni studi, le risposte di LIMA sono state giudicate equivalenti o migliori di GPT‑4 nel 43% dei casi. I vantaggi? Costi ridotti e facilità di applicazione a modelli open source.

Gestione dei dati non strutturati

Oggi, una porzione sempre crescente dei dati aziendali è di tipo non strutturato: testi, immagini, video, audio, email, post sui social media. Questi dati contengono insight preziosissimi, ma la loro analisi richiede tecniche di AI più avanzate, come il Natural Language Processing (NLP) e la Computer Vision.

Per sfruttare questo potenziale, è necessario implementare pipeline di dati in grado di acquisire, processare ed etichettare queste informazioni, trasformandole in un formato che i modelli di machine learning possano comprendere e utilizzare per le loro previsioni e analisi.

Superare i silos informativi

Uno degli ostacoli più comuni all’efficacia di una strategia dati è la frammentazione delle informazioni in silos. Dati isolati all’interno di singoli dipartimenti o sistemi legacy impediscono di avere una visione d’insieme e limitano drasticamente il potenziale dell’AI.

Gli algoritmi di intelligenza artificiale, specialmente quelli più avanzati, traggono valore dalla capacità di incrociare e analizzare grandi volumi di dati eterogenei. Abbattere i silos non è solo una sfida tecnologica, ma anche un cambiamento organizzativo che richiede collaborazione interfunzionale e una visione condivisa del dato come asset strategico aziendale.

Le architetture abilitanti

Per supportare efficacemente l’intelligenza artificiale, le architetture dati tradizionali spesso non sono più sufficienti. Un’architettura dati abilitante per l’AI deve essere progettata per democratizzare l’accesso ai dati, facilitare la sperimentazione rapida e supportare il ciclo di vita completo dei modelli di machine learning, dalla fase di sviluppo a quella di produzione e monitoraggio.

Dal data warehouse al data lake house

L’evoluzione delle architetture dati ha visto il passaggio dai tradizionali data warehouse, ottimizzati per dati strutturati e analisi di business intelligence, ai data lake, capaci di immagazzinare enormi volumi di dati grezzi di qualsiasi formato. L’approccio più recente e promettente è il data lake house, un’architettura ibrida che combina la flessibilità e la scalabilità del data lake con le funzionalità di gestione, performance e ACIDità (Atomicità, Consistenza, Isolamento, Durabilità) del data warehouse. Questo modello unificato permette di supportare sia le analisi BI tradizionali sia i carichi di lavoro di data science e machine learning sulla stessa piattaforma, riducendo la complessità e la duplicazione dei dati.

Ruolo del cloud ibrido

Il cloud gioca un ruolo fondamentale nel fornire la potenza di calcolo e lo storage necessari per l’AI. Un approccio di cloud ibrido, che combina risorse di cloud pubblico e privato, offre alle aziende il giusto equilibrio tra scalabilità, costi, sicurezza e conformità.

Il cloud pubblico permette di accedere a servizi di AI all’avanguardia e a una capacità computazionale virtualmente illimitata per l’addestramento di modelli complessi. Allo stesso tempo, un ambiente privato on-premise può essere necessario per ospitare dati sensibili o per garantire basse latenze in applicazioni critiche, creando un’infrastruttura agile e resiliente.

Governance specifica per algoritmi e dati

Con l’aumentare dell’uso dei dati e dell’AI, la governance diventa un tema non solo di conformità, ma di fiducia e sostenibilità. Una governance efficace assicura che i dati siano gestiti in modo sicuro, etico e trasparente per tutto il loro ciclo di vita. Per l’AI, questo si estende anche agli algoritmi, che devono essere monitorati per garantirne l’equità, la trasparenza e la spiegabilità (Explainable AI), evitando bias e decisioni discriminatorie.

Tracciabilità e lineage del dato

La tracciabilità del dato, o data lineage, è la capacità di mappare l’intero percorso di un dato: dalla sua origine, attraverso tutte le trasformazioni subite, fino al suo utilizzo finale in un report o in un modello di AI. Questa visibilità è importante per diversi motivi: permette di validare l’affidabilità dei risultati, semplifica il debugging in caso di errori e rende più facili gli audit di conformità normativa, come quelli richiesti dal GDPR.

Ruoli e responsabilità nel ciclo di vita

Una solida governance dei dati richiede la definizione chiara di ruoli e responsabilità. Figure come il Data Owner (responsabile strategico di un dominio di dati), il Data Steward (responsabile della qualità e della gestione operativa) e il Data Custodian (responsabile dell’infrastruttura tecnica) sono essenziali per creare un framework di accountability. Questo assicura che ci sia sempre qualcuno responsabile per la qualità, la sicurezza e l’utilizzo appropriato dei dati, promuovendo una gestione consapevole e controllata dell’asset informativo aziendale.

Competenze e cultura data-driven

Le migliori tecnologie e la governance più solide risultano inefficaci senza le persone giuste e una cultura aziendale che valorizzi il dato. La trasformazione verso un’organizzazione data-driven è primariamente un cambiamento culturale che coinvolge tutti i livelli aziendali. Richiede la diffusione di una mentalità analitica, l’incoraggiamento della curiosità e della sperimentazione, e l’investimento costante nella formazione del personale.

Data driven decision making: i sei passi per una strategia aziendale vincente

Upskilling dei team IT esistenti

L’avvento dell’AI richiede un’evoluzione delle competenze, soprattutto all’interno dei team IT e di data science. Non si tratta solo di acquisire nuove conoscenze tecniche su algoritmi o piattaforme, ma di sviluppare un approccio più strategico e orientato al business.

È necessario investire in percorsi di upskilling e reskilling per formare figure professionali ibride, capaci di comprendere sia la tecnologia sia le esigenze di business, e di fungere da traduttori tra questi due mondi. L’approccio non è più solo di aggiornamento (skill gap), ma di una riqualificazione profonda (re-training strutturale).

Collaborazione tra data scientist e business

Il successo dei progetti di AI dipende strettamente da una collaborazione efficace tra i team tecnici (data scientist, data engineer) e le linee di business. I data scientist hanno bisogno del contesto e della conoscenza di dominio forniti dagli esperti di business per formulare le giuste domande e interpretare correttamente i risultati.

A loro volta, gli utenti di business devono comprendere le potenzialità e i limiti dell’AI per identificare i casi d’uso a maggior valore. Creare team interfunzionali e processi di lavoro agili è la chiave per sviluppare soluzioni di AI che rispondano a problemi reali e generino un impatto misurabile.

Adozione dell’AI: cosa pensano i CIO (e l’Italia è in prima fila)

Roadmap implementativa e KPI

Una strategia dati per l’AI deve tradursi in un piano d’azione concreto, una roadmap implementativa che parta da obiettivi realistici per arrivare a risultati tangibili. Questo percorso deve essere guidato da Key Performance Indicator (KPI) chiari, che permettano di misurare i progressi e di dimostrare il valore generato dalle iniziative in modo oggettivo e quantificabile.

Definire progetti pilota ad alto impatto

Invece di puntare a una trasformazione radicale e immediata, l’approccio migliore è quello di iniziare con progetti pilota circoscritti, focalizzati su casi d’uso specifici e ad alto potenziale di impatto. Un progetto pilota di successo non solo permette di testare tecnologie e processi in un ambiente controllato, ma serve anche a creare momentum, a dimostrare il valore dell’AI al resto dell’organizzazione e a ottenere il buy-in necessario per iniziative più ampie.

Identificare un problema di business chiaro e misurabile.
Assicurare la disponibilità e la qualità dei dati necessari.
Coinvolgere fin da subito un team interfunzionale (IT, data science, business).
Definire metriche di successo chiare e condivise.
Comunicare i risultati in modo trasparente per costruire fiducia e supporto.

Misurare il successo della strategia

Il successo di una strategia dati per l’AI va misurato sia con metriche tecniche sia con KPI di business. Le metriche tecniche possono includere l’accuratezza dei modelli, i tempi di elaborazione o la riduzione degli errori manuali.

Tuttavia, il vero valore si misura attraverso l’impatto sul business: riduzione dei costi operativi, aumento dei ricavi, miglioramento della customer satisfaction, ottimizzazione della supply chain o riduzione del turnover del personale.

Associare ogni iniziativa di AI a un KPI di business specifico è importante (ma non facile) per giustificare gli investimenti e per guidare le decisioni future, assicurando che la strategia dati rimanga sempre allineata agli obiettivi aziendali.

@RIPRODUZIONE RISERVATA