Data quality: 9 problemi che possono far fallire i progetti di Intelligenza Artificiale

La qualità dei dati condiziona fortemente i risultati ei progetti associati all’Intelligenza Artificiale e al Machine Learning. Conoscerli e gestirli permette alle organizzazioni definire modelli vincenti

Data quality e Al sono una combinazione tecnologica indispensabile al successo di qualsiasi progetto legato all’uso più evoluto degli algoritmi. Il motivo è semplice: questo tipo di sistemi dipendono dai dati per ricavare il loro potere predittivo. A un’elevata qualità delle informazioni corrispondono capacità previsionali potenziate. A dispetto degli obiettivi però, la data quality in molti casi è una chimera.

Le organizzazioni che cercano di implementare progetti di intelligenza artificiale devono prestare attenzione. Le variabili che inficiano la qualità dei dati sono diverse ma c’è comunque un tema comune: per avere i dati nelle migliori condizioni possibili è fondamentale impostare una corretta gestione e manutenzione. Prima che i modelli di machine learning inizino i loro percorsi di apprendimento sui dati è necessario monitorare i dati raccolti, eseguendo controlli regolari sulle informazioni gestite e mantenendo i dati nel modo più preciso possibile e nel formato più corretto. Tenere sotto controllo le informazioni gestite, riduce i problemi legati alla carenza di data quality. Concetto lapalissiano ma per nulla scontato nell’operatività aziendale.

Indice degli argomenti

Data quality: come si ottiene (e si mantiene)

Esistono numerosi problemi di qualità dei dati che minacciano di far deragliare i progetti di Intelligenza Artificiale e di Machine Learning. Gli esperti ne hanno identificati 9 tra quelli più ricorrenti.

1. Dati imprecisi, incompleti e etichettati in modo improprio

I dati imprecisi, incompleti o etichettati in modo improprio sono una delle prime causa di fallimento dell’Intelligenza Artificiale. A bucare gli obiettivi di data quality possono essere informazioni errate all’origine con dati che non sono stati puliti o preparati correttamente. Un caso tipico sono i dati inseriti nei campi errati oppure a cui sono state applicate etichette sbagliate. La pulizia dei dati è un problema tale al punto da inaugurare un’intera area professionale dedicata alla preparazione dei dati. Sebbene possa sembrare un compito facile pulire dati nell’ordine dei gigabyte ragionare in petabyte o zettabyte fa capire quanto questa attività sia strategica. Gli approcci tradizionali semplicemente non sono scalabili, il che ha portato a nuovi strumenti basati sull’intelligenza artificiale per aiutare a individuare i problemi di pulizia dei dati e a risolverli.

2. Avere troppi dati

Dal momento che i dati sono un elemento cardine dell’AI, è opinione comune che quando si finalizza un progetto più dati si hanno e meglio è. Con l’apprendimento automatico può succedere invece che caricare troppi dati su un modello non sia di aiuto. Una controindicazione della data quality è che non tutti i dati che si hanno a disposizione risultano sempre funzionali alle finalità di un progetto AI. Il più delle volte una buona parte dei dati non è utilizzabile o pertinente. Il problema è che separare i dati utili da un grande set di dati è uno spreco di risorse organizzative. Inoltre, tutti quei dati extra potrebbero generare un rumore di fono che può far sì che i sistemi di apprendimento automatico apprendano dalle sfumature e dalle variazioni dei dati piuttosto che i trend generali più significativi.

3. Disporre di dati insufficienti

Anche avere troppo pochi dati può essere problematico. Sebbene l’addestramento di un modello su un piccolo set di dati possa produrre risultati accettabili in un ambiente di test, esportare il modello dalla fase di POC per caricarlo in un ambiente produzione richiede l’utilizzo di un numero più ampio di dati. Altrimenti accade che i piccoli set di dati rischiano di produrre risultati di bassa complessità, sono distorti o troppo adattati rivelandosi poco accurati quando si inizia a lavorare con nuovi dati.

4. Dati distorti

Oltre ai dati errati, un altro problema sono i dati distorti. Quali sono? Ad esempio, quelli selezionati da set di dati più ampi in modalità che non trasmettono appropriatamente il messaggio del set di dati più ampio. Un altro caso sono i dati derivati da informazioni più vecchie che potrebbero essere il risultato di alcuni pregiudizi umani. Il problema a volte è proprio nel modo in cui i dati vengono raccolti o generati che portano a un risultato finale parziale o distorto.

5. Dati sbilanciati

Ridurre al minimo o eliminare i pregiudizi dai set di dati utilizzati è una cosa che tutti dicono i voler fare. Il che è molto più facile a dirsi che a farsi. Ci sono diversi fattori che possono entrare in gioco quando si affrontano dati distorti. Un fattore di compromissione possono essere i set di dati sbilanciati che ostacolano in modo anche molto significativo le prestazioni dei modelli di machine learning. I dati sbilanciati, per esempio, inducono a una sovrarappresentazione dei dati di una comunità o gruppo mentre riducono inutilmente la rappresentazione di un altro gruppo. Un altro esempio di set di dati sbilanciato può essere trovato in alcuni approcci al rilevamento delle frodi. In generale, la maggior parte delle transazioni non sono fraudolente, il che significa che solo una piccola parte del set di dati sarà relativo a transazioni fraudolente. Poiché un modello addestrato su questi dati fraudolenti può ricevere molti più esempi da una classe rispetto a un’altra, i risultati saranno sbilanciati verso la classe con più esempi. Ecco perché è essenziale condurre un’analisi esplorativa approfondita dei dati per scoprire tempestivamente tali problemi e prendere in considerazione soluzioni che possono aiutare a bilanciare i set di dati.

6. Silos di dati

Collegato alla questione dei dati sbilanciati sono le logiche a silos. Un silo di dati è il luogo in cui solo un determinato gruppo o un numero limitato di individui in un’organizzazione ha accesso a quel cluster informativo. I silos di dati possono derivare da diversi fattori, tra cui sfide tecniche o limitazioni nell’integrazione dei set di dati, nonché problemi con il controllo dell’accesso proprietario o di sicurezza dei dati. Sono anche il risultato di guasti strutturali nelle organizzazioni in cui solo alcuni gruppi hanno accesso a determinati dati o, cosa ancora più frequente, sono legati a questioni culturali in cui la mancanza di collaborazione tra i dipartimenti impedisce la condivisione dei dati. Indipendentemente dal motivo, la compartimentazione dei dati può limitare la capacità di chi in azienda lavora su progetti di Intelligenza Artificiale che, non avendo accesso a set di dati completi, riduce la qualità dei risultati che possono essere raggiunti.

7. Dati irrilevanti

Non tutti i dati vengono creati allo stesso modo. Solo perché le informazioni vengono raccolte e archiviate non significa che vadano sempre utilizzate. La sfida è di evitare di raccogliere dati irrilevanti che non servono per l’addestramento. L’addestramento del modello su dati puliti ma irrilevanti comporta gli stessi problemi dei sistemi di addestramento su dati di scarsa qualità. Il concetto di irrilevanza dei dati fa il paio con quello di incoerenza. In molte circostanze, gli stessi record potrebbero esistere più volte in set di dati diversi ma con valori diversi, provocando incongruenze. I dati duplicati sono uno dei maggiori problemi per le aziende basate sui dati. Quando si ha a che fare con più origini dati, l’incoerenza (inconsistenza) è un grande indicatore di un problema di qualità dei dati.

8. Scarsità dei dati

La scarsità dei dati si verifica quando mancano dati o quando in un set di dati c’è una quantità insufficiente di valori attesi specifici. La scarsità dei dati può modificare le prestazioni degli algoritmi di apprendimento automatico e la loro capacità di calcolare previsioni accurate. Se questa scarsità dei dati non viene identificata, è possibile che i modelli vengano addestrati su dati rumorosi o insufficienti, riducendo l’efficacia o l’accuratezza dei risultati.

9. Problemi di etichettatura dei dati

I modelli di machine learning supervisionati (tipici del machine learning) richiedono che i dati siano etichettati con metadati corretti affinché le macchine possano ricavare informazioni approfondite. L’etichettatura dei dati è un compito difficile, che spesso richiede alle risorse umane di inserire metadati su un’ampia gamma di tipologie informative. Il che può risultare complesso e costoso. Uno dei maggiori problemi di qualità dei dati che attualmente sfidano i progetti di Intelligenza Artificiale interni è la mancanza di un’etichettatura adeguata dei dati di formazione dell’apprendimento automatico. I dati accuratamente etichettati garantiscono che i sistemi di apprendimento automatico stabiliscano modelli affidabili per il riconoscimento dei modelli, costituendo le basi di ogni progetto di intelligenza artificiale. Dati etichettati di buona qualità sono fondamentali per addestrare accuratamente il sistema di intelligenza artificiale su quali dati vengono alimentati.