I data engineer si trovano di fronte a un paradosso: costruire modelli di intelligenza artificiale efficaci richiede una grande quantità di dati, ma l’accesso ai dati reali è sempre più limitato da vincoli legati alla privacy, alla sicurezza e alla normativa.
I dati sintetici sono creati artificialmente, anziché raccolti in situazioni reali. Sono fondamentali in settori sensibili e attenti alla privacy, o quando i set di dati reali sono limitati. Per data scientist e ingegneri AI, i dati sintetici sono uno strumento che può migliorare significativamente le prestazioni e l’affidabilità di modelli e pipeline di dati.
Tuttavia, questo approccio presenta sfumature e rischi. Anche se i dati non sono reali, sorgono comunque questioni etiche, di governance e di qualità, come spiegano gli esperti di TechTarget.
Indice degli argomenti
Dati reali e sintetici, il trade off
I dati reali riflettono la complessità che stiamo vivendo: irregolarità, stagionalità, imprevedibilità. Sebbene la raccolta di dati reali sia concettualmente semplice, è spesso complessa nella pratica.
È costosa e richiede tempo, soprattutto in scenari nuovi. Ottenere il permesso per raccogliere dati reali in settori regolamentati può richiedere settimane o addirittura non essere possibile. Ottenere il consenso, garantire la sicurezza dei dati e rispettare normative come GDPR o HIPAA aggiunge ulteriori livelli di complessità.
Un altro problema è il BIAS nei dati reali. Questi possono riflettere pattern esistenti non più appropriati. Ad esempio, donne o minoranze potrebbero essere sottorappresentate in alcuni set di dati assicurativi obsoleti. Anche dati meno controversi, come quelli raccolti da operatori telefonici, riflettono pattern di utilizzo di piani e dispositivi non più attuali. I modelli addestrati su questi dati rischiano di perpetuare o amplificare tali distorsioni.
In alcuni casi, i dati reali possono essere limitati, rendendo difficile modellare eventi rari. Ad esempio, un modello di allerta frodi potrebbe non avere abbastanza esempi di frode per un addestramento efficace.
In questi scenari, i dati sintetici offrono controllo totale sul processo di generazione, permettendo la creazione di set di test che includano casi limite assenti nei dati reali.
Generazione di dati sintetici
I dati sintetici si suddividono in due categorie principali:
- Dati completamente sintetici: creati da zero tramite algoritmi o modelli generativi come le GAN (Generative Adversarial Networks, classe di modelli di intelligenza artificiale basati su deep learning che permettono di generare dati sintetici realistici basandosi su 2 reti neurali che si “sfidano” in un processo competitivo) o gli autoencoder variazionali (simili alle GAN ma con un approccio più probabilistico).
- Dati parzialmente sintetici: ottenuti sostituendo solo gli attributi “sensibili” nei set di dati reali.
Le tecniche di generazione dei dati sintetici si sono evolute in modo significativo. I modelli iniziali si basavano su sistemi basati su regole e metodi statistici di base. I set di dati campione disponibili in elenchi o DB specifici utilizzavano regole semplici per definire intervalli di valori e pattern all’interno di una colonna.
Oggi vengono usati metodi più avanzati, che si basano su questi approcci iniziali.
I metodi più semplici includono il campionamento casuale da distribuzioni statistiche che riflettono le caratteristiche dei dati originali. Gli approcci più complessi, come la modellazione basata su agenti, simulano il comportamento di singoli agenti (es. clienti) che generano dati nel sistema.
La vera innovazione è arrivata con il deep learning. Le GAN operano facendo competere due reti neurali: una genera dati sintetici, l’altra cerca di distinguerli da quelli reali. Col tempo, i dati sintetici iniziano a “imitare” la distribuzione statistica dei dati reali. Questo metodo può replicare pattern complessi come l’abbandono dei clienti, il comportamento di navigazione, le sequenze di transazioni e via dicendo.
È fondamentale che i dati originali siano rappresentativi dell’ambiente reale. Il modello generativo non distingue tra segnali utili e “rumore”, a meno che non venga guidato. Perciò, validare la qualità dei dati campione originali è un passaggio essenziale.
Governance e dati sintetici
I dati completamente sintetici possono essere molto utili per la governance dei dati in conformità con normative come il GDPR: nel caso di anagrafiche, ad esempio, non corrispondendo a individui reali, viene meno il rischio.
Oltre alle tecniche completamente sintetiche, i metodi parzialmente sintetici come la privacy differenziale aggiungono “rumore” calibrato per proteggere i record individuali mantenendo le proprietà statistiche.
Ad esempio, la privacy differenziale può modificare una data di nascita aggiungendo o sottraendo un numero casuale di giorni. Il risultato non è più identificabile, ma rimane sufficientemente vicino per la maggior parte delle analisi e dei modelli predittivi.
Queste tecniche richiedono comunque una supervisione rigorosa e non devono essere considerate una scorciatoia per la conformità. Anche i dati sintetici sono soggetti a controlli organizzativi, come la gestione degli accessi e il tracciamento della provenienza dei dati. Nelle analisi delle dashboard, i metadati devono indicare chiaramente cosa è reale, cosa è sintetico e come è stato generato.
Integrazione tra dati sintetici e reali
Un metodo efficace è un processo iterativo: iniziare con un set ridotto di dati reali per generare record sintetici e addestrare modelli iniziali. Poi, validare i modelli con dati reali e perfezionare la generazione sintetica in base ai risultati.
La documentazione chiara è essenziale, soprattutto in ambiti critici come finanza e sanità.
È altrettanto importante valutare rigorosamente se i dati sintetici preservano le proprietà statistiche dei dati sorgente e se introducono distorsioni. La somiglianza statistica non basta: i dati devono avere senso per chi conosce il business.
Fase | Fonte primaria di dati | Fonte secondaria | Approccio di validazione |
Ricerca / esplorazione | Dati reali | Dati sintetici per colmare le lacune | Confronto statistico tra distribuzioni |
Sviluppo iniziale | Dati sintetici | Campioni reali come riferimento | Validazione periodica con dati reali |
Test di sistema | Dati sintetici | – | Generazione controllata di casi di test |
Addestramento del modello | Ibrido (reale + sintetico) | – | Cross-validazione su entrambe le fonti |
Validazione pre-produzione | Dati reali (subset o set di controllo) | – | Metriche di performance solo su dati reali |
Monitoraggio in produzione | Dati reali | – | Monitoraggio continuo delle prestazioni nel mondo reale |
Limitazioni dei dati sintetici
In pratica, i dati sintetici sono affidabili solo quanto i modelli e le assunzioni su cui si basano. Se la comprensione del fenomeno target è incompleta o errata, tali limiti si rifletteranno nei dati sintetici e nei sistemi costruiti su di essi.
Esiste anche il rischio che i dati sintetici non colgano correlazioni inattese o pattern sottili del mondo reale.
Queste limitazioni emergono quando si distribuiscono modelli addestrati su dati sintetici. A volte i modelli funzionano bene in ambienti controllati, ma faticano con la complessità dei dati reali.
Per la previsione, i dati reali sono preferibili se sono disponibili, conformi e rilevanti.
La simulazione di scenari ipotetici, come un nuovo segmento di mercato, spesso manca di dati storici. Qui i dati sintetici possono funzionare molto bene. Un approccio efficace è addestrare modelli su dati reali e poi testarli con dati sintetici, simulando eventi come crisi finanziarie, disastri climatici o fenotipi rari.
Alcuni critici sottolineano che un uso eccessivo dei dati sintetici può creare una falsa sensazione di sicurezza. Se si prendono decisioni che influenzano la vita delle persone basandosi su modelli addestrati su dati sintetici, come si può essere certi che siano equi e affidabili?
È una preoccupazione valida. I dati reali offrono autenticità e catturano la complessità del mondo, ma comportano sfide: incompletezza, BIAS, rischi per la privacy e oneri normativi che i dati sintetici possono aiutare a mitigare.
Casi d’uso e modelli industriali
Diversi settori utilizzano già i dati sintetici in modi pratici e specifici.
- Finanza: i dati sintetici sulle transazioni permettono la collaborazione sicura tra istituzioni, migliorando i modelli di rilevamento frodi senza esporre dati sensibili.
- Sanità: i dati sintetici hanno accelerato lo sviluppo dell’AI. L’addestramento su cartelle cliniche sintetiche consente la progettazione di algoritmi senza compromettere la privacy. Sono stati creati TAC e risultati di laboratorio sintetici per malattie rare, a supporto della ricerca farmaceutica.
- Veicoli autonomi: i dati sintetici di simulazione sono fondamentali per testare scenari rari e pericolosi, come incidenti o comportamenti pedonali rischiosi. Questi test sono cruciali per la sicurezza, ma sarebbe eticamente inaccettabile ricrearli.
Quando usare dati sintetici o reali?
Scenario | Dati sintetici | Dati reali | Note |
Eventi rari / casi limite | Preferibile: genera migliaia di casi limite rapidamente | Limitato: potrebbero servire anni per raccogliere campioni sufficienti | Usare i dati sintetici per integrare. Validarli con campioni reali quando disponibili. |
Applicazioni sensibili alla privacy | Preferibile: conformità normativa, minimizzazione dei dati | Alto rischio: esposizione di informazioni personali, vincoli normativi | Documentare il processo di generazione sintetica per garantire tracciabilità. |
Test di sistema / pipeline | Preferibile: scenari di test controllati e ripetibili | Rischioso: potrebbe esporre dati di produzione in ambienti di test | I dati sintetici permettono test sicuri senza accedere ai dati di produzione. |
Addestramento del modello (iniziale) | Buono: iterazione rapida, etichettatura perfetta | Essenziale: verità di base, distribuzioni reali | Partire dalla comprensione dei dati reali, integra con dati sintetici. |
Validazione del modello (finale) | Insufficiente: potrebbe non cogliere la complessità del mondo reale | Necessario: unico modo per verificare le prestazioni effettive | Non distribuire modelli senza validazione su dati reali. |
Prototipazione di dashboard | Preferibile: non serve accesso ai dati di produzione | Vincoli di accesso: potrebbe rallentare lo sviluppo | Usare dati sintetici per la progettazione, passa ai dati reali per il rilascio. |