Federated Learning: accesso sicuro e efficiente ai dati aziendali

Se i big data restano in mano alle big company, non è detto che le informazioni in essi custodite non possano essere trasmesse ad altri. Con il vertical federated learning è possibile farlo nel pieno rispetto della privacy e del GDPR, e provando a rispettare anche il diritto a un mercato dell’innovazione più aperto, libero e competitivo. La sfida è quella di riuscire ad applicare questa tecnica in modo adeguato al contesto business.

Avere dei dati tra le mani oggi non è un problema quasi per nessuna azienda, possedere o poter almeno accedere a quelli funzionali per il proprio business non è invece qualcosa di scontato. Dato per certo che si sappia quali sono quelli davvero utili per estrarre insights efficaci, si va incontro in alcuni casi a problemi di accesso, visibilità, posizione di mercato e privacy. Non è infatti un caso che solo realtà di una certa dimensione riescano a fare alcuni “ragionamenti” strategici. Le altre non sono meno in grado: semplicemente non hanno lo stesso quadro davanti agli occhi quando compiono le proprie valutazioni.

Questo è solo un esempio di come il tema dati sia molto meno banale di quanto non sembri e ancora contenga forti elementi di “disparità”. Problemi che impattano sulla libera competitività e, in seconda battuta, sugli utenti finali, sia B2B, sia B2C. Si può prendere di petto la questione, imboccando la strada della “lotta ideologica”, oppure optare per la ricerca di una soluzione tecnologica.

Indice degli argomenti

Dai dati ai derivati: questioni di privacy

La “chiave” per liberare le informazioni estraibili da dati oggi “solo per pochi” già esiste. Si tratta del federated learning ed è una tecnica di machine learning basata su un utilizzo dei dati in forma distribuita che non ne prevede lo scambio. Restano dove sono e si sfruttano dei “derivati”, ottenendo gli stessi effetti dal punto di vista degli insights.

“Per avere una visione più ampia di un contesto, da sempre si punta a far convergere informazioni da più fonti ma andando incontro spesso a problemi di privacy, se non si è i proprietari dei dati. Il risultato è che solo i più ‘grandi’ riescono a beneficiare dell’accesso ad ampi ed esaurienti database. Un’architettura federata riesce a risolvere il problema senza alcuna violazione della privacy e del GDPR: lasciando i dati dove sono, ne ricavo dei derivati ‘in loco’ e sposto quelli” spiega Fabio Manola, co-founder e head of operations di Fantix.

Per applicare questa tecnica, si utilizzano dei modelli direttamente dove sono conservati i dati, ricavando di volta in volta la tipologia di derivati più adeguata. “Posso sfruttare diverse strutture probabilistiche, nella maggior parte dei casi finora realizzati si utilizza però la crittografia omomorfica, una scelta estremamente sicura ma inefficiente dal punto di vista computazionale” aggiunge Manola. “Non conviene se la quantità di dati è abbondante, anche in termini di tempo, oltre che di sostenibilità economica”.

Big data ai big, informazioni a tutti

Quest’ultima “notazione” ha portato molte aziende a mettere una croce sopra all’opzione federated learning. Se in ambito accademico, si opera spesso con dataset di dimensioni ragionevoli, nel business parlare di dati significa parlare di “big data”, di quantità di dati teoricamente non compatibili con questa tecnica “distribuita”. Questo non vale in generale, ma solo in alcuni casi, crittografia omomorfica compresa. Con questa opzione, inoltre, come spiega Manola, “è vero che si impedisce ai vari collaboratori nella federazione di leggere i dati altrui, ma il dato puntuale – seppur crittografato – viene comunque trasmesso ed esposto”.

I vantaggi non mancano, però, e il principale riguarda la precisione. “Lavorando su dati puntuali, infatti, i margini di errore nella creazione di un modello sono estremamente ridotti” precisa Manola. “Sono i costi computazionali spesso enormi e la complessità estrema della struttura a richiedere troppe risorse per poter parlare di tecnica accessibile a tutti”.

Da questa impasse, se ne esce solo se non si spostano i dati, crittografati o meno, ma solo le informazioni che chi li cerca vorrebbe ricavarne, nel formato più “leggero” possibile. Fantix lo rende possibile sostituendo alla crittografia l’astrazione, quindi trasformando i dati puntuali in una rappresentazione probabilistica dell’insieme. “Questo consente di trasmettere un’informazione aggregata e anonima evitando a priori ogni rischio di compromissione del dato puntuale. Non abbiamo eliminato la crittografia – precisa Manola – ma la applichiamo al derivato prima di trasmetterlo, rendendola un procedimento veloce perché effettuata su una sintesi del database anziché su ogni sua riga”.

Questo permette a Fantix di offrire la sicurezza del dato, anche dei big data, ma a costi esponenzialmente inferiori. “L’unica limitazione da tener presente è legata alla precisione: il machine learning su rappresentazioni probabilistiche è un esercizio statistico – spiega Manola – sui grandi numeri i modelli sono affidabili ed efficaci quanto quelli formati su dati puntuali, altrimenti si rischiano margini di errore troppo ampi”.

Staccando lo sguardo dagli algoritmi di machine learning e di crittografia e abbracciando una visione più olistica dell’ecosistema dell’innovazione, si riconoscono le premesse per una democratizzazione dell’accesso alle informazioni legate ai big data. “Puntando sul processo di abstraction, diventa possibile anche per player medio-piccoli per i quali un processo basato sulla crittografia omomorfica non è realisticamente fattibile”.

Più accesso agli insights, più menti che innovano

Far sì che l’innovazione diventi alla portata di tutti è la principale mission che ha spinto il team di Fantix a “giocare” con il federated learning, fino a sbloccarne il valore anche in ambito aziendale. Rendendolo quindi fruibile per tutti, anche se applicato ai big data.

“Con il nostro approccio, i dati degli utenti non vengono esposti: in pieno rispetto del GDPR, le aziende che hanno i dati possono evitare di cederli, ma non devono rinunciare a monetizzarli – spiega Manola – e le aziende terze possono accedere alle informazioni che servono loro per fare business, tramite derivati”.

Far sì che anche le realtà più piccole o meno potenti possano sfruttare il valore di big data non di loro proprietà, in piena sicurezza e rispetto della privacy, rappresenta un guadagno per la società tutta, oltre che per il loro bilancio aziendale. Il mercato in cui operano diventa con esse più competitivo, a beneficio dell’utente finale, ma è soprattutto l’ecosistema dell’innovazione che, a lungo andare, può trarne vantaggio. Se oggi l’evoluzione tecnologica è in mano ancora a pochi big, quella dell’AI e dell’AI generativa compresa, con un approccio come quello del federated learning, si allarga notevolmente il cerchio di coloro che potranno contribuire. Più cervelli, significa più idee ma, anche e soprattutto, più confronto quindi forse anche idee migliori.

Sognando di portare fedelmente a termine la propria mission, Fantix sta proponendo il proprio “stile” di vertical federated learning per big data su alcuni mercati più ricettivi e interessati. Quello dei retail media network, per esempio, che necessitano di informazioni per affinare la qualità delle campagne di marketing che propongono. “Per i clienti non-big, senza molti dati, poter lavorare con insights ricavati con Fantix rappresenta un cambio di passo notevole” spiega Daniel Mori del team marketing di Fantix. E poi cita le assicurazioni vita, nel contesto statunitense, “a cui contiamo di risolvere almeno parzialmente il problema legato al costo dei dati che servono per i loro modelli di machine learning”.

Un altro settore che guarda con curiosità all’opzione che Fantix sta presentando è quello dell’e-commerce. “Ha bisogno di dati per le campagne, ma ci sono spesso aziende con team IT piccoli che faticano a muoversi velocemente di fronte alle innovazioni” racconta Mori, rifacendosi all’esperienza degli ultimi mesi. Proprio per questo, i “next step” tecnologici sono tutti legati alla creazione di modelli, “per andare incontro a chi è interessato ma non ha competenze interne per realizzarli e poter poi utilizzare il nostro approccio”. Il loro business ha rilevato una sorta di barriera architettonica, la vogliono abbattere in prima persona: resta sempre una questione di accessibilità e democratizzazione.