Scoperta backdoor universale: ora tutti possono avvelenare modelli di immagini

Grazie al lavoro di tre ricercatori informatici canadesi è stata fatta una scoperta che potrebbe finalmente portare all’attenzione di tutti il pericolo di avvelenamento dei data set di immagini destinati a modelli AI. Sarebbero riusciti a realizzare una backdoor universale grazie alla trasferibilità dell’avvelenamento tra classi tanto facilmente da rendere accessibile a tutti questo tipo di attacco. Accessibile, e decisamente anche a buon prezzo

Pubblicato il 02 Feb 2024

Immagine di Thanadon88 su Shutterstock

Nel gran parlare che si fa di intelligenza artificiale, modelli LLM (Large Language Model) e generazione di testi e immagini da data set, il tema degli attacchi tramite avvelenamento dei dati è rimasto di nicchia. Sembra che interessi solo il mondo accademico e pochi altri, come fosse una sorta di esercizio di stile con cui allenare le proprie capacità. Intanto, le tecniche si stanno evolvendo e diffondendo. Ora che paiono in grado di creare danni anche in settori sensibili come la sicurezza, ci si augura che arrivino maggiori investimenti e aumenti l’attenzione anche da parte delle aziende e delle istituzioni.

È necessario fare sul serio. Uno scossone decisivo potrebbe arrivare con la scoperta fatta da tre informatici canadesi dell’Università di Waterloo che hanno escogitato una “backdoor universale” per i modelli di immagine capace di causare allucinazioni.

Indice degli argomenti

Avvelenamento data set immagini: tante opzioni a buon prezzo

Se verificato, ciò che hanno illustrato nel documento pre-print intitolato “Universal Backdoor Attacks” si può tradurre col fatto che ora l’avvelenamento dei dati è aperto a tutti. Una svolta, per i criminali e per chi sarebbe chiamato a difendersi da questo pericolo.

Finora si credeva che gli attacchi backdoor ai sistemi di classificazione delle immagini potessero colpire solo classi specifiche di dati facendo in modo che il modello AI classificasse un segnale di stop come un paletto di riferimento. Anche il lavoro di ricerca e prevenzione, quindi, si focalizzava sulla pericolosità di modelli di piccole dimensioni per una classe specifica di cose.

Gli scenari di attacco a cui ci si può aspettare di assistere, uno peggio dell’altro, sono da sempre principalmente tre. Una strategia in cui ci si può imbattere di frequente consiste nella pubblicazione di una serie di immagini online perché possano essere intercettate da un crawler, avvelenando così il modello creato nel momento in cui ne ingerisce una certa quantità. Un’altra opzione possibile consiste nell’alimentare con immagini ad hoc un modello per poi distribuirlo attraverso un archivio di dati pubblico o a un anello della supply chain. Più complessa, ma non per questo trascurata, la tattica che prevede l’identificazione di immagini in set di dati noti e l’acquisizione di domini scaduti a esse associati per alterarne gli URL dei file di origine, facendoli puntare così a dati avvelenati.

Compiendo una stima generale, indicativa ma significativa, i ricercatori canadesi hanno appurato che gli avvelenamenti sono decisamente “a buon prezzo”. Con un budget modesto si riuscirebbe infatti a controllare dallo 0,02% allo 0,79% delle immagini per data set reperibili facilmente on line. Ciò basta per essere pienamente in grado di lanciare gli attacchi di avvelenamento su set di dati non curati, per cui basta avvelenare solo lo 0,01% dei dati.

Una backdoor che democratizza gli avvelenamenti

Se già questa stima fa tremare, ancor di più lo fa la scoperta del team di informatici canadesi. Quello che annunciano è di aver trovato un “trucco” per generare trigger per una backdoor in qualsiasi classe del set di dati.

Per classe, all’interno di un dataset, si intende una specifica porzione di dati omogenei tra loro. Per esempio, nell’ambito di un dataset pensato per il riconoscimento di immagini che rappresentano animali, può esistere una specifica classe dedicata ai gatti. In generale, quando si esegue la classificazione delle immagini, un modello impara a riconoscere un certo elemento specifico al loro interno. Stavolta invece, i ricercatori hanno scelto di addestrarlo rispetto a una serie di caratteristiche diverse che vengono apprese insieme alle immagini appartenenti a tutte le classi in maniera trasversale.

Applicando questa tecnica solo a una piccola frazione delle immagini del set di dati, si otterrebbe una backdoor generalizzata in grado di innescare una classificazione errata delle immagini per qualsiasi classe riconosciuta dal modello. Un nuovo pericolo. che allarma soprattutto perché si mostra in grado di colpire tutte le 1.000 classi del data set ImageNet-1K con un’elevata efficacia, avvelenando lo 0,15% dei dati di addestramento, a quanto riferito dagli autori dello studio.

Tutto merito della trasferibilità dell’avvelenamento tra le classi, poi spiegano, con l’augurio che la propria scoperta possa contribuire a far aumentare l’attenzione sul fenomeno da parte degli esperti in deep learning. In particolare, l’attacco che hanno dimostrato essere realizzabile, dovrebbe allertare tutti. Una backdoor universale permetterebbe infatti di avvelenare qualsiasi classe, immettendovi immagini malevole poi raschiate da vari siti web diversi e che appartengono a classi completamente diverse, senza alcun legame apparente tra loro. Ottenere tutto ciò significherebbe prendere il controllo dell’intero modello. Un orizzonte “intellettualmente interessante” e, allo stesso tempo, estremamente pericoloso, da approfondire con ulteriori studi e, forse, con l’istituzione di un “centro anti veleno digitale” come quelli già esistenti nel mondo “fisico”.

Scoperta backdoor universale: ora tutti possono avvelenare modelli di immagini

Avvelenamento data set immagini: tante opzioni a buon prezzo

Una backdoor che democratizza gli avvelenamenti

Articoli correlati

Come ragionano gli LLM in contesti visivi? Per ora resta meglio l’essere umano

Prompt engineering: cos’è e come comunicare efficacemente con l’AI

Non solo parole: LLM e foundation model mantengono le promesse dell’AI

Codice Rss

Codice Rss