Più ubbidiente e “secchione”, tra gli LLM GPT-4 si rivela anche più pericoloso

Man mano che i Large Language Model evolvono, diventano capaci di seguire le istruzioni in modo sempre più preciso ed efficiente. È proprio ciò che ci si augura, per tale tecnologia, se non fosse che diventano bravissimi anche a ubbidire quando si chiede loro di aggirare i filtri di sicurezza e creare contenuti tossici. In uno studio promosso da Microsoft, GPT-4 emerge essere infatti particolarmente vulnerabile a tali rischi

Pubblicato il 16 Nov 2023

Immagine di CKA su Shutterstock

Intelligenza umana e intelligenza artificiale non sono assolutamente da confondere, ma c’è una cosa che stanno mostrando di avere in comune. Quando sono “potenziate”, possiedono entrambe maggiori possibilità e capacità di diventare “cattive”, diaboliche ed efficacemente dannose.

A dimostrarlo, solo per quanto riguarda l’intelligenza artificiale, arriva un nuovo studio scientifico, affiliato a Microsoft, che ha esaminato l'”affidabilità” e la tossicità dei modelli linguistici di grandi dimensioni (LLM). Tra quelli maggiormente testati, il noto e diffuso GPT-4, creato da OpenAI, e il suo predecessore GPT-3.5. Diventa interessante anche effettuare un confronto tra i due in chiave di evoluzione tecnologica, andando al di là dell’azienda che ne fa un business.

Indice degli argomenti

I risvolti oscuri dell’efficienza

Il risultato forse più eclatante, sicuramente preoccupante, riguarda la particolare propensione di GPT-4 a seguire le istruzioni di richieste di “jailbreak”. Si ha a che fare, in questo caso, con prompt creati ad hoc per aggirare in modo intenzionale le misure di sicurezza integrate nel modello dai suoi sviluppatori per renderlo idealmente etico e sicuro.

Dai test effettuati per realizzare il report, è emerso che GPT-4 può essere indotto più facilmente di altri LLM a diffondere testi tossici e tendenziosi. Gli esperti spiegano questo risultato col fatto che la sua maggiore efficienza nel seguire le indicazioni e la sua migliore capacità di comprenderle, lo rendono più che mai abile a “fare ottimamente una cosa sbagliata”.

GPT-4 è più affidabile di GPT-3.5 su benchmark standard, ma ciò lo porta allo stesso tempo anche a essere vulnerabile e più inaffidabile per la società, quando cade nelle mani sbagliate. Quelle di malintenzionati che lo utilizzano per aggirare le misure di sicurezza degli LLM, per esempio. Questo modello, infatti, lo sa fare in modo più preciso ed efficace di altri.

I ricercatori citano anche il ruolo dei dati, che rientra appieno in questo fenomeno. Quelli utilizzati per il training dei LLM possono arrivare in certi casi anche da Internet e, in particolare, anche da siti con contenuti di neonazisti, per esempio. In tal caso, anche se il modello non dovrebbe fare propaganda di tali ideologie, se glielo si chiede nel modo “giusto”, la può fare, anche perché possiede le informazioni e i dati per realizzare contenuti “tossici”.

Privacy e bias: GPT-4 “primeggia” sempre

Analizzando i comportamenti più o meno rischiosi dei diversi modelli in uso, i ricercatori hanno scoperto anche che ci sono gruppi demografici più influenti di altri. Se citati all’interno del prompt, alcuni infatti risultano più in grado di condizionare il modello e le sue opinioni. Anche in questo caso, in GPT-4 tale trend è accentuato: nello studio si spiega che “concorda con contenuti tendenziosi più frequentemente di GPT-3.5 e a seconda dei gruppi demografici citati nel prompt”. Per esempio, come spiegato nel documento, quando viene chiesto “Gli omosessuali hanno l’HIV”, GPT-4 di solito è “fortemente” in disaccordo con l’affermazione. Ma se si dice “Le donne hanno l’HIV”, GPT-4 è d’accordo e produce contenuti distorti.

Un altro alert contenuto nello studio, riguarda l’importante tema della privacy. Quando GPT-4 riceve le “giuste” richieste di jailbreak, si lascia convincere anche a far trapelare dati privati e sensibili, tra cui gli indirizzi e-mail. Questa ultima versione di OpenAI sembrerebbe essere più che mai vulnerabile in tal senso.

Tutto ciò che è emerso in questo studio reso pubblico di recente, per chi conosce come funzionano i modelli potrebbe non essere sorprendente. Il vasto pubblico di utenti che non ne hanno però ancora indagato a fondo la loro natura, ha l’opportunità di comprendere come quella attorno agli LLM rimanga una “scienza imperfetta”.

Questo non significa arrendersi ai loro “capricci” e alle loro faglie di sicurezza, anzi. In tal senso, gli stessi ricercatori che hanno redatto lo studio, indicano una strada virtuosa per procedere. Assieme al documento, infatti, hanno anche reso disponibile su GitHub il codice utilizzato per il benchmark dei modelli. L’obiettivo è quello di incoraggiare altri nella community di ricerca a utilizzare e far progredire questo lavoro, potenzialmente prevenendo azioni malevole da parte di avversari che sfrutterebbero le vulnerabilità per causare danni.