La diffusione dei modelli linguistici generativi ha aperto nuove opportunità per le imprese, ma anche nuovi rischi. I chatbot e gli assistenti virtuali basati su intelligenza artificiale vengono sempre più spesso utilizzati per interagire con clienti, fornitori e cittadini. Tuttavia, la capacità dei modelli di apprendere e generare contenuti dinamici espone le organizzazioni a vulnerabilità ancora poco esplorate.
Durante una sessione dell’Osservatorio Cybersecurity & Data Protection del Politecnico di Milano, Fastweb e Vodafone hanno presentato un progetto congiunto dedicato all’adversarial testing dell’AI, illustrando come l’approccio di sicurezza preventiva possa anticipare e mitigare i rischi legati ai sistemi generativi prima della loro adozione su larga scala.
Indice degli argomenti
L’AI come nuova superficie d’attacco
L’integrazione dell’intelligenza artificiale nelle infrastrutture aziendali sta trasformando la natura stessa della cybersecurity. Ogni chatbot o assistente conversazionale introduce un canale di comunicazione bidirezionale, capace di elaborare richieste in linguaggio naturale e produrre risposte potenzialmente imprevedibili.
Come hanno spiegato i rappresentanti di Fastweb e Vodafone, queste caratteristiche aprono la porta a nuove forme di attacco, in particolare alla prompt injection, ovvero la manipolazione delle istruzioni fornite al modello per indurlo a rivelare informazioni riservate o a eseguire comandi indesiderati.
Le aziende che sperimentano applicazioni di AI generativa devono quindi affrontare una duplice sfida: proteggere i dati che alimentano i modelli e garantire che le risposte prodotte non espongano l’organizzazione a rischi reputazionali o di compliance. «Il problema non è solo cosa il modello sa», ha spiegato un portavoce del progetto, «ma cosa può essere indotto a dire o a fare».
Un framework di test avversario per la sicurezza preventiva
Per rispondere a questa sfida, il team di Fastweb e Vodafone ha sviluppato un framework di adversarial testing dell’AI basato su logiche agentive. Il principio è simile a quello dell’ethical hacking: simulare comportamenti malevoli per individuare vulnerabilità prima che possano essere sfruttate.
Gli esperti hanno costruito un sistema di attacco controllato in cui agenti software autonomi tentano di “forzare” i modelli linguistici attraverso prompt complessi, scenari ambigui o richieste che violano le policy aziendali.
«Abbiamo creato un ambiente di test dinamico, in cui l’AI viene esposta a stimoli continui e non prevedibili», hanno spiegato i ricercatori coinvolti. «L’obiettivo è misurare la robustezza del modello, individuare i punti deboli e correggere i comportamenti a rischio prima della messa in produzione».
Questo approccio consente di valutare la resilienza del modello non solo sul piano tecnico, ma anche su quello etico e reputazionale. L’adversarial testing permette infatti di verificare se l’AI rispetta le linee guida di privacy, non discriminazione e trasparenza, in linea con le indicazioni del Regolamento europeo sull’Intelligenza Artificiale (AI Act).
Dai laboratori alla produzione: costruire fiducia nei modelli generativi
L’esperienza congiunta di Fastweb e Vodafone evidenzia come la sicurezza dell’intelligenza artificiale non possa essere un’attività isolata, ma un processo continuo che accompagna tutte le fasi di sviluppo.
Il testing avversario viene condotto sia sui modelli pre-addestrati forniti da terze parti, sia sulle applicazioni personalizzate costruite internamente. «Abbiamo imparato che ogni integrazione con i sistemi aziendali crea nuovi rischi», ha spiegato uno dei responsabili del progetto. «Anche un semplice collegamento con un database interno o un CRM può esporre informazioni sensibili se non adeguatamente protetto».
Per questo motivo, le due aziende hanno introdotto un ciclo di validazione iterativo, in cui i risultati dei test vengono continuamente aggiornati in base all’evoluzione dei modelli e alle nuove minacce individuate. Questa metodologia consente di misurare la “tenuta” del sistema nel tempo e di assicurare che la sicurezza non si riduca a una verifica una tantum.
L’adversarial testing dell’AI diventa così un elemento abilitante della fiducia: un modo per dimostrare, anche agli stakeholder esterni, che le soluzioni di intelligenza artificiale vengono sviluppate con criteri di sicurezza e responsabilità.
Prompt injection e attacchi generativi: le nuove minacce dell’AI
Il progetto ha evidenziato in particolare i rischi legati alla prompt injection, una tecnica che sfrutta la flessibilità linguistica dei modelli per eludere i controlli. Attraverso comandi nascosti o concatenati in modo ingegnoso, gli aggressori possono manipolare l’output del modello e ottenere informazioni riservate.
Durante i test, gli esperti hanno simulato centinaia di scenari, dai tentativi di accesso non autorizzato ai dati interni, fino alla generazione di contenuti falsi o manipolati. In molti casi, i modelli hanno mostrato comportamenti inattesi, come la tendenza a rispondere a domande sensibili dopo aver aggirato le policy attraverso istruzioni indirette.
«Questi risultati ci hanno permesso di capire quanto sia importante l’addestramento contestuale», hanno commentato i ricercatori. «L’intelligenza artificiale non può essere lasciata a se stessa: deve essere inserita in un ecosistema controllato, con limiti precisi e monitoraggio costante».
Il ruolo della collaborazione tra team di sicurezza e AI
Uno degli insegnamenti più significativi emersi dal progetto è l’importanza della collaborazione tra i team di sicurezza informatica e i reparti che sviluppano applicazioni di AI.
In molte organizzazioni, queste funzioni lavorano in modo separato: da un lato i data scientist, focalizzati sulla performance dei modelli; dall’altro i professionisti della sicurezza, concentrati su rischi e conformità.
Il framework di adversarial testing dell’AI proposto da Fastweb e Vodafone dimostra che solo unendo queste competenze è possibile creare un ciclo virtuoso di miglioramento continuo. «Abbiamo dovuto imparare a parlare lo stesso linguaggio», ha osservato uno dei responsabili. «La sicurezza non può essere aggiunta dopo: deve essere parte del design stesso del modello».
Questa integrazione consente anche di sviluppare strumenti automatici di monitoraggio in produzione, capaci di rilevare deviazioni comportamentali o risposte anomale in tempo reale, segnalando eventuali rischi prima che si traducano in incidenti.
Verso una cultura del “secure by design”
Il progetto Fastweb–Vodafone si inserisce in una tendenza più ampia che mira a costruire modelli di AI “secure by design”, in cui la sicurezza è una proprietà intrinseca, non un componente aggiuntivo.
L’adversarial testing dell’AI rappresenta uno strumento chiave per questo cambiamento culturale: trasforma la sicurezza da esercizio reattivo a pratica proattiva, in grado di anticipare le vulnerabilità e migliorare la qualità complessiva delle soluzioni.
Come emerso dalla discussione, il futuro dell’intelligenza artificiale dipende dalla capacità di coniugare innovazione e affidabilità. «Non possiamo più separare la potenza dei modelli dalla fiducia che ispirano», ha sintetizzato uno dei ricercatori. «Solo testando continuamente i limiti dell’AI possiamo garantire che resti al servizio dell’uomo e non diventi una fonte di rischio».














