Studio AI Stanford University: le tecnologie migliorano, ma attenzione a frodi e impatti sociali

Seconda puntata dedicata allo studio della Stanford University dedicato agli impatti delle tecnologie di AI da diversi punti di osservazione: economico, etico, formativo… Guardiamo in questo articolo l’elemento tecnologico, cioè lo sviluppo in corso nelle tecnologie di AI applicate a vari ambiti. Una corsa al miglioramento prestazionale che sta incidendo sia nel mondo consumer sia in quello aziendale. Attenzione però agli elementi negativi che inevitabilmente le tecnologie di AI portano con sé: potenziali frodi e discriminazioni più o meno consapevoli

Ecco il secondo articolo, di una serie di sette (vedi Studio AI Stanford Universiy: l’importanza di dati certi e analisi credibili), che ZeroUno dedica allo studio Artificial Intelligence Index Report 2021 della Stanford University, giunto alla sua quarta edizione.

L’obiettivo della ricerca, considerando anche l’impatto della pandemia da Covid-19, è quello di realizzare una fotografia sui diversi aspetti della diffusione, delle caratteristiche e dell’utilizzo delle tecnologie di intelligenza artificiale da svariate prospettive: economiche, sociali, etiche, formative, ecc. In questo articolo approfondiamo gli elementi legati alle performance tecnologiche dell’Intelligenza artificiale applicati a differenti segmenti: dalla computer vision (riconoscimento oggetti; analisi della posa di una persona, realizzata attraverso modelli di machine learning, ricavata da un’immagine o da un video indagando le posizioni spaziali del corpo; classificazione e segmentazione della semantica di un’immagine, ecc) al linguaggio; dal riconoscimento vocale all’apprendimento concettuale da parte dei sistemi, con un’inevitabile attenzione a tutto ciò che, dal punto di vista etico comporta l’utilizzo massivo di algoritmi e la capacità di autoapprendimento dei sistemi, compresi i rischi di errate classificazioni e clusterizzazioni che, se pur corrette dal punto di vista tecnologico, rischiano di essere penalizzanti creando disuguaglianze tra persone e gruppi.

Indice degli argomenti

Applicazioni con diretti impatti sociali ed economici

La raffinatezza tecnologica delle applicazioni di AI ha ormai raggiunto livelli qualitativi tali, soprattutto in specifici ambiti, da rendere difficile il riconoscimento degli output come prodotto non umano; questo sta per contro causando la necessità di investire in tecnologie che consentano la rilevazione corretta dei modelli generativi per essere consapevoli della fonte. La computer vision, con i suoi vasti campi di applicazione, dall’imaging medicale al self driving car, dalla sicurezza e sorveglianza (ad esempio l’analisi di immagini satellitari) al controllo degli impianti industriali, sta entrando in una fase di industrializzazione, con un’ampia parte della potenza elaborativa dei computer che viene sempre più dedicata al training dei sistemi per migliorare la loro capacità di riconoscimento visuale.

Il settore in cui però le applicazioni di AI hanno dimostrato un diretto impatto sulla nostra vita è senz’altro quello della ricerca medico-scientifica e della recente lotta al Covid-19: in generale, modelli di machine learning vengono usati per comprendere meglio la rappresentazione delle molecole, al fine di una più efficace pianificazione della loro sintesi chimica; nel campo della biologia, le tecniche di AI sono applicate allo studio del processo di trasformazione delle proteine dalle loro originarie dimensioni strutturali a una conformazione (folded) in grado di rendere la proteina funzionale dal punto di vista biologico; nel contrasto all’attuale pandemia, l’open source, la condivisione e la collaborazione internazionale, insieme alle tecnologie di AI, sono stati (e saranno) elementi fondamentali. Ad esempio Covid Moonshot è un’iniziativa in crowdsourcing della startup PostEra, specializzata in disegno molecolare e chimica di sintesi utilizzando sistemi a base AI per accelerare lo sviluppo di antivirali. Vi hanno aderito lo scorso anno oltre 500 scienziati internazionali che hanno sottoposto i loro progetti per lo studio e la ricerca di soluzioni anti Covid-19. Utilizza tool di machine learning e folding@home, il supercomputer distribuito realizzato mettendo a fattor comune la potenza di calcolo dei sistemi di utenti di tutto il mondo (oltre ai singoli ci sono anche realtà come Aws, Oracle, VMWare…). Lo scorso anno la capacità di calcolo raggiunta è stata di 2.4 ExaFlops, superiore, per dare un parametro, a quella dei 500 supercomputer più potenti al mondo. È servita a determinare il disegno di farmaco più efficace da sottoporre ai vari partner nel mondo per avviare sperimentazioni e test di laboratorio. Nella prima settimana dal lancio dell’iniziativa, Moonshot ha ricevuto oltre 2.000 proposte e PostEra ha disegnato metodi di sintesi in meno di 48 ore. Chimici ricercatori senza il supporto del sistema ci avrebbero impiegato, è stato stimato, circa 3-4 settimane (figura 1). È grazie a questi sforzi congiunti e alle tecnologie di AI che oggi possiamo vaccinarci.

Imaging, sempre più simile al reale.

Le tecnologie di AI applicate all’Imaging hanno registrato una forte accelerazione a partire dal 2010, quando è stato possibile integrare tecnologie di machine e deep learning, trasformando così un’area ancora sperimentale in una tecnologia più “industrializzata” applicabile a numerosi settori. Questo grazie soprattutto ad avanzamenti nelle tecnologie hardware e software infrastrutturali (capacità computazionale, algoritmi evoluti e utilizzo di grandi data set). L’accelerazione si è registrata anche sul versante dell’image generation, oggi, come si diceva, con immagini prodotte difficili da distinguere rispetto a quelle reali. I campi di applicazione spaziano da maggiori capacità di ricerca per comparazione di immagini, design, editing per segmenti specifici, sia artistici sia industriali, ecc.

Un parametro per valutare l’evoluzione tecnologica dell’imaging generation è il modello FID (Fréchet Inception Distance), in pratica la misurazione delle differenze che intercorrono tra la correlazione di un’immagine artificiale rispetto ad una reale utilizzata per addestrare il sistema: la figura 2 mostra i progressi registrati nei modelli di generazione di immagine solo negli ultimi due anni sul dataset STL-10 (utilizzato per lo sviluppo di algoritmi di deep learning autodidatti), in cui l’immagine reale ha uno score di “0” e le immagini generate in forma artificiale scendono marcatamente verso livelli che tendono allo “0”.

Com’era prevedibile, anche nelle immagini di volti generate da sistemi di AI si sono riscontrati tentativi di frodi, con sovrapposizioni di volti effettuate per realizzare creazioni falsificate (per generare disinformazione, danno, sensazionalismo, falsi video pornografici, truffe, revenge porn, ecc). Per questo si sono sviluppate tecnologie di deepfake detection, orientate cioè alla rilevazione di queste tecniche “malicious” di sovrapposizione fraudolenta di immagini.

Sistemi NLP: linguaggio evoluto, comprensione del contesto. Si diffondono i servizi Cloud

I significativi incrementi raggiunti nel livello qualitativo di parlato e di comprensione dei sistemi NLP (Natural Language Processing) hanno aperto le porte ad un loro utilizzo commerciale che sta rapidamente diffondendosi: nel corso del 2019 Google ha incominciato a utilizzare il proprio algoritmo Bert (Bidirectional Encoder Representation from Transformers, una tecnologia basata su machine learning per l’elaborazione del linguaggio naturale che consente la contestualizzazione dei termini, dando quindi senso compiuto e significato preciso alle parole e alle frasi) nel proprio motore di ricerca, seguita pochi mesi dopo da Microsoft, che annunciava anch’essa l’utilizzo dell’algoritmo nel proprio search engine Bing. Si tratta di sviluppi che accelerano di molto l’utilizzo dell’interfaccia vocale come mezzo privilegiato nell’analisi dei dati e in moltissime altre applicazioni. Dopo le prime forme di interazione vocale nel mondo consumer, una delle svolte principali in termini di aumento di efficienza e quindi di produttività, sta nell’applicazione diffusa di queste tecnologie nei processi di impresa e nell’analisi dei dati per tutti i livelli di competenza, funzioni e ruoli, migliorando così la loro capacità di relazione con il mercato e di sviluppo del business.

Sempre in quest’ambito, da notare la forte crescita delle Machine translation (Mt), i sistemi di traduzione a base machine learning che usano ormai un doppio approccio nella traduzione dei termini, statistico e deep learning. Significativa la loro diffusione in ambito commerciale come servizio cloud. Erano 8 i servizi cloud di Mt presenti nel 2017, dopo soli tre anni, nel 2020, sono diventati 28 (figura 3).

La Vision and Language reasoning è infine un’area di ricerca che finalizza la comprensione, da parte dei sistemi a base AI/Ml, di dati di testo e visuali. I sistemi Vqa (Visual Question Answering) inoltre, forniscono risposte in un linguaggio naturale accurato a partire da una domanda su immagini presenti in dataset pubblici.

La figura 4 mostra che il livello di accuratezza è cresciuto di circa il 40% dalla prima installazione presentata all’International Conference on Computer Vision (ICCV) del 2015. Il più alto livello di accuratezza del 2020 ha raggiunto il 76,4%, molto vicino a quell’80,8% di accuratezza rappresentato dal parametro umano.

Sempre in questo filone troviamo i sistemi Vcr (Visual Commonsense Reasoning), che differiscono dai Vqa perché mentre a quest’ultimi si richiede una risposta, ai Vcr, data una certa immagine, si chiede di giustificare con un ragionamento il perché della risposta data. Il parametro di scoring utilizzato per la valutazione dell’affidabilità di questi sistemi Vcr, racchiude la possibilità per il sistema di fornire la corretta risposta a una domanda tra un insieme di quattro risposte possibili e poi selezionare una tra altre quattro scelte razionali collegate alla risposta. La performance umana ha uno score di 85. I sistemi Vcr hanno realizzato uno score di 44 nel 2018, raggiungendo una performance di 70,5 nel 2020 (figura 5).

Rischio discriminazioni

Chiudiamo questo approfondimento tecnologico riportando un esempio dei rischi che nello sviluppo di questa disciplina, disegnando algoritmi e istruendo sistemi ML di all’apprendimento, si possono correre. Si è rilevato, ad esempio, che i sistemi ASR (Automated Speech Recognition) possono commettere delle discriminazioni.

È quanto emerge da un lavoro svolto dalla Stanford University nel 2020 in cui sono stati analizzati cinque sistemi ASR allo stato dell’arte, sviluppati da Amazon, Apple, Google, Ibm e Microsoft ai quali è stato dato il compito di trascrivere interviste strutturate effettuate con 42 speaker bianchi e 73 speaker di colore, per un totale di 19,8 ore di audio abbinate a differenti persone per età e genere.

Dal lavoro si è rilevato che nella trascrizione, questi sistemi fraintendono il parlato degli speaker di colore il doppio delle volte (35 errori su 100 parole) di quanto avvenga con speaker bianchi (19 errori su 100 parole). Un punto centrale per sostenere pragmaticamente, oltre che da una prospettiva di maggiore equità ed etica, la diffusione commerciale e il business attorno a questi sistemi è quindi quello di prestare molta attenzione alla programmazione, istruzione, disegno algoritmico dei sistemi di AI, per evitare tendenze di distorsione spesso frutto di scarsa attenzione prima ancora che di pregiudizio (figura 6).