Training AI e robot umanoidi: la ricerca sogna collaboratori e assistenti veloci e ricettivi

pittogramma Zerouno

Prospettive

Training AI e robot umanoidi: la ricerca sogna collaboratori e assistenti veloci e ricettivi

L’integrazione tra algoritmi di training AI per computer vision applicata ai robot umanoidi, al centro di una ricerca che abbatte tempi e numero di dati necessari per trasformarli in utili alleati. A lavorarci l’IIT per ridurre l’hardware e spostare la computazione on edge, su dispositivi B2C e B2B. In arrivo quindi robot per anziani o uffici in grado di imparare dal loro utente in real time e di continuo, e bracci robotici industriali più efficienti, reattivi e sempre aggiornati. 

Pubblicato il 14 Dic 2022

di Marta Abba'

Nell’immaginario dei ricercatori fin dall’inizio c’era l’idea di creare un “collaboratore umanoide” a cui poter insegnare in pochi secondi come usare nuovi strumenti di lavoro. Un’idea da trasformare in una applicazione realizzabile mettendo mano agli algoritmi di training AI per computer vision e scegliendo di “disobbedire” ai trend del settore.

Invece che utilizzare per l’ennesima volta reti neurali enormi e con numerosi parametri, infatti, le hanno “snellite”. Invece di sposare la comune convinzione “più grandi, più potenti”, si sono poi focalizzati sull’efficienza in termini “diversi”, di tempo e di quantità di dati necessaria.

L’originalità e il coraggio sono stati premiati, i primi risultati ci sono e altri sono in arrivo. Questo progetto di ricerca è infatti una “staffetta” tuttora in corso, al confine tra AI e robotica, verso la realizzazione di quel collaboratore umanoide che l’ha ispirata. Ma non solo: stanno emergendo anche molte altre interessanti prospettive che spaziano dall’health al manufacturing, dall’education alla sicurezza.

Meno layer, più velocità, stessa accuratezza, grazie agli algoritmi di shallow learning

Per rendere il training più rapido, si è intervenuti sulla rete neurale artificiale. Le sue grandi dimensioni impattano fortemente sul tempo di attesa dell’output ma è il cuore del processo: impensabile eliminarla. La sfida è stata quella di trovare un modo per ridurla, individuando un compromesso tra velocità e accuratezza accettabile per il campo di interesse: la robotica umanoide. Un obiettivo ambizioso, raggiunto selezionando quali parti della rete neurale conservare e quali eliminare.

WHITEPAPER
Ottenere valore tangibile dal Metaverso: ecco come fare
Intelligenza Artificiale
Realtà virtuale

Dei tanti layer, sono rimasti quelli convoluzionali, utilizzati per catturare ed estrarre informazioni dalle immagini e codificarle attraverso dei vettori di numeri “descrittori”. Gli altri strati, a cui solitamente arrivano queste informazioni, sono stati eliminati, sostituendo ai soliti algoritmi di deep learning, quelli di shallow learning. “Si tratta di algoritmi disegnati per essere più efficienti. Noi abbiamo usato Falkon che presenta due punti di forza. Sotto campiona i dati di input in modo intelligente, senza usare quelli superflui, e approssima in modo particolarmente intelligente ed efficace la soluzione dei problemi core del processo, invece di risolverli direttamente. Si perde accuratezza, ma il trade off ottenuto è accettabile in robotica, soprattutto considerando il guadagno in termini di tempo” spiega Elisa Maiettini, ricercatrice Post Doc della linea di ricerca Humanoid, Sensing and Perception che si è dedicata a questa ricerca durante la sua tesi di dottorato, ottenendo risultati interessanti nella Object Detection. Maiettini è stata a che ospite dei Digital360 Awards, evento organizzato da Digital360 e CIOSummIT.

Se l’algoritmo di deep learning mostra un’accuratezza del 73%, dopo 2 ore e 16 minuti, Falkon, integrato nell’architettura ideata dal team IIT, riesce a mantenere tale performance in 3 minuti. Quando il contesto applicativo richiede intervalli inferiori al minuto, si può comunque contare su un tasso del 71%, dopo un training di 40 secondi. Anche nella Object Segmentation, indagata in seguito, le perfomance di Falcon si sono dimostrate altamente competitive, a fronte di passaggio dai 2-3 minuti a 10 secondi.

Integrando algoritmi servono meno dati per insegnare al robot

Il secondo obiettivo di efficienza può sembrare paradossale, in un mondo in cui il problema sono proprio i dati in eccesso. Dipende dal motivo per cui si cercano, spiega però Maiettini. “Quelli per il training di algoritmi di computer vision non sono affatto numerosi e facili da reperire. Molti dei dati reperibili non sono etichettati in modo corretto, non indicano quindi il tipo di oggetto, oppure non riportano il rettangolo che ne indica la posizione precisa. Per le aziende questa carenza costituisce una pesante criticità: spesso devono spendere molto per ottenere dati adatti, a volte non ne trovano e devono addirittura cambiare il proprio focus. Anche la ricerca di dati per il riconoscimento facciale pone simili problemi di reperimento” racconta Maiettini.

Stavolta la strada scelta dal team IIT è stata quella di lavorare sull’algoritmo, integrando in quello di apprendimento supervisionato classicamente utilizzato, quelli di apprendimento attivo e di apprendimento autonomo (o self supervised). “Nel primo l’AI ha a disposizione immagini non etichettate e seleziona quelle che considera necessarie e utili per il training. Nel secondo si parte da un modello addestrato superficialmente e lo si usa per scegliere e auto-etichettare immagini trovate simili nel web, affinando le proprie performance nel tempo” spiega Maiettini.

Un robot guidato da questo nuovo algoritmo sarebbe in grado di riconoscere gli oggetti in modo superficiale, inizialmente, per poi esplorarne le caratteristiche “di persona”, sul campo. In questa fase riesce a migliorarne la conoscenza tramite apprendimento attivo e autonomo, chiedendo al suo “istruttore umano” immagini da etichettare in modo sempre più affinato.

Anche in questo caso, i risultati sono stati convincenti. Partendo da un modello allenato in modo superficiale, con un’accuratezza attorno al 60%, si è arrivati al 90%. È bastato un po’ di allenamento e, soprattutto, sono bastate 4 immagini rispetto alle centinaia generalmente necessarie con altri algoritmi.

Speeded up training of object detection
Un esempio di apprendimento veloce per object detection, nei laboratori ITT. Il protagonista è il robot R1. (Fonte: IIT)

Verso il training on edge, per applicazioni personalizzate e aggiornabili real time

Il robot collaboratore, “ispiratore” di questo filone di ricerca, non esiste ancora, ma sono già ben evidenti i benefici ottenibili per le aziende. Abbassando le pretese in termini di numero di dati necessari per il training, molte si trovano più libere di operare, con risparmi anche in termini di costi. Diminuendo il numero di layer, si ha anche una riduzione dell’hardware per l’addestramento che apre a nuovi orizzonti in diverse direzioni.

Molte app AI oggi delocalizzano la computazione su cloud o server, rendendo sempre necessaria la connessione con la rete e allungando i tempi. Con un hardware più piccolo, si può invece spostare il training AI on edge, una vera svolta per tutte quelle applicazioni che devono aggiornarsi velocemente e sul posto” spiega Maiettini. Si spazia dal B2C al B2B, da applicazioni su smartphone che “si personalizzano” nel tempo, ai bracci robotici industriali che identificano difetti e anomalie in modo aggiornato e tempestivo.

Una prima idea “umanoide” da commercializzare ha il volto di R1. Questo robot potrebbe fare compagnia agli anziani e assisterli, imparando le singole esigenze e caratteristiche. Oggi è un prototipo, con tutta la vita davanti.

Intanto il progetto di ricerca procede, applicando l’accoppiata rete snella – nuovo algoritmo a vari problemi di computer vision per testarne le performance caso per caso. “In futuro, vorremmo spingere all’estremo la localizzazione del calcolo, per poter fare definitivamente a meno della connessione. Abbiamo sostituito i grandi server con dei laptop per il training, vorremmo arrivare alle dimensioni di un processore per smartphone. Questo passaggio avrebbe forti impatti anche sull’efficienza energetica. Un altro aspetto su cui lavorare è quello dell’esplorazione: oltre a integrare le immagini da web nell’apprendimento, vorremmo permettere al robot di usare tutti e 5 i sensi per studiare gli oggetti che incontra” spiega Maiettini, lasciando questo compito ai nuovi giovani ricercatori dottorandi che stanno portando avanti questa impresa. Un’impresa a cui Maiettini continua a dedicarsi, senza però rinunciare a intraprenderne altre, sempre robotiche e sempre “disobbedienti” ai trend.

Valuta questo articolo

La tua opinione è importante per noi!

Marta Abba'

Giornalista

Laureata in Fisica e giornalista, per scrivere di tecnologia, ambiente e innovazione, applica il metodo scientifico. Dopo una gavetta realizzata spaziando tra cronaca politica e nera, si è appassionata alle startup realizzando uno speciale mensile per una agenzia di stampa. Da questa esperienza è passata a occuparsi di tematiche legate a innovazione, sostenibilità, nuove tecnologie e fintech con la stessa appassionata e genuina curiosità con cui, nei laboratori universitari, ha affrontato gli esperimenti scientifici.

Argomenti trattati

Approfondimenti

Intelligenza Artificiale
M
mobile

Articolo 1 di 5