News

Il cane robot di Boston Dynamics racconta le tecnologie future

Integrando i foundation model nel suo robot cane Spot, Boston Dynamics lo trasforma in una guida turistica in grado di interagire, parlare, scherzare e raccontare e rispondere a voce alle domande del pubblico. Un PoC che, a tratti con sarcasmo, lascia immaginare applicazioni robotiche dei modelli fondamentali realizzabili nel futuro prossimo e su cui lavorare da subito

Pubblicato il 23 Nov 2023

Immagine di MikeDotta su Shutterstock

Durante un hackathon interno, alla Boston Dynamics i team tech si sono divertiti a trasformare un cane in una guida turistica convinta di avere dei genitori e capace di interpretare ruoli sprezzanti e spavaldi con talento teatrale invidiabile. Non è stato un gioco, perché si è rivelata un’impresa complessa dal punto di vista tecnologico e perché non si trattava di un “divertissement” per intrattenere e tenere allenati i cervelli dell’azienda. È stato l’inizio di una esplorazione di opportunità tecnologiche mirate a ottenere robot in grado di capire ciò che si dice e di trasformarlo in azioni utili. Se tutti fossero così, lavorerebbero magari meglio con e intorno alle persone, come colleghi, compagni, guide o care giver.

Un avveniristico patchwork di tecnologie

Tutto parte dal desiderio di approfondire meglio le potenzialità dei Foundation Models (FM) e la possibilità di sfruttarli nel campo della robotica. La loro capacità di eseguire compiti diversi da quelli per cui sono stati prettamente addestrati, diventando per esempio una buona base per algoritmi utili a rendere real time molti processi decisionali. La loro abilità nell’interpretare ruoli e replicare culture e sfumature, mantenendo la coerenza nel tempo.

Ritenuti una tecnologia meritevole di attenzione, sono stati i protagonisti di una proof of concept assieme a modelli di Visual Question Answering (VQA) in grado di sottotitolare le immagini e rispondere a semplici domande su di esse. È così che nei laboratori della Boston Dynamics il ben noto cane robot Spot è diventato una guida turistica che cammina, si guarda attorno e descrive ciò che vede in modo fluido, senza sottrarsi alle domande e pianificando le proprie azioni successive. Se gli si affida un ruolo particolare, è anche in grado di recitarlo, soprattutto se sarcastico e cinico, spavaldo e di carattere.

Questa “metamorfosi robotica” facendo leva sui FM, è iniziata con l’inserire il sistema di localizzazione del robot nel LLM e collegarlo a molti altri sensori per ottenere una guida divertente, interattiva e capace di intrattenere al meglio potenziali turisti, senza cedere alla “tentazione” delle allucinazioni. Numerosi sono stati poi i “pezzi” di tecnologia software e hardware da implementare e far funzionare in modo armonioso. Un sistema audio, per presentarsi al pubblico e ascoltare domande e suggerimenti, un sistema di controllo su quanto detto dal robot, basato su un’attenta ingegnerizzazione dei prompt, un software VQA e speech-to-text per farlo interagire con il pubblico e l’ambiente circostante, e uno strumento di sintesi vocale per farlo realmente parlare al pubblico.

Perché lo facesse nel modo più naturale possibile, i ricercatori hanno anche creato un linguaggio del corpo predefinito attraverso un sistema in grado di indovinare dove si trovava la persona più vicina e facendo girare il braccio del robot verso quella persona. Un gesto umano, unito ad altri simili, che ha reso la guida robot più che mai potenzialmente amichevole ed emotivamente più accettabile.

Buffa e lenta, ma una guida verso il futuro

Questo esperimento del tutto senza pretese, ma con un importante valore tecnologico e un chiaro obiettivo-guida, ha riservato al team sorprese e spunti di miglioramento per il futuro. Oltre che la conferma che FM e robotica, assieme, possono fare grandi cose.

Buffo è stato sentire la guida suggerire di andare all’help desk IT a chiedere informazioni turistiche, o indicare le vecchie versioni di Spot come suoi genitori. Buffo, ma anche interessante e affatto casuale: si tratta di due manifestazioni della potenza dell’associazione statistica dei modelli utilizzati. Tra i concetti di “help desk” e “fare una domanda” e tra quelli di “genitori” e “anziani”. Confermata la potenza dei FM ma anche i loro noti problemi di allucinazioni e di latenza, con tempi di attesa di risposta fino a 6 secondi. Due aspetti su cui lavorare, magari attraverso un nuovo hackathon, stavolta però con la certezza di stare percorrendo una strada nuova che merita di intrapresa.

Combinando i risultati di diversi sistemi di intelligenza artificiale generale, oggi i team tech sanno che è possibile ottenere risultati interessanti su un robot reale utilizzando l’SDK di Spot. A Boston Dynamics, come a tante altre realtà pubbliche e private, non resta che continuare a esplorare l’intersezione tra intelligenza artificiale e robotica. Con questo esperimento del cane-guida, gli FM hanno dimostrato di poter contribuire a fornire un contesto culturale, una conoscenza generale di buon senso e una flessibilità utile per molti compiti di robotica. Anche solo l’idea di poter assegnare un compito a un robot semplicemente parlandogli ridurrebbe di molto la curva di apprendimento nel loro utilizzo.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati

Articolo 1 di 4