Too big to be the best. Standford smonta gli LLM

Quando diventano grandi, i modelli linguistici mostrano capacità nuove, all’improvviso. Doti “emergenti” a sorpresa, ora spiegate da uno studio dell’Università di Standford. I suoi ricercatori sfatano il mito delle dimensioni: è una storpiatura legata alla scelta dei benchmark

Pubblicato il 27 Giu 2023

L’idea che più grande è il modello, migliori sono le sue performance sarebbe un’illusione. Un mito da sfatare, nonostante la corsa alle grandi dimensioni dei modelli linguistici sia molto sentita da big tech e startup. Ogni giorno sgomitano con i propri annunci, insinuando diverse preoccupazioni nella mente degli utenti e di chi si occupa di potenza computazionale.

La rivelazione di questa falsa credenza arriva da un ente privo di interessi commerciali come la Standford University. I suoi ricercatori stanno dimostrando che le grandi capacità dimostrate dai LLM (Large Language Models) più potenti sono un vero e proprio miraggio.

Indice degli argomenti

Quei benchmark che storpiano i risultati

C’è chi tira un sospiro di sollievo di fronte a questa notizia, ma anche chi vede crollare davanti ai propri occhi un modello di business apparentemente perfetto. Per questo è il caso di approfondire e comprendere con quale ratio hanno lavorato i ricercatori.

Per prima cosa hanno chiarito cosa il concetto di abilità “emergenti”, riferendosi a quelle abilità che non sono presenti in modelli su scala ridotta, ma solo in modelli su larga scala. Abilità quindi che spunterebbero, a sorpresa, sopra una certa soglia dimensionale non sempre ben definita, mostrando cambiamenti bruschi e imprevedibili nei risultati, in funzione della scala, su compiti specifici.

Questo fenomeno aveva iniziato a preoccupare il settore che si trovava ad avere a che fare con un comportamento più che mai imprevedibile e di natura oscura. Un fatto oggettivo che alimentava i timori di perdere il controllo del software. Era quindi il caso di approfondire ed è quello che i ricercatori hanno fatto, dimostrando che sono la conseguenza di una misurazione errata, piuttosto che di una competenza miracolosa.

Lo studio si è basato sulla legge dei titoli di Betteridge ed è stato pubblicato in un articolo intitolato “Are Emergent Abilities of Large Language Models a Mirage?”. Nel testo si ricorda a tutti che si ha a che fare con modelli probabilistici privi di qualsiasi tipo di intelligenza senziente, “semplicemente” addestrati su grandi database di testo. Quando raggiungono una certa scala, la capacità di riassumere testi, tradurre lingue o eseguire calcoli complessi, per esempio, può emergere inaspettatamente.

Non fermandosi all’effetto “wow”, i ricercatori hanno studiato questo “inaspettatamente”, legandolo alla non linearità dell’output e alla mancanza di dati nei modelli più piccoli. In concreto, questi forniscono spesso una risposta quasi esatta ma, utilizzando il metodo di valutazione binario Exact String Match (corrispondenza esatta della stringa), nei test verrà contrassegnata come errata, a beneficio dei LLM più “large”.

Una black box sempre più black

Una spiegazione che spazza via il mito delle grandi dimensioni dei modelli. Nessuno nega che i più grandi abbiano prestazioni migliori e possano fare meglio di quelli più piccoli, ma l’improvviso salto di qualità è solo un’illusione. Questi ultimi sono potenzialmente in grado di fare lo stesso tipo di cose, solo che i benchmark non glielo riconoscono.

Un “bug” nella valutazione, quindi, che non deve ingannare il pensiero comune. La variazione delle capacità è più graduale man mano che si sale o si scende di livello. La percezione di capacità improvvise e inedite è solo il frutto della scelta di una metrica che deforma in modo non lineare o discontinuo i tassi di errore per token, oltre che dal possesso di un numero insufficiente di dati di test per stimare con precisione le prestazioni dei modelli più piccoli.

Con questo studio-rivelazione, il team di scienziati di Standford scuote il mercato dei LLM. Per gli utenti, infatti, ciò significa che molte applicazioni potrebbero non aver bisogno di un modello di linguaggio enorme e super potente. Potrebbero tranquillamente usufruire di un modello più piccolo, economico e veloce, comodo anche da personalizzare, testare ed eseguire.

Una brusca svolta verso un modello di AI generativa privata che chiede solo di tollerare qualche errore ogni tanto, in cambio di ingenti risparmi e di un’abilità a volte impagabile. Una “happy end” per le aziende ma meno per i tester, chiamati a interrogarsi sulle proprie procedure. Continuando ad agire come fatto finora, rischiano di diventare inaffidabili e creare distorsioni nel mercato. Meglio sarebbe se iniziassero a ripensarle in chiave di efficacia effettiva. Per continuare a meritarsi la fiducia di un crescente numero di utenti, tutti potenzialmente pendenti dalle loro labbra.