News

AI e HPC “forzano” l’evoluzione del network

Il Consorzio Ultra Ethernet vuole evolvere, ottimizzando il networking, per restare al passo con le nuove esigenze dettate da Intelligenza Artificiale e High Performance Computing. Non promette veri e propri nuovi standard, ma assicura di voler modificare il funzionamento delle applicazioni

Pubblicato il 13 Set 2023

Immagine di Yeshe-la su Shutterstock

Non c’è area dell’IT che non stia accusando “il colpo”: il picco di diffusione dell’AI innescato a fine 2022 dal rilascio di ChatGPT e da tutto ciò che è seguito ha obbligato tutto il settore ad adattarsi a nuovi paradigmi. Chiunque voglia restare competitivo, oggi si deve mostrare adeguato a rispondere alle nuove esigenze dell’intelligenza artificiale.

I modelli stanno raggiungendo dimensioni prima impensabili e il loro addestramento richiede grandi cluster di calcolo. Chi si occupa di computing è già da mesi in affanno, ma anche l’area del networking sta iniziando a incontrare sempre maggiori criticità. La rete deve infatti essere il più efficiente possibile, per mantenere questi cluster occupati.

Mentre i carichi di lavoro dell’intelligenza artificiale “battono il pugno” per ottenere una sempre maggiore larghezza di banda, l’High Performance Ccomputing sposta l’attenzione su carichi di lavoro più sensibili alla latenza. Sono due requisiti che il network deve contemporaneamente soddisfare se vuole restare al passo con la tecnologia del presente e del futuro.

Verso un Ethernet aperto, fruibile e performante

Nascono esattamente in questo contesto la riflessione e l’azione di Consorzio Ultra Ethernet (UEC) che rivendica la centralità di Ethernet stesso, definendolo “il miglior esempio di tecnologia di rete di base duratura, flessibile e adattabile“. Una affermazione che porta con sé delle responsabilità, in primis quella di evolvere per trasportare al meglio il traffico dei carichi di lavoro AI e HPC.

In passato ci sono stati alcuni tentativi in tal senso, ma mai nessun caso si è pensato di progettare tutto da zero per carichi di lavoro AI e HPC altamente impegnativi, realizzando un network aperto, facile da usare e di ampia adozione.

Cogliendo lo stimolo disruptive dell’AI generativa, ora il consorzio ha però lanciato un nuovo progetto esplicitamente volto ad adattare lo standard Ethernet e andare incontro alle esigenze di applicazioni AI e HPC. Nella pratica, l’intenzione è quella di creare una architettura di stack di comunicazione completa basata su Ethernet, ugualmente onnipresente ed economica, ma in grado di offrire anche effettive prestazioni che siano all’altezza dell’interconnessione di supercalcolo.

Tra le aziende maggiormente determinate a raggiungere tale traguardo vi sono quei membri fondatori del consorzio fortemente coinvolti nell’HPC e nel networking, tra cui Intel, AMD, HPE, Arista, Broadcom, Cisco, Meta e Microsoft, mentre il progetto stesso è ospitato dalla Linux Foundation.

Per mettere a terra il progetto, che tocca più livelli dello stack di rete, si lavorerà divisi in gruppi di lavoro con diversi incarichi. Alcune realtà, quindi, si occuperanno di sviluppare specifiche che migliorino le prestazioni, la latenza e la gestione del livello fisico e del livello di collegamento, per esempio. Altre si concentreranno invece sulle specifiche per il livello di trasporto e il livello software.

Ultra Ethernet Transport: il network del futuro prende forma

Una mission dalle tante sfaccettature, quella dell’UEC che, per raggiungere l’obiettivo in modo omogeneo e concreto ha identificato alcune “caratteristiche auspicabili” per il “nuovo Ethernet”. Dovrà permettere un ordine di consegna flessibile, anche attraverso moderni meccanismi di controllo della congestione. Il rigido ordinamento dei pacchetti utilizzato dalle vecchie tecnologie, infatti, risulta oggi limitare l’efficienza, impedendo che i dati non ordinati vengano consegnati direttamente dalla rete all’applicazione. Una via percorribile potrebbe essere quella di puntare sul supporto di API moderne che allentano i requisiti di ordinamento dei pacchetti, per ridurre le “latenze di coda”.

Un altro aspetto importante riguarda il multi-pathing e il packet spraying, che prevedono l’invio simultaneo dei pacchetti lungo tutti i percorsi di rete disponibili tra la sorgente e la destinazione, migliorando le prestazioni in modo significativo. Altri requisiti auspicabili, secondo il UED, dovranno inoltre riguardare la scalabilità e la telemetria end-to-end.

Quello a cui il consorzio sembra star architettando è di sostituire il protocollo RDMA over Converged Ethernet (RoCE) con un nuovo protocollo di livello trasporto che offra le caratteristiche richieste. Si potrebbe trattare di un Ultra Ethernet Transport sviluppato apposta per supportare il multipath, la distribuzione a pioggia dei pacchetti e algoritmi efficienti di controllo della velocità. Un nuovo paradigma che esporrà ai carichi di lavoro AI e HPC un’API di semplice implementazione.

Questo sembrerebbe essere l’obiettivo ambizioso condiviso da tutti i membri, tra cui spicca HPE. Questa azienda potrebbe essere destinata a fare da traino al progetto, dato che dispone già di un’interconnessione HPC basata su Ethernet. Si tratta della tecnologia Cray Slingshot, una sorta di “superset” di Ethernet che mantiene la compatibilità con i frame Ethernet standard ed è già di supporto a molti dei progetti di supercomputer, compreso quello dell’exascale Frontier.

Per il momento, l’UEC non si sbilancia particolarmente: resta vago nel dichiarare i suoi “intenti tech”, spiegando che i concetti tecnici chiave sono ancora in fase di identificazione e di elaborazione. Non resta che attendere le prime bozze ratificate del progetto, promesse per la fine del 2023 o per l’inizio del 2024, con l’idea di lanciare i primi prodotti basati sugli standard entro il 2024 stesso.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati

Articolo 1 di 4