TechTarget

Quando l’infrastruttura ML si adegua all’AI: requisiti ed esempi

L’apprendimento automatico, quello profondo e l’AI pretendono componenti e configurazioni ad hoc che vanno conosciuti e ben distinti.

Pubblicato il 10 mag 2024

Redazione

L’IT è l’arte che permette alle aziende di trarre dai dati un reale vantaggio competitivo. Ne hanno tanti, sempre di più, ma la tecnologia per elaborarli e analizzarli non sempre resta al passo. È un problema di quantità ma anche di tipologie di dati: sono sempre più numerose e complesse da gestire in modo uniforme.

Il boom di dati non strutturati, per esempio, ha messo a dura prova sistemi informativi tradizionalmente basati su quelli strutturati, spingendo allo sviluppo di nuovi algoritmi basati su machine learning (ML) e deep learning (DL). Questo ha spinto le aziende a investire in sistemi e infrastrutture ad hoc per i nuovi carichi di lavoro conseguenti.

Sebbene l’interesse per ML e DL non sia una novità, tecnologie come ChatGPT e Microsoft Copilot accendono l’interesse per le applicazioni AI aziendali. IDC prevede che entro il 2025 il 40% dei budget IT delle organizzazioni Global 2000 sarà destinato a iniziative legate all’AI, sempre più visto come motore di innovazione.

Le imprese costruiscono molte delle loro applicazioni AI nel cloud, sfruttando servizi di ML e deep learning di alto livello come Amazon Comprehend o Azure OpenAI Service. L’enorme quantità di dati necessari per il training degli algoritmi, gli elevati costi di trasferimento e archiviazione dei dati nel cloud e la necessità di risultati in tempo reale (o quasi) spingono molti all’utilizzo di sistemi AI distribuiti in ambienti privati e dedicati. Molti di questi risiedono nei data center aziendali, per esempio, ma ne esistono anche on edge quando serve che risiedano vicino alla fonte dei dati da analizzare.

Per prepararsi a un futuro potenziato dall’intelligenza artificiale, l’IT deve compiere importanti scelte architetturali e di implementazione. Tra queste, la progettazione e le specifiche dei cluster hardware per AI, opzione che promette densità, scalabilità e flessibilità ed è rappresentata dai sistemi di infrastruttura iperconvergente (HCI). Sebbene molti elementi dell’hardware ottimizzato per l’AI siano altamente specializzati, il design complessivo somiglia all’hardware hyperconverged più comune. Esistono infatti architetture di riferimento HCI create per l’utilizzo di ML e AI.

Indice degli argomenti

Requisiti AI ed elementi hardware fondamentali

Gli algoritmi ML e DL si nutrono di dati che vanno selezionati, raccolti e pre-elaborati compiendo il filtraggio, la categorizzazione e l’estrazione di caratteristiche. Sono passaggi fondamentali per assicurarsi accuratezza e capacità predittiva di un modello. L’aggregazione dei dati (consolidamento dei dati provenienti da più fonti) e l’archiviazione sono quindi elementi significativi delle applicazioni di AI che impattano sulla progettazione dell’hardware.

Le risorse necessarie per l’archiviazione dei dati e il calcolo dell’AI non scalano di solito all’unisono. La maggior parte dei progetti di sistema disaccoppia le due cose, quindi, prevedendo uno storage locale in un nodo di calcolo AI abbastanza grande e molto veloce: adeguato ad alimentare l’algoritmo.

Il suo training richiede un numero massiccio di operazioni di moltiplicazione e accumulo di matrici in virgola mobile. Gli algoritmi possono eseguire i calcoli matriciali in parallelo, inoltre, rendendo ML e DL calcoli grafici come l’ombreggiatura dei pixel e il ray-tracing, tutti notevolmente accelerati dalle GPU. Tuttavia, a differenza della grafica e delle immagini CGI, tali calcoli spesso non richiedono una precisione a doppia precisione (64 bit) o addirittura a singola precisione (32 bit). Ciò consente di aumentare ulteriormente le prestazioni riducendo il numero di bit in virgola mobile utilizzati nei calcoli. Nell’ultimo decennio, le prime ricerche sull’apprendimento profondo hanno utilizzato schede acceleratrici di GPU standard. Ora, i leader di settore hanno una linea di prodotti separata di GPU per data center, pensata per i carichi di lavoro scientifici e di intelligenza artificiale.

Recentemente, per esempio, Nvidia ha annunciato una nuova linea di GPU specificamente progettata per incrementare le prestazioni dell’intelligenza artificiale generativa su desktop e laptop, oltre ad aver introdotto una linea di supercomputer AI appositamente costruiti.

Requisiti e componenti del sistema

I componenti del sistema più critici per le prestazioni dell’AI sono i seguenti:

CPU. Responsabile del funzionamento del sottosistema della macchina virtuale o del container, del dispacciamento del codice alle GPU e della gestione dell’I/O. I prodotti attuali utilizzano il popolare processore Xeon Scalable Platinum o Gold di quinta generazione, anche se i sistemi che utilizzano CPU AMD Epyc di quarta generazione (Rome) stanno diventando sempre più popolari. Le CPU di ultima generazione hanno aggiunto funzionalità che accelerano in modo significativo le operazioni di inferenza di ML e deep learning, rendendole adatte ai carichi di lavoro di AI di produzione che utilizzano modelli precedentemente addestrati con le GPU.
GPU. Gestisce l’addestramento e l’inferenza di ML o deep learning, ovvero la capacità di categorizzare automaticamente i dati in base all’apprendimento. Nvidia offre server accelerati appositamente costruiti attraverso la sua linea EGX. Anche la CPU Grace dell’azienda è stata progettata pensando all’intelligenza artificiale e ottimizza le comunicazioni tra CPU e GPU.
Memoria. Le operazioni di intelligenza artificiale vengono eseguite dalla memoria della GPU, per cui la memoria di sistema non rappresenta di solito un collo di bottiglia e i server dispongono in genere di 512 GB o più di DRAM. Le GPU utilizzano moduli di memoria integrati ad alta larghezza di banda. Nvidia si riferisce a questi moduli come Streaming Multiprocessors, o SM. Secondo Nvidia, “la GPU Nvidia A100 contiene 108 SM, una cache L2 da 40 MB e una larghezza di banda fino a 2039 GB/s da 80 GB di memoria HBM2”.
Rete. Poiché i sistemi di IA sono spesso raggruppati in cluster per scalare le prestazioni, i sistemi tendono a essere dotati di più porte 10 GbE o 40 GbE.
IOPS di archiviazione. Lo spostamento dei dati tra i sottosistemi di archiviazione e di elaborazione è un altro collo di bottiglia delle prestazioni per i carichi di lavoro AI. Quindi, la maggior parte dei sistemi utilizza unità NVMe locali invece di SSD SATA.

Le GPU sono state il cavallo di battaglia della maggior parte dei carichi di lavoro dell’AI e Nvidia ha migliorato in modo significativo le prestazioni del deep learning grazie a funzionalità come Tensor Core e GPU multi-instance (per eseguire più processi in parallelo e interconnessioni GPU NVLink).

Le aziende possono utilizzare qualsiasi sistema HCI o ad alta densità per l’IA scegliendo la giusta configurazione e i componenti del sistema. Tuttavia, molti fornitori offrono prodotti mirati ai carichi di lavoro di ML e deep learning.

@RIPRODUZIONE RISERVATA

Redazione

Nel corso degli anni ZeroUno ha esteso la sua originaria focalizzazione editoriale, sviluppata attraverso la rivista storica, in un più ampio sistema di comunicazione oggi strutturato in un portale, www.zerounoweb.it, una linea di incontri con gli utenti e numerose altre iniziative orientate a creare un proficuo matching tra domanda e offerta.