Come fare spazio alle applicazioni AI nel data center

Intelligenza artificiale e, soprattutto, ‘deep learning’ sono ancora agli inizi di un’ampia diffusione, ma il supporto di questi moderni algoritmi richiede un urgente potenziamento dell’architettura di data center, a livello di risorse di storage, networking e capacità computazionale

Se n’è discusso e fantasticato per lungo tempo, in dibattiti scientifici, film di fantascienza, nell’immaginario collettivo: ma ancora, per il momento, nell’attesa di vedere come in questo secolo l’intelligenza artificiale (AI) cambierà il mondo, non si può ignorare che la sua applicazione nell’IT è soltanto agli albori. Oggi, in effetti, nel settore restano sul tappeto diverse sfide e problemi tecnici da affrontare e risolvere, per implementarla a un certo livello. In particolare, ingegneri e responsabili IT nei prossimi anni dovranno progettare architetture di data center in grado di superare le attuali limitazioni delle infrastrutture informatiche, soprattutto in termini di risorse di storage, networking, capacità elaborativa.

‘Smart machines’, ampia adozione già nel 2021

La velocità di evoluzione della tecnologia non lascia comunque molto tempo per lavorare a nuove soluzioni. Le macchine intelligenti entreranno infatti nella fase ‘mainstream’, quindi di larga diffusione, già nel 2021, con un tasso di adozione del 30% da parte delle grandi imprese, prevede Gartner. Sotto il termine ‘smart machines’ la società di ricerche annovera, oltre all’intelligenza artificiale, una ricca rosa di tecnologie: cognitive computing, intelligent automation, apprendimento automatico (machine learning), ‘deep learning’.

Quest’ultimo, assieme all’intelligenza artificiale, aggiunge Gartner, sarà un importante fattore da considerare nella progettazione delle architetture di data center.

Le applicazioni AI influenzeranno ogni singolo settore industriale, e sarà decisivo riuscire a intervenire in maniera proattiva, pianificando e architettando soluzioni in grado di supportare sistemi di AI e applicazioni di deep learning all’interno del data center. In realtà, la maggioranza delle organizzazioni non sta ancora integrando tecnologia AI: mentre gran parte di esse sta faticando a partire, a fare da apripista nel settore, tra gli ‘early adopters’, vi sono soprattutto cloud provider come Google e Amazon Web Services.

Serve uno storage capace di gestire enormi volumi di dati

Per addestrare, collaudare e validare gli algoritmi delle reti neurali, le applicazioni di deep learning e AI necessitano di metabolizzare grandi moli di dati, e ciò crea problemi agli amministratori del data center, che hanno il compito di predisporre l’infrastruttura di memorizzazione. “Fin che si tratta di algoritmi di

machine learning ‘regression-based’, si possono utilizzare limitati data set – spiega Chirag Dekate, Research Director di Gartner – ma quando si parla di amministrare ecosistemi più evoluti di reti neurali, si comincia ad andare incontro a problemi di scalabilità”. È il caso, ad esempio, delle tradizionali architetture NAS (network-attached storage), che sotto questo aspetto presentano inconvenienti di I/O e latenza. Alcune startup stanno esplorando i file system paralleli a banda elevata, per incrementare il throughput e abilitare la scalabilità, ma sono eccezioni: queste tipologie di architetture, infatti, fanno entrare in gioco diversi componenti (dai server di metadati ai sistemi di storage) che richiedono di essere adattati, orchestrati e messi a punto per funzionare con la massima efficienza: “In altre parole, i file system paralleli sono estremamente complessi da gestire”, chiarisce Dekate.

Networking ad alta efficienza nel data center

“Sul piano delle architetture di networking, per fornire elevata efficienza anche quando si scala e aumenta la capacità, gli amministratori IT si trovano di fronte all’esigenza di aggiornare e migliorare le reti: il punto, però, è che per molti di loro questa non è ancora diventata una massima priorità”, aggiunge Dekate. Gli algoritmi di deep learning, spiega, sviluppano comunicazioni ad intensità estremamente elevata, e per le organizzazioni sarà molto arduo concentrarsi sullo studio di soluzioni in questo genere di applicazioni. Tuttavia, man mano che preparano le proprie infrastrutture ad abilitare l’intelligenza artificiale, gli ingegneri addetti alla progettazione del networking nel data center dovranno rendere prioritaria la scalabilità, che richiederà reti a banda elevata e bassa latenza, e architetture innovative, come InfiniBand o Multi-Path.

Deep learning: esige architetture di elaborazione eterogenee

Un ambiente IT ‘CPU-based’ può essere in grado di gestire la vasta maggioranza dei workload di machine learning e AI, ma quando si passa a considerare le funzionalità di deep learning, che richiedono l’utilizzo di molteplici ed enormi data set, e il dispiegamento di algoritmi che adottano reti neurali scalabili, un ambiente di elaborazione unicamente basato su CPU può non essere più sufficiente.

A questo livello, per fornire le necessarie capacità di elaborazione, l’ambiente IT deve integrare altre tecnologie, come quelle basate su GPU (graphics processing unit). Sul mercato, nell’offerta disponibile, queste ultime possono spaziare dalle GPU di Nvidia, a quelle di AMD, ai dispositivi Xeon Phi di Intel, solo per fare alcuni esempi.

In altri termini, precisa Dekate, occorre sviluppare architetture eterogenee, dove le funzioni dei processori core vengono completate da quelle di acceleratori ‘special-purpose’, per fornire una maggior densità di potenza computazionale e il throughput richiesto dalle applicazioni.

In aggiunta, l’implementazione delle GPU consente agli amministratori IT di ottimizzare l’infrastruttura di data center per l’efficienza energetica, e ciò è particolarmente importante quando si devono scalare gli ecosistemi GPU-based oltre un singolo nodo, condizioni in cui essi possono diventare molto ‘affamati’ di energia. Non a caso, un fornitore di cloud ‘hyperscale’ come Google, è già corso ai ripari, attraverso la propria società sussidiaria DeepMind, acquisita nel 2014, che gli consente, tramite la propria tecnologia, di ridurre del 40% l’energia richiesta per il raffreddamento dei data center. Il fatto è, però, che quasi tutti i data center di fascia enterprise appartenenti al resto del mercato non dispongono delle risorse di Google per replicare un modello simile, indirizzato a mitigare i problemi di efficienza.