Strategie di archiviazione per l’AI e con l’AI: guida alla gestione

Le aziende stanno affidandosi all’Intelligenza Artificiale e all’apprendimento automatico per potenziare il business. Dal punto di vista dello storage, significa ripensare infrastrutture e servizi per definire una gestione a prova di futuro. A volte utilizzando lo stesso machine learning

Strategie di archiviazione che cambiano in funzione dei carichi di lavoro, soprattutto se questi carichi sono legati a quelle tecnologie esponenziali che utilizzano un ingente numero di dati. Intelligenza Artificiale, machine learning e deep learning stanno rivelandosi fondamentali in ogni tipo di business.

Per i responsabili delle infrastrutture significa imparare a essere più lungimiranti. Le esigenze di archiviazione e di elaborazione dei dati, infatti, quando c’è di mezzo l’AI sono significativamente diverse rispetto alla gestione dei carichi di lavoro tradizionali.

Indice degli argomenti

Supportare la programmazione incrementale

Per funzionare, intelligenza artificiale e machine learning richiedono enormi quantità di dati. Costruire e formare i modelli nonché mantenerli in esecuzione per i sistemi aziendali significa supportare ingenti carichi di lavoro. Il processo è altamente complesso.

Quando un’organizzazione attinge a una serie di dati per costruire e definire modelli di Ai o di machine learning, si appoggia essenzialmente a degli algoritmi che verranno applicati a uno o più processi aziendali.

La fase di apprendimento automatico richiede che gli algoritmi, nel tempo, elaborino ripetutamente e progressivamente grandi quantità di dati.

Una volta che un’organizzazione ha creato un modello, infatti, questo viene applicato a una fonte di dati per generare un nuovo set di risultati che portano valore all’azienda. La progettazione avviene mediante un processo iterativo in cui i modelli vengono sviluppati, testati e riprogrammati ogni volta che si vanno ad aggiungere nuovi dati. È questo processo che consente di perfezionare il modello, attraverso un ciclo di programmazione continuo.

Strategie di archiviazione e l’I/O blender

Quando si esaminano i requisiti di archiviazione associati ai carichi di lavoro dell’Intelligenza Artificiale, non bisogna dimenticare come gli algoritmi intelligenti siano già ampiamente usati anche nelle stesse piattaforme di storage.

L’applicazione dei profili I / O, ad esempio, non è mai del tutto casuale. Gli esperti, a questo proposito, citano il caso del cosiddetto I/O blender, un fenomeno che negli ambienti virtualizzati va a degradare le prestazioni di archiviazione.

Quando più macchine virtuali (VM) inviano tutte i loro flussi di input/output a un hypervisor per l’elaborazione possono generarsi carichi di lavoro anche molto pesanti. A questo punto, processi I / O generalmente sequenziali, diventano casuali. Di conseguenza, non solo aumenta l’attività di lettura / scrittura sulle testine del disco e aumenta la latenza.

Questa randomizzazione può verificarsi con tutte le piattaforme di virtualizzazione. Le strategie di archiviazione in questo caso vanno ad aggiungere unità a stato solido per la memorizzazione nella cache e soluzioni di overprovisioning che sono basate su algoritmi di AI. Per risolvere la mancanza di prevedibilità, infatti, i fornitori addestrano i propri sistemi di archiviazione a migliorare le prestazioni complessive della piattaforma.

Capacità di autoregolazione degli storage grazie all’AI

La maggior parte delle moderne funzionalità di ottimizzazione automatica sono state sviluppate per rispondere all’esigenza di un’organizzazione di gestire più livelli di archiviazione all’interno di una singola appliance.

Prodotti come il tiering dello storage completamente automatizzato di Dell EMC o FAST, hanno spostato i dati inattivi nello storage a basso costo, promuovendo dinamicamente i dati attivi su supporti più veloci. Oggi, questo requisito è meno rilevante con i sistemi all-flash ma diventerà più importante man mano che nelle aziende si diffonderà l’uso del multi-flash su più livelli.

Per migliorare le strategie di archiviazione, l’uso dei dati di campo per migliorare l’affidabilità delle piattaforme è probabilmente l’applicazione più interessante dell’IA in ambito storage. Fornitori come Hewlett Packard Enterprise e Pure Storage raccolgono informazioni di sistema in grado di rilevare e risolvere anomalie nelle prestazioni e individuare potenziali bug. Il risultato? Che i tempi di attività per le piattaforme a doppio controller come, ad esempio, Nimble Storage, possono essere aumentati a sei nove, ovvero 99,9999% o anche più.

Ai e storage: quali sono le sfide

Le aziende che stanno sviluppano le proprie strategie di archiviazione cercando di avvantaggiarsi dall’uso dell’apprendimento automatico e dell’Intelligenza Artificiale, si trovano ad affrontare due grandi sfide:

Archiviazione e conservazione dei dati a lungo termine – Quando si decide di usare AI e ML, all’inizio dello sviluppo non è sempre chiaro quali dati siano utili e quali invece possono essere scartati. In questo caso la soluzione migliore è quella di utilizzare soluzioni a lungo termine come un archivio ad oggetti o un cloud pubblico. Entrambe le opzioni possono conservare i dati in piattaforme ben indicizzate che fungono da data lake.
Opzioni ad alte prestazioni – Quando un’organizzazione deve spostare i dati attivi su una piattaforma ad alte prestazioni per gestire l’elaborazione deve risolvere anche il tema della velocità. Alcuni fornitori offrono prodotti che combinano sistemi di archiviazione più veloci con componenti hardware che integrano algoritmi di machine learning. Un esempio? Le GPU DGX-1 e DGX-2 di Nvidia.

La creazione della piattaforma di archiviazione più adatta può comportare costi significativi e richiede competenze specifiche per garantire che la componente hardware che usa l’AI riceva continuamente dati. L’obiettivo di questo tipo di soluzioni e elevare la capacità di misurazione e quindi il bilanciamento delle prestazioni. Non a caso, in questo momento i vendor stanno ottimizzando i loro prodotti di archiviazione per le funzionalità richieste dai carichi di lavoro AI, piuttosto che per carichi di lavoro generici.

graphic Strategie di archiviazione per il machine learning

Come sviluppare una strategia di archiviazione in funzione dell’AI

ML e AI hanno requisiti di archiviazione molto specifici, che includono:

Scalabilità. L’apprendimento automatico richiede alle organizzazioni di elaborare grandi quantità di dati. Ma l’elaborazione esponenziale di più volumi di dati nei modelli comporta solo miglioramenti lineari. Questo significa che, per aumentarne la precisione, ogni giorno le aziende devono raccogliere e archiviare progressivamente un numero crescente di dati.
Accessibilità. I dati devono essere continuamente accessibili. L’apprendimento automatico richiede che il sistema di archiviazione legga e rilegga interi set di dati (solitamente in modo casuale). Il che non permette più di utilizzare sistemi di archiviazione che offrono solo metodi di accesso sequenziale come, ad esempio, le tecnologie a nastro.
Latenza. La latenza dell’I / O è importante per la creazione e l’utilizzo di modelli di machine learning / AI. I dati in questi processi vengono letti e riletti molte volte. La riduzione della latenza I / O può ridurre i tempi di formazione delle macchine anche nell’ordine dei giorni o dei mesi. In sintesi, lo sviluppo più rapido del modello si traduce in un maggiore vantaggio commerciale.
Throughput. La produttività dei sistemi di archiviazione è fondamentale per l’applicazione più efficace di soluzioni di AI. I processi di formazione associati al ML utilizzano enormi quantità di dati, spesso misurati in terabyte all’ora. Per molti sistemi di archiviazione può essere difficile fornire questo livello di dati ad accesso casuale.
Accesso parallelo. Al fine di raggiungere un rendimento elevato, i modelli di apprendimento automatico suddivideranno i task su più attività parallele. Spesso questo significa che gli algoritmi di apprendimento automatico possono accedere contemporaneamente agli stessi file da più processi, collegandosi a più server fisici. Le migliori strategie di archiviazione devono far fronte al sovrapporsi delle richieste senza che questo influisca sulle prestazioni.

Naturalmente, questi requisiti sono molto specifici e focalizzati su prestazioni elevate. In generale, quando si parla di apprendimento automatico e/o AI vengono utilizzati dati non strutturati (oggetti o file). È questo che determina la tipologia di archiviazione che un’organizzazione sceglierà di utilizzare.

Pro e contro di diverse tecnologie di archiviazione

Il modo più rapido per elaborare qualsiasi set di dati è quello di archiviare i suoi contenuti nella memoria, poiché la RAM dinamica (DRAM) opera in una manciata di nanosecondi. Le piattaforme server, però, hanno una capacità di memoria limitata. Ad esempio, anche un singolo server con un massimo di 6 TB di DRAM è troppo piccolo per elaborare i carichi di lavoro associati al binomio ML/AI.

Gli algoritmi di apprendimento automatico, infatti, devono accedere a una qualche forma di archiviazione persistente. Il che rende più complicata la gestione. Ecco qualche indicazione utile a capire come procedere alla scelta migliore per la propria azienda.

Lo storage a blocchi offre la latenza più bassa per l’I / O, ma non fornisce la necessaria scalabilità per le distribuzioni multi-petabyte. Per le alte prestazioni anche il costo di questo tipo di prodotti è un fattore da considerare. Alcuni fornitori stanno implementando opzioni ibride che combinano tecnologia a blocchi e tecnologia file system scalabile.

L’archiviazione basata su file garantisce sia la scalabilità che il giusto metodo di accesso ai dati non strutturati. Il problema è che questo tipo di prodotti non è il massimo a livello di prestazioni.

La memorizzazione degli oggetti offre il massimo livello di scalabilità e un protocollo di accesso più semplificato tramite HTTP (S). Gli object store sono in grado di gestire più richieste I / O simultanee, ma in genere non offrono il throughput migliore o la latenza più bassa.

A seconda dei casi, per alcune implementazioni di machine learning / AI si potrà usare un mix di piattaforme, archiviando la maggior parte dei dati, ad esempio in un archivio ad oggetti, e spostando il set di dati attivi in un file system ad alte prestazioni come parte del processo di auto-apprendimento. Attenzione, però: questa scelta non deve essere considerata una best practice dal momento che può introdurre ulteriori ritardi nell’elaborazione mentre i dati vengono spostati.

Come e perché non farsi cogliere impreparati: esempi

Valutando le migliori strategie di archiviazione in presenza di carichi di lavoro associati all’uso del machine learning e dell’AI le organizzazioni devono pensare in prospettiva.

Le realtà che hanno grandi volumi di dati di ingresso certamente saranno quelle che potranno trarne maggiori vantaggi.

Si pensi solo alle aziende dell’automotive che con le auto a guida autonoma raccolgono molti terabyte di dati al giorno. Si tratta di un’enorme quantità di dati anche solo per una piccola flotta di veicoli di prova.

Un altro caso sono le compagnie aeree, che utilizzano ampiamente l’IA per qualsiasi cosa: dalla raccolta dei dati statistici sugli aeromobili in volo, alla gestione efficiente del bagaglio o al riconoscimento facciale. Sono inoltre in fase di sviluppo prodotti incentrati sul consumatore tali da consentire ai clienti di porre domande utilizzando dispositivi intelligenti come, ad esempio, Alexa.

Anche le smart city, nel tentativo di creare ambienti urbani migliori e più sicuri per tutti, stanno raccogliendo un mare di informazioni, dalla gestione del traffico all’utilizzo di energia, dai dati relativi a umidità e temperatura ai livelli di inquinamento.

Strategie di archiviazione e ML/AI: panoramica del mercato

L’iperconvergenza in questo senso, è la chiave risolutiva. Molti fornitori vendono prodotti di archiviazione autonomi e preconfezionati a supporto dei machine learning e dei carichi di lavoro associati all’Intelligenza Artificiale. Pure Storage, Dell EMC, IBM e NetApp offrono prodotti incentrati su un’infrastruttura convergente, in cui combinano storage, networking e calcolo in un singolo rack. I pacchetti di prodotti DataDirect Network, ad esempio, riducono l’archiviazione dei file con le GPU Nvidia DGX-1.