Parlare di intelligenza artificiale è diventato quasi un rituale nella vita delle aziende. Ogni presentazione, ogni conferenza, ogni roadmap aziendale cita, prima o poi, l’AI. Eppure, sotto la patina brillante di questa corsa all’automazione a tutti i costi si nasconde un ostacolo che la maggior parte delle organizzazioni non è ancora riuscita a superare: i dati che alimentano l’AI non sono, quasi mai, pronti per essere usati e trasformati in valore tangibile dagli algoritmi. Ragion per cui i proof-of-concept (PoC) proliferano ma l’IA raramente entra in produzione nei processi aziendali.
Indice degli argomenti
Perché l’AI fallisce senza dati AI ready
I numeri sono inequivocabili: un recente report di Gartner stima che il 60% dei progetti AI che non vengono supportati da dati AI ready verrà abbandonato entro il 2026. Lo stesso studio rivela che ben il 63% delle organizzazioni non ha ancora adottato prassi di gestione dei dati adeguate alle esigenze delle diverse applicazioni dell’intelligenza artificiale. Secondo una ricerca del think tank statunitense RAND, invece, addirittura l’80% dei progetti AI fallisce, il doppio rispetto ai tradizionali progetti IT. Il problema non è la tecnologia dell’Artificial Intelligence in quanto tale. È, invece, tutto ciò che la precede ed è propedeutico alla sua applicazione.
Syam Nair, Chief Product Officer di NetApp, lo ha detto chiaramente a più riprese durante il suo recente intervento sul palco della tappa milanese del roadshow Insight Xtra organizzato dalla casa californiana. «Tutti parlano di AI, ma la domanda reale è, piuttosto, come è possibile generare valore dall’intelligenza artificiale. Servono dati AI ready, pronti per essere inseriti, distillati e compresi dall’intelligenza artificiale, ma la maggior parte delle infrastrutture dati attuali non è pronta per questo. Siamo preparati per gestire i dati provenienti dai database, i dati strutturati e semistrutturati, ma il volume e la varietà degli attuali dataset richiedono un cambio di paradigma. Se il dato rimane distribuito in silos, duplicato, privo di governance e di una modellazione semantica comune, i progetti AI si fermano su tre ostacoli principali: tempi infiniti di data engineering, problemi di qualità e conformità, mancanza di un’unica fonte della verità».

Cosa sono i dati AI ready
Nair, che ha maturato esperienze in ruoli apicali all’interno di vendor del calibro di Salesforce e Microsoft, è stato assunto un anno fa per far evolvere l’offerta NetApp oltre i confini della gestione evoluta dello storage, orientandola alla trasformazione dei record aziendali in dati pronti per essere interpretati dagli algoritmi e dai grandi modelli linguistici dell’intelligenza artificiale, così da accelerare il ROI dei progetti di automazione intelligente. La sua missione è chiara: rendere ogni dato immediatamente utilizzabile dall’AI nel momento stesso in cui viene prodotto.
Per spiegare il concetto di dati AI-ready, Nair racconta che tutta l’organizzazione NetApp utilizza la piattaforma proprietaria Ontap per gestire petabyte di dati generati dai modelli di business interni, dagli ambienti dei clienti e dal cloud. «Fino a pochi anni fa – ha spiegato – il team di data engineering doveva realizzare manualmente pipeline complesse: trovare le fonti dei record, eseguire la deduplica, armonizzare i dati e poi creare modelli semantici utilizzabili dai sistemi AI. Questo lavoro doveva essere fatto continuamente e noi stessi avevamo bisogno di centinaia, se non addirittura di migliaia di ingegneri e data scientist, con il risultato di un sistema costoso, rigido e quasi sempre disallineato rispetto ai tempi e alle esigenze del business».
Dal log grezzo al modello logico: il ruolo del metadata engine
La soluzione che NetApp propone inverte questa logica. Grazie a un metadata engine integrato direttamente in Ontap – il sistema operativo della piattaforma proprietaria di data management intelligente – quando un dato viene scritto, viene anche automaticamente classificato, annotato con tutti i metadati utili e descritto attraverso un modello che ne coglie sia la struttura logica sia il significato. Questo significa nessuna operazione manuale e nessun esercizio di armonizzazione.
«Quando dico dati AI ready – ha precisato Nair –, intendo che i dati non devono più passare attraverso complesse procedure di armonizzazione. Tutto avviene in tempo reale, all’interno di policy predefinite dall’azienda. Il punto cardine è che la governance e i guardrail, ovvero le regole che definiscono chi può usare i dati, come possono essere classificati e quale policy di sicurezza devono rispettare, sono integrate nel dato stesso fin dal momento della sua creazione. Il metadata engine, inoltre, permette di integrare sistemi storage diversi fornendo quindi una rappresentazione che non è solamente un modello semantico e fisico, ma soprattutto un modello logico del dato».
Dallo storage in a box alla intelligent data infrastructure
Alla base di questa visione c’è una data platform unificata «che funziona in ogni ambiente cloud e in ogni datacenter e che gestisce file, oggetti e blocchi attraverso un unico piano di controllo». Ci si muove, quindi, da una logica di Unified Storage a una di Unified Data Model, in cui la distinzione tra formato fisico e consumo logico del dato viene astratta dal metadata engine e dai data service.
«In questa architettura, componenti come NetApp AFX e AI Data Engine assicurano la singola fonte di verità out of the box per pipeline AI che, altrimenti, sarebbero frammentate. Si passa, così, da infrastrutture ad hoc pesanti e disaggregate a un motore dati coerente, progettato per scalare fino all’exabyte mantenendo resilienza e performance elevate».
Governance, sicurezza, sovranità: i guardrail dell’AI
Uno dei concetti ribaditi a più riprese da Nair è che il cloud non debba rappresentare necessariamente l’approdo privilegiato per i dati aziendali se l’obiettivo è supportare in modo efficace le esigenze dell’IA. Accanto ai modelli di servizio dei grandi hyperscaler, infatti, si diffondono soprattutto in Europa strategie di delocalizzazione dei dati che si rifanno a principi di cloud sovrano (sovereign cloud e neocloud), per soddisfare esigenze di governance territoriale dei dati e sopperire ai requisiti di conformità a regolamentazioni comunitarie e nazionali – come il GDPR.
«Abbiamo centinaia di exabyte di dati che si trovano on premise, dove sono stati originati – ha sottolineato il manager – e la sfida principale, oggi, è garantire la capacità di accedere e operare su questi dati ovunque si trovino». Su questo aspetto NetApp punta come elemento di differenziazione della propria offerta: «La nostra è l’unica piattaforma a garantire una integrazione nativa con tutti e tre i maggiori hyperscaler ovvero AWS, Microsoft Azure e Google Cloud. La tecnologia di cashing remoto NetApp FlexCache rappresenta uno dei vantaggi più concreti di questa integrazione. Permette, infatti, di collegare in modo trasparente i dati che risiedono on premise e nel cloud senza la necessità di copiarli fisicamente. Se un’azienda ha i dati in un datacenter e vuole usarli per addestrare un modello su Google Cloud, non serve spostare tutto. Si crea una connessione trasparente e i metadati vengono sincronizzati per arrivare dove sono richiesti», ha spiegato.
Il datacenter diventa AI factory
Latente, nella presentazione del manager, anche se mai esplicitato, il concetto di AI factory – datacenter specificamente progettati per alimentare pipeline di intelligenza artificiale, basati su infrastrutture computazionali ad altissime prestazioni –, che è uno dei temi più dibattuti nell’industria.
NetApp si posiziona come provider dell’infrastruttura dati per queste fabbriche grazie alla combinazione tra la piattaforma AFX (sistema di storage disaggregato all-flash) e l’AI Data Engine costruito sulla tecnologia di Nvidia. Il lavoro che NetApp sta facendo con la società californiana va ben oltre la semplice integrazione delle sue schede grafiche (GPU). Nair ha parlato di una visione più strategica di questa partnership, che mira a ridurre la distanza tra i dati e gli ambienti computazionali.
Oggi, nell’architettura tradizionale dei datacenter, infatti, dati e capacità di calcolo sono ancora separati e disaggregati. I modelli AI devono pescare i dati dai sistemi storage, trasferendoli verso i nodi di elaborazione. Con i volumi di dati che crescono in modo esponenziale sotto la spinta delle applicazioni di generative AI, questa distanza si traduce in maggior latenza e in un aggravio di costi. È il fenomeno noto come data gravity: più i dati sono voluminosi, distribuiti e regolamentati, più diventano difficili e costosi da spostare rispetto alle applicazioni che li utilizzano.
«Ecco perché stiamo lavorando con Nvidia per portare la capacità di elaborazione sempre più vicina ai dati. Nel contesto della nostra piattaforma, questa visione si concretizza nell’AI Data Engine, un’estensione di Ontap che integra il calcolo accelerato della tecnologia Nvidia direttamente nella piattaforma storage, garantendo anche il supporto alla ricerca semantica e alla vettorizzazione dei dati. Questa vicinanza logica tra dati e capacità di calcolo è cruciale per i workload AI e consente di abbattere la data gravity senza compromettere performance e compliance».



















