Data Fabric: cos’è e come cambia il data management

pittogramma Zerouno

Tech InDepth

Data Fabric: cos’è e come cambia il data management

Data Fabric è un concept architetturale innovativo fondato sulla governance centralizzata, sull’automazione dei task di data engineering e sulla distribuzione della ‘single version of the truth’ verso ampie platee di data consumer

29 Lug 2022

di Emanuele Villa

Oggi, la maggior parte delle enterprise ama definirsi data-driven, ovvero guidata dai dati. In realtà, il limite che stanno incontrando è la diffusione orizzontale delle decisioni data-driven. Se quelle di rilevanza strategica sono effettivamente indirizzate o condizionate dai dati, l’adozione di insight a supporto delle decisioni operative è molto più limitata. Svariati i motivi: una data culture non esemplare, l’assenza di una single version of the truth, i data silos e strumenti di fruizione ben poco smart hanno tutti un ruolo in questo contesto. In tale scenario si parla di Data Fabric.

Le sfide del data management

Insieme al valore dei dati, negli ultimi anni è cresciuta esponenzialmente la complessità di gestione degli stessi, e le imprese in grado di proporre una data strategy articolata ed efficace non sono poi molte. Il pain più significativo è sempre quello dei silos: divisioni con i propri database, fonti dati esterne, strumenti di analisi, visualizzazione e data warehouse indipendenti.

INFOGRAFICA
I migliori data analytics tools a confronto: CHI VINCE?
Big Data
Datacenter

Anche i Data Lake, strutture dati per eccellenza nell’universo dei Big Data, sono diventati a loro volta dei silos, rendendo quanto mai complessa la valorizzazione del dato a beneficio del business aziendale. Sono poi aumentate esponenzialmente la varietà di dati (non solo il volume) la loro distribuzione all’interno di architetture sempre più complesse, ibride e multicloud, e anche i data user, che non sono soltanto i dipendenti (IT user e business user) ma anche applicazioni di ogni genere e natura che vanno ‘alimentate’ con i dati aziendali.

Data Fabric, la self-driving car dell’universo dei dati

La soluzione ipotizzata da Gartner per far fronte alle sfide del data management contemporaneo è il Data Fabric, un “design concept composto da un tessuto integrato di dati e processi gestionali”, la cui rilevanza strategica l’ha reso un top trend tecnologico da diversi anni. Di fatto, il Data Fabric è una soluzione concettuale (la stessa Gartner afferma che non esistono piattaforme sul mercato in grado di coprirne il 100% delle funzionalità) finalizzata ad abilitare la gestione, la governance e la valorizzazione del dato negli ambienti enterprise più complessi, con molteplici fonti, estrema varietà e distribuzione degli stessi. Data Fabric abilita una governance enterprise-wide dei dati e si basa su tre pilastri: la virtualizzazione del dato, l’architettura distribuita e l’automazione.

Un modello distribuito

Per prima cosa, Data Fabric è un modello distribuito, ovvero supera il concetto di repository centralizzata che, storicamente, non ha fatto altro che alimentare i silos. I dati non vengono spostati dalle loro strutture, ma virtualizzati: in questo modo, Data Fabric può proporre un modello di governance centralizzata e un solo punto di accesso ai dati aziendali a disposizione dei consumer.

In altri termini, il tessuto di dati è un layer di gestione e governo dei dati sovrapposto a tutte le strutture aziendali, cosa che oltretutto ne garantisce la scalabilità. In un’era in cui le sorgenti aumentano di giorno in giorno (si pensi anche solo alla continua introduzione di nuove applicazioni SaaS), un’architettura flessibile come il Data Fabric è in grado di soddisfare le esigenze di oggi ma anche quelle di domani, qualsiasi esse siano.

Altri temi su cui Gartner insiste molto sono l’automazione intelligente e la miscela di “human and machine capabilities”. Il concetto cui gli analisti si ispirano è quella della self-driving car, dell’auto a guida autonoma che rappresenta il futuro della mobilità. Il Data Fabric è pensato come piattaforma di data management in grado di raggiungere una vera e propria autonomia gestionale mediante il continuo monitoraggio, discovery e analisi dei dati che dinamicamente entrano nel suo ecosistema.

Obiettivo potenziare i task di engineering e non solo

L’automazione funge inizialmente da supporto per i task ripetitivi, come la profilazione dei dataset, ma il suo obiettivo è quello di potenziare i vari task di data engineering, le data pipeline e anche di rilevare correlazioni tra i dati e significati utili al business. Il ruolo della data science, e in particolare del machine learning, è fondamentale ai fini dell’implementazione del modello e dell’autonomia gestionale che lo contraddistingue.

Gartner esprime il concetto in maniera molto chiara quando sostiene che “il Data Fabric identifica e collega dati da applicazioni disparate per scoprire relazioni uniche e business-relevant tra i dati disponibili”. Il tutto viene poi esposto ai consumer (persone e applicazioni) attraverso API o Data Catalog, da cui parte tutta la fase di analisi, visualizzazione e condivisione degli insight basati su una single version of the truth che cresce di giorno in giorno.

Strumenti e benefici del Data Fabric

Come anticipato, Data Fabric è un design concept innovativo. Gli analisti sostengono che le soluzioni di mercato (Data Management Platform) possano in qualche modo coprire un 65%-70% delle funzionalità di un tessuto di dati e che il gap vada colmato con soluzioni ad hoc.

A tal proposito, tecnologie di frontiera quali Active Metadata Management, Knowledge Graph (per il layer semantico) e tool avanzati di integrazione (ETL) – in aggiunta agli onnipresenti algoritmi di machine learning – sono fondamentali per l’implementazione pratica del modello, per la quale è sempre consigliabile adottare un approccio graduale ma basato fin da subito su una visione sistemica.

Non è un caso che gli analisti pongano le architetture dati innovative come principali tech-trend dell’anno. Le imprese sono infatti consapevoli del forte legame tra il loro vantaggio competitivo e la reale capacità di diventare data-driven, cosa che in molti casi è limitata dalla complessità delle strutture dati interne ed esterne.

Adottando un paradigma di data management enterprise-wide, fondato su tecnologie innovative e sulla decentralizzazione (Data Fabric non sostituisce i Data Warehouse e/o Data Lake, ma li integra) le aziende possono ottenere diversi benefici, tra cui:

Accesso self-service a tutti i dati aziendali

Il Data Fabric fornisce al business un unico access point a tutti i suoi dati, costantemente aggiornati a livello di contenuto e sorgente. Il coinvolgimento dell’IT, fondamentale nell’era dei data silos, così si ridimensiona, a totale beneficio dell’agilità.

Governance centralizzata e automatizzata

In contesti ampi e distribuiti, la Data Governance non è soltanto un tema centrale, ma anche di difficile gestione. Il concept di un tessuto di dati che – pur senza alterare le strutture sottostanti – governa tutto l’ecosistema, rappresenta un passo avanti importante non soltanto a livello di controllo e trasparenza, ma anche di automazione nell’applicazione di policy. L’impiego di tool di Data Lineage rende ancor più trasparenti i processi di gestione dei dati. I riflessi (benefici) in termini di compliance possono essere significativi.

Accelerazione della digital transformation

Il Data Fabric è una piattaforma solida e resiliente su cui l’azienda può costruire il suo percorso verso una data-driven company, in aggiunta alle evoluzioni di natura culturale, di mindset e organizzative. La semplificazione della Data Governance e l’incremento di qualità del dato – che è anche una conseguenza della virtualizzazione – contribuiscono ad accelerare il processo di modernizzazione aziendale.

Data Fabric e automazione dei task di data engineering

Citando IBM, tra i grandi benefici derivanti dall’adozione di un Data Fabric c’è senza dubbio l’automazione delle attività di data engineering, con l’eliminazione di aree inefficienti, ripetitive e passibili di errore dei processi (manuali) di data integration.

Emanuele Villa

Giornalista

Appassionato di tecnologia da sempre, ho deciso che avrei impegnato il mio tempo raccontandola e lo faccio dal lontano 2000. Dopo un lungo percorso nel mondo della tecnologia consumer, ora mi occupo soprattutto di Digital Transformation.

Articolo 1 di 5