Osservabilità e contestualizzazione dei dati: ecco come gestire i moderni ambienti cloud

Le architetture multicloud e cloud native generano un’esplosione di dati isolati, che riflettono solo le diverse parti dell’ecosistema cloud da cui hanno avuto origine. Analizzarli e trarne valore è difficile e oneroso. Per semplificare la gestione dell’IT è necessaria l’osservabilità totale delle applicazioni, degli ambienti ibridi e multicloud. Ne parliamo con Roberto Vannucci e Michelangelo Uberti di Dynatrace

Travolte dai dati, migliaia, milioni di informazioni eterogenee, strutturate e destrutturate, di fatto inutili se non si ha la capacità di trarne il valore. È questa la condizione delle organizzazioni, pubbliche e private, alle prese con la trasformazione digitale e l’utilizzo dei dati.

Da una parte, le tecnologie consentono di incrementare la produttività; dall’altra, proporzionalmente, aumenta il livello di complessità. L’IT environment e le infrastrutture delle aziende, infatti, cambiano più o meno ogni minuto e i team informatici spendono circa il 40% del loro tempo a cercare di far funzionare i sistemi di governo delle informazioni.

Queste quantificazioni numeriche delle difficoltà che stanno vivendo le organizzazioni produttive sono contenute nel Global CIO Report 2022 di Dynatrace e danno un’idea precisa di quanto sia controproducente avere molti dati e non essere in grado di gestirli. Per esempio, la survey rivela che, per ogni transazione, anche la più semplice, un’impresa utilizza una media di 7 piattaforme e 35 tecnologie. Uno scenario demotivante, che la maggior parte dei CIO coinvolti dall’indagine ha riassunto in maniera efficace: “La quantità di dati prodotta è superiore alla capacità umana di gestirli”.

Se la Data science, dunque, promette di cambiare la conduzione delle aziende, massimizzandone i profitti, va detto che il percorso non è affatto lineare quanto sembra. A ostacolare il pieno sviluppo della filosofia data-driven di conduzione aziendale ci sono almeno due ordini di problemi: la difficoltà di reperire le figure professionali specializzate in tecnologie analytics e il governo dell’enormità dei dati prodotti.

Indice degli argomenti

Avere tanti dati (e non saperli gestire) non avvantaggia l’analisi strategica

In più, il 90% delle organizzazioni utilizza già tecnologie cloud native, per cui non ha il controllo dei propri data center. “Con il Cloud e la digitalizzazione, la crescita dei dati non è più lineare, ma esponenziale. Tutto ciò che facevi in termini di processo e gestione non è più adeguato”, spiega Roberto Vannucci, Principal Solutions Engineer di Dynatrace.

Si tratta di informazioni eterogenee, dati strutturati e non strutturati, provenienti dall’interno, ma anche dall’esterno dell’azienda. Una vera tempesta perfetta di piccole unità di conoscenza che i Data scientist dovrebbero scandagliare in continuo, per selezionare e organizzare dataset omogenei dai quali trarre valore.

Misurare i processi, produrre dati e scovare il valore nascosto nelle relazioni tra gli stessi dovrebbe consentire, in teoria, di avere il pieno controllo dell’azienda nel presente e anche in prospettiva. Mettere in relazione dati diversi e costruire modelli e algoritmi utili, però, non è semplice. Men che meno è possibile garantire i livelli di qualità, prestazione e sicurezza delle analisi nel loro complesso.

L’urgenza di arrivare a una visione sistemica

Attualmente, i team IT utilizzano strumenti diversi che producono una quantità enorme di informazioni, tutte diverse tra loro e tutte archiviate in silos differenti, a seconda della tipologia. Estrarre i dataset utili all’elaborazione di risposte strategiche è molto complicato. A volte, nelle aziende, si ovvia alle difficoltà di estrazione usando dataset generici, ma questo sistema dà prestazioni molto basse. Infatti, un dataset generico non descrive la situazione specifica dell’azienda, perché toglie ai dati la loro semantica. Il significato del dato, infatti, è strettamente legato al contesto aziendale. Altrettanto lo è la tipologia di dato. Un aspetto molto importante, dunque, è la contestualizzazione.

Per trasformare i dati in informazioni strategiche per il business, quindi, è imperativo utilizzare dati contestualizzati, mappare la complessità e creare le condizioni per elaborare i modelli di conoscenza.

Per queste ragioni, si sostiene nella survey di Dynatrace, il 93% dei CIO ha dichiarato che deve cambiare i propri sistemi e che gestire i dati in silos non è più ragionevole.

Perché gestire i dati in silos non è più ragionevole

Per sfruttare il patrimonio di possibilità conoscitive racchiuse nel flusso di dati occorre innanzitutto avere uno sguardo differente rispetto alla complessità. Dunque, occorre mettere ordine a livello di storage e avere una completa visibilità sui dati.

Ogni data store, infatti, ha le sue peculiarità, i suoi pro e i suoi contro, modalità di memorizzazione diverse, con granularità diverse, time-step diversi: metterli insieme diventa estremamente difficile e oneroso. Infatti, i team ITOps, DevOps, SRE e di sicurezza sono costretti a lunghe procedure manuali, tra cui l’indicizzazione e il ripristino dei dati archiviati. Inoltre, devono gestire diversi repository di dati. Il costo delle procedure tradizionali e dell’uso di strumenti frammentati supera i benefici di un approccio data-driven.

“Noi di Dynatrace vivevamo esattamente gli stessi problemi” spiega Michelangelo Uberti, Field Marketing Manager Italy di Dynatrace. “Come piattaforma acquisiamo una quantità stratosferica di dati eterogenei che, proprio per capacità tecnologiche, stavano in silos differenti. I dati erano moltissimi e troppo divisi. Inoltre, necessitavano di metodologie e tecnologie di analisi diverse”.

Continua Vannucci: “Con gli ambienti Cloud, le realtà aziendali hanno capito che non avendo più il controllo dei proprio data center ed essendo tutto estremamente dinamico, è necessario avere una totale visibilità, osservabilità”. Così Dynatrace ha sviluppato una nuova tecnologia di osservabilità che memorizza i dati in un Data lakehouse e che ovvia a tutti i problemi.

Il valore aggiunto del Data lakehouse

Il data lake può memorizzare tanti dati, strutturati, non strutturati, di diverso taglio. Però il problema, poi, è estrarli, perché dovrebbero essere tutti normalizzati. Il data warehouse, invece, facilita l’estrazione dei dati ed è più semplice: è possibile estrarre parte dei dati e creare uno schema, degli indici, una struttura del database, in modo che sia più semplice interrogare i dati ed estrarli in maniera più veloce.

Per superare i limiti dei due sistemi di storage, è stato sviluppato il modello Data lakehouse.

La soluzione di Dynatrace

Grail è uno strumento di osservabilità evoluta un tool core della piattaforma proprietaria, che mantiene il contesto dei dati e fornisce automazione e risposte istantanee e precise, basate sull’intelligenza artificiale. Lo strumento unifica i dati di osservabilità, di sicurezza e di business, provenienti da ambienti cloud-native e multicloud, in un unico Data lakehouse, che permette di abbattere i silos.

“Quando parliamo dei silos, non parliamo solo di silos dei dati, ma anche di silos dipartimentali – aggiunge Roberto Vannucci – È importante che tutte le funzioni aziendali attingano alla stessa fonte condivisa di dati”.