Scenari

Quale storage per gestire i dati dell’IoT

Intelligenza artificiale, machine learning, analytics in real time, analisi predittive sono questi gli strumenti che servono oggi alle imprese per competere su una realtà globale sempre più complessa. E quando si parla dei dati IoT questo assunto diventa ancora più vero

Pubblicato il 08 Set 2020

edge-analytics

In uno scenario nel quale sempre più oggetti sono connessi all’Internet of Things, il volume dei dati generati dai dispositivi IoT, dagli stati di funzionamento alle telemetrie, dai metadati alle letture dei sensori, aumenta in modo esponenziale.
Gestire e dare un senso a tutti questi dati è essenziale per trarre il vero valore dalle soluzioni IoT: gli analytics sono parte integrante dei progetti e dei sistemi IoT, così da trasformare i dati raccolti  in dashboard, report, visualizzazioni e avvisi, consentendo di monitorare lo stato dei dispositivi e delle macchine connesse, presentare in modo comprensibile le letture effettuate dai dispositivi, identificare i pattern, rilevare anomalie, attivare azioni basate su regole, assumere decisioni informate.
Cerchiamo di capire quali sono gli approcci possibili per gestire i dati IoT.

Gestire i dati dell’IoT: alcune considerazioni preliminari

In genere, i dispositivi IoT hanno capacità di archiviazione dei dati limitate. Per questo motivo, la maggior parte dei dati acquisiti viene trasmessa utilizzando protocolli di comunicazione come MQTT o CoAP, per essere poi elaborata e archiviata.
Ma non è questo il problema principale.
Quando si tratta dei dati dell’IoT, si parla della necessità di gestire dati eterogenei, di trasformarli, aggregarli, analizzarli e integrarli per renderli pronti alle fasi successive di analisi, mantenendone nel contempo integrità e riservatezza e senza compromettere né le prestazioni di sistema, né l’affidabilità, né la scalabilità, né la flessibilità e, ancor più, senza aggravi significativi sui costi.

Il tema dell’eterogeneità dei dati non è banale.
I dati acquisiti dai dispositivi IoT vengono prodotti in una combinazione di formati, inclusi dati strutturati, semi-strutturati e non strutturati. Rientrano nel novero, infatti, segnali analogici, letture di sensori, metadati così come file immagine o video. E queste differenze hanno un impatto diretto anche nelle fasi di archiviazione.
I dati vengono solitamente trasformati sul dispositivo o preferibilmente sui gateway del dispositivo per normalizzarli ed è sempre in questa fase che è possibile cancellare ad esempio quei dati maggiormente sensibili al fattore temporale, che dunque possono essere eliminati se obsoleti.
È nella fase di normalizzazione ai dati vengono associate anche tutte le informazioni di corredo relative ad esempio alla provenienza del sensore, alla posizione o al timestamp.
In molti casi, è opportuno archiviare non il dato grezzo, bensì il dato già elaborato, soprattutto in tutti quegli scenari nei quali i dati stessi devono essere analizzati più di una volta.
L’attenzione alla sicurezza è cruciale anche in questa fase: i dati devono essere trasmessi e archiviati in modo sicuro per mantenerne l’integrità e la privacy, utilizzando protocolli sicuri e crittografia e assicurandosi che le informazioni sensibili non siano in alcun modo accessibili al di fuori del sistema.

Strategie per il data storage

I dati dell’IoT possono essere archiviati on premise, in cloud o adottando una strategia ibrida tra le due opzioni.
Non esiste una scelta migliore “a prescindere”: dipende dal volume dei dati, dalla connettività, dalla possibile presenza di problemi alimentazione. In quest’ultimo caso, ad esempio, sarà necessaria una memoria non volatile per recuperare i dati critici una volta effettuato il ripristino, mentre, sempre per citare qualche esempio concreto, quando si parla di auto a guida autonoma, il volume di dati generato è tale da rendere impossibile il trasferimento di ogni bit in cloud in tempo reale.
Non solo.
È importante poi prendere in considerazione lo scopo cui sono destinati i dati: se sono raccolti a scopo di archiviazione oppure per analisi in tempo reale.
Da queste distinzioni dipende anche la scelta della migliore strategia di archiviazione.

Tecnologie per lo storage dei dati IoT

Per la gestione dei dati IoT serve uno storage fisicamente robusto, per resistere agli ambienti operativi nei quali sono installati i dispositivi, ma anche veloce e affidabile così che l’elaborazione dei dati possa avvenire prima del loro upstream. Sul dispositivo possono essere utilizzate tecnologie NVRAM (RAM non volatile) di nuova generazione, mentre per l’analisi in tempo reale, le le tecnologie di archiviazione adottate dovrebbero supportare letture e scritture simultanee e l’alta disponibilità (High avalilability), mentre per la gestione di grandi volumi di dati il cloud rappresenta la scelta d’elezione sia per la sua flessibilità, sia per i suoi costi.

Quanto ai database per i dati degli eventi IoT, la scelta può includere sia database NoSQL sia time series database: nel primo caso si tratta della scelta più diffusa, perché supportano throughput elevato e bassa latenza, nel secondo caso siamo in presenza di database progettati specificamente per l’indicizzazione e l’interrogazione di dati basati sul tempo.

L’analisi dei dati IoT

Per poter essere utili, i dati IoT devono essere analizzati. Si tratta di un processo critico che, anche in ragione dei volumi generati da dispositivi e sensori, non può essere svolto manualmente: per questo, la maggior parte delle soluzioni IoT si basa su analisi automatizzate.
Le analisi possono essere eseguite in tempo reale durante la ricezione dei dati oppure in batch, senza trascurare il fatto che in molti i casi i dati vanno ad alimentare i sistemi di machine learning.

Tra le metodologie di approccio agli analytics, le analisi distribuite si applicano laddove sia necessario analizzare dati su larga scala, in particolare nel caso di dati storici che non possono essere archiviati o elaborati da un singolo nodo. In questo caso, i dati possono essere distribuiti su più database: questo significa che l’analisi può comportare l’aggregazione dei risultati distribuiti in più posizioni geografiche.
Laddove sia richiesta, ad esempio, l’analisi su un set completo di dati anche di tipo storico, si può fare ricorso ad Hadoop e Spark per l’elaborazione in batch.

Si eseguono analisi in tempo reale quando serve analizzare flussi di dati IoT sensibili al fattore tempo. In questo caso, o in qualunque altra situazione nella quale la latenza rappresenti un problema, l’elaborazione batch è da escludersi.
L’analisi in tempo reale si applica anche alle serie temporali: gli strumenti della real time analytics supportano infatti il controllo della finestra temporale e il calcolo a metriche continue per tenere traccia delle medie orarie o delle medie su interi set di dati.

Prima di essere analizzati, i dati vengono pre-elaborati per filtrare eventuali duplicati e per essere riordinati, aggregati o normalizzati prima dell’analisi. Questa elaborazione avviene tipicamente nel punto di acquisizione, sui dispositivi IoT stessi o sui dispositivi gateway che aggregano i dati e in questo caso si parla di edge analytics.
L’edge analytics è una analisi a bassa latenza, che non richiede particolari ampiezze di gamma.
Considerati i limiti intrinseci nella memoria dei dispositivi IOT, l’approccio più comune è ibrido e prevede la pre-analisi a livello di edge, prima dell’upstream dei dati al data center in cloud.

Machine Learning: perché è importante per gestire i dati IoT

Abbiamo fatto cenno, poco fa, al machine learning.
L’utilizzo di modelli statistici matematici tradizionali serve per tracciare obiettivi, creare report, evidenziare tendenze, creare simulazioni.
Tuttavia, il valore dei modelli di analisi statistica diminuisce se applicati a dati dinamici che contengono molte variabili che cambiano nel tempo. In questi casi, invece di utilizzare un modello statistico, possono essere applicati algoritmi di machine learning che apprendono dai dati.
Il machine learning può essere applicato a dati storici o in tempo reale e può essere utilizzato per identificare i modelli, le variabili chiave e le relazioni tra di loro per creare e perfezionare automaticamente i modelli di analisi.
Rispetto ai tradizionali modelli di analisi statistica “statici”, con un approccio dinamico quando quando arrivano nuovi dati, i modelli possono essere migliorati, con un conseguente miglioramento nei risultati,  nel tempo, il che porta a risultati migliori.

Da questo breve excursus appare chiaro come l’analisi dei dati IoT sia essenziale per la gestione di sistemi IoT dai più semplici a quelli più complessi anche su larga scala, dalle fabbriche alle città connesse, dagli ascensori alle flotte automobilistiche, secondo i più disparati scenari d’uso che vanno dalla gestione dei servizi fino alla manutenzione predittiva o alla gestione della produzione.

Troppi dati, poco tempo: la visione di IBM

L’assioma è chiaro: ci sono troppe informazioni e troppo poco tempo per gestirle.
Poco tempo per lavorare bene sui dati e trarne indicazioni utili al corretto funzionamento di un servizio, di un impianto, di un’impresa, di una città.

È qui che si colloca IBM con la sua proposta Watson IoT.
Il cognitive computing di iBM Watson consente a qualsiasi organizzazione di supportare meglio le proprie operation e i propri clienti, raggiungere nuovi livelli di efficienza operativa, sviluppare nuove iniziative, aggiornare quelle già avviate.
Watson è in grado di acquisire e analizzare qualsiasi tipo di dati, in qualsiasi formato, da qualsiasi tipo di fonte e correlarli con altre fonti, per scoprire informazioni chiave che possono avere un grande impatto sulle decisioni aziendali.
Le soluzioni cognitive portano intelligenza negli oggetti, nei sistemi e nei processi e aiutano le imprese a raggiungere i propri obiettivi.
E va detto che poche applicazioni hanno maggiormente bisogno di ciò che Watson può offrire di quelle che ricadono sotto l’ampio ombrello dell’Internet of Things (IoT).
Esistono già miliardi di dispositivi connessi e con le crescite previste i dispositivi IoT di fatto saranno annoverati come i più grandi generatori di dati dell’intero pianeta. E proprio per trasformare i dati in informazioni utili alla società e alle imprese servono piattaforme in grado di automatizzare i processi di gestione dei dati IoT, facilitandone la comprensione e mettendo in luce tutte le evidenze che nascondono.

Partecipa a Storage IBM

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati

Articolo 1 di 5