Metodologie

In-database analytics: un acceleratore per aziende data driven

Portando l’elaborazione analitica più vicino ai dati diventa possibile elaborare trend e strategie aziendali in tempo reale o quasi reale, semplificando la gestione e garantendo più sicurezza. Di seguito vediamo le caratteristiche dell’in-database analytics e come può trasformare le modalità d’accesso e fruizione delle informazioni analitiche in azienda.

Pubblicato il 30 Ago 2019

concept di in-database analytics

Con il termine di “in-database analytics” viene identificata la capacità di alcune moderne soluzioni di gestione dati di permettere elaborazioni dati analitiche, anche molto complesse, dall’interno del database. Una tecnica sfruttata nel passato solo su sistemi critici e con dataset ridotti per ridurre i gap temporali delle trasformazioni di formato e di movimentazione dei dati da e verso motori analitici esterni, oggi impiegata nelle aziende data driven per aumentare la velocità di reazione nel business.

I vantaggi dell’in-database analytics

Unendo le funzionalità database e analitiche, i sistemi in-database consentono di semplificare la filiera dei dati, ottenendo vantaggi prestazionali e facilitando la fruizione dei dati analitici in azienda da parte delle line of business (LOB). Analisi complesse che nel passato richiedevano la creazione di datamart dipartimentali specializzati, possono in questo modo essere gestite da un unico database, eliminando gli spostamenti dei dati tra differenti sistemi. Operazioni di ricerca e di analisi di dati utili al business possono essere logicamente centralizzate anche se fisicamente distribuite.

Un altro importante vantaggio riguarda la semplicità di programmazione. I motori in-database consentono di effettuare analisi complesse con poche righe di codice SQL: una condizione che facilita gli utenti non specialisti e che consente di ottenere risultati per approssimazioni successive, con metodo agile. Diventa più semplice, per esempio, analizzare le grandi moli di dati geospaziali che rilevano gli spostamenti di mezzi e merci nelle applicazioni di controllo logistico o di connected car. È inoltre più semplice fare interpolazioni su serie temporali correlate con dati di vendita o provenienti da sensori IoT. Si avvantaggiano dell’architettura in-database anche le analisi in tempo reale sui comportamenti dei clienti che sono in navigazione sui siti di e-commerce, su anomalie che riguardano transazioni su sistemi di pagamento o nel funzionamento di impianti industriali.

Un altro vantaggio è rappresentato dalla maggiore sicurezza che si ottiene con le soluzioni analitiche in-database nel trattamento delle informazioni aziendali rispetto ai sistemi più tradizionali. Senza datamart distribuiti, i dati restano sotto la tutela di un unico sistema database contenendo i rischi sul fronte della security e della privacy, aiutando a rispondere sia alle compliance normative generali, come GDPR, sia a quelle settoriali. La vicinanza del database analitico con le fonti dei dati aiuta a identificare più rapidamente trend e anomalie a vantaggio di azioni che permettono di sfruttare opportunità di mercato e prendere migliori decisioni strategiche.

Non è un caso che i motori in-database vengano oggi usati in applicazioni che richiedono capacità di processing analitico intensivo e in real time come, per esempio, negli ambiti bancario e assicurativo per la fraud detection, il credit scoring e il risk management. Più in generale, le elevate performance analitiche associate con la tecnologia in-database risultano efficaci per accompagnare le trasformazioni del business che richiedono una maggiore attenzione alle esigenze del cliente, realizzando segmentazioni, riconoscendo i pattern significativi dei comportamenti, dando supporto all’impiego del machine learning per analisi di tipo predittivo e a modalità di gestione aziendale basate su balanced score card.

Le caratteristiche di un database analitico “nativo”

Gli analisti di Gartner includono l’in-database analytics nell’ambito degli DMSA (data management solution for analytics), sistemi che mettono insieme tutti le capacità di gestione e processing analitico sulle informazioni che risiedono indifferentemente in file system, database singoli o multipli. Oltre al processing relazionale e non relazionale (quest’ultimo è usato, per esempio, per le elaborazioni grafiche) questi sistemi devono poter operare con fonti di dati semistrutturate (come XML, JavaScript Object Notation, coordinate geospaziali e molte altre), oltre a supportare linguaggi di programmazione come Pyton e R.

Per funzionare, il database analitico può sfruttare tecnologie diverse ma, secondo gli analisti di Gartner, è fondamentale che permetta l’accesso ai dati che sono gestiti attraverso tool open source esterni come, per esempio, Hadoop. Deve garantire la disponibilità dei dati alle applicazioni usate come front-end in azienda e integrare i meccanismi di controllo sui workload, controllare l’accesso degli utenti finali alle differenti istanze di dati. Per essere efficace, inoltre, la piattaforma deve poter offrire un pieno controllo amministrativo sui dati utilizzati a prescindere che siano memorizzati all’interno oppure siano all’esterno in object store distribuiti o nei file system. Sul mercato esistono modalità differenti per offrire le funzionalità in-database che comprendono DBMS specializzati, configurazioni certificate realizzate assemblando componenti diverse, servizi in cloud dbPaas (database platform as a service) e appliance integrate.

Le tecnologie che avvicinano l’analisi dei dati agli utilizzatori finali

L’in-database analytics si aggiunge ad altre tecniche che permettono di ottenere prestazioni analitiche elevate, sia sul fronte della velocità sia della capacità di elaborare moli sempre più grandi di dati. La più comune è l’elaborazione parallela che consiste nel distribuire i carichi di lavoro del database su più nodi cooperanti raggiungendo livelli di scalabilità dell’ordine degli hexabyte di dati. L’elaborazione parallela aumenta inoltre l’affidabilità, permettendo di escludere o rimpiazzare dinamicamente i nodi che per un qualsiasi guasto dovessero smettere di funzionare.

Un’altra tecnica è l’in memory, ossia l’utilizzo di engine database ottimizzati per operare su sistemi server dotati di grandi quantità di memoria centrale. L’uso della memoria centrale elimina la latenza nell’accesso allo storage tradizionale, permettendo elaborazioni più veloci. La dipendenza dall’hardware determina i limiti di questa tecnica sia sul fronte della scalabilità sia dei costi infrastrutturali.

Un’opzione sempre più significativa è rappresentata dall’impiego dei database colonnari, ossia di engine che operano per colonne anziché per record: una configurazione ideale per i compiti analitici. I database colonnari evitano di processare grandi quantità di dati inutili nell’elaborazione di singoli elementi come, per esempio, l’età dei clienti, luogo di residenza, prodotti acquistati ecc, normalmente contenuti in colonna. Questa caratteristica consente prestazioni molto più alte dei database tradizionali anche con storage tradizionali e in cloud. L’approccio in-database analytics utilizzato con database colonnari, facilita lo sfruttamento delle capacità analitiche da parte degli utenti finali e, segnatamente delle line of business (LOB) che ottengono autonomia nella creazione di nuovi report e nelle ricerche per definire strategie commerciali e di business più efficaci. La velocità facilita le simulazioni, il test di nuovi algoritmi, la creazione di prototipi con metodo agile, fornendo risultati immediati e tagliando i tempi di sviluppo.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati

Articolo 1 di 4