Micro Focus Point of View

Vertica Eon: la marcia in più per l’advanced analytics in cloud

Con la recente introduzione della modalità Eon, la piattaforma database Vertica di Micro Focus ha fatto ulteriori passi avanti nell’ottimizzazione delle implementazioni in cloud, rendendo facile e meno costoso raggiungere i più alti livelli di performance, di scalabilità dei dati (big data) e uso elastico delle risorse. I segreti dell’architettura Eon, i benefici e alcuni casi d’applicazione

Pubblicato il 04 Ott 2019

Concept di Vertica Micro Focus

Piattaforma database per l’advanced analytics utilizzata dalle aziende “data driven” per lo sviluppo dei canali di vendita digitali, applicazioni IoT e servizi di manutenzione predittiva (tra gli utilizzatori più noti ci sono Uber, Guess, AT&T, Lastminute.com e Philips Healthcare), Vertica di Micro Focus ha incorporato nello scorso anno una serie di funzionalità che lo rendono più scalabile e versatile nelle implementazioni in cloud che lavorano su big data.

A partire dalla versione 9.1, è possibile usare Vertica nella modalità di funzionamento denominata “Eon” che separa le capacità d’elaborazione dati da quelle di storage, permettendo di garantire le altissime prestazioni dell’engine colonnare anche quando i dati sono memorizzati nel cloud. La modalità Eon consente quindi grandi vantaggi in presenza di carichi analitici variabili o di moli di dati che provengono da applicazioni cloud, come dai sistemi IoT o fonti esterne di big data. Utilizzata con servizi come Amazon Web Services S3, la modalità Eon ottimizza l’ambiente analitico in modo dinamico rispetto alle esigenze di lavoro, riducendo i costi.

Uno sguardo all’architettura di Vertica Eon

La modalità Eon riguarda una importante modifica dell’architettura fisica di Vertica che permette di cambiare il numero dei nodi su cui gira l’engine analitico in modo indipendente dallo storage dei dati. In questo modo diventa possibile aggiungere o togliere dinamicamente nodi al cluster in base alle necessità di lavoro, senza interruzioni per i job in corso. Per comprendere più in dettaglio cosa cambia a livello architetturale,è utile soffermarsi su come Vertica gestisce i dati, familiarizzando con la terminologia utilizzata per connotare i vari componenti.

A partire dal più importante, il “communal storage”, ossia il repository comune per tutti i dati che, dalla versione 9 di Vertica, può essere implementato su servizi cloud S3. Seguono gli “shards” ossia i segmenti di dati previsti nel momento della creazione del database e memorizzati nel repository. Il numero di shard è di solito uguale al numero dei nodi presenti nel cluster quando si richiede al database analitico il minimo livello di prestazione (scale down). Ogni nodo si prende in carico più shard per essere certi che, in caso di guasto a un nodo, i dati restino disponibili ai nodi rimanenti.

Un altro componente è “depot” (deposito), una cache dati locale a disposizione di ciascun nodo e associata al segmento (shard) su cui il nodo sta lavorando. Il depot è di norma più piccolo del segmento dati, c’è quindi un sistema di caching che si occupa di selezionare e di mantenere localmente i dati più frequentemente utilizzati.Con la modalità Eon su S3, in Verticanon è più disponibile l’area di Write Optimized Store (WOS) ma tutti i dati vengono direttamente caricati nei Read Optimized Store (ROS) che vengono utilizzati sia a livello del depot sia del repository comune.

I benefici della modalità Eon

Il beneficio sostanziale della modalità Eon rispetto a quella Enterprise è il supporto per l’Elastic Throughput Scaling che permette di aggiungere e di rimuovere nodi nel cluster velocemente. In questo modo diventa possibile rispondere alle esigenze di prestazione nell’esecuzione delle query variando il numero dei nodi presenti nel cluster, con una dinamicità che prima era impossibile. Il database in modalità Eon può essere creato direttamente dal tool d’amministrazione,come anche dalla console di gestione del provisioning AWS. Lo storage administrator dispone inoltre di strumenti per poter gestire al meglio i percorsi dati dei depot.

Grazie al nuovo meccanismo di caching intelligente, la separazione tra elaborazione e storage avviene senza compromessi per la velocità di Vertica nelle analisi su serie temporali, geospaziali, pattern matching e machine learning. La modalità Eon comprende le funzioni per ottimizzare i costi d’utilizzo dei servizi cloud, riducendo al minimo le chiamate API a S3 e migliorando i caricamenti dei dati. Come per i depot, anche il catalogo (i metadati che descrivono gli oggetti nel database) risiede, sia sui nodi, sia sullo storage S3, grazie alle specifiche funzioni di sincronizzazione.

L’utilizzo di Vertica con l’ecosistema cloud AWS rende possibile gestire grandi volumi di dati abbassando i costi infrastrutturali, grazie alla capacità di attivare le risorse quando è necessario e spegnerle quando non servono più. La capacità di allocare in modo dinamico le risorse aiuta in particolar modo le aziende che hanno carichi analitici variabili, semplificando gli oneri d’amministrazione. Questo si aggiunge alle capacità del supporto nativo per i dati Apache Hadoop,e di altre applicazioni sia on premise sia cloud.

È infine stato appena annunciato l’accordo con Pure Storage che consente di utilizzare l’architettura EON on premise: la separazione delle attività computazionali dallo storage aiuta a gestire carichi di lavoro più dinamici e consente l’isolamento dei carichi di lavoro per singoli team e progetti; fino ad ora queste funzionalità sono state in gran parte limitate al cloud, Eon per Pure Storage risponde a queste tendenze portando tutti i vantaggi del cloud on premise.

I casi d’impiego di Vertica nel cloud AWS

La necessità di elaborare carichi di lavoro variabili e in continuo aumento accomuna le aziende data driven d’ogni settore e richiede approcci specifici per avere una gestione economicamente conveniente dei dati e delle elaborazioni analitiche. Spostare avanti e indietro i dati nei differenti data-store è oneroso in termini di tempo e di risorse che vanno adeguate alle necessità di picco. Per questo negli scenari in cui work load sono molto variabili o non prevedibili è giocoforza l’impiego del cloud e di architetture in grado di ottimizzare gli investimenti nei data lake.

Questa è la situazione che ha portato DeltaDNA, azienda sviluppatrice e distributrice di giochi,a impiegare Vertica Eon in cloud nell’ambito dell’analisi dei dati di click stream dei propri clienti, elaborazione che serve alla società per valutare in tempo reale i trend d’uso e garantire le prestazioni dei servizi.

Un’altra implementazione riguarda Trade Desk, azienda che offre una piattaforma self service in cloud per aiutare grandi brand e agenzie a creare e ottimizzare le campagne di pubblicità sui differenti media, garantendo trasparenza nell’impiego dei budget e focalizzazione sui target richiesti. L’applicazione richiede capacità di caricamento dati per circa un miliardo di colonne all’ora e di generazione report per 40 mila al giorno. Vertica nella modalità Eon (con 256 nodi di diversa dimensione e 3 petabyte di dati grezzi) ha dimostrato, fin dal POC iniziale, i livelli di flessibilità e scalabilità richiesti. Con Vertica e solo tre db administrator Trade Desk riesce a dare supporto degli oltre 300 specialisti impegnati nello sviluppo dei report; la modalità Eon rende possibile l’attivazione ‘on demand’ di un ulteriore cluster per eventuali picchi della domanda di potenza nell’elaborazione.

Vertica Eon è un componente chiave nell’implementazione di nuovi sofisticati servizi di predictive maintenance presso Philips Healthcare. Full360 (azienda che offre servizi di managed BI e EPM) lo ha utilizzato per velocizzare l’esecuzione di workload analitici variabili, per accompagnare i clienti nelle migrazioni dalla BI tradizionale on premise verso il cloud oltre che per il supporto dei nuovi progetti che riguardano applicazioni nativamente ottimizzate per il cloud.

Stando a quanto riportato da Micro Focus sull’esperienza diretta di un’azienda che ha partecipato ai beta test di VerticaEon, la nuova modalità di lavoro del database avrebbe aumentato del 30% le prestazioni nei caricamenti dati, di sei volte la velocità delle query e di otto volte quella di recovery dei nodi. L’impiego di AWS ha consentito significativi risparmi nei costi.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati

Articolo 1 di 3