Big data, ecco Cloudera Altus per gestire l’elaborazione di dati in cloud

Il servizio PaaS è stato pensato per velocizzare la creazione e l’utilizzo di pipeline di dati flessibili, centralizzando le attività di data engineering e astraendo la gestione dell’infrastruttura e le operazioni

Pubblicato il 01 Giu 2017

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

Cloudera Altus è un’offerta Platform-as-a-Service (PaaS) pensata per semplificare l’esecuzione di applicazioni di elaborazione dati su larga scala nel cloud pubblico.

Il nuovo servizio recentemente lanciato da Cloudera aiuta, in sintesi, il data engineer a utilizzare l’infrastruttura on-demand per velocizzare la creazione e l’utilizzo di pipeline di dati flessibili che alimentano sofisticate applicazioni orientate ai dati, centralizzando le attività di data engineering e astraendo la gestione dell’infrastruttura e le operazioni che possono essere complesse e dispendiose in termini di tempo. Inoltre, Altus riduce il rischio associato alle migrazioni cloud fornendo agli utenti strumenti di uso comune in un servizio di piattaforma enterprise aperto e unificato che offre storage, metadati, sicurezza e gestione comuni per molteplici applicazioni di data engineering.

In particolare, applicazioni come Etl (Extract, Transform and Load) o batch scoring spesso corrispondono a carichi di lavoro di grandi dimensioni batch-oriented che operano per un periodo di tempo fissato e aiutano le aziende a estrarre informazioni approfondite fondamentali dai dati grezzi. Le aziende ottengono così significativi vantaggi in termini di flessibilità ed efficienza eseguendo tali pipeline su un’infrastruttura elastica. Le grandi aziende desiderano sfruttare l’infrastruttura cloud insieme a strumenti e tecnologie di elaborazione dati di uso comune su vasta scala.

Secondo IDC, le distribuzioni di cloud pubblico oggi rappresentano il 12% del mercato mondiale complessivo di software business analytics con una crescita prevista pari a un 25% del Cagr entro il 2020. Il cloud è uno degli ambienti di distribuzione in più rapida crescita per i clienti di Cloudera, e Altus contribuisce a semplificare più che mai l’esecuzione di carichi di lavoro di data engineering nel cloud.

Tutte le caratteristiche del servizio Cloudera Altus

Osservando più nello specifico le caratteristiche di Cloudera Altus si nota che la soluzione consente ai data engineer di effettuare il provisioning, in modo semplice e veloce, di Apache Spark, Apache Hive, Hive on Spark e MapReduce2 su un’infrastruttura cloud nativa. Altus presenta impostazioni cluster e ambienti intelligenti predefiniti che riducono significativamente i tempi e le attività legati alla distribuzione dei cluster, automatizzando processi come il provisioning, la configurazione e l’eliminazione dei cluster. Inoltre, Cloudera Altus si concentra sulle pipeline di dati piuttosto che su cluster o infrastrutture, in modo che gli utenti possano presentare, clonare ed effettuare il troubleshooting delle pipeline considerando solo in modo marginale l’infrastruttura alla base.

Il servizio Altus Data Engineering permette ai data engineer di leggere e scrivere direttamente sugli storage di oggetti in cloud come fa il resto della piattaforma Cloudera. Questi dati sono immediatamente disponibili per essere utilizzati da altri carichi di lavoro Cloudera senza richiedere replicazione dei dati, Etl o modifiche ai formati di file. Così facendo gli utenti possono inserire con più facilità il data engineering all’interno delle applicazioni di data science, business intelligence e DB real time.

Altus supporta molteplici versioni di Cdh, la piattaforma open source più utilizzata nel settore, gli utenti possono così spostare facilmente i carichi di lavoro da e verso il cloud senza dover modificare le proprie applicazioni. Poiché CDH è retro-compatibile con le minor release, i clienti possono sfruttare le più recenti innovazioni provenienti dalla comunità open source di big data Apache senza paura di disgregare le proprie applicazioni ad ogni release.

Altus, ancora, automatizza e semplifica le problematiche operativi comuni legate alle pipeline elastiche di dati con la gestione dei carichi di lavoro. Gli utenti possono effettuare il troubleshooting delle attività non andate a buon fine con o senza la presenza di cluster o infrastruttura di calcolo. Inoltre, le funzioni di gestione dei carichi di lavoro di Altus evidenziano variazioni significative nelle prestazioni e propone un’analisi della causa alla base. Così facendo, i clienti possono eseguire le proprie pipeline di dati con una maggior affidabilità e con costi inferiori.