Soluzioni di Big Data Warehouse, ecco le migliori secondo Forrester

Le caratteristiche che identificano le soluzioni per la raccolta, gestione e analisi dei dati secondo i nuovi bisogni della digital enterprise e i pro e contro dell’offerta dei maggiori fornitori di un mercato emergente. Una sintesi della Forrester Wave Big Data Warehouse

Con il bisogno di trattare e analizzare i cosiddetti big data (cosiddetti perché tutti i dati di cui si nutre il business digitalizzato sono ormai ‘big’) le tecnologie di data warehousing sono cambiate e i data warehouse tradizionali oggi non sono più adeguati. Occorrono soluzioni di big data warehouse capaci di rispondere al bisogno di raccogliere e di analizzare, spesso in tempo reale, grandi volumi di dati complessi ed eterogenei che giungono da fonti nuove e diversificate.

In un tempo relativamente breve si è pertanto resa disponibile un’ampia offerta di soluzioni, fornite sia da vendor consolidati sia da nomi nuovi, che si possono dire di ‘big data warehouse’. Si tratta però di un’offerta ‘fluida’ e difficile da valutare, ed è per questo che vogliamo sintetizzare i punti-chiave d’una recente indagine (giugno 2017) che Forrester Research ha dedicato a questo mercato, rimandando per ogni approfondimento che i lettori ritenessero necessario al documento integrale Forrester Wave Big Data Warehouse disponibile sul sito della società di ricerca .

Indice degli argomenti

Definizione e criteri d’inclusione dei fornitori

La definizione di big data warehouse (BDW) elaborata da Forrester è la seguente:

Un BDW è un insieme specializzato e coerente di data repository e piattaforme in grado di sostenere un’ampia varietà di analisi eseguibili on-premises, via cloud o in un ambiente ibrido ed in grado di sfruttare sia le tradizionali tecnologie sia quelle nuove specificamente relative ai big data, come Hadoop, Spark, data warehouse colonnari e row-based, ETL, streaming e framework elastici di elaborazione in memory e di storage.

Un primo screening ha portato a considerare come rispondenti a tale definizione i seguenti 15 vendor di soluzioni di big data warehouse, elencati in ordine alfabetico con, tra parentesi, i relativi prodotti.

Amazon Web Services (Amazon Redshift);
Cazena (Cazena);
Cloudera (Cloudera Enterprise 5.9);
HPE (HPE Vertica Analytics Platform 8.01);
Hortonworks (Hortonworks Data Platform 2.5);
IBM (dashDB, DB2, BigInsights, Information Server, Security Guardium, InfoSphere Optim, Fluid Query);
MapR Technologies (Converged Data Platform 5.2);
MarkLogic (MarkLogic Server v8.0-6);
MemSQL (MemSQL 5.5);
Microsoft (SQL Server 2016, Analytics Platform System, Azure SQL Data Warehouse, HDinsight for Hadoop);
Oracle (Database 12c, Exadata Database Machine X6, Big Data Appliance X6, Big Data SQL);
Phemi (PHEMI Central Big Data Warehouse);
SAP (HANA 2, Vora 1, BW/4HANA 1, Data Services, Cloud Platform Big Data Services);
Snowflake (Snowflake Elastic Data Warehouse);
Teradata (Database 16.0, Unified Data Architecture, Appliance for Hadoop 6).

Da questa lista risultano quindi esclusi quei fornitori che:

non hanno soluzioni di big data warehouse rispondente alla definizione sopra citata né una tecnologia in grado di funzionare in modalità stand-alone o comunque in modo autonomo;
non hanno una base utenti né casi utente certificati tali da rientrare nei criteri di monitoraggio del mercato di Forrester Radar;
non hanno strumenti già generalmente disponibili sul mercato.

Soluzioni di Big Data Warehouse, i vendor attivi sul mercato — La Forrester Wave dei Big Data Warehouse – Fonte: Forrester, 2017

Metodologia e criteri di analisi dell’offerta

Per analizzare le soluzioni di big data warehouse così definite, Forrester si è basata in massima parte su interviste con gli utenti e su incontri con i fornitori e con esperti esterni, oltre che sulle sue stesse analisi, compreso uno studio del 2016 su oltre 3.300 decisori aziendali riguardo i problemi relativi alla messa in atto delle strategie sui big data. Ne è risultata una griglia di ben 26 criteri di valutazione, raggruppabili in tre grandi aree:

lo stato dell’offerta corrente sul piano dell’architettura e delle funzionalità;
la strategia di evoluzione tecnologica e come modello di go-to-market;
la presenza sul mercato per diffusione delle soluzioni, per numero e qualità dei partner e per solidità, anche finanziaria, del fornitore.

L’offerta dei 15 fornitori sopra elencati è stata valutata attribuendo a ciascuno dei 26 criteri un peso statistico relativo all’importanza del criterio stesso e calcolando il valore dato da tale peso per il grado di risposta delle varie soluzioni di big data warehouse prese in esame al criterio considerato. Ciò ha permesso di posizionare i vendor in uno schema (vedi figura) che incrociando presenza sul mercato e qualità d’offerta, li divide in ‘leader’, ‘performer’ e ‘sfidanti’.

I 6 leader di soluzioni di big data warehouse

Limitandoci ai 6 fornitori di soluzioni di big data warehouse che Forrester considera come leader, vediamone in breve le caratteristiche e gli aspetti positivi e critici della loro offerta.

Amazon Web Services

Con oltre cinquemila realizzazioni, Redshift è il numero uno dei data warehouse implementati sul cloud, con oltre 10 petabyte di dati gestiti. È costruito su architettura MPP (massive parallel processing) con nodi distribuiti e configurazione di scalabilità orizzontale.

Punti a favore

La scalabilità dinamica, in funzione cioè del bisogno; la flessibilità nella scelta dei data warehouse e database; l’amministrazione automatizzata; una buona sicurezza e infine un’availability elevata. Gli utenti ne apprezzano inoltre la capacità di adattare rapidamente il volume del repository fino a dimensioni dell’ordine dei petabyte, il costo d’abbonamento relativamente basso e l’integrazione con altri servizi AWS a supporto di ricerche flessibili, le query interattive, l’analisi in tempo reale su data streaming e il backup e recovery.

Aspetti critici

I limiti riconosciuti stanno nella scalabilità delle query e dei carichi di lavoro (disallineata rispetto all’alta scalabilità dei dati trattabili), nel data modeling e nei servizi di data integration. Amazon, dal canto suo, prevede una roadmap di sviluppo focalizzata su miglioramenti nell’automazione, nelle prestazioni e nella sicurezza.

Hortonworks

Si tratta di una soluzione per l’analisi di dati che, coerentemente alla sua natura di vendor open source (l’intera tecnologia sulla quale si basa la Hortonworks Data Platform è un progetto Apache), Hortonworks sviluppa in collaborazione con un vasto ecosistema di partner.

Punti a favore

Si tratta di una soluzione di big data warehouse affidabile, agile, scalabile e dal buon rapporto costo/prestazioni, adatta alla realizzazione di un BDW sia in casa sia come servizio cloud. È possibile elaborare analisi di dati di ogni genere, sia statici che dinamici e gli utenti ne apprezzano le doti di acquisizione, governo, elaborazione e storage dati.

Aspetti critici

Secondo gli utenti ha dei limiti nelle capacità di trasformazione dei dati e del data modeling.

IBM

La base installata di DB2 e delle soluzioni di gestione e analisi dei dati connesse, oltre alla forte organizzazione dei servizi professionali, danno a IBM un vantaggio competitivo nel far evolvere una strategia che punta sul cloud e sulle analisi in tempo reale e che la vede impegnata sul fronte dell’interoperabilità con contributi ad Hadoop, Spark e altri progetti open source. Oltre a DB2 (compreso l’acceleratore BLU) il data warehousing Ibm può contare sui database ibridi dashDB, sulle tecnologie Fluid Query, BigSQL e BigInsights e sulla piattaforma InfoSphere Information Server.

Punti a favore

Alte prestazioni, governabilità, sicurezza e capacità d’integrazione (nativa per Hadoop e Spark) e di data transformation. Notevoli anche le capacità di analisi in-database e in streaming real-time, la gestione automatizzata delle risorse e la disponibilità di data model verticali per industry.

Aspetti critici

Per alcuni utenti andrebbe migliorata la scalabilità verso l’alto e la capacità self-service.

Oracle

Al pari di IBM, anche Oracle espande la strategia data warehouse e database verso il cloud e le analisi real-time e gode del vantaggio dato dalla posizione dominante nel mercato dei database, con una crescente focalizzazione per le appliance e le piattaforme big data. Le soluzioni Oracle permettono di progettare diversi modelli di BDW, che possono servirsi sia delle potenti appliance integrate Exadata sia di commodity server o di servizi cloud, mentre con Big Data SQL si possono fare query verso i db Oracle, Hadoop ed altri repository.

Punti a favore

Chi usa soluzioni di analisi dati Oracle a ne apprezza le capacità di acquisizione, di elaborazione e di storage dei dati, le prestazioni e le qualità di Big Data SQL. Inoltre Oracle sta rafforzando la propria offerta in molte aree: analisi in-memory, virtualizzazione dei dati, ottimizzazione dello storage, cloud e automazione delle operazioni.

Aspetti critici

L’integrazione con fonti dati di tipo Hadoop o NoSQL è da migliorare.

SAP

L’uso principale di Sap HANA in azienda è per l’analisi di grandi quantità di dati in-memory e per implementare un BW/4HANA che si debba integrare con altri data warehouse, compreso Sap IQ. Dopo che Sap ha acquisito Altiscale si usano anche i Cloud Platform Big Data Services per creare e gestire grandi data lake basati su cloud. Nel complesso, le soluzioni Sap forniscono un potente ambiente di BDW in grado di rispondere ad esigenze analitiche su grande scala e in tempo reale.

Punti a favore

I plus delle tecnologie Sap sono cinque: l’architettura della piattaforma dati tipo shared-nothing e distribuita, adatta ad analisi real-time su data streaming; il livello di servizi dati integrato; l’elaborazione delle query ottimizzata; l’avanzata compressione dati e, non ultima, la sicurezza. In più, Sap Vora estende il framework d’esecuzione di Apache Spark con analisi complesse e interattive. Gli utenti BDW Sap ne riconoscono soprattutto le doti di data integration e data modeling, oltre che le prestazioni.

Aspetti critici

Va migliorata la scalabilità verso l’alto e semplificata l’amministrazione nelle implementazioni di grandi dimensioni.

Teradata

L’adozione di Teradata Everywhere continua a crescere grazie al fatto di basare tutte le opzioni d’implementazione sul medesimo software, dando così agli utenti flessibilità di scelta. In molti casi le soluzioni di big data warehouse di Teradata sono impiegate in ambienti di data storage e analisi open source, come Amazon EMR, Spark e Presto. Teradata ha da poco cambiato il modello commerciale adottando un sistema che semplifica l’abbonamento e permette la portabilità della licenza.

Punti a favore

Teradata offre analisi in-database, processi di query distribuiti, modalità self-service, gestione dei carichi di lavoro e sicurezza elevata. Con QueryGrid, le query su grandi volumi di dati si possono estendere quasi ad ogni piattaforma analitica disponibile. Gli utenti ne apprezzano la facilità d’implementazione e d’uso, le prestazioni, la scalabilità e le capacità di calcolo e di storage e lo ritengono adatto al deployment in ambienti ibridi dove scalabilità e availability siano critiche.

Aspetti critici

Molti utenti ritengono inadeguata la modellazione e la governance dei dati.

Partecipa alla community

0 Commenti

Più recenti Più votati

Inline Feedback

Vedi tutti i commenti

Le migliori soluzioni di Big Data Warehouse secondo Forrester

Definizione e criteri d’inclusione dei fornitori

Metodologia e criteri di analisi dell’offerta