Questo sito utilizza cookie per raccogliere informazioni sull'utilizzo. Cliccando su questo banner o navigando il sito, acconsenti all'uso dei cookie. Leggi la nostra cookie policy.OK

Le migliori soluzioni di Big Data Warehouse secondo Forrester

pittogramma Zerouno

Vendor Overview

Le migliori soluzioni di Big Data Warehouse secondo Forrester

09 Nov 2017

di Giampiero Carli Ballola

Le caratteristiche che identificano le soluzioni per la raccolta, gestione e analisi dei dati secondo i nuovi bisogni della digital enterprise e i pro e contro dell’offerta dei maggiori fornitori di un mercato emergente. Una sintesi della Forrester Wave Big Data Warehouse

Con il bisogno di trattare e analizzare i cosiddetti big data (cosiddetti perché tutti i dati di cui si nutre il business digitalizzato sono ormai ‘big’) le tecnologie di data warehousing sono cambiate e i data warehouse tradizionali oggi non sono più adeguati. Occorrono soluzioni capaci di rispondere al bisogno di raccogliere e di analizzare, spesso in tempo reale, grandi volumi di dati complessi ed eterogenei che giungono da fonti nuove e diversificate. In un tempo relativamente breve si è pertanto resa disponibile un’ampia offerta di soluzioni, fornite sia da vendor consolidati sia da nomi nuovi, che si possono dire di ‘big data warehouse’. Si tratta però di un’offerta ‘fluida’ e difficile da valutare, ed è per questo che vogliamo sintetizzare i punti-chiave d’una recente indagine (giugno 2017) che Forrester Research ha dedicato a questo mercato, rimandando per ogni approfondimento che i lettori ritenessero necessario al documento integrale Forrester Wave Big Data Warehouse disponibile sul sito della società di ricerca .

Definizione e criteri d’inclusione dei fornitori

La definizione di big data warehouse (d’ora in poi solo BDW) elaborata da Forrester è la seguente:

Un BDW è un insieme specializzato e coerente di data repository e piattaforme in grado di sostenere un’ampia varietà di analisi eseguibili on-premises, via cloud o in un ambiente ibrido ed in grado di sfruttare sia le tradizionali tecnologie sia quelle nuove specificamente relative ai big data, come Hadoop, Spark, data warehouse colonnari e row-based, ETL, streaming e framework elastici di elaborazione in memory e di storage.

Un primo screening ha portato a considerare come rispondenti a tale definizione i seguenti 15 fornitori, elencati in ordine alfabetico con, tra parentesi, i relativi prodotti.

  • Amazon Web Services (Amazon Redshift);
  • Cazena (Cazena);
  • Cloudera (Cloudera Enterprise 5.9);
  • HPE (HPE Vertica Analytics Platform 8.01);
  • Hortonworks (Hortonworks Data Platform 2.5);
  • IBM (dashDB, DB2, BigInsights, Information Server, Security Guardium, InfoSphere Optim, Fluid Query);
  • MapR Technologies (Converged Data Platform 5.2);
  • MarkLogic (MarkLogic Server v8.0-6);
  • MemSQL (MemSQL 5.5);
  • Microsoft (SQL Server 2016, Analytics Platform System, Azure SQL Data Warehouse, HDinsight for Hadoop);
  • Oracle (Database 12c, Exadata Database Machine X6, Big Data Appliance X6, Big Data SQL);
  • Phemi (PHEMI Central Big Data Warehouse);
  • SAP (HANA 2, Vora 1, BW/4HANA 1, Data Services, Cloud Platform Big Data Services);
  • Snowflake (Snowflake Elastic Data Warehouse);
  • Teradata (Database 16.0, Unified Data Architecture, Appliance for Hadoop 6).

Da questa lista risultano quindi esclusi quei fornitori che:

  • non hanno un’offerta rispondente alla definizione di BDW citata né una tecnologia in grado di funzionare in modalità stand-alone o comunque in modo autonomo;
  • non hanno una base utenti né casi utente certificati tali da rientrare nei criteri di monitoraggio del mercato di Forrester Radar;
  • non hanno soluzioni già generalmente disponibili sul mercato;
La Forrester Wave dei Big Data Warehouse
La Forrester Wave dei Big Data Warehouse – Fonte: Forrester, 2017

Metodologia e criteri di analisi dell’offerta

Per analizzare i BDW così definiti, Forrester si è basata in massima parte su interviste con gli utenti e su incontri con i fornitori e con esperti esterni, oltre che sulle sue stesse analisi, compreso uno studio del 2016 su oltre 3.300 decisori aziendali riguardo i problemi relativi alla messa in atto delle strategie sui big data. Ne è risultata una griglia di ben 26 criteri di valutazione, raggruppabili in tre grandi aree:

– lo stato dell’offerta corrente sul piano dell’architettura e delle funzionalità;

– la strategia di evoluzione tecnologica e come modello di go-to-market;

– la presenza sul mercato per diffusione delle soluzioni, per numero e qualità dei partner e per solidità, anche finanziaria, del fornitore.

L’offerta dei 15 fornitori sopra elencati è stata valutata attribuendo a ciascuno dei 26 criteri un peso statistico relativo all’importanza del criterio stesso e calcolando il valore dato da tale peso per il grado di risposta della soluzione in esame al criterio considerato. Ciò ha permesso di posizionare i vendor in uno schema (vedi figura) che incrociando presenza sul mercato e qualità d’offerta, li divide in ‘leader’, ‘performer’ e ‘sfidanti’.

Limitandoci ai 6 fornitori che Forrester considera come leader, vediamone in breve le caratteristiche e gli aspetti positivi e critici della loro offerta.

Amazon Web Services. Con oltre cinquemila realizzazioni, Redshift è il numero uno dei data warehouse implementati sul cloud, con oltre 10 petabyte di dati gestiti. È costruito su architettura MPP (massive parallel processing) con nodi distribuiti e configurazione di scalabilità orizzontale.

Punti a favore: la scalabilità dinamica, in funzione cioè del bisogno; la flessibilità nella scelta dei database; l’amministrazione automatizzata; una buona sicurezza e infine un’availability elevata. Gli utenti ne apprezzano inoltre la capacità di adattare rapidamente il volume del repository fino a dimensioni dell’ordine dei petabyte, il costo d’abbonamento relativamente basso e l’integrazione con altri servizi AWS a supporto di ricerche flessibili, le query interattive, l’analisi in tempo reale su data streaming e il backup e recovery.

Aspetti critici: i limiti riconosciuti stanno nella scalabilità delle query e dei carichi di lavoro (disallineata rispetto all’alta scalabilità dei dati trattabili), nel data modeling e nei servizi di data integration. Amazon, dal canto suo, prevede una roadmap di sviluppo focalizzata su miglioramenti nell’automazione, nelle prestazioni e nella sicurezza.

Hortonworks. Si tratta di una piattaforma BDW che, coerentemente alla sua natura di vendor open source (l’intera tecnologia sulla quale si basa la Hortonworks Data Platform è un progetto Apache), Hortonworks sviluppa in collaborazione con un vasto ecosistema di partner.

Punti a favore: si tratta di una soluzione affidabile, agile, scalabile e dal buon rapporto costo/prestazioni, adatta alla realizzazione di un BDW sia in casa sia come servizio cloud. È possibile elaborare analisi su ogni genere di dati, sia statici che dinamici e gli utenti ne apprezzano le doti di acquisizione, governo, elaborazione e storage dati.

Aspetti critici: secondo gli utenti ha dei limiti nelle capacità di trasformazione dei dati e del data modeling.

IBM. La base installata di DB2 e delle soluzioni di data management connesse, oltre alla forte organizzazione dei servizi professionali, danno a IBM un vantaggio competitivo nel far evolvere una strategia che punta sul cloud e sulle analisi in tempo reale e che la vede impegnata sul fronte dell’interoperabilità con contributi ad Hadoop, Spark e altri progetti open source. Oltre a DB2 (compreso l’acceleratore BLU) il data warehousing Ibm può contare sui database ibridi dashDB, sulle tecnologie Fluid Query, BigSQL e BigInsights e sulla piattaforma InfoSphere Information Server.

Punti a favore: alte prestazioni, governabilità, sicurezza e capacità d’integrazione (nativa per Hadoop e Spark) e di data transformation. Notevoli anche le capacità di analisi in-database e in streaming real-time, la gestione automatizzata delle risorse e la disponibilità di data model verticali per industry.

Aspetti critici: per alcuni utenti andrebbe migliorata la scalabilità verso l’alto e la capacità self-service.

Oracle. Al pari di IBM, anche Oracle espande la strategia BDW verso il cloud e le analisi real-time e gode del vantaggio dato dalla posizione dominante nel mercato dei database, con una crescente focalizzazione per le appliance e le piattaforme big data. Le soluzioni Oracle permettono di progettare diversi modelli di BDW, che possono servirsi sia delle potenti appliance integrate Exadata sia di commodity server o di servizi cloud, mentre con Big Data SQL si possono fare query verso i db Oracle, Hadoop ed altri repository.

Punti a favore: Chi usa Oracle sui big data ne apprezza le capacità di acquisizione, di elaborazione e di storage dei dati, le prestazioni e le qualità di Big Data SQL. Inoltre Oracle sta rafforzando la propria offerta in molte aree: analisi in-memory, virtualizzazione dei dati, ottimizzazione dello storage, cloud e automazione delle operazioni.

Aspetti critici: l’integrazione con fonti dati di tipo Hadoop o NoSQL è da migliorare.

SAP. L’uso principale di Sap HANA in azienda è per l’analisi in-memory su data mart e per implementare un BW/4HANA che si debba integrare con altri data warehouse, compreso Sap IQ. Dopo che Sap ha acquisito Altiscale si usano anche i Cloud Platform Big Data Services per creare e gestire grandi data lake basati su cloud. Nel complesso, le soluzioni Sap forniscono un potente ambiente di BDW in grado di rispondere ad esigenze analitiche su grande scala e in tempo reale.

Punti a favore: i plus delle tecnologie Sap sono cinque: l’architettura della piattaforma dati tipo shared-nothing e distribuita, adatta ad analisi real-time su data streaming; il livello di servizi dati integrato; l’elaborazione delle query ottimizzata; l’avanzata compressione dati e, non ultima, la sicurezza. In più, Sap Vora estende il framework d’esecuzione di Apache Spark con analisi complesse e interattive. Gli utenti BDW Sap ne riconoscono soprattutto le doti di data integration e data modeling, oltre che le prestazioni.

Aspetti critici: va migliorata la scalabilità verso l’alto e semplificata l’amministrazione nelle implementazioni di grandi dimensioni.

Teradata. L’adozione di Teradata Everywhere continua a crescere grazie al fatto di basare tutte le opzioni d’implementazione sul medesimo software, dando così agli utenti flessibilità di scelta. In molti casi le soluzioni Teradata sono impiegate in ambienti di data storage e analisi open source, come Amazon EMR, Spark e Presto. Teradata ha da poco cambiato il modello commerciale adottando un sistema che semplifica l’abbonamento e permette la portabilità della licenza.

Punti a favore: Teradata offre analisi in-database, processi di query distribuiti, modalità self-service, gestione dei carichi di lavoro e sicurezza elevata. Con QueryGrid, le query su grandi volumi di dati si possono estendere quasi ad ogni piattaforma analitica disponibile. Gli utenti ne apprezzano la facilità d’implementazione e d’uso, le prestazioni, la scalabilità e le capacità di calcolo e di storage e lo ritengono adatto al deployment in ambienti ibridi dove scalabilità e availability siano critiche.

Aspetti critici: molti utenti ritengono inadeguata la modellazione e la governance dei dati.

Giampiero Carli Ballola
Giornalista

Giampiero Carli-Ballola, nato nel 1942 e giornalista specialista in tecnologia, collabora con ZeroUno dal 1988. Segue i processi di digitalizzazione del business con particolare attenzione ai data center e alle architetture infrastrutturali, alle applicazioni big data e analitiche, alle soluzioni per l’automazione delle industrie e ai sistemi di sicurezza.

Argomenti trattati

Approfondimenti

D
Data Warehouse
Vendor Overview

Articolo 1 di 4