Dataworks Summit: nuove analytics per accelerare l’impresa digitale

La veloce diffusione delle piattaforme di analisi dati basate su Hadoop analizzata in un Summit che ai problemi e dibattiti di matrice tecnologica ha affiancato gli aspetti relativi alla sua implementazione nell’impresa e soprattutto alle finalità di business cui va rivolto

Pubblicato il 18 Apr 2017

MONACO – Svoltosi a Monaco il 4 e 5 aprile, il primo DataWorks Summit Europeo segna un cambiamento d’indirizzo rispetto agli analoghi eventi che col nome di Hadoop Summit lo hanno preceduto dal 2014 fino allo scorso anno. Presentato congiuntamente da Yahoo! e Hortonworks, ma di fatto gestito

	Di questo servizio fa parte anche il seguente articolo:
	LA VISION – Hortonworks: visione, strategie e prodotti per un Hadoop sempre più enterprise

da quest’ultima società, cui va attribuita anche la scelta del nuovo nome, questo ‘summit’, pur mantenendo un taglio prettamente tecnologico, parla anche il linguaggio dell’impresa. L’ampliamento d’orizzonte nasce dal percorso stesso fatto da Hadoop, che da progetto nato presso la Apache Foundation con obiettivi inizialmente mirati all’area dei motori di ricerca, grazie a una somma di evidenti vantaggi rapidamente colti dagli utenti (vedi box), è diventato in pochi anni la piattaforma software di più rapida adozione e dalle più ampie prospettive per il trattamento e l’analisi dei big data. Un’evoluzione che il cambio di “brand proposition” della stessa Hortonworks, che da “We do Hadoop” è diventato “Powering the future of data” non potrebbe meglio descrivere.

Quanto al Summit in sé, si è trattato di un evento decisamente rilevante sia per il numero dei partecipanti, più di 1400 tra sviluppatori e utenti (figure che spesso nel mondo open source coincidono) provenienti non solo dall’Europa ma anche dal resto del mondo, sia per l’abbondanza delle sessioni di approfondimento. Ben 84 “breakout session” si sono svolte nei due giorni dell’evento, condotte da 110 esperti. Di questi la gran maggioranza era formata da figure tecniche legate a Hortonworks o ai suoi numerosi partner accreditati, ma almeno una ventina erano tenute da rappresentanti di aziende utenti e anche questo, a nostro parere, è un indice della svolta business di Hadoop.

Indice degli argomenti

IT e business insieme per le analisi

Sono state le applicazioni analitiche a dominare la scena del Summit. Sia sul palco, sia nell’area riservata ai partner. Non possiamo citarle tutte, ma il posto d’onore spetta a IBM, “titanium partner” presente con il Project DataWorks. Si tratta di una piattaforma cloud-based, disponibile da circa sei mesi per l’ambiente di sviluppo Bluemix, che può applicare le potenti doti cognitive, di self-learning e d’intelligenza artificiale delle Watson Analytics a qualsiasi tipo di dati. Integrando Hadoop e Spark alle proprie tecnologie, anche hardware, IBM promette una velocità di acquisizione dati di oltre 50 Gbps da ogni fonte: database, sensori IoT e reti sociali. Molto diverso ma ugualmente interessante l’ Hadoop Ecosystem realizzato da SAS. Nome storico nel software di analisi, la società è entrata nelle analytics per piattaforme open source con un approccio che punta a superare alcuni punti deboli emersi nell’uso di Hadoop in azienda, come la scarsità di personale capace e i limiti di sicurezza persistenti in alcune distribuzioni. A ciò SAS risponde con interfacce utenti drag-and-drop, protezione e mascheramento dati, soluzioni di calcolo parallelo per le analisi complesse e di elaborazione in-memory per quelle ripetitive e altro ancora, tratte dal suo collaudato portafoglio d’offerta ed adattate al contesto open source.

Perché Hadoop piace all’impresa

L’adozione di Hadoop come framework per lo sviluppo di architetture di data management e analisi nasce da una serie di vantaggi che possiamo ridurre a quattro parole: scalabilità, affidabilità, flessibilità ed economicità.

Scalabilità

Distribuendo i dati, ma anche e soprattutto le applicazioni analitiche e i carichi di lavoro, su cluster di nodi di calcolo, Hadoop permette al sistema di scalare in modo orizzontale aggiungendo nodi (server), sino a volumi dell’ordine dei petabyte. Le capacità di storage, elaborazione e analisi possono quindi crescere linearmente ai bisogni senza un apprezzabile scadimento delle prestazioni.

Affidabilità

Moltiplicando il numero dei nodi cresce, come ovvio, la probabilità di caduta del singolo nodo. In tal caso però l’architettura di elaborazione distribuita e parallela di Hadoop reindirizza il carico di lavoro sui restanti nodi del cluster e i dati in trattamento sono automaticamente replicati, offrendo quindi una resilienza intrinseca.

Flessibilità

A differenza dei database relazionali, Hadop non ha bisogno di uno schema predefinito con righe, colonne e tabelle sulle quali organizzare i dati. Questi si possono quindi registrare in formati diversi, anche non strutturati (come file di testo) per applicarvi schemi e logiche di analisi in fase di lettura. In altre parole, con Hadoop si può raccogliere prima qualsiasi dato che potrà tornare utile e poi studiare come utilizzarlo.

Economicità

Hadoop nasce come software aperto e fruibile liberamente. Le distribuzioni commerciali si pagano con modelli di pricing basati su abbonamenti e servizi che risultano competitivi rispetto ai software proprietari, così come costa molto meno abbandonare una distribuzione per un’altra. Inoltre è concepito per girare su commodity-server, il che riduce i costi della già citata scalabilità orizzontale.