Big data con software open source, schemi per dati a strutture diverse

Quando si parla di Big data imperano ormai le tre ‘V’: volume, varietà e velocità dei dati. L’unica via per poter analizzare correttamente questi dati, dice Brian Gentile, Ceo di Jaspersoft, è “definire più strutture di file storage o ‘schemi’ per leggere i dati ‘multi-strutturati’ catturati.

Pubblicato il 16 Lug 2012

Ecco di seguito una breve panoramica: c’è anzitutto lo schema Hdfs, la struttura di file storage di Hadoop (il framework software disegnato per Apache da Yahoo, Google e Facebook, i primi vendor che hanno definito il framework per effettuare ricerche in un oceano di dati, indirizzate parallelizzandole tra un esercito di server). C’è poi lo schema NoSql, usato da Cassandra (base dati di Facebook), che Gentile considera “il data base distribuito più capace di scale-out” e di cui sottolinea la notevole capacità di assegnare un valore chiave a una stringa di dati NoSql, il che ne consente un agevole tracciamento.

E ancora lo schema Blob (Basic Large OBject) usato da MongoDb, orientato a memorizzare documenti e grandi oggetti (oggi è il più popolare). Infine, lo schema Neo per una base dati grafica, che cattura i grafi delle relazioni nei social network, in una struttura grid a molte variabili”.

Duplice il vantaggio con Jaspersoft: “Hadoop e Cassandra sono usabili in modo nativo grazie all’architettura aperta Jaspersoft (mentre a una Emc o a un'Ibm tocca includere nel proprio stack Hadoop, circondandolo di servizi di amministrazione e approvvigionamento proprietari)”, osserva Gentile. “Ne segue che l’accesso ai dati è facilitato da metodi di accesso Sql-like resi disponibili in Apache per Hadoop (Hive) e direttamente da Cassandra (Cql)”. Per tutti gli altri ambienti NoSql (ad esempio MongoDb, che rende disponibile solo un’Api) JasperSoft ha realizzato connettori Sql-like. Negli ultimi 12 mesi i download dei connettori JasperSoft dicono che MongoDb, Hadoop e Cassandra sono, nell’ordine, gli ambienti No-Sql più popolari; ma attenzione, il messaggio è che con i Big data servono “assolutamente tutti gli schemi”, puntualizza Gentile.

Big data con software open source, schemi per dati a strutture diverse

Articoli correlati

Jaspersoft: libro "aperto" su Business Intelligence. Parola di Ceo

Codice Rss

Codice Rss