Questo sito web utilizza cookie tecnici e, previo Suo consenso, cookie di profilazione, nostri e di terze parti. Chiudendo questo banner, scorrendo questa pagina o cliccando qualunque suo elemento acconsente all'uso dei cookie. Leggi la nostra Cookie Policy per esteso.OK

Big data con software open source, schemi per dati a strutture diverse

pittogramma Zerouno

Big data con software open source, schemi per dati a strutture diverse

Quando si parla di Big data imperano ormai le tre ‘V’: volume, varietà e velocità dei dati. L’unica via per poter analizzare correttamente questi dati, dice Brian Gentile, Ceo di Jaspersoft, è “definire più strutture di file storage o ‘schemi’ per leggere i dati ‘multi-strutturati’ catturati.

16 Lug 2012

di Rinaldo Marcandalli

Ecco di seguito una breve panoramica: c’è anzitutto lo schema Hdfs, la struttura di file storage di Hadoop (il framework software disegnato per Apache da Yahoo, Google e Facebook, i primi vendor che hanno definito il framework per effettuare ricerche in un oceano di dati, indirizzate parallelizzandole tra un esercito di server). C’è poi lo schema NoSql, usato da Cassandra (base dati di Facebook), che Gentile considera “il data base distribuito più capace di scale-out” e di cui sottolinea la notevole capacità di assegnare un valore chiave a una stringa di dati NoSql, il che ne consente un agevole tracciamento.

E ancora lo schema Blob (Basic Large OBject) usato da MongoDb, orientato a memorizzare documenti e grandi oggetti (oggi è il più popolare). Infine, lo schema Neo per una base dati grafica, che cattura i grafi delle relazioni nei social network, in una struttura grid a molte variabili”.

Duplice il vantaggio con Jaspersoft: “Hadoop e Cassandra sono usabili in modo nativo grazie all’architettura aperta Jaspersoft (mentre a una Emc o a un'Ibm tocca includere nel proprio stack Hadoop, circondandolo di servizi di amministrazione e approvvigionamento proprietari)”, osserva Gentile. “Ne segue che l’accesso ai dati è facilitato da metodi di accesso Sql-like resi disponibili in Apache per Hadoop (Hive) e direttamente da Cassandra (Cql)”. Per tutti gli altri ambienti NoSql (ad esempio MongoDb, che rende disponibile solo un’Api) JasperSoft ha realizzato connettori Sql-like. Negli ultimi 12 mesi i download dei connettori JasperSoft dicono che MongoDb, Hadoop e Cassandra sono, nell’ordine, gli ambienti No-Sql più popolari; ma attenzione, il messaggio è che con i Big data servono “assolutamente tutti gli schemi”, puntualizza Gentile.

Rinaldo Marcandalli

Giornalista

Consulente aziendale e giornalista. 40+ anni di esperienza nello sviluppo software, laboratorio IBM e field, nelle telecomunicazioni prima e poi nelle applicazioni e nel governo del Dipartimento It. Esperienze sul campo in settori bancario, in particolare interbancario, assicurativo e pubblica amministrazione. Da 20+ anni segue prima da consulente e poi come giornalista l’evoluzione dei processi nei settori e da 10+ anni la loro trasformazione progressiva al digitale, specializzandosi nello studio della riorganizzazione agile, digitale e smart delle Aziende.

Big data con software open source, schemi per dati a strutture diverse

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

    LinkedIn

    Twitter

    Whatsapp

    Facebook

    Link

    Articolo 1 di 2